CN108615243A

CN108615243A - 立体多媒体信息的确定方法、装置及系统

Info

Publication number: CN108615243A
Application number: CN201710056693.XA
Authority: CN
Inventors: 郭亮; 徐子健; 左力; 陆奇星; 郝占龙; 高艳君; 熊君君
Original assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Current assignee: Beijing Samsung Telecommunications Technology Research Co Ltd; Samsung Electronics Co Ltd
Priority date: 2017-01-25
Filing date: 2017-01-25
Publication date: 2018-10-02
Also published as: KR20200067979A; KR102437421B1

Abstract

本发明提供了立体多媒体信息的确定方法、装置及系统，所述方法包括：获取至少两个飞行器各自的多媒体采集设备分别采集的多媒体信息；根据获取的所述多媒体信息确定出相应的立体多媒体信息。本发明中，至少两个飞行器通过各自装载的多媒体采集设备分别从不同角度拍摄同一对象，与传统的单无人机从同一角度拍摄同一对象相比，可以拍摄获得更具立体感的多媒体信息，使得用户观看时也更容易感受到多媒体信息的立体感，从而提升用户的视觉享受，提升用户体验。

Description

立体多媒体信息的确定方法、装置及系统

技术领域

本发明涉及视觉处理技术领域，具体而言，本发明涉及一种立体多媒体信息的确定方法、装置及系统。

背景技术

VR(Virtual Reality，虚拟现实)技术是综合利用计算机图形系统和各种显示及控制等接口设备，在通过计算生成的、可交互的立体(三维)环境中提供沉浸感觉的技术。目前随着VR设备的逐渐普及，越来越多的用户开始享受这种沉浸式的体验，需要大量的立体视频源。这时立体视频源就显得愈发重要。用户可能想要看到自己拍摄的立体视频，但是拍摄立体视频的器材价格昂贵，用户自行购买成本高昂。同时用户也会有观看高空拍摄的立体视频的需求。

传统的立体视频拍摄方法通常是基于正常瞳距的双目摄像机采集得到双目帧图像形成立体视频。用户可以手持双目摄像机进行拍摄；拍摄近景视频时，可以将用来拍摄近景视频的双目摄像机架设到云台上，并移动云台沿着预先布置轨道进行拍摄；拍摄远景时，可以将双目摄像机挂载到一个无人机上进行拍摄。

然而，本发明的发明人注意到，当被摄对象距离无人机所挂载的摄像机较远时，利用传统的立体视频拍摄方法所拍摄获得的视频中的该被摄对象可能不具备立体效果。

综上，现有的立体视频拍摄方法具有拍摄出的视频中距离较远的拍摄对象不具备立体效果的缺陷。

发明内容

本发明针对现有方式的缺点，提出一种立体多媒体信息的确定方法、装置及系统，用以解决现有技术存在拍摄出的视频中距离较远的拍摄对象不具备立体效果的问题。

本发明的实施例根据第一个方面，提供了一种立体多媒体信息的确定方法，包括：

获取至少两个飞行器各自的多媒体采集设备分别采集的多媒体信息；

根据获取的所述多媒体信息确定出相应的立体多媒体信息。

本发明的实施例根据第二个方面，还提供了一种立体视频多媒体信息的确定装置，包括：

多媒体信息获取模块，用于获取至少两个飞行器各自的多媒体采集设备分别采集的多媒体信息；

立体多媒体信息确定模块，用于根据所述多媒体信息获取模块获取的所述多媒体信息确定出相应的立体多媒体信息。

本发明的实施例根据第三个方面，还提供了一种立体多媒体信息的确定系统，包括：至少两个飞行器、飞行器各自的多媒体采集设备以及本发明各实施例提供的立体多媒体信息的确定装置。

本发明的技术方案中，至少两个飞行器通过各自装载的多媒体采集设备分别从不同角度拍摄同一对象，与传统的单无人机从同一角度拍摄同一对象相比，可以拍摄获得更具立体感的多媒体信息，使得用户观看时也更容易感受到多媒体信息的立体感，从而提升用户的视觉享受，提升用户体验。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明的立体多媒体信息的确定方法的流程示意图；

图2为传统的单无人机和本发明实施例一的双无人机拍摄同一远距离对象的立体效果对比示意图

图3a和3b为直接采用单无人机的防抖方法对本发明实施例一中的双无人机拍摄获取的双目帧图像分别独立进行去抖处理的实例的示意图；

图4为本发明实施例一中对双目帧图像进行去抖处理的一个实例的原理示意图；

图5为本发明的双无人机共面/不共面、以及光轴与基线夹角相等或不等的多个实例的示意图；；

图6a为本发明实施例一中当飞行器为无人机时，无人机内部结构的一个实例的示意图；

图6b为本发明实施例一中当飞行器为无人机时，双无人机进行立体视频拍摄的流程原理的一个实例的示意图；

图7为本发明实施例二的物距与基线距离之间的关系的一个实例、以及被摄对象所占区域大小与基线距离之间的关系的一个实例的示意；

图8为本发明实施例二的根据无人机的俯仰角和无人机的拍摄高度估算出物距的一个实例的示意图；

图9为本发明实施例二的被摄对象不变时两个飞行器的基线距离不变的一个实例的示意图；

图10a、10b分别为本发明实施例二的在基线距离调整模式一、二下调整两个飞行器之间的基线距离的一个实例的示意图；

图11为本发明实施例三的对至少两个飞行器各自的多媒体信息采集设备所采集的多媒体信息进行去抖处理方法的流程示意图；

图12为本发明实施例三的两个无人机在相邻时刻采集的四帧单目帧图形之间的关系的示意图；

图13a、13b都为本发明实施例三的滤除帧图像中特征点的原理示意图；

图14为本发明实施例三的确定出相邻时刻两帧图像之间的运动信息的一个实例的示意图；

图15为本发明实施例三的时段内多帧图像累积的运动信息的一个实例的示意图；

图16为本发明实施例三的两个飞行器确定同一个三维点的成像像素位置关系的原理示意图；

图17a为本发明实施例四的调整多媒体采集设备的拍摄焦距的方法的流程示意图；

图17b为本发明实施例四的两个飞行器各自的多媒体采集设备基于初始焦距双向搜索当前焦距的原理的示意图；

图17c为本发明实施例四的两个飞行器各自的多媒体信息采集设备基于初始焦距双向搜索当前焦距的一个实例的框架示意图；

图18为本发明实施例五的基于共享神经网络的基线距离及调整方式、和初始焦距的一种确定方法的流程示意图；

图19为本发明实施例五的共享神经网络的内部结构及工作原理的一个实例的示意图；

图20为本发明实施例五的基于共享神经网络的基线距离及调整方式、和初始焦距的另一种确定方法的流程示意图；

图21为本发明实施例五的共享神经网络的内部结构及工作原理的另一个实例的示意图；

图22为本发明实施例六的无人机中的空间同步相关硬件的一个实例的示意图；

图23a为本发明实施例七的两个飞行器的旋转轨迹的一个实例的示意图；

图23b为本发明实施例七的两个飞行器的协同转向控制方法的一个实例的流程示意图；

图24为本发明实施例八的目标对象的一个实例的示意图；

图25为本发明实施例八的两个飞行器自动跟踪拍摄目标对象的轨迹的一个实例的示意图；

图26为本发明实施例十的立体多媒体信息的确定装置的内部结构的框架示意图；

图27a为本发明实施例十的单无人机的较为详细的一个架构实例的示意图；

图27b为本发明实施例十的双无人机的较为详细的一个架构实例的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(Personal Communications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本发明提供一种立体多媒体信息的确定系统，包括：至少两个飞行器。

至少两个飞行器中的每个飞行器，包括：多媒体采集设备。

本发明中，多媒体信息包括：图片、和/或视频。图片可以是单独的图片，也可以是连续图片。视频包括帧图像。

为了便于理解，本文后续以两个飞行器拍摄立体视频为例，具体介绍本发明的技术方案。

两个飞行器可以都是固定翼飞行器、或都是旋翼飞行器；可以都是载人飞行器、或都是无人机。

较佳地，由于旋翼型无人机较为容易控制飞行姿态，例如可以进行悬停，可以优选作为拍摄立体视频的两个飞行器。旋翼型的无人机可以包括：单轴旋翼无人机和多轴旋翼无人机；例如，四轴旋翼无人机，从外形上看包括四个独立的旋转轴，每个旋转轴对应配置一套旋翼。

本发明的立体多媒体信息的确定系统还包括立体多媒体信息的确定装置。

较佳地，本发明的立体多媒体信息的确定系统还包括：地面控制台。

本发明提供立体多媒体信息的确定方法，该方法的流程示意图如图1所示，包括下述步骤S101至S102：S101：获取至少两个飞行器各自的多媒体采集设备分别采集的多媒体信息。S102：根据获取的多媒体信息确定出相应的立体多媒体信息。

可以理解，相比于现有技术中一个无人机装载双目摄像机进行立体视频拍摄的方案，本发明的技术方案中，至少两个飞行器通过各自装载的多媒体采集设备分别从不同角度拍摄同一对象，与传统的单无人机从同一角度拍摄同一对象相比，可以拍摄获得更具立体感的多媒体信息，使得用户观看时也更容易感受到多媒体信息的立体感，从而提升用户的视觉享受，提升用户体验。

现有技术中，一个无人机装载双目摄像机进行立体视频拍摄时，双目摄像机之间的基线距离一般为正常瞳距，如果拍摄远距离对象，则两个摄像机之间的基线距离远远小于物距，那么拍摄出的立体视频可能不具备立体感，而本发明技术方案中，每个飞行器装载各自对应的多媒体信息采集设备，多媒体采集设备之间的基线距离较大，那么拍摄出的立体视频就会具有很好的立体效果，使得用户观看时也更容易感受到多媒体信息的立体感，从而提升用户的视觉享受，提升用户体验。

下面具体介绍本发明的技术方案的多个实施例。

实施例一

本发明的发明人经过研究发现，传统的立体视频的确定方法中，双摄像机都会固定并同步所有设置，两个摄像机之间的基线距离是固定的(基线距离：两摄像机光心之间的线段的绝对长度)。

基于基线距离为正常瞳距的双目摄像机采集双目帧图像。当物距(被摄对象与摄像机的距离)与基线距离的比值小于50时(例如正常瞳距为7cm，在观测2m距离的对象时物距与及基线距离的比例小于50)，人眼可以感受到视差，进而观察者能够感觉到对象的立体感。

而对于远距离或中远距离的对象，由于物距远远大于基线距离(例如物距与基线距离的比值远大于50)，实际上两个摄像机之间的基线距离相比于物距可以忽略，两个摄像机可以认为是从同一角度拍摄同一对象的，得到的一目帧图像中的对象区域与另一目帧图像中的对象区域之间基本上不存在视差。当用户观看双目帧图像中不存在视差的对象时，基本上人眼已经感觉不出被观测对象的立体感(例如从飞机上俯瞰地面上的建筑)。

因此，以现有固定的短基线距离进行立体视频的确定方法，容易导致远距离或中远距离被拍摄对象丧失立体感。也就是说，虽然立体视频是由双目摄像机拍摄的双目帧图像构成的，但是对于用户而言，在观看视频的过程中，视频中出现的远距离的对象或中远距离对象没有立体感，相当于在看普通的2D视频，大大影响了用户观看体验。

本发明的发明人发现，即使设置在单个载体(用户手持、云台、导轨或单无人机等)上的双目摄像机之间的基线距离，可以调整。现有的双目摄像机之间的最大基线距离，仍然受到人体双手臂长、云台、导轨和单无人机的尺寸的限制，依然远远小于物距，即物距与现有的最大基线距离的比值仍然大于50。对于远距离(物距)的被摄对象而言，仍然没有立体感。

基于上述研究和发现，本发明的发明人考虑到需要对本发明的两个飞行器之间的基线距离进行调整。

具体地，本发明的发明人注意到，在立体视频拍摄中，视差非常重要。一般来说成年人双眼间距离约为7cm(为方便计算，通常确定人眼的基线距离为约等于10cm)。如果以人的视觉去观测离自己比较近的对象，往往人可以看到很大的视差，进而产生立体感；当单无人机模拟一个人的双眼间的基线距离去拍摄(观看)一个远处的对象时，例如如图2中的左边部分所示，观察远距离的对象时，远距离的对象就会缺失视差，进而丧失立体感，这样立体视频就会退化成为2D视频。

因此，对于一些远距离对象较多场景，例如如图2中的右边部分所示，适当加大基线距离可以保持远距离对象在用户双眼中仍然呈现立体效果。对于一些近距离对象，可以适当缩小基线距离。

基于上述考虑，本发明实施例一的立体多媒体信息的确定方法中，还包括：根据被摄对象和/或拍摄环境，调整至少两个飞行器之间的基线距离。

根据被摄对象和/或拍摄环境，调整至少两个飞行器之间的基线距离的具体实施例请参考后续实施例二。

总之，本发明实施例一中的至少两个飞行器之间的基线距离的调整方法，可以根据被摄对象(被拍摄的对象)，自适应确定出并调整至合适的基线距离。

较佳地，本发明的发明人进过研究发现，用户对于视频的抖动较为敏感。采集到的视频如果由于抖动导致用户左、右眼观测到的帧图像不一致，会大大影响用户的观看体验。所以去抖对于视频立体采集来说是一个很重要的步骤。

在两个飞行器采集立体视频过程中，由于飞行器中的电机震动、受到空气流的影响、和/或飞控误差等原因会引起飞行器抖动，导致固定在飞行器上的多媒体信息采集设备跟随飞行器产生抖动，容易导致拍摄的双目帧图像之间出现上下不一致等图像抖动现象，容易降低拍摄的立体视频的质量。

为了保证拍摄内容的质量，本发明实施例一中，根据两个飞行器拍摄的双目帧图像，检测是否发生抖动；若发生抖动，则计算抖动信息，根据抖动信息对拍摄的帧图像进行抖动补偿处理，即去抖处理。

通常来说，抖动分为高频抖动和低频抖动。高频抖动往往由于飞行器飞控误差引起，其抖动幅度往往较小，对帧图像影响较小。对于高频抖动，由于频率较高，其需要较快的响应，本发明实施例一中可以采用飞行器多媒体信息采集设备自带的光学、物理防抖装置完成。这些技术为本领域技术人员所熟知，此处不再赘述。

低频抖动往往是由于环境变化引起，例如气流变换等，其振动幅度大于高频抖动的幅度。而对于气流等导致的低频防抖超出了飞行器自带装置的能力，需要用图像处理相关方法辅助进行处理。下面重点讨论基于图像处理的低频防抖方法。

现有的单飞行器的防抖方法通常包括：针对单目视频图像序列中帧图像，利用运动估计算法检测帧图像的实际运动信息，并判断该运动是否属于抖动(例如可以对帧图像的运动进行平滑滤波，滤波后得到的低频运动信息可以认为是帧图像的期望运动信息，将检测出的帧图像的实际运动信息与期望运动信息进行比较，进而判断该运动是否为抖动)，若属于抖动，在通过图像运动补偿算法来消除或者减轻抖动对图像的干扰。

然而，基于多飞行器协同拍摄与现有的单飞行器单独拍摄不同的是：单飞行器只需要独立处理单飞行器的防抖问题，而多飞行器协同拍摄需要考虑到两个飞行器的相对位置。对于两个飞行器协同作业，如果直接采用单飞行器的防抖方法，很可能会产生去抖处理后的双目帧图像之间诸如高低不一致的问题，相当影响用户的观看体验，甚至容易导致用户产生眩晕等不适感。

例如，当双无人机协同进行立体视频拍摄时，若直接采用单无人机的防抖方法对双无人机拍摄获取的双目帧图像分别独立进行去抖处理，则很容易得到如图3a或图3b中的结果。

在图3a中，两条实曲线分别表示两个无人机所拍摄的帧图像的实际运动轨迹，两条实曲线左下角的端点分别表示两个无人机对应开始拍摄时刻的飞行起点；虚线表示独立防抖处理时，每个飞行器所拍摄的帧图像进行防抖处理后的期望运动轨迹。由于双目帧图像由双无人机各自的多媒体信息采集设备独立拍摄得到，受到气流等影响双无人机实际运动轨迹可能会不一致，根据双无人机的实际运动轨迹独立进行防抖后，分别得到双无人机各自独立的期望运动轨迹。由于一个无人机的独立防抖并未考虑与另一无人机的期望运动轨迹相匹配，因此大部分情况下，双无人机各自独立的运动轨迹并不共面，甚至没有重叠的视野；很容易导致各自拍摄出的单目帧图像之间出现一目帧图像中的对象的位置较高、另一目帧图像中同一对象的位置较低等人眼不能接受的情况；或者由于两个期望运动轨迹分别偏左和偏右，导致出现两目帧图像中不存在相同的对象(即两目帧图像之间不存在重叠区域)，不存在双目聚焦点，无法形成立体感；从而容易导致双目视觉不一致，严重影响用户的观看体验。

在图3b中，两架飞行器假如遇到气流，导致一架飞行器下沉，另一架上浮。当采用单飞行器独立防抖算法后，用户看到的双目帧图像可能会是一边高一边低的效果。用户观看这种帧图像自然会感觉很不舒服。在图3b中，假设携带左眼多媒体信息采集设备(用于拍摄左目图像的多媒体信息采集设备)的飞行器受到一个向下的气流，独立防抖会认为飞行器飞行轨迹偏下方，会给左眼图像一个向上的补偿，即选取图像中偏上的部分区域作为补偿后的左眼图像。同理假设右眼多媒体信息采集设备(用于拍摄右目图像的多媒体信息采集设备)的飞行器受到一个向上的气流，独立防抖会认为飞行器飞行轨迹偏上方，会给右眼图像一个向下的补偿，即选取图像中偏下的部分区域作为补偿后的右眼图像。但是两个飞行器没有进行协同防抖，两个飞行器估计的抖动幅度可能与实际会有较大偏差，在单飞行器中该偏差不会对视频质量有较大影响，但是双目视频中其会导致观测到的双目图像重合区域较少，且位置不在一个水平面，在图3b中，从两个飞行器独立防抖的结果可以看出，左右眼图像的重合区域较少，且重合区域并不在一个水平面，这严重影响了用户的观看体验。所以本发明的技术方案中采用协同防抖的方法，在考虑到单飞行器去抖动的同时也要兼顾多架飞行器的相对位置关系，实现多飞行器的协同防抖，进而给用户提供较优的立体视频观看体验。

具体地，本发明的技术方案的多飞行器协同防抖方法中，两架飞行器所拍摄的图像的实际运动信息可以通过实际测量得到，也可以对飞行器拍摄的双目帧图像进行特征点匹配得到。在计算两架飞行器所拍摄的图像的期望运动信息(如图4中虚线)时，可以根据在基线距离调整过程中得到的当前的期望基线距离，来确定两架飞行器的期望相对位置关系，将两架飞行器的期望相对位置关系作为约束条件，来确定双目帧图像的期望运动信息。然后可以根据双目帧图像的期望运动信息和实际运动信息对双目帧图像进行去抖处理。

例如，图4为本发明实施例一中对双目帧图像进行协同去抖处理的一个实例的原理示意图。

当两个飞行器具体为双无人机时，在图4中，表示无人机1和无人机2在t时刻的期望相对位置关系。实曲线表示无人机所拍摄的帧图像的实际运动，虚线表示双无人机协同防抖时，各无人机所拍摄的帧图像的期望运动。

较佳地，针对无人机拍摄过程中发生的低频抖动、和/或其他类型的抖动(如高频抖动)，也可以采用本发明实施例一中的上述去抖处理方法进行去抖处理。

进一步，当检测出无人机的抖动不剧烈时，可以采用上述方法基于帧图像进行去抖处理；但是当抖动受到强气流影响较为剧烈时，通过其它方法进行处理(该其它方法将在后续详述，此处不赘述)。

因此，本发明实施例一的立体多媒体信息的确定方法中，还包括：对采集的多媒体信息进行去抖处理。

此外，本发明实施例一中的对采集的多媒体信息进行去抖处理的具体方法，请参考后续实施例三。

利用本发明实施例一提供的协同防抖方法，可以对双目帧图像的共同区域进行最大化，提升共同区域的立体感，可以提升用户的观看感受。

较佳地，本发明实施例一的立体多媒体信息的确定方法中，还包括：调整多媒体采集设备的拍摄焦距。

至少两个飞行器的多媒体采集设备的焦距调整的具体方法请参考实施例四。

较佳地，本发明的发明人进一步发现，为了保证本发明实例一中至少两个飞行器的多媒体采集设备采集的多媒体信息的双目视觉的一致性，可以使得两个飞行器各自设置的多媒体采集设备满足如下共面条件：

1)当多媒体采集设备水平放置时，将经过两个多媒体采集设备光心的水平面定义为法平面；当多媒体采集设备倾斜时，法平面也随之倾斜；本发明的技术方案中，两个多媒体采集设备的法平面共面。

2)将两个多媒体采集设备的光心连线定义为基线，本发明的技术方案中，上述基线与两个摄像设置的光轴的夹角相等。

本发明的技术方案，将多媒体采集设备与其载机(即设置该多媒体采集设备的飞行器)在垂直于法平面上的角度，设置为固定角度。因此，本发明的技术方案中，两个多媒体采集设备的法平面共面，转化为实际上要求两个飞行器共面。

为了便于理解，本文后续以两个飞行器共面，代表两个多媒体采集设备的法平面共面。

此外，可以根据实际需要，控制多媒体采集设备在法平面内进行旋转，使得两个多媒体采集设备的光轴平行或不平行。

例如，图5示出了双无人机共面/不共面、以及光轴与基线夹角相等或不等的多个实例。具体地，如图5当两个飞行器为双旋翼无人机时，双无人机共面、或不共面，以及光轴与基线夹角相等或不相等各种情况。在上述图5中的左下子图和右下子图中的两个摄像机的法平面共面，而中下子图中两个无人机的高度不相等，因此两个摄像机的法平面不共面。

本发明实施例一的立体多媒体信息的确定方法中，还包括：对至少两个飞行器进行时间同步和/或空间同步。

其中，两个飞行器空间同步时，两个飞行器共面。具体的同步方法可以参考后续的实施例六，此处不再赘述。

较佳地，两个飞行器同步后，一个飞行器通过该飞行器携带的多媒体采集设备进行拍摄，获取一目作为多媒体信息的帧图像；同理，另一个飞行器拍摄获取另一目帧图像。对于两个飞行器而言，就是拍摄获取了双目帧图像。由于已进行过拍摄时间同步，因此拍摄获取的是同一时刻的双目帧图像，可以用于确定出作为立体多媒体信息的立体视频。

事实上，可以在两个飞行器拍摄立体视频的过程中，利用本发明实施例一中的方法，可以执行下述至少一个操作：实时对两个飞行器进行同步、实时调整两个飞行器之间的基线距离、实时调整两个飞行器各自的多媒体采集设备的焦距、实时对多媒体采集设备采集的多媒体信息进行去抖，通过上述操作，可以采集获取立体感更加丰富、图像更加清晰的立体多媒体信息，可以提升用户观看体验。

此外，本发明实施例一的技术方案中，还提出针对两个飞行器同步作业(即同步拍摄立体多媒体信息)产生的异常的处理方式(具体请参见后续实施例九)。

更优的，图6a示出了当飞行器为无人机时，无人机内部结构的一个实例的示意图。为了简化图6a，一些模块之间的信息传递关系没有示出。

本发明实施例一的无人机包括：多媒体采集设备、飞行系统、同步模块、基线调整模块和控制模块等。较佳地，本发明实施例一的无人机还包括：防抖模块、通信模块、天线和传感器等。

其中，同步模块的主要功能是对两个飞行器协同进行时空的同步。

控制模块主要用以控制整体飞行器运转并且承担以下工作：接收其他模块发送的信息；给其他模块发送控制信号；异常出现时候进行错误控制；承担主要视觉计算任务；飞控层面的防抖工作。较佳地，控制模块用以调用多媒体信息采集设备拍摄获取单目帧图像，对于两个飞行器而言，就是拍摄获取了双目帧图像。较佳地，控制模块用以调用飞行系统控制所属飞行器的飞行姿态。

基线调整模块主要功能是：根据双目帧图像基于双目视觉的相关算法进行分析，提供基线调整信息给控制模块；由控制模块调用飞行系统调整两个飞行器之间的基线距离。

防抖模块的主要功能是检测并补偿飞行器拍摄过程中的抖动，保证拍摄视频平稳。

聚焦模块的主要功能是根据被拍摄对象内容快速聚焦于被拍摄对象。

通信模块的主要功能包括：与地面控制台和/或地理控制台进行信息交互。

飞行系统的主要功能是接收飞行器的飞行相关上层抽象命令后对飞行器装置进行飞行姿态的具体控制。

上述多个模块和系统的具体功能将在后续详述，此处不再赘述。

在实际应用中，两个飞行器中的每个飞行器的控制模块，主要负责系统的总体控制功能，承担主要神经网络计算工作，并接收各其它工作模块的信息，把相关控制信息发送到对应模块，实现对整个系统的控制。

控制模块接收到多媒体信息采集设备拍摄获取的帧图像，对帧图像进行预计算，并交给聚焦模块和基线调整模块分别进行焦距调整和基线距离调整处理。而聚焦模块和基线调整模块通过在线学习，向控制模块反馈参数的更新信息，控制模块接收到此信息后，更新深度学习网络相应参数。具体可参考实施例五。

两个飞行器中的每个飞行器的通信模块，主要把接收的信息解调后传递给控制模块，控制模块将接收到的信息分发给各相关模块。同时，控制模块把系统的图像/配置信息传递给通信模块，通过通信模块传递信息给协作的飞行器或地面控制台。

两个飞行器中的每个飞行器的同步模块，主要根据控制模块给出的时间戳发送时间同步信号，进行时间同步。此外，当空间定位完成时，同步模块会发送信号给控制模块，以完成同步过程。

当协同工作的飞行器的飞行状态异常，已超出防抖模块可正常解决的范围时，控制模块会综合多媒体信息采集设备、基线调整模块和传感器传入的信息，计算飞行控制参数，直接向飞行系统发送飞行姿态和轨迹调整指令(具体请参考后续实施例六)，并可以通过同步模块重新进行初始化。

下面对无人机各模块之间的交互进行整体性的介绍。

当无人机飞行时，通过天线接收信号输入通信模块。通信模块解调天线接收到的信息传送给控制模块。控制模块收到信息进行分析，并把控制信息传送给相应的模块进行执行。如果需要协同作业时，无人机同步模块会接收控制模块的指令，进行同步过程。同步过程完毕后同步模块发送消息通知控制模块同步完成。

同步完成后，无人机即可以开始同步拍摄工作。对于一架无人机，多媒体信息采集设备将拍摄获取到的帧图像传送给防抖模块。防抖模块可以根据帧图像的实际运动与期望运动不一致计算抖动信息。这里具体可以依据帧图像帧间的信息或者基于测量估计抖动对帧图像进行补偿，进而消除抖动。同时多媒体信息采集设备拍摄的图像也会传送给控制模块，控制模块进行深度学习前端计算(具体请参考后续实施例二、三和五)，计算后的结果传送给聚焦模块和基线调整模块分别进一步计算，进而确定出所拍摄的双目帧图像的焦距和双无人机之间合适的期望基线距离。聚焦模块将计算得到的焦距值传送给多媒体信息采集设备镜头进行快速聚焦，基线调整模块将计算得到的期望基线距离发送给控制模块和飞行系统，飞行系统根据控制模块根据期望基线距离生成的调整指令，对两个飞行器之间的实际基线距离进行协同调整。

更优的，图6b示出了当飞行器为无人机时，双无人机进行立体视频拍摄的流程原理的一个实例的示意图。

根据图像流可以得到图6b所示的流程图(其中实际相对位置关系和期望相对位置关系说明请参考后续实施例二)。对多媒体信息采集设备拍摄获取的原始的双目帧图像进行去抖处理，将去抖处理后的双目帧图像送至控制模块，控制模块根据双目帧图像计算得到的前端结果送入聚焦模块和基线调整模块，聚焦模块确定出焦距信息用于调整焦距，而基线调整模块确定出期望基线距离信息送到飞行系统，飞行系统根据该期望基线距离信息进行调整，调整后将实际的基线距离信息送入防抖模块。防抖模块会结合实际的基线距离信息进行协同防抖处理(具体请参照防抖模块的说明)。

本发明实施例一中，当两个飞行器通过各自装载的多媒体采集设备拍摄远距离对象或中远距离对象时，可以调整两个飞行器之间的基线距离，例如将基线距离调整为100m(米)来拍摄远处的高楼大厦，使得远距离对象或中远距离对象被用户观看时具有立体感。可见，本发明实施例一中的基线距离的调整范围，可以远远超出以单飞行器为代表的现有载具的尺寸，可以解决单飞行器等现有载具拍摄的多媒体信息中，远距离对象或中远距离对象容易丧失立体感的技术问题。

而且，本发明实施例一中，当两个飞行器通过各自装载的多媒体采集设备拍摄中近距离对象时，可以调整减小两个飞行器之间的基线距离，使得中近距离对象被用户观看时也具有立体感。

进一步，本发明实施例一中，两个飞行器在拍摄多媒体信息过程中，由于两个飞行器是动态飞行的，其与被摄对象的距离可能会不断变化，因此利用本发明的实施例一，适当地动态调整两个飞行器之间(即多媒体采集设备之间)的基线距离，可以始终保护被摄对象的立体感，从而提升用户的视觉享受，提升用户体验。

实施例二

本发明实施例二中主要介绍上述实施例一中，根据被摄对象，调整至少两个飞行器之间的基线距离的方法。

本发明实施例二中提供了一种根据被摄对象，调整至少两个飞行器之间的基线距离的方法，具体包括：根据被摄对象对应的物距和/或被摄对象的内容属性，调整至少两个飞行器之间的基线距离。

其中，被摄对象的内容属性包括下述至少一项：被摄对象的形状、被摄对象在多媒体信息中所占区域、被摄对象的表面特征属性。

下面介绍根据被摄对象对应的物距，调整至少两个飞行器之间的基线距离的方法。

具体地，飞行器与被摄对象之间的物距，可以通过双目测距方式测量得到，或者根据飞行器的俯仰角和飞行器的拍摄高度(采集时的飞行高度)计算得到。

根据获取的两个飞行器各自的多媒体采集设备采集的双目帧图像，确定出被摄对象的深度信息。可以理解，被摄对象的深度信息，是相对于飞行器(的多媒体采集设备)的深度信息，可以确定出被摄对象与飞行器之间的物距。本步骤的原理，实际上就是确定出被摄对象与飞行器之间的物距。

较佳地，被摄对象可以是显著性对象。可以利用显著性检测方法、红外检测方法、或超声检测方法，从双目帧图像中直接提取获得显著性区域，作为显著性对象。可以利用对象检测方法，从双目帧图像中提取得到多个检测区域，优先选择居中的在帧图像中区域较大的人或动物等活体目标作为显著性对象，若帧图像中不存在人或动物等活体目标，可以选择其他对象(例如建筑或者家具)作为显著性对象。

根据被摄对象与飞行器之间的物距，调整两个飞行器之间的基线距离。

图7的(a)部分示出了物距与基线距离之间的关系的一个实例的示意图。图7的(a)部分中，上半部分的帧图像中作为被摄对象的楼宇，与飞行器之间的距离较大，为了使得该楼宇具有立体感，两个飞行器之间的基线距离需要采用长基线距离。因此物距较大时，需要将基线距离调整得较长。

图7的(a)部分中，下半部分的帧图像中作为被摄对象的楼宇，与飞行器之间的距离较小，为了使得该楼宇具有立体感，两个飞行器之间的基线距离需要采用短基线距离。因此物距较小时，需要将基线距离调整得较短。

较佳地，检测到双目帧图像中的被摄对象切换后，调整切换后的被摄对象与飞行器之间的物距。

更优的，根据飞行器的俯仰角和飞行器的拍摄高度，计算出被拍摄对象与飞行器之间的物距；根据计算出的物距，对两个飞行器之间的基线距离进行调整。

图8示出了根据无人机的俯仰角θ和无人机的拍摄高度估算出物距的一个实例的示意图。

本发明实施例二中的根据物距调整两个飞行器之间的基线距离的多种调整方法，适用于拍摄包含近距离对象和/或中距离对象的场景，也适用于拍摄包含中远距离对象和/或远距离对象的场景。

其中，本发明中的物距，指的是被摄对象与飞行器的多媒体信息采集设备之间的距离；由于多媒体信息采集设备与飞行器之间的距离，远远小于被摄对象与多媒体信息采集设备之间的距离，可以忽略，因此后续可以将被摄对象与飞行器之间的距离作为物距参与计算。

本领域技术人员可以根据实验数据、历史数据、经验数据和/或实际情况，划分中远距离物距和远距离物距的范围。例如，为简化问题，可以定义20至200米的物距为中远距离物距，大于200米的物距为远距离物距。

较佳地，对于中远距离对象或远距离对象，可以根据双目帧图像通过双目测距方式确定出物距。

较佳地，本发明的发明人注意到，当物距较大时候，人眼对基线距离的微小变化不敏感。对于远距离对象，可以根据飞行器的俯仰角和飞行器的拍摄高度确定出物距。可以简化基线调整算法的运算复杂度，提高基线距离的调整效率，并节省计算资源，有利于无人机节电，可以延长无人机的续航时间。

下面介绍根据被摄对象的形状，调整至少两个飞行器之间的基线距离的方法。

具体地，根据被摄对象在不同目帧图像中的视差，调整至少两个飞行器之间的基线距离。

确定出多媒体信息中被摄对象的形状。较佳地，被摄对象具体可以是显著性对象。可以采用通过下述方法检测出显著性对象所占区域：对象检测方法、显著性检测方法、红外检测方法、或超声检测方法。进而确定出显著性对象的形状。

当同一被摄对象在双目帧图像中的一目帧图像中的形状、与在另一目帧图像中的形状相同时，说明该被摄对象在双目帧图像中不存在视差，不需要调整两个飞行器之间的基线距离。

较佳地，根据同一飞行器的多媒体采集设备在不同基线距离条件下，针对同一对象采集的多媒体信息中的视差，调整两个飞行器之间的基线距离。

当同一飞行器的多媒体采集设备在不同基线距离条件下拍摄同一对象时，若该被摄对象的形状保持不变，此情况下不需要调整基线距离。

下面介绍根据被摄对象在多媒体信息中所占区域，调整至少两个飞行器之间的基线距离的方法。

具体地，从获取的两个飞行器各自的多媒体采集设备采集的双目帧图像中，确定出被摄对象所占区域。较佳地，被摄对象具体可以是显著性对象。可以采用通过下述方法检测出显著性对象所占区域：对象检测方法、显著性检测方法、红外检测方法、或超声检测方法。

根据被摄对象所占区域的大小，调整两个飞行器之间的基线距离。

图7的(b)部分示出了被摄对象所占区域大小与基线距离之间的关系的一个实例的示意图。图7的(b)部分中，上半部分的帧图像中作为被摄对象的玩具所占区域较小，使得在保持玩具与无人机之间物距不变的情况，双无人机之间需要较大的基线距离来保证针对该玩具具有双目视差，从而使得该玩具具有立体感。因此被摄对象所占区域较小时，需要调大基线距离。

图7的(b)部分中，下半部分的帧图像中作为被摄对象的人物所占区域较大，使得在保持人物与无人机之间物距不变的情况，双无人机之间需要较小的基线距离来保证针对该人物具有双目视差，从而使得该人物具有立体感。因此被摄对象所占区域较大时，需要调小基线距离。

较佳地，当被摄对象所占区域属于预设所占区域档位时，在保持物距的基础上，从对应预设的期望基线距离档位中，确定出两个飞行器之间的期望基线距离；根据确定出的期望基线距离，调整两个飞行器之间的实际基线距离。

下面介绍根据被摄对象的表面特征属性，调整至少两个飞行器之间的基线距离的方法。表面特征属性包括：纹理、和/或颜色等。

具体地，本发明的发明人经过研究发现，针对与飞行器的距离相同的两个被摄对象，被摄对象的表面纹理越平滑，两个飞行器之间的基线距离需要越长，以增强被摄对象的双目视差。

从至少两个飞行器各自的多媒体信息采集设备所采集的多媒体信息中，确定出被摄对象的表面纹理特征。例如，被摄对象的表面纹理特征可以通过高通滤波等方法获取。较佳地，被摄对象具体可以是显著性对象。

根据被摄对象的表面纹理特征，调整两个飞行器之间的基线距离。

例如，作为被摄对象的斑马的纹理信息丰富，而普通马的纹理信息较少，当无人机从拍摄斑马转换为拍摄普通马时，可以增大无人机之间的基线距离。

较佳地，如果被摄对象的纹理特征极弱，对两个飞行器之间的基线距离非常不敏感，即使调整基线距离，该被摄对象立体效果也并不会因此显著增强，此时也可以选择不调整基线距离，以节省不必要的工作量，提升拍摄效率，帮助飞行器节点，延长飞行器续航时间。

较佳地，当被摄对象的表面特征属性具体为纹理、且该纹理属于预设的稀疏度档位时，从对应预设的期望基线距离档位中，确定出两个飞行器之间的期望基线距离；根据确定出的期望基线距离，调整两个飞行器之间的实际基线距离。

较佳地，本发明的发明人还发现，被摄对象的表面颜色越单一，视差感越弱。因此，当被摄对象的表面颜色为单色时，不需要调整两个飞行器之间的基线距离。

下面介绍根据拍摄环境，调整至少两个飞行器之间的基线距离的方法，具体包括：根据拍摄环境的环境亮度、拍摄背景与被摄对象的对比度、飞行器的飞行高度限制中的至少一项，调整至少两个飞行器之间的基线距离。

具体地，当拍摄环境的环境亮度减弱至预设的亮度档位时，缩短物距至预设的物距档位。例如，当无人机移动拍摄时，从环境较亮的区域移动到环境较暗的区域时，可以缩短与被摄对象的距离。根据缩短后的物距，调整两个飞行器之间的基线距离。

当环境背景与被摄对象的对比度减小至预设的对比度档位时，缩短物距至预设的物距档位。例如，如绿洲和骆驼的对比度较大，沙漠和骆驼的对比度较小，当无人机从绿洲移动到沙漠时，可以缩短与被摄对象的距离。根据缩短后的物距，调整两个飞行器之间的基线距离。

当飞行器从室外移动至室内拍摄时，缩短物距至预设的物距档位。例如，当无人机从室外移动至室内拍摄时，由于室内的拍摄高度受限，因此无人机需要缩短与被摄对象的距离。根据缩短后的物距，调整两个飞行器之间的基线距离。

更优的，在实际操作中，特别的，两个飞行器在拍摄同一对象的过程中，可以保持两个飞行器之间的基线距离不变，以保证拍摄内容的视觉连续性，避免出现观众对同一对象的立体感频繁改变而产生的不适感。

当被拍摄对象不变时，即使被拍摄对象与飞行器的物距、被摄对象所占区域、被摄对象的形状、和/或被摄对象的表面特征属性等发生变化，两个飞行器之间的基线距离可以保持不变。

图9示出了被摄对象不变时两个飞行器的基线距离不变的一个实例的示意图。如图9所示，例如两个飞行器跟拍一个人从屋内走到了屋外，环境亮度等有可能发生改变，但不需要调整两个飞行器之间的基线距离。

较佳地，在切换被拍摄对象时，飞行器可以缓慢调整两个飞行器之间的基线距离，使观看者尽可能适应调整。例如，当前时刻的双无人机之间的基线距离为d时，可以0.1*d/秒作为调节速度，对基线距离进行调整。

其中，切换被摄对象包括：主动切换被摄对象、以及被动切换被摄对象。主动切换被摄对象是指主动放弃当前被摄对象、切换拍摄下一个对象作为被摄对象。

被动切换被摄对象是指当前的被摄对象突然从视野中消失，被迫将下一个对象作为被摄对象。例如，作为当前被摄对象的人进屋子了，还在屋子外面的无人机就无法立刻对进屋的人进行拍摄，被摄对象被迫切换为屋子的门或其它部分等。

此外，当在双目帧图像中未检到作为被摄对象的显著性对象时，不调整两个飞行器之间的基线距离。

此外，下面介绍根据用户指令，调整两个飞行器之间的基线距离的方法。

具体地，根据用户指定的被摄对象信息，确定出指定的被摄对象与飞行器之间的物距，进而调整两个飞行器之间的基线距离。例如，系统接收用户指定的感兴趣对象后，无人机根据用户指定自动进行基线调整。例如将双目帧图像中该对象区域保留，周围区域置零作为图像输入到神经网络，回归出期望基线距离。

或者，根据用户针对基线距离的调整指令，对两个飞行器之间的基线距离进行调整。例如，用户根据系统自动进行基线调整产生的视觉效果，实时进行基线距离的微调。系统接收到用户的基线调整指令，对实际基线距离进行调整。

或者，根据用户调整的物距，调整两个飞行器之间的基线距离。例如，用户调整物距，例如调整无人机与被拍摄对象的垂直高度和水平距离、拍摄的角度，无人机基于调整后的物距，自动调整两个无人机之间的基线距离。

下面介绍调整至少两个飞行器之间的基线距离的方法。

具体地，确定每个飞行器的调整方式，根据确定出的调整方式分别调整对应的飞行器的运动状态，调整方式包括调整方向和/或调整步长。

较佳地，调整两个飞行器之间的基线距离时，可以分为两种模式实现。

基线距离调整模式一

将两个飞行器之间的基线距离的调整状态划分为向宽调整、向短调整和维持(即不调整)三类状态。在该模式下，两个飞行器的调整步长相等，调整方向相反。

较佳地，基线距离调整模式一中，可以根据设定的调整步长周期性调整两个飞行器之间的基线距离。其中，一个周期的调整包括：获取两个飞行器各自的多媒体采集设备所采集的多媒体信息，输入预设的深度学习的神经网络，分类预测出当前周期的基线距离调整状态为向宽调整、向短调整或维持；当神经网络的分类预测结果表明当前周期为向宽调整、或向短调整时，控制两个飞行器各自的飞行系统，使得该两个飞行器同时向背、或向对调整一个调整步长的距离；之后，继续获取当前周期调整基线距离后的两个飞行器各自的多媒体采集设备所采集的多媒体信息，继续分类出下一个周期的基线距离调整状态，直到两个飞行器之间的基线距离的调整状态为维持时，结束整个基线距离的调整过程。

进一步，除了利用神经网络得到分类预测结果之外，还可以通过神经网络回归算法(regression)得到两个飞行器之间的期望基线距离；进而，基于期望基线距离调整两个飞行器之间的实际基线距离。例如，当基线距离调整状态为向宽调整、或向短调整时，控制两个飞行器各自的飞行系统，使得该两个飞行器同时向背、或向对调整位置，直到两个飞行器之间的实际基线距离达到期望基线距离。

更优的，两个飞行器之间的基线距离的一个周期的调整可以包括：获可以直接通过神经网络回归算法(regression)得到两个飞行器之间当前周期的期望基线距离，通过两个无人机之间的测距装置，得到两个飞行器之间当前周期的实际基线距离；从而确定出当前周期的基线距离调整状态为向宽调整、向短调整或维持。当当前周期的基线距离调整状态为向宽调整、或向短调整时，控制两个飞行器各自的飞行系统，使得该两个飞行器同时向背、或向对调整位置；进而执行下一周期的基线距离的调整，直到两个飞行器之间某一个周期的实际基线距离与期望基线距离相一致。

图10a示出了在基线距离调整模式一下调整两个飞行器之间的基线距离的一个实例的示意图。图10a中，基线调整方式可以通过神经网络分类预测得到，也可以通过比较当前的实际基线距离与期望基线距离得到。基线调整模块通过左眼视频帧和右眼视频帧，确定出基线调整方式(向近、向远或保持)以及期望基线距离，然后控制两个无人机的飞行系统分别调整飞行轨迹，从而调整了无人机间的基线距离。

基线距离调整模式二

基线距离调整模式二中，两个飞行器的调整方式是相互独立的。每一个飞行器分为向左调整、向右调整和不调整三种调整方向；两个飞行器的调整步长通常并不相等。

较佳地，基线距离调整模式二中，各飞行器的调整方式是根据被摄对象在采集的多媒体信息中的位置分别确定出的。为了使得被摄对象始终在多媒体信息中处于居中的位置，两个飞行器的调整方向和调整步长都可以不同。

较佳地，基线距离调整模式二中，可以周期性调整两个飞行器之间的基线距离。其中，一个周期的调整包括：获取两个飞行器各自的多媒体采集设备所采集的多媒体信息，输入预设的深度学习的神经网络，分类预测出当前周期的两个飞行器各自的调整方式，包括各自的调整方向和调整步长，其中两个飞行器各自的调整方向包括九种情况；根据两个飞行器各自的调整方式，分别控制两个飞行器各自的飞行系统，分别调整该两个飞行器的飞行位置；之后，继续获取当前周期调整基线距离后的两个飞行器各自的多媒体采集设备所采集的多媒体信息，继续分类预测出下一个周期的两个飞行器各自的调整方式，直到两个飞行器各自的调整方式都为不调整时，结束整个基线距离的调整过程。

图10b示出了在基线距离调整模式二下调整两个飞行器之间的基线距离的一个实例的示意图。基线调整模块通过左眼视频帧和右眼视频帧，确定出每个无人机的基线调整方式(向左、向右或不变)，然后分别控制每个无人机的飞行系统按照自身对应的基线调整方式调整飞行轨迹，从而调整了无人机间的基线距离。

本发明实施例二中，可以根据被摄对象与飞行器之间的距离(即物距)、被摄对象的内容属性，实时调整至少两个飞行器之间的基线距离，使得被摄对象，尤其是中远距离和远距离的被摄对象，在至少两个飞行器各自的多媒体采集设备采集的多媒体信息之间具有足够的双目视差，从而使得中远距离和远距离的被摄对象具有立体感，以提升用户的观看体验。

而且，本发明实施例二中，根据被摄对象的形状、被摄对象在多媒体信息中所占区域、被摄对象的表面特征属性中的至少一项，实时调整至少两个飞行器之间的基线距离。根据拍摄环境的环境亮度、拍摄背景与被摄对象的对比度、飞行器的飞行高度限制中的至少一项，调整至少两个飞行器之间的基线距离。进一步提升至少两个飞行器各自的多媒体采集设备采集的多媒体信息中被摄对象的立体感。

实施例三

本发明实施例三中主要介绍对至少两个飞行器各自的多媒体信息采集设备所采集的多媒体信息进行去抖处理方法，该方法的流程示意图如图11所示，包括下述步骤S1101-1103：

S1101：确定出每个飞行器的多媒体采集设备采集的多媒体信息对应的实际运动信息。

从每个飞行器的多媒体采集设备在设定时刻点对应的时间段内采集的各多媒体信息中确定出特征点。

其中，设定时刻点对应的时间段，可以是包含设定时刻点的时间段；例如，以设定时刻点为起始时刻点的时间段、以设定时刻点为结束时刻点的时间段、或者设定时刻点为该时间段中的一个时刻点。

例如，假设在t时刻和t+1时刻获得了无人机i和j采集到的作为多媒体信息的4帧单目帧图像。其中双无人机采集到的4帧单目帧图像frame之间的关系为如图12所示。在同一时刻(例如t时刻)，不同无人机各自的单目帧图像的像素点之间，应符合实际相对位置关系的约束；在t+1时刻，不同无人机各自的单目帧图像的像素点之间，应符合实际相对位置关系的约束。此外，t和t+1时刻间，每一架无人机拍摄到的两帧单目帧图像中同一特征点的位置信息可以用来估计该无人机在t时刻所拍摄的图像的实际运动信息。

较佳地，从设定飞行器的多媒体采集设备在设定时刻点采集的多媒体信息中选取特征点。根据选取的特征点，在每个飞行器的多媒体采集设备在设定时刻点对应的时间段内采集的各多媒体信息中，确定出匹配的特征点。

具体地，对于至少两个飞行器中的设定飞行器而言，从该设定飞行器的多媒体采集设备在设定时刻点采集的多媒体信息中提取至少一个特征点。

对于该设定飞行器对应的设定时刻点采集的多媒体信息(例如视频帧图像)中的多个特征点而言，在空间维度上，可以确定出在设定时刻点上其它飞行器的多媒体采集设备所采集的多媒体信息中，与这些多个特征点相匹配的特征点；在时间维度上，可以确定出在设定时刻点对应的(例如所属)时间段内，该设定飞行器的多媒体采集设备所采集的多媒体信息中，与这些多个特征点相匹配的特征点。

更优的，确定出匹配的特征点之后，针对各飞行器的多媒体采集设备在时间段内任一时刻点所拍摄的多媒体信息中的特征点，筛选出符合各飞行器在任一时刻点的相对位置关系的特征点。

具体地，根据在设定时刻点两个飞行器之间的实际基线距离，确定出两个飞行器各自的多媒体采集设备在设定时刻点采集的多媒体信息对应的第一实际相对位置关系；确定出每个飞行器在设定时刻点采集的多媒体信息中不符合第一实际相对位置关系的特征点，进行滤除。其中，第一实际相对位置关系具体指设定时刻点时两个飞行器的多媒体信息中相匹配的特征点之间的位置关系。进一步，当其中一个(例如设定飞行器之外的其它飞行器采集的)多媒体信息中不存在该特征点时，自然不符合第一实际相对位置关系。

例如，对于t时刻(此处作为设定时刻点)无人机i(此处作为设定飞行器)采集到的单目帧图像(此处作为多媒体信息)，可以(利用特征点选取算法)获取N个特征候选点，利用两架无人机在t时刻的实际相对位置关系在t时刻无人机j采集到的单目帧图像中找到相匹配的特征候选点。参照图13a，其中无人机i最左边的特征候选点由于超出了无人机j的视野，无法在无人机j拍摄的单目帧图像中观测到，故进行滤除。需要说明的是，实际相对位置关系根据双无人机实测基线距离计算得到。

在时间维度上，确定出每个飞行器在设定时刻点之后的其它时刻点采集的多媒体信息中，与设定时刻点的多媒体信息中特征点相匹配的特征点。

根据设定时刻点之外的其它时刻点(例如下一时刻点)的两个飞行器之间的实际基线距离，确定出两个飞行器各自的多媒体采集设备在其它时刻点各自采集的多媒体信息对应的第二实际相对位置关系；确定出每个飞行器在设定时刻点采集的多媒体信息中不符合第二实际相对位置关系的特征点，进行滤除。进一步，对于设定飞行器在其它时刻点采集的多媒体信息中的特征点，当其它飞行器在其它时刻点采集的多媒体信息中不存在与这些特征点相匹配的特征点时，设定飞行器在其它时刻点采集的多媒体信息中的特征点自然不符合第二实际相对位置关系。

其中，第二实际相对位置关系具体包括：对于设定飞行器在设定时刻点采集的多媒体信息中的至少一个特征点，该至少一个特征点在设定飞行器和其它飞行器在相邻时刻点采集的多媒体信息中的视差应当相同。也就是说，至少一个特征点经过同一时间段后，相对于飞行器不存在相对位移。当某一(运动对象的)特征点经过同一时间段后，相对于飞行器存在相对位移时，该特征点的在相邻时刻点(设定时刻点之外的其它时刻点)两个飞行器采集的多媒体信息中的视差，不同于其他(静止的对象的)特征点的视差，应当滤除。

多媒体信息(例如帧图像)中相对于飞行器静止的对象，可以包括相对于地面静止的对象；也可以包括相对于地面缓慢移动，但移动速度远远小于飞行器在拍摄时的移动速度(因而可以忽略移动速度)的对象；例如，跑步的人物。

可以理解，多媒体信息中处于远处的对象往往速度较慢，更容易成为静止的对象。因此，过滤后得到的特征点，通常是静态的远景对象的特征点。

例如，利用特征点匹配技术，在t+1时刻(作为设定时刻点之外的其它时刻点，例如相邻时刻点)无人机i(作为设定飞行器)的单目帧图像(作为多媒体信息)中，找到与t时刻(作为设定时刻点)无人机i的单目帧图像中的特征候选点匹配的特征点，对无人机j(作为设定飞行器之外的其它飞行器)也执行相同的操作。

将i，j两架无人机在t+1时刻的双目帧图像中匹配出的特征点，利用两架无人机在t+1时刻的实际相对位置关系关系进行验证。因为运动对象在无人机无抖动的情况下，依然会发生位置变化，另外，近景对象在图像中的位置变化不能准确反映无人机的抖动情况，因此运动对象或近景对象的特征点参与到运动估计过程中，会给估计结果带来很大的偏差，本发明在特征点匹配过程中，根据两个无人机间的相对位置关系，筛选出一系列稳定的静态远景特征点，提高了计算特征点位置信息的准确性以及协同防抖的准确性。在图13b中，由于从图中汽车相对于无人机存在相对运动，且汽车属于近景对象，所以汽车轮廓范围内的特征点在t+1时刻的相对位置不符合约束，进行滤除。

较佳地，对无人机i在t时刻所拍摄的图像取特征点集可以随机选取，亦可通过特征提取等规则获得，其在图像上的对应点集可以通过块匹配、光流法、特征匹配等方法获取，并且满足下述公式(1)：

考虑无人机i在相邻时刻t,t+1时，图像与之间的对应关系。帧图像上点集通过块匹配、光流法、特征匹配等方法计算其在帧图像上的对应特征点集用同样的方式计算帧图像上的对应特征点集并且满足下述公式(2)：

只保留同时满足约束关系(1)，(2)的特征点集。

根据确定的特征点，确定出多媒体采集设备在设定时刻点对应的时间段内采集的多媒体信息之间的运动信息，作为多媒体采集设备在设定时刻点采集的多媒体信息对应的实际运动信息。

较佳地，确定特征点在设定时刻点所对应的时间段内采集的多个多媒体信息中的位置信息。根据确定出的位置信息，确定出该时间段内任意相邻两个多媒体信息之间的运动信息。

进一步，根据特征点在同一飞行器在多个时刻点的多媒体信息中的位置信息，确定出两两相邻时刻点的多媒体信息之间的运动信息。

例如，通过任意无人机(以无人机i为例)在t和t+1时刻筛选出的特征点，可以估算出[t,t+1]时间段内两帧图像(作为多媒体信息)之间的运动信息(图14)，即求解

其中，argmin表示求最小值；||*||表示度量，可以是L2范数、L1范数或其它有意义的度量。同理，可以估算出[t-1,t]以及[t-2,t-1]等各个时间段内的帧图像的运动信息。

较佳地，根据相邻两个多媒体信息之间的运动信息，确定出多媒体采集设备在设定时刻点对应的时间段内采集的各多媒体信息累积的运动信息，作为多媒体采集设备在时间段内采集的多媒体信息之间的运动信息。

其中，设定时刻点对应的时间段内采集的各多媒体信息累积的运动信息，可以是指设定时刻点对应的时间段内任意两个时刻点采集的各多媒体信息累积的运动信息；也可以是设定时刻点对应的时间段内多个时刻点采集的各多媒体信息累积的运动信息。当设定时刻点对应的时间段仅包括两个时刻点时，即为该两个时刻点采集的各多媒体信息累积的运动信息。

进一步，根据两两相邻时刻点的多媒体信息之间的运动信息，确定出设定时刻点对应的时间段内各多媒体信息累积的运动信息，作为设定时刻点的多媒体信息的实际运动信息。

例如，如图15所示，计算一段时间内(例如[t-k,t+1]时间段内)帧图像(作为多媒体信息)的运动信息的累加，可以得到图像的累积的实际运动信息

S1102：根据实际运动信息以及至少两个无人机之间的期望基线距离，确定出多媒体信息对应的期望运动信息。

根据至少两个飞行器之间的期望基线距离，确定出至少两个飞行器之间的期望相对位置关系；根据每个飞行器的多媒体采集设备采集的多媒体信息对应的实际运动信息以及确定出的期望相对位置关系，确定出每个飞行器的多媒体采集设备采集的多媒体信息对应的期望运动信息。

较佳地，根据在设定时刻点时两个飞行器之间的期望基线距离，确定出该两个飞行器各自的多媒体采集设备在设定时刻点采集的多媒体信息对应的期望相对位置关系；根据设定时刻点的多媒体信息对应的期望相对位置关系，确定出每个飞行器的多媒体采集设备在设定时刻点采集的多媒体信息对应的期望运动信息。

例如，根据上述深度学习的神经网络回归得到的在设定时刻点时两个飞行器之间的期望基线距离，确定出期望相对位置关系。考虑到两架无人机在设定时刻点的期望相对位置关系的约束，进而得出每一架无人机在设定时刻点所拍摄的单目帧图像(作为多媒体信息)的期望运动信息。

即可以求解优化

其中，和满足的关系。

S1103：根据多媒体信息对应的实际运动信息和期望运动信息，对多媒体信息对应进行去抖处理。

根据每个飞行器的多媒体采集设备采集的多媒体信息对应的实际运动信息和期望运动信息，确定出多媒体信息对应的抖动信息；根据抖动信息，对多媒体信息进行去抖处理。

较佳地，根据每个飞行器的多媒体采集设备在设定时刻点拍摄的多媒体信息的实际运动信息和期望运动信息，确定出设定时刻点的多媒体信息的抖动信息；根据设定时刻点的多媒体信息的抖动信息，对设定时刻点的多媒体信息进行去抖处理。

较佳地，通过对比无人机在设定时刻点所拍摄的帧图像(作为多媒体信息)的实际运动信息与期望运动信息，即可得到帧图像的抖动信息，根据抖动信息进而对每一帧图像进行协同去抖。

例如，对无人机i，根据下述公式(3)计算其在t时刻(作为设定时刻点)所拍摄的单目帧图像(作为多媒体信息)的抖动信息

对存在抖动的图像，根据下述公式(4)消除抖动，即

上述公式(4)中表示无人机i在t时刻拍摄获取的去抖处理后的单目帧图像。

同理，无人机j在t时刻所拍摄的单目帧图像也可以采用上述方式进行去抖处理。

需要指出的是，本发明实施例三中利用双无人机的期望相对位置关系约束图像在一个时间段内累积的运动信息，相比于利用相邻帧间的运动信息，可以消除相邻帧间的运动信息可能包含微扰动，提升运动信息的平滑性，利用更加平滑的运动信息提升整个去抖处理的平滑性。

下面介绍确定相对位置关系H的具体过程。

如图16所示，两个飞行器的多媒体采集设备对同一个三维点的成像像素位置关系如下述公式(5)所示：

P′＝K′RK^-1P+K′t/Z…………………………..(5)

公式(5)中P，P′为两个成像的像素点在各自单目帧图像中坐标位置，其中P＝[x,y,z]^T,P′＝[x′,y′,z′]^T。可以定义向量(同理可定义)，及相对位置关系使得式中Z为物距，t为平移变换关系(与基线距离相关)，R为旋转变换矩阵(其与两个飞行器的两个多媒体采集设备(例如，双目摄像设备)的光轴在法平面中的夹角相关，但是一般情况下双目多媒体采集设备的光轴平行，故R退化成为单位阵I)。K，K’为camera calibration matrix(相机矫正矩阵)，其与相机焦距，相机的principal point(主点)有关(可以假设相机聚焦等参数一样时候K和K’相等)。

影响相对位置关系H的变量包含基线距离。在上述步骤S1501中进行空间维度和时间维度的单目帧图像之间的特征点匹配时，通过实测基线距离，可以得到实际相对位置关系和在上述步骤S1502中计算图像的期望运动信息时，通过基线调整模块回归出的期望基线距离，可以得到期望相对位置关系

在另外一种实施方式中，无人机可以通过自身的测量装置，测量得到每一个时刻的实际绝对位置，包括高度和平面位置；例如高度采用气压计和超声测量；平面位置具体可以是在平行于水平面的平面中的位置；例如经纬度坐标可以使用GPS测量。通过飞行系统可以获得每一时刻的期望绝对位置，根据期望绝对位置和实际绝对位置对无人机在每一时刻所拍摄的帧图像进行去抖处理。

在实际中，通常自身测量装置测量得到的无人机的绝对坐标位置误差较大(大约为10m)，大大超出抖动的幅度，故根据期望绝对位置和实际绝对位置的去抖处理，可以作为上述根据双目帧图像的实际运动信息和期望运动信息的去抖处理之前的预去抖处理。

本发明实施例三中，在确定至少两个飞行器中每个飞行器所采集的多媒体信息的期望运动信息时，考虑了两个飞行器之间的相对位置关系，相当于期望运行信息包含了两个飞行器之间的相对位置关系；根据包含了两个飞行器之间的相对位置关系的期望运动信息、以及实际运动信息，对两个飞行器各自的多媒体采集设备所采集的多媒体信息进行去抖处理，与现有的去抖处理方法相比，有利于扩大去抖处理后的两个多媒体信息之间的共同区域，可以增强去抖处理后的两个多媒体信息之间的视觉一致性，有利于提升根据去抖处理后的多媒体信息生成的立体多媒体信息的立体感，可以提高用户的观看立体多媒体信息(例如立体视频)感受。

而且，本发明实施例三中，在确定出两个飞行器中每个飞行器采集取的多媒体信息的实际运动信息过程中，对特征点进行过滤，保留静态稳定的特征点，并基于静态稳定的特征点确定出设定时刻点的多媒体的实际运动信息；既提升了确定实际运动信息的精度，又通过过滤特征点减少了工作量，提升了确定实际运动信息的效率以及后续步骤效率。

实施例四

本发明实施例四中具体介绍调整多媒体采集设备的拍摄焦距的方法，该方法的流程示意图如图17a所示，包括下述步骤S1701-1702：

S1701：根据至少两个飞行器各自的多媒体采集设备分别采集的多媒体信息，确定出初始焦距。

本发明的发明人注意到，相比于传统的机器学习方法，深度学习具有端到端学习的特点。基于深度学习的神经网量模型的参数较多，性能较传统方法优秀，且便于在线学习，及时调整模型。同时深度学习可以根据预先标注的训练样本自主学习到帧图像内的潜在显著性等信息。

利用神经网络对至少两个飞行器各自的多媒体采集设备分别采集的多媒体信息(例如，双目帧图像)进行处理，确定出焦距的预估值，作为初始焦距。

较佳地，将去抖处理后的多媒体信息输入到深度学习的神经网络中，由该神经网络回归出多媒体信息的焦距的预估值d′，作为两个飞行器的多媒体采集设备的焦距一个初始值，即初始焦距。

S1702：针对各飞行器，分别以确定出的初始焦距为起点进行焦距搜索。

对于至少两个飞行器中的每个飞行器，针对该飞行器装载的多媒体采集设备，分别以确定出的初始焦距为起点控制该多媒体采集设备进行焦距搜索。

其中，各飞行器执行焦距搜索时的搜索方向不同。例如，控制两个飞行器各自的多媒体采集设备，都以上述步骤中确定出的初始焦距为起点，分别向相反方向搜索当前的焦距。

图17b示出了两个飞行器各自的多媒体采集设备基于初始焦距双向搜索当前焦距的原理的示意图。图17b中预估焦距d′表示初始焦距，理想焦距为当前的焦距；相机1、2分别表示两个飞行器各自的多媒体采集设备；一个飞行器的多媒体采集设备的焦距搜索方式为d′→0，另一个飞行器的多媒体采集设备的焦距搜索方式为d′→∞。

当一个飞行器的多媒体采集设备搜索到合适焦距值时，将该合适的焦距值作为当前的焦距，并发送该值给另一个飞行器，完成焦距同步过程，另一个飞行器的多媒体采集设备根据接收的当前的焦距完成聚焦。由于当前准确的焦距值一般距离上述预估的初始焦距较近，因此本步骤中两个飞行器的多媒体采集设备都从该预估的初始焦距开始进行双向搜索，相比于现有的一目多媒体采集设备从最小焦距至最大焦距进行遍历搜索、另一目多媒体采集设备从最大焦距至最小焦距进行比那里搜索相比，能够非常快速的查找到准确的当前焦距值。

图17c示出了两个飞行器各自的多媒体采集设备基于初始焦距双向搜索当前焦距的一个实例的框架示意图。其中主机、副机可以由用户指定，或者指定剩余电量多的无人机为主机，或者随机分配，因为这里主副之分只是计算负担轻重。主机聚焦模块根据左眼帧图像和右眼帧图像得到预估值d＇，即初始焦距，以多媒体采集设备作为基准，主机聚焦模块可以由预估值向远搜索，腹肌聚焦模块可以由预估值相近搜索。图17c中焦距值d表示准确的当前焦距。

事实上，本发明的发明人经过实验发现，因为训练集与测试集往往存在一定差距，在训练集性能最佳不意味着在另一个环境中(光照，天气，被拍摄对象等)采集到的多媒体信息(例如帧图像)一定会性能优异。

因此，为了进一步提升聚焦性能，可以采用在线学习的方式，利用实际定位出的精确的焦距值，对原深度学习的神经网络模型进行不断优化。

具体的，可以通过两个飞行器各自的多媒体采集设备双向查找到精确焦距值；以深度学习回归得到预估值(初始焦距)与精确焦距值的差距(例如L2范数)作为损失(Loss)进行返回，从而可以更新深度学习的神经网络模型，使得更新后的神经网络模型估计出的初始焦距值更加准确，进一步提升了聚焦速度。

本发明实施例四中，对至少两个飞行器各自的多媒体采集设备采集的多媒体信息进行深度学习，得到焦距的较为准确的估计值作为初始焦距；然后至少两个飞行器各自的多媒体采集设备基于该初始焦距进行不同方向的搜索，可以更加快速地定位出精确的焦距值，从而实现快速聚焦。

实施例五

上述实施例二中至少两个飞行器之间的基线距离及其调整方式的确定方法，和上述实施例四中初始焦距的确定方法中都使用了深度学习的神经网络。

为了节约计算资源，并且基线调整和聚焦两个任务具有相似性，可以共享一个深度神经网络进行计算，以便节约计算资源，提升实时处理的速度。

本发明实施例五中主要介绍基于共享神经网络的基线距离及调整方式、和初始焦距的多种确定方法。

基于共享神经网络的基线距离及调整方式、和初始焦距的一种确定方法的流程示意图如图18所示，包括下述步骤S1801-S1802：

S1801：利用神经网络中的前级子神经网络，对设定飞行器的多媒体信息、以及接收到的其它飞行器的多媒体信息进行处理，得到前级处理后的特征多媒体信息。

较佳地，两个飞行器中的一个飞行器(作为设定飞行器)，利用神经网络中的前级子神经网络，对该一个飞行器的一目帧图像、以及接收到的另一个飞行器的另一目帧图像进行处理，得到前级处理后的特征图像。

总体上，共享神经网络整体上设置于一个飞行器中，由一个飞行器利用共享神经网络处理两个飞行器的双目帧图像，将处理结果共享给另一个飞行器。

例如，图19示出了共享神经网络的内部结构及工作原理的一个实例的示意图。图19中主机、副机分别表示主飞行器、副飞行器；图19中左半部分的框图中为主机中的整个共享神经网络；共享神经网络中的感知模块1和2都是复合层，都由基础模块组成而来；图19中右上部分为感知模块1的放大的内部结构，右下部分为感知模块2的放大的内部结构。图19中的箭头表示信号流的走向。图19的共享神经网络中，从左上角第一个级联层到第二列中最后一个非线性单元层为前级子神经网络。

图19中，级联层的作用是将上层多个数据进行粘结进行后续处理。例如感知模块2中的两个非线性单元输出数据的维度分别为C(Channel，通道)1*H(High，高度)*W(Width，宽度)和C2*H*W，则级联后输出为(C1+C2)*H*W。需要注意的是，级联需要满足被级联数据后两维尺度需要一致。非线性单元包括Sigmoid(S型激活函数)、Tanh(双曲正切激活函数)、和/或ReLU(Rectified Linear Unit，修正线性单元)等单元，非线性单元的作用是为神经网络引入非线性变换，增强网络对数据的分类能力。

副机的多媒体信息采集设备拍摄到的单目帧图像经过降采样后，传送到主机(降采样后的帧图像可以但不限于112*112像素)，主机接收后输入两张帧图像进入共享神经网络中的前级子神经网络进行计算，得到前级处理后的特征图像。

S1802：分别利用神经网络中的第一、第二和第三后级子神经网络，分别对前级处理后的特征多媒体信息进行处理，分别得到期望基线距离、基线距离的调整方式、和初始焦距。

较佳地，一个飞行器(作为设定飞行器)分别利用神经网络中的第一、第二和第三后级子神经网络，分别对前级处理后的特征图像进行处理，分别得到期望基线距离、基线距离的调整方式、和初始焦距。

例如，图19的共享神经网络中最后一个非线性单元层之后的部分，划分为后级子神经网络。其中，从最后一个非线性单元层之后向左下侧延伸的感知模块2层、池化层、全连接层和全连接层构成第一后级子神经网络；该向左下侧延伸的感知模块2层、池化层、全连接层，以及继续向左下延伸出的全连接层和Sigmoid分类层构成第二后级子神经网络；从最后一个非线性单元层之后向右下侧延伸的感知模块2层、池化层、全连接层和全连接层构成第三后级子神经网络。

分别利用神经网络中的第一后级子神经网络、第二后级子神经网络、和第三后级子神经网络，分别对前级处理后的特征图像进行处理，分别得到期望基线距离、基线距离调整方式、和初始焦距。

更优的，主机、副机分别采集左眼和右眼帧图像。通过共享神经网络中的卷积层、和池化层等模块，帧图像中的抽象特征可以逐层被提取，深层次提取出的图像特征有助于提升基线距离、基线距离调整方式和焦距的估算精确度。

而且随着神经网络的层数的加深，输入下层的特征图像的分辨率逐渐降低，计算量减少。所以前级子神经网络的计算较为复杂，工作量较大，后级子神经网络的计算较为简单，工作量较小。因此可以对控制模块、基线调整模块和聚焦模块进行分工；由控制模块承担前级子神经网络涉及的计算工作，由基线调整模块和聚焦模块利用后级子神经网络涉及的计算工作。

较佳地，主控模块、基线调整模块和聚焦模块可以是不同的硬件模块，由于基线调整模块和聚焦模块的工作负荷较小，可以节省这两个模块的硬件配置，有利于在保证计算实时性的基础上，降低成本。

主机将作为计算后的结果的期望基线距离、基线距离调整方向、和初始焦距传送回副机；副机根据接收的计算结果进行调整。

基于共享神经网络的基线距离、基线距离调整方式、和初始焦距的另一种确定方法的流程示意图如图20所示，包括下述步骤S2001-S2003：

S2001：利用神经网络中的前级子神经网络中的第一级子神经网络，对设定飞行器的多媒体采集设备采集的多媒体信息进行处理，得到该设定飞行器的第一级特征多媒体信息。

较佳地，两个飞行器中的一个飞行器，利用神经网络中的前级子神经网络中的第一级子神经网络，对该飞行器的去抖处理后的一目帧图像进行处理，得到该一目的第一级特征图像。

总体上，共享神经网络的大部分设置于一个飞行器中，共享神经网络的一小部分设置于另一个飞行器中。两个飞行器先分别根据共享神经网络中前端的层次对各自的单目帧图像进行预处理，各自得到预处理后的特征图像。之后，由一个飞行器利用共享神经网络的剩余的层次，处理两个飞行器的预处理后的特征图像，将最终的处理结果共享给另一个飞行器。

例如，图21示出了共享神经网络的内部结构及工作原理的另一个实例的示意图。图21中主机、副机分别表示主飞行器、副飞行器；图21中左半部分的框图中为共享神经网络在主机中的部分；图21中右边部分为共享神经网络在副机中的部分。

图21的共享神经网络中，从左上角第一个级联层、和右上角第一个级联层，到中间列中最后一个非线性单元层为前级子神经网络。左边列中第一个级联层至最后一个池化层为前级子神经网络设置在主机中的第一级子神经网络；右边列中第一个级联层至最后一个池化层为前级子神经网络设置在副机中的第一级子神经网络。

两个飞行器中的主飞行器，利用神经网络中的前级子神经网络中的第一级子神经网络，对该飞行器的去抖处理后的一目帧图像进行处理，得到该一目的第一级特征图像。同理，两个飞行器中的副飞行器，得到另一目的第一级特征图像，并向主飞行器发送。

S2002：接收其它飞行器的第一级特征多媒体信息。

较佳地，接收另一个飞行器的另一目的第一级特征图像。

较佳地，主飞行器接收副飞行器的另一目的第一级特征图像。

例如，主飞行器中的控制模块，通过通信模块或同步模块接收副飞行器的另一目的第一级特征图像。

S2003：利用前级子神经网络中的第二级子神经网络，对设定飞行器和其它飞行器的第一级特征多媒体信息进行处理，得到前级处理后的特征多媒体信息。

较佳地，利用前级子神经网络中的第二级子神经网络，对双目的第一级特征图像进行处理，得到前级处理后的特征图像。

例如，图21的共享神经网络中，中间列中第一个级联层至最后一个非线性单元层为前级子神经网络设置在主机中的第二级子神经网络。

S2004：分别利用神经网络中的第一后级子神经网络、第二后级子神经网络、和第三后级子神经网络，分别对前级处理后的特征多媒体信息进行处理，分别得到期望基线距离、基线距离调整方式、和初始焦距。

图21中的第一、第二和第三后级子神经网络与上述图19中的相同。

本步骤中得到期望基线距离、基线距离调整方式、和初始焦距的具体方法，与上述步骤S1802中得到期望基线距离、基线距离调整方式、和初始焦距的具体方法相一致，此处不再赘述。

较佳地，主飞行器分别利用神经网络中的第一后级子神经网络、第二后级子神经网络、和第三后级子神经网络，分别对前级处理后的特征图像进行处理，分别得到期望基线距离、基线距离调整方式、和初始焦距。

可以理解，步骤S2001至S2003的方法中，主副飞行器分别进行前端计算，副飞行器将计算的中间结果送入主飞行器进行后续计算。这种策略可以充分利用两个飞行器的计算资源，实时响应速度较快。

本发明实施例五中，通过共享神经网络，来减少期望基线距离、基线距离调整方式、以及初始焦距的确定方法的计算工作量，提升效率，以提升确定期望基线距离、基线距离调整方式、和初始焦距的实时性；并减少飞行器的能耗，有利于延长飞行器的续航时间。

而且，本发明实施例五中，可以将神经网络划分为前、后级子神经网络，并将计算工作量较小的后级子神经网络的计算分配给基线调整模块和聚焦模块，有利于降低基线调整模块和聚焦模块的硬件配置要求，有利于在保持计算实时性的基础上减低成本。

实施例六

本发明实施例六中主要介绍对至少两个飞行器进行时间同步和/或空间同步的方法，包括：两个飞行器同步拍摄时间、并使得两个飞行器共面。

较佳地，两个飞行器中的同步模块主要完成空间同步与时间同步两个任务。

对于空间同步：主要用于两个飞行器初始化过程；也可用于两个飞行器携带各自的多媒体采集设备采集多媒体信息的过程中；例如，对抖动导致两架飞行器不共面的情况进行修复(重新初始化)。

图22示出了无人机中的空间同步相关硬件的一个实例的示意图。空间同步相关硬件包括：光发射器、光接收器、超声发射天线和接收天线阵等。

用作无人机定位的方法可以有基于LED(Light-Emitting Diode，发光二极管)的定位方法，基于激光(可以用不可见光，如1480nm红外光)的定位方法和超声定位方法等。

较佳地，超声可以用于粗定位，其发射信号用天线阵接收，计算出立体角进行定位。激光发射器和接收器用于精准定位校正。当接收器中心接收到发射器激光功率最高时，空间定位完毕。

此外，使用该方法也可以通过级联推广用于多个平行无人机的校准。

对于在线时间同步，时间同步用于对两个飞行器通信及拍摄的时间进行同步校准。当时间同步完成后，两个飞行器才能进行同步拍摄，拍摄获取的双目视频帧图像才可能在时间上完全一致。

较佳地，两个飞行器之间发射频率变化的脉冲光信号，作为同步信号，通过光信号，同步时间戳。或者，两个飞行器之间发射频率变化的脉冲电信号，作为同步信号，通过电信号，同步时间戳。

同步模块还负责飞行器故障处理和多飞行器协同时的飞行控制，比如协同转向控制和自动跟踪拍摄；具体可参见实施例七和八。

实施例七

本发明实施例七中主要介绍两个飞行器的协同转向控制方法，包括：两个飞行器中的每个飞行器接收到旋转指令后，根据旋转指令确定出两个飞行器的共同的角速度、和该飞行器的旋转轨道；每个飞行器根据共同的角速度、和该飞行器的旋转轨道进行同步旋转飞行。

本发明的发明人注意到，当飞行器需要转角度时，两架飞行器需要在保证视野连续一致的情况下进行同步旋转。这里视野连续一致包括两个飞行器的摄像头始终满足共面的条件，且两个飞行器之间的基线距离，需要根据基线调整模块给出的指令进行调节。

如图23a所示，因为两架飞行器与旋转球心的距离不同，它们旋转弧长也会相应调整以保证同步，此处同步指两个飞行器与旋转球心处于同一半径(两个飞行器与旋转球心位于同一直线上)、且两个飞行器的旋转角速度相等。

当飞行器接收旋转指令时，同步模块确定旋转球心及各自的旋转轨道，由控制模块具体化执行(定义每一架飞行器角速度等)，然后将操作指令传送给飞行控制系统完成对飞行器飞行姿态的操作。在调节过程中飞行器状态会实时反馈给控制系统，以便保证两架飞行器均处于正常且同步的状态下。

图23b示出了两个飞行器的协同转向控制方法的一个实例的流程示意图。双无人机的通讯模块接收用户输入的选择指令，期望位置、高度、多媒体信息采集设备的拍摄角度等参数并进行译码(将模拟信号转换成机器可执行的数字信号)，交给控制模块，控制模块将该命令分析后把必要信息传递给同步模块。这里侧重讨论同步模块，所以将其他模块省略处理。

实施例八

本发明实施例八中主要介绍两个飞行器的自动跟踪拍摄方法，包括：

两个飞行器中的一个飞行器接收到目标对象的跟踪指令后，利用双目帧图像确定出跟踪指令涉及的目标对象的位置信息，并发送至另一个飞行器。

两个飞行器根据目标物理的位置信息，将目标对象作为被摄对象进行跟踪拍摄，包括：当检测到目标对象的运动方向发生改变时，生成对应的旋转指令，进行对应的同步旋转飞行并拍摄获取双目帧图像。

较佳地，飞行器可以跟踪拍摄某对象。当飞行器的控制模块通过通讯模块接收到地面控制台发送的跟踪指令时，飞行器会按照跟踪指令保持当前高度和角度，对目标对象进行跟踪拍摄。同时，当对象转向时，两个飞行器也会协同旋转拍摄。该任务较为复杂，需要多模块协同完成，其中各模块的工作原理和实现可以参照上述相应的实施例。

例如，当需要跟踪如图24所示的目标羚羊，当主飞行器接收到跟踪目标物的指令时，会通知副飞行器一同进行跟踪拍摄。这里需要采用目标跟踪技术，该跟踪技术的计算可以在控制模块完成。主飞行器实时计算得到被跟踪对象的位置后进行跟踪(如图25中轨迹1)，并把相关参数发送给副飞行器。副飞行器的通信模块接收主飞行器的控制命令，并根据主飞行器的命令进行同步调整(如图25中轨迹2)，同时控制模块会按照目标物(即目标羚羊)与基线调整模块配合调节主、副飞行器之间合适的基线距离(基线距离的具体调整方法可以参见上述实施例二)，以及根据接收到的帧图像送入聚焦模块进行焦距估算。调节完毕后，两个飞行器跟踪目标对象飞行，具体飞行指令由主、副飞行器各自的控制模块交与飞控系统执行，直至拍摄结束。整个过程中如果目标物行走轨迹非直线，两个飞行器可以同步旋转(同步旋转的具体方法可以参考上述实施例七)。

本发明实施例八中的两个飞行器的自动跟踪拍摄方法，实现了以两个飞行器为双目，自动跟踪拍摄运动中的目标对象的立体视频和/或立体图片。

实施例九

本发明实施例九中主要介绍至少两个飞行器拍摄立体视频的过程中的典型异常的处理方法。

超出防抖模块去抖能力的防抖方法，包括：当检测出两个飞行器各自的多媒体采集设备采集的多媒体信息中包含的被摄对象的重合区域小于重合区域阈值时、或检测出两个飞行器中任一飞行器的单位抖动幅度超过单位抖动幅度阈值时，重新进行同步。

具体地，两个飞行器在拍摄过程中，飞行器中的控制模块需要监控整个拍摄过程。可以通过判断双目帧图像(作为两个飞行器的多媒体信息)的重合区域大小(例如双目帧图像的特征点之间的匹配度)或者物理设备测量，来确定飞行器的抖动是否在防抖模块处理能力范围内。其中，物理设备测量可以是一架飞行器抖动的幅度；例如一秒钟时间内无人机的高度下降了10米，抖动幅度过大，超出了防抖模块的能力。

若两个飞行器遇到强气流或者由于某些原因导致两个飞行器状态同步异常，导致两个飞行器共同视野过小(即双目帧图像中重叠区域过小)，这时控制模块即可以检测出异常。

之后两个飞行器可以启动重新同步的过程，直至恢复正常。同时，控制模块可以综合多媒体信息采集设备、基线调整模块和传感器传入的信息，计算飞行控制参数，直接向飞行系统发送飞行姿态和轨迹调整指令。

单飞行器故障后的无缝更换方法，包括：当两个飞行器中的一个飞行器检测到该飞行器即将或已经无法正常工作时，将该飞行器的参数实时发送至其它飞行器；其它飞行器根据实时接收的参数，飞抵该飞行器附近，与另一个飞行器进行同步后，接替该飞行器继续进行拍摄。

例如，当双无人机A和B中的一台无人机B出现电量不足或其他问题，导致短时间内会无法继续正常工作时，B会向地面控制台发出消息，地幔控制台调度无人机C，接替B的工作。地面调度台把B的工作状态信息，包括飞行姿态、工作任务状态等细节信息，传递给C机。C机收到信息后，以信息内容作为参照，拟合自身的工作状态达到B相同的状态。此时B从链路中脱离，并返回基站。此时A，C两机协同工作，达到B和C无缝切换的目的。

节省计算资源的方法，包括：由两个飞行器中的一个飞行器将调整基线距离和/或焦距所需的参数发送至另一个飞行器；使得另一个飞行器根据接收的参数进行基线距离和/或焦距的调整。

例如，双无人机协同工作时，需耗费大量能源维持飞行、控制、摄像和协同等工作。但因为双机协同时有部分工作内容是类似或相同的，比如与基站的通信、路径规划和飞行控制等。为节省能源，把相同或相似的工作负荷放到其中的一台无人机上，计算结果共享到另一台无人机。这样，在A和B协同时，保持A机100％负荷运算，而B机只维持自身必要工作(飞行系统、摄像头、通信模块和同步模块的工作)的负荷，而接收A机的计算结果。这样可以节省B机中30％～50％的能量消耗。

类似地，如果B机上某些传感器或诸如聚焦模块、基线调整模块和防抖模块其他部件出现故障，也可使用协同中A机的相应部件的计算结果。

两个飞行器实时互相监控的方法。

例如，双无人机中的一个无人机在执行任务时，可利用多媒体信息采集设备或传感器，获取另一个无人机的外观或状态信息。如其中一台无人机A出现异常、且而地面控制台无法获取无人机A相关信息的情况下，使用B机的多媒体信息采集设备和传感器采集A机信息，并由B机向地面控制台反馈。

拍摄出现遮挡时处理方法。

例如，当双无人机在立体视频拍摄过程中，检测到一个无人机的多媒体信息采集设备遇到遮挡对象时，用户可以通过地面控制台自动或手动选择去遮挡模式，地面控制台将去遮挡模式的相关指令发送至被遮挡的无人机，该无人机的多媒体信息采集设备会暂停录制，直至遮挡结束。这时该多媒体信息采集设备的多媒体信息(例如帧图像)可以由另外一个无人机的多媒体信息采集设备在同一时刻采集的多媒体信息补全。这样可以节省存储资源，并且保证观众观看时候不受遮挡物影响。

实施例十

本发明实施例十中，基于上述各实施例的方法，提供了立体多媒体信息的确定装置，根据实际情况该装置可以包括但不限于设置于主干网中的云端、设置于地面控制台中、或设置于多飞行器的每个飞行器中。

本发明实施例十的立体多媒体信息的确定装置的内部结构的框架示意图如图26所示，包括：多媒体信息获取模块2601和立体多媒体信息确定模块2602。

其中，多媒体信息获取模块2601用于获取至少两个飞行器各自的多媒体采集设备分别采集的多媒体信息。

立体多媒体信息确定模块2602用于根据多媒体信息获取模块获取的多媒体信息确定出相应的立体多媒体信息。

更优的，如图26所示，本发明实施例十的立体多媒体信息的确定装置，还包括：基线调整模块2603。

基线调整模块2603用于根据被摄对象和/或拍摄环境，调整至少两个飞行器之间的基线距离。

较佳地，基线调整模块2603具体用于根据被摄对象对应的物距和/或被摄对象的内容属性，调整至少两个飞行器之间的基线距离；被摄对象的内容属性包括下述至少一项：被摄对象的形状、被摄对象在多媒体信息中所占区域、被摄对象的表面特征属性。

较佳地，基线调整模块2603具体用于根据拍摄环境的环境亮度、拍摄背景与被摄对象的对比度、飞行器的飞行高度限制中的至少一项，调整至少两个飞行器之间的基线距离。

较佳地，基线调整模块2603具体用于根据被摄对象在采集的多媒体信息中的位置分别确定出各飞行器的调整方式。

更优的，如图26所示，本发明实施例十的立体多媒体信息的确定装置，还包括：防抖模块2604。

防抖模块2604用于对采集的多媒体信息进行去抖处理。

较佳地，防抖模块2604具体用于确定出每个飞行器的多媒体采集设备采集的多媒体信息对应的实际运动信息；根据实际运动信息以及至少两个无人机之间的期望基线距离，确定出多媒体信息对应的期望运动信息；根据多媒体信息对应的实际运动信息和期望运动信息，对多媒体信息对应进行去抖处理。

较佳地，防抖模块2604具体用于从每个飞行器的多媒体采集设备在设定时刻点对应的时间段内采集的各多媒体信息中确定出特征点；根据确定的特征点，确定出多媒体采集设备在设定时刻点对应的时间段内采集的多媒体信息之间的运动信息，作为多媒体采集设备在设定时刻点采集的多媒体信息对应的实际运动信息。

较佳地，防抖模块2604具体用于确定特征点在设定时刻点所对应的时间段内采集的多个多媒体信息中的位置信息；根据确定出的位置信息，确定出时间段内任意相邻两个多媒体信息之间的运动信息；根据相邻两个多媒体信息之间的运动信息，确定出多媒体采集设备在时间段内采集的各多媒体信息累积的运动信息，作为多媒体采集设备在时间段内采集的多媒体信息之间的运动信息。

较佳地，防抖模块2604具体用于从设定飞行器的多媒体采集设备在设定时刻点采集的多媒体信息中选取特征点；根据选取的特征点，在每个飞行器的多媒体采集设备在设定时刻点对应的时间段内采集的各多媒体信息中，确定出匹配的特征点。

较佳地，防抖模块2604还用于确定出匹配的特征点之后，针对各飞行器的多媒体采集设备在时间段内任一时刻点所拍摄的多媒体信息中的特征点，筛选出符合各飞行器在任一时刻点的相对位置关系的特征点。

较佳地，防抖模块2604具体用于根据至少两个飞行器之间的期望基线距离，确定出至少两个飞行器之间的期望相对位置关系；根据每个飞行器的多媒体采集设备采集的多媒体信息对应的实际运动信息以及确定出的期望相对位置关系，确定出每个飞行器的多媒体采集设备采集的多媒体信息对应的期望运动信息。

较佳地，防抖模块2604具体用于根据每个飞行器的多媒体采集设备采集的多媒体信息对应的实际运动信息和期望运动信息，确定出多媒体信息对应的抖动信息；根据抖动信息，对多媒体信息进行去抖处理。

更优的，如图26所示，本发明实施例十的立体多媒体信息的确定装置，还包括：聚焦模块2605。

聚焦模块2605用于调整多媒体采集设备的拍摄焦距。

较佳地，聚焦模块2605具体用于根据至少两个飞行器各自的多媒体采集设备分别采集的多媒体信息，确定出初始焦距；针对各飞行器，分别以确定出的初始焦距为起点进行焦距搜索，各飞行器执行焦距搜索时的搜索方向不同。

更优的，如图26所示，本发明实施例十的立体多媒体信息的确定装置，还包括：同步模块2606。

同步模块2606用于对至少两个飞行器进行时间同步和/或空间同步。

较佳地，同步模块2606用于对至少两个飞行器进行时间同步和/或空间同步之后，发送已同步通知。

以及，多媒体信息获取模块2601用于接收到已同步通知后，继续获取至少两个飞行器各自的多媒体采集设备分别采集的多媒体信息。

更优的，本发明实施例十的立体多媒体信息的确定装置，还包括：控制模块(图中未标)。

控制模块用于使得设定飞行器利用神经网络中的前级子神经网络，对该设定飞行器的多媒体信息、以及接收到的其它飞行器的多媒体信息进行处理，得到前级处理后的特征多媒体信息；设定飞行器分别利用神经网络中的第一、第二和第三后级子神经网络，分别对前级处理后的特征多媒体信息进行处理，分别得到期望基线距离、基线距离的调整方式、和初始焦距。

或者，控制模块用于使得设定飞行器利用神经网络中的前级子神经网络中的第一级子神经网络，对该设定飞行器的多媒体采集设备采集的多媒体信息进行处理，得到该设定飞行器的第一级特征多媒体信息；使得设定飞行器接收其它飞行器的第一级特征多媒体信息；使得设定飞行器利用前级子神经网络中的第二级子神经网络，对设定飞行器和其它飞行器的第一级特征多媒体信息进行处理，得到前级处理后的特征多媒体信息。

上述多媒体信息获取模块2601、立体多媒体信息确定模块2602、基线调整模块2603、防抖模块2604、聚焦模块2605、同步模块2606和控制模块功能的实现方法，可以参数上述实施例一至九中的方法流程步骤的具体内容，此处不再赘述。

图27a示出了本发明实施例十中单无人机的较为详细的一个架构实例，该图中主要示出了无人机内部信息流的传递方式，为了清晰直观，对一些本发明申请未涉及到的信息进行了省略。

图27b示出了本发明实施例十中双无人机的较为详细的一个架构实例，该图中主要示出了每个无人机内部信息流的传递方式、和双无人机之间信息流的传递方式，为了清晰直观，对一些本发明申请未涉及到的信息进行了省略。

用户可以选择采用一架无人机完成2D视频拍摄，或者扩充采用双无人机完成立体视频拍摄。相比于现有用以拍摄视频的无人机，主要付出的硬件成本主要为需要在无人机中设置同步模块。这可以使得用户很方便拍摄自己需要的立体视频，而不用依赖很复杂的设备，有利于降低立体多媒体信息的确定系统的整体成本，有利于扩展该系统的应用范围。

本技术领域技术人员可以理解，本发明包括涉及用于执行本申请中操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造，或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序，这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如，计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中，计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随即存储器)、EPROM(Erasable Programmable Read-Only Memory，可擦写可编程只读存储器)、EEPROM(Electrically Erasable ProgrammableRead-Only Memory，电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是，可读介质包括由设备(例如，计算机)以能够读的形式存储或传输信息的任何介质。

本技术领域技术人员可以理解，可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解，可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现，从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。

本技术领域技术人员可以理解，本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种立体多媒体信息的确定方法，其特征在于，包括：

根据获取的所述多媒体信息确定出相应的立体多媒体信息。

2.根据权利要求1所述的方法，其特征在于，还包括：

根据被摄对象和/或拍摄环境，调整所述至少两个飞行器之间的基线距离。

3.根据权利要求2所述的方法，其特征在于，所述根据被摄对象，调整所述至少两个飞行器之间的基线距离，具体包括：

根据被摄对象对应的物距和/或被摄对象的内容属性，调整所述至少两个飞行器之间的基线距离；

所述被摄对象的内容属性包括下述至少一项：被摄对象的形状、被摄对象在多媒体信息中所占区域、被摄对象的表面特征属性。

4.根据权利要求2所述的方法，其特征在于，所述根据拍摄环境，调整所述至少两个飞行器之间的基线距离，具体包括：

根据拍摄环境的环境亮度、拍摄背景与被摄对象的对比度、飞行器的飞行高度限制中的至少一项，调整所述至少两个飞行器之间的基线距离。

5.根据权利要求2-4任一项所述的方法，其特征在于，调整所述至少两个飞行器之间的基线距离，具体包括：

确定每个飞行器的调整方式，根据确定出的调整方式分别调整对应的飞行器的运动状态，调整方式包括调整方向和/或调整步长。

6.根据权利要求5所述的方法，其特征在于，各飞行器的调整方式是根据被摄对象在采集的多媒体信息中的位置分别确定出的。

7.根据权利要求1-6任一项所述的方法，其特征在于，还包括：

对采集的多媒体信息进行去抖处理。

8.根据权利要求7所述的方法，其特征在于，所述对采集的多媒体信息进行去抖处理，具体包括：

确定出每个飞行器的多媒体采集设备采集的多媒体信息对应的实际运动信息；

根据所述实际运动信息以及至少两个无人机之间的期望基线距离，确定出所述多媒体信息对应的期望运动信息；

根据所述多媒体信息对应的实际运动信息和期望运动信息，对所述多媒体信息对应进行去抖处理。

9.根据权利要求8所述的方法，其特征在于，所述确定出每个飞行器的多媒体采集设备采集的多媒体信息对应的实际运动信息，包括：

从每个飞行器的多媒体采集设备在设定时刻点对应的时间段内采集的各多媒体信息中确定出特征点；

根据确定的特征点，确定出所述多媒体采集设备在所述设定时刻点对应的时间段内采集的多媒体信息之间的运动信息，作为所述多媒体采集设备在所述设定时刻点采集的多媒体信息对应的实际运动信息。

10.根据权利要求9所述的方法，其特征在于，所述根据确定的特征点，确定出所述多媒体采集设备在所述设定时刻点对应的时间段内采集的多媒体信息之间的运动信息，包括：

确定所述特征点在所述设定时刻点所对应的时间段内采集的多个多媒体信息中的位置信息；

根据确定出的所述位置信息，确定出所述时间段内任意相邻两个多媒体信息之间的运动信息；

根据所述相邻两个多媒体信息之间的运动信息，确定出所述多媒体采集设备在所述时间段内采集的各多媒体信息累积的运动信息，作为所述多媒体采集设备在所述时间段内采集的多媒体信息之间的运动信息。

11.根据权利要求9或10所述的方法，其特征在于，所述从每个飞行器的多媒体采集设备在设定时刻点对应的时间段内采集的各多媒体信息中确定出特征点，包括：

从设定飞行器的多媒体采集设备在设定时刻点采集的多媒体信息中选取特征点；

根据选取的特征点，在每个飞行器的多媒体采集设备在设定时刻点对应的时间段内采集的各多媒体信息中，确定出匹配的特征点。

12.根据权利要求11所述的方法，其特征在于，所述确定出匹配的特征点之后，还包括：

针对各飞行器的多媒体采集设备在所述时间段内任一时刻点所拍摄的多媒体信息中的特征点，筛选出符合各飞行器在所述任一时刻点的相对位置关系的特征点。

13.根据权利要求8-12任一项所述的方法，其特征在于，所述根据所述实际运动信息以及至少两个无人机之间的期望基线距离，确定出所述多媒体信息对应的期望运动信息，包括：

根据至少两个飞行器之间的期望基线距离，确定出至少两个飞行器之间的期望相对位置关系；

根据每个飞行器的多媒体采集设备采集的多媒体信息对应的实际运动信息以及确定出的所述期望相对位置关系，确定出每个飞行器的多媒体采集设备采集的多媒体信息对应的期望运动信息。

14.根据权利要求8-13任一项所述的方法，其特征在于，所述根据所述多媒体信息对应的实际运动信息和期望运动信息，对所述多媒体信息对应进行去抖处理，包括：

根据每个飞行器的多媒体采集设备采集的多媒体信息对应的实际运动信息和期望运动信息，确定出所述多媒体信息对应的抖动信息；

根据所述抖动信息，对所述多媒体信息进行去抖处理。

15.根据权利要求1-14任一项所述的方法，其特征在于，还包括：

调整多媒体采集设备的拍摄焦距。

16.根据权利要求15所述的方法，其特征在于，调整多媒体采集设备的拍摄焦距，包括：

根据所述至少两个飞行器各自的多媒体采集设备分别采集的多媒体信息，确定出初始焦距；

针对各飞行器，分别以确定出的所述初始焦距为起点进行焦距搜索，各飞行器执行焦距搜索时的搜索方向不同。

17.根据权利要求1-16任一项所述的方法，其特征在于，还包括：

对至少两个飞行器进行时间同步和/或空间同步。

18.一种立体多媒体信息的确定装置，其特征在于，包括：

19.一种立体多媒体信息的确定系统，其特征在于，包括：至少两个飞行器、飞行器各自的多媒体采集设备以及所述权利要求18所述的立体多媒体信息的确定装置。