CN102197646A

CN102197646A - 用便携式电子装置产生多通道音频的系统和方法

Info

Publication number: CN102197646A
Application number: CN2009801418784A
Authority: CN
Inventors: 卡尔·奥拉·特恩
Original assignee: Sony Ericsson Mobile Communications AB
Current assignee: Sony Mobile Communications AB
Priority date: 2008-10-22
Filing date: 2009-04-02
Publication date: 2011-09-21
Anticipated expiration: 2029-04-02
Also published as: US20100098258A1; TWI496480B; CN102197646B; TW201036463A; WO2010046736A1; EP2359595A1

Abstract

一种用于操纵具有视频部分和音频部分的数字视频将音频部分编码为多通道格式的电子装置(10)。该电子装置可以包括：用于接收所述数字视频的音频部分的音频接收器(66)；用于接收所述数字视频的视频部分并且确定来自音频源的音频的至少一个方向成分的图像分析器(62)。为了确定方向成分，图像分析器可以包括用于确定音频源的位置的图像定位器(63)，以及用于确定音频源的朝向的朝向检测器(64)。音频编码器(68)可以接收音频部分和方向成分的输入，并且编码器可以基于来自音频源的音频的方向成分以多通道格式对音频部分编码。系统可应用于数字视频中的多个音频源。

Description

用便携式电子装置产生多通道音频的系统和方法

技术领域

本发明涉及便携式电子装置中的声音再现，更具体地涉及用便携式电子装置产生多通道音频的系统和方法。

背景技术

诸如移动电话、媒体播放器、个人数字助理(PDA)等的便携式电子装置正在不断增加普及度。为了避免不得不携带多个装置，便携式电子装置现在被配置为提供广泛的功能。例如，移动电话可以不再被简单用作拨打和接收电话。移动电话还可以是相机(照相机或者摄像机)、用于访问新闻和信息的因特网浏览器、视听媒体播放器、消息装置(文本、音频、和/或视频消息)、游戏装置、个人管理器、以及还具有其它功能。现有的便携式电子装置因此通常包括用于播放音视频内容的媒体播放器功能。

对于音视频内容，这种内容的音频部分通常已经被改进。具体地，可以再现出三维(“3D”)音频以提供更真实的声音再现。环绕声技术在本领域中是已知的，该技术提供方向分量以模仿3D声音环境。例如，音视频内容中似乎来自左侧的声音将主要通过左侧布置的音频源(例如扬声器)听到，音视频内容中似乎来自右侧的声音将主要通过右侧布置的音频源(例如扬声器)听到，以此类推。由此方式，音频内容整体将被再现为模拟真实的3D声音环境。

为了产生环绕声，声音可以被以多个离散通道记录和编码。当被回放时，编码的通道可以被解码为用于回放的多个通道。有时，记录通道和回放通道的数量可以相等，或者解码可以将记录通道转换为不同数量的回放通道。回放通道可以对应于扬声器布局中的特定数量的扬声器。例如，一个通常的环绕声音频格式被标记为“5.1”音频。该系统可以包括5个回放通道，其可以(但不是必须的)通过5个扬声器播放——中央通道、左右前通道、以及左右后通道。“.1”标记低频效果(LFE)或者低音通道(bass channel)，诸如可以通过超低音音箱(subwoofer)提供。其他通常的格式在扬声器布局中提供额外通道和/或扬声器，诸如6.1和7.1音频。用这种多通道布局，声音可以被以模拟3D声音环境的方式导入各个扬声器。另外，可以采用声音信号处理以用比回放通道更少的扬声器模拟3D声音，这通常被称为“虚拟环绕声”。

对于便携式电子装置，已经以多种方式尝试3D声音再现。例如，装置可以连接到针对环绕声或者其他3D或者多通道声音再现所配置的外置扬声器系统，诸如5.1扬声器系统。然而，外置扬声器系统限制了音视频回放期间装置的便携性。为了维持便携性，开发了改进的耳机和头戴式耳机，其仅仅使用耳机和头戴式耳机的左耳和右耳扬声器来模仿3D声音环境。这种增强型耳机和头戴式耳机可以提供虚拟环绕声环境以增强内容的声音特性而无需外置扬声器环绕声系统中采用的多个扬声器。

当音视频内容被专业地产生或者以尖端方式产生时，外置扬声器系统或者3D增强便携式耳机和头戴式耳机一般是足够用的。内容创建者通常通过记录多个音频通道来产生3D音频，可以通过在内容被创建时采用多个麦克风进行记录来记录多个音频通道。通过适当地布置麦克风，可以将方向音频分量编码进记录的音频通道。可以采用额外的处理以增强多通道记录的导通。音频可以被编码为通常的多通道格式，诸如5.1、6.1等。只要播放器具有适当的解码能力，并且扬声器系统(扬声器、耳机、头戴式耳机等)具有对应的3D/多通道环绕声或者虚拟环绕声再现能力，则可以在回放期间再现方向音频分量。

然而对于用户创建的内容，已经证实这些描述的系统是不够有效的。现在便携式电子装置通常包括数字视频记录功能以便记录音视频内容，诸如具有视频部分和音频部分的数字视频。这些装置的示例包括专用数字视频相机、或者具有数字视频功能的多功能装置(诸如移动电话、PDA、游戏装置等)。无论哪种类型，便携式电子装置通常仅仅具有一个麦克风来记录音视频内容的音频部分。仅用一个麦克风，3D或者多通道音频的产生将要求尖端或者专用的声音信号处理，这在面向消费者的便携式电子装置中通常不存在。因而，在便携式电子装置中，通常不能为用户创建的内容产生3D或者多通道音频。

在另外的技术领域中，眼睛跟踪和凝视检测系统已经被考虑。眼睛跟踪是测量凝视点和/或眼睛相对于头部的运动的处理。眼睛跟踪或者凝视方向检测的最常用的现有方法包括从眼睛的视频图像中提取眼睛相对于头部的位置。除了眼睛跟踪以外，还开发了其他形式的面部检测。例如，一种形式的面部检测可以检测具体面部特征，诸如人物是否微笑或者眨眼。然而，至今这种技术没有被完全利用。

发明内容

因此，本领域中存在对在便携式电子装置中产生3D或者多通道音频的改善的系统和方法的需要。具体地，本领域存在对在便携式电子装置中产生3D或者多通道音频并且不要求超过通常在便携式电子装置中存在的单个麦克风的改善的系统和方法的需要。

提供了一种电子装置来操纵具有视频部分和音频部分的数字视频以将音频部分编码为3D或者多通道格式。该电子装置可以包括用于接收数字视频的音频部分的音频接收器、用于接收数字视频的视频部分并且确定来自数字视频中的音频源的音频的至少一个方向成分的图像分析器。为了确定方向成分，图像分析器可以包括用于确定数字视频内的音频源的位置的图像定位器，以及用于确定音频源的朝向的朝向检测器。朝向检测器可以包括面部检测模块，该面部检测模块基于作为音频源的人的面部特征的运动和状态(configuration)确定该作为音频源的人的朝向。可以采用音频源的位置和朝向来确定来自音频源的音频的方向成分。音频编码器可以接收音频部分和该至少一个方向成分的输入，并且编码器可以基于来自音频源的音频的至少一个方向成分以多通道格式对音频部分编码。

因此，根据本发明的一个方面，提供了一种用于操纵具有视频部分和音频部分的数字视频的电子装置。该电子装置包括用于接收数字视频的音频部分的音频接收器，用于接收数字视频的视频部分并且确定来自数字视频中的音频源的音频的至少一个方向成分的图像分析器。音频编码器可以接收音频部分和该至少一个方向成分的输入，其中该编码器基于来自音频源的音频的至少一个方向成分将该音频部分以多通道格式编码。

根据电子装置的一种实施方式，该电子装置还包括用于产生被图像分析器接收的数字视频的视频部分的相机组件，和用于收集被音频接收器接收的数字视频的音频部分的麦克风。

根据电子装置的一种实施方式，该电子装置还包括用于检测电子装置的运动的运动传感器，和用于基于电子装置的运动确定来自数字视频中的音频源的音频的方向成分的运动分析器。该编码器还基于被运动分析器确定出的来自音频源的音频的方向成分将音频部分以多通道格式编码。

根据电子装置的一种实施方式，该电子装置还包括用于存储数字视频的存储器，其中图像分析器通过从所存储的数字视频中提取视频部分来接收视频部分，并且所述音频接收器通过从所存储的数字视频中提取音频部分来接收音频部分。

根据电子装置的一种实施方式，该电子装置还包括用于从网络访问数字视频的网络接口，其中图像分析器通过从所访问的数字视频中提取视频部分来接收视频部分，并且所述音频接收器通过从所访问的数字视频中提取音频部分来接收音频部分。

根据电子装置的一种实施方式，该图像分析器包括用于在数字视频的视频部分内定位音频源的图像定位器，并且该图像分析器基于所述视频部分内的所述音频源的位置确定来自所述音频源的音频的方向成分。

根据电子装置的一种实施方式，该图像分析器还包括用于确定所述数字视频的视频部分内的音频源的朝向以确定音频源的朝向的朝向检测器，并且该图像分析器还基于视频部分内的音频源的朝向确定来自音频源的音频的方向成分。

根据电子装置的一种实施方式，该朝向检测器包括基于音频源的面部特征的状态确定为人的音频源的朝向的面部检测模块。

根据电子装置的一种实施方式，该图像分析器包括用于检测视频部分中干扰数字视频的视频部分中的音频源的图像的对象的干扰检测器，使得编码器不被干扰对象干扰地编码多通道音频。

根据电子装置的一种实施方式，该图像分析器确定来自数字视频中的多个音频源中的每一个音频源的音频的至少一个方向成分，并且该编码器基于来自多个音频源的音频的至少一个方向成分将音频部分以多通道格式编码。

根据电子装置的一种实施方式，该图像分析器确定来自数字视频中的多个音频源的每一个音频源的音频的多个方向成分，并且该编码器基于来自多个音频源的音频的所述多个方向成分将音频部分以多通道格式编码。

根据本发明的另一方面，一种为具有视频部分和音频部分的数字视频进行多通道音频编码的方法包含以下步骤：接收数字视频的音频部分；接收数字视频的视频部分并且确定来自数字视频中的音频源的音频的至少一个方向成分；将音频部分和所述至少一个方向成分输入到多通道音频编码器；以及基于来自音频源的音频的至少一个方向成分将音频部分以多通道格式编码。

根据该方法的一种实施方式，该方法还包括用该电子装置产生数字视频；检测电子装置的运动；以及基于电子装置的运动确定来自数字视频中的音频源的音频的方向成分。该编码器还基于根据电子装置的运动确定出的来自音频源的方向成分将音频部分以多通道格式编码。

根据该方法的一种实施方式，该方法还包括：在电子装置中的存储器中存储所述数字视频；从存储器获取数字视频，以及从所存储的数字视频中提取视频部分和音频部分。

根据该方法的一种实施方式，确定至少一个方向成分包括定位所述数字视频的视频部分内的音频源，并且基于视频部分内的音频源的位置确定来自音频源的音频的方向成分。

根据该方法的一种实施方式，确定至少一个方向成分还包括确定在数字视频的视频部分内的音频源的朝向，并且还基于在所述视频部分内的音频源的朝向确定来自音频源的音频的方向成分。

根据该方法的一种实施方式，确定音频源的朝向包括进行面部检测以基于音频源的面部特征的状态确定为人的音频源的朝向。

根据该方法的一种实施方式，该方法还包括检测视频部分中干扰数字视频中的视频部分中的音频源的图像的对象，并且不被干扰对象干扰地编码多通道音频。

根据该方法的一种实施方式，该方法还包括确定来自数字视频中的多个音频源的每一个音频源的音频的至少一个方向成分，并且基于来自多个音频源中的各音频源的音频的至少一个方向成分将音频部分以多通道格式编码。

根据该方法的一种实施方式，该方法还包括：建立视频电话会议呼叫，其中多个音频源的每一个音频源都是视频电话会议中的参与者；以及对部分编码音频以模拟视频电话会议中的每个参与者的相对位置。

本发明的这些和其它特征将参照以下的说明和附图变得明显。在说明和附图中，详细公开了本发明的具体实施方式，其指示本发明的原理可以被采用的某些方式，但应理解本发明在范围上并不因此地被限制。本发明包括落入所附的权利要求的实质和术语内的全部变化、变型和等同。

针对一种实施方式描述和/或例示的特征可以以相同方式或者类似方式在一个或者多个其他实施方式中使用和/或结合或者替代其他实施方式的特征。

应理解术语“包括”和“包含”当在本说明书中使用时用于明确所声称的特征、要件、步骤、或者部件存在但不排除添加或者存在一个或者多个其它特征、要件、步骤、或者部件。

附图说明

图1是用于根据本发明的实施方式的示例电子装置的示意图；

图2是图1的电子装置的操作部分的示意框图；

图3示出组成示例数字视频的视频部分的图像序列；

图4示出数字视频中的被摄体的朝向改变的示例序列；

图5是示例性3D音频应用的操作部分的示意框图；

图6是示出了为数字视频产生3D或者多通道音频的示例方法的流程图；以及

图7是示例视频会议系统的示意图。

具体实施方式

下面将参照附图描述本发明的实施方式，其中在所有附图中，类似的附图标记用于指代类似元件。应理解附图并不是成比例的。

参照图1，示例性电子装置10被实现为具有数字视频功能的便携式电子装置。在图1中，示例性便携式电子装置由移动电话10示出。尽管以下描述在现有的移动电话的语境中做出，但应理解本发明不限于移动电话的语境而可以涉及具有数字视频功能的任何类型的合适的电子装置，包括数字相机、数字视频相机、移动PDA、其他移动无线通信装置、游戏装置、便携式媒体播放器等。应理解本文所用的术语“数字视频”包括音视频内容，其可以包括视频部分和音频部分。另外，尽管本文描述主要涉及具有视频部分和音频部分的内容，类似原理也可以应用于仅仅再现独立于相关的视频部分内容的音频部分或者没有相关的视频部分的音频部分。

图1示出了示例性移动电话10的各个露出的部件，图2代表移动电话10的操作部分的功能框图。移动电话10可以是翻盖电话，具有可以在打开和闭合位置之间活动的翻盖15。在图1中，该翻盖被示出为处于打开位置。应理解移动电话10可以具有其它配置，诸如“块”或者“条”配置、滑盖配置、旋转盖配置等。

移动电话10可以包括主要的控制电路41，控制电路41被配置为进行移动电话的功能和操作的整体控制。控制电路41可以包括诸如CPU、微控制器或者微处理器的处理装置42。在其功能中，为了实现本发明的特征，控制电路41和/或处理装置42可以包括可以执行程序代码(所述程序代码被实现为具有3D音频应用60的数字视频应用43)的控制器。计算机编程领域特别是相机、移动电话或者其它电子装置应用编程领域的技术人员很清楚如何对移动电话编程以操作和进行与应用43和60关联的逻辑功能。因此，为了简洁，具体编程代码的细节被省略。另外，尽管根据示例性实施方式该代码被控制电路41执行，但这种控制功能也可以经由专用硬件、固件、软件、或者其组合进行，而不背离本发明的范围。

移动电话10还可以包括相机组件20。相机组件20构成了用于产生诸如数字静止照片或者数字运动视频图像的数字图像的图像产生装置。相机组件20可以包括背朝用户向外的用于为与用户相对的被摄体拍摄静止照片或者运动数字视频图像的镜头21。相机组件20还可以包括用于从镜头接收光以产生图像的一个或者更多个图像传感器22。相机组件20还可以包括现有的数字相机和数字摄像机中通常的其他特征，诸如闪光灯23、测光表24等。

移动电话10具有当翻盖电话处于打开位置可见的显示器14。显示器14向用户显示有关于移动电话的各个特征和操作状态的信息，并且显示被移动电话接收和/或从存储器25获取的视觉内容。显示器14可以用于显示图片、视频、和多媒体内容的视频部分。对于照相或者数字视频功能，显示器14可以用作相机组件20的电子取景器。显示器14可以通过视频处理电路54耦合到控制电路41，视频处理电路54将视频数据转换为用于驱动各种显示的视频信号。视频处理电路54可以包括任何合适的缓冲器、解码器、视频数据处理器等。视频数据可以由控制电路41产生，从存储器25中存储的视频文件获取、从进入的视频数据流获取、或者通过任何其他适当方法获得。根据本发明的实施方式，显示器14可以显示相机组件20捕捉的或者被电子装置10播放的数字视频图像的视频部分。

移动电话10还包括用于处理音频信号的声音信号处理电路48。耦合到声音信号处理电路48的是扬声器50和麦克风52，扬声器50和麦克风52使得用户能够经过移动电话听和说，这与常规的一样。例如，可以经过通信电路46和天线44接收和发送信号。如以下更详细描述的，在本发明的实施方式中，麦克风52可以被用来收集用户创建的音视频内容的音频部分。

本发明产生与用户用移动电话10创建的音视频内容相关联的3D或者多通道音频。例如，用户可以采用数字视频功能43创建具有视频部分和音频部分的数字视频。相机组件20可以产生视频部分，麦克风52可以收集音频部分。数字视频功能43可以将这两个部分合并为具有视频部分和音频部分的数字视频。

用户可以通过多种方式执行数字视频功能43。例如，移动电话10可以包括键盘18，键盘18提供各种用户输入操作。例如，键盘18通常包括字母数字键以便允许输入诸如电话号码、电话列表、联系信息、笔记等的字母数字信息。另外，键盘18通常包括方向导航键或者诸如用于启动或者接听呼叫的“发送”键等的特殊功能键。一些或者全部按键可以结合显示器作为软按键使用。按键或者类似按键的功能还可以实现为与显示器14关联的触摸屏。数字视频功能43因此可以被键盘18上的专用按键选择、通过从显示器14上显示的菜单中选择、或者通过任何合适的途径选择。

在本示例电子装置10中，仅仅存在一个麦克风52，如上所述，这对于直接记录3D或者多通道音频是不足的。即便数字视频不是被电子装置10的用户而是以另外的方式创建的，在本文也类似地假设该数字视频没有用多通道或者3D音频特征创建。为了产生3D或者多通道音频，数字视频功能43可以包括3D音频应用60。如上所述，应用60可以被实现为可以被控制电路41执行的可执行程序代码。对计算机编程领域的技术人员，特别是在相机、移动电话或者其他电子装置的应用编程领域的技术人员而言，如何对移动电话编程以操作和执行与应用60关联的逻辑功能是明显的。因此，为了简洁，省略了具体编程代码的细节。另外，尽管根据示例实施方式，代码被控制电路41执行，这种控制功能还可以经过专用硬件、固件、软件、或者它们的组合进行，而不脱离本发明的范围。此外，尽管应用60被描述为是数字视频功能43的一部分，但应用60或者其部分可以独立于数字视频功能43。

图3示出了示例性数字视频的示例性部分96。如图所示，数字视频部分96可以包括组成数字视频的图像序列96a-96c。数字视频中的被摄体90可以是音频源。例如，在图3中，被摄体90是当数字视频被记录时讲话的人。显然，来自被摄体90的音频的方向成分可能受两个参数影响。首先，随着被摄体运动，音频发自相对于电子装置的数字视频相机不同的方向。另外，音频的方向成分可以随着被摄体改变其相对于视频相机的朝向而改变。例如，简要地参照图4，如果被摄体是人，则来自该人的音频的方向成分可以随着被摄体将他的面部45相对于视频相机改变朝向而改变。如以下更详细描述的，可以采用这些参数的每一个——被摄体的位置和被摄体的朝向——来产生用于数字视频的3D或者多通道音频。

图5是示例性3D音频应用60的操作部分的示意性框图。应用60可以包括接收数字视频的视频部分的图像分析器62和接收数字视频的音频部分的音频接收器66。在一种实施方式中，视频部分和音频部分可以随着数字视频产生被应用60实时地接收。例如，可以从相机组件20实时接收视频部分，并且可以从麦克风52经过声音信号处理电路48实时接收音频部分。在另选的实施方式中，数字视频可以是先前创建的包括视频部分和音频部分的视频文件。可以从数字视频文件中将视频部分和音频部分提取出来以便处理。例如，视频文件可以被从内部存储器25获取、从外部存储装置下载、从网络视频源流输入、或者通过其他现有途径获得。因此，3D音频可以以本文描述的方式在用户用便携式电子装置产生数字视频时实时产生，或者作为对先前创建和/或非用户创建的数字视频施加的后处理功能而产生。

图像分析器可以包括用于确定数字视频中音频源的位置的图像定位器63。图像定位器可以通过采用图像识别技术(诸如对象识别、边缘检测、轮廓识别等)结合音频接收器66接收的音频来识别作为音频源的被摄体。如上所述，用于产生3D音频的一个参数可以是音频源相对于产生视频的电子装置的数字视频相机的位置。再次参照图3，随着被摄体在数字视频中从左向右运动，被摄体的位置相对于相机组件改变。真实音频再现将反映该位置改变，使得当被摄体位于相机组件的左侧时(帧96a)，音频再现将更集中在左音频通道。当被摄体位于相机组件的右侧时(帧96c)时，音频再现将更集中在右音频通道。当被摄体直接位于相机组件前方时(帧96b)，声音再现将更集中在中央音频通道，和/或在左和右音频通道之间大致均等地划分。

图像分析器62的图像定位器63可以确定被摄体位置随被摄体在数字视频中运动的改变。例如，对于帧96a，到被摄体的线90和到相机组件的垂直线93之间形成的角度是92a。在帧96b中，被摄体直接在相机组件前方，此时该角度为零，在帧96c中，被摄体运动到右侧，此时该角度为92b。由此方式，图像定位器可以在被摄体在数字图像中运动时跟踪被摄体。另外，尽管在本示例中运动是从左向右，但也可以确定其他朝向改变，诸如上下变化或者远近变化。

如上所述，用于产生3D或者多通道音频的另一参数可以是音频源相对于产生数字视频的相机组件的朝向。图像分析器62因此还可以包括用于确定音频源相对于相机组件的的朝向的朝向检测器64。在一种实施方式中，朝向检测器64可以包括用于基于音频源的面部特征状态(或者其改变)来确定人类被摄体相对于相机组件的朝向的面部检测模块。

图4示出了数字视频中的人类被摄体在数字视频中的朝向改变的示例性序列。朝向检测器/面部检测模块64可以检测被摄体面部特征的运动和朝向，特别是用户的眼睛和相邻面部特征的运动和朝向。这种运动和朝向可以通过对象识别、边缘识别、轮廓识别或者用于检测在图像序列中检测出的其它被摄物或者被摄体的运动的其他方法确定。面部特征的运动可以被转换为对应于发源自该被摄体的音频的方向成分的方向向量。

例如，在图4中，元素45a-45d代表可以被朝向检测器/面部检测模块64检测出的被摄体朝向的改变序列。因此，朝向检测器/面部检测模块64监视帧45a-d代表的运动序列。在本示例中，如从帧45a可见，被摄体最初朝向前面。如从45a到45b的小图像所示，朝向检测器64可以检测出被摄体将其头部转向右侧。朝向检测器64可以定义对应于用户的面部的至少一部分的朝向的方向向量49，例如由用户的眼睛和相邻面部特征的状态和朝向的改变来代表。可以通过确定由相机组件捕捉的图像序列中用户的眼睛和鼻尖的相对位置形成的三角形的相对位移和变形导出方向向量49。例如，三角形47a代表用户的眼睛和鼻子在帧45a中的相对位置，三角形47b代表用户的眼睛和鼻子在帧45b中的相对位置。三角形47a和47b之间的相对位移以及相对变形指示用户已经向右看，这由方向向量49所代表。类似地，当如帧45c所示的用户将其头部转向如帧45d示出的左侧时，朝向检测器64可以确定对应于用户面部的朝向方向的另一方向向量51，该朝向方向可以从三角形47c和47d明显地看出。在真实音频再现中，音频中应存在相称的改变以反映何时被摄体远离(或者至少不直接朝向)相机组件讲话。

如上所述，音频接收器66接收麦克风52收集的音频。麦克风音频从音频接收器66输入到编码器68。另外，来自包括图像定位器63和朝向检测器64的图像分析器62的方向数据被输入到编码器68。编码器可以接着基于图像分析器产生的方向数据再处理麦克风音频以为该数字视频产生3D或者多通道音频。例如，编码器可以根据图像定位器和朝向检测器确定的被摄体的位置和朝向将音频编码为多通道音频。音频可以以标准格式(诸如5.1、6.1等)或者用户开发或者定义的其他格式编码。由此方式，即使最初仅使用单个麦克收集数字视频的音频部分，也可以产生真实的3D音频再现。

图6是示出了如上所述为数字视频产生3D或者多通道音频的示例性方法的流程图。尽管该示例性方法被描述为执行功能逻辑步骤的具体顺序，但执行这些步骤的顺序可以相对于所描述的顺序改变。另外，描述为连续的两个或者更多个步骤可以被并行或者部分并行地执行。应理解这种变化是在本发明的范围内。

方法可以开始于步骤100，在步骤100中接收数字视频的视频部分。如上所述，该视频部分可以由图像分析器62接收。在步骤110，可以由例如音频接收器66接收数字视频的音频部分。在步骤120，可以分析视频部分。例如，步骤120a可以包括用图像定位器63定位视频部分中的音频源。通过定位音频源，可以确定来自音频源的音频的方向成分。另外，步骤120b可以包括用朝向检测器64对音频源进行朝向检测以确定音频源的朝向，该朝向可以被用来确定来自音频源的音频的方向成分。如果音频源是人类被摄体，则朝向检测器可以进行面部检测以基于音频源的面部特征的状态(或者其改变)确定音频源的朝向。在步骤130，接收的音频和经分析的图像数据可以被输入到诸如编码器68的音频编码器。在步骤140，该音频可以被编码为多通道音频格式以为该数字视频产生真实3D音频成分。在步骤150，多通道音频可以被并入数字视频文件使得数字视频可以与所产生的3D或者多通道音频一起播放。

参照图2，电子装置10可以包括媒体播放器28，所述媒体播放器28具有用于对多通道或者3D音频解码的解码器29。该解码器允许音频被以多通道格式输出到扬声器系统(外置扬声器、耳机、头戴式耳机等)。应理解，尽管图2示出了具有产生和回放具有3D或者多通道音频的内容两者的能力的电子装置，但这不是必须的。例如，3D音频可以被一个装置编码，并且包括该3D音频的内容可以被发送到具有音频播放器和解码器的第二装置以便回放。

另外，3D音频应用60不必存在于便携式电子装置上。例如，在一种实施方式中，3D音频应用可以驻留在网络服务器上并通过任何现有途径访问。

根据上述示例性实施方式，数字视频可以被电子装置10自身通过数字视频功能43创建。在操作中，视频部分可以被相机组件20产生，对于数字视频相机来说，这是常规的。另外，数字视频的音频部分可以被麦克风52收集并馈入声音信号处理电路48。数字视频功能43将视频部分和音频部分合并成单个数字视频文件，该单个数字视频文件可以存储在诸如存储器25的内部存储器中、实时播放、发送到外部装置以便存储或者回放、或者这些的组合。在一种实施方式中，以上述方式，可以在数字视频被用户用电子装置10创建时，用多通道或者3D音频实时增强该数字视频。

在其它实施方式中，数字视频可以被首先被用户或其它人创建，然后用作为后处理例程的一部分的多通道或者3D音频编码来增强。再次参照图2，例如数字视频可以被存储在电子装置10的内部存储器25中。3D音频应用60可以从该存储器获取数字视频，并且图像分析器62和音频接收器66可以从所存储的数字视频中分别提取视频部分和音频部分。作为另一示例，电子装置10可以包括经由有线或者无线网络访问数字视频的网络接口26。可以通过下载数字视频或者将数字视频流传输到电子装置来访问数字视频。图像分析器62和音频接收器66接着可以从网络访问的数字视频中分别提取视频部分和音频部分。

3D音频应用60可以包括用于增强音频再现质量的其他部件。例如，再次参照图5，图像分析器62可以包括干扰检测器65。应理解，在数字视频的创建期间，音频源可以变得使数字视频相机看不见他。例如，物体可以无意间在相机和被摄体之间运动，这将干扰对被摄体的观看，即使来自被摄体声音源的音频保持恒定也是如此。干扰检测器在某种意义上用作存储观看被干扰期间与音频源相关的图像位置和朝向数据的存储器。由此方式，多通道音频被基于被摄体音频源的位置和朝向连续地编码，尽管对其的观看被干扰。

参照图2和图5，在另一实施方式中，3D音频应用60还考虑数字视频被创建时相机的运动。应理解相机的运动同样可以改变来自音频源的音频相对于相机的位置的方向成分。例如，电子装置10可以包括用于感测相机运动的运动传感器27。运动传感器可以是加速度测量仪或者用于检测对象的运动的类似装置。随着相机运动，来自音频源的音频的方向成分可以相称地改变。在此实施方式中，3D音频应用60可以包括用于从运动传感器接收输入的运动分析器70。该运动分析器可以基于电子装置的运动确定来自数字视频中的音频源的音频的方向成分。来自运动分析器的数据可以被输入到编码器68以在将数字视频的音频部分编码为3D或者多通道格式时使用。

在另一实施方式中，3D音频应用60可以包括编辑器接口72，通过该编辑器接口72，用户可以编辑多通道音频。例如，用户可以修改任意通道的音量、重新将音频的部分导入不同通道等。用户可以使用键盘18和/或菜单系统或者通过访问应用以及输入数据或者命令的任何现有方法访问编辑器并且输入编辑。

已经结合确定数字视频中的单个音频源的方向成分描述了上述示例。该系统可以具有足够的尖端性来确定一个音频源的多个方向成分，和/或多个音频源的多个方向成分。另外，如上所述，音频源不需要是人类被摄体，而可以是任意类型的音频源。例如，另选的或者额外的音频源可以包括诸如扬声器、狗或者其它动物、环境对象等的对象。对于非人类被摄体，朝向检测器64可以采用面部检测之外的识别技术。例如，朝向检测器可以采用对象识别、边缘检测、轮廓识别或者用于检测对应于数字视频的图像或图像序列中检测的任何物体或者对象的朝向的其它途径。

参照图7，可以采用多源功能创建视频会议系统200。在该实施方式中，三个视频电话会议参与者95a、95b、和95c处于围绕示例性会议桌91的不同位置。视频电话会议可以由具有相机组件20和麦克风52的电子装置10产生。真实音频编码和再现将模拟会议中的每个参加者的各个位置使得来自相机组件左侧的被摄体95a的音频(讲话)将更集中在左音频通道。来自相机组件右侧的被摄体95c的音频(讲话)将更集中在右音频通道，以及来自直接位于相机组件前方的被摄体95b的音频(讲话)将更集中在中央音频通道，和/或在左右音频通道之间大致均等地划分。

类似于图3所示的系统，在到各被摄体95a、95b、和95c画的线和到相机组件的垂直线93之间形成角度。(对于直接位于相机组件前方的被摄体95b，这种角度为零。)由此方式，图像定位器可以基于视频电话会议中的被摄体相对于相机组件的位置确定来自每个被摄体的音频的方向成分。应理解该系统可以用于任意数量的电话会议参与者。

因此可以编码电话会议的音频部分以模拟每个参与者在呼叫中的相对位置。如图7的折箭头所示，视频电话会议种子(feed)可以接着被发送到使用移动电话10a的远程参与者。假设移动电话10a配备了多通道解码器和扬声器系统(外置扬声器、虚拟环绕声耳机、或者头戴式耳机)，远程参与者将听到每个参与者95a-95cc，如同这些远程参与者围绕桌子91坐着一样。在一种实施方式中，远程参与者可以仅仅接收呼叫的音频部分。如果这样，则远程参与者可以基于音频的方向编码更容易地识别每个讲话者。另选地，电话的视频成分可以被显示在移动电话10a的显示器14上。即使在此情况下，该远程参与者也可以获得呼叫的更好享受，因为音频将匹配每个讲话者的物理位置。还应理解哪个电子装置(10或者10a)确定和编码多通道视频不重要。每个装置可以分析视频电话会议的视频部分并且以多通道格式编码音频部分。

尽管已经针对特定优选实施方式示出和描述本发明，应理解在阅读和理解说明书之后，本领域技术人员将想到一些等同和变型。本发明包括全部这些等同和变型，并且仅仅被所附的权利要求的范围限制。

Claims

1.一种电子装置(10)，所述电子装置(10)用于操纵具有视频部分和音频部分的数字视频，所述电子装置包括：

用于接收所述数字视频的音频部分的音频接收器(66)；

用于接收所述数字视频的视频部分并且确定来自所述数字视频中的音频源的音频的至少一个方向成分的图像分析器(62)；以及

用于接收所述音频部分和所述至少一个方向成分的输入的编码器(68)，其中所述编码器基于来自所述音频源的音频的所述至少一个方向成分将所述音频部分以多通道格式编码。

2.根据权利要求1所述的电子装置(10)，所述电子装置(10)还包括：

用于产生被所述图像分析器(62)接收的所述数字视频的视频部分的相机组件(20)；以及

用于收集被所述音频接收器接收的所述数字视频的音频部分的麦克风(52)。

3.根据权利要求1-2中任意一项所述的电子装置(10)，所述电子装置(10)还包括：

用于检测所述电子装置的运动的运动传感器(27)；以及

用于基于所述电子装置的运动确定来自所述数字视频中的所述音频源的音频的方向成分的运动分析器(70)；

其中所述编码器(68)还基于所述运动分析器确定出的来自所述音频源的所述音频的所述方向成分将所述音频部分以多通道格式编码。

4.根据权利要求1-3中任意一项所述的电子装置(10)，所述电子装置(10)还包括用于存储所述数字视频的存储器(25)，其中所述图像分析器(62)通过从所存储的数字视频中提取视频部分来接收所述视频部分，并且所述音频接收器(66)通过从所存储的数字视频中提取音频部分来接收所述音频部分。

5.根据权利要求1-3中任意一项所述的电子装置(10)，所述电子装置(10)还包括用于从网络访问所述数字视频的网络接口(26)，其中所述图像分析器(62)通过从所访问的数字视频中提取视频部分来接收所述视频部分，并且所述音频接收器(66)通过从所访问的数字视频中提取音频部分来接收所述音频部分。

6.根据权利要求1-5中任意一项所述的电子装置(10)，其中所述图像分析器(62)包括用于定位所述数字视频的视频部分内的音频源的图像定位器(63)，并且所述图像分析器基于所述视频部分内的音频源的位置确定来自所述音频源的音频的方向成分。

7.根据权利要求6所述的电子装置(10)，其中所述图像分析器(62)还包括用于确定所述数字视频的视频部分内的所述音频源的朝向以确定所述音频源的朝向的朝向检测器(64)，并且所述图像分析器还基于所述视频部分内的所述音频源的朝向确定来自所述音频源的音频的方向成分。

8.根据权利要求7所述的电子装置(10)，其中所述朝向检测器(64)包括基于为人的音频源的面部特征的状态确定所述为人的音频源的朝向的面部检测模块(64)。

9.根据权利要求1-8中任意一项所述的电子装置(10)，其中所述图像分析器(62)包括用于检测所述视频部分中的干扰所述数字视频中的视频部分中的音频源的图像的对象的干扰检测器(65)，使得所述编码器(68)不被干扰对象干扰地编码多通道音频。

10.根据权利要求1-9中任意一项所述的电子装置(10)，其中所述图像分析器(62)确定来自所述数字视频中的多个音频源的每一个音频源的音频的至少一个方向成分，并且所述编码器(68)基于来自所述多个音频源的音频的所述至少一个方向成分将所述音频部分以多通道格式编码。

11.根据权利要求10所述的电子装置(10)，其中所述图像分析器(62)确定来自所述数字视频中的多个音频源的每一个音频源的音频的多个方向成分，并且所述编码器(68)基于来自所述多个音频源的音频的多个方向成分将所述音频部分以多通道格式编码。

12.一种为具有视频部分和音频部分的数字视频进行多通道音频编码的方法，所述方法包括以下步骤：

接收所述数字视频的音频部分；

接收所述数字视频的视频部分并且确定来自所述数字视频中的音频源的音频的至少一个方向成分；

将所述音频部分和所述至少一个方向成分输入到多通道音频编码器(68)；以及

基于所述来自所述音频源的音频的所述至少一个方向成分将所述音频部分以多通道格式编码。

13.根据权利要求12所述的方法，所述方法还包括：

用电子装置(10)产生数字视频；

检测所述电子装置的运动；以及

基于所述电子装置的运动确定来自所述数字视频中的音频源的音频的方向成分；

其中所述编码器(68)还基于根据所述电子装置的运动确定出的来自所述音频源的音频的所述方向成分将所述音频部分以多通道格式编码。

14.根据权利要求12-13中任意一项所述的方法，所述方法还包括：

在电子装置(10)中的存储器(25)中存储所述数字视频；

从所述存储器获取数字视频；以及

从所存储的数字视频提取所述视频部分和所述音频部分。

15.根据权利要求12-14中任意一项所述的方法，其中确定所述至少一个方向成分包括定位所述数字视频的视频部分内的音频源，并且基于所述视频部分内的音频源的位置确定来自所述音频源的音频的方向成分。

16.根据权利要求15所述的方法，其中确定所述至少一个方向成分还包括确定所述数字视频的视频部分内的音频源的朝向，并且还基于所述视频部分内的所述音频源的朝向确定来自所述音频源的音频的方向成分。

17.根据权利要求16所述的方法，其中确定音频源的朝向包括进行面部检测以基于为人的音频源的面部特征的状态确定所述为人的音频源的朝向。

18.根据权利要求12-17中任意一项所述的方法，所述方法还包括检测所述视频部分中干扰所述数字视频的视频部分中的音频源的图像的对象，从而不被干扰对象干扰地编码所述音频部分。

19.根据权利要求12-18中任意一项所述的方法，所述方法还包括确定来自所述数字视频中的多个音频源中的每一个音频源的音频的至少一个方向成分，并且基于来自所述多个音频源中的每一个音频源的音频的所述至少一个方向成分将所述音频部分以多通道格式编码。

20.根据权利要求19所述的方法，所述方法还包括：

建立视频电话会议呼叫，其中多个音频源的每一个都是视频电话会议中的参与者；以及

将所述音频部分编码为模拟所述视频电话会议中的每个参与者的相对位置。