CN103959762A

CN103959762A - 多媒体捕获中的质量提升

Info

Publication number: CN103959762A
Application number: CN201180075212.0A
Authority: CN
Inventors: K·耶尔维宁
Original assignee: Nokia Oyj
Current assignee: Nokia Technologies Oy
Priority date: 2011-11-30
Filing date: 2011-11-30
Publication date: 2014-07-30
Anticipated expiration: 2031-11-30
Also published as: EP2786373A4; US20140308025A1; EP2786373A1; US9282279B2; CN103959762B; EP2786373B1; WO2013079763A1

Abstract

一种用于控制多媒体内容的捕获的方法，所述方法包括：由装置捕获多媒体内容，所述多媒体内容包括至少音频信号和视频信号；基于所述音频信号或视频信号至少之一来获得控制信息；基于从所述视频信号获得的所述控制信息来控制所述音频信号的预处理；和/或基于从所述音频信号获得所述控制信息来控制所述视频信号的预处理。

Description

多媒体捕获中的质量提升

背景技术

多媒体捕获能力已经成为便携式设备中的常见特征。两个或多个值机员之间的多媒体呼叫可以包括音频和视频信号两者的同时传输。在另一方面，许多人倾向于在他们正在参加的事件，诸如音乐会或体育赛事，中记录或捕获音频和视频内容。

背景噪声使得移动多媒体通信中的音频编码和整体的体验质量遭受了挑战。多媒体终端常常在具有高的背景噪声水平的环境中使用，使得多媒体捕获易于遭受背景噪声的侵害。为了改进音频质量，多媒体终端通常在语音信号经历音频编码之前应用噪声抑制(又称噪声消除)作为预处理步骤。噪声抑制从来不能完全地在语音和背景噪声之间进行区分，并且因此通常将噪声抑制设计成在尽可能多地衰减背景噪声和使得尽可能少地使语音信号本身降级之间提供固定取舍。

然而，在上述两个方面之间直接应用此类固定取舍不是最优的。例如，在一些多媒体捕获中，希望的是：也尽可能好地传递周围气氛(例如，当正在现场音乐会中时)，而在其它情况中(例如，当试图在高噪声环境中解释重要问题时)所有的背景噪声将降低语音的清晰度和可懂度，从而是不需要的。也就是说，什么应当被认为是不需要的背景噪声取决于多媒体捕获会话的上下文。此外，对特定多媒体捕获会话来说，多媒体终端的用户没有办法将噪声抑制或任何其它的预处理调节成更优的。

发明内容

现在，已经发明了一种用于缓解上述问题的改进方法和实现该方法的技术设备。本发明的各个方面包含：方法、装置和计算机程序产品，其由独立权利要求中所述的内容进行表征。在独立权利要求中公开了本发明的各种实施例。

根据第一方面，提供了一种方法，所述方法包括：由装置捕获多媒体内容，所述多媒体内容包括至少音频信号和视频信号；基于所述音频信号或视频信号中的至少一者来获得控制信息；基于从所述视频信号获得的所述控制信息来控制所述音频信号的预处理；和/或基于从所述音频信号获得所述控制信息来控制所述视频信号的预处理。

根据实施例，所述方法还包括：在对所述音频信号或视频信号进行编码前应用所述预处理。

根据实施例，所述音频信号的所述预处理是下列中的一个：噪声抑制，语音水平调节、调节语音的动态范围、向音频源引导多个麦克风布置的麦克风波束成型。

根据实施例，所述方法还包括：确定针对出现在由所述视频信号所表示的视频场景上的至少一个音频源的优先级值，所述优先级值与由所述视频场景中的所述音频源所覆盖的图像面积成比例；以及根据所述优先级值来调节所述音频信号的所述预处理，使得在所述预处理中着重于来源于覆盖所述视频场景的最大图像面积的音频源的音频成分。

根据实施例，所述方法还包括：确定针对出现在由所述视频信号所表示的视频场景上的至少一个音频源的优先级值，所述优先级值与由所述视频场景中的所述音频源所覆盖的图像面积成比例；以及根据所述优先级值来调节所述音频信号的所述预处理，使得在预处理中不着重于对整体视频场景贡献较少的音频成分。

根据实施例，所述方法还包括：检测由所述视频信号所表示的视频场景中的人的面部的至少一部分；以及以与由在所述视频场景中的所述人的面部所覆盖的图像面积成比例来对所述音频信号的所述预处理进行调节。

根据实施例，所述音频信号的所述预处理是噪声抑制，以及所述方法还包括：以与由在所述视频场景中的所述人的面部所覆盖的图像面积成比例来对背景噪声的衰减进行调节。

根据实施例，所述方法还包括：从所述视频信号的处理链的多个点来获得用于所述音频预处理器控制信号的控制信息，所述多个点位于以下点中的至少一个点：在视频信号预处理之前，在视频信号编码之前，在视频编码和所述视频信号的编码的参数值期间。

根据实施例，所述视频信号的所述预处理是以下中的一个：对图像帧的细节进行平滑，对颜色的动态范围进行调节，降低所述视频信号的色域或移除所述视频信号的不那么必要的部分。

根据实施例，所述方法还包括确定针对出现在由所述视频信号所表示的视频场景上的至少一个对象的优先级值，所述优先级值与由所述对象贡献于整体音频场景的音频成分成比例；以及根据所述优先级值来调节所述视频信号的所述预处理，使得在所述预处理中不重视较少贡献于整体音频场景的对象。

根据实施例，所述方法还包括：从所述音频信号的处理链的多个点获得用于所述视频预处理器控制信号的控制信息，所述多个点位于以下点中的至少一个点：在音频信号预处理之前、在音频信号编码之前、在音频编码和所述音频信号的编码的参数值期间。

根据第二方面，提供了一种装置，所述装置包括：至少一个处理器，包含计算机程序代码的存储器，所述存储器和所述计算机程序代码被配置为使用所述至少一个处理器使得所述装置至少：捕获多媒体内容，所述多媒体内容包括至少音频信号和视频信号；基于所述音频信号或视频信号中的至少一者来获得控制信息；基于从所述视频信号获得的所述控制信息来控制所述音频信号的预处理；和/或基于从所述音频信号获得所述控制信息来控制所述视频信号的预处理。

根据第三方面，提供了一种计算机可读存储介质，在该存储介质上存储有供装置使用的代码，当所述代码由处理器执行时，所述代码使得所述装置执行：捕获多媒体内容，所述多媒体内容包括至少音频信号和视频信号；基于所述音频信号或视频信号中的至少一者来获得控制信息；基于从所述视频信号获得的所述控制信息来控制所述音频信号的预处理；和/或基于从所述音频信号获得所述控制信息来控制所述视频信号的预处理。

鉴于以下实施例的进一步详细公开，本发明的这些和其它方面以及与其相关的实施例将变得明显。

附图说明

在以下中，将参照附图更详细地描述本发明的各种实施例，其中：

图1示出了根据实施例的适合于在多媒体捕获中使用的示例性装置的示意性框图；

图2示出了图1的示例性装置的另一个示意图；

图3示出了通信系统的示例，其中能够使用根据实施例的多媒体终端；

图4示出了根据实施例的系统的框图；

图5示出了根据实施例的用于基于从视频信号获得的控制信息来控制音频信号的预处理的系统的框图；

图6a、6b和图6c示出了基于视频成分来控制音频的预处理的示例；

图7示出了根据实施例的基于从音频信号获得的控制信息来控制视频信号的预处理的系统的框图；

图8a和图8b示出了基于音频成分来控制视频的预处理的示例；以及

图9示出了根据实施例的用于控制多媒体内容的捕获的方法的流程图。

具体实施方式

以下进一步详细地描述用于在多媒体通信中实现改进的语音和视频质量的合适的装置和可能的机制。在这点上，首先参照图1和图2，其示出了示例性装置或电子设备50的示意性框图，其可以并入根据本发明的实施例的用于多媒体的必要的功能。

电子设备50例如可以是无线通信系统的移动终端或用户设备，数字相机、便携式计算机等。然而，应当理解的是，可以在可包含多媒体处理属性的任何电子设备或装置内实现本发明的实施例。

装置50可以包括：用于容纳和保护设备的壳体20(图2)。装置50还可包括以液晶显示器形式的显示器32。在本发明的其它实施例中，显示器可以是适合于显示图像或视频的任何合适的显示器技术。在一些实施例中，显示器32可以是触摸敏感显示器，其意味着除了能够显示信息外，显示器32还能够感知显示器32上的触摸，并且向控制器56传送关于该触摸的信息，例如该触摸的位置，该触摸的力量等。因此，触摸敏感显示器能够用作用于输入信息的构件。在示例实施例中，可以将触摸敏感显示器32实现成显示元件和位于显示元件上的触摸敏感元件。

装置50还包括小键盘34。在本发明的其它实施例中，可以使用任何合适的数据或用户接口机构。例如，用户接口可以被实现成作为触摸敏感显示器的一部分的虚拟键盘或数据输入系统，或它可以包含语音识别能力。装置可以包括麦克风36或任何合适的音频输入器，其可以是数字或模拟信号输入器。装置50还可包括音频输出设备，在本发明的实施例中，所述音频输出设备可以是以下中的任何一个：耳机38、扬声器、或模拟音频或数字音频输出连接件。装置50还可包括电池40(或者在本发明的其它实施例中，可以由任何合适的移动能量设备，诸如太阳能电池、燃料电池或发条发电机，向该设备提供电力)。该装置还可以包括近场通信(NFC)连接42，其用于与其它设备近距离通信，例如从几厘米到几米或到几十米的距离。在其它实施例中，装置50还可以包括任何合适的近距离通信解决方案，诸如例如蓝牙无线连接、红外线端口或USB/火线有线连接。

装置50可以包括用于控制装置50的控制器56或处理器。控制器56可以连接到存储器58，在本发明的实施例中，存储器58既可以存储图像数据形式的数据又可以存储音频数据形式的数据，和/或还可以存储用于在控制器56上实现的指令。控制器56还连接到编解码电路54，该编码电路54适用于执行对音频和/或视频数据的编码和解码或帮助由控制器56执行的编码和解码。

装置50还可以包括卡阅读器48和智能卡46，例如UICC和UICC阅读器，以用于提供用户信息并且适用于提供用于在网络处对用户进行认证和授权的认证信息。

装置50可以包括：无线电接口电路52，其连接到控制器并且适用于生成例如用于与蜂窝通信网络、无线通信系统和/或无线局域网进行通信的无线通信信号。装置50还可以包括：天线44，其连接到无线电接口电路52以用于将在无线电接口电路52处生成的射频信号传送给其它装置(多个)以及用于接收来自其它装置(多个)的射频信号。

在一些实施例中，装置50可以包括：相机62，其能够记录或检测个体帧或图像，该个体帧或图像然后被运送给用于处理的图像处理电路60或控制器56。在其它实施例中，装置可以在传输和/或存储之前接收来自另一个设备的图像数据。在其它实施例中，装置50可以无线地或通过有线连接接收例如来自远程相机单元的用于编码/解码的图像。

参照图3，示出了在其内可以使用本发明的实施例的系统的示例。系统10包括：多个通信设备，其能够通过一个或多个网络进行通信。系统10可以包括有线网络或无线网络的任何组合，有线网络或无线网络包括但不限于：无线蜂窝电话网络(诸如全球移动通信系统(GSM)网络，第三代(3G)网络，第3.5代(3.5G)网络，第四代(4G)网络，通用移动通信系统(UMTS)，码分多址接入(CDMA)网络等)，无线局域网(WLAN)，诸如由电子电气工程师协会(IEEE)802.x标准中的任何标准定义的WLAN，蓝牙个域网，以太网局域网，令牌环局域网，广域网，以及互联网。

例如，在图3中示出的系统示出了移动电话网络11和互联网28的表示。至互联网28的连通性可以包含但不限于：长距无线连接，短距无线连接，以及各种有线连接，包括但不限于电话线，电缆线，电力线，和类似的通信路径。

在系统10中示出的示例性通信设备可以包含但不限于：电子设备或装置50，个人数字助理(PDA)和移动电话的组合14，PDA16，集成消息发送设备(IMD)18，桌面计算机20，操作为网络服务器的计算机22。装置50可以是固定的或当由移动中的个体携带时是移动的。装置50还可以位于任何模式的交通工具中，诸如车辆。

一些或其它装置可以发送和接收呼叫和消息，并且通过至基站24的无线连接25与服务提供者通信。基站24可以连接到网络服务器26，其允许移动电话网络11和互联网28之间的通信。系统可以包含附加的通信设备和各种类型的通信设备。

通信设备可以使用各种传输技术来通信，各种传输技术包括但不限于：码分多址接入(CDMA)，全球移动通信系统(GSM)，通用移动通信系统(UMTS)，时分多址接入(TDMA)，频分多址接入(FDMA)，传输控制协议-互联网协议(TCP-IP)，短消息服务(SMS)，多媒体消息服务(MMS)，电子邮件，即时消息服务(IMS)，蓝牙，IEEE802.11和任何类似的无线通信技术。在实现本发明的各种实施例中涉及的通信设备可以使用各种介质进行通信，各种介质包含但不限于：无线电，红外线，激光，电缆连接，和任何合适的连接。

以下描述的实施例涉及多媒体通信，诸如3GPP MTSI服务(用于IMS的多媒体电话服务)；(IMS，IP多媒体子系统)，在3GPP TS26.114，v.11.1.0，“IP多媒体子系统(IP Multimedia Subsystem)(IMS)；多媒体电话(Multimedia telephony)；媒体处理和交互(Media handling andinteraction)”(在http://www.3qpp.org/ftp/Specs/html-info/26114.htm可获得)。特别地，实施例涉及改进多媒体通信中的语音和视频质量。对于现今的移动系统来说，尤其是随着客户的质量期盼不断地增加，确保在具有有限的比特率资源的传输信道上和在差错信道上提供高质量语音和视频仍然是挑战。

众所周知的是，背景噪声对在移动多媒体通信中的音频编码和整体质量体验带来了挑战。音频编解码器通常针对语音进行优化，因为语音是它们的主要应用，因此它们通常处理背景噪声不是特别好，尤其是在低比特率以及高水平的背景噪声。即使使用现代的音频编解码器，诸如3GPP EFR(增强的全速率)，AMR(自适应多速率)和AMR-WB(AMR宽带)，存在的高水平背景噪声可能导致降低的语音质量以及甚至可懂度的损失。多媒体终端还常常在具有高背景噪声水平的环境中使用，该环境使得通信易于受背景噪声的影响。因此，多媒体终端必须是鲁棒的以对抗背景噪声，因此在语音信号经历语音编码之前，噪声抑制通常用作预处理步骤。

因为噪声抑制移除了如由麦克风捕获的一部分“真实”信号，因此它的使用具有一些内在的挑战。例如，噪声抑制永远不能完美地在语音成分和背景噪声成分之间进行区分。因此噪声抑制器的设计和使用总是涉及在尽可能多的衰减背景噪声和尽量少地引起语音信号自身的降级之间进行取舍。在这两者之间的固定取舍不是最优的。在噪声抑制中使用高水平的衰减可以有效地降低背景噪声，但是它还可以使语音成分着色，并且使得它听起来不自然和/或使得背景噪声成分听起来不自然。

此外，在一些多媒体捕获会话中，可能期望的是，也尽可能好地传送周围气氛，诸如音乐。然而，当应用于非语音信号时，诸如音乐，噪声抑制可能导致特别大的质量降级。最坏的情况下，噪声抑制可能将一些部分音乐或其它非语音信号看做噪声，并开始减弱它们。

图4示出了根据本发明的方面的系统的框图。该框图说明了多媒体终端的功能块(诸如用于3GPP MTSI)，在这里执行音频和视频编码和任何相关的预处理。为了执行对包括音频信号和视频信号两者的多媒体捕获进行处理，音频信号400被提供给其各自的处理链，以及视频信号402被提供给其各自的处理链。音频信号400可以包括：例如语音成分和背景噪声成分。音频信号处理链包括：至少音频预处理器404，诸如噪声抑制器，以及音频编码器406。音频预处理器404被设置为：在对音频进行编码之前，通过移除不那么必要或不是必须的部分，将音频信号修改成更易于进行编码。

音频编码器406可以是任何已知的音频编码器，诸如根据3GPP系统已知的EFR/FR/HR语音编解码器((增强的)全/半速率编解码器)和窄带AMR或宽带AMR语音编解码器(自适应多速率编解码器)，以及在MPEG1、MPEG2和MPEG4音频编码中使用的编解码器，诸如AAC编解码器(高级音频编码)，其适用于对不同的音频格式进行编码/解码。因此，术语音频编码器既指在传统意义中的音频编解码器又指在不同系统中使用的语音编解码器，以及具有可扩展比特速率的编解码器，诸如根据MPEG4的CELP+AAC。

以类似的方式，视频信号的处理链包括：至少视频预处理器408和视频编码器410。视频预处理器408可以被设置为：例如通过平滑图像帧的细节，调节颜色的动态范围，降低视频信号的色域或移除视频信号的不那么必要的部分，对该视频信号进行修改。视频预处理器408可以使用例如各种过滤方法和噪声降低过程(如此类已知的)以用于在对视频进行编码之前对该视频信号进行修改。

视频编码器410可以是任何已知的视频编码器，诸如根据ITU-TH.261，ISO/IEC MPEG-1视觉，ITU-T H.262或ISO/IEC MPEG-2视觉，ITU-T H.263，ISO/IEC MPEG-4视觉和ITU-T H.264(也被称为H.264/AVC(高级视频编码))的视频编码器。另外，当前正在进行中的努力是开发新的视频编码标准。一种此类正在开发中的标准是高效率视频编码(HEVC)，是H.264/MPEG-4AVC的继承者，其还被称为H.265。

因此，音频信号400的处理在其自己的处理链中进行，以及视频信号402的处理在其各自的处理链进行。现在介绍控制块412，其被设置为基于音频信号400和视频信号402或这两者来获得控制信息。控制块412可以被设置为将从视频信号获得的控制信息提供给音频预处理器404，该音频预处理器404被设置为基于从视频信号获得的控制信息来控制音频信号的预处理。可替代地或另外，控制块412可以被设置为将从音频信号获得的控制信息提供给视频预处理器408，该视频预处理器408被设置为基于从音频信号获得的控制信息来控制视频信号的预处理。

一旦已经进行了期望的预处理，则音频信号和视频信号由它们各自的编码器406、410进行编码，两者生成编码的参数值作为编码器的输出。在处理链中，进一步地传递音频信号和视频信号两者的编码的参数值，以便例如在多媒体呼叫或从存储介质进行回放的期间以时间同步的方式进行重现。

出于简化说明的原因，图4将控制块412示出为使用未处理的音频400和/或视频信号402作为基础以用于获得控制信息。然而，实际的实现方式不限制于仅是未处理的信号，而是可以从处理链的任何点获得的信息，如以下将更详细地描述。

在根据图4的系统中，可以同时控制视频和音频的预处理，其中控制是基于进入音频和视频信号。然而，根据图4的系统还使得能够彼此独立地控制视频和音频的预处理。

现在参照图5进一步地描述基于从视频信号获得的控制信息来控制音频信号的预处理的实施例。此处，实现方式在其它方面类似于图4，但是从构思中忽略了导向视频信号的预处理的来自音频信号的控制信号。此外，可以从视频信号的处理链的多个点获得用于音频预处理器控制信号的信息。图5示出了该处理链内的至少四个点，其可用作控制信息提供点：在视频信号预处理之前，在视频信号编码之前，在视频编码和视频信号的编码参数值期间。

音频预处理504可以是旨在修改音频信号以使得它更易于音频编码器506进行处理的任何音频预处理方法。根据实施例，音频预处理是语音特定的预处理，诸如噪声抑制或移除音频信号的不那么必要或非必须的部分的任何其它处理，语音水平调节，调节语音的动态范围，或朝向说话者的嘴引导多个麦克风布置的麦克风波束成型，其旨在修改语音信号以使得它更易于音频编解码器进行适当的处理。

控制块512基于视频信号来确定控制信息。在确定音频预处理504的控制信息中，可以使用来自相机单元的视频信号，预处理的视频信号，从表示视频的视频编码或编码的参数值内获得的参数。可以结合控制块512提供开关布置514以允许该控制块决定将使用的一个或多个控制信息提供点。

通常，噪声抑制基于信号噪声比(SNR)的估计，并且然后衰减具有低的SNR的信号中的一部分信号。通常，在频域而不是在时域中执行衰减，以便可以区别地对待不同的频谱域。每个频率或频率域可以经历不同数量的衰减。可以使用滤波器组或时频变换，诸如快速傅里叶变换(FFT)或离散傅里叶变换(DFT)，来执行至频域的转换。

根据实施例，噪声抑制可以基于在EP1232496B1中描述的噪声抑制算法。可以直接通过调节修改信号(在时域或频域)的增益因子，诸如在EP1232496中的‘与增益相乘’框330中使用的那些以修改复FFT频谱，或间接地通过调节确定增益值的机制而不通过接触增益值自身，来对用于噪声抑制中的背景噪声的衰减水平进行调节。此类间接的方式包含调节信噪比(SNR)估计以过高估计和过低估计分别导致施加于噪声抑制的过少或过多衰减的SNR。修改衰减水平的另一种间接方式是调节噪声抑制，以便它不但衰减平稳噪声而且衰减非平稳噪声。这可以例如通过更频繁地更新SNR估计，从而更经常地更新增益值(其基于SNR来计算)来实现。这将导致更侵略性的噪声抑制，其能够尽最大可能地处理背景噪声中的快速变化，从而一般将随着时间更多地衰减背景噪声。

图6a、6b和图6c示出了如何可以基于视频成分来控制图5的实施例中的音频预处理的说明性示例。我们假设音频预处理方法例如是噪声抑制。根据实施例，视频成分可以用于控制音频预处理，使得由在多媒体捕获的视频场景上看到的任何对象在每个时刻正在产生的所有声音是针对该特定时刻捕获的期望信号的一部分。因此，此类声音资源不能被认为是噪声源，因此没有或仅有最小噪声抑制应当被应用于源自此类声音源的音频信号成分。然而，由未在多媒体捕获的视频场景上见到的任何对象所产生的所有声音可以被认为是背景噪声的源，并且应当被衰减以提高音频的清晰度。

根据实施例，控制音频预处理，诸如噪声抑制，的上述原理可以用于实践应用于背景噪声的噪声抑制，使得噪声抑制随着在视频场景上的见到的面部的图像面积的比例而增加。这个实施例源自的推测是：视频场景上的见到的面部是多媒体终端的用户的面部。因此，出现在视频场景上的面部的图像面积越大，则应用于背景噪声的衰减水平越高。在调节衰减水平中，除了图像面积外，还可以考虑其它因素，诸如视频中的音频源的移动，以及移动的速度。

根据实施例，音频预处理的控制可以基于针对由视频信号所表示的视频场景上出现的音频源所确定的优先级值。因此，由所述视频场景中的音频源所覆盖的图像面积越大，则分配给所述音频源的优先级值越高。则，可以根据优先级值来调节音频信号的预处理，使得在该预处理中着重于源自覆盖视频场景的最大图像面积的音频源的音频成分。在另一方面，在调节音频信号的预处理中可以使用优先级值，使得在预处理中不着重于对整体视频场景贡献较少的音频成分，因此该音频成分具有较低优先级值。

检测来自视频场景的面部属于模式识别领域，更具体地属于模式识别的图像分析，其中模式识别算法应用于数字图形数据以便识别人的面部的特征特点。针对人的面部的图像的自动识别，已经开发了多种算法和应用。在W02011/091593中公开了人的面部的图像识别的此类算法的一个示例。然而，需要注意的是，如何从视频信号可以检测面部的实现细节不是本发明的范围。

图6a、6b和图6c说明了从多媒体捕获的视频流获取的静止图像。多媒体捕获可以是例如视频呼叫，其中终端的用户(在图6a中示出)正在听艺术家(在图6c中示出)的音乐会。根据上述实施例，当从“6a”到“6b”到“6c”时，增加了噪声抑制中的衰减量。因此，多媒体终端的用户能够简单地通过将多媒体终端的相机指向他/她自己以及将它移动地更近来增加噪声衰减的量，从而改进了嘈杂环境中的语音清晰度(即，从“6c”到“6b”到“6a”时)。在另一方面，通过将相机指向远离于终端的对象，诸如图6c中示出的艺术家，减少了噪声衰减量，可以尽可能好地传递用户认为必需的周围气氛(例如，现场音乐会中的音乐)。

因此，可以通过多媒体终端的用户来动态地调节噪声抑制(或任何其它音频预处理)中的衰减水平。没有固定的取舍作为在衰减背景噪声和最小化导致语音信号自身降级的可能性之间的折中，而是可以基于多媒体捕获的上下文来适应噪声抑制。当需要周围气氛时(例如，在“6c”的情况下)，通过仅应用很少的噪声抑制或不应用噪声抑制来尽可能好地传递周围气氛，当用于“人说话”的上下文时(“6a”情况)，将更大地衰减背景噪声以改进语音的清晰度和可懂度。

类似地，为了获得改进的视频质量，移除或消除视频的不那么重要部分的任何预处理，从而使得视频编码关注于信号的更重要/必需的部分，可以在在多媒体捕获，诸如多媒体呼叫，期间基于捕获的上下文来动态地调节。多媒体捕获的音频成分可以用于确定上下文。

现在，参照图7进一步描述基于源自音频信号的控制信息来控制视频信号的预处理的实施例。此处，在其它方面该实现方式类似于图4的总体思路，但是从该构思中忽略了导向音频信号的预处理的来自视频信号的控制信号。类似于图5，可以从音频信号的处理链的多个点获得用于视频预处理器控制信号的信息。图7示出了该处理链内的可用作控制信息提供点的至少四个点：在音频信号预处理之前，在音频信号编码之前，在音频编码和音频信号的编码参数值期间。

视频预处理708可以是旨在将视频信号修改成使其易于视频编码器710关注于该视频信号的更重要和必要的部分的任何视频预处理方法。在每个时刻，不那么必要的部分是不贡献于音频信号的视频场景上的那些对象(诸如没有正在说话的人)，以及在每个时刻更加必要的部分是确实贡献于音频的那些对象(诸如，说话的人和向整体音频信号贡献音频成分的视频信号中的任何对象)。

根据实施例，以如上述在音频预处理的控制中所公开的类似方式，视频预处理的控制也可以基于针对出现在由视频信号所表示的视频场景上的音频源所确定的优先级值。因此，由出现在视频场景上的对象所贡献的音频成分对整体音频场景越重要，则分配给所述对象的优先级值越高。然后，可以根据该优先级值对该视频信号的预处理进行调节，使得在预处理中不关注于对整体音频场景贡献较少的对象，因此该对象具有较低优先级值。

根据实施例，对于确定确实贡献于音频信号的视频场景上的对象，可以估计该音频成分的到达方向(DOA)。对于确定DOA，可以使用优选地安装在设备上的由两个或更多麦克风组成的方向型的麦克风阵列。典型地，例如，3、4、5或更多麦克风的使用提供了改进的方向选择性。替代或除了安装在用户设备上的麦克风，功能性地连接到用户设备的外部麦克风还可以用于捕获音频信号。一旦已经估计了音频成分的DOA，则可以将它与视频场景上的对象进行比较，并且然后可以生成视频预处理器控制信号，使得将合适的视频预处理应用于贡献音频成分的对象。

在估计音频成分的DOA中，可以使用被称为波束成型的众所周知的技术，其中可以使用所谓的波束成型算法来提取音频源的DOA。波束成型算法例如可以通过比较每个麦克风线中的特定音频成分值的到达延时来估计声音源的DOA。根据另一个实施例，在检测音频源的位置中可以使用多个麦克风波束成型器，通过搜索最大化麦克风阵列输出能量的方向，从而指示最显著的音频成分。

根据实施例，对于确定确实贡献于音频信号的视频场景上的对象，所捕获的音频成分可以经历信息提取。能够被提取的信息的示例是模式(例如，以向量的形式)，该模式表征音频段和/或信号水平特点的时频成分。这个时频模式能够有利地被用于对所捕获的音频成分进行分类。例如，所捕获的音频成分能够被分类成来自人、车、动物或任何其它音频源。

可以通过例如使用语音识别引擎将所检测的模式与先前存储在设备中的一组模式进行比较来完成该分类。音频内容分类的另一个示例是上下文识别引擎，在以下出版物中更详细地公开了该引擎：Eronen A等人的“基于音频的上下文识别(Audio-based context recognition)”IEEETransactions on audio，speech and language processing，Vol.14.No1,Jan2006(IEEE音频，语音和语言处理会刊，2006年1月，卷14.号1)。

在图8a和图8b中说明了上述实施例，其示出了如何基于音频成分来控制图7的实施例中的视频预处理的示例。多媒体捕获的视频场景涉及两个人轮流说话。两个说话者可以例如正在视频场景中移动，从而在视频编码中可能需要大量的比特率。因此，通过移除视频场景的非必要部分来降低视频编码的复杂度可能是期望的。在图8a和图8b中，在给定时刻的主动说话者是右边的那个说话者(如由气球指出；不是实际视频信号的部分)以及非主动说话者是左边的那个说话者。

图8a说明了被包含在视频预处理708的输入处的视频信号中的视频场景；即，在应用预处理之前。当根据从音频信号获得的控制信息将视频预处理708应用于视频信号时，视频预处理708从非主动说话者的视频信号中移除细节。在图8b中示出了该结果，其中已经移除了非主动说话者的面部上的一些细节，这进而使得对于主动说话者的视频信号能够使用增加的比特率和准确度进行编码。

图9示出了根据实施例的用于控制多媒体内容的捕获的方法的流程图。作为第一步骤(900)，装置捕获了包括至少音频信号和视频信号的多媒体内容。所述装置例如可以是用于3GPP MTSI的多媒体终端，以及多媒体捕获例如可以涉及视频呼叫。

所述装置可以例如根据上述实施例中的任何实施例基于所捕获的视频信号来获得控制信息(902)。然后，基于从视频信号获得的控制信息，控制音频信号的预处理以将该音频信号修改成使其更易于该装置的音频编码器进行处理(904)。

可替代地，或另外地，装置可以例如根据上述实施例中的任何实施例基于所捕获的音频信号来获得控制信息(906)。然后，基于从音频信号获得的控制信息，控制视频信号的预处理以将该视频信号修改成使得该装置的视频编码器能够关注于该视频信号的更重要/必要的部分(908)。

在预处理后，音频信号被传递给音频编码器以进行编码(未示出)，以及视频信号被传递给视频编码器以进行编码(未示出)。

因此，在根据图9的方法中，有可能的是，执行视频或音频的预处理中的仅一个预处理的控制；即，仅步骤902和步骤904或步骤906和步骤908。自然地，有可能的是，同时地或彼此独立地执行视频和音频两者的预处理的控制。

技术人员将了解的是，可以将上述实施例中的任何实施例实现成与其它实施例中的一个或多个实施例的组合，除非有明确或隐含地阐述：某些实施例仅是彼此的替换实施例。

各种实施例可以提供超过当前现有技术的优点。实施例可以通过改进的音频质量、改进的视频质量或这两者提供针对多媒体捕获，特别是对于多媒体呼叫，的改进质量。甚至可以在没有增加比特率的情况下来获得改进的质量。尤其是，就音频质量中的改进来说，可以替代固定的，动态地调节任何语音特定的预处理的量级，诸如应用在背景噪声抑制中的衰减的水平。可以由多媒体终端的用户简单地通过他/她如何使用终端的相机的方式来执行动态调节。此外，实施例提供了可行的框架以容易地并入用于多媒体通信系统和服务的跨媒体调节。因为标准的语音和视频编解码器通常用于商用通信系统中，诸如3GPP MTSI，所以实施例使得能够并入用于整体媒体编码的跨媒体调节，特别是对于已经现有的系统，诸如3GPPMTSI。

一般地，可以将本发明的各种实施例实现成硬件或专用电路、软件、逻辑和其任何组合。例如，一些方面可以被实现成硬件，而其它方面可以被实现成固件或软件，该固件或软件可以由计算机、微处理器或其它计算设备来执行，尽管本发明不限制于此。虽然本发明的各种方面被说明和描述成框图、流程图或使用一些其它图形表示，但是很好理解的是，本文中所述的这些框、装置、系统、技术或方法可以被实现成，作为非限制性示例，硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备、或其一些组合。

可以由移动设备的数据处理器可执行的计算机软件，诸如在处理器实体中，或由硬件，或由软件和硬件的组合来实现本发明的实施例。此外，就这点而言，应当注意的是，如在附图中的逻辑流的任何框可以表示程序步骤，或互连的逻辑电路，块和功能，或程序步骤和逻辑电路、块和功能的组合。可以将软件存储在此类物理介质上，诸如存储芯片，或实现在处理器内的存储块，磁介质，诸如硬盘或软盘，以及光介质，诸如例如DVD和其数据变型或CD。

存储器可以具有适合于本地技术环境的任何类型，并且可以使用任何合适的数据存储技术来实现，诸如基于半导体的存储设备，磁存储设备和系统，光存储设备和系统，固定存储器和可移动存储器。数据处理器可以具有适合于本地技术环境的任何类型，并且可以包含作为非限制性示例的下列中的一个或多个：通用计算机、专用计算机、微处理器、数字信号处理器(DSP)和基于多核处理器架构的处理器。

可以在各种组件，诸如集成电路模块中实践本发明的实施例。一般而言，集成电路的设计是高度自动化的过程。复杂和功能强大的软件工具可用于将逻辑级的设计转换成准备将要被蚀刻和形成在半导体衬底上的半导体电路设计。

程序，诸如由加利福尼亚的山景城的新思科技(Synopsys,Inc.ofMountain View,California)和加利福尼亚的圣何塞的凯登斯设计(Cadence Design,of San Jose,California)所提供的那些程序，使用良好建立的设计规则以及预存储的设计模块的库在半导体芯片上自动化路由导体和定位组件。一旦已经完成了针对半导体电路的设计，则所生成的设计可以以标准化电子形式(例如，Opus，GDSII等)传送给半导体制造厂或“fab”用于制造的简写。

上述描述已经通过示例性和非限制性的示例提供了本发明示例性实施例的全面和教示性的描述。然而，当结合附图和所附权利要求阅读时，鉴于上述描述，对于相关领域的技术人员来说，各种修改和适应是明显的。然而，本发明的教示中的所有此类或类似的修改仍然将落入本发明的范围内。

Claims

1.一种方法，包括：

由装置捕获多媒体内容，所述多媒体内容包括至少音频信号和视频信号；

基于所述音频信号或视频信号至少两者之一来获得控制信息；

基于从所述视频信号获得的所述控制信息来控制所述音频信号的预处理；和/或

基于从所述音频信号获得所述控制信息来控制所述视频信号的预处理。

2.根据权利要求1所述的方法，所述方法还包括：

在对所述音频信号或视频信号进行编码前，应用所述预处理。

3.根据权利要求1或2所述的方法，其中

所述音频信号的所述预处理是以下中的一个：噪声抑制，语音水平调节，调节语音的动态范围，向音频源引导多个麦克风布置的麦克风波束成型。

4.根据任何前述权利要求所述的方法，所述方法还包括：

确定针对出现在由所述视频信号表示的视频场景上的至少一个音频源的优先级值，所述优先级值与由所述视频场景中的所述音频源所覆盖的图像面积成比例；以及

根据所述优先级值来调节所述音频信号的所述预处理，使得在所述预处理中着重于来源于覆盖所述视频场景的最大图像面积的音频源的音频成分。

5.根据任何前述权利要求所述的方法，所述方法还包括：

根据所述优先级值来调节所述音频信号的所述预处理，使得在所述预处理中不着重于对整体视频场景贡献较少的音频成分。

6.根据任何前述权利要求所述的方法，所述方法还包括：

检测由所述视频信号表示的视频场景中的人的面部的至少一部分；以及

与由所述视频场景中的所述人的面部所覆盖的图像面积成比例对所述音频信号的所述预处理进行调节。

7.根据权利要求6所述的方法，其中所述音频信号的所述预处理是噪声抑制，以及所述方法还包括：

与由在所述视频场景中的所述人的面部所覆盖的图像面积成比例对背景噪声的衰减进行调节。

8.根据任何前述权利要求所述的方法，所述方法还包括：

从所述视频信号的处理链的多个点来获得用于所述音频预处理器控制信号的控制信息，所述多个点位于以下点中的至少一个点：在视频信号预处理之前，在视频信号编码之前，在视频编码和所述视频信号的编码的参数值期间。

9.根据任何前述权利要求所述的方法，其中

所述视频信号的所述预处理是以下中的一个：对图像帧的细节进行平滑，对颜色的动态范围进行调节，降低所述视频信号的色域或移除所述视频信号的不那么必要的部分。

10.根据任何前述权利要求所述的方法，所述方法还包括：

确定出现在由所述视频信号表示的视频场景上的至少一个对象的优先级值，所述优先级值与由所述对象贡献于整体音频场景的音频成分成比例；以及

根据所述优先级值来调节所述视频信号的所述预处理，使得在所述预处理中不着重于较少贡献于整体音频场景的对象。

11.根据任何前述权利要求所述的方法，所述方法还包括：

从所述音频信号的处理链的多个点获得用于所述视频预处理器控制信号的控制信息，所述多个点位于以下点中的至少一个点：在音频信号预处理之前，在音频信号编码之前，在音频编码和所述音频信号的编码的参数值期间。

12.一种装置，包括：至少一个处理器、包含计算机程序代码的存储器，所述存储器和所述计算机程序代码被配置为使用所述至少一个处理器，使得所述装置至少：

捕获多媒体内容，所述多媒体内容包括至少音频信号和视频信号；

13.根据权利要求12所述的装置，还包括计算机程序代码，其被配置为使用所述至少一个处理器使得所述装置至少：

14.根据权利要求12或13所述的装置，其中

15.根据权利要求12-14中的任何一项所述的装置，还包括计算机程序代码，其被配置为使用所述至少一个处理器使得所述装置至少：

16.根据权利要求12-15中的任何一项所述的装置，还包括计算机程序代码，其被配置为使用所述至少一个处理器使得所述装置至少：

17.根据权利要求12-16中的任何一项所述的装置，还包括计算机程序代码，其被配置为使用所述至少一个处理器使得所述装置至少：

18.根据权利要求17所述的装置，其中所述音频信号的所述预处理是噪声抑制，以及所述装置还包括计算机程序代码，其被配置为使用所述至少一个处理器使得所述装置至少：

19.根据权利要求12-18中的任何一项所述的装置，还包括计算机程序代码，其被配置为使用所述至少一个处理器使得所述装置至少：

20.根据权利要求12-19中的任何一项所述的装置，其中

21.根据权利要求12-20中的任何一项所述的装置，还包括计算机程序代码，其被配置为使用所述至少一个处理器使得所述装置至少：

22.根据权利要求12-21中的任何一项所述的装置，还包括计算机程序代码，其被配置为使用所述至少一个处理器使得所述装置至少：

23.根据权利要求12-22中的任何一项所述的装置，其中所述装置被配置为通过功能性地连接到所述装置的麦克风和相机来捕获所述包括至少音频信号和视频信号的多媒体内容。

24.一种计算机可读存储介质，在该介质上存储有供装置使用的代码，当所述代码由处理器执行时，所述代码使得所述装置执行：

25.根据权利要求24所述的计算机可读存储介质，使得所述装置还执行

26.根据权利要求24或25所述的计算机可读存储介质，其中

27.根据权利要求24-26中的任何一项所述的计算机可读存储介质，使得所述装置还执行

28.根据权利要求24-27中的任何一项所述的计算机可读存储介质，使得所述装置还执行

29.根据权利要求24-28中的任何一项所述的计算机可读存储介质，使得所述装置还执行

30.根据权利要求29所述的计算机可读存储介质，其中所述音频信号的所述预处理是噪声抑制，以及使得所述装置还执行

31.根据权利要求24-30中的任何一项所述的计算机可读存储介质，使得所述装置还执行

32.根据权利要求24-31中的任何一项所述的计算机可读存储介质，其中

33.根据权利要求24-32中的任何一项所述的计算机可读存储介质，使得所述装置还执行

34.根据权利要求24-33中的任何一项所述的计算机可读存储介质，使得所述装置还执行

35.一种装置，包括：

用于捕获多媒体内容的构件，所述多媒体内容包括至少音频信号和视频信号；

用于基于所述音频信号或视频信号至少两者之一来获得控制信息的构件；

用于基于从所述视频信号获得的所述控制信息来控制所述音频信号的预处理的构件；和/或

用于基于从所述音频信号获得所述控制信息来控制所述视频信号的预处理的构件。

36.根据权利要求35所述的装置，还包括：

用于在对所述音频信号或视频信号进行编码前应用所述预处理的构件。

37.根据权利要求35或36所述的装置，其中

38.根据权利要求35-37中的任何一项所述的装置，还包括：

用于确定针对出现在由所述视频信号表示的视频场景上的至少一个音频源的优先级值的构件，所述优先级值与由所述视频场景中的所述音频源所覆盖的图像面积成比例；以及

用于根据所述优先级值来调节所述音频信号的所述预处理使得在所述预处理中着重于来源于覆盖所述视频场景的最大图像面积的音频源的音频成分的构件。

39.根据权利要求35-38中的任何一项所述的装置，还包括：

用于根据所述优先级值来调节所述音频信号的所述预处理使得在所述预处理中不着重于对整体视频场景贡献较少的音频成分的构件。

40.根据权利要求35-39中的任何一项所述的装置，还包括：

用于检测由所述视频信号表示的视频场景中的人的面部的至少一部分的构件；以及

用于与由所述视频场景中的所述人的面部所覆盖的图像面积成比例对所述音频信号的所述预处理进行调节的构件。

41.根据权利要求40所述的装置，其中所述音频信号的所述预处理是噪声抑制，所述装置还包括：

用于与由在所述视频场景中的所述人的面部所覆盖的图像面积成比例对背景噪声的衰减进行调节的构件。

42.根据权利要求35-41中的任何一项所述的装置，还包括：

用于从所述视频信号的处理链的多个点来获得用于所述音频预处理器控制信号的控制信息的构件，所述多个点位于以下点中的至少一个点：在视频信号预处理之前，在视频信号编码之前，在视频编码和所述视频信号的编码的参数值期间。

43.根据权利要求35-42中的任何一项所述的装置，其中

44.根据权利要求35-43中的任何一项所述的装置，还包括：

用于确定出现在由所述视频信号表示的视频场景上的至少一个对象的优先级值的构件，所述优先级值与由所述对象贡献于整体音频场景的音频成分成比例；以及

用于根据所述优先级值来调节所述视频信号的所述预处理使得在所述预处理中不着重于较少贡献于整体音频场景的对象的构件。

45.根据权利要求35-44中的任何一项所述的装置，还包括：

用于从所述音频信号的处理链的多个点获得用于所述视频预处理器控制信号的控制信息的构件，所述多个点位于以下点中的至少一个点：在音频信号预处理之前，在音频信号编码之前，在音频编码和所述音频信号的编码的参数值期间。

46.根据权利要求35-45中的任何一项所述的装置，其中所述用于捕获所述包括至少音频信号和视频信号的多媒体内容的构件包括：功能性地连接到所述装置的麦克风和相机。

47.至少一个处理器和至少一个存储器，所述至少一个存储器在其上存储有代码，当所述代码由所述至少一个处理器执行时，所述代码使得装置执行：

基于所述音频信号或视频信号两者之一来获得控制信息；