CN113302690A

CN113302690A - 音频处理

Info

Publication number: CN113302690A
Application number: CN202080009272.1A
Authority: CN
Inventors: S·S·梅特; J·A·利帕南; M·T·维勒莫; A·勒蒂涅米
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2019-01-15
Filing date: 2020-01-07
Publication date: 2021-08-24
Anticipated expiration: 2040-01-07
Also published as: EP3683794A1; WO2020148109A1; US11887616B2; CN113302690B; EP3683794B1; US20220068290A1

Abstract

公开了一种装置、方法和计算机程序。该装置可以包括一种模块，该模块包括至少一个处理器和包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为与该至少一个处理器一起：接收表示场景的多媒体数据，该多媒体数据至少包括表示场景的音频分量的音频数据。另一操作可以包括确定场景中不想要的声音的位置。另一操作可以包括执行第一音频处理以从所确定的位置中去除不想要的声音的至少一部分。另一操作可以包括执行第二音频处理以在所确定的位置处添加与不想要的声音相关联的人工声音。

Description

音频处理

技术领域

示例实施例涉及音频处理，包括从多媒体场景的音频分量去除不想要的声音中的至少一些不想要的声音。

背景技术

真实世界场景的音频捕获对自然的、有时是不想要的声音(例如，风声)很敏感。使用已知的音频处理技术可以去除风声，但这些技术的应用实际上会降低音频的感知质量。在某些情况下，感知质量可能很重要，例如，在捕获是可以包括音频和视频两者的多媒体(或多模式)内容的一部分的情况下。

发明内容

根据一个方面，提供了一种装置，该装置包括用于以下的部件：接收表示场景的多媒体数据，该多媒体数据至少包括表示场景的音频分量的音频数据；确定场景中不想要的声音的位置；执行第一音频处理以从所确定的位置去除不想要的声音的至少一部分；以及执行第二音频处理以在所确定的位置处添加与不想要的声音相关联的人工声音。

不想要的声音可以包括风噪声，其中第一音频处理包括风噪声去除，并且第二音频处理包括添加人工风噪声。

所确定的位置可以包括场景中存在不想要的声音的一个或多个时间位置，并且其中人工声音被添加在一个或多个时间位置处或周围。

该装置还可以包括确定不想要的声音在时域中的强度，并且其中人工声音以与不想要的声音的强度在时域中实质(substantially)同步的强度被添加。

所确定的位置可以包括场景中存在不想要的声音的一个或多个空间位置，并且其中人工声音仅被添加在一个或多个空间位置处或周围。

多媒体数据还可以包括表示场景的视频分量的视频数据，其中该部件被配置为从视频数据确定场景中存在不想要的声音的时间位置和空间位置中的一项或多项。

该部件可以被配置为基于场景内对象在时间位置和空间位置中的一项或多项处的移动来自动确定不想要的声音的存在。

该部件还可以被配置为标识多媒体数据内的一个或多个感兴趣区域，并且其中声音去除和声音添加的量取决于不想要的声音的所确定的位置是否与一个或多个感兴趣区域相对应。

该部件可以被配置为从与一个或多个感兴趣区域相对应的位置中去除与一个或多个感兴趣区域之外的位置不同量的声音。

该部件可以被配置为从与一个或多个感兴趣区域相对应的位置中去除比一个或多个感兴趣区域之外的位置更大量的声音，并且向一个或多个感兴趣区域之外的位置添加比一个或多个感兴趣区域之内的位置更大量的声音。

该部件还可以被配置为提供示出声音去除和添加声音的默认量的用户界面，并且接收用于修改一个或两个默认量并且启用回放以预览修改的效果的用户输入。

多媒体数据还可以包括表示场景的触觉分量的触觉数据，其中该部件还被配置为从触觉数据中确定场景中存在不想要的声音的时间位置和空间位置中的一项或多项。

根据另一方面，可以提供一种任何前述定义的装置，其中该模块包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，该至少一个存储器和计算机程序代码被配置为与至少一个处理器一起引起该装置的执行。

根据另一方面，提供了一种方法，该方法包括：接收表示场景的多媒体数据，该多媒体数据包括多个媒体分量，多媒体数据包括表示场景的音频分量的音频数据；确定场景中不想要的声音的位置；执行第一音频处理以从所确定的位置去除不想要的声音的至少一部分；以及执行第二音频处理以在所确定的位置处添加与不想要的声音相关联的人工声音。

根据另一方面，提供了一种包括存储在其上的用于执行方法的程序指令的非暂态计算机可读介质，该方法包括：接收表示场景的多媒体数据，该多媒体数据包括多个媒体分量，多媒体数据包括表示场景的音频分量的音频数据；确定场景中不想要的声音的位置；执行第一音频处理以从所确定的位置去除不想要的声音的至少一部分；以及执行第二音频处理以在所确定的位置处添加与不想要的声音相关联的人工声音。

附图说明

现在将参考附图通过非限制性示例的方式描述示例实施例，在附图中：

图1是根据示例实施例的系统的示意图；

图2是示出可以由图1的系统执行的处理操作的流程图；

图3A是来自所捕获的视频场景的示例帧，其有助于理解示例实施例；

图3B是示例时域音频波形，其示出了受不想要的声音影响的波形的一部分；

图3C是在风噪声去除之后图3B的音频波形；

图3D是在人工风噪声添加之后图3C的音频波形；

图4A是来自所捕获的视频场景的另一示例帧，其有助于理解示例实施例；

图4B是具有感兴趣区域标识的图4A的帧；

图4C是具有用于调节风噪声的去除和添加的用户界面元素的图4B的帧；

图5是根据示例实施例的可以用于标识感兴趣区域的类型的设备上的用户界面的平面图；

图6是来自所捕获的视频场景的另一示例帧，其包括根据示例实施例的用户界面元素；

图7是示出根据示例实施例的系统的功能元件的示意性框图；

图8是示出根据示例实施例的系统的硬件元件的示意性框图；以及

图9A和9B分别是非暂态存储介质的视图，在该非暂态存储介质上可以存储用于执行本文中描述的实施例的计算机程序代码。

具体实施方式

示例实施例涉及音频处理，并且具体地涉及不想要的声音的去除。在示例实施例中，所捕获的风声作为不想要的声音的示例给出，但是其他形式的声音可以被认为是不想要的。不想要的声音可以定义为如下的任何形式的声音：该声音可以表征为源自特定源或源类型并且针对该声音存在用于减轻或去除该声音的音频信号处理技术。其他示例可以包括交通噪音和其他环境源。

避免对这样的不想要的声音进行音频捕获并不总是可能的或容易实现的，尤其是对于不太复杂的捕获设备，诸如移动电话或其他消费设备。然而，如前所述，不想要的声音的存在会降低感知质量。此外，不想要的声音去除技术会产生不想要的音频伪影，尤其是在去除量相对较高的情况下。

此外，在多媒体数据表示(有时称为多模式表示)的情况下，声音去除会在所传递的媒体之间产生不一致。例如，考虑表示包括音频分量和视频分量的所捕获的多媒体内容的数据。从这个意义上说，术语分量用于区分数据表示什么。音频分量可以表示场景的时间表示，并且可能表示空间表示，例如通过时频(TF)区域或图块(tile)，而视频分量可以表示上述场景的一组视觉数据，同样可以是以区域或图块的形式。如果视频清楚地示出有风的场景，其中树木或头发向给定方向吹动，则去除不想要的声音(诸如风)可能会产生不一致；用户可能会感知到不一致，这可能会降低场景再现的整体完整性。

因此，示例实施例还可以涉及添加与不想要的声音相关联的人工声音。也就是说，人工声音可以是与不想要的声音相同或相似类型的声音，但其本身与所去除的声音不同。例如，在风的情况下，人工声音可以是添加风噪声(additive wind noise)、预先记录的风声或其组合。人工声音可以以某种方式进行预处理以具有有利的掩蔽特性。添加不想要的声音的对应人工版本可以伪装或掩蔽由不想要的声音去除技术引起的伪影。

示例实施例专注于包括音频分量和视频分量的多媒体数据。音频分量可以包括所捕获的声音的任何合适的数字表示。音频可以例如是单声道、立体声或空间声音。空间声音是具有方向性分量的声音。类似地，视频分量可以包括对应捕获的视频的任何合适的数字表示。

音频的捕获可以借助于可能存在于所捕获的场景中的一个或多个麦克风。一个或多个麦克风可以包括用于从多个方向捕获声音的麦克风阵列，并且所得到的信号可以被后处理以生成空间音频数据。替代地或另外地，一个或多个麦克风可以包括特写(close-up)麦克风，通常由诸如人或乐器等音频源携带。一个或多个麦克风可以与视频捕获设备相关联或者形成视频捕获设备的一部分。在这点上，视频的捕获可以借助于也存在于所捕获的场景中的一个或多个视频相机。所捕获的视频可以以某种方式与所捕获的音频同步。例如，一个或多个相机可以包括空间捕获设备，该空间捕获设备包括以相应角度定向以捕获场景的空间视图的多个相机，由此后处理有效地将各种视频图块或贴片拼接在一起以提供二维、三维或立体场景。一个示例空间捕获设备是诺基亚的OZO相机系统，该OZO相机系统包括这样的相机和麦克风的阵列。因此，示例实施例适用于任何形式的沉浸式媒体方法或系统。这样的方法和系统适用于相关技术，包括但不限于虚拟现实(VR)、增强现实(AR)和混合现实(MR)。然而，在相对简单的形式中，音频和视频捕获设备可以包括具有用于捕获多媒体内容的音频和视频分量的麦克风和视频相机的手持智能电话或平板计算机。

在一些示例实施例中，一个或多个感兴趣区域(ROI)的检测对于确定在何处以及如何去除不想要的声音和/或添加上述声音的人工版本的目的是有用的。

图1是包括根据示例实施例的系统10的示意图。系统10被配置用于捕获、处理和回放包括多个音频源30、40的捕获场景20。系统10的每个部分可以是不同的。第一音频源30可以包括说话或唱歌的人30，并且第二音频源40可以包括环境声音(备选地是“噪声”)，诸如风。风的性质是不可预测的，但仍然可能对整个所捕获的场景20产生影响，诸如通过引起不想要的噪声和场景的视觉方面中的运动、例如引起对音频中的想要的语音的掩蔽和人30的头发在视频中的移动。音频源30、40可以包括任何合适的源。

另外地或替代地，风噪声可以由通向麦克风的端口中的记录设备内部的湍流风或者由其他地方的湍流产生。取决于麦克风，在具有湍流的端口导致风噪声的情况下，风噪声可能会被感知为以特定方向出现。例如，如果使用两个麦克风(即，左麦克风和右麦克风)捕获立体声，如果风噪声只影响左麦克风而不影响右麦克风，则对于收听录制音频的用户，风噪声将看起来是在左边。

系统10可以包括智能电话或其他视频相机，但不限于此，如先前所解释的。系统10可以包括用于捕获场景20中的音频的一个或多个麦克风50。系统10还可以包括用于捕获来自场景20的对应视频的一个或多个视频相机60。根据示例实施例，一个或多个麦克风50和视频相机60分别将所捕获的音频和视频分量的信号表示提供给后处理系统70。后处理系统70被配置为对上述音频和视频分量中的一项或多项应用处理以提供感知质量的改进，例如借助于声音去除和后续添加，如将解释的。所得到的经后处理的音频和视频分量可以直接或间接地提供给回放系统80。也就是说，回放系统80可以包括一个或多个解码器，该解码器用于将经后处理的数据转换为音频和视频数据，以便经由相应的音频和视频输出100、110进行渲染和回放。在间接布置中，经后处理的数据可以被提供给存储器部件90以供以后回放。例如，存储器装置90可以包括系统10的存储单元，诸如硬盘或存储卡，或者它可以包括外部存储，诸如云存储或外部媒体服务器上的存储。

音频输出100可以包括一个或多个扬声器、耳机或头戴式耳机。音频输出100可以包括系统10的一部分，或者可以是单独的设备。视频输出110可以包括一个或多个视频显示器，诸如智能电话、平板电脑的显示器、或外部显示器，诸如电视、显示器或投影系统。

在所捕获和经后处理的音频和视频数据被编码用于空间再现系统(例如，虚拟现实(VR)、增强现实(AR)或混合现实(MR)回放)的实施例中，一个或多个音频输出100和一个或多个视频输出110可以包括虚拟现实(VR)耳机或用户设备的一部分。众所周知，虚拟现实(VR)耳机可以配备有来自内容源的实时的或存储的馈送，该馈送表示用于通过耳机进行沉浸式输出的虚拟空间的至少一部分。耳机的位置可以增强沉浸式的体验。位置的变化(即，移动)也可以增强沉浸式的体验。目前，大多数虚拟现实耳机使用所谓的三自由度(3DoF)，这表示，测量偏航、俯仰和滚动轴上的头部运动并且确定用户看到的内容。一种增强是六自由度(6DoF)虚拟现实系统，其中用户可以在欧几里得空间中自由移动，也可以在偏航、俯仰和滚动轴上旋转他们的头部。六自由度虚拟现实系统使得能够提供和消费立体视频内容。立体视频内容包括从所有角度以三维形式表示空间和/或对象的数据，以使得用户能够在空间和/或对象周围移动以从任何角度观看它们。虚拟现实(VR)耳机可以至少包括一对扬声器和一对视频屏幕。

图2是示出可以由图1的后处理系统70执行的处理操作200的流程图。例如，图2中的处理操作可以在后处理系统70处通过硬件、软件或其组合来执行。图2中的处理操作可以体现在软件应用的代码中。例如，图8示出了稍后将描述的后处理系统70的示例硬件组件，并且操作可以由上述硬件组件执行，可能结合存储在存储器上的软件应用的代码。操作顺序不一定表示处理顺序。

第一操作201可以包括接收包括音频分量和另一分量的多媒体数据。多媒体数据可以表示所捕获的场景，例如通过音频分量和视频分量。

第二操作202可以包括从音频数据确定不想要的声音。这可以借助于音频分量和/或视频分量。这可以借助于自动或手动确定来进行。在示例实施例中，风是不想要的声音的给定示例。例如，可以通过比较来自多个麦克风的相应信号并且确定信号电平是否具有高于预定阈值(例如，6dB)的差异来确定不想要的声音。如果是这样，则可以认为具有较高电平的信号受到不想要的噪声的影响。

第三操作203可以包括确定场景中不想要的声音的位置。如将解释的，这可以包括时间位置(在多媒体数据的时域中出现不想要的声音的情况下)和空间位置(在多媒体数据的二维或三维空间域中出现不想要的声音的情况下)中的一者或两者。这还可以包括确定时域中不想要的声音的强度，例如不想要的声音的幅度，以导出用于后续同步的速度(tempo)。

第四操作204可以包括从所确定的位置去除不想要的声音的至少一部分。通常已知用于从音频信号去除不想要的声音的算法，诸如通过使用基于压扩器的降噪系统、动态噪声限制、过滤、频谱编辑，以及通过使用通用声音编辑软件，诸如WavePad和Audacity。这些方法中的一种或多种也可以用于风噪声去除。还存在用于去除风噪声的已知算法。美国专利公开号2004/0008850A1中公开了一种方法，其内容通过引用并入本文。

第五操作205可以包括至少在所确定的位置处添加与不想要的声音相关联的人工声音。在一些实施例中，人工声音可以以与检测到的不想要的声音(现在被去除)的速度或强度/幅度水平在时域中实质上相对应的速度或强度/幅度水平被添加。

更多或更少的操作可以形成图2的处理操作的一部分。

如上所述，所确定的位置可以包括场景中存在不想要的声音的一个或多个时间位置，并且其中人工声音仅被添加在上述一个或多个时间位置处或周围。可以建立阈值来确定特定声音何时被认为“不想要的”，例如超过预定强度或幅度的风声。在这点上，图3A示出了来自所捕获的视频场景的示例帧300，其中在有风的环境中示出了很多人。图3B示出了时域中的示例音频波形，其中上述波形302的一部分受到风声的影响，这是不希望的，因为它扭曲或覆盖了从人们发出的想要的声音。图3C示出了图3B的波形在风噪声去除(WNR)或风噪声衰减(WNA)之后的经后处理的版本。如将看到的，一些不想要的部分302已经被去除或减少以减轻其不希望的影响。然而，风噪声去除可能会引入其自身的伪影，并且考虑到帧300的视频部分清楚地包括风，在这两种媒体模式之间可能导致感知不一致；这可能看起来不切实际。因此，如上所述，可以添加人工风声以产生图3D所示的波形。人工风噪声可以(或可以不)具有已知频谱特性，并且可以包括添加风声、预先记录的风声或其组合。添加不想要的声音的对应人工版本可以伪装或掩蔽由不想要的声音去除技术引起的伪影，并且另外在回放时可以实现对整个场景的感知一致性。

在图3A-3D的示例中，所确定的位置包括场景中存在不想要的声音的一个或多个时间位置，并且人工声音仅被添加在上述一个或多个时间位置处或周围。“周围”是指人工声音不必严格限制于所确定的时间位置并且可以跨越边界。

在一些实施例中，所添加的声音的速度可以与现在被去除的不想要的噪声的速度同步。这可以基于在所捕获的音频数据和/或所捕获的视频数据中检测到的速度。关于后者，视频数据可以用于检测风的视觉出现，例如风何时影响视觉场景的时间模式。这可能表现为翻滚的材料、吹动的头发或倾斜的柔性物体(诸如树木)中的一种或多种。所添加的人工声音可以以与不想要的声音的上述视觉指示同步的强度或幅度被添加。

风噪声去除(WNR)和/或添加人工风声的量可以被设置为被相应地应用的默认量。在一些示例实施例中，用户界面可以与图1所示的后处理系统70相关联。也就是说，用户界面可以显示设置(多个)默认量的交互部件，和/或可以允许后续调节一个或两个量以预览应用时的效果。交互部件可以包括一个或两个滑块或可旋转旋钮，用于升高和降低风噪声消除(WNR)和添加人工风声效果中的一者或两者。

还如上所述，替代地或另外地，所确定的位置可以包括场景中存在不想要的声音的一个或多个空间位置，并且其中人工声音仅被添加在上述一个或多个空间位置处或周围。在这点上，音频分量可以包括构成每一帧的空间内容内的不同区域的个体表示。

在一些实施例中，所确定的位置可以是空间场景的一部分。图4A示出了来自所捕获的视频场景的示例帧400，其中人401被示出为在有风的环境中。图4B示出了帧400内的感兴趣区域(ROI)402的标识，其可以自动或手动执行。感兴趣区域(ROI)402包括人401周围的空间区域。因此，在一些实施例中，风噪声去除(WNR)可以被应用于所有区域并且人工风声添加可以在感兴趣区域(ROI)402处或周围被应用。在其他实施例中，风噪声去除(WNR)可以仅应用于与感兴趣区域(ROI)402相对应的音频，并且人工风声添加可以在感兴趣区域(ROI)处或周围被应用。以这种方式，后处理限于用户在消费内容时可能关注的场景的一个或多个部分。感兴趣区域(ROI)402的自动检测可以使用已知方法来实现，诸如通过使用机器学习或神经网络进行的对象分类、显著性分析等。

图4C示出了具有一个或多个用户界面403、404的图4B的帧400，一个或多个用户界面403、404用于手动调节风噪声去除(WNR)和/或添加风声的量。如上所述，风噪声去除(WNR)和/或添加人工风声的量可以被设置为被相应地应用的默认量。用户界面403、404可以与图1所示的后处理系统70相关联。在这种情况下，用户界面403、404包括分别用于升高和降低风噪声去除(WNR)和添加人工风声效果的滑块。

在一些实施例中，可以从一个或多个感兴趣区域之内去除(或添加)与从(或向)外部去除(或添加)的不同量的不想要的声音。

例如，与一个或多个感兴趣区域之外的那些相比，可以从与一个或多个感兴趣区域相对应的区域去除更大量的不想要的声音(以使(多个)感兴趣对象更易听)，并且更大量的人工声音可以被添加到一个或多个区域之外的区域中以掩蔽由于在那些外部区域中应用的声音去除而造成的伪影。例如，在一些实施例中，可以在感兴趣区域内添加更大量的声音以解决例如该区域内强风的可见指示。不同的情况可以决定不同的适用级别。

图5是可以用于标识所捕获的场景内的感兴趣区域(ROI)的类型的另一用户界面500的平面图。用户界面500可以与图1所示的后处理系统70相关联。例如，图5在智能电话的显示器上示出了用户界面500，但它同样可以在例如平板计算机或计算机显示器上示出。用户界面500示出了捕获位置501的定位和代表风声的第一二维声场502。在这种情况下，风声502来自四面八方。用户界面500还可以示出表示感兴趣区域(ROI)的第二二维区域503。可以使用用于表示捕获空间的有限部分的任何合适的方法。这里，第二二维区域503被示出为三角形区域，但它可以是圆形、正方形、箭头或三维等价物(在三维数据的情况下)。

用户可以与上述用户界面500交互以指示重要音频来自何处，即，使用鼠标或触摸屏输入手动指示感兴趣区域(ROI)的空间范围。例如，可以使用关于第二二维区域503的拖动输入来扩展和缩小空间范围，并且可以使用相对于第二区域的旋转输入来类似地重新定位空间范围。已经以这种方式标识了感兴趣区域(ROI)，用于通过风噪声去除(WNR)和/或人工风声的后续添加来对音频分量进行后处理的上述操作可以仅应用于感兴趣空间区域或其周围。

图6示出了如上被捕获的另一示例帧600，帧600包括两个对象，即，人601和窗口602。假定人601代表想要的声音(例如，语音)的来源，并且窗口602是不想要的声音(例如，风声)的来源。然而，将注意到，人601和窗口602在空间上是不同的。场景的想要的部分、即右侧部分可以通过自动或手动技术来标识。在这种情况下，风噪声去除(WNR)和添加人工风声可以仅应用于右侧部分。同样，可以提供第一用户界面603和第二用户界面604以允许从默认设置进行手动调节。

图7是示出根据示例实施例的后处理系统70的功能模块的框图。

后处理系统70包括用于从一个或多个麦克风50接收音频数据的音频分析模块700和用于从一个或多个视频相机60接收视频数据的视频分析模块701。在一些实施例中，不是直接从麦克风50接收音频数据，而是音频数据可以是立体声信号、双耳数据等。音频分析模块700可以使用音频分析技术和/或通过空间音频处理来确定(多个)不想要的和想要的声音区域以确定一个或多个重要区域，例如基于时频(TF)图块或通过用户指示。这可以包括标识音频数据的存在不想要的噪声和/或存在感兴趣区域(ROI)的时间和/或空间区域。在这种情况下，可以将所得到的一个或多个区域提供给风噪声去除(WNR)模块702，该WNR模块702基于需要其应用的(多个)区域来应用常规风噪声去除(WNR)处理算法。这可以从所有音频或仅从存在超过预定水平的不想要的声音的音频去除风声。类似地，视频分析模块701可以用于标识受风影响的一个或多个视觉区域(例如，通过标识移动区域，这可以使用特定于风影响的分类模型来执行，例如基于机器学习或神经网络)，也可以标识感兴趣区域(ROI)。所得到的数据还可以指示风噪声影响速度，以指示来自视频数据的不想要的声音的时间变化。

来自风噪声去除(WNR)模块702的输出可以包括在已经执行去除之后的音频数据、连同指示受影响区域和定时信息的数据。添加风声模块704然后可以获取该数据以及由视频分析模块701产生的数据，以确定要向哪个或哪些区域添加人工风声。例如，对于风衰减更多的时频(TF)图块，即，对于感兴趣区域，可以添加人工声音，或者与不感兴趣区域相比更大程度地添加人工声音。这可以使人工风声存在于不想要的风声被衰减的方向上。

图8是装置800的示意图，装置800可以包括图1和图7所示的后处理系统70。

装置800可以具有处理器801、存储器802，存储器802紧密耦合到处理器并且包括RAM 803和ROM 804。装置800可以包括网络接口805，并且可选地包括显示器806和一个或多个硬件键807。装置800可以包括一个或多个这样的网络接口805，以连接到网络，例如无线电接入网络。一个或多个网络接口805也可以用于连接到互联网，例如使用WiFi或类似协议，诸如3G、LTE、5G或其他网络协议或未来的网络协议，包括例如Bluetooth。处理器801连接到其他组件中的每个以控制其操作。在一些示例实施例中，显示器806可以包括允许用户使用触摸屏和/或通过使用悬停手势输入进行输入和选择的触摸屏。替代地或另外地，装置800还可以包括传感器，诸如一个或多个加速度计和/或陀螺仪，传感器用于个体地或组合地感测一个或多个用户手势，例如特定运动，该用户手势可以用作任何上述示例实施例中的输入。装置800可以包括麦克风输入换能器和输出换能器，诸如扬声器。

存储器802可以包括非易失性存储器、硬盘驱动器(HDD)或固态驱动器(SSD)。存储器的ROM 804尤其存储操作系统808，并且可以存储一个或多个软件应用809。处理器801可以使用存储器802的RAM 803来临时存储数据。操作系统808可以包含代码，该代码在由处理器执行时实现如上文和下文所描述的操作，例如在图2的流程图中。如下所述，存储器802可以包括任何合适的形式，并且甚至可以在云中实现。

处理器801可以采用任何合适的形式。例如，处理器801可以是微控制器、多个微控制器、处理器或多个处理器，并且处理器可以包括处理器电路系统。

图9A和图9B示出了有形非易失性介质，分别是可移动存储器单元900和压缩盘(CD)901，每个存储计算机可读代码，该计算机可读代码在由计算机运行时可以执行根据上述示例实施例的方法。可移除存储器单元900可以是记忆棒，例如，USB记忆棒，该记忆棒具有存储计算机可读代码的内部存储器903。计算机系统可以经由连接器904访问内部存储器903。CD 901可以是CD-ROM或DVD等。可以使用其他形式的有形存储介质。

已经描述了用于风噪声去除的方法和系统，其可以保持音频渲染与媒体呈现的其他模态的一致性。在示例第一操作中，确定例如在视觉内容模态中可感知的风影响。确定受风影响的区域。在示例第二操作中，应用风噪声去除以创建风噪声降低或没有风噪声的基线音轨。风噪声去除过程存在引入人工伪影的风险。取决于受影响的音频特征，风噪声去除可能会引入不可接受的伪影。在示例第三操作中，合适的人工风噪声(例如，添加风声或“噪声”)可以以与视觉模态中的风影响特征在时间上同步的强度被添加。因此，最终输出音频可以插入有符合场景的风噪声效果，这有助于保持多模式场景的神圣性并且掩蔽风噪声去除的不良影响。它还限制了需要采用的风噪声去除量(或强度)。

尽管视频数据分量是附加多媒体分量的给定示例，但可以采用一个或多个其他分量。例如，将运动或力反馈给消费用户以模仿或表示捕获内容的触觉分量可以用作附加多媒体分量，并且因此音频内容可以如上修改以保持应用于用户的声音和触觉效果之间的一致性。

作为非限制性示例，任何上述块、装置、系统、技术或方法的实现包括作为硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备、或其某种组合的实现。一些示例实施例可以在云中实现并且利用虚拟化模块。

本发明的示例实施例可以以软件、硬件、应用逻辑或者软件、硬件和应用逻辑的组合来实现。软件、应用逻辑和/或硬件可以驻留在存储器或任何计算机介质上。在示例实施例中，应用逻辑、软件或指令集被维护在各种常规计算机可读介质中的任何一种上。在本文档的上下文中，“存储器”或“计算机可读介质”可以是可以包含、存储、传送、传播或传输指令以供指令执行系统、装置或设备(诸如计算机)使用或与其相结合使用的任何非暂态介质或装置。

在相关的情况下，对“计算机可读存储介质”、“计算机程序产品”、“有形体现的计算机程序”等或“处理器”或“处理电路系统”等的引用应当理解为不仅包括具有不同架构(诸如单/多处理器架构和定序器/并行架构)的计算机，而且还包括专用电路，诸如现场可编程门阵列FPGA、专用集成电路ASIC、信号处理设备和其他设备。对计算机程序、指令、代码等的引用应当理解为将用于可编程处理器固件的软件(诸如硬件设备的可编程内容)表达为用于处理器的指令或者用于固定功能设备、门阵列、可编程逻辑器件等的所配置的设置或配置设置。

本申请中使用的术语“电路系统”是指以下所有内容：(a)仅硬件电路实现(诸如仅在模拟和/或数字电路系统中的实现)，以及(b)电路和软件(和/或固件)的组合，诸如(如适用)：(i)(多个)处理器的组合，或者(ii)(多个)处理器/软件(包括(多个)数字信号处理器)、软件和存储器的部分，这些部分一起工作以引起装置(诸如服务器)执行各种功能，以及(c)电路，诸如(多个)微处理器或(多个)微处理器的一部分，该电路的操作需要软件或固件，即使，软件或固件实际上不存在。

在该简要描述中，参考了各种示例。与示例相关的特征或功能的描述表明这些特征或功能存在于该示例中。文本中对术语“示例”或“例如”或“可以”的使用表示，无论是否明确说明，这样的特征或功能至少存在于所描述的示例中，无论是否作为示例进行描述，并且它们可以但不一定存在于一些或所有其他示例中。因此，“示例”、“例如”或“可以”指的是一类示例中的特定实例。实例的属性可以是仅该实例的属性或该类的属性或该类的子类的属性，该子类包括该类中的一些但不是全部实例。因此，隐含地公开了，参考一个示例而不参考另一示例而描述的特征在可能的情况下可以在该另一示例中使用，但不一定必须在该另一示例中使用。

尽管在前面的段落中已经参考各种示例描述了本发明的实施例，但是应当理解，可以在不脱离所要求保护的本发明的范围的情况下对所给出的示例进行修改。

在前面的描述中描述的特征可以以不同于明确描述的组合的组合来使用。

尽管已经参考某些特征描述了功能，但是无论是否描述，这些功能都可以由其他特征执行。

尽管已经参考某些实施例描述了特征，但是这些特征也可以存在于其他实施例中，无论是否描述。

尽管在前述说明书中努力使人们注意到被认为特别重要的本发明的特征，但应当理解，申请人要求对上文提及和/或在附图中示出的任何可专利特征或特征组合进行保护，无论是否特别强调。

Claims

1.一种装置，包括用于以下的部件：

接收表示场景的多媒体数据，所述多媒体数据至少包括表示所述场景的音频分量的音频数据；

确定所述场景中不想要的声音的位置；

执行第一音频处理，以从所确定的所述位置去除所述不想要的声音的至少一部分；以及

执行第二音频处理，以在所确定的所述位置处添加与所述不想要的声音相关联的人工声音。

2.根据权利要求1所述的装置，其中所述不想要的声音包括风噪声，其中所述第一音频处理包括风噪声去除，并且所述第二音频处理包括添加人工风噪声。

3.根据权利要求1或权利要求2所述的装置，其中所确定的所述位置包括所述场景中存在所述不想要的声音的一个或多个时间位置，并且其中所述人工声音被添加在所述一个或多个时间位置处或周围。

4.根据权利要求3所述的装置，还包括确定所述不想要的声音在时域中的所述强度，并且其中所述人工声音以与所述不想要的声音的强度在时域中实质同步的强度被添加。

5.根据任一前述权利要求所述的装置，其中所确定的所述位置包括所述场景中存在所述不想要的声音的一个或多个空间位置，并且其中所述人工声音仅被添加在所述一个或多个空间位置处或周围。

6.根据权利要求3至5中任一项所述的装置，其中所述多媒体数据还包括表示所述场景的视频分量的视频数据，其中所述部件被配置为从所述视频数据确定所述场景中存在所述不想要的声音的所述时间位置和所述空间位置中的一项或多项。

7.根据权利要求6所述的装置，其中所述部件被配置为基于所述场景内的对象在所述时间位置和所述空间位置中的所述一项或多项处的移动来自动确定所述不想要的声音的存在。

8.根据任一前述权利要求所述的装置，其中所述部件还被配置为标识所述多媒体数据内的一个或多个感兴趣区域，并且其中声音去除和声音添加的量取决于不想要的声音的所确定的所述位置是否与所述一个或多个感兴趣区域相对应。

9.根据权利要求8所述的装置，其中所述部件被配置为从与所述一个或多个感兴趣区域相对应的位置去除与在所述一个或多个感兴趣区域之外的位置相比不同量的声音。

10.根据权利要求9所述的装置，其中所述部件被配置为从与所述一个或多个感兴趣区域相对应的位置去除与在所述一个或多个感兴趣区域之外的位置相比更大量的声音，并且被配置为向所述一个或多个感兴趣区域之外的位置添加与在所述一个或多个感兴趣区域之内的位置相比更大量的人工声音。

11.根据任一前述权利要求所述的装置，其中所述部件还被配置为提供示出声音去除和所添加声音的默认量的用户界面，并且被配置为接收用户输入，所述用户输入用于修改一个或两个默认量以及启用回放以预览所述修改的效果。

12.根据权利要求3至5中任一项或权利要求3至5的任一从属权利要求所述的装置，其中所述多媒体数据还包括表示所述场景的触觉分量的触觉数据，其中所述部件还被配置为从所述触觉数据确定所述场景中存在所述不想要的声音的所述时间位置和所述空间位置中的一项或多项。

13.根据任一前述权利要求所述的装置，其中所述部件包括：

至少一个处理器；以及

至少一个存储器，包括计算机程序代码，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起引起所述装置的执行。

14.一种方法，包括：

接收表示场景的多媒体数据，所述多媒体数据包括多个媒体分量，所述多媒体数据包括表示所述场景的音频分量的音频数据；

确定所述场景中不想要的声音的位置；

15.一种非暂态计算机可读介质，包括存储在其上的用于执行方法的程序指令，所述方法包括：

确定所述场景中不想要的声音的位置；