CN113924620A

CN113924620A - 基于频率组成的声音修改

Info

Publication number: CN113924620A
Application number: CN201980097055.XA
Authority: CN
Inventors: J.弗贝克; S.马蒂
Original assignee: Harman International Industries Inc
Current assignee: Harman International Industries Inc
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2022-01-11
Also published as: WO2020245631A1; EP3980994A1; US20220246161A1

Abstract

在各种实施方案中，声音修改应用选择性地修改一个或多个音频信号中包括的一个或多个声音。在操作中，所述声音修改应用确定与一个或多个音频信号中包括的多个声音相关联的分类。所述声音修改应用基于与所述多个声音中包括的第一声音相关联的第一分类来选择所述第一声音的第一频率子带。然后，所述声音修改应用修改所述第一声音的所述第一频率子带，而不修改所述第一声音的至少第二频率子带，以生成修改后的音频信号。

Description

基于频率组成的声音修改

背景技术

技术领域

各种实施方案通常涉及音频处理，更具体地，涉及基于频率组成的声音修改。

相关技术的描述

增强现实是一个越来越受关注的领域，其中真实世界环境可以通过计算机生成或计算机操纵的内容来增强。计算机操纵的内容可以包括已经从由音频输入装置捕获的原始音频信号修改的音频信号。

由用于增强现实处理的音频输入装置捕获的音频信号可以包括多个声音。多个声音可以由环境中的多个源(例如，人、动物、物体)产生。原始音频信号的音频处理可以包括选择性地修改音频信号以强调或弱化某些声音，从而增强用户可以感知的听觉真实性。

选择性地修改声音的常规方法包括选择性地增加或减少某些声音的能量水平。例如，可以生成反向声波来消除音频信号中的某个声音。作为另一示例，为了增强某个声音，可以增加对应于该声音的声道的幅度。

这些常规方法的一个缺点是音频信号中的其他声音可能会无意中受到修改的影响。例如，上述反向声波可能无意中消除音频信号中包括的所有或部分其他声音。另一缺点是音频信号的总能量水平可能因修改而显著改变。结果，修改后的音频信号在输出时可能被用户感知为太响亮或太轻柔，使得修改后的音频信号中的声音听起来刺耳和/或令人不愉快。

如上所述，需要更有效的声音修改技术。

发明内容

一个实施方案阐述了一种用于修改音频信号中包括的声音的方法。该方法包括：针对音频信号中包括的多个声音中包括的每个声音，确定与该声音相关联的一个或多个分类；基于与多个声音中包括的第一声音相关联的第一分类，选择第一声音的第一频率子带；并且修改第一声音的第一频率子带，而不修改第一声音的至少第二频率子带，以生成修改后的音频信号。

除此之外，另外的实施方案还提供了被配置为实现上述方法的一种系统和一种或多种计算机可读存储介质。

所公开技术的至少一个优点和技术改进在于，可以修改音频信号中包括的一个或多个声音，而不会显著改变音频信号的总能量水平。因此，与使用常规方法修改的音频信号相比，修改后的音频信号对用户而言听起来更自然且和谐。

附图说明

为了能够详细地理解各种实施方案的上述特征，可通过参考各种实施方案来对以上简要概述的创造性概念进行更具体的描述，附图中示出了所述各种实施方案中的一些。然而，应当注意，附图只示出了创造性概念的典型实施方案，且因而不应被视为以任何方式限制其范围，并且存在其它等效实施方案。

图1示出被配置为实现各种实施方案的一个或多个方面的声音修改系统；

图2A示出根据各种实施方案的一个或多个方面的在修改之前音频信号中包括的声音的图形表示；

图2B示出根据常规技术对图2A的音频信号中包括的声音的修改；

图2C示出根据各种实施方案的一个或多个方面的对图2A的音频信号中的声音的修改；

图2D示出根据各种实施方案的一个或多个方面的在图2C所示的修改之后音频信号中的声音的图形表示；并且

图3示出根据各种实施方案的一个或多个方面的用于选择性地修改一个或多个音频信号中的声音的方法步骤的流程图。

具体实施方式

在以下描述中，阐述了许多特定细节以提供对各种实施方案的更透彻理解。然而，对本领域技术人员而言将明显的是，可以在没有这些具体细节中的一个或多个的情况下实践这些创造性概念。

本文公开的实施方案包括声音修改系统，该声音修改系统包括一个或多个音频输入装置和一个或多个音频输出装置，该一个或多个音频输入装置被布置成获取一个或多个音频信号。声音修改系统还包括处理单元，该处理单元与音频输入装置和音频输出装置耦合，其中该处理单元操作以选择性地修改一个或多个音频信号中包括的一个或多个声音，并且经由一个或多个音频输出装置输出一个或多个修改后的音频信号。可以基于用户输入选择一个或多个音频信号中包括的声音进行修改。在各种实施方案中，通过修改声音的频率子带来修改一个或多个音频信号中包括的声音。可以基于与声音相关联的一个或多个分类来选择用于修改的频率子带。

声音修改系统可以以诸如个人耳机或其他可穿戴音频装置、家庭音频系统、车辆音频系统等的各种形式的基于音频的系统来实现。声音修改系统也可以以诸如智能手机、平板计算机、台式计算机、膝上型计算机等的各种形式的支持音频的系统来实现。声音修改系统可以确定音频信号中包括的多个声音，并且选择性地修改多个声音中包括的一个或多个声音。声音修改系统可以使用专用处理装置和/或诸如用户的移动计算装置或云计算系统的独立计算装置来执行其处理功能。

图1示出了声音修改系统100，该声音修改系统被配置为实现各种实施方案的一个或多个方面。如图所示，声音修改系统100包括计算装置102、一个或多个输入装置152、一个或多个音频输入装置154和一个或多个音频输出装置156。计算装置102包括一个或多个处理单元110、存储器120和输入/输出(I/O)150。声音修改系统100还可以包括显示装置158。

一个或多个处理单元110可以包括能够执行本文描述的功能的任何处理元件。虽然被描绘为计算装置102内的单个元件，但是一个或多个处理单元110意图表示单个处理器、多个处理器、具有多个核的一个或多个处理器以及它们的组合。处理单元110可以是任何合适的处理器，诸如中央处理单元(CPU)、图形处理单元(GPU)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、任何其他类型的处理单元或不同处理单元的组合，诸如被配置为与DSP结合操作的CPU。通常，处理单元110可以是能够处理数据和/或执行软件应用或模块(包括声音修改应用122)的任何技术上可行的硬件单元。

存储器120可以包括根据其大小、相对性能或其他能力选择的各种计算机可读介质：易失性和/或非易失性介质、可移动和/或不可移动介质等。存储器120可以包括高速缓存、随机存取存储器(RAM)、存储装置等。当然，可以交替选择各种存储器芯片、存储器带宽和存储器外形规格。作为存储器120的一部分而被包括的存储装置通常可以为计算装置102提供非易失性存储器，并且可以包括一个或多个不同的存储元件，诸如闪速存储器、硬盘驱动器、固态驱动器、光存储装置和/或磁存储装置。

存储器120可以包括用于执行本文描述的功能的一个或多个应用或模块。在各种实施方案中，存储器120中包括的任何模块和/或应用可以由声音修改系统100本地实现和/或可以经由基于云的架构来实现。例如，存储器120中包括的任何模块和/或应用可以在经由I/O 130或网络160与声音修改系统100通信的远程装置(例如，服务器系统、云计算平台等)上执行。

如图所示，存储器120包括声音修改应用122，该声音修改应用用于确定音频信号中包括的一个或多个声音，并且选择性地修改音频信号中的声音。在各种实施方案中，声音修改应用122选择音频信号中包括的某些声音，选择所选声音中包括的某些频率子带，并且修改所选子带。存储器120还包括声音数据库124，该声音数据库存储关于声音的信息，包括关于声音分类和相关频率范围的信息。

处理单元110可以使用输入/输出(I/O)150与诸如外围装置或其他联网计算装置的其他装置通信。I/O 150可以包括用于提供本文描述的功能的任何数量的不同I/O适配器或接口。I/O 150可以包括有线和/或无线连接，并且可以使用各种格式或协议(例如，

(蓝牙特别兴趣小组的注册商标)、

(Wi-Fi联盟的注册商标)、通用串行总线(USB)等)。

I/O 150还可以包括一个或多个网络接口，该一个或多个网络接口通过网络160将处理单元110耦合到一个或多个联网计算装置。联网计算装置的示例包括云计算系统170、服务器系统、台式计算机、诸如智能手机或平板计算机的移动计算装置以及诸如手表或耳机或头戴式显示装置的穿戴装置。当然，其他类型的计算装置也可以与处理单元110联网。网络160可以包括各种类型的一个或多个网络，包括局域网或本地接入网(LAN)、通用广域网(WAN)和/或公共网络(例如，因特网)。在一些实施方案中，联网计算装置可以用作附加处理单元110、附加存储器120、输入装置152、音频输入装置154和/或音频输出装置156。

输入装置152与处理装置110耦合，并且向处理装置110提供各种输入。在一些实施方案中，输入装置152可以包括用以接收用户输入的用户接口，诸如用户对已经被确定为包括在音频信号中的某些声音的选择以及用户对某些声音的能量水平的调整。用户接口可以采取任何可行的形式来提供本文描述的功能，诸如一个或多个按钮、开关、滑块、拨号盘、旋钮、触敏表面等和/或图形用户接口(GUI)。GUI可以通过可选的显示装置158来提供。在一些实施方案中，GUI可以包括为音频信号确定的每个声音的用户接口对象(例如，滑块控件)，其中滑块控件与声音的能量水平(例如，幅度、感知响度)相关联。

音频输入装置154包括捕获环境中出现的声波并从所捕获声波生成音频信号的一个或多个装置。音频输入装置154可以包括一个或多个传声器(例如，全向传声器、传声器阵列)和/或能够将声波转换成电音频信号的一个或多个其他换能器或传感器。音频输入装置154可以包括传感器阵列，该传感器阵列包括单一类型或多种不同传感器类型的传感器。音频输入装置154可以由用户穿戴，或者单独设置在固定位置或者可移动。音频输入装置154可以以任何可行的方式设置在环境中。另外地或可选地，音频输入装置154可以包括一个或多个装置或系统，该一个或多个装置或系统可以从所记录的媒体(例如，媒体回放装置、媒体存储装置)向声音修改系统100提供音频信号。另外地或可选地，音频输入装置154可以包括一个或多个中间装置(例如，放大器、混音器)，该一个或多个中间装置可以将音频信号从其他音频输入装置154传输到声音修改系统100。

包括音频输出装置156以输出音频信号。音频输出装置156可以使用任何技术上可行的音频输出技术，诸如扬声器或其他合适的电声装置。音频输出装置156可以使用任何数量的外形规格来实现，诸如分立扬声器装置、装置上扬声器、绕耳式(罩耳式)、贴耳式(耳挂式)或入耳式耳机、助听器、有线或无线头戴设备、身体穿戴式(例如，头戴式、肩戴式、臂戴式等)听音装置、身体穿戴式近距离定向扬声器或扬声器阵列、身体穿戴式超声波扬声器阵列等。音频输出装置156可以由用户穿戴，或者单独设置在固定位置或者可移动。

应当理解，声音修改系统100的各种实施方案可以具有图1所示的各种组件的不同配置。例如，在一个实施方案中，计算装置102、输入装置152、音频输入装置154、音频输出装置156以及可选的显示装置158可以被包括在诸如智能手机、平板计算机、用户可佩戴的头戴设备、耳机等的一个装置中。在另一实施方案中，音频输入装置154和音频输出装置156可以与计算装置102分离。例如，音频输入装置154和音频输出装置156可以被包括在经由有线或无线连接而连接到独立计算装置102(例如，智能手机、膝上型计算机等)的耳机中。

在操作中，声音修改应用122获取一个或多个音频信号(例如，经由音频输入装置154)，并且对该一个或多个音频信号执行各种操作。在各种实施方案中，声音修改应用122可以确定一个或多个音频信号中包括的多个声音，从而检测和/或识别一个或多个音频信号中包括的由不同源产生的声音。该确定可以包括针对每个检测到的声音确定相应的音频通道、流和/或信号。声音修改应用122可以使用任何技术上可行的技术来确定多个声音(例如，声音空间化、声音分割或分解、声音对象检测、机器学习等)。在一些实施方案中，确定多个声音的功能可以由存储器120中与声音修改应用122分离的另一模块或应用来执行。应当理解，虽然为了便于理解，本文描述的实施方案是针对一个音频信号和音频信号中包括的声音来描述的，但是所描述的实施方案也适用于多个音频信号和多个音频信号中包括的声音。例如，声音修改应用122可以获取多个音频信号(例如，从多个传声器和/或从多声道回放装置)并确定多个音频信号中包括的多个声音。在一些实施方案中，每个音频信号可以对应于不同的音频通道，音频通道中的每一者包括不同的声音。

声音修改应用122还可以为一个或多个音频信号中包括的所确定的声音中的每个声音确定一个或多个分类。与声音相关联的分类可以指示产生声音的源的类型。例如，可能的声音分类包括人的类型(例如，男性、女性)、动物的类型(例如，狗、猫、鸟)和物体的类型(例如，车辆、建筑设备)。声音修改应用122可以使用任何技术上可行的技术来确定与声音相关联的一个或多个分类(例如，机器学习等)。可能的分类可以包括一个粒度级别或不同粒度级别的分类。例如，在较低的、不太详细的粒度级别，分类可以包括例如“人”、“动物”和“物体”。在更高、更详细的粒度级别，分类可以包括更具体的分类(例如，“男性语音”、“女性语音”、“狗”、“猫”、“鸟”、“汽车”、“交通”、“飞机”、“建筑设备”等)。

在一些实施方案中，可以一起执行对一个或多个音频信号中的声音的确定和对声音的分类的确定。例如，如上所述，用于检测和确定一个或多个音频信号中的声音的对音频信号的处理还可以包括识别声音的来源并基于该识别确定与声音相关联的一个或多个分类的处理。在一些实施方案中，确定声音分类的功能可以由存储器120中与声音修改应用122分离的另一个模块或应用来执行(例如，如上所述，在与执行确定声音的功能的模块或应用相同的模块或应用中)。

声音修改应用122可以接收用户输入，该用户输入选择一个或多个音频信号中包括的声音进行修改。在一些实施方案中，声音修改应用122呈现用户接口(例如，GUI、音频提示)，该用户接口使得和/或提示用户调整特定声音的期望能量水平。例如，由声音修改应用122在显示装置158上显示的GUI可以包括滑块或其他控件(例如，拨号盘、旋钮)，用于调整被确定为包括在一个或多个音频信号中的每个声音的级别。滑块控件可以与声音的能量水平(例如，相对于音频信号中的原始能量水平的能量水平)相关联。用户可以经由输入装置152移动声音的滑块，以选择该声音进行修改，并且指示对该声音的修改方向和大致量。用户可以移动一个或多个声音的滑块来选择用于修改的声音，并且指示对所选声音的修改方向和修改量。

声音修改应用122响应于接收到选择用于修改的声音的用户输入，可以确定所选声音中用于修改的频率子带。在一些实施方案中，声音修改应用122至少基于与声音相关联的分类来确定频率子带。特别地，声音修改应用122可以基于声音的一个或多个分类来确定声音的一个或多个特性频率子带。在一些实施方案中，声音分类的特性频率子带指示代表与该分类相关联的声音的并且有助于该声音的清晰度的频率范围。例如，如果声音被分类为女性语音，则声音修改应用122可以识别女性语音特有的一个或多个频率子带，并且选择这些子带中的一个或多个子带进行修改。此外，在各种实施方案中，声音的特性频率子带可以是对于声音来说典型的频率子带和/或对用户的声音的辨别、隔离和/或感知响度有显著贡献的频率子带。例如，乐器声音的特性频率子带对于用户能够在多个声音中听到乐器可能是重要的。作为另一示例，放大乐器声音的特性频率子带可以放大声音的感知响度。作为另一示例，在声音的特性频率子带之外修改乐器声音的频率子带可能会导致该声音被认为是对于乐器来说不自然的或非典型的。

在一些实施方案中，声音修改应用122可以通过参考声音数据库124中存储的信息来识别用于分类的特性频率子带。例如，声音修改应用122可以从声音数据库124中获取指示特性频率子带的信息。然后，声音修改应用122可以在所选频率子带修改音频信号内的声音，并且生成包括修改后的声音的输出音频信号，这进一步的细节将在下面描述。

在一些实施方案中，声音数据库124包括关于各个声音分类的信息的数据库。对于给定的声音分类，声音数据库124包括关于与该分类相关联的特性频率子带的信息。此外，在一些实施方案中，声音数据库124可以包括从一个分类到一个或多个其他分类的引用。例如，较高级别的分类可以引用或指向一个或多个较低级别的分类(例如，动物声音分类可以引用对应于特定类型动物的分类)，反之亦然。声音数据库124中存储的信息可以经由任何技术上可行的数据库存储和查询技术来进行存储和查询。在一些实施方案中，声音数据库124可以位于云计算系统170中。

图2A示出根据各种实施方案的一个或多个方面的在修改之前音频信号中包括的声音的图形表示202。如图所示，图形表示202包括表示已经被确定为被包括在原始音频信号中的第一声音204和第二声音206的折线图，相对于频率轴和幅度轴标绘。声音204已经被确定与“交通”声音分类相关联，并且声音206已经被确定与“男性语音”声音分类相关联。从表示202可以看出，声音204和206在不同的频率范围具有不同的幅度。

图2A还分别示出声音204和206的滑块控件208和210。声音修改应用122可以呈现(例如，在GUI中显示)用于两个声音204和206的滑块控件208和210，从而使得用户能够选择和调整声音204和206中的一个或多个声音。如图所示，滑块控件208和210可以从中间位置开始，其中中间位置可以表示原始音频信号中相应声音的能量水平。

图2B示出根据常规技术对图2A的音频信号中包括的声音的修改。如果用户选择交通声音204进行调整，则可以修改交通声音。例如，如图2B所示，交通声音204的幅度在交通声音204的整个频带上增加了一定的量。然而，修改声音在整个频带上的幅度具有增加输出音频信号的总能量水平的缺点，用户可能感觉到这显著增加了输出音频信号的响度。这种增加的响度会使用户对收听输出音频信号感到不愉快。

图2C示出根据各种实施方案的一个或多个方面的对图2A的音频信号中包括的声音的修改。如上所述，声音修改应用122可以呈现(例如，在GUI中显示)声音204和206的滑块控件208和210。用户可以操纵交通声音滑块208来选择交通声音204用于修改，并且指示修改的方向和大致量。例如，交通声音滑块208在图2C中示出为与图2A中示出的滑块208相比已经向上移动，这指示用户希望将交通声音204向上修改。例如，交通声音204可以向上修改，以便使声音204与其他声音相比更突出和/或更可听。另外地或可选地，声音可以被向下修改，以便使声音与其他声音相比不突出和/或不可听。响应于用户选择，声音修改应用122增加交通声音204的一个或多个频率子带的能量水平(例如，幅度)。

在一些实施方案中，声音修改应用122从声音数据库124获得指示频率子带的信息，其中频率子带是频率范围。特别是相对于声音204，声音修改应用122从声音数据库124获得关于“交通”声音分类的信息。基于所获得的信息(该信息可以包括指示“交通”声音的特性频率子带的信息)，声音修改应用122可以在特性子带当中选择用于修改的频率子带。例如，如果所获得的信息指示与“交通”分类相关联的声音具有2500Hz至3500Hz范围内的特性子带，则声音修改应用122可以选择2500Hz至3500Hz子带，或者2500Hz至3500Hz范围内的较窄子带进行修改。例如，在图2C中，已经针对交通声音204选择以约3000Hz为中心的范围。

在一些实施方案中，声音修改应用122可以分析一个或多个音频信号中的所选声音，并且可选地还分析一个或多个音频信号中的其他声音和/或将一个或多个音频信号作为整体进行分析。声音修改应用122可以使用该分析来确定和/或调整将被选择用于修改的频率子带，其结合或代替基于从声音数据库124获得的信息来确定子带。在一些实施方案中，如果音频信号仅包括一个声音，则可以分析该声音以确定频率子带，而不是使用来自声音数据库124的信息，以便确定音频信号中包括的声音所特有的频率子带。声音修改应用122可以使用任何技术上可行的技术(例如，声谱图分析)来分析声音204，以确定和选择声音204中的一个或多个特性频率子带。在一些实施方案中，声音修改应用122可以首先基于来自声音数据库124的信息来确定声音204中的频率子带，然后基于对声音204的分析来调整所确定的子带。该调整可以包括使子带的中心移位和/或加宽或收窄子带的带宽。

在选择用于修改的3000Hz子带之后，声音修改应用122继续修改所选子带处的交通声音204。在一些实施方案中，声音修改应用122使用参数均衡技术来修改声音。声音修改应用122从所选频率子带中获得参数均衡的中心频率和带宽，并且基于用户操纵的滑块控件208确定参数均衡的修改量。在一些实施方案中，修改量是基于滑块位置的向上或向下修改的百分比(例如，幅度增加或减小的百分比)。在一些其他实施方案中，修改量是基于滑块位置的绝对修改量(例如，幅度的加量或减量)。因此，在图2C中，交通声音204的子带部分214的幅度增加到修改后的部分216。

在一些实施方案中，声音修改应用122还可以自动修改一个或多个音频信号中包括的一个或多个其他声音，以便使根据用户选择修改的声音更为突出或不突出。可以在没有用户手动操纵一个或多个其他声音的一个或多个滑块的情况下发生其他声音的自动修改。例如，如图2C所示，可以修改男性语音声音206，以使向上修改后的交通声音204更加突出。因此，可以以类似于上述的方式选择男性语音声音206的子带。此外，在一些实施方案中，可以基于与交通声音204中的修改后的子带部分216的接近度来选择男性语音声音206中的子带。例如，男性语音声音206中的部分218可以对应于接近交通声音204中的子带部分216并且在男性语音声音206的特性子带内的子带。在一些实施方案中，如果两个子带的中心频率相差小于预定量和/或两个子带重叠，则一个子带接近另一子带。在一些其他实施方案中，声音修改应用122仅修改已经被用户肯定地选择进行修改的一个或多个声音(例如，用户已经针对其操纵了相应滑块控件的声音)。

更一般地，在各种实施方案中，声音修改应用122可以通过以下任意组合使声音更为突出或不突出：1)在声音的整个频带上修改声音(例如，根据上面结合图2B描述的技术)；2)修改声音的频率子带(例如，特性频率子带)；以及3)修改一个或多个其他声音的频率子带(例如，特性频率子带)。例如，为了使第一声音更加突出，声音修改应用122可以简单地放大第一声音。作为另一示例，声音修改应用122可以放大第一声音的特定频率子带(例如，特性子带)。作为进一步的示例，声音修改应用122可以衰减在感知上与第一声音竞争的一个或多个其他声音的一个或多个频率子带(例如，特性子带)。作为又一示例，声音修改应用122可以在一个方向上修改第一声音的一个或多个频率子带，并且在相反的方向上修改在感知上与第一声音竞争的一个或多个其他声音的一个或多个频率子带。声音修改应用122可以基于一个或多个音频信号中包括的特定声音来选择上述修改的任意组合。例如，如果待变得更为突出的声音与其他声音相比具有非常低的幅度，则在可以执行的修改当中，声音修改应用122可以在声音的整个频带上放大声音。

在一些实施方案中，如果基于任何数量的标准(包括但不限于声音幅度、特性频率子带等)，第二声音的感知突出影响第一声音的感知突出，则第一声音在感知上与第二声音竞争。在一些实施方案中，声音修改应用122可以分析一个或多个音频信号中的声音，并且以任何技术上可行的方式识别在感知上竞争的声音，该技术上可行的方式包括但不限于基于机器学习的技术和在数据库(例如，声音数据库124)中查找。

在针对男性语音声音206选择了子带之后，声音修改应用122例如使用如上所述的参数均衡技术来修改男性语音声音206中的子带。对男性语音声音206的修改可以与对交通声音204的修改方向相反，并且在一些实施方案中，修改大约相同的量。因此，在图2C中，男性语音声音206的子带部分218的幅度减少到修改后的部分220。

图2D示出根据各种实施方案的一个或多个方面的在图2C所示的修改之后音频信号中包括的声音的图形表示。图2D中的图形表示202示出修改后的交通声音204和修改后的男性语音声音206。与图2A和图2B所示的声音相比，由于经由上述技术应用的修改，图2D所示的交通声音204和男性语音声音206具有不同的峰值和谷值。此外，与图2A所示的声音相比，声音的总能量水平没有显著变化。在完成修改之后，声音修改应用122可以生成包括修改后的声音204和206的修改后的音频信号。声音修改应用122还可以使得修改后的音频信号经由一个或多个音频输出装置156输出到用户。例如，声音修改应用122将修改后的音频信号传输到音频输出装置156。

图3示出根据各种实施方案的一个或多个方面的用于选择性地修改一个或多个音频信号中的声音的方法步骤的流程图。尽管结合图1至图2A至图2D的系统描述了方法步骤，但是本领域技术人员将理解，被配置为以任何顺序执行方法的任何系统都落入各种实施方案的范围内。

如图3所示，方法300开始于步骤302，其中声音修改应用122获取一个或多个音频信号。一个或多个音频信号可以经由一个或多个音频输入装置154(例如，从环境捕捉声音的传声器)来获取。在步骤304，声音修改应用122确定一个或多个音频信号中的多个声音(例如，一音频信号中的多个声音，一个或多个音频信号中的每个音频信号中的声音)。声音修改应用122可以使用任何技术上可行的技术(例如，机器学习、声音对象检测、声音空间化、声音分割或分解等)来确定声音。

在步骤306，声音修改应用122确定一个或多个音频信号中包括的声音的分类。针对在步骤304中确定的每个声音，声音修改应用122确定与声音相关联的一个或多个分类(例如，声音是否是人或动物或物体的，是否是特定类型的人或动物或物体的等)。与声音相关联的一个或多个分类可以指示产生声音的源(或源的类型)。声音修改应用122可以使用任何技术上可行的技术来确定分类，该技术可以包括与步骤304中用于确定声音的技术相同的一个或多个技术。

在步骤308，声音修改应用122选择一个或多个音频信号中的声音。声音修改应用122可以基于用户输入来选择声音。在各种实施方案中，声音修改应用122可以向用户呈现接口(例如，通过经由显示装置158在应用中显示图形用户接口)。用户可以操纵用户接口中的元素(例如，对应于声音的滑块控件，诸如滑块控件208和210)来选择用于修改的声音。声音修改应用122可以选择用户经由用户接口选择的声音(例如，基于用户操纵的滑块控件)进行修改。在一些实施方案中，声音修改应用122可以由用户配置有指定声音的规则，以基于一个或多个指定的分类自动向上或向下修改。声音修改应用122可以根据那些规则来自动选择声音。

在步骤310，声音修改应用122确定和选择在步骤308中选择的声音中的频率子带。声音修改应用122确定声音中的特性频率子带，并且选择这些子带中的一个或多个。可以基于从声音数据库124获得的同与声音相关联的一个或多个分类相关的信息，和/或基于对音频信号中的声音的分析(例如，声谱图分析)，来确定特性子带。

在步骤312，声音修改应用122修改在步骤310中选择的一个或多个频率子带。例如，如图2C所示，声音204的部分216的幅度根据用户对滑块控件208的操纵而增加。声音修改应用可以使用任何技术上可行的技术(例如，参数均衡、图形均衡)来修改子带。

在步骤314，声音修改应用122确定在一个或多个音频信号中是否存在要修改的附加声音(例如，基于经由用户接口的用户选择，通过自动修改其他声音以便使对修改后的声音的修改更为突出，通过基于规则自动修改其他声音)。如果存在要修改的附加声音，则该方法进行到步骤308，并且在一个或多个音频信号中选择要修改的另一声音。如果不存在要修改的附加声音，则该方法进行到步骤316。

在步骤316，声音修改应用122生成一个或多个音频信号(“一个或多个修改后的音频信号”)，该一个或多个音频信号包括在步骤312中修改的声音。在步骤318，声音修改应用122使一个或多个修改后的音频信号作为声波输出给用户(例如，经由音频输出装置156)。例如，声音修改应用122可以将一个或多个修改后的音频信号传输到一个或多个音频输出装置156。声音修改应用122还可以使一个或多个未修改的音频信号(例如，包括未如上所述进行修改的声音的音频信号)与一个或多个修改后的音频信号一起经由音频输出装置156输出。

在一些实施方案中，上述操作和技术中的一者或多者可以在云计算系统170处结合计算装置102来执行。例如，计算装置102可以传输经由音频输入装置154获取的音频信号，以供云计算系统170处理。在这样的实施方案中，云计算系统170处的处理可以包括由上述声音修改应用122执行的一个或多个操作(例如，以下中的一者或多者：确定音频信号中的声音、确定与声音相关联的分类以及确定和选择频率子带)。云计算系统170可以包括一个或多个应用或模块，该一个或多个应用或模块执行与如上所述的声音修改应用122执行的操作相同或相似的操作中的一个或多个操作。此外，在一些实施方案中，云计算系统170可以包括历史和/或经训练数据(例如，经训练的声音检测神经网络等)，该历史和/或经训练数据可以被应用于辅助上述操作，并且云计算系统170可以基于从计算装置102接收的数据进一步向历史和/或经训练数据进行添加。

在一些实施方案中，上述操作和技术是实时或接近实时地执行的，使得经由音频输入装置154捕获声音和经由音频输出装置156输出声音的修改之间的时间延迟可以被最小化。也就是说，修改后的音频信号可以被实时或接近实时地输出。因此，在一些实施方案中，上述操作和技术可以完全在计算装置102本地执行。可选地，在计算装置102处执行的操作和技术可以结合云计算系统170来执行(例如，查询位于云计算系统170处的声音数据库124以确定和选择频率子带，让云计算系统170确定音频信号中的声音和分类等)。

总之，声音修改系统确定一个或多个音频信号中包括的多个声音，并且针对多个声音中包括的每个声音确定与该声音相关联的一个或多个分类。在一些实施方案中，分类可以包括人的类型(例如，男性、女性)、用户身份(例如，特定人的身份)、动物的类型(例如，猫、狗、鸟)和物体的类型(例如，汽车、交通、建筑设备、飞机)中的一者或多者。声音修改系统选择多个声音中包括的第一声音进行修改。然后，声音修改系统至少基于第一声音的分类来确定第一声音的第一频率子带，并且修改该第一频率子带。在一些实施方案中，声音修改系统通过增加或减少第一声音的第一频率子带的幅度来修改第一频率子带。声音修改系统还可以选择第二声音，确定第二声音的第二频率子带，并且修改第二声音的第二频率子带。

所公开技术的至少一个优点和技术改进在于，可以修改一个或多个音频信号中包括的一个或多个声音，而不会显著改变该一个或多个音频信号的总能量水平。例如，修改后的音频信号中的声音的感知响度和/或音色可以与修改前基本相同。修改音频信号中的声音不会无意中导致用户感觉不到音频信号中的其他声音。因此，与使用常规方法修改的音频信号相比，修改后的音频信号对用户而言听起来更自然且和谐。

1.在一些实施方案中，一种用于修改音频信号中包括的声音的计算机实现的方法包括：针对至少一个音频信号中包括的多个声音中包括的每个声音，确定与所述声音相关联的一个或多个分类；基于与所述多个声音中包括的第一声音相关联的第一分类，选择所述第一声音的第一频率子带；并且修改所述第一声音的所述第一频率子带，而不修改所述第一声音的至少第二频率子带，以生成修改后的音频信号。

2.根据条款1所述的方法，所述方法还包括基于与所述多个声音中包括的第二声音相关联的第二分类、对所述第二声音的分析、所述第一频率子带的频率范围以及所述第一频率子带的中心频率中的至少一者，选择所述第二声音的第三频率子带；并且修改所述第二声音的所述第三频率子带，而不修改所述第二声音的至少第四频率子带。

3.根据条款1或2所述的方法，其中修改所述第一声音的所述第一频率子带包括对所述第一频率子带执行参数均衡。

4.根据条款1至3中任一项所述的方法，所述方法还包括接收用户输入，其中基于所述用户输入执行所述修改。

5.根据条款1至4中任一项所述的方法，所述方法还包括显示用户接口，所述用户接口包括用于所述多个声音中包括的每个声音的控制对象，其中所述用户输入是经由对应于所述第一声音的控制对象接收的。

6.根据条款1至5中任一项所述的方法，其中选择所述第一声音的所述第一频率子带包括从数据库中获得同与所述第一声音相关联的所述一个或多个分类相关联的特性频率信息；并且基于所述信息选择所述第一频率子带。

7.根据条款1至6中任一项所述的方法，其中所述修改是响应于确定所述第一声音在感知上与所述多个声音中包括的第二声音竞争而执行的。

8.根据条款1至7中任一项所述的方法，所述方法还包括生成包括所述修改后的音频信号的至少第二音频信号，其中所述至少第二音频信号包括所述多个声音，并且其中所述至少第二音频信号中包括的所述第一声音的所述第一频率子带被修改，并且所述至少第二音频信号中包括的所述第一声音的所述第二频率子带未被修改。

9.在一些实施方案中，一种或多种非暂时性计算机可读存储介质存储指令，所述指令当被至少一个处理器执行时致使所述至少一个处理器执行以下步骤：针对至少一个音频信号中包括的多个声音中包括的每个声音，确定与所述声音相关联的一个或多个分类；基于与所述多个声音中包括的第一声音相关联的第一分类，选择所述第一声音的第一频率子带；修改所述第一声音的所述第一频率子带，而不修改所述第一声音的至少第二频率子带；选择所述多个声音中包括的第二声音的第三频率子带；并且修改所述第二声音的所述第三频率子带，而不修改所述第二声音的至少第四频率子带，以生成修改后的音频信号。

10.根据条款9所述的一种或多种计算机可读存储介质，其中修改所述第一声音的所述第一频率子带包括对所述第一频率子带执行参数均衡。

11.根据条款9或10所述的一种或多种计算机可读存储介质，所述一种或多种计算机可读存储介质还包括接收用户输入，其中修改所述第一声音的所述第一频率子带包括基于所述用户输入增加或减少所述第一频率子带的幅度。

12.根据条款9至11中任一项所述的一种或多种计算机可读存储介质，所述一种或多种计算机可读存储介质还包括显示用户接口，所述用户接口包括用于所述多个声音中包括的每个声音的控制对象。

13.根据条款9至12中任一项所述的一种或多种计算机可读存储介质，其中选择所述第二声音的所述第三频率子带包括基于与所述第二声音相关联的第二分类、对所述第二声音的分析、所述第一频率子带的频率范围以及所述第一频率子带的中心频率中的至少一者来选择所述第三频率子带。

14.根据条款9至13中任一项所述的一种或多种计算机可读存储介质，其中选择所述第一声音的所述第一频率子带包括从数据库中获得同与所述第一声音相关联的所述一个或多个分类相关联的特性频率信息；并且基于所述信息选择所述第一频率子带。

15.根据条款9至14中任一项所述的一种或多种计算机可读存储介质，所述一种或多种计算机可读存储介质还包括生成包括所述修改后的音频信号的至少第二音频信号，其中所述至少第二音频信号包括所述多个声音，所述至少第二音频信号中包括的所述第一声音的所述第一频率子带被修改，并且所述至少第二音频信号中包括的所述第一声音的所述第二频率子带未被修改，并且其中所述至少第二音频信号中包括的所述第二声音的所述第三频率子带被修改，并且所述至少第二音频信号中包括的所述第二声音的所述第四频率子带未被修改。

16.一种系统包括：存储器；以及至少一个处理器，所述至少一个处理器耦合到所述存储器，并且被配置为：检测至少一个音频信号中包括的多个声音；针对所述多个声音中包括的每个声音，确定与所述声音相关联的一个或多个分类；基于与所述第一声音相关联的第一分类，选择所述多个声音中包括的第一声音的第一频率子带；以及修改所述第一声音的所述第一频率子带，而不修改所述第一声音的至少第二频率子带，以生成修改后的音频信号。

17.根据条款16所述的系统，其中所述至少一个处理器还被配置为基于与所述多个声音中包括的第二声音相关联的第二分类、对所述第二声音的分析、所述第一频率子带的频率范围以及所述第一频率子带的中心频率中的至少一者，选择所述第二声音的第三频率子带；以及修改所述第二声音的所述第三频率子带，而不修改所述第二声音的至少第四频率子带。

18.根据条款16或17所述的系统，其中所述第一分类是人声、动物声或物体声中的一者。

19.根据条款16至18中任一项所述的系统，所述系统还包括数据库，其中所述数据库包括所述第一分类到一个或多个特性频率子带的至少一个映射，并且其中所述一个或多个特性频率子带包括所述第一频率子带。

20.根据条款16至19中任一项所述的系统，其中所述至少一个处理器还被配置为生成包括所述修改后的音频信号的至少第二音频信号，其中所述至少第二音频信号包括所述多个声音，并且所述至少第二音频信号中包括的所述第一声音的所述第一频率子带被修改，并且所述至少第二音频信号中包括的所述第一声音的所述第二频率子带未被修改；以及致使所述至少第二音频信号经由音频输出装置输出。

权利要求中任一项所述的权利要求要素中的任一个和/或本申请中描述的任何要素的呈任何形式的任何和所有组合均落入本实施方案和保护的预期范围内。

各种实施方案的描述已经呈现以用于说明目的，而并非意在穷举或限于所公开的实施方案。在不脱离所描述的实施方案的范围和精神的情况下，许多修改和变化对于本领域普通技术人员来说将是明显的。

本实施方案的各方面可体现为系统、方法或计算机程序产品。因此，本公开的各方面可以采用完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或结合软件和硬件方面的实施方案的形式，它们在本文中可以统称为“模块”或“系统”。另外，本公开中描述的任何硬件和/或软件技术、过程、功能、部件、引擎、模块或系统可被实现为电路或电路的集合。此外，本公开的各方面可采用计算机程序产品的形式，所述计算机程序产品在其上体现有计算机可读程序代码的一个或多个计算机可读介质中体现。

可利用一个或多个计算机可读介质的任何组合。计算机可读介质可为计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置或前述介质的任何合适组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下介质：具有一个或多个导线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或快闪存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或前述介质的任何合适的组合。在本文档的语境中，计算机可读存储介质可以是可含有或存储供指令执行系统、设备或装置使用或与其联用的程序的任何有形介质。

参考根据本公开的实施方案的方法、设备(系统)和计算机程序产品的流程图图解和/或框图来描述本公开的各方面。应理解，流程图图解和/或框图中的每个框以及流程图图解和/或框图中的框的组合能够通过计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以产生机器。当经由计算机或其他可编程数据处理设备的处理器执行指令时，使得能够实现流程图和/或框图的一个或多个框中所指定的功能/动作。这种处理器可为但不限于通用处理器、专用处理器、应用特定处理器或现场可编程门阵列。

附图中的流程图和框图示出了根据本公开的各种实施方案的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。在这个方面，流程图或框图中的每个框可以表示代码的模块、区段或部分，所述代码包括用于实现所指定的逻辑功能的一个或多个可执行指令。还应注意，在一些替代实现方式中，框中所提出的功能可不按附图中提出的顺序发生。例如，实际上取决于所涉及的功能，可以基本上同时执行连续示出的两个框，或者有时可以以相反的顺序执行所述框。还应当指出的是，框图和/或流程图图解的每个框以及框图和/或流程图图解中的框的组合可以由执行规定的功能或动作的基于专用硬件的系统或者专用硬件和计算机指令的组合来实现。

虽然前述内容针对本公开的实施方案，但是可在不脱离本公开的基本范围的情况下设计出本公开的其他和更多实施方案，且所述范围由所附权利要求确定。

Claims

1.一种用于修改音频信号中包括的声音的计算机实现的方法，其包括：

针对至少一个音频信号中包括的多个声音中包括的每个声音，确定与所述声音相关联的一个或多个分类；

基于与所述多个声音中包括的第一声音相关联的第一分类，选择所述第一声音的第一频率子带；并且

修改所述第一声音的所述第一频率子带，而不修改所述第一声音的至少第二频率子带，以生成修改后的音频信号。

2.根据权利要求1所述的方法，其还包括：

基于与所述多个声音中包括的第二声音相关联的第二分类、对所述第二声音的分析、所述第一频率子带的频率范围以及所述第一频率子带的中心频率中的至少一者，选择所述第二声音的第三频率子带；并且

修改所述第二声音的所述第三频率子带，而不修改所述第二声音的至少第四频率子带。

3.根据权利要求1所述的方法，其中修改所述第一声音的所述第一频率子带包括对所述第一频率子带执行参数均衡。

4.根据权利要求1所述的方法，其还包括接收用户输入，其中基于所述用户输入执行所述修改。

5.根据权利要求4所述的方法，其还包括显示用户接口，所述用户接口包括用于所述多个声音中包括的每个声音的控制对象，其中所述用户输入是经由对应于所述第一声音的控制对象接收的。

6.根据权利要求1所述的方法，其中选择所述第一声音的所述第一频率子带包括：

从数据库获得同与所述第一声音相关联的所述一个或多个分类相关联的特性频率信息；并且

基于所述信息来选择所述第一频率子带。

7.根据权利要求1所述的方法，其中所述修改是响应于确定所述第一声音在感知上与所述多个声音中包括的第二声音竞争而执行的。

8.根据权利要求1所述的方法，其还包括生成包括修改后的音频信号的至少第二音频信号，其中所述至少第二音频信号包括所述多个声音，并且其中所述至少第二音频信号中包括的所述第一声音的所述第一频率子带被修改，并且所述至少第二音频信号中包括的所述第一声音的所述第二频率子带未被修改。

9.一种或多种非暂时性计算机可读存储介质，其存储指令，所述指令当由至少一个处理器执行时，致使所述至少一个处理器执行以下步骤：

基于与所述多个声音中包括的第一声音相关联的第一分类，选择所述第一声音的第一频率子带；

修改所述第一声音的所述第一频率子带，而不修改所述第一声音的至少第二频率子带；

选择所述多个声音中包括的第二声音的第三频率子带；以及

修改所述第二声音的所述第三频率子带，而不修改所述第二声音的至少第四频率子带，以生成修改后的音频信号。

10.根据权利要求9所述的一种或多种计算机可读存储介质，其中修改所述第一声音的所述第一频率子带包括对所述第一频率子带执行参数均衡。

11.根据权利要求9所述的一种或多种计算机可读存储介质，其还包括接收用户输入，其中修改所述第一声音的所述第一频率子带包括基于所述用户输入增加或减少所述第一频率子带的幅度。

12.根据权利要求9所述的一种或多种计算机可读存储介质，其还包括显示用户接口，所述用户接口包括用于所述多个声音中包括的每个声音的控制对象。

13.根据权利要求9所述的一种或多种计算机可读存储介质，其中选择所述第二声音的所述第三频率子带包括基于与所述第二声音相关联的第二分类、对所述第二声音的分析、所述第一频率子带的频率范围以及所述第一频率子带的中心频率中的至少一者来选择所述第三频率子带。

14.根据权利要求9所述的一种或多种计算机可读存储介质，其中选择所述第一声音的所述第一频率子带包括：

从数据库获得与所述第一声音所关联的所述一个或多个分类相关联的特性频率信息；并且

基于所述信息来选择所述第一频率子带。

15.根据权利要求9所述的一种或多种计算机可读存储介质，其还包括生成包括修改后的音频信号的至少第二音频信号，其中所述至少第二音频信号包括所述多个声音，所述至少第二音频信号中包括的所述第一声音的所述第一频率子带被修改，并且所述至少第二音频信号中包括的所述第一声音的所述第二频率子带未被修改，并且其中所述至少第二音频信号中包括的所述第二声音的所述第三频率子带被修改，并且所述至少第二音频信号中包括的所述第二声音的所述第四频率子带未被修改。

16.一种系统，其包括：

存储器；和

至少一个处理器，所述至少一个处理器耦合到所述存储器，并且被配置为：

检测至少一个音频信号中包括的多个声音；

针对所述多个声音中包括的每个声音，确定与所述声音相关联的一个或多个分类；

基于与所述多个声音中包括的第一声音相关联的第一分类，选择所述第一声音的第一频率子带；以及

17.根据权利要求16所述的系统，其中所述至少一个处理器还被配置为：

18.根据权利要求16所述的系统，其中所述第一分类是人声、动物声或物体声中的一者。

19.根据权利要求16所述的系统，其还包括数据库，其中所述数据库包括所述第一分类到一个或多个特性频率子带的至少一个映射，并且其中所述一个或多个特性频率子带包括所述第一频率子带。

20.根据权利要求16所述的系统，其中所述至少一个处理器还被配置为：

生成包括所述修改后的音频信号的至少第二音频信号，其中所述至少第二音频信号包括所述多个声音，并且所述至少第二音频信号中包括的所述第一声音的所述第一频率子带被修改，并且所述至少第二音频信号中包括的所述第一声音的所述第二频率子带未被修改；以及

致使所述至少第二音频信号经由音频输出装置输出。