CN105409243A

CN105409243A - 通道化音乐信号的预处理

Info

Publication number: CN105409243A
Application number: CN201480039534.3A
Authority: CN
Inventors: W·拜恩斯
Original assignee: Cochlear Americas Corp
Current assignee: Cochlear Ltd; Cochlear Americas Corp
Priority date: 2013-07-12
Filing date: 2014-07-12
Publication date: 2016-03-16
Anticipated expiration: 2034-07-12
Also published as: EP3020212A4; WO2015004644A1; CN105409243B; EP3020212B1; EP3020212A1; US20150016614A1; US20170034624A1; US9848266B2; US9473852B2

Abstract

一种方法，用于预处理通道化音乐信号以提高听觉假体接受者的感知和欣赏。在一个示例中，通道化音乐信号是立体声输入信号。例如，诸如手持设备、听觉假体或音频电缆之类的设备将掩码施加到立体声输入信号以从立体声信号提取中心混合分量，并且输出由提取的中心混合分量与包括立体声输入信号的非提取部分的残留信号的加权组合组成的输出信号。中心混合分量可以包含相对于其他分量(诸如伴唱人声或其他乐器)被听觉假体接受者偏好的分量(诸如主导人声和/或鼓)。

Description

通道化音乐信号的预处理

优先权

本申请要求于2013年7月12日提交的美国临时专利申请第61/845,580号的优先权，其全部内容通过引用被结合于此。

技术领域

背景技术

除非本文另有所指，否则该部分描述的信息不是针对权利要求的现有技术，并且不通过包括在该部分中而被认为是现有技术。

各种类型的听觉假体为具有不同类型的听觉损失的人们提供感知声音的能力。听觉损失可以是传导性的、感觉神经的、或者传导性和感觉神经两者的某种组合。传导性听觉损失通常起因于一般通过外耳、鼓膜或者中耳骨传导声波的任何机制的功能紊乱。感觉神经听觉损失通常起因于内耳(包括耳蜗)的功能紊乱，其中声振动被转换为神经信号，或者耳朵的任何其他部分、听觉神经、或者可以处理神经信号的大脑。

具有某些形式的传导性听觉损失的人们可以从听觉假体(诸如助听器或者基于振动的听觉设备)获益。例如，助听器通常包括接收声音的小麦克风、放大所检测声音的特定部分的放大器、以及将放大的声音传输到人耳中的小扬声器。另一方面，基于振动的听觉设备通常包括接收声音的小麦克风以及振动机制，该振动机制将对应于所检测声音的振动直接或间接地施加到人的骨骼或牙齿，从而引起人的内耳的振动并且旁路人的耳道和中耳。基于振动的听觉设备的示例包括经由颅骨传输振动的骨锚式(bone-anchored)设备以及将振动更直接地传输至内耳的声学耳蜗刺激设备。

此外，具有特定形式的感觉神经听觉损失的人们可以从诸如耳蜗植入物和/或听觉脑干植入物之类的听觉假体获益。例如，耳蜗植入物包括接收声音的麦克风、将声音转换为一系列电刺激信号的处理器、以及将刺激信号递送至植入物接受者的耳蜗以便帮助接受者感知声音的电极阵列。听觉脑干植入物使用类似于耳蜗植入物的技术，但是代替将电刺激施加到人的耳蜗，它们将电刺激直接施加到人的脑干，完全旁路掉耳蜗，仍然帮助接受者感知声音。

此外，一些人可以受益于将声学助听器、基于振动的听觉设备、耳蜗植入物和听觉脑干植入物的一个或多个特性组合以使人能够感知声音的听觉假体。

发明内容

遭受听觉损失的人还可能具有感知和欣赏音乐的困难。当这样的人接收听觉假体以帮助他更好地感知声音时，预处理音乐以使得他能够更好地感知和欣赏音乐因此可能是有益的。这尤其对于耳蜗植入物和其他这样的假体的接受者可能是这种情况，它们不是仅仅放大所接收的声音，而是为接受者提供其他形式的生理刺激以帮助他们感知所接收的声音。具体地，耳蜗植入物具有相对窄的频率范围以及少量的通道，这使得与使用其他类型假体的接受者相比，音乐欣赏对于接受者来说尤其具有挑战性。将这样的耳蜗植入物接受者暴露于经适当预处理的音乐信号可以帮助接受者更好地将那些生理刺激与所接收的声音相关联，并且因此提高接受者对音乐的感知和欣赏。虽然预处理的好处将可能对于耳蜗植入物接受者是最显著的，但是其他听觉假体(包括声学设备，诸如骨传导设备、中耳植入物和助听器)的用户也可以受益。

前述预处理可以被设计为适合听觉假体接受者的音乐收听偏好。例如，耳蜗植入物的用户可能偏好相对简单的乐曲结构，诸如主要包括清晰人声和打击乐(即，强烈的节奏或节拍)的乐曲结构。用户可能发现难以感知和欣赏相对复杂的乐曲结构。主导人声(leadingvocal)的增强有利于听觉假体接受者跟随歌曲的歌词的能力，同时节拍/节奏的增强有利于听觉假体接受者跟随歌曲的乐曲结构的能力。因此，在该示例中，预处理音乐以相对于其他乐器强调人声和打击乐会与耳蜗植入物接受者的偏好匹配，因为相对于非偏好分量增强了偏好分量。在多轨道录音的情况下，重混会相对直接；要被强调的轨道将仅仅相对于其他轨道增加音量。然而，例如，大多数音乐录音不是广泛地可用于多轨道形式，而相反是仅仅可用作通道化混合，诸如立体声(两通道(左和右))混合或者环绕声混合。

本文公开了用于为听觉假体接受者预处理通道化音乐信号的方法、对应的系统以及音频电缆。所公开的方法利用以下事实：在通道化录制的音乐中，通常在特定通道或通道组合中混合主导人声、贝斯和鼓分量。例如，对于立体声信号，通常在中心混合主导人声、贝斯和鼓分量。例如，通过根据接受者的偏好(其可以是标准的预定偏好)提取和加权主导人声、贝斯和鼓分量，用户能够更好地感知和欣赏音乐。

因此，在一个方面中，公开了一种可被设备(诸如例如手持设备、电话、计算机、听觉假体或者音频电缆)操作的方法。根据该方法，向立体声输入信号施加掩码，以从立体声信号提取中心混合分量。由提取的中心混合分量与包括立体声输入信号的非提取部分的残留信号的加权组合组成的输出信号作为输出被提供。中心混合分量可以包含相对于其他分量(诸如伴唱人声或其他乐器)被听觉假体接受者偏好的分量(诸如主导人声、贝斯和/或鼓)。该方法可以进一步包括：将立体声输入信号分成打击乐器分量与和声分量，使得打击乐器分量包括主导人声。根据又一方面，可以在分离立体声输入信号之前施加低通滤波器。例如，所提供的输出信号可以是单声道输出信号(其可以很好地适用于仅具有单声道输入端口的听觉假体)或者立体声输出信号(其可以很好地适用于双边听觉假体或者其他这样的设备)。

在另一方面中，公开了一种音频电缆，用于预处理通道化输入音频信号以为听觉假体创建输出信号。音频电缆包括输入端口，用于接收具有至少两个通道(诸如左通道和右通道)的通道化输入音频信号。音频电缆还包括：输出端口，用于将输出信号输出；以及滤波器，用于提取通道化输入信号的部分以使得输出信号包括提取的通道化输入信号的部分的加权版本。例如，输出信号可以是单声道输出信号或立体声输出信号。立体声输出信号可以具有用于双边听觉假体的特定应用。

在又一方面中，公开了一种可被设备(诸如例如手持设备、电话、计算机、听觉假体或音频电缆)操作的方法。所公开的方法包括：通过相对于通道化音频输入信号中的至少一个非偏好乐器分量提取和增强通道化音频输入信号中的至少一个偏好乐器分量，为第一听觉假体创建音频输出信号。在音频输出信号是立体声音频输出信号的情况下，该方法可以进一步包括将音频输出信号提供至双边听觉假体(即，第一听觉假体和第二听觉假体)。在一个实施例中，音频输入信号是立体声输入信号，并且该方法还包括将立体声掩码施加至立体声输入信号以提取至少一个偏好分量。附加地或备选地，在施加立体声掩码之前，立体声输入信号可以首先被分成打击乐器分量与和声分量。

在又一方面中，公开了一种可被设备(诸如例如手持设备、电话、计算机、听觉假体或音频电缆)操作的方法。所公开的方法包括根据立体声信号的左通道和右通道创建残留信号，立体声信号具有左通道、右通道和中心通道。该方法进一步包括：通过从立体声信号减去残留信号创建基础输出信号；以及通过将残留信号的加权版本添加至基础输出信号创建最终输出信号。

通过在适当情况下参照附图阅读以下详细描述，这些以及其他方面、优点和备选对于本领域技术人员来说将变得显而易见。此外，应该理解，仅通过示例提供包括在该发明内容部分中的该整个文档的描述，因此不应被视为限制性的。

附图说明

图1是相对于听者被定位的乐器的典型放置的简化框图。

图2是根据本公开内容的用于预处理音乐的方案的简化框图。

图3是描绘可以根据代表性方法被执行的功能的流程图。

图4是图示和声(harmonic)/打击乐器(percussive)分离对变换帧长度的依赖性的图。

图5是描绘可以根据代表性方法被执行的功能的流程图。

图6是图示可以用于预处理输入音频信号以用于听觉假体的音频电缆的简化框图。

具体实施方式

参照附图，如上所述，图1是相对于听者114被定位的乐器的典型布置100的简化框图。如图所示，该布置包括主导人声102、打击乐器(鼓)104、贝斯106、主音吉他108、备份吉他110和键盘112。在现场音乐设置中，具有左耳和右耳116a-b的听者114听到乐器的所有布置，其中每个乐器分量源自舞台的不同区域。对于所示出的示例，主导人声102、打击乐器104和贝斯106主要从舞台中心发出。键盘112处于舞台中心偏右的中间位置。主音吉他108和备份吉他110位于舞台的左侧和右侧。备份人声(未示出)通常也可以朝向典型布置中的一侧或另一侧被放置。

当音乐被录制和混合时，诸如在工作室或现场活动中，混合器频繁地试图复制乐器分量的相对放置以近似听者(诸如听者114)将在现场活动中经历的体验。在立体声混合的一个示例中，每个乐器(包括主导人声)首先被录制为独立的轨道，使得混合器可以独立地调节(遥摄(pan))每个轨道的音量和通道(例如立体声信号中的左和/或右)以产生录制的音乐轨道，其为听者提供空间地布置的乐器分量的感觉。在第二示例中，使用用于每个通道的独立麦克风(例如立体声信号的左麦克风和右麦克风)在现场活动中进行立体声录制。通过在乐器的布置(例如布置100)的前方适当地放置左麦克风和右麦克风，录音在一定程度上近似于听者(例如听者114)用他的两个耳朵(例如116a-b)所听到的。作为该第二示例的进一步扩展，现场音乐录制还可以使用在双耳或双边收听设备的左侧和右侧中存在的麦克风被执行。然而，在该进一步的扩展中，立体声图像不会太理想，除非听者位于中心(现场乐队的前方)。

根据上述第一示例，其中混合器执行遥摄功能来创建具有左通道和右通道的立体声图像，混合器可以遵循一套遥摄规则来为听者给出他或她正在观看(收听)舞台上的乐队的感觉。例如，立体声混合的一套典型遥摄规则可以规定与贝斯一起在中心遥摄踢(低音)鼓和小鼓。筒鼓和高帽钹稍微偏离中心被遥摄，并且由两个过顶麦克风录制的声音完全朝向左侧或右侧被遥摄。其他乐器如它们在舞台所定位的(或者通常所定位的)一样被遥摄，通常偏离中心。钢琴(键盘)通常是立体声信号，并且在左通道和右通道之间被划分。最终，主导人声在中心，伴唱人声被定位为完全在左侧或右侧。本文所描述的至少一些实施例使用该典型立体声混合的各方面来帮助预处理音乐，以改善听觉假体接受者的音乐感知和欣赏。在又一些实施例中，关于立体声(或其他通道化)混合中的乐器位置的信息作为嵌入通道化录音中的元数据被包括。该元数据可用于相对于非偏好(不太偏好的)分量提取和增强偏好分量(例如主导人声、贝斯和鼓)。

如以下详细描述的，参照附图，本文阐述的各个优选实施例相对于立体声信号中的其他乐器利用对主导人声、贝斯和鼓的中心遥摄，以便相对于这些其他乐器分离(提取)和增强主导人声、贝斯和鼓。这种分离和增强适用于修改旨在针对具有正常听觉的听者的商业录制的立体声音乐。虽然乐器位置元数据可以包括在录音本身中，但如上所述，乐器录音可能不保持关于每个乐器的独立轨道的信息，这是为什么将主导人声、贝斯和鼓从立体声信号分离是有利的一个理由。通过相对地增强(即预处理)主导人声、贝斯和鼓，听觉假体接受者可以体验对音乐的更好感知和欣赏。

接下来，图2是根据本公开内容的用于预处理音乐的一般方案200的简化框图。如上面参照图1所述，通过从通道化音乐混合(例如立体声音乐混合)中分离偏好分量并且增强偏好分量，可以创建预处理的音乐信号，其为听觉假体接受者提供改善的感知和欣赏。如图2所示，复杂的音乐信号202用作输入。复杂的音乐信号202例如是标准的立体声音乐信号(例如文件、流、现场音乐麦克风输入等)，其被描述为“复杂的”是因为听觉假体接受者(诸如耳蜗植入物接受者)在试图理解仅仅歌词和贝斯/节奏之外的信号的音乐方面时可能经历的相对难度。例如，和声、伴唱人声和其他旋律或非旋律乐器贡献可能减损接受者感知和欣赏音乐的能力。接受者可能难以跟上旨在被具有正常听觉的人听到的录制歌曲的歌词或音乐结构。根据图2的预处理方案200，复杂的音乐信号202被处理以创建预处理的音乐信号204，其可以采用音频文件、流、现场音乐(如被处理的)或其他信号的形式。注意，本文使用的术语“信号”旨在包括静态音乐数据文件(例如mp3或其他音频文件)，其可以被“读取”以产生对应的音乐输出。

如图2的块206-212所示，从复杂的音乐信号分离或提取一个或多个分量。以下参照图3描述这样的提取的示例。块206提取旋律分量，其可以由主导人声分量组成或者包括主导人声分量。块208提取节奏/鼓分量。块210提取贝斯分量。块212图示也可以提取附加分量(未示出)。不同类型的音乐可以唤起听觉假体接受者的不同偏好；因此，将被提取的分量可以基于复杂的音乐信号202中包含的音乐类型而变化。在优选实施例中，提取是基于复杂的音乐信号202遵循立体声音乐混合的常见遥摄规则这一假设的。这一假设对于大多数流行乐和摇滚乐(以及可能其他音乐)应该相当有效。

如块214-220所示，每个提取的分量优选地通过对应的加权因子W1-W4而被加权。例如，根据一个实施例，如果第一分量要比第二分量更重地加权，则第一加权因子应该大于第二加权因子。根据一个实施例，加权因子W1-W4具有0和1之间的值，其中加权因子0表示所提取的分量被完全抑制，而加权因子1表示所提取的分量不变(即相对音量不降低)。在图2的示例中，加权因子W1-W3可以具有1的值，而加权因子W4可以具有范围在0.25-0.50内的值。与其他分量(诸如吉他和钢琴)相比，这将有效地强调旋律、节奏/鼓和贝斯分量，以使得听觉假体接受者更容易理解该音乐。例如，加权因子基于用户偏好，并且可以通过用户“即时(on-the-fly)”来调整，或者相反可以基于在临床或家庭环境中执行的偏好测试而被预先指定。虽然上述示例对于W4(具有0-1的最大可允许范围)指定了0.25-0.5的优选范围，但是可以可选地使用其他范围。如块222所示，适当加权的、所提取的分量被再组合(即求和)以形成复合信号，其形式用于提供预处理的音乐信号204。

方案200可以使用一种或多种算法来实施，诸如图3和图5所示。算法的选择将确定提取的质量(即不同的提取分量之间的分离精度)和延迟量。通常，更好的提取要求更多的延迟。对于mp3文件，方案200可以接近实时地(即具有相对较少的延迟，诸如500毫秒)运行以允许听觉假体接受者收听mp3文件的预处理版本。使用延迟小于500毫秒的算法(诸如图3所示的算法)是可能的；然而，由于较小的块大小(较少的迭代)，结果会是提取的分量之间相对较差的分离。相反，具有700-800毫秒延迟的算法可能提供提取的分量之间更好的分离，但是较长的时延可能不太被用户接受。

可选地，方案200(或类似这样的方案)可以预先在mp3文件库上运行，以旨在为听觉假体接受者创建对应的预处理的mp3文件库。在这样的情况下，提取和增强的精度将很可能比延迟更重要，并且因此更加数据密集型的算法可能是优选的。

作为又一可选方式，方案200可以在流音乐源(诸如流在线无线电台或其他源)上近似实时(即具有较少延迟)地运行，以允许听觉假体接受者收听音乐流的延迟版本，这更加有益于接受者能够感知和欣赏流的音乐方面(例如歌词和/或旋律)。

作为又一可选方式，方案200可以被应用于现场音乐演奏，诸如通过两个或多个麦克风(例如双耳或双边听觉假体的左麦克风和右麦克风)来预处理现场音乐，从而产生对应的版本(根据处理速度和所使用的提取算法的选择，具有某一延迟)，这使得接受者更好地感知和欣赏现场音乐演奏。例如，将方案200应用于现场音乐环境优选地包括使用具有非常少的延迟(诸如小于20毫秒)的算法，其将更好地允许听觉假体接受者同时进行歌手的唇读。此外，听觉假体接受者在身体上应该位于现场音乐舞台/源前方的相对中心的位置(立体声录制的“甜蜜点(sweetspot)”)，使得来自听觉假体上的左麦克风和右麦克风的信号提供针对本文阐述的分离算法更加可修正的输入信号。其他示例(包括其他文件和信号类型)也是可能的，并且旨在处于本公开内容的范围内，除非另外指出。

图2的方案优选地被运行为由处理器执行的软件。例如，软件可采用手持设备(诸如移动电话、手持计算机、或者优选地与听觉假体有线或无线通信的其他设备)上的应用程序的形式。可选地，软件和/或处理器可以作为听觉假体本身的部分被包括。该可选方式可以尤其适合于图5所示的立体声二进制掩码(binarymask)算法，其中具有立体声输入的耳背式(BTE)处理器可以执行立体声二进制掩码。其他可选方式也是可能的。以下提供关于执行本文所公开的方法的系统和/或设备的物理实现的其他细节。

图3是描绘可以根据代表性方法300被执行的功能的流程图。尽管图3的功能在流程图中被顺序示出，但实际上一个或多个块可以被实时地连续执行，诸如通过下面描述的一个或多个迭代过程。此外，例如根据录音的立体声图像中的遥摄程度，在各个实施例中可以省略一个或多个块。如图3所示，在块302，该方法包括提供来自立体声输入信号(诸如mp3、流音频源、来自录制设备或双边听觉假体的立体声麦克风等)的输入功率谱W。虽然参照立体声输入信号描述了图3的示例，但所示方法可以同等地适用于具有不同数量或配置的通道的其他通道化信号。输入功率谱W是具有从立体声输入信号((左通道+右通道)/2)的短时快速傅里叶变换(STFT)得到的时间/频率仓(bin)的矩阵。

通过高通滤波器(块304)和低通滤波器(块306)对来自块302的输入功率谱W滤波。如将在块316中所描述的，来自块302的输入功率谱W的未经滤波版本在别处被利用(以创建残留信号)。块306的低通滤波器(例如达到400Hz)的输出包括贝斯(低频)分量，其提供更多的“丰满度”和更好的连续性(更少的“击拍”)，这通常将导致改善听觉假体接受者的收听体验。

来自块304的高通滤波器(例如400Hz以上)的输出经受分离算法(块310)，以分离出(提取)各个音乐分量。在优选实施例中，如图所示，分离算法是Ono等人在Proc.EUSIPCO,2008的“SeparationofaMonauralAudioSignalintoHarmonic/PercussiveComponentsbyComplementaryDiffusiononSpectrogram”中描述的和声/打击乐器声音分离(HPSS)算法，其通过引用整体结合于此。Tachibana等人的“Comparativeevaluationsofvariousharmonic/percussivesoundseparationalgorithmsbasedonanisotropiccontinuityofspectrogram”(Proc.ICASSP，pp.465-468，2012)也通过引用整体结合于此。使用迭代求解优化问题，HPSS算法基于音频信号的和声和打击乐器分量在频谱中的各向异性平滑度来分离这些分量。通过使以下等式(1)中的代价函数J最小化来求解优化问题：

J (H, P) = \frac{1}{2 σ_{H}^{2}} Σ_{τ, ω} {(H_{τ - 1, ω} - H_{τ, ω})}^{2} + \frac{1}{2 σ_{P}^{2}} Σ_{τ, ω} {(P_{τ, ω - 1} - P_{τ, ω})}^{2} - - - (1)

在以下约束条件(2)和(3)下：

H_τ，ω ²+P_τ，ω ²＝W_τ，ω ²(2)

H_τ，ω≥0，P_τ，ω≥0(3)

其中，H和P分别是H_τ，ω和P_τ，ω的集合，并且权重σ_H和σ_P是用于控制代价函数中的水平和垂直数字平滑度的参数。代价函数J的最小化源于通过数值迭代使得H(和声分量，水平的)的时移版本和P(打击乐器分量，垂直的)的频移版本的总和最小化。上面的约束条件(2)确保和声和打击乐器分量的总和组成原始的输入功率谱。上面的约束条件(3)确保所有和声和打击乐器分量是非负的。应用分离算法(310)的结果是将来自块304的经高通滤波的信号分成和声分量H与打击乐器分量P。如上所述，HPSS算法是迭代的(迭代经受下面参照块314描述的附加约束条件(4))；根据优选实施例，通常将需要少量迭代以实现收敛。此外，根据用于HPSS算法的STFT(短时傅里叶变换)的帧长度，诸如人声之类的时间可变音调可以是和声的或打击乐器的。在图4中示出了该帧长度依赖性，其示出输出信号的能量比对STFT帧长度的图400。如图400所示，对于相对短的帧长度(诸如50毫秒)，人声被分离成和声分量H，而在较长的帧长度(诸如100-500毫秒)下，人声被分离成打击乐器分量P。为了确保主导人声作为打击乐器分量P而非和声分量H的部分被分离，相对长的帧长度(例如100-500毫秒)应该被用于计算HPSS算法的STFT。包括作为打击乐器分量P的部分的主导人声是有利的，因为主导人声和打击乐器(例如鼓)两者通常对于听觉假体的接受者来说是在音乐上重要的(偏好的)。和声分量H不是偏好的，并且如图3所示，在应用块310的分离算法之后，和声分量H至少被临时忽略。除HPSS算法之外的其他分离算法或者HPSS的其他实施方式可以用于分离/提取。

注意，在图4中，与吉他和钢琴分量一起，在图400的下部示出了贝斯分量，而人声和鼓在上部(尤其朝向图的右侧)，对应于增加的帧长度。低频分量(如贝斯分量)更容易按频率分离，诸如通过使用低通滤波器。其他分量由于它们重叠的频率范围而较难以分离。图3的HPSS算法被有利地应用于400Hz以上的频率以将高频分量相互分离。

根据块310的分离算法得到的打击乐器分量P与根据从块306输出的经低通滤波的输入功率谱W得到的贝斯(低频)分量进行组合(求和)。

在块314向打击乐器分量P应用立体声二进制掩码，并且优选地应用于输入功率谱W(块302)的经低通滤波(块306)的版本。立体声二进制掩码标识立体声图像的“中心”(参见以下公式(12))，其正是主导人声、贝斯和鼓通常被混合的地方(假设立体声输入信号不包含表示乐器布置的元数据；参见下面和上面关于这样的元数据的讨论)。在这方面，立体声二进制掩码用作对块310的分离算法(例如HPSS)的附加约束条件(即“中心立体声”约束条件)。使用上面用于HPSS算法的等式(1)以及约束条件(2)和(3)，该附加约束条件可以被定义为：

在立体声图像中间的P_τ，ω(4)如上所述，关于块310，该附加约束条件优选地被包括在HPSS算法的迭代解中。

可以使用以下迭代公式来数值地求解上述等式：

{P_{τ, ω}}^{2} &LeftArrow; \frac{β_{τ, ω} {W_{τ, ω}}^{2}}{(α_{τ, ω} + β_{τ, ω})} - - - (5)

{H_{τ, ω}}^{2} &LeftArrow; \frac{α_{τ, ω} {W_{τ, ω}}^{2}}{(α_{τ, ω} + β_{τ, ω})} - - - (6)

其中

α_τ，ω＝(H_τ+1，ω+H_τ-1，ω)²(7)

β_τ，ω＝κ²(P_τ，ω+1+P_τ，ω-1)²(8)

其中，κ是具有σ_H ²/σ_P ²的值的参数，被调整为使和声和打击乐器分量之间的分离最大化。在优选实施例中，κ具有0.95的值，其已被发现在分离和失真之间提供可接受的折中。

包括上述约束条件(4)，迭代公式变为以下形式：

{P_{τ, ω}}^{2} &LeftArrow; \frac{β_{τ, ω} {W_{τ, ω}}^{2}}{(α_{τ, ω} + β_{τ, ω})} - - - (9)

P_τ，ω ²←BM_stereo*P_τ，ω ²，其中BM_stereo是二进制掩码(10)

H_τ，ω ²＝W_τ，ω ²-P_τ，ω ²(11)

其中

BM_stereo＝θ*W_diff＜W_Landθ*W_diff＜W_R(12)

其中，Wdiff是左通道和右通道之间的差的谱图。二进制掩码优选地由1和0的矩阵组成，其中“1”对应于条件(θ*W_diff＜W_L)&(θ*W_diff＜W_R)为真的时间频率仓，表示中心混合分量(例如主导人声、贝斯和鼓)，而“0”对应于该条件为假的时间频率仓，表示非中心混合分量(例如伴唱人声和其他乐器)。参数θ是控制相对于立体声图像中心的角度的可调参数，以扩大所考虑的中心遥摄区域。例如，可以跨从-100(左)通过0(中心)到+100(右)的范围遥摄每种乐器。θ的下限值通常对应于宽角度处的乐器的较少衰减(例如接近-100或+100被遥摄)并且实际上在较窄角度处遥摄的乐器没有衰减。较大值的θ通常对应于在除了中心附近之外的所有角度处遥摄的乐器的更大衰减，其中衰减(抑制)量随着遥摄角度的增加而增加。根据优选实施例，θ被选择为0.4，其对应于大约+/-50度的角度。该角度导致在不同分量(例如人声对吉他)之间的相对良好的分离。

在块316，从块302的输入功率谱W减去块314的输出，留下如H_stereo所示的残留信号(优选地在若干迭代之后)，对应于从输入功率谱W去除的信号。然后，在块320向残留信号施加衰减参数(块318)。例如，衰减参数可以是一个或多个可调加权因子，接受者对其调整以产生优选的音乐收听体验。采样衰减参数设置为1、0db(没有衰减)、0.5(-6dB)、0.25(-12dB)和0.125(-18dB)。有效地设置和应用衰减参数相对于非中心/非打击乐器分量强调了打击乐器分量P的立体声图像的中心(例如增加其音量)。对于典型的音乐录音，这将导致相对于其他分量增强主导人声、节奏(鼓)和贝斯，从而潜在地改善听觉假体接受者对音乐的感知和欣赏。

根据上面迭代过程的讨论，分别来自块314和块316的P_stereo和H_stereo输出被迭代地更新。在当前的优选实施方式中，例如，在最终的P_stereo和H_stereo输出被传递至后续块(即用于相对增强和/或衰减)之前存在十次迭代。虽然改善了延迟，但较少的迭代通常导致分量之间较差的分离，使得所得到的输出信号难以供听觉受损的人理解。

在块320的衰减之后，在块322将衰减信号与块314的输出求和以产生输出信号324，优选地为与原始立体声输入信号相同的格式。输出信号324例如可以为单声道信号，其会适合于具有单声道输入的听觉假体(例如当前典型的耳蜗植入物)。可选地，输出信号324可以是立体声信号，其例如可以应用于双边听觉假体。

接下来，图5是描绘可以根据代表性方法500被执行的功能的另一流程图，其中音乐录音具有宽的立体声图像。根据实施例，如果立体声音乐录音被广泛遥摄，即，该录音具有宽的立体声图像，则可以仅使用立体声二进制掩码而不使用分离算法(诸如上面参照图3的方法300描述的HPSS算法)来执行对主导人声、贝斯和鼓的提取。相比于与图3的算法的实施方式相关联的数百毫秒延迟，这样的实施例将具有非常低的延迟(例如20毫秒)。

如图5所示，在块502，掩码被施加于具有宽立体声图像的立体声输入信号(即其中接近中心(接近0)遥摄鼓和人声而接近左侧和/或右侧(接近+/-100)遥摄吉他和钢琴的图像)。方法500不太适用于较窄立体声图像，因为这样的信号的分离较困难。图3的方法300将为较窄立体声图像提供较好的分离。例如，在块502中被处理的立体声输入信号例如可以是存储在听觉假体接受者的手持设备(诸如移动电话)上的mp3文件(或其他音频文件)。本公开内容的其他地方描述的输入信号的其他示例可以可选地在块502中被掩蔽。在优选实施例中，立体声输入信号被掩蔽以提取中心混合分量。例如，在接受者的手持设备(或其他设备，包括接受者的听觉假体)上的应用可以使得立体声输入信号经历二进制掩码，使得仅提取中心混合分量。

在块504，输出信号被输出。输出信号由提取的中心混合分量和包括立体声输入信号的非提取部分的残留信号的加权组合组成。在一个示例中，提取的中心混合分量与残留信号组合，其中一个或多个非中心混合分量相对于提取的中心混合分量被衰减(加权较少)。衰减可以通过一个或多个加权因子，如上面参照图3所描述的。

虽然已经参照输入信号为具有宽立体声图像的立体声输入信号描述了方法500，但具有广阔遥摄(例如其中主导人声、贝斯和鼓位于中心通道中并且伴唱人声和不太“重要”或偏好的乐器朝向环绕通道之一被遥摄的环绕声信号)的其他通道化信号也会是用于应用根据图5的方法500的概念的方法的适当候选。

此外，虽然图5的示例包括在执行方法500的接受者的手持设备上的应用，但可以可选地使用不同的设备。具体地，由于方法500与图3的方法300相比不是计算密集型的，所以方法500可以是用于在听觉假体本身中的实施方式的候选，其中听觉假体的处理器执行掩蔽功能。在这样的情况下，延迟将远小于使用方法300的延迟，并且可以使用不太强大的处理器。

本文描述的方法(包括图2、图3和图5所示的方法及其变型)可被一个或多个设备操作。例如，设备可以是智能电话或平板计算机，其运行软件应用以预处理输入音频信号。可选地，设备可以是不同类型的手持设备、电话、计算机、或者能够执行一种或多种处理功能的其他通用或专用装置或系统。设备可以进一步是听觉假体，其具有内置处理器和立体声输入，或者是具有立体声输入的一对双边听觉假体。上述每个设备优选地包括至少一个处理器、存储器、输入和输出端口、以及存储在存储器(或其他存储装置)中的在至少一个处理器上运行的操作系统。在设备是除听觉假体之外的设备的情况下，设备优选地包括用于与听觉假体的输入端口通信的输出端口。例如，这样的输出端口可以是有线或无线(例如RF、IR、蓝牙、WiFi等)连接。上述设备可以被配置为运行软件或固件或者它们的组合。可选地，设备可以是完全基于硬件的(例如专用逻辑电路)而不需要执行软件来执行本文所述方法的功能。作为又一备选，设备可以是具有内置的集成硬件(例如滤波器、专用逻辑电路、或者运行软件的处理器)的音频电缆。这样的音频电缆可以是旨在与听觉假体一起使用的专用电缆，诸如例如TV/HiFi电缆的变型。

图6是图示可用于为听觉假体602预处理输入音频信号的音频电缆600的简化框图。如图所示，除了一些绝缘线之外，音频电缆还包括第一插头604(输入端口)，用于连接到音频设备(例如电视、立体声、个人音频播放器等)的音频输出或耳机接口中以接收通道化输入音频信号，诸如输入立体声信号。音频电缆还包括第二插头606(输出端口)，用于连接到听觉假体的配件端口(诸如耳蜗植入物BTE(耳背式)单元)以将预处理的输出音频信号输出至听觉假体。第二插头606可以是用于将单声道输出音频信号输出至听觉假体的单声道插头，或者其可以是用于将立体声输出音频信号输出至双边听觉假体的立体声插头。

例如，音频电缆还包括电子器件模块608，电子器件模块608包含诸如音量控制电子器件和隔离电路之类的电子器件。根据优选实施例，电子器件模块608附加地包括滤波器或者其他电子器件以提取通道化输入音频信号的部分，使得输出信号包括通道化输入音频信号的提取部分的加权版本。例如，这样的滤波器可以通过提取立体声信号的中心混合部分来实现参照图3描述的掩蔽功能。这例如可以通过比较左通道和右通道上的信号以标识两个信号共有的分量来完成，表示它们在立体声信号的中心处被混合。电子器件模块608优选地还包括用户接口以允许听觉假体接受者调节加权因子，使得输出音频信号包括要被应用于通道化输入音频信号的提取部分的通道化输入音频信号的提取部分的加权版本。可选地，通过仅仅相对于非提取部分增加提取部分的音量，可以在没有用户输入的情况下执行加权。

上面的讨论参考了可根据本文描述的概念预处理的多种类型的输入文件、信号和流。还参考在歌曲录音中包括元数据的可能性，以便指定若干可能的参数，诸如播放哪些乐器、如何执行遥摄(例如立体声遥摄)等。例如，对应于录制的(和混合的)歌曲的数字数据文件可能由一个或多个数据包报头或者其他数据结构(其在歌曲的开始处或者贯穿该歌曲指定这些参数)组成。在知晓如何将该元数据包含在这样的录音中的情况下，接收或播放文件(例如作为输入信号)的设备可以潜在地标识用于遥摄的乐器的相对放置。该标识的放置可用于改善(例如减少延迟和/或提高精度)本文阐述的一个或多个方法的分离/增强过程。具体地，例如，图3所示的方法300可以潜在地被简化以去除分离算法310(因为这样的分离通过仅仅参考元数据就会是可能的)而将更多的注意力放在块314的掩码上。其他示例也是可能的。

虽然在立体声信号的上下文中描述了许多上述示例，但本文阐述的概念适用于其他通道化信号，并且除非另有指定，否则权利要求旨在包括仅立体声信号之外的通道化信号的所有范围。例如，环绕声、CD(光盘)、DVD(数字视频盘)、超级音频CD等旨在被包括在各个所述实施例应用到的信号的范围内。

以上已经描述了示例性实施例。然而，应该理解，根据所讨论的实施例的大量变型是可能的，同时也保留在本发明的范围内。

Claims

1.一种方法，包括：

向立体声输入信号施加掩码，以从所述立体声信号提取中心混合分量；以及

输出由提取的所述中心混合分量与包括所述立体声输入信号的非提取分量的残留信号的加权组合组成的输出信号。

2.根据权利要求1所述的方法，其中所述中心混合分量包括鼓、贝斯和主导人声中的至少一项。

3.根据权利要求1所述的方法，还包括将所述立体声输入信号分成打击乐器分量与和声分量以使得所述打击乐器分量包括主导人声。

4.根据权利要求3所述的方法，还包括在分离所述立体声输入信号之前施加低通滤波器。

5.根据权利要求1所述的方法，还包括：

向所述立体声输入信号施加低通滤波器；

向所述立体声输入信号施加高通滤波器；以及

将经高通滤波的所述立体声输入信号分成打击乐器分量与和声分量，

其中所述掩码被施加到由经低通滤波的所述立体声输入信号和经高通滤波的所述立体声输入信号的所述打击乐器分量组成的组合信号。

6.根据权利要求1所述的方法，其中所述输出信号是单声道输出信号，所述方法还包括将所述单声道输出信号提供至听觉假体。

7.根据权利要求1所述的方法，其中所述输出信号是立体声输出信号，所述方法还包括将所述立体声输出信号提供至双边听觉假体。

8.根据权利要求1所述的方法，其中输出由提取的所述中心混合分量与包括所述立体声输入信号的非提取分量的残留信号的加权组合组成的输出信号包括：

通过第一加权因子对提取的所述中心混合分量加权；以及

通过第二加权因子对所述残留信号加权。

9.根据权利要求8所述的方法，其中所述第一加权因子在0至1的范围内具有近似为1的值，并且其中所述第二加权因子在0至1的范围内具有近似为0.25-0.5的值。

10.一种音频电缆，包括：

通道化输入端口，用于接收具有左通道和右通道的输入音频信号；

输出端口，用于将输出信号输出；以及

滤波器，用于提取所述输入音频信号的部分以使得所述输出信号包括提取的所述输入音频信号的所述部分的加权版本。

11.根据权利要求10所述的音频电缆，其中所述输出端口被配置为与听觉假体接口连接。

12.根据权利要求10所述的音频电缆，其中所述输出端口是单声道输出端口和立体声输出端口之一，其中所述立体声输出端口被配置为与双边听觉假体接口连接。

13.一种方法，所述方法包括：通过相对于通道化音频输入信号中的至少一个非偏好乐器分量提取和增强所述通道化音频输入信号中的至少一个偏好乐器分量，为第一听觉假体创建音频输出信号。

14.根据权利要求13所述的方法，其中所述音频输出信号是单声道音频输出信号，所述方法还包括将所述音频输出信号提供至所述第一听觉假体。

15.根据权利要求13所述的方法，其中所述音频输出信号是立体声音频输出信号，所述方法还包括将所述音频输出信号提供至包括所述第一听觉假体和第二听觉假体的双边听觉假体。

16.根据权利要求13所述的方法，其中所述通道化音频输入信号是立体声输入信号，所述方法还包括将立体声掩码施加至所述立体声输入信号以提取所述至少一个偏好分量。

17.根据权利要求16所述的方法，其中所述立体声掩码对位于与所述立体声输入信号相关联的立体声图像的中间部分以外的分量进行掩蔽。

18.根据权利要求13所述的方法，其中所述通道化音频输入信号是立体声输入信号，所述方法还包括：

将所述立体声输入信号分成打击乐器分量与和声分量；以及

向所述打击乐器分量施加立体声掩码。

19.根据权利要求18所述的方法，其中所述立体声掩码对位于与所述立体声输入信号相关联的立体声图像的中间部分以外的分量进行掩蔽。

20.根据权利要求19所述的方法，还包括：

在所述分离之前对所述立体声输入信号高通滤波；

在施加所述掩码之前对所述立体声输入信号低通滤波，其中所述掩码被施加到所述打击乐器分量和经低通滤波的所述立体声输入信号的组合；以及

相对于至少包括所述和声分量的残留信号对经掩蔽的所述组合加权，以创建所述立体声音频输出信号。

21.根据权利要求13所述的方法，其中所述至少一个偏好乐器分量包括主导人声和鼓中的至少一项，并且其中所述至少一个非偏好乐器分量包括伴唱人声和另一乐器中的至少一项。

22.一种方法，所述方法包括：

根据立体声信号的左通道和右通道创建残留信号，所述立体声信号具有所述左通道、所述右通道和中心通道；

通过从所述立体声信号减去所述残留信号来创建基础输出信号；以及

通过将所述残留信号的加权版本添加至所述基础输出信号来创建最终输出信号。

23.根据权利要求22所述的方法，其中将所述残留信号的所述加权版本添加至所述基础输出信号包括：

通过第一加权因子对所述基础输出信号加权；以及

通过第二加权因子对所述残留信号加权。

24.根据权利要求23所述的方法，其中所述第一加权因子在0至1的范围内具有近似为1的值，并且其中所述第二加权因子在0至1的范围内具有近似为0.25-0.5的值。