CN107071688A

CN107071688A - 用于处理音频信号的方法及装置

Info

Publication number: CN107071688A
Application number: CN201710188697.3A
Authority: CN
Inventors: A·埃罗南; P·奥雅拉
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Oyj; Nokia Technologies Oy
Priority date: 2009-06-23
Filing date: 2009-06-23
Publication date: 2017-08-18
Anticipated expiration: 2029-06-23
Also published as: CN102804806A; CN107071688B; WO2010149823A1; EP2446642A4; US20120163606A1; EP2446642B1; CA2765116A1; CA2765116C; EP2446642A1; US9888335B2

Abstract

一种装置(300)包含：用以接收两个或更多个不同音频信号(S₁，S₂)的一个或多个输入端(IN₁，IN₂)；用以接收方向信号(S_VDI1)的输入端(IN_VDI1)；以及布置成从所述两个或更多个不同音频信号(S₁，S₂)中生成经过处理的音频信号(S_AUDIO1)的信号处理单元(100)，所述经过处理的音频信号(S_AUDIO1)包含与源自由所述方向信号(S_VDI1)所指的位置(x₂,y₂)的声音(SND₂)相对应的增强音频信号(S_ENC1)。

Description

用于处理音频信号的方法及装置

本申请是申请日为2009年6月23日、申请号为200980160095.0、发明名称为“用于处理音频信号的方法及装置”的发明专利申请的分案申请。

技术领域

本发明涉及音频信号的处理。

背景技术

音频处理系统可以包含布置成捕获若干音频信号的若干麦克风。为了以高比特率经由传输路径进行传输，可以对音频信号加以处理。但是，可能需要减少发送音频信号所需的带宽。音频处理系统可以用作例如远程会议系统的一部分。

众所周知，参数编码技术例如双耳线索编码(binaural cue coding，BCC)可以用于降低多声道音频传输中的比特率。

发明内容

本发明的目的是提供用于处理音频信号的装置。本发明的进一步目的是提供用于处理音频信号的方法。

按照本发明的第一方面，提供了按照权利要求1所述的装置。

按照本发明的第二方面，提供了按照权利要求14所述的方法。

按照本发明的第三方面，提供了按照权利要求19所述的计算机程序。

按照本发明的第四方面，提供了按照权利要求20所述的计算机可读介质。

按照本发明的装置(300)可以包含：

-用以接收两个或更多个不同音频信号(S₁，S₂)的一个或多个输入端(IN₁，IN₂)；

-用以接收方向信号(S_VDI1)的输入端(IN_VDI1)；以及

-布置成从所述两个或更多个不同音频信号(S₁，S₂)中生成经过处理的音频信号(S_AUDIO1)的信号处理单元(100)，所述经过处理的音频信号(S_AUDIO1)包含与源自由所述方向信号(S_VDI1)所指的位置(x₂,y₂)的声音(SND₂)相对应的增强音频信号(S_ENC1)。

由于根据由方向指示器提供的方向信号增强了音频信号，所以可以降低音频传输所需的总比特率。所希望的到达方向的信息可以用于提高空间音频编码和表示的质量。

传统空间音频编码方案平等地对待整个音频场景，其目的是在给定比特率下以最佳可能的感知质量来表示整个声像。但是，例如对于会话服务，可能只需要表示感兴趣的关键性内容，而把其余音频场景当作环境声音，以便以感兴趣的方向优化音频质量。

听像内的感兴趣方向可以通过使用方向检测单元来确定。例如，所述方向检测单元可以是注视方向检测设备。

听像可以通过集中在所确定的感兴趣方向上、例如通过使用定向麦克风阵列来捕获。

听像在所确定的感兴趣方向上的音频信号成分可以使用较高比特率来编码，而其余音频成分可以以较低比特率来编码。换句话说，源自所选到达方向的音频信号可以比声像的其余部分更精确地被编码。

在一个实施例中，方向信号可以由注视方向跟踪设备提供。因此，可以增强感兴趣方向上的音频信号。举一个例子来说，远程会话的参与者可以简单地通过看着最相关扬声器或通过看着所述扬声器的显示图像来增强所述扬声器的声音。

在一个实施例中，由方向指示器提供的方向信号可以用于指引定向麦克风阵列的最大灵敏度的方向。

按照本发明的系统和方法可以提供周围音频场景中集中朝向感兴趣方向的空间音频内容的高效和灵活的编码。空间音频参数化可以从由注视方向检测设备或用于指出感兴趣方向的其它部件所指的感兴趣方向中提取。在一个实施例中，可以利用较粗糙参数化和编码来处理音频场景的其余部分。在一个实施例中，可以利用最少数量参数和利用低比特率将音频场景的其余部分当作环境噪声来处理。

本领域的技术人员可以通过下文给出的描述和例子，以及也通过所附权利要求书更清楚地了解本发明的实施例以及它们的益处。

附图说明

在如下例子中，将参考附图更详细地描述本发明的实施例，在附图中：

图1a示出了方向选择单元位于系统的发送侧的音频处理系统；

图1b示出了方向选择单元位于系统的接收侧的音频处理系统；

图2示出了眼睛的注视方向；

图3示出了注视方向检测设备；

图4示出了如由注视方向检测设备的图像传感器所捕获的眼睛的图像；

图5a示出了看着真实物体的眼睛，其中眼睛的注视方向由注视方向检测设备监视；

图5b示出了看着物体的图像的眼睛，其中眼睛的注视方向由注视方向检测设备监视；

图5c示出了看着物体的虚像的眼睛，其中眼睛的注视方向由注视方向检测设备监视；

图6示出了一种音频处理系统；

图7a示出了包含定向麦克风阵列的音频处理系统；

图7b示出了包含定向麦克风阵列的音频处理系统；

图7c示出了包含定向麦克风阵列和滤波单元的音频处理系统；

图8a示出了参数音频编码器；

图8b示出了布置成根据由附加麦克风捕获的音频信号提供空间音频参数的参数音频编码器；

图8c示出了布置用于为参数音频编码提供缩混(downmixed)信号的定向麦克风阵列；

图8d示出了根据方向信号调整空间音频参数；以及

图9示出了根据听众的位置和取向创建到所述听众的虚拟声场。

所有图形都是示意性的。

具体实施方式

参照图1a，音频处理系统300可以包含两个或更多个麦克风M1，M2，M3、方向选择单元VD1、信号处理单元100、和一个或多个电声换能器SPK1，SPK2。

声音可以源自处在不同空间位置(x₁,y₁)，(x₂,y₂)和(x₃,y₃)上的声源A1，A2，A3。声源A1，A2，A3可以是听觉场景中的任何声源，例如参加会议的参与者。

从声源A1，A2，A3发出的声音SND₁，SND₂，SND₃可以被麦克风M₁，M₂，M₃捕获，以便分别提供音频信号S₁，S₂，S₃。

例如由于声源与麦克风之间的不同距离，由于声源的定向发射模式，和/或由于麦克风的定向灵敏度，麦克风M₁，M₂，M₃对于从源A1，A2，A3发出的声音可以具有不同灵敏度。

例如，第一麦克风M1可能主要对从第一声源A1发出的声音灵敏，并且第一麦克风M1可能对从第二声源A2和第三声源A3发出的声音较不灵敏。第二麦克风M2可能对从第二声源A2发出的声音灵敏，以及第三麦克风可能对从第三声源A3发出的声音灵敏等。

音频信号S₁，S₂，S₃可以被转换成数字形式并且加以处理以供发送和/或存储在例如存储设备中。如果需要的话，可以经由传输路径400发送与所述音频信号S₁，S₂，S₃相对应的经过处理的音频信号S_AUDIO1。为了降低传输所需的总比特率，可以将信号处理单元100布置用于为源自由方向选择单元VDI1所指的所选空间位置的音频信号分配较高比特率，以及可以将信号处理单元100布置用于为源自其它位置的音频信号指定较低比特率。

具体地，可以将信号处理单元100布置成增强源自由方向选择单元VDI1所指的空间位置的音频信号。换句话说，可以将信号处理单元100布置成抑制源自其它位置的音频信号。

方向选择单元VDI1提供信号S_VDI1，信号S_VDI1可以包含有关所选空间位置相对于基准方向的方向的信息。该方向可以例如通过方向SY与从方向选择单元VDI1画到所选位置的直线SELD之间的水平角度α来表达。信号S_VDI1还可以包含有关方向SY与直线SELD之间的垂直角度的信息。

方向选择单元VDI1可以由用户A5操作。方向选择单元VDI1可以是例如注视方向检测设备、卫星导航设备、电子罗盘、陀螺罗盘或集成加速度计。电子罗盘可以包含例如基于霍尔效应的磁场传感器。

可以将方向选择单元VDI1布置成检测用户A5的注视方向，或用户可以手动地使罗盘或加速度计指向所选位置。可以沿着所希望的方向移动卫星导航设备例如GPS设备(全球定位系统)，以便提供方向信号S_VDI1。

信号处理单元100可以包含滤波单元20。滤波单元20可以包含一组滤波器F1，F3，F3。第一麦克风M1捕获的音频信号S₁可以由第一滤波器F1滤波，第二麦克风M2捕获的音频信号S₂可以由第二滤波器F2滤波，以及第三麦克风M3捕获的音频信号S₃可以由第三滤波器F3滤波。

可以将滤波单元20的滤波器F1，F2，F3布置成改变音频信号的至少一个(例如，S₂)相对于其它音频信号(例如，S₁，S₃)的电平，以便可以增强源自由方向选择单元VDI1所指的空间位置的音频信号。滤波器可以按照由方向选择单元VDI1提供的方向信号SVDI1改变音频信号S₁，S₂，S₃的至少一个的电平。

每个滤波器F1，F2，F3可以包含一个或多个滤波系数k₁，k₂，k₃。符号k₁可以表示单个标量乘数。系数k₁，k₂，k₃可以是标量乘数。例如，可以将音频信号S₁乘以第一滤波系数k₁，可以将音频信号S₂乘以第二滤波系数k₂，以及可以将音频信号S₃乘以第三滤波系数k₃，以便增强所选音频信号。

每个符号k₁，k₂，k₃也可以表示滤波系数的集合。具体地，符号k₁可以表示代表数字滤波器F1的系数的阵列。例如，当选择了与第二声源A2的位置(x₂,y₂)相对应的方向时，则可以将信号处理单元100布置成将第二滤波系数k₂的值设置得大于第一滤波系数k₁和第三滤波系数k₃的值。因此，可以有选择地提高第二麦克风M2的音频信号S₂的电平，以便提供增强音频信号S_ENC。

音频信号的电平可以在它们处在模拟形式或数字形式下时加以调整。

信号处理单元100可以包含编码器30。编码器30可以是参数编码器(参见图8a)。具体地，可以将编码器布置成提供双耳线索编码信号(BCC)。可以将编码器30布置成将时域信号转换到频域中。音频信号的电平也可以在频域中加以改变，而不是在时域中调整电平。例如，可以在频域中将经傅立叶变换的信号乘以系数k₁，k₃，k₃，...，而不是在时域中乘以音频信号S₁，S₂，S₃。

可以将信号处理单元100布置成提供经过处理的音频信号S_AUDIO1，经过处理的音频信号S_AUDIO1包含与源自由方向信号所指的位置的声音相对应的增强音频信号S_ENC。例如，增强音频信号S_ENC可以对应于源自位置(x₂,y₂)的声音SND₂。

经过处理的音频信号S_AUDIO1可以是例如单声道(monophonic)音频信号。单声道音频信号S_C2可以经由单个换能器SPK1再生。但是，在那种情况下，在系统300的接收端上不再生听像。

当接收器只解码和再现缩混信号时，听众可以只专注于方向选择单元VDI1已选择的声源。

为了再生空间效果，系统300可以包含布置成根据编码音频信号S_AUDIO1提供两个或更多个音频信号的解码器200。分离的音频信号可以经由两个或更多个电声换能器SPK1，SPK2再生，从而在系统300的接收端的听众A4可以听到再生的声像。换能器SPK1，SPK2可以是例如扬声器或耳机。

编码音频信号S_AUDIO1可以是双耳线索编码(BCC)的，并且可以将解码器200布置成将编码音频信号S_AUDIO1转换成两个不同声道，以便经由SPK1，SPK2再生立体声。

经过处理的音频信号S_AUDIO1可以是双耳线索编码(BCC)的，并且可以将解码器200布置成将音频信号S_AUDIO1转换成三个或更多个声道，以便经由扬声器再生。例如，可以将解码器200布置成将音频信号S_AUDIO1转换成5.1环绕声或7.1环绕声。5.1环绕声系统具有相对于听众处在不同方向上的五个扬声器、和一个低频音效声道(LFE)。7.1环绕声系统具有相对于听众处在不同方向上的七个扬声器、和一个低频音效声道(LFE)。

一般说来，可以将解码器200布置成根据经过处理的音频信号S_AUDIO1提供1，2，3，4，5，6，7，8，9，10个或更多不同音频声道。

如果需要的话，也可以经由传输路径400发送方向选择单元VDI1所提供的信号S_VDI1。可以将方向信号S_VDI耦合到解码器200。因此，如果需要的话，可以按照由方向信号S_VDI所指的方向再现再生的音频信号。

可以将麦克风M1，M2，M3所捕获的音频信号S₁，S₂，S₃耦合到信号处理单元100的各自输入端IN₁，IN₂，IN₃。信号处理单元100可以包含接口IF1，用于提供经过处理的音频信号S_AUDIO1以供发送器(未示出)进行发送和/或从接收器(未示出)接收方向信号S_VDI1。但是，信号处理单元100可以包含发送器，和/或解码器200可以包含接收器。

信号处理设备100可以包含用于例如存储用于操作所述信号处理设备100的计算机程序代码的存储器MEM1。

如果与声源A1，A2，A3和麦克风M1，M2，M3之间的最小距离L1相比，方向指示器VDI1与麦克风M1，M2，M3之间的距离W_VM较大，则可以将数据处理单元100布置成考虑到方向指示器VDI1相对于麦克风M1，M2，M3的位置和/或声源A1，A2，A3与麦克风之间的距离。

方向指示器VDI1与麦克风M1，M2，M3之间的距离WVM优选地比声源A1，A2，A3与麦克风M1，M2，M3之间的最小距离L1的25％更小。

如果需要的话，也可以在经由单个输入端IN₁耦合到信号处理设备100之前多路复用音频信号S₁，S₂，S₃。信号处理设备100可以包含布置成将音频信号S₁，S₂，S₃分别分配给不同滤波器F1，F2，F3的解多路复用器。

SX，SY和SZ表示正交方向。方向SY可以解释为例如基准方向。方向SX可以解释为例如水平方向，以及方向SZ可以解释为例如垂直方向。

参照图1b，方向信号SVDI1也可以经由传输路径400发送。具体地，方向选择单元VDI1可以由听众A4在系统300的接收端上操作。

方向指示器VDI1可以位于系统300的接收端上，以及方向信号SVDI1可以经由传输路径400发送到发送端，以便控制信号处理单元100。

信号300可以进一步包含用于捕获与声源A1，A2，A3相对应的视觉图像的相机CAM1。可以将相机CAM1布置成经由传输路径400将图像信号S_IMG1发送到接收侧。可以将与声源相对应的各自图像显示在例如屏幕上(参见图6)。

信号S_AUDIO1，S_IMG1，S_VDI1也可以经由不同传输路径400发送。例如，视觉图像信号S_IMG1和经过处理的音频信号S_AUDIO1可以经由电视广播网络发送，而方向信号S_VDI1可以经由移动电话网络从远程听众A4发送到TV演播室。

参照图2，方向信号SVDI1可以例如通过使用注视方向检测设备来提供。图2示出了任意眼睛E1的注视方向GZD。通过监视注视方向GZD，可以确定眼睛E1看着物体A1、A2还是A3。具体地，该物体可以是声源。注视方向GZD可以例如通过注视方向GZD与基准方向REF1之间的水平角度α，以及通过注视方向GZD与基准方向REF1之间的垂直角度β来定义。基准方向REF1可以例如与方向SY对齐。

图3示出了注视方向检测设备700。注视方向检测设备700可以包含一个或多个光源710，720和成像单元730。可以将光源710，720布置成发出光束LB1，LB2。

注视方向检测设备700可以进一步包含图像分析单元750，以便根据成像单元730捕获的图像IMG_E1确定注视方向GZD。注视方向检测设备700可以进一步包含阻尼单元770，以便降低方向信号S_VDI1的起伏。

光源710，720、图像分析单元750和/或阻尼单元770也可以是外部组件。例如，也可以将太阳或其它外部基本上点状的光源用作光源710。

具体地，光源710，720提供的光束LB1，LB2可以基本上准直在眼睛E1的位置，以便有助于精确确定注视方向GZD。

图4示出了注视方向检测设备700的成像单元730捕获的眼睛E1的图像IMG_E1。从光源710，720发出的光从眼睛E1的表面反射。因此，图像IMG_E1可以包含称为Purkinje图像的一个或多个反射点G1，G2。可以根据瞳孔P相对于Purkinje图像G1，G2的位置确定水平注视角α和/或垂直注视角β。

两个或更多个Purkinje图像G1，G2的使用提高了精度，并且可以基本上与眼睛E1和跟踪设备700之间的距离无关地作出注视角α和β的确定。但是，在本发明的一些实施例中，可以容忍较低精确度，并且只使用一个Purkinje图像G1或G2来估计注视角α和β就足够了。

一些移动电话包含相机单元。如果将信号处理设备布置成根据所述相机单元所捕获的图像IMG_E1确定注视方向，则即使移动电话的相机单元也可以用作注视方向检测设备700的成像单元。所述移动电话或外部便携式计算机的信号处理能力可以用于分析注视方向。

参照图5a，可以将注视方向检测设备700布置成检测眼睛E1看着光源A1、A2还是A3的位置。方向选择单元VDI1可以位于音频传输系统300的发送端上。方向选择单元VDI1可以是布置成监视用户A5(图1)的注视方向的注视方向检测设备700。

方向选择单元VDI1或信号处理单元100可以包含阻尼单元770，以便消除方向信号S_VDI1的快速起伏，因为听众A4感受的音像中的快速起伏可能相当令人不悦。例如，可以将方向选择单元VDI1布置成使得至少在改变方向信号S_VDI1的值之前的预定时段内眼睛E1必须看着新的位置。该预定时段可以是例如10秒。可以将信号处理单元100布置成使得至少在变更滤波单元20的滤波系数k₁，k₂，k₃的值之前的预定时段内眼睛E1必须看着新的位置。

可替代的是，系统300可以包含由若干用户操作的若干方向选择单元VDI1，并且可以通过表决确定方向信号S_VDI1。换句话说，可以将可能方向的总范围划分成一组相邻扇区，并可以对指示每个范围内的方向的方向选择单元的数量进行计数。可以将与计数最高的扇区相对应的方向用于指示所选位置。例如，可以监视例如十个参与者的注视方向，并且如果例如其中六个看着某个位置，则可以将信号处理单元100布置成增强源自所述位置的音频信号。为了监视注视方向，如果可以提高足够高的图像分辨率，可以由单个相机同时捕获若干参与者的眼睛的图像。

参照图5b，也可以将与声源A1，A2，A3相对应的视觉图像IMG1，IMG2，IMG3显示在屏幕SCR1上，并且可以通过注视方向检测设备700确定注视方向。

参照图5c，也可以通过虚拟显示器800显示与声源A1，A2，A3相对应的虚拟图像IMG1，IMG2，IMG3。听众A4可以将虚拟显示器放置在他的眼睛E1附近，从而当虚拟显示器提供的光入射在他的眼睛上时，他感知到有大虚拟图像显示在无限远距离上的印象。

例如，人可以戴着包含注视方向检测设备700和虚拟显示器800的目镜900。该目镜可以进一步包含换能器SPK1，SPK2。

专利公布WO2007/085682和专利申请PCT/FI2008/050065公开了适合这种用途的注视方向检测设备。PCT/FI2008/050065还公开了包含注视方向检测设备和虚拟显示器的目镜。

图6示出了包含第一侧P1、第二侧P2、和数据传输路径400的音频处理系统300。从声源A1，A2，A3发出的声音可以由两个或更多个麦克风M1，M2，M3捕获。声源A1，A2，A3可以是例如会议的参与者。系统300可以是例如远程会议系统。

可以将信号处理单元100布置成增强源自由方向选择单元VDI1所指的空间位置的音频信号。音频信号S_AUDIO1可以经由传输路径400发送到第二侧P2，在该第二侧P2它可以经由一个或多个换能器K1，K2再生。

方向指示器VDI1可以位于系统300的第二侧P2。方向指示器VDI1可以是例如布置成根据听众A4的注视方向提供方向信号S_VDI1的注视方向检测设备700。可以将方向信号S_VDI1从第二侧P2发送到第一侧P1，在该第一侧P1它可以耦合到信号处理单元100。

第一侧P1的相机CAM1可以捕获视频或静止图像，并且可以经由传输路径400将相应图像信号S_IMG1发送到第二侧P2。可以将与声源A1，A2，A3相对应的视频或静止图像IMG1，IMG2，IMG3显示在第二侧P2的屏幕或虚拟显示器SCR1上。

因此，可以将注视方向检测设备布置成确定听众A4是否看着图像IMG1，IMG2，IMG3，并且可以分别设置音频增强的方向角α。

系统300可以包含编码器以便提供例如参数编码音频信号S_AUDIO1。音频信号S_AUDIO1可以由第二侧P2的解码器200解码并经由换能器SPK1，SPK2再生。

系统300可以进一步包含用于捕获听众A4的图像的第二相机CAM4。可以经由传输路径400将相应图像信号S_IMG4从第二侧P2发送到第一侧P1。可以将听众A4的图像IMG4显示在第一侧P1的屏幕SCR1上。

第二相机CAM4也可以用作注视方向检测设备的成像单元。

此外，可以将音频信号S_AUDIO4从第二侧P2发送到第一侧P1。音频信号S_AUDIO4可以由麦克风M4捕获并由换能器SPK4再生。

参照图7a，可以将多个麦克风M1，M2，M3布置成作为定向麦克风阵列ARR1而操作。定向麦克风阵列ARR1的最大灵敏度方向可以通过方向选择单元VDI1来控制，以便增强源自所选位置的音频信号。具体地，定向麦克风阵列ARR1的最大灵敏度方向可以通过注视方向检测设备700来控制。

定向麦克风阵列ARR1的麦克风也可以是双耳麦克风。

信号处理单元100可以包含延迟组(delay bank)52和求和单元53。可以将第一麦克风M1捕获的音频信号S₁延迟第一时段τ₁。可以将第二麦克风M2捕获的音频信号S₂延迟第二时段τ₂。可以将第三麦克风M3捕获的音频信号S₃延迟第三时段τ₃。可以将延迟τ₁，τ₂，τ₃调整成使得源自所选位置并且由麦克风M1，M2，M3捕获的音频信号当它们在求和单元53中组合时处在同相上。延迟的音频信号可以例如通过求和或求平均来组合。所选位置由方向信号S_VDI1指示。

定向麦克风阵列ARR1可以包含例如两个或更多个麦克风M1，M2，M3。声源A1，A2，A3与麦克风M1，M2，M3之间的最小距离L1可以大于麦克风M1，M2，M3之间的最大距离W₁₃。例如，三个或更多个麦克风的使用可以提供改进的方向选择性。

求和单元53的输出可以是增强音频信号S_ENC。如果单声道声音可接受，则求和单元53的输出可以用作经由传输路径发送到系统300的接收侧的信号S_AUDIO1。

可以不相对声源A1，A2，A3移动麦克风M1，M2，M3而改变定向麦克风阵列ARR1的最大灵敏度方向。最大灵敏度方向MAXD可以例如通过所述方向MAXD与基准方向SY之间的角度γ来定义。因此，可以将装置300布置成使得最大灵敏度的角度γ取决于注视角α。

参照图7b，可以通过使用波束成形滤波器H₁，H₂，H₃来处理由定向阵列ARR1的各个麦克风M1，M2，M3提供的音频信号S₁，S₂，S₃。

图7b的阵列ARR1的输出由如下方程给出：

其中，n表示离散时间指数，M表示音频信号S₁，S₂，S₃的数量，而L表示波束成形滤波器H₁，H₂，H₃的长度。

如图7a所示，滤波器H₁，H₂，H₃，...的最平凡选择是延迟线。在那种情况下，阵列ARR1的输出由如下方程给出：

其中，τ₁，τ₂，τ₃，...表示每个信号S1，S2，S3...的时间延迟。

定向性也可以在子频带域中，或例如在DFT(离散傅立叶变换)变换域中实现。在那种情况下，每个音频信号A₁，A₂，A₃的延迟可以是频率相关的。

参照图7c，可以将定向麦克风阵列ARR1的输出与各个麦克风M1，M2，M3的输出S₁，S₂，S₃一起加权。具体地，所述各个麦克风M1，M2，M3中的一个或多个可以是所述定向麦克风阵列ARR1的一部分。

可以相对各个麦克风的输出增强定向麦克风阵列ARR1的输出，以便提供增强的音频信号S_ENC。定向麦克风阵列ARR1的输出和各个麦克风M1，M2，M3的音频信号S₁，S₂，S₃可以使用各自的滤波器F0，F1，F2，F3来滤波。具体地，可以将定向麦克风阵列ARR1的输出和各个麦克风M1，M2，M3的音频信号S₁，S₂，S₃乘以各自的滤波系数k₀，k₁，k₂，k₃。

由定向麦克风阵列ARR1捕获的增强的音频信号S_ENC可以以高比特率发送，而由各个麦克风M1，M2，M3中的一个或多个捕获的音频信号S₁，S₂，S₃可以以较低比特率发送。

定向麦克风阵列捕获的音频信号可以传达主要音频信息，例如所说的话或直接从乐器发出的声音。各个麦克风捕获的音频信号可以传达在再生声像时可以利用的次要信息，例如背景噪声、来自墙壁的回声或掌声。

图8a示出了参数编码器30。参数音频编码方法使得能够实现多声道和空间音频编码和表示。可以将原始音频信号表示成缩混信号S_SUM以及描述空间声像的参数的比特流。缩混信号包含数量减少的声道。例如，缩混信号可以是单声道和信号或双声道(立体声)和信号。

参数可以包含描述例如声道间水平差(ILD)、声道间时间差(ITD)和声道间相干性(ICC)的参数。

这种类型的编码方案可以允许多声道信号的极高效压缩。而且，给定所提取的空间信息足够，则可以允许解码成任何其它空间混合格式，即，用于任何其它扬声器装置的任何其它空间混合格式。例如，可以通过例如5.1扬声器系统来再生利用双耳麦克风捕获的音乐或谈话。

编码器30可以包含缩混单元31、单声道音频编码器32、空间分析单元33、参数编码器34和位流格式化单元35。具体地，可以将编码器30布置成提供双耳线索编码(BCC)信号S_AUDIO1。

对于BCC方法的详细描述，参考：F.Baumgarte and C.Faller:"Binaural CueCoding-Part I:Psychoacoustic Fundamentals and Design Principles"；IEEETransactions on Speech and Audio Processing,Vol.11,No.6,November 2003，以及参考：C.Faller and F.Baumgarte:"Binaural Cue Coding-Part II:Schemes andApplications",IEEE Transactions on Speech and Audio Processing,Vol.11,No.6,November2003。

参照图8b，空间音频参数ILD，ITD和/或ICC也可以从附加麦克风M_LEFT，M_RIGHT提供的进一步音频信号SL，SR中确定。换句话说，空间音频参数也可以从不用于缩混的信号中确定。

具体地，附加麦克风M_LEFT，M_RIGHT可以构成一组双耳麦克风。可以将附加麦克风M_LEFT，M_RIGHT附在例如移动电话的不同侧或耳机上。耳机可以由用户A5佩戴。

参照图8c，定向麦克风阵列ARR1的增强的单声道输出S_ENC也可以这样用作缩混信号S_SUM，即在那种情况下，不必利用显示在图8b中的缩混单元31。

空间音频参数ILD，ITD和/或ICC也可以从附加麦克风M_LEFT，M_RIGHT提供的音频信号SL，SR中确定。

可替代的是，空间音频参数ILD，ITD和/或ICC可以从定向麦克风阵列ARR1的各个麦克风M1，M2，M3提供的两个或更多个音频信号S₁，S₂，S₃中确定(图7c)。

听众A4感受的声像可以按照方向信号S_VDI1来修改。

如在图1a的上下文中所注意到的那样，方向信号S_VDI1也可以发送给解码器200以供在再现中利用。

如果在接收端提供方向信号S_VDI1，则也可以通过使用平移法则在所选方向再现定向麦克风阵列ARR1所提供的单声道增强信号S_ENC。在那种情况下，甚至可以完全省略BCC再现，并且用户可以只专注于捕获用户专注的声源。

参照图8d，可以在系统300的发送端中按照方向信号S_VDI1修改编码器300提供的空间参数。因此，即使不经由传输路径400发送方向信号S_VDI1，也可以调整再生的声音的表观方向。

修改空间音频参数使得能够实现再现的两种不同的可能性，即，可以将声像再现到所希望的到达方向，或可以将声像再现到声像的中心。

在BCC编码信号S_AUDIO1的情况下，例如通过修改声道间时间差(ITD)参数，以及通过修改声道间水平差(ILD)参数，可以调整再生的声音的表观方向。

编码器30可以进一步包含布置成根据方向信号SVDI1修改参数ILD，ITD和/或ICC的值的参数修改单元37。因此，可以将参数修改单元37布置成从空间分析单元33提供的声道间水平差参数ILD中计算修改的声道间水平差参数ILD_N。可以将参数修改单元37布置成从空间分析单元33提供的声道间时间差参数ITD中计算修改的声道间时间差参数ITD_N。可以将参数修改单元37布置成从空间分析单元33提供的声道间相干性参数ICC中计算修改的声道间相干性参数ICC_N。

与ITD参数相联系的时间延迟可以按照如下方程来调整：

τ_q，NEW＝τ_q-τ_m (3)

其中，τ_q表示与第q子频带相联系的声道间时间差参数的时域变换，τ_q,NEW表示与第q子频带相联系的新的修改的声道间时间差参数的时域变换，并且τ_m表示与由方向信号S_VDI1所指的方向相对应的时间延迟。

声道间水平差(ILD)参数可以通过如下计算增益系数g_LEFT和g_RIGHT来修改：

其中，φ表示与方向信号S_VDI1相对应的方向角，θ_LEFT表示与左换能器SPK1的角度，并且θ_RIGHT表示与右换能器SPK2的角度。如果将换能器的位置选择成与头戴麦克风的左声道和右声道相对应，则θ_LEFT＝-π/2和θ_RIGHT＝π/2。现在可以如下修改声道间水平差(ILD)参数：

其中，ΔL_q表示与第q子频带相联系的声道间水平差参数，并且ΔL_q,NEW表示与第q子频带相联系的新的修改的声道间水平差参数。

此外，可以修改声道间相干性参数ICC。但是，这不是必需的。换句话说，参数ICC_N可以等于ICC。

现在可以量化和提供修改的参数ILD_N和ITD_N，以便经由传输路径400发送到解码器200，或可以将它们存储在例如存储器中，以便随后使用或发送。

在BCC编码的情况下，可以将编码器30布置成操作以使得与由方向信号S_VDI1所指的最重要声源相对应的声道间水平差参数和声道间时间差参数基本等于零。与次要声源相对应的声道间水平差参数和声道间时间差参数可以分别显著地偏离零。因此，可以在编码单元34中通过使用相对粗糙的量化来量化声道间水平差参数和/或声道间时间差参数，而不显著降低与最相关声源相对应的再生音频信号的质量。可以降低与次要声源相对应的再生音频信号的质量，因为它们是次要的。

经过处理的音频信号S_AUDIO1也可以包含描述从声源A1，A2，A3发出的每个声音SND₁，SND₂，SND₃的估计到达方向的参数。因此，可以用方向信息取代或强化BCC参数化。例如，可以将缩混信号的每个子频带和时间帧与方向参数DOF_q相联系，并且经过处理的音频信号S_AUDIO1可以包含缩混信号以及所确定的方向参数DOF_q。缩混信号可以是例如音频信号S₁，S₂，S₃之和。

在定向参数的情况下，可以将参数修改单元布置成例如通过如下方程确定修改的方向参数DOF_q,NEW：

DOF_q，NEW＝DOF_q-φ (6)

其中，DOF_q,NEW表示与第q子频带相联系的修改的方向参数，DOF_q表示空间分析单元提供的与第q子频带相联系的方向参数，并且φ表示与由方向信号S_VDI1所指的方向相对应的方向角。

经过处理的音频信号S_AUDIO1可以包含空间音频参数ILD，ITD，ICC和/或DOF_q。但是，也可以分离地存储或经由传输路径400发送空间音频参数。

参数ILD，ITD和/或DOF_q确定再生听像中声源的位置，即，这些参数确定经过处理的音频信号S_AUDIO1的随后解码步骤中声源的位置。

空间音频参数ILD，ITD和/或DOF_q的修改使得在随后解码步骤中可以控制声源位置。由于修改了空间音频参数，所以即使在麦克风M1，M2，M3相对于声源A1，A2，A3保持静止时，也可以调整再生声像中声源的位置。例如，即使在所选方向发生变化时，源自所选方向的声音也可以保持在再生听像的预定位置上。换句话说，可以将参数ILD，ITD调整成使得当由方向信号S_VDI1指示所述第一声源的方向时，源自所述第一声源A1的第一声音SND₁似乎来自再生听像的预定位置，而当由方向信号S_VDI1指示第二声源的方向时，源自所述第二声源A2的第二声音SND₂似乎来自再生听像的同一预定位置。源自所选方向的声音可以保持在例如再生听像的中心上。再生听像也可以例如按照方向信号S_VDI1而旋转。

取代增强，也可以将由方向指示器VDI1所指的方向用于抑制源自与所述所指方向相对应的位置的音频信号。因此，可以从经由传输路径400发送的音像中抑制或甚至完全消除源自特定位置的干扰声音。

可以将信号处理单元100布置成增强源自第一所选位置的声音或基本上消除源自第二位置的声音。这些位置通过注视方向检测设备700指示，并且可以将数据处理单元100布置成通过经由用户界面输入的命令同时考虑第一位置和第二位置。例如，注视方向检测设备700可以包含“增强”按钮和“消除”按钮。如果用户A4希望增强源自第一方向的声音，他就可以看着所述第一方向并按下“增强”按钮。如果用户A4希望抑制源自第二位置的声音，他就可以看着所述第二位置并按下“消除”按钮。

传输路径400可以是例如因特网、无线电链路、移动电话网络或卫星通信系统。

可以在再生之前或与再生同时地将音频信号存储在存储器中。

信号处理单元100可以实现在可编程数据处理单元中，例如在计算机中。信号处理单元100可以包含计算机可读介质(MEM1)，该计算机可读介质(MEM1)包含当被数据处理器执行时用于按照上面给出的例子增强和/或抑制声音的程序代码。

麦克风M1，M2，M3提供的音频信号和方向选择单元VDI1提供的方向信号S_VDI1可以经由一个或多个输入端IN₁，IN₂，IN₃耦合到数据处理单元，并且可以将数据处理单元100布置成例如经由因特网和/或经由移动电话网络发送经过处理的音频信号S_AUDIO1。

当声源与麦克风之间的距离L1与麦克风之间的距离W₁₃相比较大时，以及当方向确定单元VDI1与麦克风之间的距离W_VM与声源与麦克风之间的距离L1相比较小时，由方向确定单元VDI1所指的方向与最大灵敏度的方向之间的关系是无关紧要的。当注视方向检测设备被用在定向麦克风附近时，这些条件通常都能满足。

如果方向检测单元VDI1与麦克风之间的距离较大，则可以在使用之前初始化信号处理单元100。

该初始化包含找出描述如何可以将方向选择单元VDI1提供的信号S_VDI1的值映射到音频捕获装置的最大灵敏度的实际方向或位置的函数。

数据处理单元100可以例如通过校准来初始化。例如，在方向选择单元VDI1总是跟随测试声源的位置的同时，在房间中或在电视演播室中移动所述声源。可以将数据处理单元布置成根据校准确定和存储滤波单元20的系数和/或延迟组52的延迟的值，从而在每种情况下都可以将最大灵敏度的方向与由方向选择单元VDI1所指的方向相联系。

可替代地，可以通过包含如下的方法初始化信号处理单元100：

-从声源发出声音；

-改变麦克风阵列的最大灵敏度的位置；

-看着所述声源或与所述声源相对应的图像；以及

-当所述声源的再生声音的强度达到最大时，经由用户界面向信号处理单元100发送命令。

例如，在扫描定向麦克风阵列ARR1的灵敏度方向的同时，可以请参与者A2讲话。在将注视方向检测设备700布置成监视观众A4的注视方向的同时，听众A4可以看着参与者A2或所述参与者的所显示图像。当参与者A2的声音似乎达到最响音量时，听众可以按下校准按钮。为了完全校准，也可以对参与者A1和参与者A3重复相同过程。

可替代地，可以经由键盘或图形用户界面将麦克风M1，M2，M3的位置、声源A1，A2，A3的估计位置、方向选择单元VDI1的位置、和方向选择单元VDI1的基准方向输入到数据处理单元中。可以将数据处理单元布置成根据所述位置而为由方向选择单元VDI1所指的每个方向计算滤波单元20的系数和/或延迟组52的延迟。

在一个实施例中，甚至不必在系统300的接收端上向听众A4显示视觉图像。听众A4可以例如根据再生听像而检测最感兴趣声源处在听像的左部、中部还是右部。因此，听众A4可以操作方向指示器VDI1，从而选择最感兴趣声源的位置。

如果需要的话，所发送的信号可以在系统300的发送端上多路复用并且在系统300的接收端解多路复用。系统300可以包括两个或更多个换能器SPK1，SPK2以便再生音像。

如果需要的话，也可以在系统300的接收端上滤波解码音频信号，以便恢复增强音频信号相对于其它音频信号的电平。解码器200可以包含滤波器组(未示出)。例如，如果已经通过使用滤波器F2在发送端提高了音频信号S₂的电平，则可以在接收端抑制相应的解码音频信号。因此，在换能器SPK1，SPK2再生的声音的声级分布可以基本上对应于原始声音SND₁，SND₂，SND₃的声级分布的同时，可以为源自最相关方向的音频信号分配较高比特率。例如，可以根据方向信号S_VDI1在接收端确定新的滤波系数组。可替代地，可以经由传输路径400将滤波系数k₁，k₂，k₃的值从信号处理单元100发送到解码器200，在其中可以将解码音频信号乘以例如倒数值1/k₁，1/k₂，1/k₃，以便恢复不同音频声道之间的原始声级分布。

系统300可以包含用于确定方向确定单元VDI1的绝对位置的位置检测单元。例如，方向确定单元VDI1可以包含GPS导航器(全球定位系统)。此外，可以将方向确定单元VDI1的位置存储在存储器中或经由传输路径400发送。

进一步的实施例可以有助于将发声物体与它们的物理位置相联系，即使当从一定距离记录它们时。

图9示出了根据听众A4的位置和取向创建到所述听众A4的虚拟声场。声源A2可以位于坐标(x₂,y₂)上。用户A5可以操作坐标(x₅,y₅)上的方向检测单元VDI1。听众A4可以位于坐标(x₄,y₄)上。坐标(x₄,y₄)和坐标(x₅,y₅)可以例如通过用户A5和听众携带的卫星导航设备确定。听众A4的取向角δ₁可以通过例如磁罗盘确定。

用户A5可以操作方向检测单元VDI1，从而知道声源A2相对基准方向(例如，方向SY)的方向角α。

在一些实施例中，声源A2相对基准方向的方向角α也可以通过对第一角和第二角求和来确定。所述第一角可以例如通过罗盘确定，而所述第二角可以例如通过方向检测单元VDI1确定。

因此，可以根据坐标(x₅,y₅)，根据方向角α，并且根据用户A5与声源A2之间的距离估计声源A2的坐标(x₂,y₂)。该距离可以被估计和输入到信号处理设备中。

方向检测单元VDI1也可以包含用以监视用户A5的两只眼睛的注视方向的两个注视方向检测单元，即，注视方向检测设备可以是立体的。用户A5与声源A2之间的距离可以从立体注视方向检测设备提供的信号中确定。

从声源A2发出的声音可以被捕获，编码，以及发送到听众A4的解码器200，从而可以经由换能器SPK1，SPK2再生声源A2的声音。具体地，听众A4可以佩戴耳机SPK1，SPK2。

声源A2的估计坐标可以作为辅助信息发送给听众A4的解码器200。声源A2相对于听众A4的取向的方向角δ₂可以根据听众的取向角δ₁以及根据坐标(x₂,y₂)和(x₄,y₄)来确定。

现在可以通过将角度δ₂用作到达角度而再现经过处理的音频信号S_AUDIO1，来为听众A4创建虚拟声场。

听众A4可以物理地存在于坐标(x₄,y₄)上，其中声像可以由被经由传输路径发送的声音加强了的实际环境声音形成。

即使真实声源未激活，也可以通过将虚拟发声体加在真实声源的实际位置上而加强听众A4感受的声场。换句话说，可以将换能器SPK1，SPK2布置成再生以前记录的声音。

听众A4与声源A2之间的距离可以用于控制再现声音的音量。因此，如果当记录声音时听众A4比用户A5更远离声源A2，则听众A4可能听到音量比用户A5原始听到的音量低的声音。

按照所检测注视方向的声源增强可以用在TV或电台播音室中，以便迅速地为有限带宽传输选择最相关声源。

按照所检测注视方向的声源增强可以应用于例如电话、音频共享或自由视点视频服务。所述服务可以例如经由因特网或经由移动电话网络提供。

对于本领域的技术人员来说，能够想到可以对按照本发明的设备和方法加以修改和改变。上面参考附图所述的特定实施例只是例示性的，而不是意图限制由所附权利要求书限定的本发明的范围。

Claims

1.一种用于处理音频信号的装置(300)，其包含：

-用以接收两个或更多个不同音频信号(S1，S2)的一个或多个输入端(IN1，IN2)；

-用以提供方向信号(S_VDI1)的方向选择单元(VDI1)，所述方向选择单元(VDI1)是包括两个光源(710、720)的注视方向检测设备(700)并且被配置为根据瞳孔与所述两个光源(710、720)的反射点而确定所述方向信号(S_VDI1)；

-用以接收所述方向信号(S_VDI1)的输入端(INVDI1)；以及

-布置成从所述两个或更多个不同音频信号(S₁，S₂)中生成经过处理的音频信号(S_AUDIO1)的包括编码器(30)的信号处理单元(100)，所述经过处理的音频信号(S_AUDIO1)包含与源自由所述方向信号(S_VDI1)所指的位置(x₂，y₂)的声音(SND₂)相对应的增强音频信号(S_ENC1)，所述信号处理单元(100)被进一步布置成提供用于在所述经过处理的音频信号(S_AUDIO1)的随后解码中控制声源位置的一个或多个空间音频参数(ILD，ITD，DOF_q)，其中所述经过处理的音频信号(S_AUDIO1)是双耳线索编码(BCC)的，并且其中所述空间音频参数包含声道间时间差参数(ITD)和/或声道间水平差(ILD)参数，并且其中所述编码器(30)包括被布置成基于所述方向信号(S_VDI1)调整所述空间音频参数(ILD，ITD，DOF_q)的值的参数修改单元(37)。

2.如权利要求1所述的装置(300)，其中所述方向选择单元(VDI1)是电子罗盘、加速度计或陀螺仪。

3.按照权利要求1或2所述的装置(300)，包含用于接收经由传输路径(400)发送的所述方向信号(S_VDI1)的接口(IF1)。

4.按照权利要求1或2所述的装置(300)，包含用以减少所述方向信息(S_VDI1)中的起伏的阻尼单元(770)。

5.按照权利要求1或2所述的装置(300)，包含布置成作为定向麦克风阵列(ARR1)操作的两个或更多个麦克风(M1，M2，M3)，其中所述定向麦克风阵列(ARR1)的最大灵敏度的方向(MAXD)被布置成根据所述方向信号(S_VDI1)来调整。

6.按照权利要求1或2所述的装置(300)，进一步包含用以确定所述方向选择单元(VDI1)的位置的位置检测单元(780)。

7.如权利要求6所述的装置(300)，其中所述位置检测单元(780)基于卫星导航系统(GPS)。

8.按照权利要求1或2所述的装置(300)，其中所述空间音频参数包含描述声音(SND₁，SND₂，SND₃)的到达方向的参数。

9.一种用于提供音频信号的方法，所述方法包含：

-从两个或更多个麦克风(M1，M2)接收两个或更多个音频信号(S₁，S₂)；

-接收从方向选择单元(VDI1)发送的方向信号(S_VDI1)，所述方向选择单元(VDI1)是包括两个光源(710、720)的注视方向检测设备(700)并且被配置为根据瞳孔与所述两个光源(710、720)的反射点而确定所述方向信号(S_VDI1)；

-从所述两个或更多个不同音频信号(S₁，S₂)中生成经过处理的音频信号(S_AUDIO1)，所述经过处理的音频信号(S_AUDIO1)包含与源自由所述方向信号(S_VDI1)所指的位置(x₂,y₂)的声音(SND₂)相对应的增强音频信号(S_ENC1)

-提供用于在所述经过处理的音频信号(S_AUDIO1)的随后解码中控制声源位置的一个或多个空间音频参数(ILD，ITD，DOF_q)，其中所述经过处理的音频信号(S_AUDIO1)是双耳线索编码(BCC)的，并且其中所述空间音频参数包含声道间时间差参数(ITD)和/或声道间水平差(ILD)参数，以及

-根据所述方向信号(S_VDI1)调整所述空间音频参数(ILD，ITD，DOF_q)的值。

10.按照权利要求9所述的方法，进一步包含接收经由所述传输路径(400)发送的所述方向信号(S_VDI1)。

11.一种用于处理音频信号的部件(300)，其包含：

-用于接收音频信号的部件(IN₁，IN₂)，布置成接收两个或更多个不同音频信号(S₁，S₂)；

-用于接收从方向选择单元(VDI1)发送的方向信号(S_VDI1)的部件(IN_VDI1)，所述方向选择单元(VDI1)是包括两个光源(710、720)的注视方向检测设备(700)并且被配置为根据瞳孔与所述两个光源(710、720)的反射点而确定所述方向信号(S_VDI1)；

-包括编码器部件(30)的用于信号处理的部件(100)，布置成从所述两个或更多个不同音频信号(S₁，S₂)中生成经过处理的音频信号(S_AUDIO1)，所述经过处理的音频信号(S_AUDIO1)包含与源自由所述方向信号(S_VDI1)所指的位置(x₂,y₂)的声音(SND₂)相对应的增强音频信号(S_ENC1)，其中所述用于信号处理的部件(100)被进一步布置成提供用于在所述经过处理的音频信号(S_AUDIO1)的随后解码中控制声源位置的一个或多个空间音频参数(ILD，ITD，DOF_q)，其中所述经过处理的音频信号(S_AUDIO1)是双耳线索编码(BCC)的，并且其中所述空间音频参数包含声道间时间差参数(ITD)和/或声道间水平差(ILD)参数，以及

-用于根据所述方向信号(S_VDI1)修改所述空间音频参数(ILD，ITD，DOF_q)的值的部件(37)。