CN101039536B

CN101039536B - 音频信号处理设备和音频信号处理方法

Info

Publication number: CN101039536B
Application number: CN200710103507XA
Authority: CN
Inventors: 君岛匡朗
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2006-01-26
Filing date: 2007-01-26
Publication date: 2011-01-19
Anticipated expiration: 2027-01-26
Also published as: KR101355414B1; US20070189551A1; US8213648B2; EP1814360A2; JP2007201818A; JP4940671B2; EP1814360A3; EP1814360B1; CN101039536A; KR20070078398A

Abstract

一种音频信号处理设备，包括：分离部分，其将至少两个或多个声道音频信号分离为处于多个频带中的分量；相位差计算部分，其计算在每个频带的两个或多个声道音频信号之间的相位差；能级比计算部分，其计算在每个频带的两个或多个声道音频信号之间的能级比；声像定位评估部分，其基于能级比或相位差来评估在每个频带的声像定位；以及控制部分，其通过调整能级比或相位差来控制在每个频带的所述评估的声像定位。

Description

音频信号处理设备和音频信号处理方法

相关申请的交叉引用

本发明包含与2006年1月26日向日本专利局提交的日本专利申请JP2006-017977有关的主题，其全部内容并入于此作为参考。

技术领域

本发明涉及音频信号处理设备、音频信号处理方法和音频信号处理程序，并且优选地适用于通过任意改变声像定位的位置来控制声像的散布，收听者例如感觉到声像定位在房间或其它听觉空间内形成预定的角度。

背景技术

通常，在记录在紧致盘(CD)、数字多用途盘(DVD)等上的内容、以及诸如TV广播内容之类的音频信号中包含了各种音频源。例如，音乐内容可以包括歌声和乐器的声音等。TV广播内容可以包括表演者的语音，实际的声响，笑声，鼓掌声等。

这些音频源通常由现场的分离的麦克风来重新编码。它们最终被转换为具有预定数量声道的音频信号，例如双声道音频信号。

存在使收听者感觉到比通常双声道音频信号更大的听觉空间的虚拟环绕方法：在一种方法中，环绕扬声器输出右声道音频信号与左声道音频信号之间的差值的波信号；以及一种具有串音消除器功能的声像和听觉空间控制装置(例如，见日本专利公开H8-146974)，其输出声音来抵消不适当的声音，以允许收听者定位虚拟音频源(如果给左耳的声音到达收听者的右耳，那么他/她可能不能定位虚拟音频源)。

发明内容

顺便地，利用具有串音消除器功能的声像和听觉空间控制装置，由于扬声器的位置和房间的形状等很重要，所以虚拟环绕特性会根据收听者的收听位置而变化。

另外，利用上述其中环绕扬声器输出右声道音频信号与左声道音频信号之间的差值的波信号的方法，由于是通过向左右声道音频信号的差值信号添加具有延迟时间的大量混响来获得虚拟环绕的效果，所以得到的声音可能会与原始声音不同，或者可能会变得模糊。

本发明是鉴于上述要点而做出的，并且本发明用于提供一种音频信号处理设备、音频信号处理方法和音频信号处理程序，其能够通过控制声像而并不改变音频源的原始声音品质，来提供给用户他/她所想要的听觉空间。

在本发明一个方面中，音频信号处理设备、音频信号处理方法和音频信号处理程序执行下述处理：将至少两个或多个声道音频信号分为多个频带中的分量；计算在每个频带的两个或多个声道音频信号之间的相位差；计算在每个频带的两个或多个声道音频信号之间的能级比(level ratio)；基于能级比或相位差来评估在每个频带的声像定位；以及通过调整能级比或相位差来控制在每个频带的所评估的声像定位。

因此，在每个频带的声像定位的定位位置能够比评估值设置得更向外，以扩大声像，或者在每个频带的声像定位的定位位置能够设置得更向内，以缩窄声像。这能够产生符合用户喜好的听觉空间。

根据本发明，在每个频带的声像定位的定位位置能够比评估值设置得更向外，以扩大声像，或者在每个频带的声像定位的定位位置能够设置得更向内，以缩窄声像。这能够产生符合用户喜好的听觉空间。因此，该音频信号处理设备、音频信号处理方法和音频信号处理程序能通过控制声像而不改变音频源的原始声音品质，来提供给用户他/她所想要的听觉空间。

通过结合附图来阅读以下的详细说明，本发明的本质、原理和实用性会变得更加明显，其中附图中相似的部分以相似的参考数字或字符标记来标明。

附图说明

在附图中：

图1是示出根据本发明第一实施例的回放设备结构的示意性框图；

图2是示出根据本发明第一实施例的音频信号处理部分的电路结构的示意性框图；

图3是示出分量分析器的电路结构的示意性框图；

图4是示出在重新映射之前声像定位的示意图；

图5是示出声像被均匀扩大的声像定位的示意图；

图6是示出声像被均匀缩窄的声像定位的示意图；

图7是示出重新映射前后的定位角的示意图；

图8是示出中央声像被扩大而两侧声像被缩窄的声像定位的示意图；

图9是示出中央声像被缩窄而两侧声像被扩大的声像定位的示意图；

图10是示出重新映射前后的定位角的示意图；

图11是示出根据本发明第一实施例的定位角改变处理过程的流程图；

图12是示出根据本发明第二实施例的图像拾取设备的结构的示意图；

图13是示出根据本发明第二实施例的音频信号处理部分的电路结构的示意性框图；

图14是示出视频缩放设备的缩放操作的示意图；

图15A和15B是示出缩放变化前后的声像定位的示意图；

图16是示出根据本发明第二实施例的利用视频缩放操作来执行的声像定位改变处理过程的流程图；

图17是示出根据本发明第三实施例的视频和声音处理设备的结构的示意图；

图18是示出根据本发明第三实施例的音频信号处理部分的电路结构的示意性框图；

图19A和19B是示出当脸部图像位于屏幕中央时的声像定位的示意图；

图20A和20B是示出当脸部图像没有位于屏幕中央时的声像定位的示意图；

图21是示出根据本发明第三实施例的声像定位改变处理过程的流程图；

图22是示出根据本发明第三实施例的声像定位改变处理过程的流程图；

图23是示出根据本发明第四实施例的盘回放设备的结构的示意图；

图24是示出根据本发明第四实施例的多声道转换处理部分的电路结构的示意性框图；

图25是示出根据本发明第四实施例的分量分析器的电路结构的示意性框图；

图26是示出多声道之前的声像定位的示意图；

图27是示出声像被均匀扩大的声像定位的示意图；

图28是示出声像被均匀缩窄的声像定位的示意图；

图29是示出根据本发明第四实施例的声像定位改变处理过程的流程图；

图30是示出根据本发明另一实施例的在信号被转换为4声道信号之后的声像定位的示意图；

图31是示出根据本发明另一实施例的在信号被转换为4声道信号之后的声像定位的示意图；以及

图32是示出根据本发明另一实施例的在信号被转换为4声道信号之后的声像定位的示意图；

具体实施方式

将参照附图来对本发明的实施例加以详细说明。

(1)基本概念

在本发明的一个方面，以如下的方式来增强虚拟环绕效果：包括在具有两个以上声道的音频信号中的各种源的声像能按照用户的喜好来扩大或缩窄；以及控制声像的散布，而不改变音频信号的原始声音品质。

通常，由于声像定位归因于用户的感觉，所以其可能不能用数学公式来表达。如果左右声道的立体声音频信号相同，则收听者可能会觉得其音频源(声像)位于左扬声器和右扬声器之间的中间点上。如果音频信号仅仅被包括在左声道内，则收听者可能会觉得其音频源(声像)接近于左扬声器。

收听者认知或感觉到的声像的位置还被称为“声像定位”。相对于某一点(例如，收听者的收听位置)的声像定位的角度还被称为“定位角”。

关于声像定位有多种方法。例如，一种方法是基于到达收听者耳朵的音频信号的相位差(时间差)和能级比(声压级的比值)，来使收听者觉得音频源位于听觉空间中的特定点上(在特定方向)。这样会对从音频源而来的音频信号执行傅立叶变换处理，并在频率轴上向音频信号的每个声道添加依赖于频率的能级比和相位差，以便将声像置于特定方向中。

与此相反，在本发明的实施例中，音频信号的每个声道(左声道和右声道) 的相位差和能级比被用作表示所定位的音频源的角度的信息。因此，能通过分析音频信号的每个声道的相位差和音频信号的每个声道的能级比来评估音频源的定位角(或音频源所位于的点(定位点))。

除此之外，调整音频信号的每个声道的相位差和能级比，可任意改变评估的音频源的定位角，并且执行声像的重新映射来将声像设置得超出预期定位点(该处理被称为“放大”)，或者执行声像的重新映射来将声像设置在其内(该处理被称为“缩小”)。这样能向收听者提供其中定位角按照他/她的喜好来调整而不会改变原始声音的品质的声像定位，并提供他/她想要的三维听觉空间。

(2)第一实施例

(2-1)回放设备的结构

在图1中，参考数字标记1表示根据本发明第一实施例的回放设备。系统控制器5或微型计算机执行预定的音频信号处理程序，以进行对设备1的总体控制。例如，媒体再现部分2从各种存储介质、诸如光盘存储介质(CD，DVD，“蓝光盘(注册商标)”等)、“迷你盘(索尼公司注册商标)”、磁盘(硬盘等)或半导体存储器中再现左声道音频信号LS1和右声道音频信号RS1。媒体再现部分2随后将左声道音频信号LS1和右声道音频信号RS1提供给音频信号处理部分3。

根据从操作部分6经系统控制器5提供的用以执行放大或缩小的缩放变量信号Z1，音频信号处理部分3对从媒体再现部分2提供的左声道音频信号LS1和右声道音频信号RS1执行信号处理，以控制声像定位。音频信号处理部分3随后向数模转换器4提供所获得的左声道音频数据LD和右声道音频数据RD。

数模转换器4对音频数据LD和RD执行数模转换处理，以获得左声道音频信号LS2和右声道音频信号RS2。左扬声器SPL和右扬声器SPR输出基于左声道音频信号LS2和右声道音频信号RS2的声音。

例如，系统控制器5相当于微型计算机，包括中央处理单元(CPU)、只读存储器(ROM)和随机存取存储器(RAM)。系统控制器5执行预定的音频信号处理程序，以进行对回放设备1的总体控制。

系统控制器5控制媒体再现部分2和音频信号处理部分3，以基于从操作部分6输入的命令信号、诸如回放命令、停止命令或缩放变量命令，来执行各种处理。

(2-2)音频信号处理部分的电路结构

如图2所示，音频信号处理部分3包括：分析滤波器组(filter bank)11，向其输入左声道音频信号LS1；分析滤波器组12，向其输入右声道音频信号RS1。分析滤波器组11和12将左声道音频信号LS1和右声道音频信号RS1分离为多个分量，每一个分量都带有音频信号的相等或不等频带。这样产生了多个子带信号SBL1到SBLn和SBR1到SBRn。子带信号SBL1到SBLn和SBR1到SBRn被提供给分量分析器13A、13B、...、和13n及增益部分14A1、14A2、14B1、14B2、...、14n1、14n2。

分析滤波器组11和12将音频信号LS1和RS1分离为多个分量的方法可以包括离散傅立叶变换(DFT)滤波器组，小波滤波器组，正交镜像滤波器(QMF)等。

在这种情况下，左声道子带信号SBL1和右声道子带信号SBR1位于相同频带内。两个信号SBL1和SBR1都被提供给分量分析器13A。子带信号SBL1被提供给增益部分14A1，而子带信号SBR1被提供给增益部分14A2。

此外，左声道子带信号SBL2和右声道子带信号SBR2位于相同频带内。两个信号SBL2和SBR2都被提供给分量分析器13B。子带信号SBL2被提供给增益部分14B1，而子带信号SBR2被提供给增益部分14B2。

而且，左声道子带信号SBLn和右声道子带信号SBRn位于相同频带内。两个信号SBLn和SBRn都被提供给分量分析器13Bn。子带信号SBLn被提供给增益部分14n1，而子带信号SBRn被提供给增益部分14n2。

分量分析器13A分析左声道子带信号SBL1和右声道子带信号SBR1之间的相位差和它们的能级比，以基于子带信号SBL1和SBR1来评估声像的定位角。分量分析器13A随后基于评估的定位角和从系统控制器5提供的缩放变量信号Z1来确定增益值G1和G2，并将增益值G1和G2分别提供给增益部分14A1和14A2。

增益部分14A1将从分析滤波器组11提供的子带信号SBL1乘以从分量分析器13A提供的增益值G1，以产生子带信号SBL11，随后将子带信号SBL11提供给合成滤波器组15。增益部分14A2将从分析滤波器组12提供的子带信号SBR1乘以从分量分析器13A提供的增益值G2，以产生子带信号SBR11，随后将子带信号SBR11提供给合成滤波器组16。

以与分量分析器13A相类似的方式，分量分析器13B分析左声道子带信号SBL2和右声道子带信号SBR2之间的相位差和它们的能级比，以基于子带信号SBL2和SBR2来评估声像的定位角。分量分析器13B随后基于评估的定位角和从系统控制器5提供的缩放变量信号Z1来确定增益值G3和G4，并将增益值G3和G4分别提供给增益部分14B1和14B2。

增益部分14B1将从分析滤波器组11提供的子带信号SBL2乘以从分量分析器13B提供的增益值G3，以产生子带信号SBL22，随后将子带信号SBL22提供给合成滤波器组15。增益部分14B2将从分析滤波器组12提供的子带信号SBR2乘以从分量分析器13B提供的增益值G4，以产生子带信号SBR22，随后将子带信号SBR22提供给合成滤波器组16。

以与分量分析器13A和13B相类似的方式，分量分析器13n分析左声道子带信号SBLn和右声道子带信号SBRn之间的相位差和它们的能级比，以基于子带信号SBLn和SBRn来评估声像的定位角。分量分析器13n随后基于评估的定位角和从系统控制器5提供的缩放变量信号Z1来确定增益值Gm和Gn，并将增益值Gm和Gn分别提供给增益部分14n1和14n2。

增益部分14n1将从分析滤波器组11提供的子带信号SBLn乘以从分量分析器13n提供的增益值Gm，以产生子带信号SBLmm，随后将子带信号SBLmm提供给合成滤波器组15。增益部分14n2将从分析滤波器组12提供的子带信号SBRn乘以从分量分析器13n提供的增益值Gn，以产生子带信号SBRnn，随后将子带信号SBRnn提供给合成滤波器组16。

合成滤波器组15合成从增益部分14A1、14B1、...、14n1提供的子带信号SBL11、SBL22、...、SBLmm，以产生左声道音频信号LD，并随后将左声道音频信号LD提供给数模转换器4(图1)。合成滤波器组16合成从增益部分14A2、14B2、...、14n2提供的子带信号SBR11、SBR22、...、SBRnn，以产生右声道音频信号RD，并随后将右声道音频信号RD提供给数模转换器4(图1)。

如果基于用户的指令而命令声像的放大或缩小的命令信号没有被提供给音频信号处理部分3，系统控制器5就不向分量分析器13A1、13A2、...、和13n2提供缩放变量信号Z1。从分析滤波器组11提供的子带信号SBL1、SBL2、...、和SBLn被简单地提供给合成滤波器组15，而无需进行增益调整。从分析滤波器组12提供的子带信号SBR1、SBR2、...、和SBRn被简单地提供给合成滤波器组16，而无需进行增益调整。

(2-3)分量分析器的电路结构

将说明上述分量分析器13A、13B、...、和13n的电路结构。它们的电路结构全部相同，因此将仅说明分量分析器13A的电路结构。

如图3所示，分量分析器13A向傅立叶变换器21提供从分析滤波器组11(图2)提供的子带信号SBL1，并且向傅立叶变换器22提供从分析滤波器组12(图2)提供的子带信号SBR1。

傅立叶变换器21和22分别对子带信号SBL1和SBR1执行傅立叶变换处理。傅立叶变换器21和22随后向相位差计算器23和能级比计算器24提供所获得的复数子带信号SBL1i和SBR1i。

相位差计算器23计算相位差θ1，其是从傅立叶变换器21提供的复数子带信号SBL1i与从傅立叶变换器22提供的复数子带信号SBR1i之间的差值。相位差计算器23随后将相位差θ1提供给增益计算器25。

能级计算器24计算能级比C1，其是从傅立叶变换器21提供的复数子带信号SBL1i与从傅立叶变换器22提供的复数子带信号SBR1i的比值。能级比计算器24随后将能级比C1提供给增益计算器25。

增益计算器25基于从相位差计算器23提供的相位差θ1、从能级比计算器24提供的能级比C1和从系统控制器5提供的缩放变量信号Z1，来确定增益值G1和G2。增益计算器25随后输出增益值G1和G2。

因此，音频信号处理部分3能使得以下的数据变得比信号处理之前更大或更小：由增益部分14A1(图2)将其与增益值G1相乘的子带信号SBL1与由增益部分14A2(图2)将其与增益值G2相乘的子带信号SBR1之间的相位差和能级比。

因此，音频信号处理部分3通过左扬声器SPL和右扬声器SPR输出以下声音：包含在由合成滤波器组15产生的子带信号SBL1中的音频信号LD的声音，和包含在由合成滤波器组16产生的子带信号SBR1中的音频信号RD的声音。此时，对于音频信号处理部分3来说易于扩大或缩窄与子带信号SBL1和SBR1的频带相对应的音频源的声像。

实际上，为了改变声像定位的定位角，左右声道的能级比由例如录音棚的声音混合器等来控制。因此，很明显地，能通过控制左声道音频信号与右声道音频信号的能级比来改变声像的定位角。

例如，当8000Hz附近的子带信号的声像的定位角通过将当前向右成30度角倾斜的这个声像转动到向右成45度角倾斜而改变时，对于定位角是向右成30度角的声像而言，左右声道的能级比是1:2。在这种情况下，上述增益值G1和G2这样来确定，以使得能级比变为1:3。基于这些增益值G1和G2来调整左右声道子带信号的振幅等级，能改变声像的定位角，以使得向右成30度角倾斜的声像变为向右成45度角倾斜。

通常，众所周知的是，对于频带低于3500Hz的子带信号而言，为了确定定位角，相位差比左右声道能级比更重要。因此，对于低于3500Hz的信号，经常调整子带信号的相位差，以代替左右声道子带信号的能级比调整。顺便提及的是，还可以调整能级比和相位差这两者来改变声像的定位角。

(2-4)声像的放大和缩小

有多种模式与在音频信号处理部分3进行声像的放大或缩小前后的声像定位的定位角有关。以下说明了其几个实例。

在图4中，对于在音频信号处理部分3的放大或缩小信号处理之前的声像定位，例如，相对于坐在左扬声器SPL和右扬声器SPR之间的中间点的收听者LNR，从左到右有五个声像A、B、C、D和E：声像A的音频源是钢琴；声像B的音频源是低音吉他；声像C的音频源是鼓；声像D的音频源是萨克斯管；而声像E的音频源是吉他。

相对于收听者LNR，由于声像C在收听者LNR的前面，所以声像C的定位角是0度。声像D的定位角是向右22.5度。声像B的定位角是向左22.5度。声像E的定位角是向右45度。声像A的定位角是向左45度。

(2-4-1)均匀扩大

如图5所示，当音频信号处理部分3均匀地扩大或放大声像A到E(图4)以响应于从系统控制器5(图1)提供的缩放变量信号Z1时，声像C的位置保持不变，因为其位于中央。然而，声像D的定位角变为向右30度；声像B的定位角变为向左30度；声像E的定位角变为向右60度；而声像A的定位角变为向左60度。

从收听者LNR的观察点来看，声像A和E的位置已经被移动超过了左扬声器SPL和右扬声器SPR。随着这种情况的发生，音频信号处理部分3停止输出声像A和E的子带信号。这样阻止了收听者LNR识别出这些声像A和E的音频源，即钢琴和吉他。

在这种情况下，音频信号处理部分3停止输出声像A和E的子带信号。作为选择，音频信号处理部分3可以根据用户的喜好不停止输出超出了左扬声器SPL和右扬声器SPR的声像A和E的子带信号。

如图6所示，当音频信号处理部分3均匀地缩窄或缩小声像A到E以响应于从系统控制器5(图1)提供的缩放变量信号Z1时，声像C的位置保持不变，这是因为其位于中央。然而，声像D的定位角变为向右17度；声像B的定位角变为向左17度；声像E的定位角变为向右30度；而声像A的定位角变为向左30度。

以这种方式，所有声像A到E聚集在左扬声器SPL和右扬声器SPR之间的中间点上。在这种情况下，音频信号处理部分3不停止输出声像A和E的子带信号。

图7示出了根据缩放变量信号Z1的缩放变量而改变的定位角之间的关系：在音频信号处理部分3的音频信号处理(重新映射)前后的声像A到E的定位角。横轴代表信号处理前的定位角，而纵轴代表信号处理后的定位角。

例如，当系统控制器5(图2)向音频信号处理部分3提供缩放变量为“0”的缩放变量信号Z1时，在音频信号处理部分3的信号处理之前的声像A到E的定位角与在音频信号处理部分3的信号处理之后的声像A到E的定位角相同。因此，声像A到E保持不变。

当系统控制器5向音频信号处理部分3提供缩放变量为“+0.5”或“+1”的缩放变量信号Z1时，在音频信号处理部分3的信号处理之后的声像A到E的定位角变得大于在音频信号处理部分3的信号处理之前的声像A到E的定位角，如一点和两点点划线所表示的那样。这意味着，由于正的缩放变量，声像A到E变得扩大了，如图5所示。

例如，当缩放变量被设定为“+1”时，声像E的定位角从向右45度(在信号处理之前)变为向右90度(在信号处理之后)。顺便提及的是，如果在信号处理之前的定位角是向左90度，则系统控制器5停止输出其子带信号。

当系统控制器5向音频信号处理部分3提供缩放变量为“-0.5”或“-1”的缩放变量信号Z1时，在音频信号处理部分3的信号处理之后的声像A到E的定位角变得小于在音频信号处理部分3的信号处理之前的声像A到E的定位角，如折线和虚线所表示的那样。这意味着，由于负的缩放变量，声像A到E变得缩窄了，如图6所示。

例如，当缩放变量被设定为“-1”时，定位角从向右90度(在信号处理之前)变为向右45度(在信号处理之后)。顺便提及的是，如果在信号处理之前的定位角是向左90度，则系统控制器5停止输出其子带信号。

(2-4-2)在中央处赋予重要性

在图8中，响应于从系统控制器5(图1)提供的缩放变量信号Z1，音频信号处理部分3扩大在中央处的声像C，同时缩窄在两端的声像A和E。在这种情况下，声像C在收听者LNR前面处于支配地位。

因此，声像C的位置保持在中央，同时由于声像C的扩张，声像A、B、D和E向外移动。以这种方式，声像A、B、D和E的定位点改变了。

在图9中，响应于从系统控制器5(图1)提供的缩放变量信号Z1，音频信号处理部分3缩窄在中央的声像C，同时扩大在两端的声像A和E。在这种情况下，声像C位于中央处，而相邻的声像B和D向内移动。

图10示出了根据缩放变量信号Z1的缩放变量而改变的定位角之间的关系：在音频信号处理部分3的音频信号处理前后的声像A到E的定位角。横轴代表信号处理之前的定位角，而纵轴代表信号处理之后的定位角。

当系统控制器5向音频信号处理部分3提供缩放变量为“+0.5”或“+1”的缩放变量信号Z1时，在音频信号处理部分3的信号处理之后的声像A到E的定位角变得非线性地大于在音频信号处理部分3的信号处理之前的声像A到E的定位角，如折线和虚线所表示的那样。这意味着，由于正的缩放变量，在中央处的声像C变得扩大了，而在两端的声像A和E变得缩窄了，如图8所示。

例如，当缩放变量被设定为“+1”时，定位角从向右45度(在信号处理之前)变为向右72度(在信号处理之后)。顺便提及的是，如果在信号处理之前的定位角是向左90度，则系统控制器5不改变定位角。

当系统控制器5向音频信号处理部分3提供缩放变量为“-0.5”或“-1”的缩放变量信号Z1时，在音频信号处理部分3的信号处理之后的声像A到E的定位角变得非线性地小于在音频信号处理部分3的信号处理之前的声像A到E的定位角，如一点和两点点划线所表示的那样。这意味着，由于负的缩放变量，在中央处的声像C变得缩窄了，而在两端的声像A和E变得扩大了，如图9所示。

例如，当缩放变量被设定为“-1”时，定位角从向右45度(在信号处理之前)变为向右32度(在信号处理之后)。顺便提及的是，如果在信号处理之前的定位角是向左90度，则系统控制器5不改变定位角。

(2-5)定位角改变处理过程

图11是示出了改变声像A到E的定位角的处理过程的流程图。

回放设备1的系统控制器5从开始步骤开始例程RT1，随后前进到下一步SP1。在步骤SP1，系统控制器5检查将要通过媒体再现部分2输入到音频信号处理部分3的分析滤波器组11和12的左声道音频信号LS1和右声道音频信号RS1是否已经被转换为允许改变定位角的某一信号格式。

例如，如果音频信号LS1和RS1已经被压缩为MPEG-1音频层3(MP3)格式等，或者如果它们的频率与预期的信号格式的采样频率不同，则系统控制器5可能不能改变它们的定位角，除非这些信号被转换为允许改变定位角的某一信号格式。

因此，当在步骤SP1获得肯定结果时，系统控制器5前进到下一步骤SP3。与此相反，在步骤SP1的否定结果意味着音频信号处理部分3可能不能改变音频信号LS1和RS1的声像定位的定位角，因此系统控制器5前进到下一步骤SP2。

在步骤SP2，系统控制器5将音频信号LS1和RS1转换为某种信号格式以改变定位角，随后前进到下一步骤SP3。

在步骤SP3，系统控制器5检查缩放变量Z1是否为“0”，其中缩放变量Z1将要被传输到音频信号处理部分3以响应于用户的操作。

在步骤SP3的肯定结果意味着缩放变量为“0”。其意味着没有提供启动改变定位角的处理的命令信号。在这种情况下，系统控制器5不执行通过音频信号处理部分3改变定位角的处理，随后前进到步骤SP9。

在步骤SP3的否定结果意味着缩放变量不是“0”。其意味着提供了启动改变定位角的处理的命令信号。在这种情况下，系统控制器5前进到下一步骤SP4，以执行通过音频信号处理部分3改变定位角的处理。

在步骤SP4，系统控制器5控制音频信号处理部分3的分析滤波器组11，以便将左声道音频信号LS1分离为具有不同频带的多个分量。系统控制器5还控制音频信号处理部分3的分析滤波器组12，以便将右声道音频信号RS1分离为具有不同频带的多个分量。系统控制器5随后向分量分析器13A到13n的傅立叶变换器21和22提供所获得的子带信号SBL1到SBLn和SBR1到SBRn，并且随后前进到下一步骤SP5。

在步骤SP5，系统控制器5控制分量分析器13A到13n的傅立叶变换器21和22，以便对子带信号SBL1到SBLn和SBR1到SBRn执行傅立叶变换处理。系统控制器5随后向相位差计算器23和能级比计算器24提供所获得的复数子带信号SBL1i到SBLni和SBR1i到SBRni，并且随后前进到下一步骤SP6。

在步骤SP6，系统控制器5通过分量分析器13A到13n的相位差计算器23和能级比计算器24来计算相位差θ1和能级比C1，将相位差θ1和能级比C1提供给增益计算器25，并且随后前进到下一步骤SP7。

在步骤SP7，系统控制器5基于相位差θ1、能级比C1和缩放变量信号Z1的缩放变量来确定增益值G1和G2，并使用增益值G1和G2通过音频信号处理部分3的增益部分14A1到14n2来控制子带信号SBL1到SBLn和SBR1到SBRn的增益。系统控制器5分别向合成滤波器组15和16提供所获得的子带信号SBL11到SBLmm和SBR11到SBRnn。系统控制器5随后前进到下一步骤SP8。

在步骤SP8，系统控制器5通过合成滤波器组15合成从增益部分14A1、14B1、...、14n1提供的子带信号SBL11、SBL22、...、和SBLmm，以产生左声道音频信号LD。系统控制器5还通过合成滤波器组16合成从增益部分14A2、14B2、...、14n2提供的子带信号SBR11、SBR22、...、和SBRnn，以产生右声道音频信号RD。系统控制器5随后前进到下一步骤SP9。

在步骤SP9，系统控制器5通过数模转换器4对从音频信号处理部分3的合成滤波器组15和16提供的音频信号LD和RD执行数模转换处理。左扬声器SPL和右扬声器SPR随后输出基于所获得的信号的声音。系统控制器5随后前进到下一步骤SP10。

此时，根据缩放变量来将能级比和相位差提供给在相同频带内的以下信号：包含在用于左扬声器SPL的音频信号LD中的子带信号SBL11、SBL22、...、和SBLmm；包含在用于右扬声器SPR的音频信号RD中的子带信号SBR11、SBR22、...、和SBRnn。因此，当左扬声器SPL和右扬声器SPR输出声音时，可以根据用户的喜好通过缩放变量信号Z1来改变在信号处理之前的声像A到E的定位角(图4)。

在步骤SP10，系统控制器5检查是否有下一个左声道和右声道音频信号LS1和RS1被输入到音频信号处理部分3的分析滤波器组11和12。在步骤SP10的否定结果意味着没有信号要被处理用以改变定位角。在这种情况下，系统控制器5前进到下一步骤SP12以结束该处理。

在步骤SP10的肯定结果意味着有下一个音频信号LS1和RS1要被处理用以改变定位角。在这种情况下，系统控制器5在步骤SP11中重置上述缩放变量，并且随后返回到步骤SP1以重复随后的处理。

(2-6)在第一实施例中的操作和效果

利用具有上述结构的回放设备1，音频信号处理部分3将左声道和右声道音频信号LS1和RS1均匀地分离为具有均匀频带的分量。因此，获得了子带信号SBL和SBR。音频信号处理部分3随后控制能级比C1和相位差θ1的增益，它们是从相同频带的子带信号SBL和SBR中通过与缩放变量信号Z1的缩放变量相对应的增益值G1和G2计算得到的。这样能任意改变声像A到E的定位角。

因此，音频信号处理部分3能均匀地(或线性地)扩展或缩窄声像A到E，如图5和6所示的那样。同时，音频信号处理部分3能够非线性地扩大和缩窄声像A到E，如图8和9所示的那样。

尤其是，在如图5所示的那样均匀地扩大声像A到E之后，扩展的声像B到D保持在左扬声器SPL与右扬声器SPR之间，而声像A和E被减小，这是因为它们超出了左扬声器SPL和右扬声器SPR。

在这种情况下，音频信号处理部分3能从包括在音频信号LS1和RS1中的各种音频源中仅向用户提供与他/她所想要的声像B到D相对应的音频源的声音。这给予了收听者LNR符合他/她的喜好的虚拟环绕效果，而不会改变音频信号LS1和RS1的原始声音的品质。

另外，音频信号处理部分3能非线性地扩大或缩窄声像A到E，如图8和9所示。因此，例如，音频信号处理部分3能扩大声像C同时缩窄声像A和E；或者，例如，音频信号处理部分3能扩大声像A和E同时缩窄声像C。通过按照用户他她的喜好来改变声像A到E的声像定位，这提供给用户各种听觉空间。

上述结构使得以下成为可能：回放设备1仅通过音频信号处理部分3执行信号处理，并且这改变了声像定位的定位角；以及，不管左扬声器SPL和右扬声器SPR的位置、房间的形状和收听者LNR的位置如何，回放设备1都能随后基于音频信号LS1和RS1来改变声像的范围，而不会改变原始声音的品质。

另外，回放设备1能改变声像A、B、D和E的范围，而不改变位于左扬声器SPL和右扬声器SPR之间的中间点上的声像C；而且回放设备1还能提供按照它们的定位角散布的声像A到E的不同感觉。因此，能按照用户的喜好来提供扩展的或缩窄的听觉空间。

(3)第二实施例

(3-1)图像拾取设备的结构

在图12中，参考数字标记31表示根据本发明第二实施例的图像拾取设备。控制部分(未示出)或微型计算机执行预定的音频信号处理程序，以进行对设备31的总体控制。从摄影对象而来的光传到电荷耦合器件(CCD)33(其是图像拾取设备的主要部件)，以经由镜头组件部分32的内部镜头来形成图像。

CCD33是图像传感器(所谓的成像器)，其包括多个光敏元件。由CCD33接收的光被转换为电信号。CCD33将在图像拾取表面上形成的摄影对象的光转换为电信号，随后将该电信号提供给视频信号处理部分34。

视频信号处理部分34对从CCD33提供的电信号执行预定的信号处理，以产生例如标准彩色电视信号，诸如其中亮度信号Y和两个色差信号R-Y和B-Y被多路复用的NTSC(NTSC：国家电视系统委员会)，或者PAL(PAL：逐行倒相彩色电视)。视频信号处理部分34随后向监视器(未示出)提供标准彩色电视信号。顺便提及的是，视频信号处理部分34向自动聚焦检测器36提供亮度信号Y。

镜头组件部分32包括变焦镜头，用以在拍摄摄影对象时改变景深。镜头组件部分32还包聚焦镜头，用以控制摄影对象的聚焦点。镜头组件部分32通过基于来自镜头驱动电路35的控制信号而受到控制的步进电机，控制变焦镜头。镜头组件部分32移动变焦镜头以改变景深。

另外，镜头组件部分32通过基于来自镜头驱动电路35的控制信号而受到控制的步进电机，控制聚焦镜头。镜头组件部分32移动聚焦镜头，以控制摄影对象的聚焦点。

基于从视频信号处理部分34提供的亮度信号Y，自动聚焦检测器36检测在自动聚焦操作期间聚焦镜头已经移动的距离。自动聚焦检测器36向镜头驱动电路35提供所获得的检测波信号。

基于从自动聚焦检测器36提供的检测波信号的光圈值，镜头驱动电路35产生聚焦镜头移动信号以控制要被聚焦在摄影对象的聚焦点上的聚焦镜头的速度，并随后将其作为控制信号提供给镜头组件部分32。

在图像拾取设备31中，当用户操作变焦开关37以改变缩放量时，缩放变量信号Z2被提供给镜头驱动电路35和音频信号处理部分40。

镜头驱动电路35基于缩放变量信号Z2产生变焦镜头移动信号，以控制变焦组件部分32中的变焦镜头的位置，并且随后将其作为控制信号提供给步进电机，步进电机随后控制变焦镜头以调整景深。

在拍摄对象时，图像拾取设备31通过两个立体声麦克风38来收集输入的声音。图像拾取设备31向模数转换器39提供所获得的左声道模拟立体声音频信号ALS1和右声道模拟立体声音频信号ARS1。

模数转换器39对左声道模拟立体声音频信号ALS1和右声道模拟立体声音频信号ARS1执行模数转换处理，以产生左声道数字立体声音频信号DLS1和右声道数字立体声音频信号DRS1，并且随后向音频信号处理部分40提供左声道数字立体声音频信号DLS1和右声道数字立体声音频信号DRS1。

音频信号处理部分40将从变焦开关37提供的缩放变量信号Z2用作缩放变量，并且基于缩放变量来改变基于数字立体声音频信号DLS1和DRS1的声像的区域，以产生音频信号LD和RD。音频信号处理部分40随后控制数模转换器(未示出)将音频信号LD和RD转换为模拟信号，并且随后从左右扬声器中输出它们。

(3-2)第二实施例中的音频信号处理部分的电路结构

如图13所示(图13的部件用与图2的相应部件相同的参考数字标记和符号来标明)，第二实施例的音频信号处理部分40的电路结构实质上与第一实施例的音频信号处理部分3(图2)的电路结构相同。

在此情况下，音频信号处理部分40将左声道数字立体声信号DLS1输入到分析滤波器组11，并且将右声道数字立体声信号DRS1输入到分析滤波器组12。分析滤波器组11和12将数字立体声音频信号DLS1和DRS1分离为多个分量，每一个分量都带有音频信号的相等或不等频带。这样产生了多个子带信号SBL1到SBLn和SBR1到SBRn。子带信号SBL1到SBLn和SBR1到SBRn被提供给分量分析器13A、13B、...、和13n以及增益部分14A1、14A2、14B1、14B2、...、14n1、14n2。

在此情况下，左声道子带信号SBL1和右声道子带信号SBR1位于相同的频带内。两个信号SBL1和SBR1都被提供给分量分析器13A。子带信号SBL1被提供给增益部分14A1，而子带信号SBR1被提供给增益部分14A2。

此外，左声道子带信号SBL2和右声道子带信号SBR2位于相同的频带内。两个信号SBL2和SBR2都被提供给分量分析器13B。子带信号SBL2被提供给增益部分14B1，而子带信号SBR2被提供给增益部分14B2。

而且，左声道子带信号SBLn和右声道子带信号SBRn位于相同的频带内。两个信号SBLn和SBRn都被提供给分量分析器13Bn。子带信号SBLn被提供给增益部分14n1，而子带信号SBRn被提供给增益部分14n2。

分量分析器13A分析左声道子带信号SBL1和右声道子带信号SBR1之间的相位差和它们的能级比，以基于子带信号SBL1和SBR1来评估声像的定位角。分量分析器13A随后基于评估的定位角和从系统控制器5提供的增益变量信号Z2来确定增益随G1和G2，并将增益值G1和G2分别提供给增益部分14A1和14A2。

增益部分14A1将从分析滤波器组11提供的子带信号SBL1乘以从分量分析器13A提供的增益值G1，以产生子带信号SBL11，并且随后将子带信号SBL11提供给合成滤波器组15。增益部分14A2将从分析滤波器组12提供的子带信号SBR1乘以从分量分析器13A提供的增益值G2，以产生子带信号SBR11，并且随后将子带信号SBR11提供给合成滤波器组16。

以与分量分析器13A相似的方式，分量分析器13B分析左声道子带信号SBL2和右声道子带信号SBR2之间的相位差和它们的能级比，以基于子带信号 SBL2和SBR2来评估声像的定位角。分量分析器13B随后基于评估的定位角和从系统控制器5提供的增益变量信号Z2来确定增益值G3和G4，并将增益值G3和G4分别提供给增益部分14B1和14B2。

增益部分14B1将从分析滤波器组11提供的子带信号SBL2乘以从分量分析器13B提供的增益值G3，以产生子带信号SBL22，并且随后将子带信号SBL22提供给合成滤波器组15。增益部分14B2将从分析滤波器组12提供的子带信号SBR2乘以从分量分析器13B提供的增益值G4，以产生子带信号SBR22，并且随后将子带信号SBR22提供给合成滤波器组16。

以与分量分析器13A和13B相似的方式，分量分析器13n分析左声道子带信号SBLn和右声道子带信号SBRn之间的相位差和它们的能级比，以基于子带信号SBLn和SBRn来评估声像的定位角。分量分析器13n随后基于评估的定位角和从系统控制器5提供的增益变量信号Z2来确定增益值Gm和Gn，并将增益值Gm和Gn分别提供给增益部分14n1和14n2。

增益部分14n1将从分析滤波器组11提供的子带信号SBLn乘以从分量分析器13n提供的增益值Gm，以产生子带信号SBLmm，并且随后将子带信号SBLmm提供给合成滤波器组15。增益部分14n2将从分析滤波器组12提供的子带信号SBRn乘以从分量分析器13n提供的增益值Gn，以产生子带信号SBRnn，并且随后将子带信号SBRnn提供给合成滤波器组16。

合成滤波器组15合成从增益部分14A1、14B1、...、14n1提供的子带信号SBL11、SBL22、...、SBLmm以产生左声道音频信号LD，然后将左声道音频信号LD提供给随后的数模转换器。合成滤波器组16合成从增益部分14A2、14B2、...、14n2提供的子带信号SBR11、SBR22、...、SBRnn以产生右声道音频信号RD，然后将右声道音频信号RD提供给随后的数模转换器。

在音频信号处理部分40中，在用户没有操作变焦开关37来改变缩放量时，缩放变量信号Z2不提供给分量分析器13A、13B、...、和13n。在此情况下，子带信号SBL1、SBL2、...、和SBLn从分析滤波器组11直接提供给合成滤波器组15，而不调整它们的增益。另外，子带信号SBR1、SBR2、...、和SBRn从分析滤波器组12直接提供给合成滤波器组16，而不调整它们的增益。

顺便提及的是，分量分析器13A到13n的电路结构与第一实施例的音频信号处理部分3的分量分析器13A到13n(图3)的电路结构相同。因此，为了易于解释，省略了其说明。

(3-3)相据视频缩放操作改变声像区域

在具有上述结构的图像拾取设备31中，根据视频缩放操作来改变声像区域，视频缩放操作按照变焦开关37来扩大要被拍摄的摄影对象。将说明这一点。

例如，图14示出了其中有五个人的视频图像V1。如果用户操作变焦开关37来仅仅扩大或聚焦在五个人中靠近中间的三个人上(如视频图像V2)，则声像区域根据该视频缩放操作而改变。

图15A示出了当得到五个人的视频图像V1时的声像定位：在左扬声器SPL和右扬声器SPR之间存在声像A到E，如同它们与作为音频源的五个人相关联那样。

在视频图像V1被转换为仅聚焦靠近中间的三个人的视频图像V2之后，音频信号处理部分40根据缩放变量信号Z2扩大声像A到E。具体来说，基于缩放变量信号Z2，音频信号处理部分40为分量分析器13A到13n确定增益值G1到Gn，以扩大声像A到E。这样改变了它们的定位角。

此时，音频信号处理部分40留下与靠近中间的三个人的音频源相对应的声像B到E，同时音频信号处理部分40停止与在两端的两个人的音频源相对应的声像A和E。

因此，在记录其中根据用户对变焦开关37的缩放改变操作来扩大和聚焦摄影对象的视频图像时，音频信号处理部分40能改变声像A到E的定位角。以这种方式，在记录视频图像时，根据对摄影对象的视频缩放操作来改变声像区域。

(3-4)利用视频缩放操作的定位角切换处理的过程

参照图16，将说明定位切换处理过程：根据用户的变焦开关操作，图像拾取设备31的定位切换处理改变声像A到E的区域。

图像拾取设备31从开始步骤开始例程RT2，随后前进到下一步骤SP21。在步骤SP21，控制部分(未示出)或微型计算机检查要从立体声麦克风38输入到音频信号处理部分40的分析滤波器组11和12的左声道数字立体声音频信号DLS1和右声道数字立体声音频信号DRS1是否已经被转换为允许设备31改变它们的定位角的某一格式。

例如，如果数字立体声音频信号DLS1和DRS的采样频率与预期的采样频率不同或与音频信号处理部分40上的预期信号格式不同，则数字立体声音频信号DLS1和DRS将会被转换为允许设备31改变它们的定位角的某一格式。

因此，如果在步骤SP21得到肯定的结果，则图像拾取设备31的控制部分就前进到步骤SP23。在步骤SP21的否定结果意味着数字立体声音频信号DLS1和DRS1的当前格式不允许音频信号处理部分40改变它们的定位角。在此情况下，图像拾取设备31的控制部分前进到下一步骤SP22。

在步骤SP22，图像拾取设备31的控制部分将数字立体声音频信号DLS1和DRS1转换为允许设备31改变它们的定位角的某一格式，并且随后前进到下一步骤SP23。

在步骤SP23，图像拾取设备31的控制部分检查响应于用户对变焦开关37的变焦开关操作而从变焦开关37(图12)提供的缩放变量信号Z2的缩放变量是否为0。

在步骤SP23的肯定结果意味着缩放变量为0。其意味着图像拾取设备31没有放大任何视频图像。在此情况下，图像拾取设备31的控制部分前进到步骤SP29，而不改变声像的定位角。

在步骤SP23的否定结果意味着缩放变量不是0。其意味着图像拾取设备31正在放大视频图像。在此情况下，图像拾取设备31的控制部分前进到下一步骤SP24，以根据视频缩放操作来改变声像的定位角。

在步骤SP24，图像拾取设备31的控制部分控制音频信号处理部分40的分析滤波器组11，以将左声道数字立体声音频信号DLS1分离为具有不同频带的多个分量。控制部分还控制音频信号处理部分40的分析滤波器组12，以将右声道数字立体声音频信号DRS1分离为具有不同频带的多个分量。控制部分随后向分量分析器13A到13n提供所获得的子带信号SBL1到SBLn和SBR1到SBRn，并且随后前进到下一步骤SP25。

在步骤SP25，图像拾取设备31的控制部分控制分量分析器13A到13n的傅立叶变换器21和22(图3)，以对子带信号SBL1到SBLn和SBR1到SBRn执行傅立叶变换处理。控制部分随后向相位差计算器23和能级比计算器24提供所获得的复数子带信号SBL1i到SBLni和SBR1i到SBRni，并且随后前进到下一步骤SP26。

在步骤SP26，图像拾取设备31的控制部分通过分量分析器13A到13n的相位差计算器23和能级比计算器24计算相位差θ1和能级比C1，将相位差θ1和能级比C1提供给增益计算器25，并且随后前进到下一步骤SP27。

在步骤SP27，图像拾取设备31的控制部分基于相位差θ1、能级比C1和缩放变量信号Z2的缩放变量来确定增益值G1和G2，并使用这些增益值G1和G2通过音频信号处理部分40的增益部分14A1到14n2来控制子带信号SBL1到SBLn和SBR1到SBRn的增益。控制部分分别向合成滤波器组15和16提供所获得的子带信号SBL11到SBLmm和SBR11到SBRnn。控制部分随后前进到下一步骤SP28。

在步骤SP28，图像拾取设备31的控制部分通过音频信号处理部分40的合成滤波器组15合成从增益部分14A1、14B1、...、14n1提供的子带信号SBL11、SBL22、...、和SBLmm，以产生左声道音频信号LD。控制部分还通过合成滤波器组16合成从增益部分14A2、14B2、...、14n2提供的子带信号SBR11、SBR22、...、和SBRnn，以产生右声道音频信号RD。控制部分随后前进到下一步骤SP29。

在步骤SP29，图像拾取设备31的控制部分通过后续的数模转换器对从合成滤波器组15和16提供的音频信号LD和RD执行数模转换处理。左扬声器SPL和右扬声器SPR随后输出基于所获得的信号的声音。控制部分随后前进到下一步骤SP30。

此时，根据缩放变量将能级比和相位差提供给处于相同频带内的以下信号：包括在用于左扬声器SPL的音频信号LD中的子带信号SBL11、SBL22、...、和SBLmm；以及包括在用于右扬声器SPR的音频信号RD中的子带信号SBR11、SBR22、...、和SBRnn。因此，当左扬声器SPL和右扬声器SPR输出声音时，在信号处理之前的声像A到E的定位角(图15A)可以按照用户的喜好通过缩放变量信号Z2来改变。

在步骤SP30，图像拾取设备31的控制部分检查是否有下一个左声道和右声道数字立体声音频信号DLS1和DRS1要被输入到分析滤波器组11和12。在步骤SP30的否定结果意味着没有要被处理用于改变定位角的信号。在此情况下，控制部分前进到下一步骤SP32以结束处理。

在步骤SP30的肯定结果意味着有要被处理用于改变定位角的下一个数字立体声音频信号DLS1和DRS1。在此情况下，在步骤SP31，图像拾取设备31 的控制部分重置上述缩放变量，并且随后返回到步骤SP21，以重复随后的处理。

(3-5)在第二实施例中的操作和效果

具有上述结构的图像拾取设备31先前已经识别出声像A到E的定位位置，其中声像A到E的音频源与视频图像V1中的五个摄影对象(图14)相关联。当视频图像V1被切换为其中根据用户对变焦开关37的变焦开关操作而从五个摄影对象中仅放大靠近中间的三个人的视频图像V2时，图像拾取设备31根据缩放变量信号Z2改变声像A到E的范围。

尤其地，当视频图像V1被切换为其中显示或放大了五个摄影对象中的三个人的视频图像V2(图14)时，音频信号处理部分40执行以下的处理：音频信号处理部分40扩大声像A到E，输出其音频源与这三个摄影对象相关联的声像B到D，并且停止输出其音频源与位于视频图像V2之外的在两侧的两个人相关联的声像A和E。以这种方式，音频信号处理部分40能够仅记录来自显示在视频图像V2上的这三个摄影对象的声音。这使得视频图像与声音有关。

上述结构使得以下成为可能：在视频图像被缩放时，图像拾取设备31的音频信号处理部分40的信号处理能改变声像A到E的定位角。在视频图像被缩放时，这样能改变要记录的声像范围，而不会改变原始声音的品质。

(4)第三实施例

(4-1)视频和声音处理设备的结构

在图17中(图17的部件用与图1的相应部件相同的参考数字和标记来标明)，参考数字标记41表示根据本发明的第三实施例的视频和声音处理设备。系统控制器5或微型计算机执行预定的音频信号处理程序，以进行对视频和声音处理设备41的总体控制。

在系统控制器5的控制下，媒体再现部分2再现来自媒体的视频内容的视频信号VS1、左声道音频信号LS1和右声道音频信号RS1。媒体再现部分2随后向视频信号分析处理部分43提供视频信号VS1，并且向音频信号处理部分44提供左声道音频信号LS1和右声道音频信号RS1。

在系统控制器5的控制下，视频信号分析处理部分43分析视频信号VS1，以检测来自视频的脸部图像，并且基于脸部图像在视频上的位置(二维坐标系统)，确定脸部图像相对于视频图像中央的相对位置作为定位角。视频信号分析处理部分43随后将该定位角作为定位角信号F1提供给音频信号处理部分44。同时，视频信号分析处理部分43对视频信号VS1执行预定的信号处理，并且随后将其提供给监视器(未示出)；作为替换，视频信号分析处理部分43将视频信号VS1提供给监视器，而不对其执行任何信号处理。

顺便提及的是，有多种方式来检测脸部图像，由视频信号分析处理部分43来执行它们其中的一种。例如，在日本专利公开H9-251534中公开了检测眼睛、鼻子和嘴的相对位置，并且基于检测到的位置获得正面阴影图案。这允许检测脸部图像在视频上的位置。除此之外，还有许多其它方法来检测脸部图像，并且其中一些方法可以应用于视频信号分析处理部分43。

基于来自视频信号分析处理部分43的定位角信号F1，音频信号处理部分44产生缩放变量信号Z3(在下文中加以说明)，并且基于缩放变量信号Z3来移动脸部图像的声像，以便使该声像与脸部图像在视频上的位置相关联。以这种方式，音频信号处理部分44改变了声像定位。

(4-2)在第三实施例中的音频信号处理部分的电路结构

如图18所示(图18的部件用与图2的相应部件相同的参考数字标记和符号来标明)，除了安装在音频信号处理部分44中的缩放变量产生部分49之外，第三实施例的音频信号处理部分44的电路结构实质上与第一实施例的音频信号处理部分3(图2)的电路结构相同。

基于来自视频信号分析处理部分43的定位角信号F1，缩放变量产生部分49产生缩放变量信号Z3，其根据脸部图像相对于屏幕中央的相对位置而改变。缩放变量产生部分49随后向分量分析器13A到13n提供缩放变量信号Z3。

音频信号处理部分44分别向分析滤波器组11和12输入从媒体再现部分2提供的左声道音频信号LS1和右声道音频信号RS1。分析滤波器组11和12将音频信号LS1和RS1分离为多个分量，每一个分量都带有音频信号的相等或不等频带。这样产生了多个子带信号SBL1到SBLn和SBR1到SBRn。子带信号SBL1到SBLn和SBR1到SBRn被提供给分量分析器13A、13B、...、和13n以及增益部分14A1、14A2、14B1、14B2、...、14n1、14n2。

在此情况下，左声道子带信号SBL1和右声道子带信号SBR1在相同频带内。两个信号SBL1和SBR1都被提供给分量分析器13A。子带信号SBL1被提供给增益部分14A1，而子带信号SBR1被提供给增益部分14A2。

此外，左声道子带信号SBL2和右声道子带信号SBR2在相同频带内。两个信号SBL2和SBR2都被提供给分量分析器13B。子带信号SBL2被提供给增益部分14B1，而子带信号SBR2被提供给增益部分14B2。

而且，左声道子带信号SBLn和右声道子带信号SBRn在相同频带内。两个信号SBLn和SBRn都被提供给分量分析器13n。子带信号SBLn被提供给增益部分14n1，而子带信号SBRn被提供给增益部分14n2。

分量分析器13A分析左声道子带信号SBL1和右声道子带信号SBR1之间的相位差和它们的能级比，以便基于子带信号SBL1和SBR1评估声像的定位角。分量分析器随后基于评估的定位角和从缩放变量产生部分49提供的缩放变量信号Z3来确定增益值G1和G2，并将增益值G1和G2分别提供给增益部分14A1和14A2。

以与分量分析器13A相似的方式，分量分析器13B分析左声道子带信号SBL2和右声道子带信号SBR2之间的相位差和它们的能级比，以便基于子带信号SBL2和SBR2来评估声像的定位角。分量分析器13B随后基于评估的定位角和从缩放变量产生部分49提供的缩放变量信号Z3来确定增益值G3和G4，并将增益值G3和G4分别提供给增益部分14B1和14B2。

以与分量分析器13A和13B相似的方式，分量分析器13n分析左声道子带信号SBLn和右声道子带信号SBRn之间的相位差和它们的能级比，以便基于子带信号SBLn和SBRn来评估声像的定位角。分量分析器13n随后基于评估的定位角和从系统控制器49提供的缩放变量信号Z3来确定增益值Gm和Gn，并将增益值Gm和Gn分别提供给增益部分14n1和14n2。

合成滤波器组15合成从增益部分14A1、14B1、...、14n1提供的子带信号SBL11、SBL22、...、SBLmm，以产生左声道音频信号LD，然后将左声道音频信号LD提供给后续的数模转换器。合成滤波器组16合成从增益部分14A2、14B2、...、14n2提供的子带信号SBR11、SBR22、...、SBRnn，以产生右声道音频信号RD，然后将右声道音频信号RD提供给后续的数模转换器。

在音频信号处理部分44中，在没有从视频信号分析处理部分43提供定位角信号F1时，不从缩放变量产生部分49提供缩放变量信号Z3给分量分析器13A、13B、...、和13n。在此情况下，子带信号SBL1、SBL2、...、和SBLn从分析滤波器组11直接提供给合成滤波器组15，而不调整它们的增益。另外，子带信号SBR1、SBR2、...、和SBRn从分析滤波器组12直接提供给合成滤波器组16，而不调整它们的增益。

也就是说，不从视频信号分析处理部分43提供定位角信号F1，意味着脸部图像位于屏幕的中央。这意味着设备41不必移动其音频源与脸部图像相关联的声像，这是因为该声像实质上在左扬声器SPL和右扬声器SPR之间的中间点上。

顺便提及的是，分量分析器13A到13n的电路结构与第一实施例的音频信号处理部分3的分量分析器13A到13n的电路结构相同。因此，为了易于解释，省略了其说明。

(4-3)根据脸部图像位置改变声像区域

在具有上述结构的视频和声音处理设备41中，其音频源与脸部图像相关联的声像定位的定位位置根据脸部图像相对于屏幕中央的相对位置、或由媒体再现部分2再现的内容的视频信号VS的视频图像而改变。下面将说明这一点。

如果如图19A所示在基于从媒体再现部分2提供给视频信号分析处理部分43的视频信号VS1的视频图像VS1G的中央存在脸部图像FV，则其音频源与脸部图像FV相关联的声像A位于左扬声器SPL和右扬声器SPR之间的中间点上，如图19B所示。

之后，如图20A所示，如果脸部图像从视频信号VS1的视频图像VS1G的中央移动到右上侧，则视频和声音处理设备41根据脸部图像FV相对于视频中央的相对位置来确定定位角PA，并将其作为定位角信号F1提供给音频信号处理部分44。

音频信号处理部分44基于从定位角信号F1计算得到的缩放变量信号Z3来确定增益值G。音频信号处理部分44随后用增益值G调整子带信号SBL和SBR的增益。这移动了与脸部图像FV相关联的声像A，从而使得该声像A接近右扬声器SPR，如图20B所示。

以这种方式，在脸部图像FV从视频中央移开时，视频和声音处理设备41移动其音频源与脸部图像FV相关联的声像A。

以这种方式，通过根据脸部图像FV的移动或视频内容来移动声像A，视频和声音处理设备41保持脸部图像FV与声像A的相关联性。这样防止了正在观看视频信号VS1的视频图像VSG1的收听者LNR觉得不舒服。

除了视频图像VS1G上的脸部图像FV与声像A的相关联性之外，视频和声音处理设备41还可以执行音量控制处理：当脸部图像FV靠近视频屏幕的底部时，视频和声音处理设备41减小声像A的音量，而当脸部图像FV靠近视频屏幕的上部时，视频和声音处理设备41增大声像A的音量。这给予了收听者LNR现场演出的感觉。

顺便提及的是，为了控制声像A的音量，执行增益调整处理，以便使左声道子带信号SBL和右声道子带信号SBR的振幅等级增大。此时，如果能级比保持不变，则在声像A的音量增大时，声像A的声像定位继续保持相同。

(4-4)利用脸部图像的移动的声像定位改变处理

参照图21和22，将说明改变声像定位的处理过程。该处理移动与脸部图像FV相对应的声像A，以便根据基于上述视频和声音处理设备41的视频信号VS的视频图像VS1G上的脸部图像FV的移动来改变其声像定位。

视频和声音处理设备41的系统控制器5从开始步骤开始例程RT3，并且随后前进到下一步骤SP41。在步骤SP41，系统控制器5检查来自媒体再现部分2的视频信号VS1是否能被视频信号分析处理部分43所分析。当在步骤SP41得到否定结果时，系统控制器5前进到下一步骤SP42。反之，当在步骤SP41 得到肯定结果时，系统控制器5前进到下一步骤SP43。

在步骤SP42，系统控制器5将视频信号VS1变换为能被视频信号分析处理部分43分析的某一格式。并且随后前进到下一步骤SP43。

在步骤SP43，系统控制器5检查左声道音频信号LS1和右声道音频信号RS1是否已经被转换为能被处理用于声像定位改变的某一格式：这些左声道和右声道音频信号LS1和RS1是从媒体再现部分2输入到音频信号处理部分44的分析滤波器组11和12的信号。

如果音频信号LS1和RS1的采样频率与音频信号处理部分44的信子格式的预期采样频率不同，则这些信号LS1和RS1将被转换为允许设备41改变声像定位的某一信号格式。

当在步骤SP43得到肯定结果时，系统控制器5前进到步骤SP45。反之，当在步骤SP43得到否定结果时，系统控制器5前进到下一步骤SP44，这是因为其意味着音频信号LS1和RS1还没有被转换为允许音频信号处理部分44改变声像定位的某一格式。

在步骤SP44，系统控制器5将音频信号LS1和RS1转换为允许音频信号处理部分44改变声像定位的某一格式，并且随后前进到下一步骤SP45。

在步骤SP45，系统控制器5通过视频信号分析处理部分43分析来自媒体再现部分2的视频信号VS1，以便检测在基于视频信号VS1的视频图像VS1G中脸部图像FV的位置，并且随后前进到下一步骤SP46。

在步骤SP46，系统控制器5检查是否检测到脸部图像FV的位置。在步骤SP46的否定结果意味着系统控制器5不必改变声像A的声像定位，这是因为不能检测到脸部图像FV。在此情况下，系统控制器5前进到步骤SP54(图22)。

在步骤SP46的肯定结果意味着系统控制器5将根据脸部图像FV的移动来改变声像A的声像定位，这是因为能够检测到脸部图像FV。在此情况下，系统控制器5前进到下一步骤SP47。

在步骤SP47，基于从脸部图像FV相对于屏幕中央的相对位置计算得到的定位角信号F1，系统控制器5通过音频信号处理部分44的缩放变量产生部分49产生缩放变量信号Z3，并且随后前进到下一步骤SP48。

在步骤SP48，系统控制器5检查缩放变量信号Z3的缩放变量是否为0。

在步骤SP48的肯定结果意味着脸部图像FV位于屏幕中央，这是因为缩放变量为0。其意味着系统控制器5不必改变声像A的声像定位。在此情况下，系统控制器5前进到步骤SP54(图22)，而不执行改变声像定位的处理。

在步骤SP48的否定结果意味着脸部图像FV远离屏幕中央，这是因为缩放变量不为0。其意味着系统控制器5将根据脸部图像FV的移动来改变声像A的声像定位。在此情况下，系统控制器5前进到下一步骤SP49，以改变声像定位。

在步骤SP49，系统控制器5通过音频信号处理部分44的分析滤波器组11将从媒体现部分2提供的左声道音频信号LS1分离为具有不同频带的多个分量。系统控制器5还通过音频信号处理部分44的分析滤波器组12将从媒体再现部分2提供的右声道音频信号RS1分离为具有不同频带的多个分量。所有这些产生了多个子带信号SBL1到SBLn和SBR1到SBRn，它们随后被提供给分量分析器13A到13n。系统控制器5随后前进到下一步骤SP50。

在步骤SP50，系统控制器5控制分量分析器13A和13n的傅立叶变换器21和22(图3)，以便对子带信号SBL1到SBLn和SBR1到SBRn执行傅立叶变换处理。系统控制器5随后向相位差计算器23和能级比计算器24提供所获得的复数子带信号SBL1i到SBLni和SBR1i到SBRni，并且随后前进到下一步骤SP51。

在步骤SP51，系统控制器5控制分量分析器13A到13n的相位差计算器23和能级比计算器24以计算相位差θ1和能级比C1，将相位差θ1和能级比C1提供给增益计算器25，并且随后前进到下一步骤SP52。

在步骤SP52，系统控制器5基于相位差θ1、能级比C1和缩放变量信号Z3的缩放变量来确定增益值G1和G2，并使用该增益值G1和G2通过音频信号处理部分44的增益部分14A1到14n2来控制子带信号SBL1到SBLn和SBR1到SBRn的增益。系统控制器5将所获得的子带信号SBL11到SBLmm和SBR11到SBRnn分别提供给合成滤波器组15和16。系统控制器5随后前进到下一步骤SP53。

在步骤SP53，系统控制器5通过合成滤波器组15合成从增益部分14A1、14B1、...、14n1提供的子带信号SBL11、SBL22、...、和SBLmm，以产生左声道音频信号LD。系统控制器5还通过合成滤波器组16合成从增益部分14A2、14B2、...、14n2提供的子带信号SBR11、SBR22、...、和SBRnn，以产生右声道音频信号RD。系统控制器5随后前进到下一步骤SP54。

在步骤SP54，系统控制器5通过后续的数模转换器对从合成滤波器组15和16提供的音频信号LD和RD执行数模转换处理。左扬声器SPL和右扬声器SPR随后输出基于所获得的信号的声音。系统控制器5随后前进到下一步骤SP55。顺便提及的是，在该处理期间，系统控制器5还控制视频信号分析处理部分43，以向后续的监视器(未示出)提供与音频信号LD和RD相对应的视频信号VS1。

此时，根据缩放变量将能级比和相位差提供给处于相同频带内的以下信号：包括在用于左扬声器SPL的音频信号LD中的子带信号SBL11、SBL22、...、和SBLmm；以及包括在用于右扬声器SPR的音频信号RD中的子带信号SBR11、SBR22、...、和SBRnn。因此，当左扬声器SPL和右扬声器SPR输出声音时，声像定位按照以下方式改变：声像A的位置根据脸部图像FV的移动而改变。

在步骤SP55，系统控制器5检查是否有下一个左声道和右声道音频信号LS1和RS1要从媒体再现部分2输入到分析滤波器组11和12。在步骤SP55的否定结果意味着没有要被处理用于改变声像A的声像定位的信号。在此情况下，系统控制器5前进到下一步骤SP57以结束处理。

在步骤SP55的肯定结果意味着有要被处理用于改变声像A的声像定位的下一个音频信号LS1和RS1。在此情况下，在步骤SP56，系统控制器5重置上述缩放变量，并且随后返回到步骤SP41以重复随后的处理。

(4-5)第三实施例中的操作和效果

根据脸部图像FV相对于屏幕中央的相对位置，具有上述结构的视频和声音处理设备41改变与脸部图像FV相对应的声像A的声像定位。在此情况下，脸部图像FV是运动画面的一部分。因此，如果脸部图像FV位于屏幕中央，则声像A就几乎位于左扬声器SPL和右扬声器SPR之间的中间点上，如图19B所示。如果脸部图像FV移动到屏幕的右上侧，则声像A也移动，以便使其位于右扬声器SPR附近，如图20B所示。

以这种方式，视频和声音处理设备41能根据脸部图像FV在运动画面中的移动来改变声像A的声像定位或声像A的位置。这将脸部图像FV的移动与声像A的位置相关联，并因此给予了收听者LNR现场演出的感觉。

除了声像定位的改变之外，视频和声音处理设备41还根据脸部图像FV的移动来控制音量：例如，当脸部图像FV靠近屏幕的底部时，视频和声音处理设备41减小声像A的音量，而当脸部图像FV靠近视频屏幕的上部时，视频和声音处理设备41增大声像A的音量。这给予了收听者LNR现场演出的感觉。

上述结构使得以下成为可能：根据脸部图像FV在运动画面中相对于屏幕中央的相对位置，视频和声音处理设备41改变与脸部图像FV相对应的声像A的声像定位。因此，在声像A的位置根据脸部图像FV的移动而改变时，这不会改变原始声音的品质。这给予了收听者LNR现场演出的感觉。

(5)第四实施例

(5-1)盘回放设备的结构

在图23中，参考数字标记51表示根据本发明的第四实施例的盘回放设备。系统控制器56或微型计算机执行预定的音频信号处理程序，以便进行对设备51的总体控制。例如，系统控制器56将由回放处理部分52从光盘59再现的2声道音频信号LS1和RS1转换为4声道的多声道音频信号LS2F、LS2R、RS2F和RS2R，并且随后输出它们。

盘回放设备51控制回放处理部分52以旋转光盘59，并从光盘59读取2声道音频信号LS1和RS1。根据从晶体振荡器55提供的系统时钟PCLK，盘回放设备51向多声道转换处理部分53提供音频信号LS1和RS1。

多声道转换处理部分53将从回放处理部分52提供的音频信号LS1和RS1转换为4声道信号或多声道音频信号LDF、LDR、RDF和RDR，它们随后被提供给数模转换器54：多声道音频信号LDF、LDR、RDF和RDR具有根据从系统控制器56提供的缩放变量信号Z4而扩展的声像。

数模转换器54将从多声道转换处理部分53提供的多声道音频信号LDF、LDR、RDF和RDR转换为模拟音频信号LS2F、LS2R、RS2F和RS2R，它们随后被提供给两个前置扬声器和两个后置扬声器。

当用户控制远程命令器58或遥控器时，盘回放设备51的遥控器接收和解码部分57接收来自远程命令器58的红外遥控器信号，解码遥控器信号，并向系统控制器56提供所获得的信号。

基于从遥控器接收和解码部分57提供的遥控信号，系统控制器56执行一个程序，以根据用户对遥控器的操作执行处理。如果用户操作了远程命令器58 以改变声道的数量，则系统控制器56相应地产生缩放变量信号Z4，并且随后将缩放变量信号Z4提供给多声道转换处理部分53。

(5-2)多声道转换处理部分的电路结构

如图24所示(图24的部件用与图2的相应部件相同的参考数字标记和符号来标明)，除了以下各点之外多声道转换处理部分51的电路结构几乎与第一实施例的音频信号处理部分3的电路结构(图2)相同：多声道转换处理部分51对于两个后置扬声器进一步包括增益部分14A3、14A4、14B3、14B4、...、14n3和14n4，以及合成滤波器组1SR和16R，以便将从光盘59再现的2声道音频信号LS1和RS1转换为用于两个前置扬声器和两个后置扬声器的4声道信号或多声道音频信号LDF、LDR、RDF和RDR。

在此情况下，增益部分14A3、14A4、14B3、14B4、...、14n3和14n4用于为两个后置扬声器产生多声道音频信号LDR和RDR。合成滤波器组15R和16R用于经数模转换器54向两个后置扬声器提供音频信号LS2R和RS2R。

多声道转换处理部分53将左声道音频信号LS1输入到分析滤波器组11，将右声道音频信号RS1输入到分析滤波器组12。分析滤波器组11和12将音频信号LS1和RS1分离为多个分量，每一个分量都带有音频信号的相等或不等频带。这样产生了多个子带信号SBL1到SBLn和SBR1到SBRn。子带信号SBL1到SBLn和SBR1到SBRn被提供给分量分析器13A、13B、...、和13n。

此时，多声道转换处理部分53向增益部分14A1和14A3提供由分析滤波器组11产生的子带信号SBL1；多声道转换处理部分53向增益部分14B1和14B3提供子带信号SBL2；多声道转换处理部分53向增益部分14n1和14n3提供子带信号SBLn；多声道转换处理部分53向增益部分14A2和14A4提供由分析滤波器组12产生的子带信号SBR1；多声道转换处理部分53向增益部分14B2和14B4提供子带信号SBR2；多声道转换处理部分53向增益部分14n2和14n4提供子带信号SBRn。

顺便提及的是，分析滤波器组11和12将音频信号LS1和RS1分离为多个分量的方法可以包括DFT滤波器组、小波滤波器组、QMF等。

在此情况下，左声道子带信号SBL1和右声道子带信号SBR1在相同频带内。两个信号SBL1和SBR1都被提供给分量分析器13A。以相似的方式，左声道子带信号SBL2和右声道子带信号SBR2在相同频带内。两个信号SBL2 和SBR2都被提供给分量分析器13B。此外，左声道子带信号SBLn和右声道子带信号SBRn在相同频带内。两个信号SBLn和SBRn都被提供给分量分析器13n。

分量分析器13A分析左声道子带信号SBL1和右声道子带信号SBR1之间的相位差和它们的能级比，以便基于子带信号SBL1和SBR1评估声像的定位角。分量分析器13A随后基于评估的定位角和从系统控制器56提供的缩放变量信号Z4来确定增益值G1、G1，、G2和G2’，并将增益值G1、G1’、G2和G2，分别提供给增益部分14A1、14A3、14A2和14A4。

以相似的方式，增益部分14A3将从分析滤波器组11提供的子带信号SBL1乘以从分量分析器13A提供的增益值G1’，以产生子带信号SBL11’，并且随后将子带信号SBL11’提供给合成滤波器组15R。增益部分14A4将从分析滤波器组12提供的子带信号SBR1乘以从分量分析器13A提供的增益值G2’，以产生子带信号SBR11’，并且随后将子带信号SBR11’提供给合成滤波器组16R。

以与分量分析器13A相似的方式，分量分析器13B分析左声道子带信号SBL2和右声道子带信号SBR2之间的相位差和它们的能级比，以便基于子带信号SBL2和SBR2来评估声像的定位角。分量分析器13B随后基于评估的定位角和从系统控制器56提供的缩放变量信号Z4来确定增益值G3、G3’、G4和G4’，并将增益值G3、G3’、G4和G4’分别提供给增益部分14B1、14B3、14B2和14B4。

以相似的方式，增益部分14B3将从分析滤波器组11提供的子带信号SBL2 乘以从分量分析器13B提供的增益值G3’，以产生子带信号SBL22’，并且随后将子带信号SBL22’提供给合成滤波器组15R。增益部分14B4将从分析滤波器组12提供的子带信号SBR2乘以从分量分析器13B提供的增益值G4’，以产生子带信号SBR22’，并且随后将子带信号SBR22’提供给合成滤波器组16R。

以与分量分析器13A和13B相似的方式，分量分析器13n分析左声道子带信号SBLn和右声道子带信号SBRn之间的相位差和它们的能级比，以便基于子带信号SBLn和SBRn来评估声像的定位角。分量分析器13n随后基于评估的定位角和从系统控制器56提供的缩放变量信号Z4来确定增益值Gm、Gm’、Gn和Gn’，并将增益值Gm、Gm’、Gn和Gn’分别提供给增益部分14n1、14n3、14n2和14n4。

以相似的方式，增益部分14n3将从分析滤波器组11提供的子带信号SBLn乘以从分量分析器13n提供的增益值Gm’，以产生子带信号SBLmm’，并且随后将子带信号SBLmm’提供给合成滤波器组15R。增益部分14n4将从分析滤波器组12提供的子带信号SBRn乘以从分量分析器13n提供的增益值Gn’，以产生子带信号SBRnn’，并且随后将子带信号SBRnn’提供给合成滤波器组16R。

合成滤波器组15合成从增益部分14A1、14B1、...、和14n1提供的子带信号SBL11、SBL22、...、和SBLmm，以便为左前方的扬声器产生音频信号LDF，并将音频信号LDF提供给下一部分的数模转换器54。类似地，合成滤波器组16合成从增益部分14A2、14B2、...、和14n2提供的子带信号SBR11、SBR22、...、和SBRnn，以便为右前方的扬声器产生音频信号RDF，并将音频信号RDF提供给下一部分的数模转换器54。

类似地，合成滤波器组15R合成从增益部分14A3、14B3、...、和14n3提供的子带信号SBL11’、SBL22’、...、和SBLmm’，以便为左后方的扬声器产生音频信号LDR，并将音频信号LDR提供给下一部分的数模转换器54。类似地，合成滤波器组16R合成从增益部分14A4、14B4、...、和14n4提供的子带信号SBR11’、SBR22’、...、和SBRnn’，以便为右后方的扬声器产生音频信号RDR，并将音频信号RDR提供给下一部分的数模转换器54。

以这种方式，根据从系统控制器56提供的缩放变量信号Z4，多声道转换处理部分53将从媒体再现部分2提供的2声道音频信号LS1和RS1转换为其中改变了声像范围的4声道信号LDF、LDR、RDF和RDR或多声道音频信号LDF、LDR、RDF和RDR。多声道转换处理部分53随后将信号LDF、LDR、RDF和RDR提供给数模转换器54。

如果用户没有操作遥控器58来改变声道的数量，则不从其提供命令信号；系统控制器56因此不向多声道转换处理部分53提供缩放变量信号Z4。在此情况下，多声道转换处理部分53将从分析滤波器组11提供的子带信号SBL1、SBL2、...、和SBLn提供给合成滤波器组15，而不调整它们的增益。另外，多声道转换处理部分53将从分析滤波器组12提供的子带信号SBR1、SBR2、...、和SBRn提供给合成滤波器组16，而不调整它们的增益。

这意味着多声道转换处理部分53仅向数模转换器53提供从媒体再现部分2提供的2声道音频信号LS1和RS1作为音频信号LDF和RDF，而不做任何改变。之后，这些信号被输入到左右前置扬声器，随后由其输出声音。

(5-3)分量分析器的电路结构

将说明上述分量分析器13A、13B、...、和13n的电路结构。它们的电路结构除以下这一点之外都相同：分量分析器13A的增益计算器25基于缩放变量信号Z4计算四类增益值G1、G1’、G2和G2’。为了易于解释，将只说明第四实施例的分量分析器13A的电路结构。

如图25所示，分量分析器13A将从分析滤波器组11提供的子带信号SBL1提供给傅立叶变换器21，并且将从分析滤波器组12提供的子带信号SBR1提供给傅立叶变换器22。

傅立叶变换器21和22分别对子带信号SBL1和SBR2执行傅立叶变换处理。傅立叶变换器21和22随后将所获得的复数子带信号SBL1i和SBR1i提供给相位差计算器23和能级比计算器24。

能级比计算器24计算能级比C1，其是从傅立叶变换器21提供的复数子带信号SBL1i与从傅立叶变换器22提供的复数子带信号SBR1i的比值。能级比计算器24随后将能级比C1提供给增益计算器25。

基于从相位差计算器23提供的相位差θ1、从能级比计算器24提供的能级比C1和从系统控制器56(图23)提供的缩放变量信号Z4，增益计算器25确定增益值G1、G1’、G2和G2’。增益计算器25随后输出增益值G1、G1’、G2和G2’。

因此，分量分析器13A能够使得以下数据比信号处理之前更大或更小：由增益部分14A1(图24)将其乘以增益值G1的子带信号SBL11与由增益部分14A2(图24)将其乘以增益值G2的子带信号SBR11之间的相位差和能级比。

类似地，分量分析器13A能够使得以下数据比信号处理之前更大或更小：由增益部分14A3(图24)将其乘以增益值G1’的子带信号SBL11’与由增益部分14A4(图24)将其乘以增益值G2’的子带信号SBR11’之间的相位差和能级比。

因此，多声道转换处理部分53通过左右前置扬声器输出以下声音：包括在由合成滤波器组15产生的子带信号SBL11中的音频信号LDF的声音，和包括在由合成滤波器组16产生的子带信号SBR11中的音频信号RDF的声音。此时，对于多声道转换处理部分53来说，易于扩大或缩窄与子带信号SBL11和SBR11的频带相对应的声像。

另外，多声道转换处理部分53通过左右后置扬声器输出以下声音：包括在由合成滤波器组15R产生的子带信号SBL11’中的音频信号LDR的声音，和包括在由合成滤波器组16R产生的子带信号SBR11’中的音频信号RDR的声音。此时，对于多声道转换处理部分53来说，易于扩大或缩窄与子带信号SBL11’和SBR11’的频带相对应的声像。

(5-4)声像定位(多声道)

如图26所示，盘回放设备51可以通过前置的左扬声器FSPL和前置的右扬声器FSPR输出从光盘59再现的2声道音频信号LS1和RS1，并在前置的左扬声器FSPL和前置的右扬声器FSPR之间设定声像A到E。这种情况将被称为“非多声道化(non-multichannelized)”。

当盘回放设备51将声道数量从两个(2声道音频信号LS1和RS1)增加到四个时，将使用后置的左扬声器RSPL和后置的右扬声器RSPR。

在此情况下，盘回放设备51的多声道转换处理部分53将2声道音频信号LS1和RS1转换为四声道信号或多声道音频信号LS2F、LS2R、RS2F和RS2R，它们随后分别通过前置的左扬声器FSPL、前置的右扬声器FSPR、后置的左扬声器RSPL和后置的右扬声器RSPR输出。

多声道音频信号LS2F、LS2R、RS2F和RS2R的增益已经分别被多声道转换处理部分53用增益值G1、G1’、G2和G2’来加以调整。因此，如图27所示，当前置的左扬声器FSPL、前置的右扬声器FSPR、后置的左扬声器RSPL和后置的右扬声器RSPR输出声音时，这些声像A到E通过环绕收听者LNR而变得扩大了。

如果盘回放设备51只输出2声道音频信号LS1和RS1，则收听者LNR会将声像A到E定位在他/她的前面。这很可能不会给予收听者LNR现场演出的感觉。与此相反，在该实施例中，前置的左扬声器FSPL、前置的右扬声器FSPR、后置的左扬声器RSPL和后置的右扬声器RSPR输出基于多声道音频信号LS2F、LS2R、RS2F和RS2R的声音。例如，这提供给收听者LNR在他/她左侧的声像A和在他/她右侧的声像E。以这种方式，声像A到E与非多声道化的声像相比变得扩大了，从而给予收听者LNR现场演出的感觉。

另外，当将2声道音频信号LS1和RS1转换为4声道信号时，盘回放设备51可以按照以下方式执行处理：盘回放设备51将要提供给后置的左扬声器RSPL和后置的右扬声器RSPR的音频信号LS2R和RS2R的增益保持为0，并且控制要提供给前置的左扬声器FSPL和前置的右扬声器FSPR的音频信号LS2F和RS2F的能级比和相位差。这允许盘回放设备51缩窄在前置的左扬声器FSPL和前置的右扬声器FSPR之间的声像A到E的范围，而不用考虑盘回放设备5具有的四个扬声器。

(5-5)利用多声道的声像定位改变处理

参照图29，以下说明当将2声道信号转换为4声道信号时改变声像A到E的声像定位的处理过程。

盘回放设备51的系统控制器56从开始步骤开始例程RT4，并且随后前进到下一步骤SP61。在步骤SP61，系统控制器56检查从光盘59再现的左声道音频信号LS1和右声道音频信号RS1是否已经转换为允许多声道转换处理部分 53改变声像定位的某一信号格式。

例如，如果音频信号LS1和RS1已经被压缩为MP3格式等，或者如果它们的频率与预期信号格式的采样频率不同，则系统控制器56可能不能改变它们的定位角，除非这些信号被转换为允许改变定位角的某一信号格式。

因此，当在步骤SP61获得肯定结果时，系统控制器56前进到下一步骤SP63。反之，在步骤SP61的否定结果意味着多声道转换处理部分53可能不能改变音频信号LS1和RS1的声像定位的定位角，因此，系统控制器56前进到下一步骤SP62。

在步骤SP62，系统控制器56将音频信号LS1和RS1转换为某一信号格式以改变定位角，并且随后前进到下一步骤SP63。

在步骤SP63，系统控制器56检查将响应于用户对远程命令器58(图23)的操作而提供给多声道转换处理部分53的缩放变量信号Z4是否为“0”。

在步骤SP63的肯定结果意味着缩放变量为“0”。其意味着由于多声道化操作，没有从远程命令器58提供用于启动改变定位角的处理的命令信号。在此情况下，系统控制器56不会通过多声道转换处理部分53来执行改变定位角的处理，并且随后前进到步骤SP69。

在步骤SP63的否定结果意味着缩放变量不为“0”。其意味着从远程命令器58提供了用于启动改变定位角的处理的命令信号。在此情况下，系统控制器56前进到下一步骤SP64，以执行改变定位角的处理和通过多声道转换处理部分53将2声道信号转换为4声道信号的多声道处理。

在步骤SP64，系统控制器56控制多声道转换处理部分53的分析滤波器组11，以便将左声道音频信号LS1分离为具有不同频带的多个分量。系统控制器56还控制多声道转换处理部分53的分析滤波器组12，以便将右声道音频信号RS1分离为具有不同频带的多个分量。系统控制器56随后将所获得的子带信号SBL1到SBLn和SBR1到SBRn提供给分量分析器13A到13n的傅立叶变换器21和22，并且随后前进到下一步骤S65。

在步骤SP65，系统控制器56控制分量分析器13A到13n的傅立叶变换器21和22以便对子带信号SBL1到SBLn和SBR1到SBRn执行傅立叶变换处理。系统控制器56随后将所获得的复数子带信号SBL1i到SBLni和SBR1i到SBRni提供给相位差计算器23和能级比计算器24，并且随后前进到下一步骤SP66。

在步骤SP66，系统控制器56通过分量分析器13A到13n的相位差计算器23和能级比计算器24计算相位差θ1和能级比C1，将相位差θ1和能级比C1提供给增益计算器25，并且随后前进到下一步骤SP67。

在步骤SP67，系统控制器56控制分量分析器13A到13n的增益计算器25，以便基于相位差θ1、能级比C1和缩放变量信号Z4的缩放变量来确定四个增益值，并使用这些增益值来通过多声道转换处理部分53的增益部分14控制子带信号SBL1到SBLn和SBR1到SBRn的增益。系统控制器56将所获得的子带信号SBL11到SBLmm、SBL11’到SBLmm’、SBR11到SBRnn和SBR11’到SBRnn’分别提供给合成滤波器组15、15R、16和16R。系统控制器56随后前进到下一步骤SP68。

在步骤SP68，系统控制器56通过合成滤波器组15合成从增益部分14A1、14B1、...、14n1提供的子带信号SBL11、SBL22、...、和SBLmm，以便为前置的左扬声器FSPL产生左声道音频信号LDF。系统控制器56还通过合成滤波器组16合成从增益部分14A2、14B2、...、14n2提供的子带信号SBR11、SBR22、...、和SBRnn，以便为前置的右扬声器FSPR产生右声道音频信号RDF。系统控制器56还通过合成滤波器组15R合成从增益部分14A3、14B3、...、14n3提供的子带信号SBL11’、SBL22’、...、和SBLmm’，以便为后置的左扬声器RSPL产生左声道音频信号LDR。系统控制器56还通过合成滤波器组16R合成从增益部分14A4、14B4、...、14n4提供的子带信号SBR11’、SBR22’、...、和SBRnn’，以便为后置的右扬声器RSPR产生右声道音频信号RDR。系统控制器56随后前进到下一步骤SP69。

在步骤SP69，系统控制器56通过数模转换器54对从多声道转换处理部分53的合成滤波器组15、15R、16和16R提供的音频信号LDF、LDR、RDF和RDR执行数模转换处理。前置的左扬声器FSPL和前置的右扬声器FSPR、后置的左扬声器RSPL和后置的右扬声器RSPR随后输出基于所获得的信号的声音。系统控制器56随后前进到下一步骤SP70。

在步骤SP70，系统控制器56检查是否有下一个左声道和右声道音频信号LS1和RS1要被输入到多声道转换处理部分53的分析滤波器组11和12。在步骤SP70的否定结果意味着没有要被处理用于定位角改变的信号。在此情况下，系统控制器56前进到下一步骤SP72以结束处理。

在步骤SP70的肯定结果意味着有要被处理用于定位角改变的下一个音频信号LS1和RS1。在此情况下，在步骤SP71，系统控制器56重置上述缩放变量，并且随后返回到步骤SP61以重复随后的处理。

(5-6)第四实施例中的操作和效果

具有上述结构的盘回放设备51将2声道音频信号LS1和RS1转换为4声道信号。这样产生了其增益已经用增益值G1、G1’、G2和G2’加以调整的多声道音频信号LS2F、LS2R、RS2F和RS2R。前置的左扬声器FSPL、前置的右扬声器FSPR、后置的左扬声器RSPL和后置的右扬声器RSPR输出基于多声道音频信号LS2F、LS2R、RS2F和RS2R的声音。以这种方式，使用这四个扬声器使得声像A到E比仅使用两个扬声器(例如，前置的左扬声器FSPL和前置的右扬声器FSPR)时大。

以这种方式，盘回放设备51不仅能在前置的左扬声器FSPL和前置的右扬声器FSPR之间而且能在后置的左扬声器RSPL和后置的右扬声器RSPR之间均匀地散布声像A到E。这样提供给收听者LNR在所有方向上被声像A到E环绕的感觉，而且还提供给他/她立体的听觉空间。

上述结构使得以下成为可能：盘回放设备51使用基于缩放变量的四个增益值调整2声道音频信号LS1和RS1的增益，以产生多声道音频信号LS2F、LS2R、RS2F和RS2R，它们随后由前置的左扬声器FSPL、前置的右扬声器FSPR、后置的左扬声器RSPL和后置的右扬声器RSPR输出。这使得声像A到E更大了，从而改进了环绕效果。

(6)其它实施例

在上面提到的第一到第四实施例中，为了改变声像的位置或声像定位，处理小于3500Hz的音频信号以调整它们的相位差，而处理大于3500Hz的音频信号以调整它们的能级比。然而，本发明并不局限于此。相位差和能级比两者都可以被调整以改变声像定位。

另外，在上面提到的第一实施例中，如果声像A到E存在于从左到右的90度圆弧中，则与这些声像A到E相应的子带信号会被输出。然而，本发明并不局限于此。可以输出与位于该圆弧之外的声像相对应的其它子带信号。另外，圆弧能大于或小于90度。

而且，在上面提到的第一实施例中，在信号处理之前，根据与缩放变量“-1”、 “-0.5”、“0”、“+0.5”和“+1”相对应的五种模式改变定位角。然而，本发明并不局限于此。声像A到E的范围能够被均匀地扩大或缩窄。另外，能根据各种模式或各种连续的缩放变量来改变定位角。

而且，在上面提到的第二实施例中，图像拾取设备31包括两个立体声麦克风38。然而，本发明并不局限于此。图像拾取设备31可以包括两个或多个单声道麦克风。

而且，在上面提到的第二实施例中，为2声道音频信号设计了具有两个立体声麦克风38的图像拾取设备31。然而，本发明并不局限于此。可以为2声道或更多声道的音频信号设计图像拾取设备31。

而且，在上面提到的第二实施例中，图像拾取设备31通过两个立体声麦克风38收集声音，以获得模拟的立体声音频信号ALS1和ARS1，随后通过模数转换器39将它们转换为数字立体声音频信号DLS和DRS1，以便用于音频信号处理部分40的处理。然而，本发明并不局限于此。图像拾取设备31可以直接将模拟音频信号ALS1和ARS1提供给音频信号处理部分40，而不执行模数转换器39的处理。

而且，在上面提到的第二实施例中，在根据变焦开关37的操作来放大视频图像时，声像A到E变得扩大了。然而，本发明并不局限于此。在根据变焦开关37的操作来缩小视频图像时，声像A到E变得缩窄了。

而且，在上面提到的第三实施例中，应用了2声道音频信号LS1和RS1。然而，本发明并不局限于此。可以使用5.1声道和更多声道的信号。

而且，在上面提到的第三实施例中，从视频图像中检测脸部图像FV，并且声像A根据检测到的脸部图像FV的移动而移动。然而，本发明并不局限于此。可以检测作为出现在视频图像(影片内容)中的音频源之一的汽车图像或其它图像，并且相对应的声像可以根据检测到的图像的移动而移动。

而且，在上面提到的第三实施例中，从视频图像中检测脸部图像FV，并且声像A根据检测到的脸部图像FV的移动而移动。然而，本发明并不局限于此。可以检测场景的变化或屏幕的切换，以产生适合于该场景变化的声像模式，并且声像可以移动以实现产生的模式。

而且，在上面提到的第四实施例中，形成听觉空间，以便使声像A到E从各个方向环绕收听者LNR。然而，本发明并不局限于此。例如，如图30所示，可以形成不同的听觉空间：声像A和E可以被设置在收听者LNR的后面；而声像B和D可以被设置在收听者LNR的侧面。

而且，在上面提到的第四实施例中，声像A到E变得均匀地扩大或缩窄了。然而，本发明并不局限于此。例如，如图31所示，可以扩大中央的声像C，而缩窄在两侧的声像A和E。作为替换，如图32所示，可以缩窄中央的声像C，而扩大在两侧的声像A和E。

而且，在上面提到的第四实施例中，双声道信号被转换为四声道信号。然而，本发明并不局限于此。原始的双声道信号可以被转换为其它类型的多声道信号，例如，多于两个声道的5.1或9.1声道。在此情况下，能从两个声道产生一个声道。此外，能从一个声道产生三个声道。

而且，在上面提到的第一到第四实施例中，收听者觉得相对于他/她位于预定角度的声像定位的定位位置在诸如房间之类的听觉空间中被改变了，以控制声像的范围。然而，本发明并不局限于此。可以在诸如轿车或汽车之类的听觉空间中控制声像的范围。

而且，在上面提到的第一到第四实施例中，音频信号处理设备包括：分析滤波器组11和12，其等效于分离装置；相位差计算器23，其等效于相位差计算装置；能级比计算器24，其等效于能级比计算装置；系统控制器5，其等效于声像定位评估装置；以及系统控制器5和音频信号处理部分3，其等效于控制装置。然而，本发明并不局限于此。音频信号处理设备可以包括等效于分离装置、相位差计算装置、能级比计算装置、声像定位评估装置和控制装置的其它部件。

根据本发明实施例的音频信号处理设备、音频信号处理方法和音频信号处理程序能被应用于能够在室内和室外控制声像范围的音频设备。

本领域技术人员应当理解，取决于设计要求和其它因素，可以设想到各种修改、组合，子组合和改变，只要它们在所附的权利要求或其等效内容的范围内即可。

Claims

1.一种音频信号处理设备，包括：

分离装置，用于将两个以上声道音频信号分离为处于多个频带中的分量；

相位差计算装置，用于计算在每个所述频带的所述两个以上声道音频信号之间的相位差；

能级比计算装置，用于计算在每个所述频带的所述两个以上声道音频信号之间的能级比；

声像定位评估装置，用于基于所述能级比或所述相位差来评估在每个所述频带的声像定位；以及

控制装置，用于通过调整所述能级比和所述相位差来控制在每个所述频带的所述评估的声像定位。

2.根据权利要求1所述的音频信号处理设备，进一步包括：

缩放装置，用于通过所述控制装置均匀地扩大或缩窄在每介所述频带的声像定位。

3.根据权利要求1所述的音频信号处理设备，进一步包括：

缩放装置，用于通过所述控制装置不均匀地扩大或缩窄在每个所述频带的声像定位。

4.根据权利要求3所述的音频信号处理设备，其中：

所述缩放装置将在每个所述频带的每个声像的每个声像定位置于相对于收听者的预定角度上。

5.根据权利要求3所述的音频信号处理设备，其中：

所述缩放装置扩大在每个所述频带的每个声像定位的预定中央区域。

6.根据权利要求3所述的音频信号处理设备，其中：

所述缩放装置缩窄在每个所述频带的每个声像定位的预定中央区域。

7.根据权利要求1所述的音频信号处理设备，其中：

根据改变与所述音频信号同步的视频图像的缩放比的操作，所述控制装置调整所述能级比或所述相位差。

8.根据权利要求1所述的音频信号处理设备，其中：

根据相对于屏幕中央的某一音频源图像的相对位置，所述控制装置调整所述能级比或所述相位差，所述某一音频源图像存在于与所述音频信号同步的视频图像中。

9.根据权利要求1所述的音频信号处理设备，进一步包括：

多声道转换装置，用于使用多个增益值调整在每个所述频带的不同增益，以便将所述两个以上声道音频信号转换为其声道数量多于所述两个以上声道音频信号的声道数量的多声道音频信号，其中，

所述控制装置调整所够声道音频信号的所述能级比或所述相位差。

10.一种音频信号处理方法，包括：

分离步骤，将两个以上声道音频信号分离为处于多个频带中的分量；

相位差计算步骤，计算在每个所述频带的所述两个以上声道音频信号之间的相位差；

能级比计算步骤，计算在每个所述频带的所述两个以上声道音频信号之间的能级比；

声像定位评估步骤，基于所述能级比或所述相位差来评估在每个所述频带的声像定位；以及

控制步骤，通过调整所述能级比和所述相位差来控制在每个所述频带的所述评估的声像定位。