CN101518098B

CN101518098B - 用于对话增强技术的控制器和用户界面

Info

Publication number: CN101518098B
Application number: CN2007800343194A
Authority: CN
Inventors: 吴贤午; 郑亮源
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2006-09-14
Filing date: 2007-09-14
Publication date: 2013-10-23
Anticipated expiration: 2027-09-14
Also published as: CN101518098A; CN101518100A; CN101518102B; CN101518100B; CN101518102A

Abstract

处理多声道音频信号(例如，立体声音频)以相对于其它信号(例如，反射声音或混响声音)修改估计对话信号(例如，由电影中的演员说出的对话)的增益(例如，音量级或响度)。在某些方面，控制器用于控制主音量和对话音量。在某些方面，一个或多个图形对象和/或用户界面元件用于指示音量级别和其它信息。

Description

用于对话增强技术的控制器和用户界面

相关申请

本专利申请要求以下共同待审批美国临时专利申请的优先权：

·题为“Method of Separately Controlling Dialogue Volume”(单独控制对话音量的方法)的、2006年9月14日提交的、律师案号为No.19819-047P01的美国临时专利申请No.60/844,806；

·题为“Separate Dialogue Volume(SDV)”(单独对话音量(SDV))的、2007年1月11日提交的、律师案号为No.19819-120P01的美国临时专利申请No.60/884,594；以及

·题为“Enhancing Stereo Audio with Remix Capability and SeparaeDialogue”(用再混音能力和单独对话增强立体声音频)的、2007年6月11日提交的、律师案号为No.19819-160P01的美国临时专利申请No.60/943,268。

这些临时专利申请的每一个都通过引用完整结合于此。

技术领域

本专利申请的主题内容一般涉及信号处理。

发明背景

音频增强技术在家庭娱乐系统、立体声以及其它消费电子设备中经常被用来增强低音频率，并且模拟各种收听环境(例如音乐厅)。一些技术企图通过例如添加更多的高频来使电影对话更清晰。然而，这些技术中没有一个解决相对于周围环境和其它分量信号增强对话的问题。

发明内容

处理多声道音频信号(例如，立体声音频)以相对于其它信号(例如，反射的或混响声音)修改估计对话信号(例如，由电影中的演员说出的对话)的增益(例如，音量级或响度)。在某些方面，控制器用于控制主音量和对话音量。在某些方面，一个或多个图形对象和/或用户界面元件用于指示音量级别和其它信息。

公开了包括涉及方法、系统和计算机可读介质的实现的其它实现。

附图描述

图1示出表示因变于利用两个扬声器的虚拟声源的位置的声道增益的模型。

图2是用于增强输入信号中的对话的示例对话估计器和音频控制器的框图。

图3是用于增强输入信号中的对话的示例对话估计器和音频控制器的框图，包括滤波器组和逆变换。

图4是用于增强输入信号中的对话的示例对话估计器和音频控制器的框图，包括用于分类音频信号或估计对话信号中所包含的分量信号的分类器。

图5A-5C是示出对话增强过程中分类器的各种可能位置的框图。

图6是用于对话增强的示例系统的框图，包括施加于时间轴上的分类器。

图7示出用于与一般的TV接收机或其它设备通信的示例遥控器，包括单独的用于调节对话音量的控制设备。

图8是用于将对主音量和对话音量的控制施加于音频信号的示例系统的框图。

图9示出用于开启或关闭对话音量的示例遥控器。

图10示出用于显示对话音量控制信息的TV接收机的示例屏幕上显示(OSD)。

图11示出显示用于指示对话的图形对象的示例方法。

图12示出在设备的显示器上显示对话音量级和对话音量控件的开/关状态的方法的示例。

图13示出用于指示要控制的音量类型和对话音量控件的开关状态的单独指示器。

图14是用于实现参考图1-13所述的特征和过程的数字电视系统的框图。

详细描述

对话增强技术

图1示出表示因变于利用两个扬声器的虚拟声源的位置的声道增益的模型。在一些实现中，在用于再现音频信号的各种设备中，包括电视(TV)接收机、数字多媒体广播(DMB)播放器或个人多媒体播放器(PMP)，仅控制音频/视频信号中所包括的对话信号的音量的方法能够根据用户的要求高效率地控制对话信号。

当在不出现背景噪声或传输噪声的环境中仅发送对话信号时，收听者能够没有困难地收听所发送的对话信号。如果所发送的对话信号的音量低，则收听者能够通过调高音量来收听对话信号。在对话信号与剧院或电视接收机中的各种音响效果一起再现以供再现电影、戏剧或体育运动的环境中，由于音乐、音响效果和/或背景或传输噪声，收听者可能难以听到对话信号。在这种情况下，如果调高主音量以增加对话音量，则背景噪声、音乐和音响效果的音量也被调高，从而导致不适的声音。

在某些实现中，如果所发送的多声道音频信号是立体声信号，则可虚拟生成中心声道，将增益施加于虚拟中心声道，并将该虚拟中心声道增加到多声道音频信号的左和右(L/R)声道。虚拟中心声道可通过L声道和R声道相加来生成：

C_虚拟＝L_输入+R_输入，[1]

C_输出＝f_中心(G_中心×C_虚拟)，

L_输出＝G_L×L_输入+C_输出，

R_输出＝G_R×R_输入+C_输出，

其中，L_输入和R_输入指示L声道和R声道的输入，L_输出和R_输出指示L声道和R声道的输出，C_虚拟和C_输出分别指示虚拟中心声道和经处理的虚拟中心声道的输出，这两者都是中间过程中使用的值，G_中心指示用于确定虚拟中心声道电平的增益值，以及G_L和G_R指示施加于L声道和R声道的输入值的增益值。在该示例中，假设G_L和G_R是1。

此外，可使用施加用于放大或衰减特定频率的一个或多个滤波器(例如，带通滤波器)以及对虚拟中心声道施加增益的方法。在这种情况下，可利用函数f_中心施加滤波器。如果利用G_中心调高虚拟中心声道的音量，则存在放大L和R声道中包含的诸如音乐或音响效果的其它分量信号以及对话信号的限制。如果利用f_中心的带通滤波器被使用，则提高对话清晰度，但诸如对话、音乐和背景声音的信号失真，导致不适的声音。

如下所述，在某些实现中，上述问题可通过高效率地控制传输音频信号中所包括的对话信号的音量来解决。

控制对话信号的音量的方法

一般而言，在多声道信号环境中对话信号被集中到中心声道。例如，在5.1、6.1或7.1声道环绕系统中，对话一般被分配到中心声道。如果所接收的音频信号是多声道信号，通过仅控制中心声道的增益能够获取足够的效果。如果音频信号不包含中心声道(例如，立体声)，则需要一种将所需增益施加到中心区域(在下文中也称为对话区域)的方法，对话信号被估计为从多声道音频信号的声道集中到该中心区域。

包含中心声道的多声道输入信号

5.1、6.1或7.1声道环绕系统包含中心声道。

利用这些系统，能够通过仅控制中心声道的增益来充分获取所需效果。在这种情况下，中心声道指示对话要分配到的声道。然而，本文所公开的对话增强技术不限于中心声道。

输出声道包含A中心声道

在这种情况下，如果中心声道是C_输出，且输入中心声道是C_输入，则可获取以下的等式：

C_输出＝f_中心(G_中心*C_输入)，[2]

其中，G_中心指示所需增益且f_中心指示施加到中心声道的滤波器(函数)，其可根据用途配置。根据需要，可在施加f_中心之后施加G_中心。

C_输出＝G_中心*f_中心(C_输入)，[3]

输出声道不包含A中心声道

如果输出声道不包含中心声道，则将C_输出(其增益通过上述方法控制)施加到L声道和R声道。这由以下给出

L_输出＝G_I×L_输入+C_输出，[4]

R_输出＝G_R×R_输入+C_输出，

为了维持信号功率，可利用足够的增益(例如，l/sqrt(2))计算C_输出。

不包含中心声道的多声道输入信号

如果多声道音频信号中不包含中心声道，则可从多声道音频信号获取估计对话所集中的对话信号(也称为虚拟中心声道信号)，并将所需增益施加到估计对话信号。例如，可将音频信号特性(例如，电平、左声道和右声道信号之间的相关性、频谱分量)用于估计对话信号，诸如在题为“Dialogue EnhancementTechniques(对话增强技术)”的于2007年9月14日提交的、律师案号为No.19819-120001的美国专利申请No._______中所述的，该专利申请通过引用完整结合于此。

再次参考图1，根据正弦定律，当声源(例如，图1中的虚拟源)位于声像中的任何位置时，可控制声道的增益，以利用两个扬声器表达声像中声源的位置：

X_i(k)＝g_ix(k)，[5]

注意，可使用正切函数来代替正弦函数。

相反，如果已知输入到两个扬声器的信号电平，即g₁和g₂，则可获取该信号输入的声源位置。如果不包括中心扬声器，则可通过使左前扬声器和右前扬声器再现将包含在中心扬声器中的声音来获取虚拟中心声道。在这种情况下，通过使两个扬声器对中心区域中的声音给出类似的增益，即g₁和g₂，能够获取虚拟声源位于声像的中心区域的效果。在正弦定律等式中，如果g₁和g₂具有类似的值，则右项的分子接近0。因此，

应具有接近0的值，即

应具有接近0的值，从而将声源定位在中心区域。如果虚拟源位于中心区域，则用于形成虚拟中心声道的两个声道(例如，左声道和右声道)具有类似增益，且中心区域(即对话区域)的增益可通过控制虚拟中心声道的估计信号的增益值来控制。

关于声道电平和声道间相关性的信息可用于估计虚拟中心声道信号，可假设虚拟中心声道信号包含对话。例如，如果左声道和右声道之间的相关性低(例如，输入信号没有被集中到声像的任何位置或广泛分布)，则信号不是对话的可能性很高。另一方面，如果左声道和右声道之间的相关性高(例如，输入信号被集中到一空间位置)，则信号是对话或音响效果(例如，通过关门形成的噪声)的可能性很高。

因此，如果同时使用关于声道电平和声道间相关性的信息，则可高效地估计对话信号。因为对话信号的频带一般在100Hz至8kHz，所以可利用该频带中的附加信息估计对话信号。

一般的多声道音频信号可包括诸如对话、音乐和音响效果的各种信号。因此，通过配置用于在估计对话信号之前确定所发送的信号是对话、音乐还是另一个信号的分类器来提高对话信号的估计能力是可能的。如参照图5A-5C所述，还可在估计对话信号之后施加分类器，以确定估计是否准确。

时域中的控制

图2是示例对话估计器200和音频控制器202的框图。如从图2所看到的，利用输入信号通过对话估计器200估计对话信号。可利用音频控制器202将所需增益(例如，由用户指定)施加到估计对话信号，从而获取输出。控制增益所需的附加信息可由对话估计器200生成。用户控制信息可包含对话音量控制信息。音频信号可被分析以识别音乐、对话、混响和背景噪声，且这些信号的电平和性质可由音频控制器202来控制。

基于子频带的处理

图3是用于增强输入信号中的对话的示例对话估计器302和音频控制器304的框图，包括分析滤波器组300和合成滤波器组306，分别用于由音频信号生成子频带和用于由子频带合成音频信号。与相对于输入音频信号的整个频带估计和控制对话信号不同，在某些实现中，由分析滤波器组300将输入音频信号分成多个子频带并由对话估计器302根据子频带估计对话信号可能更有效率。在某些情形中，对话可以或可以不集中在输入音频信号的特定频率区域中。在这种情形中，可仅将包含对话的输入音频信号的频率区域用于估计对话区域。可将各种已知的方法用于获取子频带信号，包括但不限于：多相滤波器组、正交镜像滤波器组(QMF)、混合滤波器组、离散傅立叶变换(DFT)、修正离散余弦变换(MDCT)等。

在某些实现中，可通过以下步骤在频域中估计对话信号：对第一多声道音频信号进行滤波以提供左声道信号和右声道信号；将左声道信号和右声道信号变换到频域；并利用经变换的左声道信号和右声道信号估计对话信号。

分类器的使用

图4是用于增强输入信号中的对话的示例对话估计器402和音频控制器404的框图，包括用于分类音频信号中所包含的音频内容的分类器400。在某些实现中，分类器400可用于通过分析输入音频信号的统计或可感知特性来将输入音频信号归类。例如，分类器400能够确定输入音频信号是对话、音乐、音响效果还是静音，并且能够输出所确定的结果。在另一个示例中，分类器400可用于使用互相关性检测单声道或类似单声道的音频信号，如题为“DialogueEnhancement Techniques(对话增强技术)”的于2007年9月14日提交的、律师案号为No.19819-120001的美国专利申请No.________所描述的。利用该技术，基于分类器400的输出，如果输入音频信号实质上不是单声道的，则可将对话增强技术应用于输入音频信号。

分类器400的输出可以是诸如对话或音乐的硬决策输出，或诸如输入音频信号中包含对话的概率或百分比的软决策输出。分类器的示例包括但不限于：朴素贝叶斯分类器、贝叶斯网络、线性分类器、贝叶斯推断、模糊逻辑、逻辑回归、神经网络、预测分析、感知器、支持向量机(SVM)等。

图5A-5C是示出对话增强过程中分类器502的各种可能位置的框图。在图5A中，如果通过分类器502确定对话被包含在信号中，则执行后续的处理阶段504、506、508和510，而如果确定对话没有被包含在信号中，则可绕开后续的处理阶段。如果用户控制信息涉及除对话外的音频信号的音量(例如，在保持对话音量不变的同时调高音乐音量)，则分类器502确定该信号是音乐信号且在后续的处理阶段504、506、508和510中仅可控制音乐音量。

在图5B中，在分类滤波器组504之后应用分类器502。分类器502可具有在任意时间点根据频带(子频带)分类的不同输出。能够控制根据用户控制信息再现的音频信号的特性(例如，对话音量的调高、混响的降低等)。

在图5C中，在对话估计器506之后应用分类器502。当音乐信号集中在声像的中心且由此被误认为对话区域时，可高效地应用该配置。例如，分类器502可确定所估计的虚拟中心声道信号是否包括语音分量信号。如果虚拟中心声道信号包括语音分量信号，则可将增益施加到所估计的虚拟中心声道信号。如果所估计的虚拟中心声道信号被归类为音乐或某些其它非语音分类信号，则不施加增益。其它带有分类器的配置也是可能的。

自动对话音量控制功能

图6是用于对话增强的示例系统的框图，包括自动控制信息生成器608。在图6中，为了便于描述，未示出分类器框。然而，显然类似于图4-5，图6中可包括分类器。在不使用子频带的情况下，可不包括分类滤波器组600和合成滤波器组606(逆变换)。

在某些实现中，自动控制信息生成器608比较虚拟中心声道信号和多声道音频信号的比率。如果比率低于第一阈值，则虚拟中心声道信号能够被增强。如果比率高于第二阈值，则虚拟中心声道信号能够被衰减。例如，如果P_对话指示对话区域信号的电平，且P_输入指示输入信号的电平，则能够通过以下等式自动校正增益：

如果P_比率＝P_对话/P_输入＜P_阈值，[6]

G_对话＝函数(P_阈值/P_比率)，

其中P_比率由P_对话/P_输入定义，P_阈值是预定值，且G_对话是施加到对话区域的增益值(具有与前面描述的G_中心相同的概念)。P_阈值可由用户根据他/她的品位来设置。

在其它实现中，可利用以下等式将相对电平维持为小于预定值：

如果P_比率＝P_对话/P_输入＞P_阈值2，[7]

则G_对话＝函数(P_阈值2/P_比率)。

自动控制信息的生成根据再现的音频信号将背景音乐的音量、混响的音量和空间提示的音量以及对话音量维持在用户所需的相对值。例如，用户能够收听到音量高于在噪声环境中所发送信号的音量的对话信号，且用户能够收听到音量等于或小于在安静环境中所发送信号的音量的对话信号。

高效控制对话信号的音量的方法

在某些实现中，引入了控制器和将用户所控制的信息反馈给用户的方法。为了便于描述，例如，将描述TV接收机的遥控器。然而，显然所公开的实现也可应用于音频设备、数字多媒体广播(DMB)播放器、便携媒体(PMP)播放器、DVD播放器、汽车音频播放器的遥控器以及控制TV接收机和音频设备的方法。

单独控制设备#1的配置

图7示出用于与TV接收机或其它能够处理对话音量的设备通信的示例遥控器700，包括用于调节对话音量的单独输入控件(例如，键、按钮)。

如图7所示，遥控制器700包括用于控制(例如，冲浪)声道的声道控制键702和用于调高或调低主音量(例如，整个信号的音量)的主音量控制键704。此外，还包括用于调高或调低特定音频信号的对话音量控制键706，诸如由对话估计器计算的对话信号，如参照图4-5所描述的。

在某些实现中，可与题为“Dialogue Enhancement Techniques(对话增强技术)”的于2007年9月14日提交的、律师案号为No.19819-120001的美国专利申请No._______中描述的对话增强技术一起使用遥控器700。在这种情形中，遥控器700能够提供所需增益G_d和/或增益因数g(i，k)。通过使用用于控制对话音量的单独对话音量控制键706，用户有可能利用遥控器700方便地且高效地仅控制对话信号的音量。

图8是示出控制音频信号的主音量和对话音量的过程的框图。为了便于描述，将省略参照图2-10描述的对话增强的处理阶段，且在图8中仅示出必要的部分。在图8的示例配置中，对话估计器800接收音频信号并估计中心、左和右声道信号。中心声道(例如，估计对话区域)被输入到放大器810，且利用加法器812、814分别将左声道和右声道与放大器810的输出相加。将加法器812和814的输出分别输入到放大器816和818，用于分别控制左声道和右声道的音量(主音量)。

在某些实现中，对话音量可由耦合到增益生成器806的对话音量控制键802来控制，增益生成器806输出对话增益因数G_对话。左音量和右音量可由耦合至增益生成器808以提供主增益G_主的主音量控制键804来控制。增益因子G_对话和G_主可由放大器810、816、818用来调节对话和主音量的增益。

单独控制设备#2的配置

图9示出示例遥控器900，其包括相应的声道和音量控制键902、904以及对话音量控制选择键906。对话音量控制选择键906用于开启或关闭对话音量控制。如果开启对话音量控制，则能够利用音量控制键904以步进的方式(例如，增量地)调高或调低对话区域的信号量。例如，如果对话音量控制选择键906被按下或以其它方式激活，则对话音量控制被激活，且能够将对话区域信号调高预定增益值(例如，6dB)。如果对话音量控制选择键906被再次按下，则音量控制键904可用于控制主音量。

或者，如果对话音量控制选择键904开启，则自动对话控制(例如，自动控制信息生成器608)可运行，如参照图6所描述的。只要在音量控制键904被按下或以其它方式激活时，对话增益可顺序地增加或循环，例如，按0、3dB、6dB、12dB和0的顺序。这种控制方法使用户能够以直观的方式控制对话音量。

遥控器900是用于调节对话音量的设备的一个例子。其它设备是可能的，包括但不限于带有触摸敏感显示器的设备。遥控设备900可利用任何已知的通信信道(例如，红外、射频、电缆)与任何所需媒体设备(例如，TV、媒体播放器、计算机、移动电话、机顶盒、DVD播放器)通信用于调节对话增益。

在某些实现中，当对话音量控制选择键906被激活时，选择被显示在屏幕上，可改变对话音量控制选择键906的颜色或符号，可改变音量控制键904的颜色或符号，和/或可改变对话音量控制选择键906的高度，以通知用户音量控制键904的功能已经改变。通知用户关于遥控器的选择的各种其它方法也是可能的，诸如听觉反馈或力量反馈、遥控器的显示器或TV屏幕、监视器上呈现的文本消息或图形等。

这种控制方法的优点是允许用户以直观方式控制音量并防止遥控器上的按钮或键的数目增加，以控制诸如对话、背景音乐、混响信号等各种音频信号。当控制各种音频信号时，能够利用对话音量控制选择键906选择要控制的音频信号的特定分量信号。这种分量信号包括但不限于：对话信号、背景音乐、音响效果等。

通知用户控制信息的方法

利用OSD#1的方法

在以下的示例中，描述TV接收机的屏幕上显示(OSD)。然而，显然本发明可应用于能够显示装置的状态的其它类型的媒体，诸如放大器的OSD、PMP的OSD、放大器/PMP的LCD窗口等。

图10示出一般的TV接收机1002的OSD 1000。对话音量的变化可由数字或如图12所示的条1004的形式来表示。在某些实现中，对话音量可被单独显示为相对级别(图10)，或显示为与主音量或其它分量信号的比率，如图11所示。

图11示出显示图形对象(例如，条、线)主音量和对话音量的方法。在图11的示例中，条指示主音量，且在条的中部绘制的线的长度指示对话音量的级别。例如，条1100中的线1106通知用户对话音量未被控制。如果音量未被控制，则对话音量的值与主音量的值相同。条1102中的线1108通知用户对话音量被调高，而条1104中的线1110通知用户对话音量被调低。

参照图11描述的显示方法的优点在于对话音量被更有效率地控制，因为用户能够知道对话音量的相对值。此外，因此对话音量条与主音量条一起显示，所以高效率地且一致地配置OSD 1000是可能的。

所公开的实现不限于图11所示的条形显示。相反，可使用任何能够同时显示主音量和待控制的特定音量(例如，对话音量)且提供待控制的音量和主音量之间的相对比较的图形对象。例如，可单独显示两个条，或可一起显示具有不同颜色和/或宽度的重叠条。

如果待控制音量的类型的数量是2或更多，则可通过紧接下来描述的方法来显示。然而，如果单独控制的音量的数目是3或更多，则还可使用仅显示关于当前所控制音量的信息的方法，以防止用户混淆。例如，如果能够控制混响和对话音量，但仅控制混响音量，同时将对话音量维持在当前级别，则例如使用上述方法仅显示主音量和混响音量。在这个示例中，优选主音量和混响音量具有不同颜色或形状，从而能够以直观方式识别它们。

利用OSD#2的方法

图12示出在设备1200(例如，TV接收机)的OSD 1202上显示对话音量的方法的示例。在某些实现中，对话级别信息1206可与音量条1204分开显示。对话级别信息1206能够以各种大小、字体、颜色、亮度级、闪烁、或利用任何其它视觉修饰或标记来显示。如参照图9所述，在以步进方式循环控制音量时，这种显示方法可被更有效地使用。在某些实现中，对话音量可被单独显示为相对级别，或显示为与主音量或其它分量信号的比率。

如图13所示，可使用用于对话音量的单独指示符1306，来代替或附加到在设备1300的OSD 1302上显示待控制音量的类型。这种显示的优点是屏幕上观看的内容受所显示的音量信息的影响(例如，遮盖)较小。

控制设备的显示

在某些实现中，当选择对话音量控制选择键906(图9)时，对话音量控制选择键906的颜色可改变以通知用户音量键的功能改变。或者，可采用在对话音量控制选择键906被激活时改变音量控制键904的颜色或高度。

数字电视系统示例

图14是用于实现参考图1-14所述的特征和过程的示例数字电视系统1400的框图。数字电视(DTV)是借助于数字信号广播和接收运动画面和声音的电信系统。DTV采用数字调制数据，其被数字压缩且需要通过专门设计的电视机或带有机顶盒的标准接收机或装有电视卡的PC来解码。尽管图14中的系统是DTV系统，但用于对话增强的所公开实现也可应用于模拟TV系统或任何能够对话增强的其它系统。

在某些实现中，系统1400可包括接口1402、解调器1404、解码器1406和音频/视觉输出1408、用户输入接口1410、一个或多个处理器1412(例如，

处理器)和一个或多个计算机可读介质1414(例如，RAM、ROM、SDRAM、硬盘、光盘、闪存、SAN等)。这些组件各自耦合到一个或多个通信信道1416(例如，总线)。在某些实现中，接口1402包括用于获取音频信号或组合的音频/视频信号的各种电路。例如，在模拟电视系统中，接口可包括天线电子设备、调谐器或混频器、射频(RF)放大器、本机振荡器、中频(IF)放大器、一个或多个滤波器、解调器、音频放大器等。系统1400的其它实现是可能的，包括带有更多或更小组件的实现。

调谐器1402可以是用于接收包括视频和音频内容的数字电视信号的DTV调谐器。解调器1404从数字电视信号中提取视频和音频信号。如果视频和音频信号被编码(例如，MPEG编码)，则解码器1406解码这些信号。A/V输出可以是能够显示视频和播放音频的任何设备(例如，TV显示器、计算机监视器、LCD、扬声器、音频系统)。

在某些实现中，用户输入接口可包括用于接收并解码由遥控器(例如，图9的遥控器900)生成的红外或无线信号的电路和/或软件。

在某些实现中，一个或多个处理器可执行存储于计算机可读介质1414中的代码，以实现如参照图1-13所描述的特征和操作1418、1420、1422、1424和1426。

计算机可读介质还包括操作系统1418、分析/合成滤波器组1420、对话估计器1422、分类器1424和自动信息生成器1426。术语“计算机可读介质”表示参与向处理器1412提供指令以供执行的任何介质，包括但不限于非易失性介质(例如光盘或磁盘)、易失性介质(例如存储器)和传输介质。传输介质包括但不限于，同轴电缆、铜线和光纤。传输介质也以声、光或射频电波的形式出现。

操作系统1418可以是多用户、多处理、多任务、多线程、实时等的。操作系统1418执行基本任务，包括但不限于：识别来自用户输入接口1410的输入；保持跟踪并管理计算机可读介质1414(例如存储器或存储设备)上的文件和目录；控制外围设备；以及管理一个或多个通信信道1416上的通信量。

上述特征可有利地实现为可在可编程系统上执行的一个或多个计算机程序，该可编程系统包括：至少一个可编程处理器，其被耦合以从数据存储系统接收数据和指令，并将数据和指令发送到数据存储系统；至少一个输入设备；以及至少一个输出设备。计算机程序是一组指令，该组指令可在计算机中直接或间接地使用以执行一定的活动或产生一定的结果。计算机程序能够以包括编译或解释语言的任何形式的编程语言(例如，Objective-C(面向对象的C语言)、Java)来编写，且它能够以任何形式使用，包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其它单元。

用于执行指令程序的适当处理器包括作为示例的通用和专用微处理器和任何类型的计算机的单处理器或多处理器或多核之一。一般而言，处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行指令的处理器和用于存储指令和数据的一个或多个存储器。一般而言，计算机还包括用于存储数据文件的一个或多个大容量存储设备，或有效耦合以与这些设备通信；这种设备包括诸如内部磁盘和可移动盘的磁盘；磁光盘；以及光盘。适用于有形地表达计算机程序指令和数据的存储设备包括所有形式的非易失性存储器，包括作为示例的诸如EPROM、EEPROM和闪存设备的半导体存储设备；诸如内部硬盘和可移动盘的磁盘；磁光盘；以及CD-ROM和DVD-ROM盘。处理器和存储器可由ASIC(专用集成电路)补充或结合到ASIC中。

为了提供与用户的交互，可在具有诸如用于向用户显示信息的CRT(阴极射线管)或LCD(液晶显示器)监视器之类的显示设备与用户可通过它向计算机提供输入的键盘和诸如鼠标或跟踪球的定位设备的计算机上实现特征。

可在包括诸如数据服务器的后端组件的计算机系统中，或在包括诸如应用服务器或因特网服务器的中间件组件的计算机系统中，或在包括诸如具有图形用户界面或因特网浏览器的客户计算机的前端组件的计算机系统中，或其组合中，实现这些特征。系统的组件可通过诸如通信网络的任何形式或介质的数字数据通信来连接。通信网络的示例包括例如LAN、WAN和构成因特网的计算机和网络。

计算机系统可包括客户机和服务器。客户机和服务器一般相距甚远且通常通过网络交互。客户机和服务器的关系根据在相应计算机上运行的且彼此具有客户机-服务器关系的计算机程序来产生。

已经描述了多个实现。然而，将理解可进行各种修改。例如，可组合、删除、修改或补充一个或多个实现的要素以形成进一步的实现。作为又一个示例，在附图中描述的逻辑流程并非必需所示的特定顺序或连续顺序来实现所要求的结果。此外，可提供其它步骤，或可从所述流程中去除步骤，并将其它组件添加到所述系统，或从所述系统去除其它组件。因此，其它实现在以下权利要求的范围内。

Claims

1.一种用于处理音频信号的装置，包括：

多声道信号获取器，配置为获取多声道音频信号；

估计器，配置为当所述音频信号不含中心信道时，通过使用关于声道电平和声道间相关性的信息来估计对话信号，其中，当左声道和右声道之间具有高于阈值的相关性时，认为虚拟中心声道信号包括对话信号，通过使左声道和右声道在声像的中心区域给出类似的增益来获取虚拟中心声道信号；

对话音量控件，配置为用于生成修改所述虚拟中心声道信号的增益的增益因数，生成对话音量控制信号，以对所述对话信号的对话音量进行单独调节；

组合声道信号生成器，配置为生成包括左声道和右声道信号以及增益修改后的虚拟中心声道信号的组合声道信号；

主音量控件，配置为修改所述组合声道信号的增益，生成主音量控制信号，以对所述音频信号的主音量进行单独调节。

2.如权利要求1所述的装置，其特征在于，所述对话音量控制信号用于相对于主音量级或一个或多个其它音频信号的音量级调节音频信号的对话音量级。

3.如权利要求1或2所述的装置，其特征在于，所述对话音量控制信号用于增强或衰减对话音量。

4.如权利要求1或2所述的装置，其特征在于，响应于用户与所述对话音量控件的交互，所述音频信号的所述对话音量递增或递减预定量。

5.如权利要求1或2所述的装置，其特征在于，所述对话音量控件或所述主音量控件的外观被修改以指示其功能或激活其功能。

6.如权利要求1或2所述的装置，其特征在于，所述对话音量控制信号用于在显示设备上生成一个或多个图形对象，用于提供指示对话音量级的视觉反馈。

7.如权利要求6所述的装置，其特征在于，第一图形对象指示主音量级，而第二图形对象指示相对于主音量级或相对于另一个音频信号的音量级的对话音量级。

8.如权利要求1或2所述的装置，其特征在于，所述对话音量控制信号用于生成指示对话音量控件有效的指示符。

9.一种用于处理音频信号的装置，包括：

估计器，配置为当音频信号不含中心信道时，通过使用关于声道电平和声道间相关性的信息来估计对话信号，其中，当左声道和右声道之间具有高于阈值的相关性时，认为虚拟中心声道信号包括对话信号，通过使左声道和右声道在声像的中心区域给出类似的增益来获取虚拟中心声道信号；

音量控件，配置为接收用于控制对话信号音量或主音量的控制输入；

对话音量控件选择，配置为用于打开或关闭对话音量控件；以及

有效耦合到所述音量控件的电路，且所述电路可配置成在所述对话音量控件选择被激活时生成对话音量控制信号，并在所述对话音量控件选择未被激活时生成所述装置的主音量控制信号。

10.如权利要求9所述的装置，其特征在于，响应于用户与所述对话音量控件的交互，音频信号的所述对话音量递增或递减预定量。

11.如权利要求9或10所述的装置，其特征在于，所述音量控件或所述对话音量控件选择的外观被修改以指示其功能。

12.如权利要求9或10所述的装置，其特征在于，所述对话音量控制信号用于生成指示对话音量控件有效的指示符，用于由所述装置或另一设备显示。

13.一种用于处理音频信号的方法，包括：

获取多声道音频信号；

当所述多声道音频信号不含中心信道时，利用关于声道电平和声道间相关性的信息来估计虚拟中心声道信号与至少左和右声道信号，其中，当左声道和右声道之间具有高于阈值的相关性时，认为虚拟中心声道信号包括对话信号，通过使左声道和右声道在声像的中心区域给出类似的增益来获取虚拟中心声道信号；

利用由对话音量控件所生成的增益因数修改所述虚拟中心声道信号的增益；

生成包括所述左和右声道信号以及所述经修改的虚拟中心声道信号的组合声道信号；以及

利用主音量控件修改所述组合的声道信号的增益。