CN101764586B

CN101764586B - 音量校正装置、音量校正方法、音量校正程序及电子设备

Info

Publication number: CN101764586B
Application number: CN200910252735.2A
Authority: CN
Inventors: 野口雅义
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-12-04
Filing date: 2009-12-04
Publication date: 2013-05-29
Anticipated expiration: 2029-12-04
Also published as: EP2194732A2; JP2010136080A; EP2194732A3; CN101764586A; JP4826625B2; US8548173B2; US20100189270A1

Abstract

本发明提供音量校正装置、音量校正程序、量校正方法及电子设备，所述音量校正装置包括：可变增益单元，其基于增益控制信号对输入音频信号的增益进行控制；语音平均电平检测器，其检测所述输入音频信号中的人声信号的平均电平；以及增益控制信号生成器，其通过把由所述语音平均电平检测器检测到的所述人声信号的平均电平用作基准电平来生成用于控制所述输入音频信号的增益的所述增益控制信号，并且把生成的所述增益控制信号供给到所述可变增益单元。根据本发明，即使当输入音频信号中所包含的诸如讲话等人声的电平发生变化时，该人声的电平也能够被自动控制为恒定电平，因而再生的声音具有可听得见的音量。

Description

音量校正装置、音量校正方法、音量校正程序及电子设备

相关申请的交叉参考

本申请包含与2008年12月4日向日本专利局提交的日本在先专利申请JP 2008-309704相关的主题，在此将该日本专利申请的全部内容并入本文作为参考。

技术领域

本发明涉及能够适用在诸如电视广播接收器等电子设备的声音输出单元中的音量校正装置、音量校正方法和音量校正程序。

背景技术

当对由电视广播接收器接收的广播频道进行切换时或者当在视听(audio-visual，AV)系统的视听(AV)中心处对多个输入装置进行切换时，输出音量可能会由于内容之间的电平差而变化很大。

在这种情况下，用户必须使用遥控器等来调节音量以获得自己喜欢的音量，因而该用户可能会觉得这是一件很麻烦的事情。

即使在同一内容的情况下(例如，在同一广播频道上或者在同一广播节目期间)，输出音量也会随着商业广告(commercial message，CM)插播或者场景之间的变化而改变，因而会给人不愉快的感觉。

人们已经提出了各种音量校正技术来解决上述问题。作为音量校正技术的一个示例，使用自动增益控制(Auto Gain Control，AGC)的音量控制方法是普遍已知的。

图26是示出了使用AGC的音量校正器的结构的框图。在图26所示的示例中，对左声道输入音频信号SiL和右声道输入音频信号SiR进行音量校正。

在本示例中，左、右声道输入音频信号SiL和SiR被供给到可变增益放大器1L和1R，在该可变增益放大器1L和1R中，可基于增益控制信号对增益进行可变地控制。

通过加法器2使左、右声道输入音频信号SiL和SiR相加。通过放大器3使来自加法器2的相加输出信号变成0.5倍增益，然后供给到平均电平检测器4，并且通过平均电平检测器4来检测出该相加输出信号的平均电平。

把由平均电平检测器4检测到的平均电平供给到增益控制信号生成器5。增益控制信号生成器5使来自平均电平检测器4的平均电平与预定基准电平相比较，利用该比较结果生成用于使两个电平之间的差为零的增益控制信号，并且把生成的增益控制信号供给到可变增益放大器1L和1R。

在可变增益放大器1L和1R中，基于来自增益控制信号生成器5的增益控制信号对增益进行可变地控制。在这种情况下，左、右声道输入音频信号SiL和SiR的增益通过可变增益放大器1L和1R而得到控制，使得来自加法器2的相加输出信号的平均电平等于基准电平。

这样，通过把较小的声音调节为较大并把较大的声音调节为较小，从而把从可变增益放大器1L和1R获得的左、右声道输出音频信号SoL和SoR自动校正为恒定电平的音量。

除了使用AGC的音量校正方法之外，人们还提出了其它各种音量校正方法。例如，日本专利No.3321820披露了这样的方法：当输入的是较大电平的声音时，通过对压缩器进行控制来把输出的声音电平调节为小于输入的声音电平，以此将音量控制在恒定范围内。

然而，例如，在记录介质上所记录的电视广播或者电影内容中，其音频信号中包含诸如人声、背景音乐(Back ground Music，BGM)和音响效果(sound effect)等各类声音。当用户使用遥控器手动控制音量时，通常通过把音频信号中的人声的电平作为基准，将音量的电平调节为使讲话适于被收听到。

上述音量校正方法是通过监测全部音频信号的电平来进行音量控制的方法。例如，在该AGC方法中，当使用全部音频信号的平均电平作为基准来进行音量控制(增益控制)时，要对全部音频信号进行音量控制，从而能够使较高的声音让人听不见或者使较低的声音让人听得见。

然而，对于人声的范围，人声不会保持为恒定电平，并且在过去的音量校正方法中，很难说可以容易听到讲话。

发明内容

鉴于上述问题，本发明期望提供一种使诸如讲话等人声可被听见的音量校正装置和音量校正方法。

本发明实施例提供一种音量校正装置，所述音量校正装置包括：可变增益构件，其基于增益控制信号对输入音频信号的增益进行控制；语音平均电平检测构件，其检测所述输入音频信号中的人声信号的平均电平；以及增益控制信号生成构件，其通过把由所述语音平均电平检测构件检测到的所述人声信号的平均电平用作基准电平来生成用于控制所述输入音频信号的增益的所述增益控制信号，并且把生成的所述增益控制信号供给到所述可变增益构件。

根据此结构，由于通过把输入音频信号的人声信号的平均电平用作基准电平并利用可变增益构件来对输入音频信号的增益进行控制，因此，在输入音频信号中所包含的人声被保持为恒定电平，因而给出了可听得见的音量。

本发明另一实施例提供一种音量校正装置，所示音量校正装置包括：可变增益构件，其基于增益控制信号控制输入音频信号的增益；语音平均电平检测构件，其检测所述输入音频信号中的人声信号的平均电平；非语音平均电平检测构件，其检测所述输入音频信号中的非语音且非静音音频信号的平均电平；以及增益控制信号生成构件，当由所述非语音平均电平检测构件检测到的非语音平均电平不比由所述语音平均电平检测构件检测到的语音平均电平高出预定量时，所述增益控制信号生成构件通过把由所述语音平均电平检测构件检测到的语音平均电平用作基准电平来生成用于控制所述输入音频信号的增益的所述增益控制信号，当由所述非语音平均电平检测构件检测到的非语音平均电平比由所述语音平均电平检测构件检测到的语音平均电平高出预定量时，所述增益控制信号生成构件通过把由所述非语音平均电平检测构件检测到的非语音平均电平用作基准电平来生成用于控制所述输入音频信号的增益的所述增益控制信号，并且所述增益控制信号生成构件把生成的所述增益控制信号供给到所述可变增益构件。

根据此结构，增益控制信号生成构件根据由所述非语音平均电平检测构件检测到的非语音平均电平是否比由所述语音平均电平检测构件检测到的语音平均电平高出基准量，来采用不同的增益控制信号生成方法。

也就是说，当非语音平均电平不比语音平均电平高出预定量时，增益控制信号生成构件通过把语音平均电平用作基准电平来生成用于控制所述输入音频信号的增益的所述增益控制信号。当非语音平均电平比语音平均电平高出预定量时，增益控制信号生成构件通过把非语音平均电平用作基准电平来生成用于控制所述输入音频信号的增益的所述增益控制信号。

因此，根据上述实施例，当非语音平均电平不比语音平均电平高出预定量时，通过把输入音频信号中的人声信号的平均电平用作基准电平并利用可变增益构件对输入音频信号的增益进行控制。因此，输入音频信号中所包含的诸如讲话等人声被保持为恒定电平，因而给出了可听得见的音量。

当非语音平均电平比语音平均电平高出预定量时，通过把输入音频信号中的非人声信号的平均电平用作基准电平并利用可变增益构件对输入音频信号的增益进行控制。因此，当输入音频信号中的非人声信号的电平比人声信号的电平高出预定量时，能够通过把语音平均电平用作基准电平而进行的控制，来防止非人声信号的电平进一步增加。此时，由于非人声信号的平均电平被控制为恒定电平，因此能够获得可听得见的音量。

根据上述结构，由于通过把输入音频信号中的人声信号的平均电平用作基准电平并利用可变增益构件对输入音频信号的增益进行控制，因此，即使当输入音频信号中所包含的诸如讲话等人声的电平发生变化时，该人声的电平能够被自动控制为恒定电平，因而再生的声音具有可听得见的音量。

根据上述结构，由于当输入音频信号中的非人声信号的电平比人声信号的电平高出预定量时，非人声信号的电平能够被自动控制为恒定电平，因而再生的声音具有可听得见的音量。

附图说明

图1是示出了本发明第一实施例的音量校正装置的框图。

图2是示出了使用本发明第一实施例音量校正装置的电子设备示例的框图。

图3是示出了图1所示第一实施例中的语音平均电平生成器的结构的框图。

图4A～图4H是用于说明图3所示的语音平均电平生成器的操作的波形图。

图5是示出了图1所示第一实施例中的语音区间检测器的结构的框图。

图6是示出了图5所示的语音区间检测器的部分结构的框图。

图7A～图7G是用于说明图6所示的结构的波形图。

图8A和图8B是用于说明图5所示的语音区间检测器的另一部分结构的频率特性图。

图9是用于说明图5所示的语音区间检测器的部分结构的另一部分操作的图。

图10是示出了图5所示的语音区间检测器的另一部分结构的框图。

图11A和图11B是用于说明图10中所示结构的各单元的图。

图12是用于说明图10中所示结构的各单元的图。

图13是用于说明图10中所示结构的各单元的图。

图14是用于说明图10中所示结构的各单元的图。

图15是用于说明图10中所示结构的各单元的图。

图16是用于说明图10中所示结构的各单元的图。

图17A～图17D是用于说明图10中所示结构的操作的波形图。

图18是示出了本发明第二实施例的音量校正装置的框图。

图19A～图19C是用于说明第二实施例中的操作的时序图。

图20是示出了图18所示第二实施例中的非语音平均电平生成器的结构的框图。

图21是示出了图18所示第二实施例中的总电平生成器的结构的框图。

图22是示出了本发明第二实施例的音量校正装置的另一部分结构的框图。

图23是示出了使用本发明实施例的音量校正装置的电子设备另一示例的图。

图24是示出了本发明另一实施例的音量校正装置的框图。

图25是示出了本发明又一实施例的音量校正装置的框图。

图26是示出了现有技术中的相关的音量校正装置的框图。

具体实施方式

下面参照附图对本发明优选实施例的音量校正装置进行说明。在这些实施例中，音量校正装置被用作电视广播接收器的音频输出单元。

即，图2是示出了电视广播接收器的结构的框图。图2所示的电视广播接收器包括具有微型计算机的控制单元10。遥控接收器11连接至控制单元10。遥控接收器11从遥控发射器12接收遥控信号，并把接收到的遥控信号供给至控制单元10。控制单元10对与接收到的遥控信号对应的各种处理进行控制。

控制单元10向电视广播接收器的各构成单元供给控制信号，并且执行用于接收电视广播信号、再生该电视广播信号的视频以及再生音频的各种处理。

调谐单元13从电视广播信号选择并提取广播频道信号，该广播频道信号是由与用户对遥控器的操作对应的频道选择控制信号指定的并从控制单元10供给来的信号。调谐单元13对来自所选择并提取的广播频道信号的视频信号和音频信号进行解调和解码，把该视频信号供给到视频信号处理器14，并把该音频信号供给到音频信号处理器15。

视频信号处理器14在控制单元10的控制下对视频信号进行预定处理，并把处理过的视频信号通过显示控制器16供给到包括例如液晶显示器(Liquid Crystal Display，LCD)的显示单元17。因此，所选择的广播频道的广播节目的图像被显示在显示单元17上。

音频信号处理器15在控制单元10的控制下对音频信号进行预定处理。在本实施例中，音频信号处理器15从来自调谐单元13的音频信号生成左、右声道输入音频信号SiL和SiR，并把处理过的音频信号SiL和SiR供给到音量校正器18。

音量校正器18是使用了本实施例的音量校正装置的单元。对输入音频信号SiL和SiR进行稍后所述的音量校正，并且把它们作为输出音频信号SoL和SoR输出。来自音量校正器18的输出音频信号SoL和SoR被供给到扬声器19L和19R，并且被再生为声音。因此，从扬声器19L和19R输出所选择的广播频道的广播节目的声音。

下面将音量校正器18作为本实施例的音量校正装置进行说明。

第一实施例的音量校正装置

图1是示出了作为本发明第一实施例音量校正装置的音量校正器18的整体结构的框图。

如图1所示，在本实施例中，左、右声道输入音频信号SiL和SiR被供给到可变增益放大器21L和21R，在可变增益放大器21L和21R中，基于增益控制信号对增益进行控制。

左、右声道输入音频信号SiL和SiR被供给到语音平均电平检测器22，因此，如稍后所述地对左、右声道输入音频信号SiL和SiR的相加信号中的语音信号的平均电平(语音平均电平)进行检测。

由语音平均电平检测器22检测到的语音平均电平被供给到增益控制信号生成器23。增益控制信号生成器23使该语音平均电平与预定基准电平相比较，使用该比较结果生成用于使两个电平之间的差为零的增益控制信号，并把生成的增益控制信号供给到可变增益放大器21L和21R。

基于来自增益控制信号生成器23的增益控制信号对可变增益放大器21L和21R的增益进行可变地控制。在这种情况下，通过可变增益放大器21L和21R来控制左、右声道输入音频信号SiL和SiR的增益，使得左、右声道输入音频信号SiL和SiR的相加信号的语音平均电平等于基准电平。

这样，通过把人声的平均电平用作基准，可变增益放大器21L和21R对音量进行自动控制。因此，当通过扬声器19L和19R把从可变增益放大器21L和21R获得的左、右声道输出音频信号SoL和SoR再生为声音时，诸如讲话等人声的音量电平被保持为恒定电平，并且该人声是可被听见的。

在本实施例中，语音平均电平检测器22具有以下结构。

左、右声道输入音频信号SiL和SiR通过加法器31相加。来自加法器31的相加输出信号通过放大器32变成0.5倍增益。来自放大器32的相加输出信号Sm被供给到平均电平检测器33，该相加输出信号Sm的平均电平被平均电平检测器33检测出来，并且具有该平均电平的信号(称作“平均电平信号”)Av被输出。由平均电平检测器33检测到的相加输出信号Sm的平均电平信号Av被供给到语音平均电平生成器35。

来自放大器32的相加输出信号Sm还被供给到语音区间检测器34，并且左、右声道输入音频信号SiL和SiR也被供给到语音区间检测器34。

如稍后所述，语音区间检测器34检测这样的语音区间：该语音区间是来自放大器32的相加输出信号Sm中包含有人声信号的时间区间。语音区间检测器34还检测这样的语音区间：该语音区间是来自左、右声道输入音频信号SiL和SiR中包含有人声信号的时间区间。

在本实施例中，语音区间检测器34使用语音信号的特征量对语音区间进行检测。语音信号存在多种类型的特征量。如稍后所述，本实施例的语音区间检测器34基于语音信号的多种类型的特征量对语音区间进行检测，并且取各检测结果的逻辑积(logical product)，从而提高检测到的语音区间的精度。语音区间检测器34生成表示检测到的语音区间的语音区间检测标记FLG，并且输出该生成的语音区间检测标记。语音区间检测器34把语音区间检测标记FLG供给到语音平均电平生成器35。

语音平均电平生成器的结构

在本实施例中，语音平均电平生成器35具有与图3所示的结构相同的结构。

即，来自平均电平检测器33的平均电平Av被供给到选择器351的输入端子，并且语音区间检测标记FLG作为选择信号被供给到选择器351。选择器351的输出信号被供给到积分器352。积分器352的输出信号被供给到选择器351的另一输入端子，并且作为语音平均电平生成器35的输出信号Vavr而被输出。

选择器351在语音区间中基于语音区间检测标记FLG从平均电平检测器33选择平均电平信号Av并把该平均电平信号Av供给到积分器352，并且在非语音区间中选择积分器352的输出信号并把该输出信号供给到积分器352。

因此，积分器352在语音区间中对来自平均电平检测器33的平均电平信号Av进行积分，从而生成平均信号。积分器352在非语音区间中对积分器352的输出电平信号进行保持。

例如，考虑来自放大器32的相加输出信号Sm与图4A所示相同的情况。在图4A所示的相加输出信号Sm中，竖条纹所占据的区间是主要包含有人声或者仅包含有人声的区间，并且语音区间检测器34的语音区间检测标记FLG与图4B所示的相同。

因此，选择器351基于语音区间检测标记FLG在来自平均电平检测器33的平均电平信号Av中仅选择语音区间的信号，该选择的语音区间的信号与图4C所示的相同。

积分器352在语音区间中通过把积分器352的前一输出(保持值)用作初始值而对来自平均电平检测器33的平均电平信号Av中的语音区间的信号电平进行积分。在非语音区间中，由于选择器351选择积分器352的输出信号Vavr，因而积分器352对语音区间的最后时刻的信号电平进行保持。结果，积分器352的输出信号Vavr，即语音平均电平生成器35的输出信号Vavr与图4D所示的相同。

然后，如图4F所示，积分器352使用积分器352的前一输出(保持值)作为初始值来进行积分运算，从而计算出由语音区间检测标记FLG表示的语音区间中的语音信号电平的平均值。

如图4E所示，积分器352在除了语音区间以外的区间中对语音区间的最后时刻的信号电平进行保持。

所获得的语音平均电平生成器35的输出信号Vavr表示语音信号的平均电平，并且作为语音平均电平检测器22的输出信号被供给到增益控制信号生成器23。

增益控制信号生成器23使来自语音平均电平检测器22的语音平均电平信号Vavr与预定基准电平相比较，并且基于该比较结果生成用于使两个电平之间的差为零的增益控制信号。

由增益控制信号生成器23生成的增益控制信号被供给到可变增益放大器21L和21R。在可变增益放大器21L和21R中，基于增益控制信号对增益进行控制，使得输入音频信号SiL和SiR的语音平均电平变为基准电平。

在图4A～图4H所示的示例中，由于语音平均电平信号Vavr与图4D所示的相同，因而基于图4G所示的电平校正增益把输入音频信号SiL和SiR的语音平均电平控制为基准电平。

结果，来自可变增益放大器21L和21R的输出音频信号SoL和SoR被控制为呈图4H所示的增益。

语音区间检测器的结构

如上所述，着眼于语音信号的特征量，语音区间检测器34从输入音频信号Sm检测出作为包括人声的时间区间的语音区间。在本实施例中，着眼于语音信号的多种类型的特征量，语音区间检测器34使用该多种类型的特征量中的各个类型来检测语音区间。能够通过基于多个检测结果的语音区间生成并输出语音区间检测标记FLG，来提高检测到的语音区间的精度。

图5是示出了本实施例的语音区间检测器34的结构的框图。

在本实施例中，语音区间检测器34包括如下三个检测器，即语音周期检测器40、语音频带集中检测器50和中央定位检测器60。这三个检测器40、50和60检测语音信号的用于指定语音区间的一个特征量。通过取这三个检测器40、50和60的三个检测输出的逻辑积，能够提高语音区间的检测精度。下面对这三个检测器40、50和60进行说明。

语音周期检测器

语音信号包括多个独特的频率分量，并且具有强调被称作间距的基本频率分量的峰且在元音期间呈连续性的波形特性。基本频率分量的峰在每次元音出现时具有峰状包络，并且按同一周期进行重复。因此，通过检测输入音频信号的波形的峰并检测所检测到的峰的周期连续性，能够以较低负荷的处理来简单地指定包括语音的区间。也就是说，能够通过把语音信号的同一峰周期的连续性作为用于检测语音区间的特征量，来对语音区间进行检测。

峰周期具有逐渐上升或者下降的斜坡，并且相邻的峰周期之间的差较小。因此，能够通过在一定的容许误差范围内检测相邻的峰周期的相同性，来检测出包括人声的语音区间，同时避免峰周期的变化的影响。

基于上述说明，在本实施例中，语音周期检测器40包括峰周期检测器41、连续相同周期检测器42和频率检测器43。

峰周期检测器41检测输入音频信号Sm的峰，并且检测所检测到的峰的周期。

连续相同周期检测器42判断由峰周期检测器41检测到的相邻的峰周期的相同性，并且当判定相邻的峰周期是相同的时就检测出相同峰周期是连续的。在这种情况下，当峰周期是在语音频带内时，连续相同周期检测器42判断相邻的峰周期的相同性。例如，当峰周期在约1ms～10ms的范围内时，判断相邻的峰周期的相同性。

通过准备好使连续相同周期检测器42的输出延迟一个峰周期从而获得的三个以上的输出，并取该多个输出中的多数，频率检测器43能够除去由于峰周期的变化而引起的影响。也就是说，当峰周期变化时，应当利用连续相同周期检测器42把在该变化时刻与一个到多个周期对应的区间检测为具有连续相同周期的语音区间，但也可以不检测为连续相同周期。频率检测器43除去了由于上述变化而被检测为非连续的一个到多个周期，从而获得具有稳定的连续相同周期的检测输出。

图6是示出了语音周期检测器40的详细结构的图。峰周期检测器41包括峰检测器411和周期计数器412。连续相同周期检测器42包括周期比较器421和延迟单元422。

频率检测器43包括两个延迟单元431和432以及多数逻辑单元433，这两个延迟单元431和432使连续相同周期检测器42的输出信号延迟一个峰周期。

下面参照图7A～图7G的波形图对语音周期检测器40的操作进行说明。即，图7A示出了图4A所示的组合音频信号Sm的一部分，图7B示出了图7A中的语音区间的声音波形。

在本示例中，峰周期检测器41的峰检测器411检测图7A所示的输入音频信号Sm的正侧峰位置，并且输出表示检测时刻(检测位置)的峰检测输出Pk(见图7C)。峰检测器411把大于预定阈值的峰值检测为峰位置。

来自峰检测器411的峰检测输出Pk被供给到周期计数器412。频率远高于语音信号的峰周期的时钟CLK也被供给到周期计数器412，并且周期计数器412通过对相邻的峰检测输出Pk之间的时钟CLK进行计数来对峰周期进行计数。因此，周期计数器412把时钟CLK的计数值作为峰周期输出。

计数值Tc作为周期计数器412的峰周期检测输出而被供给到连续相同周期检测器42。

在连续相同周期检测器42中，作为周期计数器412的峰周期检测输出的计数值Tc被没有任何延迟地供给到周期比较器421，并且还在通过延迟单元422延迟后被供给到周期比较器421。

延迟单元422包括锁存单元，该锁存单元被供给有作为时钟的峰检测输出Pk，延迟单元422使来自周期计数器412的计数值Tc延迟一个峰周期，然后把该延迟的计数值供给到周期比较器421。

在本示例中，周期比较器421检查来自周期计数器412的计数值Tc是否是与1ms～10ms的峰周期对应的计数值。当判定计数值Tc不是与1ms～10ms的峰周期对应的计数值时，周期比较器421不对各周期进行比较，并且在本示例中把该周期比较器421的输出CT设定为低电平(“0”)。当判定计数值Tc是与1ms～10ms的峰周期对应的计数值时，如下所述，周期比较器421对相邻的峰周期进行相互比较。

也就是说，周期比较器421通过使来自周期计数器412的当前时刻的峰周期的计数值Tcp与一个峰周期以前时刻的那个峰周期的计数值Tcb相比较来判断这两个峰周期是否相同。这里，当两个计数值处于可以将两者视为相同的较小容许范围内时并且在前、后峰周期的计数值Tcp和Tcb相同的情况下，周期比较器421判定这两个峰周期相同。根据语音区间的检测容许精度，预先设定可被判定为相同的差异的大小。

在本示例中，周期比较器421输出连续相同周期检测标记CT(见图7D)，当前、后峰周期的计数值Tcp和Tcb相同时该连续相同周期检测标记CT被设定为高电平(“1”)，而当两个计数值不相同时该连续相同周期检测标记CT被设定为低电平(“0”)。

连续相同周期检测标记CT被供给到频率检测器43。在本示例中，如上所述，频率检测器43包括两个延迟单元431和432以及多数逻辑单元433。

在本示例中，延迟单元431和延迟单元432包括被供给有作为时钟的峰检测输出Pk的锁存单元，并且使各自的输入信号延迟一个峰周期。

延迟单元431从连续相同周期检测器42接收作为输入信号的连续相同周期检测标记CT，并且输出通过使该连续相同周期检测标记CT延迟一个峰周期而获得的信号CTd1(见图7E)。

延迟单元432接收延迟单元431的输出信号CTd1，并且输出通过使该输出信号CTd1延迟一个峰周期而获得的信号CTd2(见图7F)。

这三个信号，即连续相同周期检测标记CT、一个峰周期延迟信号CTd1和两个峰周期延迟信号CTd2被供给到多数逻辑单元433。

多数逻辑单元433生成并输出语音周期检测标记FLGa(见图7G)，当三个信号CT、CTd1和CTd2中的两个信号被设定为高电平“1”时，该语音周期检测标记FLGa被设定为“1”，否则就被设定为低电平“0”。

即使当连续相同周期检测器42由于峰周期的变化而可能不会把语音区间的一些峰周期区间检测为连续相同周期区间时，频率检测器43也能够输出包括上述一些峰区间的语音周期检测标记FLGa。

这样，由语音周期检测器40检测到的语音周期检测标记FLGa被供给到与(AND)门340。

在上述示例中，频率检测器43使用两个延迟单元以一个峰周期为单位取互不相同的三个信号中的多数，但频率检测器43可以使用三个以上的延迟单元来取多数。在这种情况下，多数是单纯的多数，但也可以是大于预定阈值的多数。例如，考虑如下情况：使用四个延迟单元以一个峰周期为单位来取互不相同的五个信号中的多数。当三个以上的信号为高电平“1”时，不把语音区间检测信号FLGa设定为“1”，而仅当四个以上的信号为高电平“1”时，才可以把语音区间检测信号FLGa设定为“1”。

在上述示例中，语音周期检测器40检测声音波形的正侧峰，但也可以检测负侧峰。可以既检测正侧峰又检测负侧峰，并且可以使用正侧峰和负侧峰的逻辑和。

语音频带集中检测器

语音信号的元音的主要部分的频带通常处于100Hz～1kHz中等频带中。因此，能够通过提取当100Hz～1kHz频带的信号分量大于其它分量时的位置，来指定存在有人声的区间。也就是说，能够通过把语音信号的元音的主要部分的频带用作检测语音区间的特征量，来对语音区间进行检测。

能够把具有很多诸如背景噪声或者爆发声(explosion sound)等不同于人声的频带分量的信号排除。在本实施例中，元音频带用作语音频带，而辅音频带被排除。这是因为元音的电平被主要识别为人声的大小。

在本实施例中，如图5所示，语音频带集中检测器50包括带通滤波器(band pass filter，BPF)51、带阻滤波器(band elimination filter，BEF)52、平均电平检测器53和54、放大器55以及比较器56。

如图8A所示，在本示例中，带通滤波器51是具有如下带通特性的滤波器：在该带通滤波器51中，把包括人声的100Hz～1kHz频带设定为带通区域。如图8B所示，带阻滤波器52是具有具有如下带通特性的滤波器：在该带阻滤波器52中，把包括人声的100Hz～1kHz频带设定为非带通区域。也就是说，带阻滤波器52是以不包括人声的频带作为带通区域的滤波器。

来自放大器32的左、右声道输入音频信号SiL和SiR的相加信号Sm被供给到带通滤波器51和带阻滤波器52。

带通滤波器51从相加信号Sm提取包括人声的100Hz～1kHz频带的信号分量，并且把提取的信号分量供给到平均电平检测器53。平均电平检测器53检测该相加信号Sm中的100Hz～1kHz频带的信号分量的平均电平。检测到的平均电平信号BPFavr(见由图9中的实线表示的波形)从平均电平检测器53输出。

带阻滤波器52从相加信号Sm提取不包括人声的100Hz～1kHz频带的信号分量，并把提取的信号分量供给到平均电平检测器54。平均电平检测器54检测该相加信号Sm中的不包括人声的100Hz～1kHz频带的信号分量的平均电平。检测到的平均电平信号BEFavr(见由图9的点划线表示的波形)从平均电平检测器54输出。

来自平均电平检测器53的平均电平信号BPFavr被没有任何改变地供给到比较器56。来自平均电平检测器54的平均电平信号BEFavr被放大器55加权，然后被供给到比较器56。这里，放大器55的权重值涉及语音区间的检测精度。在本示例中，当放大器55的权重值越大时，被检测作为语音区间的区间的长度就越短。可以对平均电平检测器53的输出BPFavr进行加权操作。

当包括语音的频带的平均电平信号BPFavr大于通过对不包括语音的频带的平均电平BEFavr进行加权而获得的电平时，比较器56判定对语音频带集中区间进行检测，并且提出语音频带集中检测标记FLGb。在本示例中，如图9所示，把检测到的语音频带集中区间中的语音频带集中检测标记FLGb设定为高电平(“1”)。

这样，由语音频带集中检测器50检测到的语音频带集中检测标记FLGb被供给到与门340。

在上述说明中，使用了带通滤波器51和带阻滤波器52。然而，用于提取包括人声的频带信号和不包括人声的频带信号的构件不限于上述滤波器，可以使用诸如低通滤波器(low-pass filter)或者高通滤波器(high-pass filter)等滤波器来把各频带分开。

比较器56可使包括人声的频带信号和不包括人声的频带信号与比较器56的输入信号相比较。该比较器可以使包括人声的频带信号或者不包括人声的频带信号与输入信号之间的差跟包括人声的频带信号或者不包括人声的频带信号相比较。

中央定位检测器

例如，在无线电广播或者电视广播的立体声广播的内容中，使大多数的人类讲话位于中央，从而使该人类讲话可以被听见。因此，包括人声的区间具有集中于中央的定位分布。

因此，通过在立体声音频信号中指定包括位于中央的信号分量的区间，能够指定包括人声的区间。也就是说，能够通过把立体声音频信号中的中央定位分量用作用于检测语音区间的特征量，来对语音区间进行检测。通过从立体声音频信号中提取中央定位分量，能够把除了位于中央的声音部分以外的诸如向左、向右扩散的音乐信号部分等部分排除。

如图5所示，中央定位检测器60包括定位分布检测器61和中央定位集中检测器62。左、右声道输入音频信号SiL和SiR被供给到定位分布检测器61。通过定位分布检测器61检测出在输入音频信号中随时间变化的定位分布。

由定位分布检测器61检测到的定位分布的信息被供给到中央定位集中检测器62。通过中央定位集中检测器62检测出位于中央的分量进行集中的时间区间。中央定位集中检测器62输出表示位于中央的分量进行集中的时间区间的中央定位集中检测标记FLGc。

如图10所示，定位分布检测器61包括频带限制滤波器611和612、定位检测器613以及定位分布测量器614。

例如，通过频带限制滤波器611和612，把几乎不会给出定位感觉的诸如低频带分量等频带分量从输入给定位分布检测器61的左、右声道输入音频信号SiL和SiR中除去。

被频带限制滤波器611和612限制了频带的两个声道输入音频信号SiL和SiR被供给到定位检测器613。定位检测器613基于被限制了频带的两个声道输入音频信号SiL和SiR的电平大小，在各个预定周期内的定位检测时刻对该两个声道输入音频信号SiL和SiR的定位进行检测。

也就是说，定位检测器613以预定采样周期对被限制了频带的两个声道输入音频信号SiL和SiR的电平(振幅)进行采样。在本示例中，定位检测器613把最近采样时刻的定位检测为当前时刻的定位。

在这种情况下，定位检测器613使用最近采样时刻和前一采样时刻的输入音频信号SiL和SiR的电平来检测该最近采样时刻的定位。

当两个声道输入音频信号SiL和SiR是数字音频信号时，能够把采样周期设定为与数字音频信号的采样周期相等。采样周期可以不等于数字音频信号的一个采样周期，而可以被设定为等于多个采样周期。当定位检测器613的输入音频信号是模拟信号时，可以在定位检测器613的输入级处将该模拟信号转换为数字音频信号。

下面参照图11A和图11B说明在定位检测器613中对定位进行检测的方法。图11A和图11B示出了坐标空间，在该坐标空间中，X轴代表左声道输入音频信号SiL的振幅，Y轴代表右声道输入音频信号SiR的振幅。

定位检测器613在各个采样周期内的定位检测时刻获取两个声道输入音频信号SiL和SiR的电平，并将对应的坐标点绘在图11A和图11B所示的坐标空间中，例如P1、P2、P3和P4。在本示例中，P4是最近检测时刻的坐标点。

当使由方程y＝k·x(其中k为常数)表示的直线(穿过X轴和Y轴的交点Z的直线)绕交点Z旋转±90°时，即，当改变常数k时，定位检测器613计算所绘出的坐标点P1、P2、P3和P4最靠近哪个常数k(哪个倾角)的直线。也就是说，定位检测器在具有不同常数k的各直线中计算出这样一条直线的常数k，该条直线到坐标点P1、P2、P3和P4的距离Da1、Da2、Da3和Da4或者距离Db1、Db2、Db3和Db4的总和是最小的。

定位检测器613把与计算出的那条直线的常数k对应的倾角设定为待检测的当前时刻的定位。在图11A和图11B的示例中，在X轴即左声道的定位的角度(向左方向)为0°，并且绕X轴的角度θ(以下称作“定位角”)为定位角的状态下，对定位进行检测。

在图11A的坐标点P1、P2、P3和P4的示例中，定位角被检测为θa。在图11B的坐标点P1、P2、P3和P4的示例中，定位角被检测为θb。

在本实施例中，定位检测器613不对当前时刻(最近采样时刻)的两个声道输入音频信号的电平和前一采样时刻的两个声道输入音频信号的电平使用相同的权重。在本实施例中，定位检测器613对最接近当前时刻的采样时刻的两个声道输入音频信号的电平使用较大的权重。

因此，图12所示，定位检测器613采用了具有如下指数曲线特性的时间窗WD1：随着越靠近当前时刻(在本示例中为最近采样时刻tn)时，用于两个声道输入音频信号的电平的采样值的权重变得越大。

在上述说明中，作为用于处理信号的时刻的当前时刻被设定为最近采样时刻(最近取样时刻)。然而，可以在输入音频信号SiL和SiR的输入级与可变增益放大器21L和21R之间设置有用于延迟预定时间τ的延迟电路，并且可以把作为处理时刻的当前时刻设定为通过使输入音频信号SiL和SiR延迟预定时间τ而获得的时刻。

在这种情况下，定位检测器613还能够使用在作为处理时刻的当前时刻的未来时刻处的两个声道输入音频信号SiL和SiR来对定位进行检测。例如，在图11A和图11B所示的示例中，可以把作为处理时刻的当前时刻设定至P2或者P3。

在这种情况下，采用了具有图13所示的指数曲线特性的时间窗WD2来代替时间窗WD1。时间窗WD2具有如下的指数曲线特性：作为处理时刻的当前时刻tp的权重最大，并且随着从当前时刻tp偏离得越远时，即向过去和未来偏离时，权重变得越来越小。

可以没有任何改变地使用当前时刻的两个声道输入音频信号的电平，而不必对在过去和/或未来采样时刻的两个声道输入音频信号SiL和SiR的电平进行加权。

这样，定位检测器613能够检测表示当前时刻的两个声道输入音频信号SiL和SiR的定位的定位角θ。

然而，所检测到的当前时刻的定位角θ用于在一个方向上的某一时刻限定各输入音频信号的定位，但不反映在该相应方向上的信号强度。因此，在本实施例中，考虑到了这一点，把由定位检测器613检测到的当前时刻的两个声道输入音频信号SiL和SiR的定位的检测结果(定位角θ)供给到定位分布测量器614。

定位分布测量器614在预定时间区间d内计算出由定位检测器613检测到的全部定位中的定位角θ的分布，并且测量在相应方向上的两个声道输入音频信号的定位的比值。

在这种情况下，例如预定时间区间d被选择为几毫秒～几百毫秒，在本示例中为几十毫秒。在本实施例中，定位分布测量器614按照与定位检测器613的加权系数特性相同的方式对定位检测器613以预定时间区间d检测到的定位角θ加权。

也就是说，定位分布测量器614使用时间窗WD3(见图14)来进行加权运算，在时间窗WD3中，随时靠近当前时刻tp(在本示例中tp＝tn(最近采样时刻))时，权重以指数形式增大。

如上所述，为输入音频信号设定时间延迟τ，并且当用于在定位检测器613中进行加权的时间窗被设定为与图13所示的相同时，定位分布测量器614的时间窗与图13所示的相同。在这种情况下，时间区间d是包括从当前时刻tp算起的未来和过去时刻的时间区间。可以以未进行加权的值来使用上述定位。

图15是示出了作为由定位分布测量器614计算出的定位角θ的分布的定位分布P(θ)示例的图，其中，横轴代表绕X轴的定位角θ(左声道定位)，纵轴代表各个定位角的出现频率(＜1)。在本实施例中，当对全部定位角θ计算出定位分布P(θ)的总和时，生成总和为1即∑P(θ)＝1的分布。

定位角θ与音频信号的定位之间的关系如图16所示。图16所示的正面方向、向左方向和向右方向是以收听者为基础的方向命名。

这样，在当前时刻(当前采样时刻或者当前取样时刻：处理时刻)从定位分布测量器614获得了图15所示的定位分布P(θ)的信息。

定位分布P(θ)的信息被供应到中央定位集中检测器62。中央定位集中检测器62通过主要在中央方向上对由定位分布检测器61计算出的定位分布P(θ)加权来计算中央定位分布信号。

考虑如下情况：左声道音频信号SiL和右频道音频信号SiR例如是图17A和图17B所示的信号。在图17A和图17B中，用具有恒定间隙的竖线进行标记的部分表示包括位于中央的语音分量的区间。

在图17A～图17D所示的示例中，由中央定位集中检测器62计算出的中央定位分布信号与图17C所示的相同。

中央定位集中检测器62使计算出的中央定位分布信号的值与预定基准值REF相比较，并且把中央定位分布信号的值大于基准值REF时的区间检测为中央定位检测区间。在图17A～图17D所示的示例中，基准值REF被设定为0.8(＝80％)。中央定位集中检测器62输出表示检测到的中央定位检测区间的中央定位检测标记FLGc。

这样，来自中央定位检测器62的中央定位检测标记FLGc被供给到与门340。

通过检测中央定位集中分量来检测语音区间的方法不限于能让定位分布检测器61利用中央定位集中检测器62的方法。例如，简单地，可以提取中央定位集中信号作为两个声道输入音频信号SiL和SiR之和，并且可以把所提取的中央定位集中信号大于预定基准值时的区间检测为语音区间。

语音区间检测标记的生成

与门340把来自语音周期检测器40的语音周期检测标记FLGa、来自语音频带集中检测器50的语音频带集中检测标记FLGb和来自中央定位检测器60的中央定位检测标记FLGc的逻辑积作为语音区间检测标记FLG输出。

语音周期检测标记FLGa、语音频带集中检测标记FLGb和中央定位检测标记FLGc是代表用于检测语音区间的特征量的标记。与门340通过取这三个标记FLGa、FLGb和FLGc的逻辑积来生成作为语音区间的检测输出的语音区间检测标记FLG，从而提高了语音区间的检测精度。

如上所述，根据本发明的第一实施例，计算出了输入音频信号中用语音区间检测标记FLG表示的语音区间的平均电平，并且把该平均电平用作基准电平对增益进行控制。因此，由于可以把输入音频信号中所包含的诸如讲话等人声的声音电平控制为恒定，因而能够使讲话等可被听见。

在第一实施例中，通过基于三种类型的用于检测语音区间的特征量生成三个标记FLGa、FLGb和FLGc并取这三个标记的逻辑积，语音区间检测器34生成了作为语音区间的检测输出的语音区间检测标记FLG。

然而，为了简化上述处理，可以把基于三种类型的特征量中的一个特征量而生成的标记用作语音区间检测标记FLG。也可以通过组合三种类型的特征量中的两个特征量并且取基于该组合的两种特征量而生成的标记的逻辑积，来生成语音区间检测标记FLG。

当使用三种类型的特征量中的一个特征量或者两个特征量的组合时，可以设置用于选择的选择操作构件，并且用户可以使用该选择操作构件来手动地选择特征量。

可以在语音区间检测器34中设置有用于检测输入音频信号Sm中的静音的静音检测器，并且可以在由该静音检测器检测到的静音区间中把语音区间检测标记FLG屏蔽，从而将静音区间从语音区间中排除。在这种情况下，由于能够把没有信号的部分或者背景噪声部分排除，因而能够进一步提高语音区间的检测精度。

用于检测语音区间的语音信号的特征量不限于上述三种类型，而是可以使用其它特征量。

第二实施例的音量校正装置

在第一实施例中，由于通过把语音信号的平均电平用作基准电平而对输入音频信号的增益进行控制，因此，当语音信号的平均电平较低时，全部输入音频信号的增益被控制为增大。结果，当非人声分量的电平高于语音信号的电平并且它们之间的差很大时，非人声分量的音量就过度增大。在不包括人声的内容的情况下，非人声的音量可能会过度增加。

本发明第二实施例的目的是要解决上述问题。在下面说明的第二实施例中，类似于第一实施例，音量校正装置被用于图2所示的电视广播接收器的音量校正器18。

图18是示出了第二实施例的音量校正器18的整体结构的框图。在图18中，与图1所示第一实施例的音量校正器18相同的元件用相同的附图标记和符号表示。

在第二实施例中，除了设置有第一实施例的语音电平检测器22以外，还设置有非语音平均电平检测器24和总电平生成器25。如稍后所述，非语音平均电平检测器24从相加信号Sm生成非语音信号区间的平均电平NVavr。

作为语音平均电平检测器22的输出信号的语音平均电平信号Vavr和作为非语音平均电平检测器24的输出信号的非语音平均电平信号NVavr被供给到总电平生成器25。

总电平生成器25从语音平均电平信号Vavr和非语音平均电平信号NVavr生成组合电平信号，并且将该组合电平信号供给到增益控制信号生成器23。因此，在第二实施例中，增益控制信号生成器23通过把来自总电平生成器25的组合电平信号的电平用作基准电平来生成增益控制信号，并且把生成的增益控制信号供给到可变增益放大器21L和21R。

语音平均电平检测器22的结构与第一实施例中的相同，因而省略对它的详细说明。

非语音平均电平检测器

如图18所示，非语音平均电平检测器24包括静音检测器71、非语音平均电平生成器72、反相器73以及与(AND)门74。

静音检测器71从语音平均电平检测器22的放大器32接收相加音频信号Sm作为输入信号，并且检测该相加音频信号Sm的静音区间。静音检测器71输出表示检测到的静音区间的静音区间检测标记SLFG。静音检测器71中的静音检测方法能够采用现有的方法，因而省略对它的详细说明。

如图19B所示，在本实施例中，来自静音检测器71的静音区间检测标记SLFG是在静音区间中被设定为低电平(“0”)且在非静音区间中被设定为高电平(“1”)的信号。来自静音检测器71的静音区间检测标记SLFG被供给到与门74。

来自语音平均电平检测器22的语音区间检测器34的语音区间检测标记FLG(见图19A)通过反相器73进行极性反转，然后被供给到与门74。

因此，如图19C所示，能够在除了静音区间和语音区间以外的非语音区间中获得被设定为高电平的非语音区间检测标记NFLG。该非语音区间检测标记NFLG被供给到非语音平均电平生成器72。来自语音平均电平检测器22的平均电平检测器33的相加音频信号Sm的平均电平信号Av被供给到非语音平均电平生成器72。

非语音平均电平生成器72与图3所示的语音平均电平生成器35具有相同的结构，并且包括图20所示的选择器721和积分器722。非语音平均电平生成器72与语音平均电平生成器35的不同之处在于：被供给到选择器721的选择控制信号不是语音区间检测标记FLG而是非语音区间检测标记NFLG。

因此，在非语音平均电平生成器72中，在非语音区间中，把平均电平信号Av从选择器721输入到积分器722中，并且在静音区间和语音区间中，把该积分器的输出从选择器721输入到积分器722中。

因此，在非语音区间中，积分器722使用积分器722的前一输出(保持值)作为初始值，对来自平均电平检测器33的平均电平信号Av中的非语音区间的信号电平进行积分并求平均。在静音区间和语音区间中，积分器722对非语音区间中的最后信号电平进行保持。

结果，非语音平均电平生成器72的积分器722的输出信号NVavr代表非语音区间中的平均电平。

总电平生成器

图21示出了本实施例的总电平生成器25的结构。

本实施例的总电平生成器25包括选择器251、加权放大器252和电平比较器253。选择器251的输入端子A被供给有来自语音平均电平检测器22的语音平均电平信号Vavr，并且选择器251的另一输入端子B被供给有来自非语音平均电平检测器的非语音平均电平信号NVavr。

电平比较器253被供给有通过使用加权放大器252把来自语音平均电平检测器22的语音平均电平信号Vavr进行加权而获得的信号和来自非语音平均电平检测器的非语音平均电平信号NVavr。当非人声分量的电平高于基准电平时并且在本示例中是基准电平的两倍(×2)时，放大器252中的权重被用来设定能通过增益控制使音量显著增大的基准电平。

两个信号通过电平比较器253进行比较，并且比较结果即输出CMP作为选择控制信号被供给到选择器251。这里，当语音平均电平信号Vavr的两倍电平值大于非语音平均电平信号NVavr的值时，比较结果即输出CMP被设定为例如“1”以使选择器251能把输入到输入端子A的语音平均电平信号Vavr的值输出。当非语音平均电平信号NVavr的值大于语音平均电平信号Vavr的两倍电平值时，比较结果即输出CMP被设定为例如“0”以使选择器251能把输入到另一输入端子B的非语音平均电平信号NVavr的值输出。

因此，类似于第一实施例，在非语音平均电平信号NVavr小于语音平均电平信号Vavr的两倍电平值的范围内(NVavr＜2Vavr)，选择器251选择语音平均电平信号Vavr并把该语音平均电平信号Vavr供给到增益控制信号生成器23。因此，类似于第一实施例，在上述范围内(NVavr＜2Vavr)，通过将语音平均电平信号Vavr用作基准电平来对可变增益放大器21L和21R的增益进行控制，从而将音量电平控制为使得诸如讲话等人声可被听见。

在非语音平均电平信号NVavr不小于语音平均电平信号Vavr的两倍电平值的范围内(NVavr≥2Vavr)，选择器251选择非语音平均电平信号NVavr，并将该非语音平均电平信号NVavr供给到增益控制信号生成器23。因此，在上述范围内(NVavr≥2Vavr)，通过将非语音平均电平信号NVavr用作基准电平来对可变增益放大器21L和21R的增益进行控制，从而防止非语音的音量异常增大。

在图18中，把非语音平均电平信号NVavr与通过将语音平均电平信号Vavr加权而获得的信号相比较，并且根据比较结果把非语音平均电平信号NVavr和语音平均电平信号Vavr之一供给到增益控制信号生成器23。

然而，可以把图18所示的语音平均电平生成器35、非语音平均电平生成器72和总电平生成器25构成为如图22所示的那样。

在图22所示的示例中，非语音平均电平生成器72与图18所示的示例类似地设置而成。在图22所示的示例中，设置有总平均电平生成器26来代替语音平均电平生成器35和总电平生成器25。

类似于语音平均电平生成器35，总平均电平生成器26包括选择器261和积分器262。总平均电平生成器26还包括加权放大器263和比较器264。

选择器261的输入端子A被供给有积分器262的输出信号(总平均电平信号GVavr)。选择器261的输入端子B被供给有来自语音平均电平检测器33的平均电平信号Av，并且选择器261的选择控制端子被供应有语音区间检测标记FLG。

由语音区间检测标记FLG选择的选择器261的输出信号被供应到积分器262。积分器262的输出信号通过加权放大器263而在电平上被乘以2，然后被供给到比较器264。比较器264还被供给有作为非语音平均电平生成器72的积分器722的输出信号的非语音平均电平信号NVavr。

作为非语音平均电平生成器72的积分器722的输出信号的非语音平均电平信号NVavr还被供给到积分器262，并且作为比较器264的比较结果的输出信号CMP被供给到积分器262。当比较器264的输出信号CMP满足稍后说明的条件时，积分输出值会得到保持，积分器262进行把该积分输出值改变成为来自非语音平均电平生成器72的非语音平均电平信号NVavr的处理。

下面对图22所示的示例中的处理操作进行说明。

在图22所示的示例中，总平均电平生成器26和非语音平均电平生成器72对来自语音平均电平检测器33的平均电平信号Av进行上述积分运算。

然而，在总平均电平生成器26中，在用语音区间检测标记FLG表示的语音区间中，平均电平信号Av从选择器261输出，并且通过积分器262进行把总平均电平GVavr用作初始值的积分运算。在非语音区间中，积分器262的输出信号从选择器261输出，并且总平均电平GVavr的值被保持(预保持)作为积分器262的输出。

另一方面，在非语音平均电平生成器72中，在用非语音区间检测标记表示的非语音区间中，平均电平信号Av从选择器721输出，并且通过积分器722进行把非语音平均电平信号NVavr用作初始值的积分运算。在语音区间中，积分器722的输出信号从选择器721输出，并且非语音平均电平信号NVavr的值被保持(预保持)作为积分器722的输出。

比较器264使来自非语音平均电平生成器72的非语音平均电平信号NVavr与来自总平均电平生成器26的总平均电平信号GVavr通过放大器263变成的两倍值相比较，并且把比较结果即输出CMP供给到积分器262。

积分器262基于比较结果CMP判断非语音平均电平信号NVavr是在非语音平均电平信号NVavr小于总平均电平信号GVavr的两倍电平值的范围内(NVavr＜2GVavr)，还是在非语音平均电平信号NVavr不小于总平均电平信号GVavr的两倍电平值的范围内(NVavr≥2GVavr)。

当判定在NVavr＜2GVavr的范围内时，积分器262生成语音平均电平信号Vavr，并且将该语音平均电平信号Vavr作为总平均电平信号GVavr输出，类似于第一实施例，不会改变对积分结果进行保持的保持部的值。

也就是说，当来自比较器264的比较结果即输出CMP满足NVavr＜2GVavr时，积分器262忽略来自非语音平均电平生成器72的非语音平均电平信号NVavr，并且进行与第一实施例相同的处理。

当判定在NVavr≥2GVavr的范围内时，积分器262把对积分结果进行保持的保持部的值改变成非语音平均电平信号NVavr。因此，在NVavr≥2GVavr的范围内，非语音平均电平信号NVavr变成积分器262的输出。

于是，在NVavr＜2GVavr的范围内，积分器262基于比较结果即输出CMP停止把对积分结果进行保持的保持部的值改变成非语音平均电平信号NVavr的操作，并且返回对选择器261的输出进行积分的处理状态。

在图22所示的示例中，所获得的积分器262的输出信号作为总平均电平信号GVavr被供给到增益控制信号生成器23。增益控制信号生成器23把总平均电平信号GVavr用作基准电平来生成增益控制信号。

其它实施例及变形例

在上述实施例中，实时地对输入音频信号的语音平均电平或者非语音平均电平进行检测并且对增益进行控制。然而，本发明不限于实时处理。

例如，可以通过检测在记录介质中记录的音频信号的语音平均电平或者非语音平均电平来生成增益控制信号，并且可以将该增益控制信号与所记录的信号相关联地进行记录。在这种情况下，在再生音频信号时，能够使用所记录的增益控制信号对再生音频信号的音量进行控制。

图23是示出了本发明应用到用于将电视广播信号记录在诸如硬盘或者数字式多用盘(digital Versatile Disc，DVD)等记录介质上的记录及再生装置中的示例的框图。

图23所示的记录及再生装置80包括广播记录系统81、再生系统82、电平校正增益生成器83、控制单元84和操作单元85。操作单元85例如包括遥控收发器。控制单元84例如包括微型计算机，并且根据来自操作单元85的操作输入对记录及再生装置80的各单元控制。

在图1所示的第一实施例中，电平校正增益生成器83包括语音平均电平检测器22和增益控制信号生成器23。在图18所示的第二实施例中，电平校正增益生成器包括语音平均电平检测器22、非语音平均电平检测器24、总电平生成器25和增益控制信号生成器23。

当用户操作操作单元85以给出记录指令时，控制单元84控制广播记录系统81使其记录被指示的广播节目。

在广播记录系统81中，广播接收器811接收被指示要进行记录的广播节目的广播波信号，并且把接收到的广播信号供给到解码器812。在本示例中，通过解码器812从接收到的信号中把视频信号V1和音频信号A1解码出来并输出。这里，音频信号A1例如包括左、右声道音频信号。

来自解码器812的视频信号V1和音频信号A1被记录编码器813进行编码，然后通过写入器815被记录在记录介质816上。例如，将硬盘部件用作记录介质816。

在本示例中，操作单元85设置有用于指示要被记录在记录介质816上的广播节目内容的键和用于指示生成电平校正增益的键。当用户指定了要被记录的广播节目内容并且操作用于指示生成电平校正增益的键时，控制单元84进行电平校正增益生成处理，从而适当地调节被指定的广播节目内容的音频信号的再生音量。

也就是说，控制单元84基于用于指示生成电平校正增益的键的操作输入，对读取器821、再生解码器822、电平校正增益生成器83和写入器815进行控制。

控制单元84控制读取器821使其从记录介质816读取被指定的广播节目的记录信号。读取器821把读取到的记录信号供给到再生解码器822。再生解码器822对该记录信号进行解码，并且输出再生视频信号V2和再生音频信号A2。

来自再生解码器822的再生音频信号A2被供给到电平校正增益生成器83。如在第一实施例或者第二实施例中说明的那样，电平校正增益生成器83生成增益控制信号。

电平校正增益生成器83把生成的增益控制信号供给到写入器815。写入器815在控制单元84的控制下把来自电平校正增益生成器83的增益控制信号与再生的记录信号相关联地记录在记录介质816上。

当用户通过使用操作单元85来给出再生指令时，控制单元84控制再生系统82使其再生被指示要进行再生的广播节目。

也就是说，控制单元84控制读取器821使其从记录介质816读取被指定的广播节目的记录信号以及与该记录信号相关联的增益控制信号。读取器821把读取到的记录信号供给到解码器822，并且把读取到的增益控制信号供给到增益控制信号再生单元826。

再生解码器822对记录信号进行解码，并且获得再生视频信号V2和再生音频信号A2。再生视频信号V2通过视频信号处理器823从视频输出级827输出。显示单元连接至输出级827，并且再生的广播节目的视频被显示在该显示单元的显示屏幕上。

来自再生解码器822的再生音频信号通过音频信号处理器824被供给到可变增益放大器825。

另一方面，增益控制信号再生单元826根据来自读取器821的信号再生增益控制信号。增益控制信号再生单元826把再生的增益控制信号供给到可变增益放大器825，从而对增益进行控制。因此，类似于第一实施例和第二实施例，从可变增益放大器825获得的音频信号在语音方面是可被听见的，并且非语音声音的音量不会增加。

来自可变增益放大器825的再生音频信号通过音频输出级828被供给到扬声器。

在图23所示的示例中，电平校正增益生成器83具有与第一实施例或者第二实施例中相同的结构。然而，在图23所示的示例中，由于不必进行实时处理，因而处理时间变长但提高了精度。

例如，当记录及再生装置80具有充分的缓存容量和处理能力时，可以在采取音频信号的自相关特性的同时通过检测间距来检测出包括人声的区间。通过使用快速傅立叶变换(Fast Fourier Transform，FFT)法来进行频谱包络倒频谱分析(spectrum envelope cepstrum analysis)，可以以较高的精度对包括人声的主要语音信号进行检测。

在上述各示例中，音频信号包括左、右声道音频信号。然而，因为语音平均电平检测器22或者非语音平均电平检测器24的输入信号是相加音频信号Sm，因此应当进行音量校正的音频信号可以是单声道(monaural)音频信号。

音频信号可以是诸如5.1声道环绕音频信号等3声道以上的多声道音频信号。在该多声道中，当存在中置声道(center channel)时，语音信号主要包含在该中置声道中，因而能够从该中置声道的音频信号中检测出语音区间。

图24是示意性示出了当输入音频信号是5.1声道环绕音频信号时音量校正装置的结构的图。

在本示例中，左前、右前声道音频信号FLi和FRi被供给到可变增益放大器921和922。左后、右后声道音频信号RLi和RRi被供应到可变增益放大器923和924。中置声道音频信号Ci被供应到可变增益放大器925。低频带音频信号LFE(Low Frequency Effect)被供给到可变增益放大器926。

中置声道音频信号Ci被供给到语音电平校正增益生成器91。语音电平校正增益生成器91具有与图23所示的语音电平校正增益生成器83相同的结构。然而，在本示例中，电平校正增益生成器91通过采用上述各方法中的任一方法并把中置声道音频信号Ci用作相加音频信号Sm，来生成用于控制可变增益放大器921～926的增益的增益控制信号。

从可变增益放大器921～926获得了音频信号FLo、FRo、RLo、RRo、Co和LFo，并且把它们从各自的扬声器输出。

在图24所示的示例中，由于使用由电平校正增益生成器91生成的增益控制信号对5.1声道输出音频信号FLo、FRo、RLo、RRo、Co和LFo的增益进行控制，因而人声是可被听见的，并且非语音声音的音量不会增大。

当3个以上声道的多声道音频信号被混缩(mix down)为2声道的音频信号并被视为2声道信号时，电平校正增益生成器能够仅用于混缩的2声道音频信号。

图25是示意性示出了当5.1声道环绕音频信号被混缩为2声道时音量校正装置的结构的图。

在图25所示的示例中，5.1声道环绕音频信号FLi、Fri、RLi、RRi、Ci和LFi被供给到混缩单元(mix-down unit)93，并且被混缩为左声道音频信号Li和右声道音频信号Ri。

来自混缩单元93的左、右声道音频信号Li和Ri被供给到可变增益放大器951和952，并且还被供给到电平校正增益生成器94。

电平校正增益生成器94具有与图23所示的电平校正增益生成器83相同的结构。也就是说，本示例的电平校正增益生成器94采用上述各方法中的任一方法从左、右声道音频信号Li和Ri生成用于控制可变增益放大器951和952的增益的增益控制信号。

图25所示的示例具有与上述相同的作用效果。

其它变形例

在上述说明中，语音平均电平检测器22和非语音平均电平检测器24通过诸如分立电路部(discrete circuit portion)等硬件构成。然而，它们可以通过数字信号处理器(Digital Signal Processor，DSP)构成。

语音平均电平检测器22和非语音平均电平检测器24可以通过诸如计算机程序等软件构成。在这种情况下，在图2所示的示例中，语音平均电平检测器22和非语音平均电平检测器24作为软件处理功能部件被在控制单元10中。如图2中的虚线所示，基于来自控制单元10的增益控制信号对音量校正器18的可变增益放大器的增益进行控制。

当通过数字信号处理方法对音频信号进行处理时，包括可变增益放大器的音量校正器18的全部单元可以用软件来实现。

采用本发明实施例的音量校正装置的电子设备不限于图2所示的电视广播接收器。

本领域技术人员应当理解，依据设计要求和其他因素，可以在本发明所附的权利要求或其等同物的范围内进行各种修改、组合、次组合及改变。

Claims

1.一种音量校正装置，所述音量校正装置包括：

可变增益构件，其基于增益控制信号对输入音频信号的增益进行控制；

语音平均电平检测构件，其检测所述输入音频信号中的人声信号的平均电平；以及

增益控制信号生成构件，其通过把由所述语音平均电平检测构件检测到的所述人声信号的平均电平用作基准电平来生成用于控制所述输入音频信号的增益的所述增益控制信号，并且把生成的所述增益控制信号供给到所述可变增益构件。

2.如权利要求1所述的音量校正装置，其中，所述语音平均电平检测构件包括：

语音区间检测构件，其检测语音区间，所述语音区间是所述输入音频信号中包含有所述人声信号的时间区间；以及

语音平均电平生成构件，其检测在由所述语音区间检测构件检测到的所述语音区间中的所述输入音频信号的平均电平，并且生成所述检测到的所述语音区间的平均电平是连续化的连续化平均电平，

所述增益控制信号生成构件通过把所述连续化平均电平用作所述基准电平来生成用于控制所述输入音频信号的增益的所述增益控制信号。

3.如权利要求2所述的音量校正装置，其中，所述语音区间检测构件包括：

峰周期检测构件，其检测所述输入音频信号的峰间周期；

连续相同周期检测构件，其通过使用由所述峰周期检测构件检测到的所述峰间周期对相邻的所述峰间周期的相同性进行检测，来检测出连续相同周期；以及

把包括由所述连续相同周期检测构件检测到的所述连续相同周期的区间检测为所述语音区间或者把所述连续相同周期的频率等于或者大于基准值的时间区间检测为所述语音区间的构件。

4.如权利要求2所述的音量校正装置，其中，所述语音区间检测构件包括：

第一滤波器构件，其从所述输入音频信号提取包括语音频带的第一音频信号；

第一平均电平检测构件，其检测来自所述第一滤波器构件的所述第一音频信号的平均电平；

第二滤波器构件，其从所述输入音频信号提取不包括所述语音频带的第二音频信号；

第二平均电平检测构件，其检测来自所述第二滤波器构件的所述第二音频信号的平均电平；以及

把由所述第一平均电平检测构件检测到的平均电平与由所述第二平均电平检测构件检测到的平均电平的差或者比值等于或者大于基准值的时间区间检测为所述语音区间的构件。

5.如权利要求2所述的音量校正装置，其中，所述输入音频信号是两声道音频信号，并且

所述语音区间检测构件把来自所述两声道音频信号的中央定位分布的比值等于或者大于基准值的时间区间检测为所述语音区间。

6.如权利要求2所述的音量校正装置，其中，作为所述语音区间检测构件，使用如下语音区间检测构件中的任意一个或者两个以上的组合：

一个语音区间检测构件，该语音区间检测构件包括：峰周期检测构件，其检测所述输入音频信号的峰间周期；连续相同周期检测构件，其通过使用由所述峰周期检测构件检测到的所述峰间周期对相邻的所述峰间周期的相同性进行检测，来检测出连续相同周期；以及把包括由所述连续相同周期检测构件检测到的所述连续相同周期的区间检测为所述语音区间或者把所述连续相同周期的频率等于或者大于基准值的时间区间检测为所述语音区间的构件，

另一个语音区间检测构件，该语音区间检测构件包括：第一滤波器构件，其从所述输入音频信号提取包括语音频带的第一音频信号；第一平均电平检测构件，其检测来自所述第一滤波器构件的所述第一音频信号的平均电平；第二滤波器构件，其从所述输入音频信号提取不包括所述语音频带的第二音频信号；第二平均电平检测构件，其检测来自所述第二滤波器构件的所述第二音频信号的平均电平；以及把由所述第一平均电平检测构件检测到的平均电平与由所述第二平均电平检测构件检测到的平均电平的差或者比值等于或者大于基准值的时间区间检测为所述语音区间的构件，

又一个语音区间检测构件，当所述输入音频信号是两声道音频信号时，该语音区间检测构件把来自所述两声道音频信号的中央定位分布的比值等于或者大于基准值的时间区间检测为所述语音区间。

7.一种音量校正装置，所述音量校正装置包括：

语音平均电平检测构件，其检测所述输入音频信号中的人声信号的平均电平；

非语音平均电平检测构件，其检测所述输入音频信号中的非语音且非静音音频信号的平均电平；以及

增益控制信号生成构件，当由所述非语音平均电平检测构件检测到的非语音平均电平不比由所述语音平均电平检测构件检测到的语音平均电平高出预定量时，所述增益控制信号生成构件通过把由所述语音平均电平检测构件检测到的语音平均电平用作基准电平来生成用于控制所述输入音频信号的增益的所述增益控制信号，而当由所述非语音平均电平检测构件检测到的非语音平均电平比由所述语音平均电平检测构件检测到的语音平均电平高出预定量时，所述增益控制信号生成构件通过把由所述非语音平均电平检测构件检测到的非语音平均电平用作基准电平来生成用于控制所述输入音频信号的增益的所述增益控制信号，并且所述增益控制信号生成构件把生成的所述增益控制信号供给到所述可变增益构件。

8.一种音量校正装置的音量校正方法，所述音量校正装置具有基于增益控制信号对输入音频信号的增益进行控制的可变增益构件、语音平均电平检测构件和增益控制信号生成构件，所述音量校正方法包括如下步骤：

使所述语音平均电平检测构件检测所述输入音频信号中的人声信号的平均电平；以及

使所述增益控制信号生成构件通过把检测到的所述人声信号的平均电平用作基准电平来生成用于控制所述输入音频信号的增益的所述增益控制信号，

其中，基于生成的所述增益控制信号对所述可变增益构件进行控制。

9.一种音量校正装置的音量校正方法，所述音量校正装置具有基于增益控制信号对输入音频信号的增益进行控制的可变增益构件、语音平均电平检测构件、非语音平均电平检测构件和增益控制信号生成构件，所述音量校正方法包括如下步骤：

使所述语音平均电平检测构件检测所述输入音频信号中的人声信号的平均电平；

使所述非语音平均电平检测构件检测所述输入音频信号中的非语音且非静音音频信号的平均电平；以及

当检测到的非语音平均电平不比检测到的语音平均电平高出预定量时，使所述增益控制信号生成构件通过把所述检测到的语音平均电平用作基准电平来生成用于控制所述输入音频信号的增益的所述增益控制信号，而当所述检测到的非语音平均电平比所述检测到的语音平均电平高出预定量时，使所述增益控制信号生成构件通过把所述检测到的非语音平均电平用作基准电平来生成用于控制所述输入音频信号的增益的所述增益控制信号，

10.一种电子设备，其具有音量校正装置，所述音量校正装置包括：

11.一种音量校正装置，所述音量校正装置包括：

可变增益单元，其基于增益控制信号对输入音频信号的增益进行控制；

语音平均电平检测器，其检测所述输入音频信号中的人声信号的平均电平；以及

增益控制信号生成器，其通过把由所述语音平均电平检测器检测到的所述人声信号的平均电平用作基准电平来生成用于控制所述输入音频信号的增益的所述增益控制信号，并且把生成的所述增益控制信号供给到所述可变增益单元。

12.一种音量校正装置，所述音量校正装置包括：

语音平均电平检测器，其检测所述输入音频信号中的人声信号的平均电平；

非语音平均电平检测器，其检测所述输入音频信号中的非语音且非静音音频信号的平均电平；以及

增益控制信号生成器，当由所述非语音平均电平检测器检测到的非语音平均电平不比由所述语音平均电平检测器检测到的语音平均电平高出预定量时，所述增益控制信号生成器通过把由所述语音平均电平检测器检测到的语音平均电平用作基准电平来生成用于控制所述输入音频信号的增益的所述增益控制信号，而当由所述非语音平均电平检测器检测到的非语音平均电平比由所述语音平均电平检测器检测到的语音平均电平高出预定量时，所述增益控制信号生成器通过把由所述非语音平均电平检测器检测到的非语音平均电平用作基准电平来生成用于控制所述输入音频信号的增益的所述增益控制信号，并且所述增益控制信号生成器把生成的所述增益控制信号供给到所述可变增益单元。

13.一种电子设备，其具有音量校正装置，所述音量校正装置包括：