CN101465625B

CN101465625B - 自动调整增益的装置与方法

Info

Publication number: CN101465625B
Application number: CN2007101599250A
Authority: CN
Inventors: 周开祥; 王文浩; 陈宇恒; 范美玉
Original assignee: Realtek Semiconductor Corp
Current assignee: Realtek Semiconductor Corp
Priority date: 2007-12-20
Filing date: 2007-12-20
Publication date: 2012-02-08
Anticipated expiration: 2027-12-20
Also published as: CN101465625A

Abstract

一种自动调整增益的装置与方法，包含：转换模组将声音时域信号转换为声音频域信号；分析模组依据人耳听觉等响曲线(equal loudness levelcontour)分析声音频域信号而产生权重信号，并依据权重信号而产生信号强度；计算模组当信号强度位于设定范围之外，分析声音频域信号而计算出增益值；控制模组依据增益值与声音时域信号而产生声音输出信号。

Description

自动调整增益的装置与方法

技术领域

本发明涉及一种调整增益的装置与方法，特别是一种自动调整增益的装置与方法。

背景技术

市面上有多种不同的数字视频系统或数字媒体播放器，例如：数字录影机(Digital Video Recorder，DVR)、个人视频记录器(Personal Video Recorder，PVR)、MP3播放器或录音笔等，都可用以播放声音信号。针对上述的数字视频系统或数字媒体播放器而言，其声音信号的来源可以是电视、文件或磁片等各种不同的媒体，而在切换不同来源的声音信号时，往往因为声音信号的来源不同，或文件格式不同，而造成声音信号在透过数字媒体播放器播放时，会有输出的声音信号不稳定的情形产生。

举例说明，观看电视节目是大多数的人一般都有的共同经验，假设使用者正在观看一部影片，事先已经将声音调整到适当的音量大小，而在影片的播放过程中，声音信号维持稳定的输出。但是，如果影片播放的过程中突然有广告插入时，往往会让使用者觉得声音信号突然变大声的现象产生。这是因为，影片的声音信号与广告的声音信号并不相同而造成的影响。此时，使用者就必须将音量以手动方式调小，而当广告结束后影片又开始播放时，又必须再以手动方式将音量调大，不断反复直到影片观赏完毕。如此，将造成使用者的不便。

因此，美国专利案号US7072477，提出一种针对数字编码文件自动常态化感知音量的装置与方法。在该专利中提出可透过几个被选取的频带(band)来决定控制增益值，而由增益值来调整输出音量的大小，使输出音量维持常态化。然而，该专利必须于先选定适合的频带，然而有时使用者并不了解如何选定适当的频带，或者预设的频带无法完全符合输入的声音信号。因此，调整后的输出声音信号，并无法完全满足人耳的需求。所以，如何解决上述的问题，是有待解决的议题。

发明内容

有鉴于此本发明提出一种自动调整增益的装置与方法。强调在各种不同声音信号来源的状况下，可以透过分析频谱特性，即时自动选定几个最适合主导增益控制的频带(band)，而动态调整增益值的装置与方法。

本发明提出一种自动调整增益的装置，包含：转换模组将声音时域信号转换为声音频域信号；分析模组依据人耳听觉等响曲线(equal loudness levelcontour)分析声音频域信号而产生信号强度；计算模组当信号强度位于设定范围之外时，分析声音频域信号而计算出增益值；控制模组依据增益值与声音时域信号而产生声音输出信号。

本发明还提出一种自动调整增益的方法，包含下列步骤：转换声音时域信号为声音频域信号；依据人耳听觉等响曲线(equal loudness level contour)分析声音频域信号而产生信号强度；当信号强度位于设定范围之外时，分析声音频域信号而计算出增益值；依据增益值与声音时域信号而产生声音输出信号。

有关本发明的较佳实施例及其功效，配合附图说明如后。

附图说明

图1是自动调整增益装置的第一实施例示意图。

图2是日常生活中声音强度与频率的分布图。

图3是人耳听觉等响曲线图。

图4是自动调整增益装置的第二实施例示意图。

图5是自动调整增益的方法流程图。

【主要元件符号说明】

10：转换模组

20：分析模组

30：计算模组

32：比较单元

40：控制模组

具体实施方式

请参照图1，该图所示是自动调整增益装置的第一实施例示意图。自动调整增益的装置包含：转换模组10、分析模组20、计算模组30及控制模组40。

声音信号可以从两个不同的观点来看，一是从时间轴的观点，也就是从时域(time domain)来观察，而另一个观点便是频率轴，也就是从频域(frequencydomain)来观察。当从时域来观察时，可以看出语音的振幅(即声音的大声或小声)或语音长短等，此时若有另一个声音信号输入，但只要新的声音信号具有相同的音量及相同的说话长度，则从时间轴的观点来看，两个语音信号会是完全一样。因此，在时间轴上无法得知不同声音信号之间的差异性。所以必须从另一个观点，也就是频域来观察声音信号，如此可看出声音信号在不同频率上的变化，进而分析声音信号的特性。

因此，转换模组10在接收到声音信号时，先将其从时域转换为频域，也就是将声音时域信号转换为声音频域信号。接着分析模组20依据人耳听觉等响曲线(equal loudness level contour)分析声音频域信号而产生权重信号，并依据权重信号而产生信号强度。

在此，必须先说明本发明的重要技术特征之一，也就是人耳听觉等响曲线。先由声音的音压计算开始说明，声音的强度即声波于空气中的压力，以音压(sound pressure level，SPL)表示，通常以dyne/cm²为度量单位，而人耳对于感觉声音的强度则称为响度(loudness)。所谓声音的分贝(decibel，dB)值是较常用来衡量声音强度大小的单位，而dB值代表的是两个音压的相对强度，因此以dB值衡量音压的大小时，必须订出一个相对的基准音压(SPL_ref)。该基准音压是人耳的听觉下限(threshold of hearing)，即人耳所能够感觉到声音存在的最小音压，虽然每个人的听觉下限不尽相同，但一般平均定为SPL_ref＝0.0002dyne/cm²，且由于人耳听觉音压变化的响应范围相当广，因此dB值以对数方式计算。

请参照图2是日常生活中声音强度与频率的分布图。图2中横座标是频率(Hz)，纵座标是音压的dB值，图中大略可看出人们日常对话音量的动态范围(dynamic range)约为30dB至70dB之间，而聆听音乐时约为20dB至100dB的范围内。图中最外围实心线所构成的区域代表人耳的听觉频率范围，及音压上下限。因此，从图中最外围的实心线可看出，人耳听觉频率范围大约可从20Hz至20KHz，但实际上人耳对于16KHz以上高频声波的响应已经相当不灵敏。

请参照图3是人耳听觉等响曲线图。由上述图2可看出人耳听觉响应呈现非线性，对于不同频率的声音，人耳的听觉下限与疲劳限会有差异，此处所称的听觉的疲劳限(threshold of feeling)是人耳在接受声波的一段时间中，会造成听觉不适的音压。配合图3举例说明，当低音压强度时，对于1KHz至5KHz之间的声音，比起其他频带的声音感度较灵敏，对于4KHz的声音最为灵敏，具备最低的听觉下限。人耳听觉对于20Hz至200Hz的频带内的低频声音，频率愈低则感度愈低。图3中的各个等高线，代表“相对于1KHz纯音调(pure tone)的声波，人耳感觉到相同响度的音压强度(SPL，dB)分布”。例如在较高的音压下，1KHz声音在110dB SPL时人耳听起来的音量大小，会同等于50Hz声音在约120dB SPL时，或10KHz声音在约118dB SPL时；又如在较低的音压下，1KHz在50dB SPL时人耳听起来的音量大小，会同等于50Hz声音在约75dB SPL，或10KHz声音在约55dB SPL。

由上述的说明可得知，人耳的听觉并非线性，即使相同的音压位于不同频率下，人耳所听到的音量大小于听觉上也会有所不同。因此，本发明为了让不同的声音信号在输出时，都能让使用者感觉该输出声音信号是平稳一致，因此提出利用人耳听觉等响曲线作为分析与调整增益值的依据，如此最能符合人耳的听觉感受。

继续参照图1，在通过转换模组10将声音信号从时域转换为频域后，分析模组20便依据上述所介绍的人耳听觉等响曲线来分析声音频域信号，进而产生权重信号。也就是说，将声音频域信号进行分析，而得到该声音频域信号的能量分布或频率分布的情形，再依据人耳听觉等响曲线，分别给予各个频率或能量下的声音信号各自的权重值，而将原本的声音频域信号转变为权重信号。举例说明，由图3的人耳听觉等响曲线图可得知，人耳在声音信号是高频与低频的情况下是较为不敏锐的，所以需要较大的音压才会感觉的相同的响度，因此当声音频域信号位于高频或低频的情况下，会分配较小的权重值。相对的，人耳在声音信号是中频的情况下是较为敏锐的，所以只要较小的音压就会感觉到相同的响度，因此当声音频域信号位于中频的情况下，会分配较大的权重值。如此，所得到的权重信号才能符合不论声音信号位于哪个频率之下，都可让使用者听起来的感觉稳定一致。

取得权重信号后，并依据该权重信号而产生信号强度。其中，在一实施例中，信号强度可通过计算权重信号的功率频谱密度(power spectrum density，PSD)而产生。而功率频谱密度的计算方式如由右式所示：X(ω)＝|FFT(X(n))|²。其中，X(n)是声音信号，可采用快速傅立叶转(Fast Fourier Transform)或离散傅立叶转换(Discrete-time Fourier Transform)等方式，取其振幅的平方以得到声音信号的功率，也就是本发明所称的信号强度。

当信号强度位于一设定范围之外时，计算模组30会分析声音频域信号而计算出增益值(gain)。其中，该设定范围可以是人耳感知的最大可接受音量与人耳感知的最小可接受音量之间的范围。由于每个人可感知的音量范围不一定完全相同，因此该设定范围除了可由本发明的自动调整增益装置预设之外，也可由使用者自行设定。

计算模组30自动调整增益值的方式可以是，即时分析声音频域信号的频谱特性，在切换不同来源的声音信号时，或声音信号类型有所变化时，根据不同类型声音信号的频谱特性，自动选定几个最适合主导增益控制的频带(band)，动态调适以其为主要计算控制增益值的频带。而其中选取频带的方式，可藉由分析模组20所产生的信号强度，由频谱能量较集中的频带来决定。

举例说明，由于人说话的声音的频谱分布大多位于500Hz～2.5KHz的范围间，因此在谈话性节目中，可在人声频率范围(500Hz～2.5KHz)中选取适当频带作为主导增益控制的频带。相对的，如果输入信号切换成纯音乐的节目，由于能量分布的改变，因此必须选取新的适当频带作为主导增益控制的频带。

最后，控制模组40依据计算模组30所计算出的增益值与声音时域信号而产生声音输出信号。其中，声音输出信号可由声音时域信号乘上增益值而产生。此处，声音输出信号即为最终输出给使用者的声音信号，而需注意的是，声音输出信号乃是依据声音时域信号与增益值而产生，并非由声音频域信号与增益值而产生。这是因为，如果将声音频域信号乘上增益值，会使声音输出信号的特性改变，可能让原本高频变成低频或原本低频变成高频，如此使用者所听到的声音输出信号会与原始的声音信号完全变调。因此，须将增益值乘上声音时域信号，才不会让使用者在听觉上有声音信号变调的情形产生。

请参照图4，是自动调整增益装置的一实施例的示意图。此实施例，说明计算模组30包含比较单元32。而比较单元32可用以判断分析模组20所产生的信号强度，是否位于设定范围之外。当信号强度落在设定范围之外，表示此时的声音信号的强度已超过人耳感知可接受的范围之外，如果此时不利用增益值去调整声音信号的话，所输出的声音信号将会有两种情形产生。第一种情形，当信号强度超过人耳感知可接受的最大音量时，所输出的声音会因为太大声而让使用者的耳朵感到不适。第二种情形，当信号强度低于人耳感知可接受的最小音量时，所输出的声音因为太小声使得使用者根本听不到声音信号的输出。因此，当比较单元32判断出信号强度位于设定范围之外时，便必须藉由计算模组30计算出适当的增益值，以调整适当的声音输出信号。

另一方面，当比较单元32判断出信号强度位于设定范围之内时，表示此时的声音信号的强度符合人耳感知可接受的范围，因此可不需再透过增益值来调整声音输出信号。所以，当比较单元32判断信号强度位于设定范围之内时，可直接将一开始的声音时域信号，输出给使用者。

此外，声音频域信号包含多个音框，也就是说当处理与分析该声音频域信号时，可将其分成多个音框来进行，分别给予各个音框各自的增益值，而达到即时的分析与调整。所以，计算模组30会即时分析每一个音框，而计算出对应于每一个音框的增益值。之后控制模组40可采用内差(线性内差或非线性内差)的方式改变每一个音框间的增益值。

举例说明，假设一个音框以n点为处理单位，增益值G1是要运用在frame1的增益值。在处理frame 2之前，以G1计算下一个音框frame 2是否会超过设定范围。如果会，则计算出使frame 2不会超过范围的增益值G2，在输出frame 1的n点间，以内差的方式使frame 1的增益值在n点内从G 1变为G2。采用内差的方式在n点内逐渐转变增益值，主要是要使增益值可以平滑(smooth)的变化，而不是采用步阶(step)的方式，如在输出frame 2时才把增益值从G1马上变化为G2。如此，采用内差用以平滑变化增益值，可让使用者感觉声音输出信号是稳定的输出。

此外，当比较单元32判断信号强度超过人耳感知的最大可接受音量时，可利用增益值将声音信号迅速下降，而此时的增益值是一个小于1的数值。迅速将音量下降是为了避免输出的声音信号音量过大，而伤害使用者的耳朵。

相对的，当比较单元32判断信号强度低于人耳感知的最小可接受音量时，利用增益值将声音信号的音量缓慢增加，而此时的增益值是一个大于1的数量。缓慢的将音量增加是为了避免如果调高音量的速度过快，容易让使用者感到输出的声音信号不稳定。

再者，本发明为了避免误将噪声放大，所以控制模组40还包含一上限值，控制增益值不可超过上限值。举例说明，当使用者观看电视节目，剧情是深夜，剧中主角皆已熟睡，所以此时的声音信号通过分析后信号强度会落在设定范围之外，因此会计算出增益值而将声音输出信号放大，但因为原本的声音信号即为无声，不论增益值再调整为多大，声音输出信号同样微弱。如果，没有限定一个增益值的上限，让增益值无限往上调整，此时剧情突然出现有人敲门，声音信号突然输入再加上很大的增益值，将出现不可预期的结果。因此，本发明提出藉由控制模组40来控制增益的上限值，包括连续数次处理后，整体增益值也不可超过该上限值。

请参照图5是自动调整增益的方法流程图，包含下列步骤。

步骤S10：转换声音时域信号是声音频域信号。将输入的声音信号从时域转变为频域，以利于后续的处理。

步骤S20：依据人耳听觉等响曲线分析声音频域信号而产生权重信号。采用人耳听觉等响曲线更能符合人耳听觉的实际需求。

步骤S30：依据权重信号而产生信号强度。其中，信号强度可由计算权重信号的功率频谱密度而产生。

步骤S40：当信号强度位于设定范围之外，分析声音频域信号而计算出增益值。其中，设定范围可由使用者自订。如果信号强度位于设定范围之内的话，可直接将步骤S10的声音时域信号输出给使用者。于步骤S40中可包含下列步骤：设定一上限值，控制增益值不可超过该上限值。如此，可避免增益值无限扩大。

步骤S50：依据增益值与声音时域信号而产生声音输出信号。其中，声音输出信号由声音时域信号乘上增益值而产生。

上述的声音频域信号可包含多个音框，如此可包含下列步骤：即时分析每一个音框而计算出对应于每一个音框的增益值；采用内差的方式而改变每一个音框间的增益值。如此，可让增益值间的变化更为平顺，让使用者所听到的声音信号是稳定输出。

虽然本发明的技术内容已经以较佳实施例揭露如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神所作少量改动与润饰，都应涵盖于本发明的范围内，因此本发明的保护范围以后附的申请专利范围所限定的为准。

Claims

1.一种自动调整增益的装置，包含：

一转换模组，将一声音时域信号转换为一声音频域信号；

一分析模组，依据一人耳听觉等响曲线分析该声音频域信号而产生一权重信号，并依据该权重信号的功率频谱密度而产生一信号强度；

一计算模组，当该信号强度位于一设定范围之外，分析该声音频域信号并根据声音频域信号的频谱特性，选定主导增益控制的频带，而计算出一增益值；及

一控制模组，依据该增益值与该声音时域信号而产生一声音输出信号。

2.如权利要求1所述的自动调整增益的装置，其中该控制模组还包含一上限值，控制该增益值不可超过该上限值。

3.如权利要求1所述的自动调整增益的装置，其中该声音频域信号包含多个音框，该计算模组即时分析每一该音框而计算出对应于每一该音框的该增益值。

4.如权利要求3所述的自动调整增益的装置，其中该控制模组是采用一内差的方式而改变每一该音框间的该增益值。

5.如权利要求1所述的自动调整增益的装置，其中该信号强度超过人耳感知的一最大可接受音量时，该控制模组依据该增益值将该声音时域信号迅速调降，其中该增益值是一小于1的数值，其中该信号强度低于人耳感知的一最小可接受音量时，该控制模组依据该增益值将该声音时域信号缓慢调升，其中该增益值是一大于1的数值。

6.一种自动调整增益的方法，包含下列步骤：

转换一声音时域信号为一声音频域信号；

依据一人耳听觉等响曲线分析该声音频域信号而产生一权重信号，并依据该权重信号的功率频谱密度而产生一信号强度；

当该信号强度位于一设定范围之外，分析该声音频域信号并根据声音频域信号的频谱特性，选定主导增益控制的频带，而计算出一增益值；及

依据该增益值与该声音时域信号而产生一声音输出信号。

7.如权利要求6所述的自动调整增益的方法，还包含下列步骤：

设定一上限值，控制该增益值不可超过该上限值。

8.如权利要求6所述的自动调整增益的方法，该声音频域信号包含多个音框，该自动调整增益的方法，还包含下列步骤：

即时分析每一该音框而计算出对应于每一该音框的该增益值。

9.如权利要求8所述的自动调整增益的方法，还包含下列步骤：

采用内差的方式而改变每一该音框间的该增益值。

10.如权利要求6所述的自动调整增益的方法，其中该信号强度超过人耳感知的一最大可接受音量时，依据该增益值将该声音时域信号迅速调降，其中该增益值是一小于1的数值，其中该信号强度低于人耳感知的一最小可接受音量时，依据该增益值将该声音时域信号缓慢调升，其中该增益值是一大于1的数值。