CN106504765B - 一种音频信号的自动增益控制方法和装置 - Google Patents

一种音频信号的自动增益控制方法和装置 Download PDF

Info

Publication number
CN106504765B
CN106504765B CN201610917294.3A CN201610917294A CN106504765B CN 106504765 B CN106504765 B CN 106504765B CN 201610917294 A CN201610917294 A CN 201610917294A CN 106504765 B CN106504765 B CN 106504765B
Authority
CN
China
Prior art keywords
audio signal
section
gain
amplitude
determined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610917294.3A
Other languages
English (en)
Other versions
CN106504765A (zh
Inventor
程雪峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201610917294.3A priority Critical patent/CN106504765B/zh
Publication of CN106504765A publication Critical patent/CN106504765A/zh
Application granted granted Critical
Publication of CN106504765B publication Critical patent/CN106504765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明实施例公开了一种音频信号的自动增益控制方法和装置。所述方法包括:在待处理音频信号中识别幅值过零点,将相邻过零点之间确定为过零区间;根据所述过零区间确定至少一个增益调整区间;如果根据当前增益调整区间内的音频信号幅值确定为有效音频,则根据当前增益调整区间内的音频信号峰值确定所述当前增益调整区间的调整增益;根据所述调整增益对所述当前增益调整区间音频信号的幅值进行调整并输出。通过采用上述技术方案,可以在时域中对音频信号进行增益调整的同时,极大程度上降低频域中音频信号的失真度,达到提升用户体验的效果。

Description

一种音频信号的自动增益控制方法和装置
技术领域
本发明实施例涉及音频数据处理技术,尤其涉及一种音频信号的自动增益控制方法和装置。
背景技术
当前,语音实时通信已经得到了十分广泛的应用,利用语音通信,不仅可以实现双方通信,还可以进一步实现多方通信。随着语音通信的不断发展,音频数据处理技术在一定程度上也得到了相应的提高。
在现有技术中,为了减小音频信号的不连续性,提升语音通信的服务质量,一般采用自动增益控制方法(Automatic Gain Control,AGC)对音频信号进行处理。其中,自动增益控制方法可以下两种方案包括:(1)以数据帧为分析基础,计算当前帧中各个采样点振幅值绝对值的平均幅值,将当前帧中的目标幅值除以平均幅值后得到当前帧的增益值,然后基于该增益值调整当前帧音频信号的输出幅值,从而实现音量的调整。(2)同样以数据帧为分析基础,分别计算音频信号前后两帧的增益值,并将各帧的增益值平均分配到各采样点中。为了实现前后两帧增益的平滑过渡,通常将前一帧最后一个采样点的增益值作为当前帧第一个采样点的增益值,基于确定的帧增益值调整各帧音频信号的幅值。
现有自动增益控制方法仅是从音频信号在时域中的平滑度进行考虑,虽然可以对音频信号的处理达到了良好的效果,但由于该方法忽略了对信号频域的影响,将会使得频域中的音频信号产生失真现象。例如,图1为现有技术提供的对音频信号增益调整前后示意图。图2为现有技术提供的对音频信号增益调整前后的仿真示意图。如图1和图2所示,若采用上述方案(1)进行增益调整后,音频信号会出现“消顶”失真现象,即当音频信号的幅值经增益放大时,为了防止超出允许的最大音量,会将超出设定幅值的音频信号强制调整幅值为设定值,使其不会继续增长,所以会出现消顶失真现象。再比如,图3为现有技术提供的对音频信号增益调整前后示意图。图4为现有技术提供的对音频信号增益调整前后的仿真示意图。如图3和图4所示,若采用上述方案(2)进行增益调整后,会使得增益调整后的斜率发生改变,进而使得在频域中的音频信号发生失真现象。同时由于人耳对频域中信号的变化非常敏感,稍有差异用户即可分辨出来,因此,将可能带来不好的用户体验。
发明内容
本发明实施例提供一种音频信号的自动增益控制方法和装置,在自动调整音频信号音量幅值的情况下,降低音频信号的失真度。
第一方面,本发明实施例提供了一种音频信号的自动增益控制方法,包括:
在待处理音频信号中识别幅值过零点,将相邻过零点之间确定为过零区间;
根据所述过零区间确定至少一个增益调整区间;
如果根据当前增益调整区间内的音频信号幅值确定为有效音频,则根据当前增益调整区间内的音频信号峰值确定所述当前增益调整区间的调整增益;
根据所述调整增益对所述当前增益调整区间音频信号的幅值进行调整并输出。
第二方面,本发明实施例还提供一种音频信号的自动增益控制装置,包括:
过零区间确定模块,用于在待处理音频信号中识别幅值过零点,将相邻过零点之间确定为过零区间;
调整区间确定模块,用于根据所述过零区间确定至少一个增益调整区间;
调整增益确定模块,用于如果根据当前增益调整区间内的音频信号幅值确定为有效音频,则根据当前增益调整区间内的音频信号峰值确定所述当前增益调整区间的调整增益;
幅值调整模块,用于根据所述调整增益对所述当前增益调整区间音频信号的幅值进行调整并输出。
本发明实施例中提供的音频信号的自动增益控制方案,在待处理音频信号中识别幅值过零点,将相邻过零点之间确定为过零区间,然后根据过零区间确定至少一个增益调整区间。如果根据当前增益调整区间内的音频信号幅值确定为有效音频,则根据当前增益调整区间内的音频信号峰值确定当前增益调整区间的调整增益,最后根据调整增益对所述当前增益调整区间音频信号的幅值进行调整并输出。通过采用上述技术方案,由于采用峰值来确定调整增益,因此调整增益可有效匹配最大幅值的音频信号调整,避免了消顶失真现象。同时,每个增益调整区间可单独确定调整增益,使得增益精度提高,也极大程度上降低频域中音频信号的失真度。此外,通过对音频信号有效状态的判定可以有针对性地在不同情况下调整增益,达到提升用户体验的效果。
附图说明
图1为现有技术提供的对音频信号增益调整前后示意图;
图2为现有技术提供的对音频信号增益调整前后的仿真示意图;
图3为现有技术提供的对音频信号增益调整前后示意图;
图4为现有技术提供的对音频信号增益调整前后的仿真示意图;
图5为本发明实施例一提供的一种音频信号的自动增益控制方法的流程示意图;
图6为本发明实施例一提供的对采样点增益调整前后示意图;
图7为本发明实施例二提供的一种音频信号的自动增益控制方法的流程示意图;
图8为本发明实施例三提供的一种音频信号的自动增益控制方法的流程示意图;
图9为本发明实施例三提供的一种优选的音频信号的自动增益控制方法的流程示意图;
图10为本发明实施例四提供的一种音频信号的自动增益控制装置的结构框图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图5为本发明实施例一提供的一种音频信号的自动增益控制方法的流程示意图,该方法可以由音频信号的自动增益控制装置来执行,具体包括如下步骤:
步骤101、在待处理音频信号中识别幅值过零点,将相邻过零点之间确定为过零区间。
其中,自动增益控制方法是对音频信号输出音量进行调整的一种控制方法,该方法利用线性放大和压缩的有效组合对输出的音频信号进行动态调整。当弱音频信号输入时,通过增大音频信号的增益可以保证输出音频信号的强度;当所输入的音频信号达到一定强度时,通过减小音频信号的增益可以使输出的音频信号的幅值降低。也就是说,自动增益控制可以通过改变音频信号输入输出幅值的压缩比例来自动调整输出音频信号的幅值。本实施例所提供的自动增益控制方法也是通过调整音频信号幅值的形式实现。
示例性的,本实施例中的音频信号可以为语音实时通信过程中的音频信号,也可以为通过多媒体播放出的音频信号。其中,待处理音频信号可包括有效音频信号,即语音接收端能够接收到的语音发送端所发送的音频信号。示例性的,待处理音频信号也可包括噪音音频信号,即除语音接收端可以接收到发送端所发送的有效音频信号之外的其他所有音频信号。
示例性的,在对音频信号进行处理的过程中,一般可将音频信号按照固定时长分为若干音频帧,其中,固定时长也预先进行设定。对于若干音频帧中的每一帧音频信号都包括若干个采样点,每个采样点分别具有各自的振幅值。具体的,可以将10ms内所采集的样点作为一帧,帧长可由用户自行设定。例如,若在采样频率为16KHz的情况下,一帧10ms可以采集160个样点。在本实施例中,对待处理音频信号的识别过程实际上也就是对若干个音频帧中的各个采样点进行识别的过程。例如,可以从语音发送端所发送的音频信号的数据流中抓取一帧作为当前待处理的音频帧,也可以将音频信号的数据流中的连续几帧作为当前待处理的音频帧。
其中,在待处理音频信号中识别幅值过零点可包括:在所述待处理音频信号中,判断当前采样点幅值与任一相邻的采样点幅值的乘积是否为0,或与所述当前采样点相邻的两个采样点的幅值是否异号;若是,则确定当前采样点为所述待处理音频信号中的幅值过零点。
在本实施例中,在确定出待处理的音频帧后,可以识别出音频帧中幅值过零的采样点,然后将相邻两个零点之间的区间确定为过零区间。对于当前待处理的音频帧,可以确定多个过零区间。值得注意的是,在过零区间确定的过程中,需要保证过零区间的完整性。例如,对于两个采样点,若其中一个采样点的幅值为零,而另一个采样点的幅值不为零,则这两个采样点所形成的区间不能确定为过零区间。示例性的,可以通过编写过零检测的C代码实现对过零点的检测,在识别音频信号幅值过零点的过程中调用该代码即可。通过采用软件编程的方式实现过零点的检测,可以达到降低成本的效果。具体的,C代码可以具体为以下形式:
其中,数组Data的长度为2N,i表示第i个采样点。
步骤102、根据过零区间确定至少一个增益调整区间。
示例性的,在对各个采样点进行增益调整之前,可以首先确定需要进行增益调整的增益调整区间。具体的,可以将每个过零区间确定为一个增益调整区间,也可以将连续的至少两个过零区间确定为一个增益调整区间。可以理解的是,所确定的增益调整区间范围越小,后续对增益调整区间内采样点的幅值调整将越准确。
步骤103、如果根据当前增益调整区间内的音频信号幅值确定为有效音频,则根据当前增益调整区间内的音频信号峰值确定当前增益调整区间的调整增益。
示例性的,音频信号的有效状态可包括有效音频和噪音音频。其中,有效音频可以为语音接收端能够接收到的语音发送端所发送的音频信号。噪音音频可以为语音接收端可以接收到发送端所发送的有效音频信号之外的其他所有音频信号(例如环境声音等)。
示例性的,音频信号的有效状态的确定方式可以有多种,本实施例在此不做具体限定。例如,可以通过语音活动检测算法(Voice Activity Detection,VAD)来确定音频信号的有效状态。通过语音活动检测算法可以实现对语音信号进行检测,并且区分有效音频和噪音音频。在确定出当前增益调整区间内的音频信号为有效音频后,则可以根据当前有效音频信号的幅值确定出当前增益调整区间内有效音频信号的峰值,进而可以根据有效音频信号的峰值确定当前增益调整区间的调整增益。
在本实施例中,音频信号峰值为在当前增益调整区间内,所有采样点振幅绝对值的最大值。音频信号的峰值可由音频信号的自动增益控制装置默认设定。基于音频信号峰值所确定出的当前增益调整区间的调整增益,可以消除音频信号自动调整增益的过程中的“消顶”失真现象。
示例性的,若将每个过零区间确定为一个增益调整区间,则对音频信号过零区间增益的调整实际上是对该过零区间内采样点幅值的调整,因此可以根据当前过零区间中采样点的振幅绝对值的最大值确定出当前过零区间的调整增益。值得注意的是,调整增益的不同将直接影响音频信号的输出效果。例如,如果确定出的调整增益大于1,表示当前音频信号需要被放大;如果确定出的调整增益小于1,表示当前音频信号需要被压缩。需要说明的是,由于每个过零区间内音频信号的峰值不一定完全相同,因此,基于音频信号峰值所确定的调整增益只适用于当前过零区间。这样设置的好处在于可以通过计算每个过零区间的音频信号的峰值后,确定出当前过零区间的调整增益,进而可以使得音频信号自动增益的调整更加具有针对性,并且可以提高增益精度。
本领域技术人员可以理解的是,统计采样点振幅绝对值的最大值的实现方式可以有很多种,本实施例不作具体限定。优选的,可通过编写C代码来获取过零区间内所有采样点的振幅值,然后可以计算所有采样点振幅值的绝对值,并从所有绝对值中获取到绝对值最大值。具体操作如下:
其中,Peak为采样点振幅绝对值的最大值,i表示第i个过零区间。
示例性的,在确定当前增益调整区间内的有效音频信号峰值之后,可以将该峰值与音频信号的目标幅值作比较,进而确定出当前增益调整区间的调整增益。
步骤104、根据调整增益对当前增益调整区间音频信号的幅值进行调整并输出。
示例性的,在确定出当前增益调整区间(当前过零区间)的调整增益后,可以将当前增益调整区间内的采样点的幅值均乘以调整增益进而使得采样点的幅值尽可能地达到目标幅值,从而达到调整音量的效果。在具体实施过程中,可采用如下C代码执行:
示例性的,若所确定的当前过零区间的调整增益大于1,则当前过零区间中所有采样点的幅值乘以该调整增益后,幅值均会增大,因此输出的音频信号将会被放大,用户所能听到的音量也会相应增大。若所确定的当前过零区间的调整增益小于1,则当前过零区间中所有采样点的幅值乘以该调整增益后,幅值均会减小,因此输出的音频信号将会被压缩,用户所能听到的音量也会相应降低。因此,通过对当前过零区间音频信号的幅值的调整可以达到用户所需要的音量。图6为本发明实施例一提供的对采样点增益调整前后示意图。如图6所示,根据步骤103中所确定的调整增益对当前增益调整区间采样点的幅值进行调整后,可以将大于目标幅值(TargetLevel)的采样点的幅值减小,也可以将大于噪音门限值(NoiseGate)且小于目标幅值(TargetLevel)的有效音频的采样点的幅值增大(尽可能达到目标音量),同时也可将小于噪音门限值(NoiseGate)的噪音音频信号采样点幅值减小(对噪音信号进行抑制)。值得注意的是,在对各个采样点的幅值进行增益调整后,各个采样点之间的斜率未发生很大的改变,因此可以表明,在频域中音频信号未发生明显的失真现象。
所以,通过采用上述方式对当前增益调整区间音频信号的幅值经过调整输出后,语音接收端接收到的音频信号不仅在时域中可以达到所需要的音量,同时也可保证频域中音频信号尽可能少的失真,提升了用户体验。
本发明实施例中提供的一种音频信号的自动增益控制方法,在待处理音频信号中识别幅值过零点,将相邻过零点之间确定为过零区间,然后根据过零区间确定至少一个增益调整区间。如果根据当前增益调整区间内的音频信号幅值确定为有效音频,则根据当前增益调整区间内的音频信号峰值确定当前增益调整区间的调整增益,最后根据调整增益对所述当前增益调整区间音频信号的幅值进行调整并输出。通过采用上述技术方案,由于采用峰值来确定调整增益,因此调整增益可有效匹配最大幅值的音频信号调整,避免了消顶失真现象。同时,每个增益调整区间可单独确定调整增益,使得增益精度提高,也极大程度上降低频域中音频信号的失真度。此外,通过对音频信号有效状态的判定可以有针对性地在不同情况下调整增益,达到提升用户体验的效果。
实施例二
图7为本发明实施例二提供的一种音频信号的自动增益控制方法的流程示意图。本实施例以上述实施例为基础进行优化,在本实施例中,将步骤“根据当前增益调整区间内的音频信号幅值确定为有效音频”优化为“将当前增益调整区间内的音频信号峰值与噪音门限值进行比较,如果大于噪音门限值,则确定为有效音频;如果小于或等于噪音门限值,则确定为噪音音频”。同时,将确定为噪音音频和有效音频之后的过程进行了细化,参照图7,本实施例的方法包括如下步骤:
步骤201、在待处理音频信号中识别幅值过零点,将相邻过零点之间确定为过零区间。
步骤202、根据过零区间确定至少一个增益调整区间。
步骤203、判断将当前增益调整区间内的音频信号峰值是否大于噪音门限值,若是,则执行步骤204;若否,则执行步骤205。
其中,噪音门限值为实际操作过程中,经过大量实验统计后所得到的经验值。通过噪音门限值的设置可以将有效音频和噪音音频进行有效区分。示例性的,噪音门限值也可通过其他测验或者计算方法进行设置,本实施在此不做具体限定。
步骤204、确定为有效音频。
步骤205、确定为噪音音频。
步骤206、将设定目标幅值除以当前增益调整区间内的音频信号峰值,作为当前增益调整区间的调整增益。
其中,目标幅值与噪音门限值的确定方式类似,也为在实际操作过程中,经过大量实验统计后所得到的经验值。在目标幅值下音频信号的播放效果最好。示例性的,目标幅值也可通过其他测验或者计算方法进行设置,本实施在此不做具体限定。
示例性的,在确定当前增益调整区间内的音频信号为有效音频后,可以将该有效音频信号峰值(幅值绝对值的最大值)与音频信号的目标幅值作比较,进而确定出当前增益调整区间(当前过零区间)的调整增益。示例性的,当前增益调整区间的调整增益可通过将目标幅值与当前增益调整区间内的有效音频信号峰值相除获得。上述处理方式的好处在于,通过比较当前增益调整区间内音频信号幅值绝对值的最大值与目标幅值的差异,可以有针对性地调整当前增益调整区间内采样点的幅值,使得当前过零区间内所有的采样点的幅值经调整后可以尽可能地达到目标幅值。从而使得音频信号在输出后音量可以达到用户所需要的音量,提升用户体验。
步骤207、将当前增益调整区间的调整增益设置为设定的噪音抑制增益。
在实时语音通信过程中,噪音音频的音量一般会低于有效音频的音量,因此可以通过采用一定方法对低音量的噪音音频进行抑制,使其音量尽可能降到最低而不会影响正常的语音通信。
如上述实施例所描述的内容,由于通过对当前调整增益区间内增益的调整可以控制音频信号接收端所能接受到的音频信号的音量,因此,可以通过设定噪音抑制增益对当前增益调整区间的调整增益进行相应的调整。示例性的,可以将当前增益调整区间的调整增益设置为设定的噪音抑制增益。其中,设定的噪音抑制增益为在实际操作过程中,经过大量实验统计后所得到的经验值,该经验值大于0且小于1,表示对噪音音频的压缩比例。通过采用该经验值可以使得噪音音频的压缩效果最好。通过采用上述设置方式,可以实现对噪音音频的抑制,进而可以提高语音通信的质量,提升用户体验。
步骤208、根据调整增益对当前增益调整区间音频信号的幅值进行调整并输出。
示例性的,通过噪音门限值将有效音频和噪音音频进行区分后,可以相应地确定出当前增益调整区间的音频信号为有效音频或噪音音频时,当前增益调整区间的调整增益。在确定出当前增益调整区间的调整增益后,可以对当前增益调整区间的音频信号的幅值进行相应的调整,进而使得语音接收端所接受到的音量满足用户的需求,达到提升用户体验的效果。
本发明实施例二在上述实施例的基础上,通过噪音门限值将有效音频和噪音音频进行区分后,通过将目标幅值与当前增益调整区间内有效音频信号峰值相除,可以得到在音频信号为有效音频的情况下,当前增益调整区间的调整增益;通过将当前增益调整区间的调整增益设置为设定的噪音抑制增益,可以得到在音频信号为噪音音频的情况下,当前增益调整区间的调整增益。因此,通过采用上述方案,可以有针对性地在不同情况下对当前过零区间的增益进行调整,以提高增益调整的准确性。
进一步的,在根据当前增益调整区间内的音频信号峰值确定当前增益调整区间的调整增益之前还可包括:将当前增益调整区间内的音频信号峰值乘以设定比例值,以更新峰值。其中,设定比例值为在实际操作过程根据用户对音量的需求进行设定。当所设定比例值大于1时,可以增大当前增益调整区间内音频信号的峰值。当所设定比例值小于1时,可以减小当前增益调整区间内音频信号的峰值。例如,若在语音接收端接收到的音频信号的整体音量都比较偏低时,可以通过将音频信号的峰值乘以设定比例值(大于1)增大峰值,进而调大音量。
实施例三
图8为本发明实施例三提供的一种音频信号的自动增益控制方法的流程示意图。本实施例三对上述实施例“在待处理音频信号中识别幅值过零点,将相邻过零点之间确定为过零区间”的过程进行了细化,参照图8,本实施例的方法包括如下步骤:
步骤301、将音频信号数据流中的上一帧音频信号与当前帧音频信号拼合为待处理音频信号。
其中,音频信号数据流中上一帧音频信号表示当前要处理并播放的音频信号。当前帧音频信号表示即将要处理的音频信号。将上一帧音频信号与当前帧音频信号拼合后作为待处理音频信号,可以保证接收端所接收到音频信号的平滑性。由于上一帧音频信号与当前帧音频信号的拼合,将导致待处理的音频信号的帧长度增大。示例性的,若上一帧音频信号和当前帧音频信号的帧长度都为N,则将上一帧音频信号与当前帧音频信号拼合后,当前待处理音频信号的帧长度为N+N=2N。
步骤302、在待处理音频信号中识别幅值过零点,直至当前帧音频信号的第一个过零点。
将上一帧音频信号与当前帧音频信号的拼合后,上一帧音频信号最后一个过零点可以作为当前帧音频信号的第一个过零点。同时,上一帧音频信号的最后一个过零区间也可以作为当前音频信号的第一个过零区间。通过将上一帧音频信号与当前帧音频信号的拼合,也可以保证过零区间的完整性。
步骤303、将相邻过零点之间确定为过零区间。
步骤304、根据过零区间确定至少一个增益调整区间。
步骤305、判断将当前增益调整区间内的音频信号峰值是否大于噪音门限值,若是,则执行步骤306;若否,则执行步骤307。
步骤306、确定为有效音频。
步骤307、确定为噪音音频。
步骤308、将设定目标幅值除以当前增益调整区间内的音频信号峰值,作为当前增益调整区间的调整增益。
步骤309、将当前增益调整区间的调整增益设置为设定的噪音抑制增益。
步骤310、根据调整增益对当前增益调整区间音频信号的幅值进行调整并输出。
示例性的,图9为本发明实施例三提供的一种优选的音频信号的自动增益控制方法的流程示意图。如图9所示,在当前获取到一帧音频数据并且与前一帧音频数据进行拼接后,首先需要统计前一帧数据中过零点的个数,并且将前一帧数据中最后一个过零点作为当前帧中第一个过零点。然后统计当前过零区间(相邻两个过零点确定过零区间)中过零点幅值绝对值的最大值(峰值)Pake,并将峰值Pake与噪音门限值NoiseGate进行比较,如果Pake>NoiseGate时,则可以确定当前音频帧为有效音频,并将峰值与目标幅值TargetLevel相比得到当前过零区间的增益调整的差值如果Pake≤NoiseGate时,则可以确定当前音频帧为噪音音频,因此,需要对该噪音音频进行抑制,其抑制方法为将当前过零区间的调整增益Gain设置为设定的噪音抑制增益Gain_NG,其中Gain_NG<1。在确定出有效音频信号当前过零区间的调整增益和噪音音频信号当前过零区间的调整增益后,根据调整增益可对当前过零区间音频信号的幅值进行调整,其调整方式为:将过零点之间的所有样点均乘以增益差值Gain。最后,可以输出经过幅值调整后的音频信号。
本实施例三在上述实施例的基础上,通过将音频信号数据流中的上一帧音频信号与当前帧音频信号拼合后,可以保证待处理音频信号中过零区间的完整性,同时也可以实现上一帧音频信号到当前帧音频信号的平滑过渡。
实施例四
图10为本发明实施例四提供的一种音频信号的自动增益控制装置的结构框图。该装置可由软件和/或硬件实现,可执行音频信号的自动增益控制方法。如图10所示,该装置包括:过零区间确定模块401、调整区间确定模块402、调整增益确定模块403和幅值调整模块404。
其中,过零区间确定模块401,用于在待处理音频信号中识别幅值过零点,将相邻过零点之间确定为过零区间;调整区间确定模块402,用于根据所述过零区间确定至少一个增益调整区间;调整增益确定模块403,用于如果根据当前增益调整区间内的音频信号幅值确定为有效音频,则根据当前增益调整区间内的音频信号峰值确定所述当前增益调整区间的调整增益;幅值调整模块404,用于根据所述调整增益对所述当前增益调整区间音频信号的幅值进行调整并输出。
本发明实施例中提供的一种音频信号的自动增益控制装置,在待处理音频信号中识别幅值过零点,将相邻过零点之间确定为过零区间,然后根据过零区间确定至少一个增益调整区间。如果根据当前增益调整区间内的音频信号幅值确定为有效音频,则根据当前增益调整区间内的音频信号峰值确定当前增益调整区间的调整增益,最后根据调整增益对所述当前增益调整区间音频信号的幅值进行调整并输出。通过采用上述技术方案,由于采用峰值来确定调整增益,因此调整增益可有效匹配最大幅值的音频信号调整,避免了消顶失真现象。同时,每个增益调整区间可单独确定调整增益,使得增益精度提高,也极大程度上降低频域中音频信号的失真度。此外,通过对音频信号有效状态的判定可以有针对性地在不同情况下调整增益,达到提升用户体验的效果。
在上述实施例的基础上,所述调整区间确定模块具体用于:将每个过零区间确定为一个增益调整区间;或将连续的至少两个过零区间确定为一个增益调整区间。
在上述实施例的基础上,所述调整增益确定模块具体用于:将所述当前增益调整区间内的音频信号峰值与噪音门限值进行比较;如果大于所述噪音门限值,则确定为有效音频;如果小于或等于所述噪音门限值,则确定为噪音音频;根据当前增益调整区间内的音频信号峰值确定所述当前增益调整区间的调整增益。
在上述实施例的基础上,该装置还包括:增益抑制模块,用于确定为噪音音频之后,将所述当前增益调整区间的调整增益设置为设定的噪音抑制增益。
在上述实施例的基础上,所述调整增益确定模块具体用于:将设定目标幅值除以所述当前增益调整区间内的音频信号峰值,作为所述当前增益调整区间的调整增益。
在上述实施例的基础上,该装置还包括:峰值更新模块,用于在根据当前增益调整区间内的音频信号峰值确定所述当前增益调整区间的调整增益之前,将所述当前增益调整区间内的音频信号峰值乘以设定比例值,以更新峰值。
在上述实施例的基础上,所述过零区间确定模块具体用于:将音频信号数据流中的上一帧音频信号与当前帧音频信号拼合为待处理音频信号;在待处理音频信号中识别幅值过零点,直至当前帧音频信号的第一个过零点;将相邻过零点之间确定为过零区间。
上述实施例中提供的音频信号的自动增益控制装置可执行本发明任意实施例所提供的音频信号的自动增益控制方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的音频信号的自动增益控制方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (7)

1.一种音频信号的自动增益控制方法,其特征在于,包括:
在待处理音频信号中识别幅值过零点,将相邻过零点之间确定为过零区间;
根据所述过零区间确定至少一个增益调整区间;
如果根据当前增益调整区间内的音频信号幅值确定为有效音频,则将所述当前增益调整区间内的音频信号峰值乘以设定比例值,以更新峰值,将设定目标幅值除以所述当前增益调整区间内的音频信号峰值,作为所述当前增益调整区间的调整增益;
根据所述调整增益对所述当前增益调整区间音频信号的幅值进行调整并输出。
2.根据权利要求1所述的方法,其特征在于,根据所述过零区间确定至少一个增益调整区间包括:
将每个过零区间确定为一个增益调整区间;或
将连续的至少两个过零区间确定为一个增益调整区间。
3.根据权利要求2所述的方法,其特征在于,根据当前增益调整区间内的音频信号幅值确定为有效音频包括:
将所述当前增益调整区间内的音频信号峰值与噪音门限值进行比较;
如果大于所述噪音门限值,则确定为有效音频;
如果小于或等于所述噪音门限值,则确定为噪音音频。
4.根据权利要求3所述的方法,其特征在于,确定为噪音音频之后,还包括:
将所述当前增益调整区间的调整增益设置为设定的噪音抑制增益。
5.根据权利要求1-4任一所述的方法,其特征在于,在待处理音频信号中识别幅值过零点,将相邻过零点之间确定为过零区间包括:
将音频信号数据流中的上一帧音频信号与当前帧音频信号拼合为待处理音频信号;
在待处理音频信号中识别幅值过零点,直至当前帧音频信号的第一个过零点;
将相邻过零点之间确定为过零区间。
6.一种音频信号的自动增益控制装置,其特征在于,包括:
过零区间确定模块,用于在待处理音频信号中识别幅值过零点,将相邻过零点之间确定为过零区间;
调整区间确定模块,用于根据所述过零区间确定至少一个增益调整区间;
调整增益确定模块,用于如果根据当前增益调整区间内的音频信号幅值确定为有效音频,则将当前增益调整区间内的音频信号峰值乘以设定比例值,以更新峰值,将设定目标幅值除以所述当前增益调整区间内的音频信号峰值,作为所述当前增益调整区间的调整增益;
幅值调整模块,用于根据所述调整增益对所述当前增益调整区间音频信号的幅值进行调整并输出。
7.根据权利要求6所述的装置,其特征在于,所述调整区间确定模块具体用于:
将每个过零区间确定为一个增益调整区间;或
将连续的至少两个过零区间确定为一个增益调整区间。
CN201610917294.3A 2016-10-20 2016-10-20 一种音频信号的自动增益控制方法和装置 Active CN106504765B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610917294.3A CN106504765B (zh) 2016-10-20 2016-10-20 一种音频信号的自动增益控制方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610917294.3A CN106504765B (zh) 2016-10-20 2016-10-20 一种音频信号的自动增益控制方法和装置

Publications (2)

Publication Number Publication Date
CN106504765A CN106504765A (zh) 2017-03-15
CN106504765B true CN106504765B (zh) 2019-08-13

Family

ID=58318133

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610917294.3A Active CN106504765B (zh) 2016-10-20 2016-10-20 一种音频信号的自动增益控制方法和装置

Country Status (1)

Country Link
CN (1) CN106504765B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107104650A (zh) * 2017-03-30 2017-08-29 歌尔丹拿音响有限公司 增益调节方法、装置、音频编码器及音响设备
CN107426651B (zh) * 2017-08-10 2018-07-06 长沙世邦通信技术有限公司 多通道的混音方法及装置
WO2019033440A1 (zh) * 2017-08-18 2019-02-21 广东欧珀移动通信有限公司 音量调节方法、装置、终端设备及存储介质
CN107967921B (zh) * 2017-12-04 2021-09-07 苏州科达科技股份有限公司 会议系统的音量调节方法及装置
CN109671448B (zh) * 2018-12-29 2021-05-18 联想(北京)有限公司 一种数据处理方法及装置
CN110211552B (zh) * 2019-05-22 2023-07-14 海信视像科技股份有限公司 音频处理方法及装置
CN113727240A (zh) 2020-05-26 2021-11-30 南宁富桂精密工业有限公司 声音播放调整方法及可携式装置
CN111933173B (zh) * 2020-08-03 2022-03-01 南京工程学院 一种增益平稳调节的动态范围控制方法及系统
CN112468935B (zh) * 2021-02-03 2022-03-11 深圳市东微智能科技股份有限公司 麦克风增益调节方法、系统、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1790901A (zh) * 2004-12-13 2006-06-21 腾讯科技(深圳)有限公司 一种自动增益控制方法
CN1953488A (zh) * 2006-11-01 2007-04-25 华为技术有限公司 一种多路语音信号的混音方法及装置
CN101067927A (zh) * 2007-04-19 2007-11-07 北京中星微电子有限公司 音量调整方法及装置
CN101447771A (zh) * 2008-12-24 2009-06-03 北京中星微电子有限公司 一种增益自动控制的方法和系统
CN103905008A (zh) * 2012-12-27 2014-07-02 佳能株式会社 音频处理设备和音频处理方法
CN204795562U (zh) * 2015-05-29 2015-11-18 上海芯望电子技术有限公司 一种音频信号增益调整电路

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59221017A (ja) * 1983-05-31 1984-12-12 Nippon Hoso Kyokai <Nhk> 音声レベル圧縮器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1790901A (zh) * 2004-12-13 2006-06-21 腾讯科技(深圳)有限公司 一种自动增益控制方法
CN1953488A (zh) * 2006-11-01 2007-04-25 华为技术有限公司 一种多路语音信号的混音方法及装置
CN101067927A (zh) * 2007-04-19 2007-11-07 北京中星微电子有限公司 音量调整方法及装置
CN101447771A (zh) * 2008-12-24 2009-06-03 北京中星微电子有限公司 一种增益自动控制的方法和系统
CN103905008A (zh) * 2012-12-27 2014-07-02 佳能株式会社 音频处理设备和音频处理方法
CN204795562U (zh) * 2015-05-29 2015-11-18 上海芯望电子技术有限公司 一种音频信号增益调整电路

Also Published As

Publication number Publication date
CN106504765A (zh) 2017-03-15

Similar Documents

Publication Publication Date Title
CN106504765B (zh) 一种音频信号的自动增益控制方法和装置
CN106448712B (zh) 一种音频信号的自动增益控制方法和装置
Taal et al. On optimal linear filtering of speech for near-end listening enhancement
RU2461081C2 (ru) Интеллектуальная градиентная система шумоподавления
US9064501B2 (en) Speech processing device and speech processing method
US8755546B2 (en) Sound processing apparatus, sound processing method and hearing aid
EP2984855B1 (en) Method and system for providing hearing assistance to a user
CN100563287C (zh) 一种多路语音信号的混音方法及装置
US9349384B2 (en) Method and system for object-dependent adjustment of levels of audio objects
CN106448690A (zh) 一种音频信号的自动增益控制方法和装置
CN108573709B (zh) 一种自动增益控制方法及装置
CN102422349A (zh) 增益控制装置和增益控制方法、声音输出装置
CA2483798A1 (en) Hearing aid and processes for adaptively processing signals therein
EP2896126B1 (en) Long term monitoring of transmission and voice activity patterns for regulating gain control
CN109461455A (zh) 一种消除啸叫的系统及方法
CN110012331B (zh) 一种红外触发的远场双麦远场语音识别方法
DE112011105908B4 (de) Verfahren und Gerät zur adaptiven Regelung des Toneffekts
JP2003511880A (ja) 補聴器におけるスピーチ信号成分を増強するための方法および信号処理装置
CN105719644A (zh) 一种自适应调整语音识别率的方法及装置
TWI504282B (zh) 增加聽障者聽到聲音正確性之方法及助聽器
CN110675887A (zh) 一种用于会议系统的多麦克风切换方法和系统
CN108133712A (zh) 一种处理音频数据的方法和装置
CN115348507A (zh) 脉冲噪声抑制方法、系统、可读存储介质及计算机设备
CN111063363B (zh) 一种语音获取方法、音频设备和具有存储功能的装置
CN106505960A (zh) 一种音频信号的自动增益控制方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant