CN111833900A - 音频增益控制方法、系统、设备和存储介质 - Google Patents
音频增益控制方法、系统、设备和存储介质 Download PDFInfo
- Publication number
- CN111833900A CN111833900A CN202010547493.6A CN202010547493A CN111833900A CN 111833900 A CN111833900 A CN 111833900A CN 202010547493 A CN202010547493 A CN 202010547493A CN 111833900 A CN111833900 A CN 111833900A
- Authority
- CN
- China
- Prior art keywords
- audio frequency
- frame
- frequency point
- audio
- gain control
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000003860 storage Methods 0.000 title claims abstract description 16
- 230000000694 effects Effects 0.000 claims abstract description 21
- 238000001514 detection method Methods 0.000 claims abstract description 16
- 230000004913 activation Effects 0.000 claims abstract description 14
- 238000003825 pressing Methods 0.000 claims abstract description 4
- 238000007906 compression Methods 0.000 claims description 23
- 230000006835 compression Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000035945 sensitivity Effects 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000881 depressing effect Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明公开了一种音频增益控制方法,包括:对音频中的每一帧进行活性检测,以确定当前帧的类型;其中,所述当前帧的类型包括静音帧和激活帧;当所述当前帧的类型为激活帧时,将所述激活帧压入数组;在将所述激活帧压入数组后,确定所述激活帧内每一个音频点的幅值;其中,每一帧中包含若干个音频点;根据所述音频点的幅值和预设的压缩器参数对所述音频点进行增益控制。本发明还公开了一种音频增益控制系统、一种音频增益控制设备和一种计算机可读存储介质。采用本发明实施例,能自动控制音频的增益,且提高音频增益控制的灵敏性。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种音频增益控制方法、系统、设备和存储介质。
背景技术
在安防摄像头的应用场景中,或在语音通话中,常常出现如下问题:采集到的音量忽大忽小,不平稳,给用户造成了很不好的体验。为此,我们需要一些处理手段,当音频声超过预设响度阈值后,将过大的音频帧的响度整体压低。但是压低一些帧的音量极易造成音频失真。为此,需要一些控制音量的方法,学术界将这类问题称作自动增益控制(AutomaticGain Control)。在音频处理行业中,常用的增益控制方法,首先通过使用VAD(语音活动检测)判断出当前帧的VAD属性,然后根据历史信号平均能量值及峰值,计算当前帧的增益值。但是这种方法比较粗糙,在很多场景中(如安防监控),信号的音量值变化范围非常大,因此计算而得的平均能量值很难反映当前信号的真实情况,从而导致音频增益控制不够灵敏。
发明内容
本发明实施例的目的是提供一种音频增益控制方法、系统、设备和存储介质,能自动控制音频的增益,且提高音频增益控制的灵敏性。
为实现上述目的,本发明实施例提供了一种音频增益控制方法,包括:
对音频中的每一帧进行活性检测,以确定当前帧的类型;其中,所述当前帧的类型包括静音帧和激活帧;
当所述当前帧的类型为激活帧时,将所述激活帧压入数组;
在将所述激活帧压入数组后,确定所述激活帧内每一个音频点的幅值;其中,每一帧中包含若干个音频点;
根据所述音频点的幅值和预设的压缩器参数对所述音频点进行增益控制。
作为上述方案的改进,所述压缩器参数包括阈值、压缩比和启动时间;则,所述根据所述音频点的幅值和预设的压缩器参数对所述音频点进行增益控制,包括:
当当前音频点的幅值大于所述阈值时,在所述数组中查询幅值小于所述阈值的另一音频点;
当查询到幅值小于所述阈值的所述另一音频点时,判断所述另一音频点到所述当前音频点的第一路径长度是否大于或等于所述启动时间;
若是,按照所述压缩比对所述当前音频点进行压缩;若否,不处理所述当前音频点。
作为上述方案的改进,所述在所述数组中查询幅值小于所述阈值的另一音频点,包括:
以所述当前音频点为查询起点,并以所述数组中的起点为查询终点;
从所述查询起点向所述查询终点查询;
获取在查询过程中首次出现幅值小于所述阈值的另一音频点。
作为上述方案的改进,所述压缩器参数还包括释放时间;则,所述根据所述音频点的幅值和预设的压缩器参数对所述音频点进行增益控制,还包括:
当当前音频点的幅值小于所述阈值时,在所述数组中查询幅值大于所述阈值的另一音频点;
当查询到幅值大于所述阈值的所述另一音频点时,判断所述另一音频点到所述当前音频点的第二路径长度是否小于所述释放时间;
若是,按照所述压缩比对所述当前音频点进行压缩;若否,不处理所述当前音频点。
作为上述方案的改进,所述对音频中的每一帧进行活性检测前,还包括:
确定压缩器参数的初始值。
作为上述方案的改进,所述方法还包括:
当所述当前帧的类型为静音帧时,判断所述数组是否为空;
若是,则确定下一帧的类型;若否,则更新所述压缩器参数;
当判定所述数组不为空后,确定所述静音帧内每一个音频点的幅值;
根据所述音频点的幅值和更新后的压缩器参数对所述音频点进行增益控制;
清空所述数组。
作为上述方案的改进,当判定所述数组不为空时,所述数组中存在激活块;其中,所述激活块包括若干个连续的激活帧;则,所述更新所述压缩器参数,包括:
计算所述激活块中所有音频点的第一总能量;
计算所述数组中幅值超过所述阈值的音频点的总数量和第二总能量;
根据所述第一总能量、所述总数量和所述第二总能量按照预设的压缩器参数更新策略更新所述压缩器参数。
为实现上述目的,本发明实施例还提供了一种音频增益控制系统,包括:
当前帧类型确定模块,用于对音频中的每一帧进行活性检测,以确定当前帧的类型;其中,所述当前帧的类型包括静音帧和激活帧;
数组压入模块,用于当所述当前帧的类型为激活帧时,将所述激活帧压入数组;
音频点幅值确定模块,用于在将所述激活帧压入数组后,确定所述激活帧内每一个音频点的幅值;其中,每一帧中包含若干个音频点;
增益控制模块,用于根据所述音频点的幅值和预设的压缩器参数对所述音频点进行增益控制。
为实现上述目的,本发明实施例还提供了一种音频增益控制设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一实施例所述的音频增益控制方法。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述任一实施例所述的音频增益控制方法。
与现有技术相比,本发明实施例公开的音频增益控制方法、系统、设备和存储介质,首先,对音频中的每一帧进行活性检测,以确定当前帧的类型;然后,当所述当前帧的类型为激活帧时,将所述激活帧压入数组;在将所述激活帧压入数组后,确定所述激活帧内每一个音频点的幅值;最后,根据所述音频点的幅值和预设的压缩器参数对所述音频点进行增益控制,能自动控制音频的增益,且提高音频增益控制的灵敏性。
附图说明
图1是本发明实施例提供的一种音频增益控制方法的流程图;
图2是本发明实施例提供的一种音频增益控制系统的结构框图;
图3是本发明实施例提供的一种音频增益控制设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,图1是本发明实施例提供的一种音频增益控制方法的流程图,所述音频增益控制方法包括:
S11、对音频中的每一帧进行活性检测,以确定当前帧的类型;其中,所述当前帧的类型包括静音帧和激活帧;
S12、当所述当前帧的类型为激活帧时,将所述激活帧压入数组;
S13、在将所述激活帧压入数组后,确定所述激活帧内每一个音频点的幅值;其中,每一帧中包含若干个音频点;
S14、根据所述音频点的幅值和预设的压缩器参数对所述音频点进行增益控制。
值得说明的是,本发明实施例所述的音频增益控制方法可以由播放器执行实现。
具体地,在执行步骤S11前,还包括步骤S10:确定压缩器参数的初始值。
压缩器是一种随着输入信号电平增大而本身增益减小的放大器,作用是改变输入与输出信号的电平比例。压缩器有4个重要参数:阈值、压缩比、启动时间、释放时间。值得说明的是,所述启动时间和所述释放时间以所述音频点的点数为基准。
所述阈值(Threshold)为信号电平阈值,与所述启动时间、所述释放时间一同决定了何时对信号进行压缩。所述压缩比(Ratio)为超过所述阈值部分的输出与输入的比例,假设为1:1,则原样输出;假设比例为2:1,表示超过Threshold的电平被压缩为原来的1/2。所述启动时间(Attack time)决定了当电平峰值超过所述阈值多长时间后开始进行压缩。所述释放时间(Release time)决定了当电平峰值低于所述阈值多长时间后停止压缩。
示例性的,假设所述阈值为6、所述启动时间为1个音频点、所述结束时间为2个音频点,对于有一系列音频帧的电平(能量)值为:1,2,3,7,7,7,8,8,8,1,2,1,2。则将要被压缩处理的为“7,7,8,8,8,1,2”的音频点。这样做主要是起到平滑作用,让压缩效果不突兀。
压缩器在音频处理及音乐制作的后期处理中运用广泛。对于一条特定的音轨,压缩器可以使音量更加紧实。但是在设备端,我们无法预知音频流的最大音量,从而无法较好地确定各增益值。在后文中,本发明实施例中使用自适应的阈值方法,动态调整其中几个参数的值。
具体地,在步骤S10中,压缩器的四个参数中,动态自适应地调整阈值VT,压缩比RT,由经验预设值确定启动时间AT与释放时间LT。
示例性的,首先需要通过实验来确定出保证系统音质不失真的最大音量VMAX。声音是不能长期超过VMAX的。根据VMAX,我们也能够确定音量调控的下限VMIN=a*VMAX,a是一个预设比例因子,通常可取0.7或0.8左右。VMIN保证了压缩器的压缩比例不能低于一个阈值,以免造成整体音量过小。启动时间AT通常设置为2-5个音频点,从而避免噪声的干扰。释放时间LT一般根据人耳听觉效果来主观确定,一般可取100个音频点左右(8000Hz采样率下)。
所述阈值VT可初始化为VMAX或VMIN,或者取VMAX至VMIN之间的一个值。压缩比RT初始化为1,即不压缩。还需要一个记录当前block(激活块)中已有帧信息的数组array。其中,数组array仅记录了包含此帧在内的最近的一个block内的信息,block包括至少一个激活帧,当block包括至少两个激活帧时,该至少两个激活帧为连续的激活帧,block前的一个帧与之后的一个帧都为静音帧。比如有一系列帧的vad结果为:0,1,1,1,0,1,则第一个block为2≤t≤4的连续三个帧:1,1,1,第二个block为最后一个帧,其中,t表示第t个帧。
具体地,在步骤S11中,对音频中的每一帧进行活性检测。值得说明的是,所述音频被分成若干个帧,帧长一般固定都是W=256或128,W为每帧的音频点数量。可根据历史信息判断当前帧是否为静音状态(vad=0,即静音帧)还是激活状态(vad=1,即激活帧)。静音状态表示此时仅有背景噪声,没有我们感兴趣的声音。激活状态表示此帧中包含有我们感兴趣的声音。值得说明的是,对音频进行活性检测的方法可参考现有技术中的音频活性检测方法,本发明在此不做具体限定。
具体地,在步骤S12中,当所述当前帧的类型为激活帧时,即vad=1,则将所述当前帧压入array数组。例如有如下若干帧:0,1,1,1,0,1。当t=2时,vad=1,将当前帧压入array数组。
具体地,在步骤S13中,在将所述激活帧压入数组后,确定所述激活帧内每一个音频点x(i)的幅值;其中,每一帧中包含若干个音频点,依次处理此帧内每一个音频点。
具体地,在步骤S14中,所述根据所述音频点的幅值和预设的压缩器参数对所述音频点进行增益控制,包括步骤S141~S143。
S141、当当前音频点的幅值的绝对值大于所述阈值时,即满足|x(i)|>VT,在所述数组中查询幅值小于所述阈值的另一音频点。
示例性的,以所述当前音频点为查询起点,并以所述数组中的起点为查询终点;从所述查询起点向所述查询终点查询;获取在查询过程中首次出现幅值小于所述阈值的另一音频点,即在第j个音频点(j<i)首次遇到|x(j)|<VT时,取x(j)为所述另一音频点。
S142、当查询到幅值小于所述阈值的所述另一音频点x(j)时,判断所述另一音频点到所述当前音频点的第一路径长度是否大于或等于所述启动时间;其中,所述第一路径长度满足L1=i-j,判断是否满足L1>AT。
S143、若L1≥AT,按照所述压缩比RT对所述当前音频点进行压缩,满足x(i)=x(i)*RT;若L1<AT,则所述当前音频点处在压缩器的启动时间中,不处理所述当前音频点。
进一步地,在步骤S14中,所述根据所述音频点的幅值和预设的压缩器参数对所述音频点进行增益控制,还包括步骤S144~S146。
S144、当当前音频点的幅值小于所述阈值时,即满足|x(i)|<VT,在所述数组中查询幅值大于所述阈值的另一音频点。
示例性的,以所述当前音频点为查询起点,并以所述数组中的起点为查询终点;从所述查询起点向所述查询终点查询;获取在查询过程中首次出现幅值大于所述阈值的另一音频点,即在第j个音频点(j<i)首次遇到|x(j)|>VT时,取x(j)为所述另一音频点。
S145、当查询到幅值大于所述阈值的所述另一音频点时,判断所述另一音频点到所述当前音频点的第二路径长度是否小于所述释放时间;其中,所述第二路径长度满足L2=i-j,判断是否满足L2<LT。
S146、若L2<LT,按照所述压缩比RT对所述当前音频点进行压缩;若L2≥LT,认为所述当前音频点已经超过了压缩器释放时间,不处理所述当前音频点。
可选的,在步骤S11中对音频中的每一帧进行活性检测后,所述方法还包括步骤S21~S25:
S21、当所述当前帧的类型为静音帧时,即vad=0,判断所述数组是否为空;
S22、若array数组为空,则返回步骤S11确定下一帧的类型;若array数组不为空,表明此时已经检测到了block的结尾,则更新所述压缩器参数;
S23、当判定所述数组不为空后,确定所述静音帧内每一个音频点的幅值;
S24、根据所述音频点的幅值和更新后的压缩器参数对所述音频点进行增益控制;此时增益控制的过程可参考步骤S141~S146,在此不再赘述;
S25、清空所述数组。
示例性的,例如有如下若干帧:0,1,1,1,0,1,在t=5时,vad=0,此时array数组不为空,array中其实是存储了第t=2,3,4时帧的信息,在更新完压缩器参数且对所述静音帧的每一个音频点进行压缩后,清空array数组。
进一步地,在步骤S22中判定所述数组不为空时,所述数组中存在激活块,此时表明已经检测到了一个完整的block,由block统计特性更新所有参数。所述更新所述压缩器参数,实际上为更新所述压缩器的阈值和压缩比,包括步骤S221~S224。
S221、计算所述激活块中所有音频点的第一总能量Eb,满足以下公式:
其中,F为这个array中已存储的帧数量;W是每帧的音频点数;x(i,j)为第i帧第j个音频点。
S222、计算所述数组中幅值超过所述阈值VT的音频点的总数量Nt和第二总能量Et,其中,所述第二总能量Et满足以下公式:
S223、根据所述第一总能量、所述总数量和所述第二总能量按照预设的压缩器参数更新策略更新所述压缩器参数。
具体地,在步骤S224中,首先更新压缩器的阈值VT,满足以下公式:
其次更新压缩比RT,满足以下公式:
其中,RT是历史统计量,α和上面一样,是一个预设的学习率。如果当前帧超过阈值部分点的平均值较大,则下次就应该用更大的压缩比。
与现有技术相比,本发明实施例公开的音频增益控制方法,首先,对音频中的每一帧进行活性检测,以确定当前帧的类型;然后,当所述当前帧的类型为激活帧时,将所述激活帧压入数组;在将所述激活帧压入数组后,确定所述激活帧内每一个音频点的幅值;最后,根据所述音频点的幅值和预设的压缩器参数对所述音频点进行增益控制,能自动控制音频的增益,且提高音频增益控制的灵敏性。
参见图2,图2是本发明实施例提供的一种音频增益控制系统10的结构框图,所述音频增益控制系统10包括:
当前帧类型确定模块11,用于对音频中的每一帧进行活性检测,以确定当前帧的类型;其中,所述当前帧的类型包括静音帧和激活帧;
数组压入模块12,用于当所述当前帧的类型为激活帧时,将所述激活帧压入数组;
音频点幅值确定模块13,用于在将所述激活帧压入数组后,确定所述激活帧内每一个音频点的幅值;其中,每一帧中包含若干个音频点;
增益控制模块14,用于根据所述音频点的幅值和预设的压缩器参数对所述音频点进行增益控制。
进一步地,所述压缩器参数包括阈值、压缩比和启动时间;则,所述增益控制模块14包括:
第一查询单元141,用于当当前音频点的幅值大于所述阈值时,在所述数组中查询幅值小于所述阈值的另一音频点;
第一判断单元142,用于当查询到幅值小于所述阈值的所述另一音频点时,判断所述另一音频点到所述当前音频点的第一路径长度是否大于或等于所述启动时间;
第一压缩单元143,用于当所述第一路径长度大于或等于所述启动时间时,按照所述压缩比对所述当前音频点进行压缩。
进一步地,所述第一查询单元141,具体用于:
以所述当前音频点为查询起点,并以所述数组中的起点为查询终点;从所述查询起点向所述查询终点查询;获取在查询过程中首次出现幅值小于所述阈值的另一音频点。
进一步地,所述压缩器参数还包括释放时间;则,所述增益控制模块14还包括:
第二查询单元144,用于当当前音频点的幅值小于所述阈值时,在所述数组中查询幅值大于所述阈值的另一音频点;
第二判断单元145,用于当查询到幅值大于所述阈值的所述另一音频点时,判断所述另一音频点到所述当前音频点的第二路径长度是否小于所述释放时间;
第二压缩单元146,用于当所述第二路径长度小于所述释放时间时,按照所述压缩比对所述当前音频点进行压缩。
进一步地,所述音频增益控制系统10还包括:
压缩器参数更新模块15,用于在所述当前帧类型确定模块11对音频中的每一帧进行活性检测前,确定压缩器参数的初始值。
进一步地,所述音频增益控制系统10还包括:
判断模块16,用于当所述当前帧的类型为静音帧时,判断所述数组是否为空。
若所述判断模块16判定所述数组为空,则所述当前帧类型确定模块11确定下一帧的类型;若所述判断模块16判定所述数组不为空,则所述压缩器参数更新模块15更新所述压缩器参数;当所述判断模块16判定所述数组不为空后,所述音频点幅值确定模块13确定所述静音帧内每一个音频点的幅值;所述增益控制模块14根据所述音频点的幅值和更新后的压缩器参数对所述音频点进行增益控制,所述数组压入模块12清空所述数组。
进一步地,当所述判断模块16判定所述数组不为空时,所述数组中存在激活块;其中,所述激活块包括至少一个激活帧;则,所述压缩器参数更新模块15还用于:计算所述激活块中所有音频点的第一总能量;计算所述数组中幅值超过所述阈值的音频点的总数量和第二总能量;根据所述第一总能量、所述总数量和所述第二总能量按照预设的压缩器参数更新策略更新所述压缩器参数。
值得说明的是,具体的所述音频增益控制系统10中各个模块的工作过程请参考上述实施例所述的音频增益控制方法的工作过程,在此不再赘述。
与现有技术相比,本发明实施例公开的音频增益控制系统10法,首先,对音频中的每一帧进行活性检测,以确定当前帧的类型;然后,当所述当前帧的类型为激活帧时,将所述激活帧压入数组;在将所述激活帧压入数组后,确定所述激活帧内每一个音频点的幅值;最后,根据所述音频点的幅值和预设的压缩器参数对所述音频点进行增益控制,能自动控制音频的增益,且提高音频增益控制的灵敏性。
参见图3,图3是本发明实施例提供的一种音频增益控制设备20的结构框图。该实施例的音频增益控制设备20包括:处理器21、存储器22以及存储在所述存储器22中并可在所述处理器21上运行的计算机程序。所述处理器21执行所述计算机程序时实现上述音频增益控制方法实施例中的步骤,例如图1所示的步骤S11~S14。或者,所述处理器21执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如当前帧类型确定模块11。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器22中,并由所述处理器21执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述音频增益控制设备20中的执行过程。例如,所述计算机程序可以被分割成当前帧类型确定模块11、数组压入模块12、音频点幅值确定模块13、增益控制模块14、压缩器参数更新模块15和判断模块16,各模块具体功能请参考上述实施例所述的音频增益控制系统10的具体工作过程,在此不再赘述。
所述音频增益控制设备20可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述音频增益控制设备20可包括,但不仅限于,处理器21、存储器22。本领域技术人员可以理解,所述示意图仅仅是音频增益控制设备20的示例,并不构成对音频增益控制设备20的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述音频增益控制设备20还可以包括输入输出设备、网络接入设备、总线等。
所述处理器21可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器21也可以是任何常规的处理器等,所述处理器21是所述音频增益控制设备20的控制中心,利用各种接口和线路连接整个音频增益控制设备20的各个部分。
所述存储器22可用于存储所述计算机程序和/或模块,所述处理器21通过运行或执行存储在所述存储器22内的计算机程序和/或模块,以及调用存储在存储器22内的数据,实现所述音频增益控制设备20的各种功能。所述存储器22可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述音频增益控制设备20集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器21执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种音频增益控制方法,其特征在于,包括:
对音频中的每一帧进行活性检测,以确定当前帧的类型;其中,所述当前帧的类型包括静音帧和激活帧;
当所述当前帧的类型为激活帧时,将所述激活帧压入数组;
在将所述激活帧压入数组后,确定所述激活帧内每一个音频点的幅值;其中,每一帧中包含若干个音频点;
根据所述音频点的幅值和预设的压缩器参数对所述音频点进行增益控制。
2.如权利要求1所述的音频增益控制方法,其特征在于,所述压缩器参数包括阈值、压缩比和启动时间;则,所述根据所述音频点的幅值和预设的压缩器参数对所述音频点进行增益控制,包括:
当当前音频点的幅值大于所述阈值时,在所述数组中查询幅值小于所述阈值的另一音频点;
当查询到幅值小于所述阈值的所述另一音频点时,判断所述另一音频点到所述当前音频点的第一路径长度是否大于或等于所述启动时间;
若是,按照所述压缩比对所述当前音频点进行压缩;若否,不处理所述当前音频点。
3.如权利要求2所述的音频增益控制方法,其特征在于,所述在所述数组中查询幅值小于所述阈值的另一音频点,包括:
以所述当前音频点为查询起点,并以所述数组中的起点为查询终点;
从所述查询起点向所述查询终点查询;
获取在查询过程中首次出现幅值小于所述阈值的另一音频点。
4.如权利要求2所述的音频增益控制方法,其特征在于,所述压缩器参数还包括释放时间;则,所述根据所述音频点的幅值和预设的压缩器参数对所述音频点进行增益控制,还包括:
当当前音频点的幅值小于所述阈值时,在所述数组中查询幅值大于所述阈值的另一音频点;
当查询到幅值大于所述阈值的所述另一音频点时,判断所述另一音频点到所述当前音频点的第二路径长度是否小于所述释放时间;
若是,按照所述压缩比对所述当前音频点进行压缩;若否,不处理所述当前音频点。
5.如权利要求1所述的音频增益控制方法,其特征在于,所述对音频中的每一帧进行活性检测前,还包括:
确定压缩器参数的初始值。
6.如权利要求5所述的音频增益控制方法,其特征在于,所述方法还包括:
当所述当前帧的类型为静音帧时,判断所述数组是否为空;
若是,则确定下一帧的类型;若否,则更新所述压缩器参数;
当判定所述数组不为空后,确定所述静音帧内每一个音频点的幅值;
根据所述音频点的幅值和更新后的压缩器参数对所述音频点进行增益控制;
清空所述数组。
7.如权利要求5所述的音频增益控制方法,其特征在于,当判定所述数组不为空时,所述数组中存在激活块;其中,所述激活块包括至少一个激活帧;则,所述更新所述压缩器参数,包括:
计算所述激活块中所有音频点的第一总能量;
计算所述数组中幅值超过所述阈值的音频点的总数量和第二总能量;
根据所述第一总能量、所述总数量和所述第二总能量按照预设的压缩器参数更新策略更新所述压缩器参数。
8.一种音频增益控制系统,其特征在于,包括:
当前帧类型确定模块,用于对音频中的每一帧进行活性检测,以确定当前帧的类型;其中,所述当前帧的类型包括静音帧和激活帧;
数组压入模块,用于当所述当前帧的类型为激活帧时,将所述激活帧压入数组;
音频点幅值确定模块,用于在将所述激活帧压入数组后,确定所述激活帧内每一个音频点的幅值;其中,每一帧中包含若干个音频点;
增益控制模块,用于根据所述音频点的幅值和预设的压缩器参数对所述音频点进行增益控制。
9.一种音频增益控制设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的音频增益控制方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至7中任意一项所述的音频增益控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010547493.6A CN111833900B (zh) | 2020-06-16 | 2020-06-16 | 音频增益控制方法、系统、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010547493.6A CN111833900B (zh) | 2020-06-16 | 2020-06-16 | 音频增益控制方法、系统、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111833900A true CN111833900A (zh) | 2020-10-27 |
CN111833900B CN111833900B (zh) | 2023-10-17 |
Family
ID=72897730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010547493.6A Active CN111833900B (zh) | 2020-06-16 | 2020-06-16 | 音频增益控制方法、系统、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111833900B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112435687A (zh) * | 2020-11-25 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 一种音频检测方法、装置、计算机设备和可读存储介质 |
CN112887877A (zh) * | 2021-01-28 | 2021-06-01 | 歌尔科技有限公司 | 一种音频参数设置方法、装置、电子设备及存储介质 |
CN116486833A (zh) * | 2023-06-21 | 2023-07-25 | 北京探境科技有限公司 | 音频增益调整方法、装置、存储介质及电子设备 |
CN116847245A (zh) * | 2023-06-30 | 2023-10-03 | 杭州雄迈集成电路技术股份有限公司 | 一种数字音频自动增益方法、系统、计算机存储介质 |
CN111833900B (zh) * | 2020-06-16 | 2023-10-17 | 成都市联洲国际技术有限公司 | 音频增益控制方法、系统、设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040128126A1 (en) * | 2002-10-14 | 2004-07-01 | Nam Young Han | Preprocessing of digital audio data for mobile audio codecs |
US20080269926A1 (en) * | 2007-04-30 | 2008-10-30 | Pei Xiang | Automatic volume and dynamic range adjustment for mobile audio devices |
CN103915103A (zh) * | 2014-04-15 | 2014-07-09 | 成都凌天科创信息技术有限责任公司 | 语音质量增强系统 |
CN104200810A (zh) * | 2014-08-29 | 2014-12-10 | 无锡中星微电子有限公司 | 自动增益控制装置及方法 |
CN108573709A (zh) * | 2017-03-09 | 2018-09-25 | 中移(杭州)信息技术有限公司 | 一种自动增益控制方法及装置 |
CN110956972A (zh) * | 2019-12-23 | 2020-04-03 | 佛山慧明电子科技有限公司 | 一种语音信号自动增益控制方法 |
US20200227065A1 (en) * | 2017-07-18 | 2020-07-16 | Harman Becker Automotive Systems Gmbh | Speech signal leveling |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833900B (zh) * | 2020-06-16 | 2023-10-17 | 成都市联洲国际技术有限公司 | 音频增益控制方法、系统、设备和存储介质 |
-
2020
- 2020-06-16 CN CN202010547493.6A patent/CN111833900B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040128126A1 (en) * | 2002-10-14 | 2004-07-01 | Nam Young Han | Preprocessing of digital audio data for mobile audio codecs |
US20080269926A1 (en) * | 2007-04-30 | 2008-10-30 | Pei Xiang | Automatic volume and dynamic range adjustment for mobile audio devices |
CN103915103A (zh) * | 2014-04-15 | 2014-07-09 | 成都凌天科创信息技术有限责任公司 | 语音质量增强系统 |
CN104200810A (zh) * | 2014-08-29 | 2014-12-10 | 无锡中星微电子有限公司 | 自动增益控制装置及方法 |
CN108573709A (zh) * | 2017-03-09 | 2018-09-25 | 中移(杭州)信息技术有限公司 | 一种自动增益控制方法及装置 |
US20200227065A1 (en) * | 2017-07-18 | 2020-07-16 | Harman Becker Automotive Systems Gmbh | Speech signal leveling |
CN110956972A (zh) * | 2019-12-23 | 2020-04-03 | 佛山慧明电子科技有限公司 | 一种语音信号自动增益控制方法 |
Non-Patent Citations (3)
Title |
---|
MLADEN VUCIC: "\"All Digital high-dynamic automatic gain control\"", 《2009 IEEE INTERNATIONAL SYMPOSIUM ON CIRCUITS AND SYSTEMS》 * |
朱霜霜: ""面向数字语音通信的音质增强算法研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
赖小强: "数字闭环自动增益控制系统设计与实现", 《网络新媒体技术》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111833900B (zh) * | 2020-06-16 | 2023-10-17 | 成都市联洲国际技术有限公司 | 音频增益控制方法、系统、设备和存储介质 |
CN112435687A (zh) * | 2020-11-25 | 2021-03-02 | 腾讯科技(深圳)有限公司 | 一种音频检测方法、装置、计算机设备和可读存储介质 |
WO2022111177A1 (zh) * | 2020-11-25 | 2022-06-02 | 腾讯科技(深圳)有限公司 | 一种音频检测方法、装置、计算机设备和可读存储介质 |
CN112887877A (zh) * | 2021-01-28 | 2021-06-01 | 歌尔科技有限公司 | 一种音频参数设置方法、装置、电子设备及存储介质 |
CN112887877B (zh) * | 2021-01-28 | 2023-09-08 | 歌尔科技有限公司 | 一种音频参数设置方法、装置、电子设备及存储介质 |
CN116486833A (zh) * | 2023-06-21 | 2023-07-25 | 北京探境科技有限公司 | 音频增益调整方法、装置、存储介质及电子设备 |
CN116486833B (zh) * | 2023-06-21 | 2023-09-22 | 北京探境科技有限公司 | 音频增益调整方法、装置、存储介质及电子设备 |
CN116847245A (zh) * | 2023-06-30 | 2023-10-03 | 杭州雄迈集成电路技术股份有限公司 | 一种数字音频自动增益方法、系统、计算机存储介质 |
CN116847245B (zh) * | 2023-06-30 | 2024-04-09 | 浙江芯劢微电子股份有限公司 | 一种数字音频自动增益方法、系统、计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111833900B (zh) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111833900B (zh) | 音频增益控制方法、系统、设备和存储介质 | |
CN108733341B (zh) | 一种语音交互方法及装置 | |
CN111312290B (zh) | 音频数据音质检测方法及装置 | |
EP3792918A1 (en) | Digital automatic gain control method and apparatus | |
CN110191396A (zh) | 一种音频处理方法、装置、终端及计算机可读存储介质 | |
CN112185424B (zh) | 一种语音文件裁剪还原方法、装置、设备和存储介质 | |
CN110312146A (zh) | 音频处理方法、装置、电子设备和存储介质 | |
CN110809214A (zh) | 音频播放方法、音频播放装置及终端设备 | |
CN113099352A (zh) | 音频信号处理方法、装置、电子设备及存储介质 | |
CN113362839A (zh) | 音频数据处理方法、装置、计算机设备及存储介质 | |
CN113593604B (zh) | 检测音频质量方法、装置及存储介质 | |
CN112837694B (zh) | 设备唤醒方法、装置、存储介质及电子装置 | |
CN109889170B (zh) | 音频信号的控制方法和装置 | |
CN110022514B (zh) | 音频信号的降噪方法、装置、系统及计算机存储介质 | |
CN111243631B (zh) | 一种自动增益控制方法及电子设备 | |
CN115273855A (zh) | 一种通话音量调节方法及相关设备 | |
CN111161750B (zh) | 语音处理方法及相关装置 | |
CN111145770B (zh) | 音频处理方法和装置 | |
WO2020107385A1 (zh) | 增益处理方法及其装置、电子设备、信号采集方法及其系统 | |
CN111933184A (zh) | 一种语音信号处理方法、装置、电子设备和存储介质 | |
CN105262797A (zh) | 一种音乐文件加载方法及相关设备 | |
CN114724576B (zh) | 一种啸叫检测中的门限实时更新方法、装置以及系统 | |
CN110827851A (zh) | 调节音量的方法、电子设备及计算机存储介质 | |
JP4441293B2 (ja) | 収音方法、収音装置、収音プログラム | |
CN116170721A (zh) | 一种音量调节方法、装置、耳机及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220823 Address after: Floor 12-17, unit 1, building 2, No. 466, Xinyu Road, high tech Zone, Chengdu, Sichuan 610000 Applicant after: Chengdu Lianzhou International Technology Co.,Ltd. Address before: 518000 the 1st and 3rd floors of the south section of building 24 and the 1st-4th floor of the north section of building 28, Shennan Road Science and Technology Park, Nanshan District, Shenzhen City, Guangdong Province Applicant before: TP-LINK TECHNOLOGIES Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |