CN113470691A - 一种语音信号的自动增益控制方法及其相关装置 - Google Patents

一种语音信号的自动增益控制方法及其相关装置 Download PDF

Info

Publication number
CN113470691A
CN113470691A CN202110771229.5A CN202110771229A CN113470691A CN 113470691 A CN113470691 A CN 113470691A CN 202110771229 A CN202110771229 A CN 202110771229A CN 113470691 A CN113470691 A CN 113470691A
Authority
CN
China
Prior art keywords
value
speech
sub
determining
gain value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110771229.5A
Other languages
English (en)
Inventor
陈庭威
黄景标
林聚财
殷俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202110771229.5A priority Critical patent/CN113470691A/zh
Publication of CN113470691A publication Critical patent/CN113470691A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)

Abstract

本申请公开了一种语音信号的自动增益控制方法及其相关装置,其中,语音信号的自动增益控制方法包括:获取到语音信号的当前帧;基于当前帧的帧信号确定当前帧的多个参数;利用多级策略基于多个参数得到当前帧的语音增益值;利用语音增益值对当前帧进行语音增益处理。通过上述方法,提高了语音整体的听感,提升了语音增益值的鲁棒性。

Description

一种语音信号的自动增益控制方法及其相关装置
技术领域
本申请涉及语音信号处理技术领域,特别是涉及一种语音信号的自动增益控制方法及其相关装置。
背景技术
随着实时语音通话和视频通话的应用越来越广泛,音视频技术也越来越得到重视。语音自动增益控制(AGC)是音视频技术中音频处理的重要环节。语音自动增益控制的主要功能就是拉伸语音中的音量较小片段,抑制音量较大的片段,从而使得语音音量整体相对平稳,进而提升用户的听感体验。现有的技术方法计算增益往往依赖于单一参数,如语音活动检测值(VAD),并且大多数基于语音的峰值比较和门限比较的方法。当输入语音包含复杂的噪声时,现有方法对语音的增益效果就会受到严重影响。
发明内容
本申请主要解决的技术问题是提供一种语音信号的自动增益控制方法及其相关装置,以适应复杂噪声场景。
为了解决上述技术问题,本申请提供一种语音信号的自动增益控制方法及其相关装置,该语音信号的自动增益控制方法及其相关装置包括:获取到语音信号的当前帧;基于所述当前帧的帧信号确定所述当前帧的多个参数;利用多级策略基于所述多个参数得到所述当前帧的语音增益值;利用所述语音增益值对所述当前帧进行语音增益处理。
其中,所述利用多级策略基于所述多个参数得到所述当前帧的语音增益值的步骤,包括:基于各个所述参数按照所述多级策略得到所述当前参数对应的多个子语音增益值,并利用所述多个子语音增益值确定所述语音增益值。
其中,所述基于各个所述参数按照所述多级策略得到所述当前帧对应的多个子语音增益值,并利用所述多个子语音增益值确定所述语音增益值的步骤,包括:基于所述当前帧的第一参数确定第一子语音增益值;基于所述第一子语音增益值以及第二参数确定第二子语音增益值;基于所述第二子语音增益值以及第三参数确定第三子语音增益值;基于所述第三子语音增益值、前一帧的第三子语音增益值以及第四参数确定所述语音增益值。
其中,所述基于所述当前帧的第一参数确定第一子语音增益值的步骤,包括:响应于所述第一参数小于第一门限值,将所述第一门限值的绝对值确定为所述第一子语音增益值;响应于所述第一参数大于所述第一门限值且小于第二门限值,将所述第二门限值与所述第一参数的差值确定为所述第一子语音增益值;响应于所述第一参数大于所述第二门限值且小于第三门限值,将所述第三门限值与所述第一参数的差值确定为所述第一子语音增益值;响应于所述第一参数大于所述第三门限值,将固定值确定为所述第一子语音增益值;其中,所述第一门限值小于所述第二门限值小于所述第三门限值。
其中,所述基于所述第一子语音增益值以及第二参数确定第二子语音增益值的步骤,包括:获取所述第二参数与第二阈值的差值;响应于所述差值大于所述第一子语音增益值,则将所述差值确定为所述第二子语音增益值;响应于所述差值小于所述第一子语音增益值,将所述第一子语音增益值确定为所述第二子语音增益值。
其中,所述基于所述第二子语音增益值以及第三参数确定第三子语音增益值的步骤,包括:获取所述第三参数与第三阈值的差值;响应于所述差值大于所述第二子语音增益值,将所述差值确定为所述第三子语音增益值;响应于所述差值小于所述第二子语音增益值,将所述第二子语音增益值确定为所述第三子语音增益值。
其中,所述基于所述第三子语音增益值、前一帧的第三子语音增益值以及第四参数确定所述语音增益值的步骤,包括:获取第三子语音增益值与前一帧的第三子语音增益值的差值;基于差值以及第四参数确定语音增益值。
其中,基于差值以及第四参数确定语音增益值的步骤,包括:若基于第四参数确定当前帧和前一帧为语音帧,则判断差值是否在预设阈值内;若在,则将差值确定为语音增益值;若不在,则判断差值与零的大小;若差值小于零,则将预设阈值内的最小值确定为语音增益值;若差值大于零,则将预设阈值内的最大值确定为语音增益值;若基于第四参数确定当前帧和/或前一帧为非语音帧,则判断差值与零的大小;若差值大于零,则将差值确定为语音增益值;若差值小于零,则将零确定为语音增益值。
其中,所述第一参数为语音总幅度值,第二参数为噪声幅度值,第三参数为限幅包络值,第四参数为语音概率。
其中,所述获取到语音信号的当前帧的步骤,包括:对输入的所述语音信号进行无重叠分帧处理,得到所述当前帧。
本申请还提供一种语音信号的自动增益控制装置,该自动增益控制装置包括:分帧模块,用于获取语音信号的当前帧;计算模块,与分帧模块耦接,用于基于当前帧的帧信号确定当前帧的多个参数;获取模块,与计算模块耦接,用于利用多级策略基于多个参数得到当前帧的语音增益值;限幅拉伸模块,与获取模块耦接,利用语音增益值对当前帧进行语音增益处理。
本申请还提供一种终端,该终端包括相互耦接的处理器和存储器,存储器用于存储程序指令,处理器用于执行存储器存储的程序指令以实现上述任一实施方式的自动增益控制方法。
本申请还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,用于实现上述任一实施方式的自动增益控制方法。
本申请的有益效果是:通过语音概率、限幅包络值、峰值、语音总幅度值、噪声幅度值等多个参数作为求取当前帧的语音增益值的基础,具有一定的鲁棒性,并结合多级策略得到的语音增益值能适用于复杂噪声场景,相较于单一参数获得语音增益值,具备更强的适用性。
附图说明
图1为本申请语音信号的自动增益控制方法一实施方式的流程示意图;
图2为图1中步骤S13一具体实施方式的流程示意图;
图3为本申请图2中步骤S21一具体实施方式的流程示意图;
图4为图2中步骤S22一具体实施方式的流程示意图;
图5为图2中步骤S23一具体实施方式的流程示意图;
图6为图2中步骤S24一具体实施方式的流程示意图;
图7为本申申请语音信号的自动增益控制装置一实施方式的结构示意图;
图8是本申请终端一实施方式的结构示意图;
图9是本申请存储介质一实施方式的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请提供一种语音信号的自动增益控制方法,请参阅图1,图1为本申请语音信号的自动增益控制方法一实施方式的流程示意图。如图1所示,包括:
步骤S11:获取到语音信号的当前帧。
具体地,对输入的语音信号进行无重复分帧处理,得到当前帧。
其中,语音信号为单通道时域信号。对输入的语音信号进行无重复分帧处理包括:对输入的单通道时域信号进行分帧处理,得到多个帧,每个帧包括多个语音样本点。在一实施方式中,按照时间阈值将单通道时域信号分成多个帧,例如,第一帧为0-T秒内的语音信号,第二帧为T-2T秒内的语音信号,依次类推,得到无重复的多个帧。
步骤S12:基于当前帧的帧信号确定当前帧的多个参数。
其中,当前帧的帧信号包括当前帧的语音总信号,即包括语音信号和噪声信号。当前帧的多个参数包括样本点峰值、样本点均值、语音概率、语音总幅度值(噪声和语音的总幅度值)、噪声幅度值以及限幅包络值等参数。
具体地,假设当前帧为第t帧,其中,t为正整数,当前帧的样本点峰值用
Figure BDA0003153502190000051
表示,基于当前帧的帧信号确定当前帧的样本点峰值的步骤包括:通过公式
Figure BDA0003153502190000052
计算得到当前帧的样本点峰值,其中,abs(x)表示绝对值运算,max(x)表示取最大值运算。
假设当前帧为第t帧,其中,t为正整数,当前帧的样本点均值用
Figure BDA0003153502190000053
表示,基于当前帧的帧信号确定当前帧的样本点均值的步骤包括:通过公式
Figure BDA0003153502190000054
计算得到当前帧的样本点均值,其中,N表示当前帧的样本点总数。
假设当前帧为第t帧,其中,t为正整数,当前帧的语音概率用pt表示,其中,语音概率pt表示第t帧是语音的概率,基于当前帧的帧信号确定当前帧的语音概率的步骤包括:从第t帧的语音信号中提取出语音特征信息,如梅尔倒谱系数,基音周期等特征信息,然后将提取出的语音特征信息送入神经网络进行训练得到第t帧的语音概率pt,其中,神经网络可为概率分布神经网络。
假设当前帧为第t帧,其中,t为正整数,当前帧的语音总幅度值用
Figure BDA0003153502190000055
表示,其中,语音总幅度值为
Figure BDA0003153502190000056
表示第t帧中的语音和噪声总幅度值,基于当前帧的帧信号确定当前帧的语音总幅度值的步骤包括:将语音概率pt作为加权系数得到第t+1帧的语音总幅度值
Figure BDA0003153502190000057
与第t帧的语音总幅度值之间的关系如下:
Figure BDA0003153502190000058
其中,βt+1=(1-pt)×βt+pt
Figure BDA00031535021900000512
取值为
Figure BDA0003153502190000059
或者
Figure BDA00031535021900000510
β0初始化为0。在本实施例中,可通过前一帧与当前帧的语音总幅度值的关系以及前一帧的语音概率计算当前语音总幅度值
Figure BDA00031535021900000511
假设当前帧为第t帧,其中,t为正整数,当前帧的噪声幅度值用
Figure BDA0003153502190000061
表示,基于当前帧的帧信号确定当前帧的噪声幅度值的步骤包括:获取到第t帧的能量
Figure BDA0003153502190000062
然后根据
Figure BDA0003153502190000063
是否为零,t是否为1以及
Figure BDA0003153502190000064
与阈值Er的大小关系进行多级判断最后得到
Figure BDA0003153502190000065
同时更新阈值Er,其中,阈值Er可通过用户根据实际需求进行设定。
假设当前帧为第t帧,其中,t为正整数,当前帧的限幅包络值用Lt表示,基于当前帧的帧信号确定当前帧的限幅包络值的步骤包括:对第一帧的限幅包络值进行初始化处理,并将第一帧的限幅包络值作为第一帧的最后一个样本点的幅度值,依次得到第二帧、以及第t帧的限幅包络值Lt,并将得到的第t帧的限幅包络值Lt更新为第t帧的最后一个样本点的语音总幅度值。其中,限幅是将语音信号超过预定门限值的所有瞬时值减弱至接近此门限值,限幅包络值是指语音总幅度值的门限值,可根据样本点的幅度值进行设定。
步骤S13:利用多级策略基于多个参数得到当前帧的语音增益值。
具体地,基于各个参数按照多级策略得到当前参数对应的多个子语音增益值,并利用多个子语音增益值确定最终的语音增益值。
其中,多级策略是指按照设定顺序依次对子语音增益值依次进行策略分析得到最终的语音增益值。
具体请进一步参阅图2,图2为图1中步骤S13一具体实施方式的流程示意图。如图2所示,包括:
步骤S21:基于当前帧的第一参数确定第一子语音增益值。
其中,第一参数是指当前帧的第一个参数,用于计算第一子语音增益值的参数。第一参数为语音总幅度值,包括语音幅度值和噪声幅度值。
具体地,为语音增益值设置第一门限值、第二门限值以及第三门限值,其中,第一门限值小于第二门限值小于第三门限值,第一门限值、第二门限值以及第三门限值可通过用户根据实际需求进行设定。具体包括:判断当前帧的第一参数与第一门限值、第二门限值以及第三门限值之间的大小关系;若响应于第一参数小于第一门限值,则将第一门限值确定为第一子语音增益值;若响应于第一参数大于第一门限值小于第二门限值,则将第二门限值与第一参数的差值确定为第一子语音增益值;若响应于第一参数大于第二门限值小于第三门限值,则将第三门限值与第一参数的差值确定为第一子语音增益值;若响应于第一参数大于第三门限值(即不在上述设定范围内),则将第一子语音增益值设置为固定值,在一实施方式中,固定值可设置为0,在其它实施方式中,可根据实际需求进行设置。其中,第一子语音增益值为当前帧(当前语音信号)的第一子语音增益值。
请进一步参阅图3,图3为本申请图2中步骤S21一具体实施方式的流程示意图。如图3所示,包括:
步骤,S31:响应于第一参数小于第一门限值,将第一门限值的绝对值确定为第一子语音增益值。
具体地,假设第一门限值为GM,第二门限值为GM1,第三门限值为GH。第一参数为当前帧的语音总幅度值
Figure BDA0003153502190000071
当前帧为第t帧。其中,GM、GM1、GH的单位为分贝(dB),GM、GM1、GH的取值均为负值。第一语音增益值为正值。
如果响应于
Figure BDA0003153502190000072
则当前帧的第一子语音增益值
Figure BDA0003153502190000073
步骤S32:响应于第一参数大于第一门限值且小于第二门限值,将第二门限值与第一参数的差值确定为第一子语音增益值。
如果响应于
Figure BDA0003153502190000074
则当前帧的第一子语音增益值
Figure BDA0003153502190000075
步骤S33:响应于第一参数大于第二门限值且小于第三门限值,将第三门限值与第一参数的差值确定为第一子语音增益值。
如果响应于
Figure BDA0003153502190000076
则当前帧的第一子语音增益值
Figure BDA0003153502190000077
步骤S34:响应于第一参数大于第三门限值,将固定值确定为第一子语音增益值。
如果响应于
Figure BDA0003153502190000078
不在上述范围内,则将
Figure BDA0003153502190000079
设置成固定值,一般设置为零,也可以设置其它值,在此不作限定。
得到第一子语音增益值后,基于多级策略对第一子语音增益值进行分析得到第二子语音增益值。
步骤S22:基于第一子语音增益值以及第二参数确定第二子语音增益值。
其中,第二参数为噪声幅度值。
在本实施例中,还为第二参数设置第二阈值,第二阈值为最大噪声幅度值,其中,最大噪声幅度值可通过用户自行设定,最大噪声幅度值是指整个单通道语音信号的最大噪声限幅值。
具体地请参阅图4,图4为图2中步骤S22一具体实施方式的流程示意图。如图4所示,包括:
步骤S41:获取第二参数与第二阈值的差值。
计算当前帧的第二参数与第二阈值之间的差值,并比较该差值与第一子语音增益值的大小。其中,最大噪声幅度值为ANT,当前帧的噪声幅度值
Figure BDA0003153502190000081
与最大噪声幅度值ANT之间的差值为
Figure BDA0003153502190000082
其中,ANT为负值。比较该差值
Figure BDA0003153502190000083
与第一子语音增益值
Figure BDA0003153502190000084
的大小。
步骤S42:响应于该差值大于第一子语音增益值,将该差值确定为第二子语音增益值。
如果
Figure BDA0003153502190000085
则第二子语音增益值
Figure BDA0003153502190000086
步骤S43:响应于该差值小于第一子语音增益值,将第一子语音增益值确定为第二子语音增益值。
如果
Figure BDA0003153502190000087
则第二子语音增益值
Figure BDA0003153502190000088
在本实施例中,第二子语音增益值取第一子语音增益值与该差值(当前帧的第二参数与第二阈值的差值)之间的较大值。
步骤S23:基于第二子语音增益值以及第三参数确定第三子语音增益值。
其中,第三参数为当前帧的限幅包络值。
在本实施例中,还为第三参数设置第三阈值,其中第三阈值为第三参数的最大阈值,为最大限幅包络值,可通过用户自行设定。
具体地,请参阅图5,图5为图2中步骤S23一具体实施方式的流程示意图。如图5所示,包括:
步骤S51:获取第三参数与第三阈值的差值。
其中,第三阈值为最大限幅包络值LM,可通过用户设定。计算当前帧的限幅包络值Lt与最大限幅包络值LM之间的差值为
Figure BDA0003153502190000091
步骤S52:响应于该差值大于第二子语音增益值,将该差值确定为第三子语音增益值。
如果
Figure BDA0003153502190000092
则第三子语音增益值
Figure BDA0003153502190000093
步骤S53:响应于该差值小于第二子语音增益值,将第二子语音增益值确定为第三子语音增益值。
如果
Figure BDA0003153502190000094
则第三子语音增益值
Figure BDA0003153502190000095
步骤S24:基于第三子语音增益值、前一帧的子语音增益值以及第四参数确定语音增益值。
其中,第四参数为语音概率。
具体请参阅图6,图6为图2中步骤S24一具体实施方式的流程示意图。如图5所示,包括:
步骤S61:获取第三子语音增益值与前一帧的第三子语音增益值的差值。
具体地,计算当前帧的第三子语音增益值
Figure BDA0003153502190000096
与前一帧的第三子语音增益值
Figure BDA0003153502190000097
之间的差值
Figure BDA0003153502190000098
步骤S62:若基于第四参数确定当前帧和前一帧为语音帧,则判断差值是否在预设阈值内。
具体包括,获取当前帧(第t帧)的语音概率pt,判断当前帧的语音概率pt是否大于预设的概率门限值pT,若pt>pT,则确定当前帧为语音帧,否则确定当前帧为非语音帧。
若前一帧与当前帧均为语音帧,即存在连续语音帧,则确定该差值gs是否在预设阈值内,其中,预设阈值是指用户预先设定的增益阈值,可根据需求进行设定,一般包括正负值,例如[-3,+3]、[-2,+5]等。在此步骤之前还包括获取预设阈值。
步骤S63:若在,则将差值确定为语音增益值。
若该差值gs在预设阈值内,则当前帧的语音增益值
Figure BDA0003153502190000099
步骤S64:若不在,则判断差值与零的大小。
步骤S65:若差值小于零,则将预设阈值内的最小值确定为语音增益值。
若gs<0,则当前帧的语音增益值
Figure BDA0003153502190000101
取预设阈值的最小值。
步骤S66:若差值大于零,则将预设阈值内的最大值确定为语音增益值。
若gs>0,则当前帧的语音增益值
Figure BDA0003153502190000102
取预设阈值的最大值。
例如预设阈值为[-3,+3],当计算的差值gs为-5时,则当前帧的语音增益值
Figure BDA0003153502190000103
取-3,当计算的差值gs为5时,则当前帧的语音增益值
Figure BDA0003153502190000104
取+3。
步骤S67:若基于第四参数确定当前帧和/或前一帧为非语音帧,则判断差值与零的大小。
其中,当前帧和/或前一帧为非语音帧包括:当前帧为非语音帧或前一帧为非语音帧以及当前帧和前一帧为非语音帧。
具体包括:pt>pT,pt-1<pT;或pt<pT,pt-1<pT;或pt<pT,pt-1<pT。即连续语音帧为0,不存在连续语音帧。并判断差值与零的大小关系。
步骤S68:若差值小于零,则将差值确定为语音增益值。
若gs<0,则当前帧的语音增益值
Figure BDA0003153502190000105
步骤S69:若差值大于零,则将零确定为语音增益值。
若gs>0,则当前帧的语音增益值
Figure BDA0003153502190000106
在本实施方式中,通过判断是否为连续语音帧以及增益值与零之间的大小来限定最终语音增益值,从而防止语音突变,提高了语音增益后的平整度。
需要说明的是,上述描述的“第一门限值”,“第二门限值”、“第三门限值”、“第二阈值”、“第三阈值”以及“预设阈值”的设定值可以相同也可以不同,彼此并不影响,具体可通过用户根据实际需求进行设定,在此不作限定。
步骤S14:利用语音增益值对当前帧进行语音增益处理。
具体地,将当前帧的语音增益值输入到当前帧的语音信号中,通过限幅拉伸处理得到增益后的当前帧语音。
本实施例的有益效果是:通过获取到语音信号的当前帧,基于当前帧的帧信号确定当前帧的多个参数,并利用多级策略基于多个参数得到当前帧的语音增益值,利用语音增益值对当前帧进行语音增益处理,提升用户对当前帧的语音信号的听感体验。通过上述方法,依次对不同的帧进行语音增益处理,从而提高单通道语音信号整体的听感,使在复杂环境下,也能清晰地听清增益后的语音。本实施例中通过语音概率、限幅包络值、峰值、语音总幅度值、噪声幅度值等多个参数作为求取当前帧的语音增益值的基础,相比于单一参数获得语音增益值,具有更好的鲁棒性。
本申请还提供一种语音信号的自动增益控制装置,请参阅图7,图7为本申请语音信号的自动增益控制装置一实施方式的结构示意图。如图7所示,自动增益控制装置70包括:分帧模块71,用于获取语音信号的当前帧,具体地,将单通道语音信号进行分帧处理,得到多个帧,当前帧为多个帧的某一帧。计算模块72,与分帧模块71耦接,基于当前帧的帧信号确定当前帧的多个参数。获取模块73,与计算模块72耦接,利用多级策略基于多个参数得到当前帧的语音增益值。限幅拉伸模块74,与获取模块73耦接,利用语音增益值对当前帧进行语音增益处理。
本申请还提供一种终端,请参阅图8,图8为本申请中终端一实施例结构示意图。
终端80包括相互耦接的处理器81和存储器82,处理器81用于执行存储器82存储的程序指令以实现上述任一方法实施例中的步骤或者上述任一方法实施例中语音信号的自动增益控制方法对应执行的步骤。该终端除包括上述处理器和存储器之外,还可根据需求包括触摸屏、打印组件、通信电路等,在此不做限定。
具体而言,处理器81用于控制其自身以及存储器82以实现上述任一色彩校正方法实施例中的步骤。处理器81还可以称为CPU(Central Processing Unit,中央处理单元)。处理器81可能是一种集成电路芯片,具有信号的处理能力。处理器81还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器81可以由多个集成电路芯片共同实现。
本申请还提供一种计算机可读存储介质,请参阅图9,图9为一种计算机可读存储介质90一实施方式的结构示意图。
计算机可读存储介质90包括其上存储的计算机程序901,计算机程序901被上述处理器执行时实现上述任一方法实施例中的步骤或者上述方法实施例中语音信号的自动增益控制方法对应执行的步骤。
具体地,集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质90中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质90中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (13)

1.一种语音信号的自动增益控制方法,其特征在于,所述语音信号的自动增益控制方法包括:
获取到语音信号的当前帧;
基于所述当前帧的帧信号确定所述当前帧的多个参数;
利用多级策略基于所述多个参数得到所述当前帧的语音增益值;
利用所述语音增益值对所述当前帧进行语音增益处理。
2.根据权利要求1所述的自动增益控制方法,其特征在于,所述利用多级策略基于所述多个参数得到所述当前帧的语音增益值的步骤,包括:
基于各个所述参数按照所述多级策略得到所述当前帧对应的多个子语音增益值,并利用所述多个子语音增益值确定所述语音增益值。
3.根据权利要求2所述的自动增益控制方法,其特征在于,所述基于各个所述参数按照所述多级策略得到所述当前帧对应的多个子语音增益值,并利用所述多个子语音增益值确定所述语音增益值的步骤,包括:
基于所述当前帧的第一参数确定第一子语音增益值;
基于所述第一子语音增益值以及第二参数确定第二子语音增益值;
基于所述第二子语音增益值以及第三参数确定第三子语音增益值;
基于所述第三子语音增益值、前一帧的第三子语音增益值以及第四参数确定所述语音增益值。
4.根据权利要求3所述的自动增益控制方法,其特征在于,所述基于所述当前帧的第一参数确定第一子语音增益值的步骤,包括:
响应于所述第一参数小于第一门限值,将所述第一门限值的绝对值确定为所述第一子语音增益值;
响应于所述第一参数大于所述第一门限值且小于第二门限值,将所述第二门限值与所述第一参数的差值确定为所述第一子语音增益值;
响应于所述第一参数大于所述第二门限值且小于第三门限值,将所述第三门限值与所述第一参数的差值确定为所述第一子语音增益值;
响应于所述第一参数大于所述第三门限值,将固定值确定为所述第一子语音增益值;
其中,所述第一门限值小于所述第二门限值小于所述第三门限值。
5.根据权利要求3所述的自动增益控制方法,其特征在于,所述基于所述第一子语音增益值以及第二参数确定第二子语音增益值的步骤,包括:
获取所述第二参数与第二阈值的差值;
响应于所述差值大于所述第一子语音增益值,将所述差值确定为所述第二子语音增益值;
响应于所述差值小于所述第一子语音增益值,将所述第一子语音增益值确定为所述第二子语音增益值。
6.根据权利要求3所述的自动增益控制方法,其特征在于,所述基于所述第二子语音增益值以及第三参数确定第三子语音增益值的步骤,包括:
获取所述第三参数与第三阈值的差值;
响应于所述差值大于所述第二子语音增益值,将所述差值确定为所述第三子语音增益值;
响应于所述差值小于所述第二子语音增益值,将所述第二子语音增益值确定为所述第三子语音增益值。
7.根据权利要求3所述的自动增益控制方法,其特征在于,所述基于所述第三子语音增益值、前一帧的第三子语音增益值以及第四参数确定所述语音增益值的步骤,包括:
获取所述第三子语音增益值与所述前一帧的第三子语音增益值的差值;
基于所述差值以及所述第四参数确定所述语音增益值。
8.根据权利要求7所述的所述的自动增益控制方法,其特征在于,所述基于所述差值以及所述第四参数确定所述语音增益值的步骤,包括:
若基于所述第四参数确定所述当前帧和所述前一帧为语音帧,则判断所述差值是否在预设阈值内;
若在,则将所述差值确定为所述语音增益值;
若不在,则判断所述差值与零的大小;
若所述差值小于零,则将所述预设阈值内的最小值确定为所述语音增益值;
若所述差值大于零,则将所述预设阈值内的最大值确定为所述语音增益值;
若基于所述第四参数确定所述当前帧和/或所述前一帧为非语音帧,则判断所述差值与零的大小;
若所述差值大于零,则将所述差值确定为所述语音增益值;
若所述差值小于零,则将零确定为所述语音增益值。
9.根据权利要求1-8任一项所述的自动增益控制方法,其特征在于,所述第一参数为语音总幅度值,第二参数为噪声幅度值,第三参数为限幅包络值,第四参数为语音概率。
10.根据权利要求1所述的自动增益控制方法,其特征在于,所述获取到语音信号的当前帧的步骤,包括:
对输入的所述语音信号进行无重叠分帧处理,得到所述当前帧。
11.一种语音信号的自动增益控制装置,其特征在于,所述自动增益控制装置包括:
分帧模块,用于获取语音信号的当前帧;
计算模块,与所述分帧模块耦接,用于基于所述当前帧的帧信号确定所述当前帧的多个参数;
获取模块,与所述计算模块耦接,用于利用多级策略基于所述多个参数得到所述当前帧的语音增益值;
限幅拉伸模块,与所述获取模块耦接,利用所述语音增益值对所述当前帧进行语音增益处理。
12.一种终端,其特征在于,所述终端包括相互耦接的处理器和存储器,所述存储器用于存储有程序指令,所述处理器用于执行存储器存储的程序指令以实现上述权利要求1~10任一项所述的自动增益控制方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,用于实现权利要求1~10任一项所述的自动增益控制方法。
CN202110771229.5A 2021-07-08 2021-07-08 一种语音信号的自动增益控制方法及其相关装置 Pending CN113470691A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110771229.5A CN113470691A (zh) 2021-07-08 2021-07-08 一种语音信号的自动增益控制方法及其相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110771229.5A CN113470691A (zh) 2021-07-08 2021-07-08 一种语音信号的自动增益控制方法及其相关装置

Publications (1)

Publication Number Publication Date
CN113470691A true CN113470691A (zh) 2021-10-01

Family

ID=77878998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110771229.5A Pending CN113470691A (zh) 2021-07-08 2021-07-08 一种语音信号的自动增益控制方法及其相关装置

Country Status (1)

Country Link
CN (1) CN113470691A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114582365A (zh) * 2022-05-05 2022-06-03 阿里巴巴(中国)有限公司 音频处理方法和装置、存储介质和电子设备

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6768801B1 (en) * 1998-07-24 2004-07-27 Siemens Aktiengesellschaft Hearing aid having improved speech intelligibility due to frequency-selective signal processing, and method for operating same
CN101009099A (zh) * 2007-01-26 2007-08-01 北京中星微电子有限公司 数字自动增益控制方法及装置
US20080184871A1 (en) * 2005-02-10 2008-08-07 Koninklijke Philips Electronics, N.V. Sound Synthesis
CN104021796A (zh) * 2013-02-28 2014-09-03 华为技术有限公司 语音增强处理方法和装置
US9171552B1 (en) * 2013-01-17 2015-10-27 Amazon Technologies, Inc. Multiple range dynamic level control
US20160372133A1 (en) * 2015-06-17 2016-12-22 Nxp B.V. Speech Intelligibility
CN106992003A (zh) * 2017-03-24 2017-07-28 深圳北斗卫星信息科技有限公司 语音信号自动增益控制方法
KR20180047316A (ko) * 2016-10-31 2018-05-10 광운대학교 산학협력단 Ptt 기반 음성 명료성 향상 장치 및 방법
CN108573709A (zh) * 2017-03-09 2018-09-25 中移(杭州)信息技术有限公司 一种自动增益控制方法及装置
CN110650410A (zh) * 2019-09-11 2020-01-03 厦门亿联网络技术股份有限公司 一种麦克风自动增益控制方法、装置及存储介质
CN110660408A (zh) * 2019-09-11 2020-01-07 厦门亿联网络技术股份有限公司 一种数字自动控制增益的方法和装置
CN110739005A (zh) * 2019-10-28 2020-01-31 南京工程学院 一种面向瞬态噪声抑制的实时语音增强方法
CN111986694A (zh) * 2020-09-01 2020-11-24 平安科技(深圳)有限公司 基于瞬态噪声抑制的音频处理方法、装置、设备及介质
CN112242147A (zh) * 2020-10-14 2021-01-19 福建星网智慧科技有限公司 一种语音增益控制方法及计算机存储介质
CN112669878A (zh) * 2020-12-23 2021-04-16 北京声智科技有限公司 声音增益值的计算方法、装置和电子设备

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6768801B1 (en) * 1998-07-24 2004-07-27 Siemens Aktiengesellschaft Hearing aid having improved speech intelligibility due to frequency-selective signal processing, and method for operating same
US20080184871A1 (en) * 2005-02-10 2008-08-07 Koninklijke Philips Electronics, N.V. Sound Synthesis
CN101009099A (zh) * 2007-01-26 2007-08-01 北京中星微电子有限公司 数字自动增益控制方法及装置
US9171552B1 (en) * 2013-01-17 2015-10-27 Amazon Technologies, Inc. Multiple range dynamic level control
CN104021796A (zh) * 2013-02-28 2014-09-03 华为技术有限公司 语音增强处理方法和装置
US20160372133A1 (en) * 2015-06-17 2016-12-22 Nxp B.V. Speech Intelligibility
KR20180047316A (ko) * 2016-10-31 2018-05-10 광운대학교 산학협력단 Ptt 기반 음성 명료성 향상 장치 및 방법
CN108573709A (zh) * 2017-03-09 2018-09-25 中移(杭州)信息技术有限公司 一种自动增益控制方法及装置
CN106992003A (zh) * 2017-03-24 2017-07-28 深圳北斗卫星信息科技有限公司 语音信号自动增益控制方法
CN110650410A (zh) * 2019-09-11 2020-01-03 厦门亿联网络技术股份有限公司 一种麦克风自动增益控制方法、装置及存储介质
CN110660408A (zh) * 2019-09-11 2020-01-07 厦门亿联网络技术股份有限公司 一种数字自动控制增益的方法和装置
EP3792918A1 (en) * 2019-09-11 2021-03-17 Yealink (Xiamen) Network Technology Co., Ltd. Digital automatic gain control method and apparatus
CN110739005A (zh) * 2019-10-28 2020-01-31 南京工程学院 一种面向瞬态噪声抑制的实时语音增强方法
CN111986694A (zh) * 2020-09-01 2020-11-24 平安科技(深圳)有限公司 基于瞬态噪声抑制的音频处理方法、装置、设备及介质
CN112242147A (zh) * 2020-10-14 2021-01-19 福建星网智慧科技有限公司 一种语音增益控制方法及计算机存储介质
CN112669878A (zh) * 2020-12-23 2021-04-16 北京声智科技有限公司 声音增益值的计算方法、装置和电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PHYU P.KHING.ETAL: "PREDICTING THE EFFECT OF AGC ON SPEECH INTELLIGIBILITY OF COCHLEAR IMPLANT RECIPIENTS IN NOISE", IEEE XPLORE, 21 October 2013 (2013-10-21) *
许芳芳等: "用于语音处理的变步长LMS 自适应增益控制新方案", 信号处理, vol. 37, no. 3, 31 March 2021 (2021-03-31) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114582365A (zh) * 2022-05-05 2022-06-03 阿里巴巴(中国)有限公司 音频处理方法和装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
US20210327448A1 (en) Speech noise reduction method and apparatus, computing device, and computer-readable storage medium
CN109036460B (zh) 基于多模型神经网络的语音处理方法和装置
JP5089772B2 (ja) 音声活動を検出するための装置および方法
EP1538603A2 (en) Noise reduction apparatus and noise reducing method
CN112004177B (zh) 一种啸叫检测方法、麦克风音量调节方法及存储介质
US8924199B2 (en) Voice correction device, voice correction method, and recording medium storing voice correction program
CN108806707B (zh) 语音处理方法、装置、设备及存储介质
EP3792918B1 (en) Digital automatic gain control method and apparatus
EP4189677B1 (en) Noise reduction using machine learning
US20090316929A1 (en) Sound capture system for devices with two microphones
US11335332B2 (en) Trigger to keyword spotting system (KWS)
CN111341333B (zh) 噪声检测方法、噪声检测装置、介质及电子设备
CN110503973B (zh) 音频信号瞬态噪音抑制方法、系统以及存储介质
CN113470691A (zh) 一种语音信号的自动增益控制方法及其相关装置
CN111048118A (zh) 一种语音信号处理方法、装置及终端
CN109960484B (zh) 一种音频音量获取方法及装置、存储介质、终端
EP3803861B1 (en) Dialog enhancement using adaptive smoothing
CN112289337A (zh) 一种滤除机器学习语音增强后的残留噪声的方法及装置
CN111243631B (zh) 一种自动增益控制方法及电子设备
US10600432B1 (en) Methods for voice enhancement
CN113409812B (zh) 一种语音降噪训练数据的处理方法及其装置、训练方法
US20230402050A1 (en) Speech Enhancement
CN117079657B (zh) 压限处理方法、装置、电子设备及可读存储介质
CN118072754A (zh) 音频信号的风噪抑制方法、系统、设备及存储介质
JP5902913B2 (ja) ミキシングバランス自動調整装置およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination