CN112669872A - 一种音频数据的增益方法及装置 - Google Patents

一种音频数据的增益方法及装置 Download PDF

Info

Publication number
CN112669872A
CN112669872A CN202110283814.0A CN202110283814A CN112669872A CN 112669872 A CN112669872 A CN 112669872A CN 202110283814 A CN202110283814 A CN 202110283814A CN 112669872 A CN112669872 A CN 112669872A
Authority
CN
China
Prior art keywords
gain parameter
gain
determining
current frame
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110283814.0A
Other languages
English (en)
Other versions
CN112669872B (zh
Inventor
张奇
杨国全
廖焕柱
王克彦
曹亚曦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Huachuang Video Signal Technology Co Ltd
Original Assignee
Zhejiang Huachuang Video Signal Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Huachuang Video Signal Technology Co Ltd filed Critical Zhejiang Huachuang Video Signal Technology Co Ltd
Priority to CN202110283814.0A priority Critical patent/CN112669872B/zh
Publication of CN112669872A publication Critical patent/CN112669872A/zh
Application granted granted Critical
Publication of CN112669872B publication Critical patent/CN112669872B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

本发明公开一种音频数据的增益方法及装置,包括:根据待处理音频数据中当前帧的时域数据,确定所述当前帧对应的第一频域数据;根据所述第一频域数据,确定所述当前帧对应的实际响度指数;根据预设的目标幅值数据,确定目标响度指数;将所述目标响度指数和所述实际响度指数的比值确定为第二增益参数;根据所述第二增益参数,确定所述第一增益参数;利用所述第一增益参数和所述第一频域数据,确定所述当前帧对应的第二频域数据,并根据第一增益参数对于第一频域数据直接进行增益处理,实现了对于待处理音频数据的响度调整;针对频域数据进行增益处理,可以更准确的控制增益后得到的音量,因此可在播放过程中达到理想的听觉效果。

Description

一种音频数据的增益方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种音频数据的增益方法及装置。
背景技术
音频数据主要是由麦克风拾音采集的信号数据,常用来表现人声。在一些多人对话的场景下,麦克风可能处于固定位置,而场景中不同人员相对于麦克风的距离各不相同。所以在不同人员讲话的过程中,麦克风采集到的音频数据强度会有所不同。这导致了在音频数据播放过程中,不同距离人员的音量差别明显,听觉效果不理想。
原始的音频数据是时域数据。现有技术中,可对于强度较弱的原始音频数据直接进行增益,以提高其在播放过程中的音量。但是对原始音频数据进行增益的缺陷是,无法准确控制增益后的音频数据的实际播放音量,所以听觉上依然未达到理想的效果。
发明内容
本发明提供一种音频数据的增益方法及装置,以至少解决现有技术中存在的以上技术问题。
第一方面,本发明提供一种音频数据的增益方法,包括:
根据待处理音频数据中当前帧的时域数据,确定所述当前帧对应的第一频域数据;
根据所述第一频域数据,确定所述当前帧对应的实际响度指数;
根据预设的目标幅值数据,确定目标响度指数;
将所述目标响度指数和所述实际响度指数的比值确定为第二增益参数;
根据所述第二增益参数,确定第一增益参数;
利用所述第一增益参数和所述第一频域数据,确定所述当前帧对应的第二频域数据。
优选的,所述根据所述第一频域数据,确定所述当前帧对应的实际响度指数包括:
确定所述第一频域数据中,各频点的能量数据;
根据各所述能量数据,和各所述频点对应的响度参数,确定各所述频点的响度数据;
根据各所述频点的响度数据,确定所述第一频域数据对应的实际响度指数。
优选的,所述根据所述第二增益参数,确定所述第一增益参数包括:
当所述第二增益参数大于预设的第一增益限值,将所述第一增益限值确定为所述第一增益参数;
当所述第二增益参数小于所述第一增益限值,将所述第二增益参数确定为所述第一增益参数。
优选的,所述根据所述第二增益参数,确定所述第一增益参数包括:
当所述第二增益参数大于基于能量限值确定的第二增益限值,将所述第二增益限值确定为所述第一增益参数;
当所述第二增益参数小于所述第二增益限值,将所述第二增益参数确定为所述第一增益参数。
优选的,还包括:根据所述第二增益参数和所述第一增益限值确定所述第一增益参数之后,根据所述第二增益限值对所述第一增益参数进行调整。优选的,所述根据所述第二增益参数,确定所述第一增益参数包括:
确定所述第二增益参数相对于先前帧的第三增益参数的增量数值;
当所述增量数值满足预设条件,根据预设的第一增量控制策略对所述第二增益参数进行处理,以确定所述第一增益参数。
优选的,所述根据所述第二增益参数,确定所述第一增益参数包括:
当所述当前帧为过渡帧,根据预设的第二增量控制策略对所述第二增益参数进行处理,以确定所述第一增益参数。
优选的,还包括:
判断所述当前帧的声波频率是否处于预设频率范围的边缘范围;
当所述当前帧处于预设频率范围的边缘范围,将所述当前帧确定为所述过渡帧。
第二方面,本发明提供一种音频数据的增益装置,包括:
第一频域数据确定模块,用于根据待处理音频数据中当前帧的时域数据,确定所述当前帧对应的第一频域数据;
实际响度指数确定模块,用于根据所述第一频域数据,确定所述当前帧对应的实际响度指数;
目标响度指数确定模块,用于根据预设的目标幅值数据,确定目标响度指数;
第二增益参数确定模块,用于将所述目标响度指数和所述实际响度指数的比值确定为第二增益参数;
第一增益参数确定模块,用于根据所述第二增益参数,确定所述第一增益参数;
第二频域数据确定模块,用于利用所述第一增益参数和所述第一频域数据,确定所述当前帧对应的第二频域数据。
第三方面,本发明提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本发明所述的音频数据的增益方法。
第四方面,本发明提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本发明所述的音频数据的增益方法。
与现有技术相比,本发明提供的一种音频数据的增益方法及装置,利用第一频域数据计算得到第一增益参数,并根据第一增益参数对于第一频域数据直接进行增益处理,实现了对于待处理音频数据的响度调整;针对频域数据进行增益处理,可以更准确的控制增益后得到的音量,因此可在播放过程中达到理想的听觉效果;避免了对时域数据进行增益,无法准确控制增益后的音频数据的实际播放音量,且破坏音频数据的完整性的问题。
附图说明
图1为本发明一实施例提供的一种音频数据的增益方法的流程示意图;
图2为本发明一实施例提供的另一种音频数据的增益方法的流程示意图;
图3为本发明一实施例提供的一种音频数据的增益装置的结构示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
申请概述
原始的音频数据通常是时域数据,即是体现声波的时间-幅值二维关系的数据。现有的音频数据增益方案,通常是直接对于原始音频数据(即时域数据)进行增益。例如在远程会议场景当中,可能存在某个人员距离麦克风较远,所以麦克风采集其语音得到的音频数据强度较弱。若正常播放,则其音量会相对较低。此时对于该音频数据(时域数据)进行增益,可以自动提高音该频数据的播放音量。从而能使得与麦克风不同距离的各人员的语音播放音量,在听觉上更加均衡,由此提高语音播放的听觉效果。
但是由于上述方式是对于时域数据进行增益,而时域数据与听觉上的“音量”或“响度”等特点关联性较低;所以通过增益时域数据,很难准确控制增益后的音频数据的实际播放音量。在一些情况下,经过类似的增益处理之后,不同强度的音频数据在音量仍然存在一定程度的差异,听觉效果并不理想。而且在一些情况下,由于增益处理会导致时域数据在数据形态上失真,从而破坏音频数据的完整性,影响后续的各类音频数据处理。
示例性方法
因此,本发明实施例将提供一种音频数据的增益方法,以至少解决现有技术中存在的以上技术问题。如图1所示,本实施例中方法包括以下步骤:
步骤101、根据待处理音频数据中当前帧的时域数据,确定当前帧对应的第一频域数据。
待处理音频数据,即是通过麦克风采集特定人员语音得到的音频数据。基于前述可知的是,假设不同人员发出类似响度的语音(即以类似的音量讲话),则显然距离麦克风采集距离较近的人员语音得到的音频数据强度较高,实际播放的响度更大;反之麦克风采集距离较远的人员语音得到的音频数据强度较弱,实际播放响度更小。
本实施例中,主要是对于强度较弱的待处理音频数据进行适当的正向增益,以提高其播放响度。当然在另一些情况下,亦可对于强度过高的待处理音频数据进行适当的反向增益。正向增益与反向增益在原理上不存在区别。
麦克风直接采集得到的待处理音频数据,本质上是一种时域数据,也就是体现声波的时间-幅值二维关系的数据。例如麦克风采集到一段时长为5秒的语音,则相应的时域数据便体现了5秒内声波幅值随时间的变化情况。在此基础上,可将待处理音频数据进行分帧处理,即以一个较短的时长(例如10毫秒)为单位,将待处理音频数据拆分为若干音频帧。本实施例中将逐一的对音频帧进行分析,并将满足一定条件的音频帧进行相关的增益处理。所以本实施例中,将当前正在进行分析和处理的音频帧称为当前帧。
也就是说,原始得到的当前帧是待处理音频数据拆分得到的一部分,即同为时域数据。前述内容指出,本实施例要解决的技术问题是,直接对时域数据进行增益,无法准确控制增益后的音频数据的实际播放音量,且破坏音频数据的完整性。所以本实施例中不对于当前帧的时域数据直接进行增益,而是首先将其变换为频域数据。频域数据就是体现声波的频率-幅值二维关系的数据。例如,频域数据中可以包括相应语音涉及的频率范围内的若干频点,并且每个频点有对应的幅值数据。
具体的,可对于当前帧的时域数据进行傅里叶变换,以得到对应的第一频域数据。该傅里叶变换的过程属于本领域公知的技术手段,在此不赘述。
步骤102、根据第一频域数据,确定当前帧对应的实际响度指数。
在声学领域中可以认为,频域数据与听觉上的“音量”或“响度”等特点关联性较强。所以在本实施例中,针对频域数据进行增益处理,可以更准确的控制增益后得到的音量效果。具体的,可根据第一频域数据确定当前帧的实际响度指数。该实际响度指数,反应了当前帧在实际播放过程中会体现的听觉上的“音量”或“响度”。
具体的,可以确定第一频域数据中,各频点的能量数据。某个频点的能量数据,代表了声波在该频点上所含的能量。在一些情况下,可将频点上频率与幅值的乘积,确定为该频点的能量数据。也可将能量数据表示为E(f)。其中f代表频率,E代表能量函数。
声波中的能量与听觉上的响度有着明确的关联关系。不过将能量数据转换成响度数据的过程中,还需借助响度参数。能量数据与响度数据的具体转换关系同样受到频率的影响,而非直观的线性变化。所以本实施例中,响度参数可以表示为w(f)。其中f代表频率,w代表参数函数,即意味着w(f)就是频点频率为f的情况下的响度参数。该参数函数可根据实际需求和经验进行设定,在此不对其具体的函数关系进行限定。
进一步的,根据各频点的能量数据和响度参数,即可确定各频点的响度数据。响度数据可以表示为L(f)=F(E(f)* w(f))。其中,L(f)表示频点频率为f的情况下的响度数据;F表示转换函数。本实施例中,不对该转换函数的函数关系进行限定,任何能够实现相同或类似效果的计算方式,均可结合在本实施例整体方案中。
确定了每个频点的响度数据后,可根据各频点的响度数据,确定第一频域数据对应的实际响度指数,也就是当前帧的实际响度指数。具体的,可将各个响度数据叠加,以得到实际响度指数。假设第一频域数据中包括f1、f2、f3共3个频点,则相应的响度数据分别为L(f1)、L(f2)和L(f3)。则实际响度指数L= L(f1)+L(f2)+L(f3)。
步骤103、根据预设的目标幅值数据,确定目标响度指数。
目标响度指数,是本实施例中期望通过增益,而使得当前帧在实际播放中达到的音量。目标响度指数可以以L’来表示,且可以根据实际场景中对于音量的需求来进行设定和调整。
在一些实际场景中,由于“响度指数”属于音频数据的中间指标,所以往往不便于直接设定目标响度指数的具体数值。本实施例中,将预先设置目标幅值数据,即设定增益后的待处理音频数据期望达到的幅值。由于幅值是音频数据中可直接体现的参量,所以针对幅值进行设定将更为直观方便。
然后根据相应的声学规律,可以将预设的目标幅值数据换算为目标响度指数。对于具体的计算过程,本实施例中不做限定,任何能够实现相同或类似效果的算法,均可结合在本实施例整体技术方案当中。
步骤104、将目标响度指数和实际响度指数的比值确定为第二增益参数。
假设所有语音对应的待处理音频数据,在实际播放中音量均与目标响度指数相符,则意味着实现了通过增益达到听觉上的理想状态。所以本实施例中,可计算每个音频帧对应的增益参数,并进行增益处理。本实施例中,考虑到增益处理过程中可能需进行一定的增益限制处理,所以根据目标响度指数和实际响度指数确定为第二增益参数。后续可根据实际情况对于第二增益参数进行进一步优化处理,以确定第一增益参数。
具体的,可将目标响度指数和当前帧的实际响度指数的比值,确定为第二增益参数。再对于第二增益参数进行一定处理,从而进一步的确定第一增益参数。第二增益参数可以以G2表示,即G2=L’/L。
步骤105、根据第二增益参数,确定第一增益参数。
本实施例中,具体可通过如下的几种方式,实现根据第二增益参数确定第一增益参数的过程:
可预先设定第一增益限值,该第一增益限值以Gmax表示。第一增益限值代表了增益参数的数值上限,通过限定增益参数的数值上限可避免增益幅度过大,从而造成不良的听觉体验,或者对于音频数据的内容产生影响。
此时,根据第二增益参数确定第一增益参数的过程可以是,当第二增益参数大于第一增益限值,将第一增益限值确定为第一增益参数。当第二增益参数小于第一增益限值,将第二增益参数确定为第一增益参数。即当G2>Gmax,G1=Gmax;当G2<Gmax,G1=G2。其中,G1代表本实施例中的第一增益参数。
在另一些情况下,需避免增益后的音频数据音量过大,超出正常的听觉接受范围。此时可预先设定能量限值,即认为当前帧在进行增益后,其含有的声波能量不可超过该能量限值,否则便超出听觉接受范围。能量限值以Emax表示。当前帧在增益前实际含有的声波能量,可通过叠加各频点的能量数据得到。假设第一频域数据中包括f1、f2、f3共3个频点,则相应的能量数据分别为E(f1)、E(f2)和E(f3)。当前帧增益前实际含有的声波能量E=E(f1)+E(f2)+E(f3)。进而可确定第二增益限值GE=Emax/E。
此时,根据第二增益参数确定第一增益参数的过程可以是,当第二增益参数大于第二增益限值,将第二增益限值确定为第一增益参数。当第二增益参数小于第二增益限值,将第二增益参数确定为第一增益参数。即当G2>GE,G1=GE;当G2<GE,G1=G2。其中,G1代表本实施例中的第一增益参数。
还需说明的是,在上述的情况下,第一增益限值主要是应用在对“语音”进行增益的初期,即“语音”刚刚开始的一段时间内。此时可能“语音”的实际音量较小,所以根据第一增益限值进行增益之后,其音量也不会超出正常的听觉接受范围。
而第二增益限值主要是应用在对“语音”进行增益的中后期阶段。即“语音”已经开始一段时间之后,其音量达到相对最高的范围内。此时若根据第一增益限值进行增益,其音量则有可能超出正常的听觉接受范围,所以可以进一步的采用第二增益限值进行进一步的调整。即根据第二增益参数和第一增益限值确定第一增益参数之后,根据第二增益限值对第一增益参数进行调整。
当然,上述仅仅描述了一种对于第一增益限值和第二增益限值相结合应用的方式。在其他情况下,也可对二者进行单独应用,或采用其他方式结合应用,在此不做限定。
还有一些情况下,需要在增益过程中通过处理,使得音量的增加或减小尽可能平滑,避免音量的突变造成不良的听觉体验。具体的可将第二增益参数与先前帧的增益参数(即第三增益参数)进行对比,确定第二增益参数第三增益参数的增量数值。其中,该先前帧可以是当前帧的前一个或前若干个音频帧,第三增益参数则是对于先前帧实际进行增益处理所利用的增益参数。第三增益参数可以以G3表示。此时,增量数值ΔG=G2-G3。
当增量数值ΔG满足特定的预设条件,例如当连续的两个音频帧对应的增量数值ΔG均高于特定数值,说明此时增益导致音量的变化过于突然,或者说是音量增加或减小的“加速度”过大,不利于实际听觉体验。所以可根据预设的第一增量控制策略对第二增益参数进行处理,以确定第一增益参数。例如,可通过第一增量控制策略适当的降低第二增益参数G2的数值,得到第一增益参数G1。数值降低后的第一增益参数G1与第三增益参数G3接近,即相当于使得增量数值ΔG趋近于0,也就是降低了音量增加或减小的“加速度”,可使得音量变化更加平滑。本实施例中,对于通过第一增量控制策略对第二增益参数进行调整的具体方式不做限定,任何能够实现相同或类似效果的算法,均可结合在本实施例整体技术方案当中。
步骤106、利用第一增益参数和第一频域数据,确定当前帧对应的第二频域数据。
在确定了第一增益参数之后,即可利用其对于第一频域数据进行增益处理。具体的,可以以第一增益参数作为系数与第一频域数据相乘,以使第一频域数据等比例增大或缩小,即确定当前帧对应的第二频域数据。第二频域数据,即是增益处理后得到的当前帧的频域数据。
可见,当目标响度指数大于实际响度指数,说明实际播放音量较低,此时第一增益参数G1>1。也就是说,通过第一增益参数可进行正向增益,提高当前帧的实际播放音量。反之,当目标响度指数小于实际响度指数,说明实际播放音量较高,此时第一增益参数G1<1。也就是说,通过第一增益参数可进行反向增益,降低当前帧的实际播放音量。
确定了第二频域数据,可将其进一步的转换成可播放的数据形式,以便于进行实际播放。例如,通过傅里叶逆变换将其重新转换成时域数据的形态。各增益处理之后的音频帧,可重新组成目标音频数据,即实现了对于待处理音频数据的响度调整,以在播放过程中达到理想的听觉效果,使得与麦克风不同距离的人员语音,能够自动的以相近音量进行播放。
通过以上技术方案可知,本实施例存在的有益效果是:利用第一频域数据计算得到第一增益参数,并根据第一增益参数对于第一频域数据直接进行增益处理,实现了对于待处理音频数据的响度调整;针对频域数据进行增益处理,可以更准确的控制增益后得到的音量,因此可在播放过程中达到理想的听觉效果;避免了对时域数据进行增益,无法准确控制增益后的音频数据的实际播放音量,且破坏音频数据的完整性的问题。
图1所示仅为本发明所述方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到所述方法的其他优选实施例。
如图2所示,为本发明所述音频数据的增益方法的另一个具体实施例。本实施例在前述实施例的基础上,进行进一步拓展。所述方法具体包括以下步骤:
步骤201、根据待处理音频数据中当前帧的时域数据,确定当前帧对应的第一频域数据。
步骤202、根据第一频域数据,确定当前帧对应的实际响度指数。
步骤203、根据预设的目标幅值数据,确定目标响度指数。
步骤204、将目标响度指数和实际响度指数的比值确定为第二增益参数。
步骤205、当当前帧为过渡帧,根据预设的第二增量控制策略对第二增益参数进行处理,以确定第一增益参数。
本实施例中将基于语音端点检测技术,判断当前帧是否为过渡帧。具体的,可以是判断所述当前帧的声波频率是否处于预设频率范围的边缘范围;当所述当前帧处于预设频率范围的边缘范围,将所述当前帧确定为所述过渡帧。预设频率范围,即是通常代表“语音”的声波覆盖的频率范围。而预设频率范围的边缘范围,可认为代表了语音信号的端点位置。通过语音端点检测,可以判断当前帧是否位于语音信号的端点位置,即判断其是否处于代表“语音”的音频数据刚刚结束,而代表“噪声”的音频数据即将开始的位置。具体的,可通过分析当前帧的声波频率,判断其是否可能处于“语音”的常规频率的边缘范围,从而实现语音端点检测。本实施例中可采用现有技术中的端点检测技术确定过度帧,在此不赘述。假设通过分析认为,当前帧的前一帧代表“语音”,而当前帧代表“噪声”,即可将当前帧定义为过渡帧,同时亦可以将当前帧之后的若干音频帧均定义为过渡帧。
也就是说,过渡帧意味着某个人员的“语音”结束,则显然针对该人员的“语音”所进行的增益也将结束。则本实施例中为了使得此时的播放音量可以平滑递减,则需在上述的若干个过渡帧之内,逐渐将增益参数递减为1。
例如,本实施例中确定当前帧和其后的两个音频帧为过渡帧,即定义了3个过渡帧,则可根据预设的第二增量控制策略对此3个过渡帧对应的第二增益参数进行处理。具体的,假设3个过渡帧对应的第二增益参数均为1.3。即意味着正常情况应当对每帧的增益30%(即(1.3-1)%)。通过第二增量控制策略可使得上述3个过渡帧对应的第二增益参数的逐渐递减,以确定相应的第一增益参数。本实施例中,3个过渡帧对应的第一增益参数分别为1.2、1.1及1。即递减之后,最后一个过渡帧对应的第一增益参数数值调整为1,增益效果消失。
步骤206、利用第一增益参数和第一频域数据,确定当前帧对应的第二频域数据。
上述步骤201~步骤204,以及步骤206中内容与前述实施例一致,在此不重复叙述。
示例性装置
如图3所示,为本发明所述音频数据的增益装置的一个具体实施例。本实施例装置,即用于执行图1-图2所述方法的实体装置。其技术方案本质上与上述实施例一致,上述实施例中的相应描述同样适用于本实施例中。本实施例中装置包括:
第一频域数据确定模块301,用于根据待处理音频数据中当前帧的时域数据,确定所述当前帧对应的第一频域数据。
实际响度指数确定模块302,用于根据所述第一频域数据,确定所述当前帧对应的实际响度指数。
目标响度指数确定模块303,用于根据预设的目标幅值数据,确定目标响度指数。
第二增益参数确定模块304,用于将所述目标响度指数和所述实际响度指数的比值确定为第二增益参数。
第一增益参数确定模块305,用于根据所述第二增益参数,确定所述第一增益参数。
第二频域数据确定模块306,用于利用所述第一增益参数和所述第一频域数据,确定所述当前帧对应的第二频域数据。
另外在图3所示实施例的基础上,优选的,还包括:
实际响度指数确定模块302包括:
能量数据确定单元,用于确定第一频域数据中,各频点的能量数据;
响度数据确定单元,用于根据各能量数据,和各频点对应的响度参数,确定各频点的响度数据;
实际响度指数确定单元,用于根据各频点的响度数据,确定第一频域数据对应的实际响度指数。
第一增益参数确定模块305包括:
第一限值单元,用于在第二增益参数大于预设的第一增益限值时,将第一增益限值确定为第一增益参数;并在第二增益参数小于第一增益限值时,将第二增益参数确定为第一增益参数。
第二限值单元,用于在第二增益参数大于基于能量限值确定的第二增益限值时,将第二增益限值确定为第一增益参数;并在第二增益参数小于第二增益限值时,将第二增益参数确定为第一增益参数。
第三限值单元,用于确定第二增益参数相对于先前帧的第三增益参数的增量数值;在增量数值满足预设条件时,根据预设的第一增量控制策略对第二增益参数进行处理,以确定第一增益参数。
第四限值单元,用于在当前帧为过渡帧时,根据预设的第二增量控制策略对第二增益参数进行处理,以确定第一增益参数。
过渡帧确定单元,用于判断当前帧的声波频率是否处于预设频率范围的边缘范围;当当前帧处于预设频率范围的边缘范围,将当前帧确定为所述过渡帧。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本发明的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本发明的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。
本发明中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
还需要指出的是,在本发明的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此,本发明不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (11)

1.一种音频数据的增益方法,其特征在于,包括:
根据待处理音频数据中当前帧的时域数据,确定所述当前帧对应的第一频域数据;
根据所述第一频域数据,确定所述当前帧对应的实际响度指数;
根据预设的目标幅值数据,确定目标响度指数;
将所述目标响度指数和所述实际响度指数的比值确定为第二增益参数;
根据所述第二增益参数,确定第一增益参数;
利用所述第一增益参数和所述第一频域数据,确定所述当前帧对应的第二频域数据。
2.根据权利要求1所述方法,其特征在于,所述根据所述第一频域数据,确定所述当前帧对应的实际响度指数包括:
确定所述第一频域数据中,各频点的能量数据;
根据各所述能量数据,和各所述频点对应的响度参数,确定各所述频点的响度数据;
根据各所述频点的响度数据,确定所述第一频域数据对应的实际响度指数。
3.根据权利要求1所述方法,其特征在于,所述根据所述第二增益参数,确定所述第一增益参数包括:
当所述第二增益参数大于预设的第一增益限值,将所述第一增益限值确定为所述第一增益参数;
当所述第二增益参数小于所述第一增益限值,将所述第二增益参数确定为所述第一增益参数。
4.根据权利要求3所述方法,其特征在于,所述根据所述第二增益参数,确定所述第一增益参数包括:
当所述第二增益参数大于基于能量限值确定的第二增益限值,将所述第二增益限值确定为所述第一增益参数;
当所述第二增益参数小于所述第二增益限值,将所述第二增益参数确定为所述第一增益参数。
5.根据权利要求4所述方法,其特征在于,还包括:
根据所述第二增益参数和所述第一增益限值确定所述第一增益参数之后,根据所述第二增益限值对所述第一增益参数进行调整。
6.根据权利要求1所述方法,其特征在于,所述根据所述第二增益参数,确定所述第一增益参数包括:
确定所述第二增益参数相对于先前帧的第三增益参数的增量数值;
当所述增量数值满足预设条件,根据预设的第一增量控制策略对所述第二增益参数进行处理,以确定所述第一增益参数。
7.根据权利要求1所述方法,其特征在于,所述根据所述第二增益参数,确定所述第一增益参数包括:
当所述当前帧为过渡帧,根据预设的第二增量控制策略对所述第二增益参数进行处理,以确定所述第一增益参数。
8.根据权利要求7所述方法,其特征在于,还包括:
判断所述当前帧的声波频率是否处于预设频率范围的边缘范围;
当所述当前帧处于预设频率范围的边缘范围,将所述当前帧确定为所述过渡帧。
9.一种音频数据的增益装置,其特征在于,包括:
第一频域数据确定模块,用于根据待处理音频数据中当前帧的时域数据,确定所述当前帧对应的第一频域数据;
实际响度指数确定模块,用于根据所述第一频域数据,确定所述当前帧对应的实际响度指数;
目标响度指数确定模块,用于根据预设的目标幅值数据,确定目标响度指数;
第二增益参数确定模块,用于将所述目标响度指数和所述实际响度指数的比值确定为第二增益参数;
第一增益参数确定模块,用于根据所述第二增益参数,确定所述第一增益参数;
第二频域数据确定模块,用于利用所述第一增益参数和所述第一频域数据,确定所述当前帧对应的第二频域数据。
10.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-8任一项所述的音频数据的增益方法。
11.一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-8任一项所述的音频数据的增益方法。
CN202110283814.0A 2021-03-17 2021-03-17 一种音频数据的增益方法及装置 Active CN112669872B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110283814.0A CN112669872B (zh) 2021-03-17 2021-03-17 一种音频数据的增益方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110283814.0A CN112669872B (zh) 2021-03-17 2021-03-17 一种音频数据的增益方法及装置

Publications (2)

Publication Number Publication Date
CN112669872A true CN112669872A (zh) 2021-04-16
CN112669872B CN112669872B (zh) 2021-07-09

Family

ID=75399614

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110283814.0A Active CN112669872B (zh) 2021-03-17 2021-03-17 一种音频数据的增益方法及装置

Country Status (1)

Country Link
CN (1) CN112669872B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090161883A1 (en) * 2007-12-21 2009-06-25 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
CN102136273A (zh) * 2010-01-21 2011-07-27 比亚迪股份有限公司 一种电子设备的音频处理装置及方法
CN102422349A (zh) * 2009-05-14 2012-04-18 夏普株式会社 增益控制装置和增益控制方法、声音输出装置
CN103714824A (zh) * 2013-12-12 2014-04-09 小米科技有限责任公司 一种音频处理方法、装置及终端设备
CN104105045A (zh) * 2013-04-08 2014-10-15 深圳富泰宏精密工业有限公司 响度检测方法及系统
CN112116923A (zh) * 2020-10-27 2020-12-22 广州朗国电子科技有限公司 自动调节系统音量的方法、装置、终端设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090161883A1 (en) * 2007-12-21 2009-06-25 Srs Labs, Inc. System for adjusting perceived loudness of audio signals
CN102422349A (zh) * 2009-05-14 2012-04-18 夏普株式会社 增益控制装置和增益控制方法、声音输出装置
CN102136273A (zh) * 2010-01-21 2011-07-27 比亚迪股份有限公司 一种电子设备的音频处理装置及方法
CN104105045A (zh) * 2013-04-08 2014-10-15 深圳富泰宏精密工业有限公司 响度检测方法及系统
CN103714824A (zh) * 2013-12-12 2014-04-09 小米科技有限责任公司 一种音频处理方法、装置及终端设备
CN112116923A (zh) * 2020-10-27 2020-12-22 广州朗国电子科技有限公司 自动调节系统音量的方法、装置、终端设备及存储介质

Also Published As

Publication number Publication date
CN112669872B (zh) 2021-07-09

Similar Documents

Publication Publication Date Title
JP6801023B2 (ja) ボリューム平準化器コントローラおよび制御方法
JP6921907B2 (ja) オーディオ分類および処理のための装置および方法
KR101200615B1 (ko) 청각 이벤트 검출에 기반한 비-라우드니스를 이용한 자동 이득 제어
US8170879B2 (en) Periodic signal enhancement system
TWI422147B (zh) 音頻訊號之處理裝置及其方法,及電腦可讀取之紀錄媒體
US20120123769A1 (en) Gain control apparatus and gain control method, and voice output apparatus
US7809560B2 (en) Method and system for identifying speech sound and non-speech sound in an environment
JP2017073811A (ja) 等化器コントローラおよび制御方法
US20100179808A1 (en) Speech Enhancement
JP2000347688A (ja) 雑音抑圧装置
JP2008233672A (ja) マスキングサウンド生成装置、マスキングサウンド生成方法、プログラムおよび記録媒体
US9749741B1 (en) Systems and methods for reducing intermodulation distortion
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
CN115348507A (zh) 脉冲噪声抑制方法、系统、可读存储介质及计算机设备
CN112669872B (zh) 一种音频数据的增益方法及装置
CN109741761B (zh) 声音处理方法和装置
JP4880136B2 (ja) 音声認識装置および音声認識方法
JP4548953B2 (ja) 音声自動利得制御装置、音声自動利得制御方法、音声自動利得制御用のアルゴリズムを持つコンピュータプログラムを格納する記憶媒体及び音声自動利得制御用のアルゴリズムを持つコンピュータプログラム
CN109841223B (zh) 一种音频信号处理方法、智能终端及存储介质
JP5412204B2 (ja) 適応的な話速変換装置及びプログラム
CN112802453B (zh) 快速自适应预测拟合语音方法、系统、终端及存储介质
JP2008102551A (ja) 音声信号の処理装置およびその処理方法
KR100883896B1 (ko) 음성명료도 향상장치 및 방법
CN117153192B (zh) 音频增强方法、装置、电子设备和存储介质
EP4243018A1 (en) Automatic classification of audio content as either primarily speech or primarily music, to facilitate dynamic application of dialogue enhancement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant