CN111883150A - 一种响度均衡方法、装置、存储介质及设备 - Google Patents
一种响度均衡方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN111883150A CN111883150A CN202010899545.6A CN202010899545A CN111883150A CN 111883150 A CN111883150 A CN 111883150A CN 202010899545 A CN202010899545 A CN 202010899545A CN 111883150 A CN111883150 A CN 111883150A
- Authority
- CN
- China
- Prior art keywords
- loudness
- average value
- voice signal
- output audio
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 79
- 238000012545 processing Methods 0.000 claims abstract description 47
- 238000004364 calculation method Methods 0.000 claims abstract description 31
- 238000012360 testing method Methods 0.000 claims description 4
- 238000004088 simulation Methods 0.000 claims description 3
- 230000006854 communication Effects 0.000 abstract description 19
- 238000004891 communication Methods 0.000 abstract description 18
- 230000005236 sound signal Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 5
- 230000008030 elimination Effects 0.000 description 4
- 238000003379 elimination reaction Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 2
- 101150036464 aptx gene Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Telephone Function (AREA)
Abstract
本申请公开了一种响度均衡方法、装置、存储介质及设备,属于语音信号处理技术领域。该响度均衡方法包括:对第一语音信号进行响度计算,得到第一响度;对第一语音信号进行第一前端处理,得到第二语音信号,并计算第二语音信号的第二响度;计算第一响度与第二响度在对应音频帧的响度差值;通过滑动平均计算一定数量音频帧的响度差值的当前均值;以及若当前均值大于历史均值,调高输出音频响度;若小于历史均值,调低输出音频响度;若等于历史均值,保持原有输出音频响度。本申请的应用在语音通话环境发生改变时,实时自动调整输出音频响度,避免频繁的手动调节,提升用户使用体验。
Description
技术领域
本申请涉及语音信号处理技术领域,特别是一种响度均衡方法、装置、存储介质及设备。
背景技术
目前主流的蓝牙音频编解码器包括:SBC音频编解码器,其由A2DP协议强制要求,使用最为广泛;AAC-LC音频编解码器,其音质较好且应用较为广泛,很多主流的手机都支持;aptX系列音频编解码器,其音质较好,但码率很高,且为高通独有的技术,较为封闭;LDAC音频编解码器,其音质较好,但码率也很高,且为索尼独有的技术,也很封闭。基于上述原因,蓝牙国际联盟Bluetooth Sig联合众多厂商推出了LC3音频编解码器,其具有较低延迟、较高音质和编码增益以及在蓝牙领域无专利费的优点,受到广大厂商的关注。
蓝牙领域的一个基本应用是语音通话,利用蓝牙耳机进行语音通话,其中通话环境的复杂性对于蓝牙耳机的响度控制提出较高的要求。例如,当用户使用手机及蓝牙耳机在安静的室内进行语音通话时,此时通话语音的响度较低即可满足用户通话的清晰度要求,当用户使用手机及蓝牙耳机在喧嚣的室外进行语音通话时,此时通话语音的响度设置为将较高,才能满足用户通话的清晰度要求。所以,当用户由安静的室内走向喧嚣的室外时,为了保证通话的清晰度,需要手动调高通话的响度;当用户由喧嚣的室外进入安静的室内时,原本较高的通话响度会使用户产生不适,用户需要再手动调低通话的响度。类似的场景有很多,即当语音通话的环境发生改变时,用户需要手动调整通话的响度以适应环境的改变,影响用户使用体验。
发明内容
针对现有技术中存在的上述技术问题,本申请提供了一种响度均衡方法、装置、存储介质及设备。
在本申请的一个技术方案中,提供一种响度均衡方法,包括:对第一语音信号进行响度计算,得到第一响度,第一响度为第一语音信号的音频帧响度;对第一语音信号进行第一前端处理,去除第一语音信号中的第一干扰信号得到第二语音信号,并计算第二语音信号的第二响度,第二响度为第二语音信号的音频帧响度;以及根据第一响度和第二响度对音频解码器的输出音频响度进行调整,包括:计算第一响度与第二响度在对应音频帧的响度差值;通过滑动平均计算一定数量音频帧的响度差值的当前均值;以及对输出音频响度进行调整,包括:若当前均值大于历史均值,调高输出音频响度;若当前均值小于历史均值,调低输出音频响度;以及若当前均值等于历史均值,保持输出音频响度。
在本申请的另一个技术方案中,提供一种响度均衡装置,包括:第一响度计算模块,其对第一语音信号进行响度计算,得到第一响度,第一响度为第一语音信号的音频帧响度;第二响度计算模块,其对第一语音信号进行第一前端处理,去除第一语音信号中的第一干扰信号得到第二语音信号,并计算第二语音信号的第二响度,第二响度为第二语音信号的音频帧响度;以及响度均衡模块,其根据第一响度和第二响度对音频解码器的输出音频响度进行调整,包括:计算第一响度与第二响度在对应音频帧的响度差值;通过滑动平均计算一定数量音频帧的响度差值的当前均值;以及对输出音频响度进行调整,包括:若当前均值大于历史均值,调高输出音频响度;若当前均值小于历史均值,调低输出音频响度;以及若当前均值等于历史均值,保持输出音频响度。
在本申请的另一个技术方案中,提供一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行方案一中的响度均衡方法。
在本申请的另一个技术方案中,提供一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中,处理器操作计算机指令以执行方案一中的响度均衡方法。
本申请的有益效果是:在语音通话环境发生改变时,实时自动调整输出音频响度,避免频繁的手动调节,提升用户使用体验。
附图说明
图1是本申请响度均衡方法的一个具体实施方式的流程示意图;
图2是本申请响度均衡方法中对输出音频响度调整的一个具体实施方式的流程示意图;
图3是本申请响度均衡方法的一个具体实施例的流程示意图;
图4是本申请响度均衡方法在LC3解码器中的一个应用实例;
图5是本申请响度均衡装置的一个具体实施方式的组成示意图;
图6是本申请响度均衡装置的一个应用实例示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1示出了本申请响度均衡方法的一个具体实施方式。
在图1所示的具体实施方式中,本申请的响度均衡方法包括:过程S101,对第一语音信号进行响度计算,得到第一响度,第一响度为第一语音信号的音频帧响度;过程S102,对第一语音信号进行第一前端处理,去除第一语音信号中的第一干扰信号得到第二语音信号,并计算第二语音信号的第二响度,第二响度为第二语音信号的音频帧响度;以及过程S103,根据第一响度和第二响度对音频解码器的输出音频响度进行调整,包括:计算第一响度与第二响度在对应音频帧的响度差值;通过滑动平均计算一定数量音频帧的响度差值的当前均值;若当前均值大于历史均值,调高输出音频响度;若当前均值小于历史均值,调低输出音频响度;以及若当前均值等于历史均值,保持输出音频响度。
在图1所示的具体实施方式中,本申请的响度均衡方法包括过程S101,对第一语音信号进行响度计算,得到第一响度,第一响度为第一语音信号的音频帧响度。在进行语音通话的实际情景中,第一语音信号包括用户进行语音通话时的有效语音信息的近端语音信号,以及存在于周围环境中的第一干扰信号。在对第一语音信号的响度进行计算时,以音频帧为单位,对音频帧的响度进行计算得到第一响度。
在本申请的一个具体实施例中,在对第一语音信号进行响度计算,得到第一响度前,还包括:对原始语音信号进行第二前端处理,去除原始语音信号中的第二干扰信号,其中第二干扰信号包括远端回声信号。
在本申请的一个具体实施例中,第一前端处理包括噪声消除处理,去除第一语音信号中包括近端噪声信号的第一干扰信号,进而得到第二语音信号;第二前端处理包括回声消除处理,去除原始语音信号中包括远端回声信号的第二干扰信号得到第一语音信号。通过对远端回声信号和近端噪声信号按照顺序分别进行去除处理,从而便于本申请响度均衡方法的具体实施。将原始语音信号中包括远端回声信号的第二干扰信号进行消除,得到第一语音信号,再对第一语音信号进行第一响度的测量,使得第一响度中干扰信号的影响减弱,从而根据第一次响度和第二响度进行响度均衡时,提高响度均衡的准确性。
在图1所示的具体实施方式中,本申请的响度均衡方法包括过程S102,对第一语音信号进行第一前端处理,去除第一语音信号中的第一干扰信号得到第二语音信号,并计算第二语音信号的第二响度,第二响度为第二语音信号的音频帧响度。在进行响度均衡时,需要将第一语音信号中的第一干扰信号进行去除,保留用户语音通话过程中有效的近端语音信号。
在本申请的一个实施例中,第一前端处理包括噪声消除处理,第一干扰信号包括近端噪声信号。利用噪声消除处理将第一语音信号中的噪声信号进行去除,只保留用户进行语音通话时的近端语音信号,保证后续进行响度测量的准确性,从而保证响度均衡的准确性。
在本申请的一个实例中,第一前端处理包括噪声消除处理,第二前端处理包括回声消除处理。在实际的使用过程中,先执行回声消除处理,后进行噪声消除处理。在实际场景中,存在三种情形,包括,在语音通话中,若第一干扰信号和第二干扰信号均存在,则对应的第一前端处理和第二前端处理对第一干扰信号和第二干扰信号进行消除;若只存在第一干扰信号,则对应的第一前端处理对第一干扰信号进行消除;若只存在第二干扰信号,则对应的第二前端处理对第二干扰信号进行消除。即当存在远端回声信号和近端噪声信号时,采用回声消除处理和噪声消除处理;当只存在远端回声信号时,采用回声消除处理;当只存在近端噪声信号时,采用近端噪声消除处理。对第一干扰信号和第二干扰信号的消除不会改变第一语音信号的特性,当没有干扰信号时,对应的干扰信号消除模块也不会改变第一语音信号的特性。
在图1所示的具体实施方式中,本申请的响度均衡方法包括过程S103,根据第一响度和第二响度对音频解码器的输出音频响度进行调整,包括:计算第一响度与第二响度在对应音频帧的响度差值;通过滑动平均计算一定数量音频帧的响度差值的当前均值;以及对输出音频响度进行调整,包括:若当前均值大于历史均值,调高输出音频响度;若当前均值小于历史均值,调低输出音频响度;以及若当前均值等于历史均值,保持输出音频响度。
通过计算第一响度与第二响度的差值,并根据滑动平均法计算一定数量音频帧的第一响度与第二响度的响度差值的当前均值,实时检测通话环境中的干扰信号的响度变化;通过当前均值与历史均值的比较,判断当前通话环境是否发生改变,进而实时对输出音频的响度进行调整,避免频繁的手动调节,提升用户使用体验。
图2示出了本申请中对输出音频响度进行调整的一个具体实施方式。
在图2所示的具体实施方式中,对输出音频响度进行调整的过程包括:过程S201,计算第一响度与第二响度在对应音频帧的响度差值。
在该具体实施方式中,第一响度为第一语音信号的音频帧响度,第二响度为第二语音信号的音频帧响度。其中,对第一语音信号进行第一前端处理将第一语音信号中的第一干扰信号去除后,得到只包括用户语音的近端语音信号的第二语音信号。其中,第一语音信号与第二语音信号为同一时段的音频信号。对该音频信号的音频帧的第一响度和第二响度进行差值运算,得到在包括第一干扰信号的第一响度和只包括用户通话语音的近端语音信号的第二响度的响度差异,进而根据响度差异的大小进行后续的响度均衡过程。其中,第一响度与第二响度的响度差值反映了用户在进行语音通话时,环境中第一干扰信号的响度。
在图2所示的具体实施方式中,对输出音频响度进行调整的过程包括:过程S202,通过滑动平均计算一定数量音频帧的响度差值的当前均值。
在该具体实施方式中,通过滑动平均法计算一定数量的第一响度与第二响度的响度差值的平均值。通过滑动平均法,在简单平均数法的基础上,逐渐增加新数据和减少旧数据来进行响度差值的均值确定,消除偶然变动因素的影响,另外,及时进行新数据的增加,保证对周围环境的实时更新,当外界环境的响度发生改变时,能够及时进行响度均衡过程。
在本申请的一个实例中,在计算当前均值时,从当前的音频帧开始,向前记录N个音频帧的第一响度与第二响度,计算这N个音频帧的第一响度与第二响度的响度差值的均值,其中当前音频帧即为进行通话语音解码过程的最新的一个音频帧。随着语音通话的进行,从当前音频帧开始记录的N个音频帧也开始动态变化,实时进行最新的音频帧的响度计算及响度差值均值的计算过程,保证当用户语音通话环境发生改变时,能够对解码器的输出音频响度进行实时调整,提升用户使用体验。例如,第一响度用符号Loudness_1st表示,第二响度用符号Loudness_2nd表示,则第一响度与第二响度的差值表示为Loudness_diff=Loudness_1st–Loudness_2nd。使用滑动平均法,计算N个音频帧的第一响度与第二响度的响度差值的均值时,计算公式可表示为:
其中,i为0时对应的是当前音频帧;i为-1时,对应的音频帧为当前音频帧的前一个音频帧;当i为-N+1时,对应的音频帧为当前音频帧的前N-1个音频帧。其中关于N值的选择,可根据实际的解码器配置,计算精度等要求进行合理化设置。另外,通过滑动平均法在进行第一响度与第二响度的响度差值的均值计算时,为了强化近期音频帧的作用,弱化远期音频帧的影响,可对近期的音频帧给予较大的权数,对远期的音频帧给予较小的权数,再进行当前均值的计算。
在图2所示的具体实施方式中,对输出音频响度进行调整的过程包括:过程S203,对输出音频响度进行调整,包括:若当前均值大于历史均值,调高输出音频响度;若当前均值小于历史均值,调低输出音频响度;以及若当前均值等于历史均值,保持输出音频响度。
在该具体实施方式中,通过比较当前均值与历史均值的关系,对输出音频的响度进行调整。其中,若当前均值大于历史均值,说明第一响度与第二响度的差值较大,即用户进行语音通话的环境中第一干扰信号的响度较大,需要调高解码器的输出音频响度以适应通话环境中第一干扰信号响度的影响;若当前均值小于历史均值,说明第一响度与第二响度的差值较小,即用户进行语音通话的环境中第一干扰信号的响度较小,需要调低解码器的输出音频响度以适应通话环境中外部干扰信号响度的影响;若当前均值等于历史均值,说明解码器输出音频响度的响度设置与通话环境中的第一干扰信号响度相匹配,保持输出音频响度,不需要进行响度调整。
在本申请的一个具体实施例中,若当前均值大于历史均值,增大响度增益参数,进而调高输出音频的响度;若当前均值小于历史均值,减小响度增益参数,进而调低输出音频的响度。
在本申请的一个实例中,通过对响度增益系数的调整,进而对输出音频的响度进行调整。其中,响度增益系数的默认值可设定为1,若当前均值大于历史均值,增大响度增益系数,例如将响度增益系数增大为1.2,表示将输出音频的响度调整为原有响度的1.2倍,增大输出音频的响度;若当前均值小于历史均值时,减小响度增益系数,例如将响度增益系数减小为0.8,表示将输出音频的响度调整为原有响度的0.8倍,减小输出音频响度。
在本申请的一个具体实施例中,根据当前均值与历史均值的差值大小确定响度增益参数的增加或减少的调整幅度。
在本申请的一个实例中,根据当前均值与历史均值的差值的大小确定响度增益参数的增加或减少的调整幅度。即若当前均值与历史均值的差值较大,响度增益系数的调整幅度相应地也较大,若当前均值与历史均值的差值较小,响度增益系数的调整幅度相应地也较小。通过根据当前均值与历史均值的差值的大小设置响度增益系数,使得输出音频响度的调整符合实际的响度需求,提升用户的使用体验。
在本申请的一个具体实施例中,通过线下仿真测试获得当前均值与历史均值的差值与响度增益参数的调整幅度的对应关系,进而对响度增益参数进行确定。
在本申请的一个实例中,在根据当前均值与历史均值的差值的大小设置响度增益系数的调整幅度。其中,可通过线下仿真测试获得当前均值与历史均值的差值与响度增益参数的调整幅度的对应关系。例如,若当前均值与历史均值的差值为4Lu,测试人员手动调节响度增益参数至语音通话可以被听清为止。通过重复测试,可得到不同的当前均值与历史均值的差值与响度增益参数的调整幅度的对应关系,最终可形成相应的映射表格,进行保存。进而当语音通话的环境发生改变时,根据当前均值与历史均值的差值大小进行响度增益参数的设置,进而对输出音频响度进行合适的调整。
在本申请的一个具体实施例中,对输出音频响度调整完成后,将当前均值替换历史均值,并保存。
在本申请的一个实例中,当完成对输出音频的响度调整后,将当前均值替换历史均值,作为新的历史均值,作为后续的响度调整判断的新的标准。
在本申请的一个实例中,历史均值的初始值可设置为一个合适的固定值,或者为语音通话的编解码器设备首次启动时,将首次计算得到的第一响度与第二响度的差值的均值保存为历史均值的初始值,后续随着响度的不断调整,进行历史均值的更新。
本申请的响度均衡方法的应用,当用户在进行语音通话过程中发生场景切换时,在环境中干扰信号响度不同的情况下依然可获得适宜的输出音频响度,保证输出音频的清晰度,避免频繁的进行输出音频响度的手动调节,提升用户使用体验。另外,本申请的响度均衡方法可应用于多种音频解码器中,包括LC3解码器、AAC解码器以及SBC解码器等。另外,本申请的响度均衡方法可应用于进行语音通话的多种终端设备中,例如,蓝牙耳机、手机等。
图3示出了本申请响度均衡方法的一个具体实施例。
如图3所示,对本申请的响度均衡方法的流程进行说明。对包括第一干扰信号以及近端语音信号的第一语音信号进行第一响度的计算,响度计算过程可按照现有技术中的相关标准中确定的响度计算方法进行,其中,第一响度为第一语音信号的音频帧响度。第一响度实际为第一干扰信号响度与用户语音通话时的近端语音信号响度的和值。随后对第一语音信号进行前端处理,去除第一语音信号中的第一干扰信号,即近端噪声信号,只保留用户进行语音通话时的近端语音信号,从而得到第二语音信号。对第二语音信号进行第二响度的计算,第二响度为第二语音信号的音频帧响度。第二响度实际为用户语音通话时的近端语音信号的响度。在对应音频帧上计算第一响度与第二响度的差值,并选取一定数量的音频帧通过滑动平均的方法对第一响度与第二响度的差值进行均值计算,得到第一响度与第二响度的差值的当前均值。其中,第一响度与第二响度的差值实际上为近端噪声信号对应的响度。随后,对当前均值与历史均值进行比较。若当前均值大于历史均值,说明此时语音通话的环境中干扰信号的响度较大,此时需要增大响度增益参数,例如将默认的响度增益参数由1调整为1.2,并对输出音频信号的响度进行升高调整,以适应干扰信号响度较大的语音通话环境。若当前均值小于历史均值,说明此时语音通话的环境中干扰信号的响度较小,此时需要减小响度增益参数,例如将默认的响度增益参数由1调整为0.8,并对输出音频信号的响度进行降低调整,以适应干扰信号响度较小的语音通话环境。若当前均值等于历史均值,说明用户进行语音通话时,周围环境的干扰信号的响度没有发生变化,继续保持原有的输出音频信号响度,而不需要对输出音频响度进行调整。在对输出音频响度进行调整后,将当前均值替换原有的历史均值作为新的历史均值。在实际的操作过程中,在计算第一响度之前,还包括将语音设备手收集到的原始语音信号进行第二前端处理,去除第二干扰信号,即远端回声信号,得到第一语音信号,进而对第一语音信号的响度计算。其中,第二前端处理为回声消除处理。
图4示出了本申请响度均衡方法在LC3解码器中的一个应用实例。其中,如图4所示,阴影部分的响度均衡模块为LC3解码器中的新增模块,是本申请响度均衡方法应用时的主要执行模块。另外如图4所示,在本申请的响度均衡方法中,需要进行对第一响度和第二响度的计算,根据得出的第一响度和第二响度在响度均衡模块中对输出音频进行响度的调整。
图5示出了本申请响度均衡装置的一个具体实施方式。
在图5所示的具体实施方式中,本申请的响度均衡装置包括:第一响度计算模块,对采集到的第一语音信号进行响度计算,得到第一响度,第一响度为第一语音信号的音频帧响度,第一语音信号包括干扰信号以及近端语音信号;第二响度计算模块,其对第一语音信号进行前端处理,去除干扰信号得到第二语音信号,并计算第二语音信号的第二响度,第二响度为第二语音信号的音频帧响度;以及响度均衡模块,其根据第一响度和第二响度对音频解码器的输出音频响度进行调整,包括:计算第一响度与第二响度在对应音频帧的响度差值;通过滑动平均计算一定数量音频帧的响度差值的当前均值;对输出音频响度进行调整,包括:若当前均值大于历史均值,调高输出音频响度;若当前均值小于历史均值,调低输出音频响度;以及若当前均值等于历史均值,保持输出音频响度。
图6示出了本申请响度均衡装置的一个应用实例。其中,如图6所示,通过麦克风采集原始语音信号,其中原始语音信号中包括近端噪声、用户语音以及远端回声信号。首先通过第二前端处理即回声消除处理对原始语音信号中的远端回声信号进行消除,得到第一语音信号。随后通过响度计算模块A进行第一语音信号的第一响度计算,得到表示第一语音信号的第一响度,第一响度为第一语音信号的音频帧响度,其中,第一语音信号是用户语音信号和近端噪声信号的总和。随后通过第一前端处理即噪声消除处理消除第一语音信号中的近端噪声信号,得到第二语音信号。通过响度计算模块B对第二语音信号的响度进行计算得到第二语音信号的第二响度,第二响度为第二语音信号的音频帧响度,其中第二响度为用户语音响度。随后使用LC3编码器及控制器对第二语音信号进行标准的编码流程。在包含响度均衡的LC3解码器中,除了进行对语音信号码流的标准解码流程外,还进行对输出音频响度的均衡操作。在LC3解码器中的响度均衡模块中,根据响度计算模块A得出的第一语音信号的第一响度及响度计算模块B得出的第二语音信号的第二响度进行对LC3解码器的输出音频响度调整过程,其中具体的响度调整过程如上述响度均衡方法中的介绍。最后将经过响度均衡的LC3解码器的输出音频信号进行输出,保证当外部环境中包括近端噪声信号的第二干扰信号的响度较大时,输出较大响度的音频信号,当外部环境中包括近端噪声信号的第二干扰信号的响度较小时,输出较小响度的音频信号,从而保证用户在进行语音通话时,具有适宜的通话响度,避免频繁的手动响度调节,提升用户体验。
在本申请的一个具体实施方式中,一种计算机可读存储介质,其存储有计算机指令,其中计算机指令被操作以执行任一实施例描述的响度均衡方法。其中,该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。
软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器,使得处理器可从存储介质读取信息和向存储介质写入信息。
处理器可以是中央处理单元(英文:Central Processing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:Digital Signal Processor,简称:DSP)、专用集成电路(英文:Application Specific Integrated Circuit,简称:ASIC)、现场可编程门阵列(英文:Field Programmable GateArray,简称:FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器,但在替代方案中,处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合,例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中,存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中,处理器和存储介质可作为离散组件驻留在用户终端中。
在本申请的一个具体实施方式中,一种计算机设备,其包括处理器和存储器,存储器存储有计算机指令,其中:处理器操作计算机指令以执行任一实施例描述的响度均衡方法。
在本申请所提供的实施方式中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上仅为本申请的实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种响度均衡方法,基于音频解码器,其特征在于,包括:
对第一语音信号进行响度计算,得到第一响度,所述第一响度为所述第一语音信号的音频帧响度;
对所述第一语音信号进行第一前端处理,去除所述第一语音信号中的第一干扰信号得到第二语音信号,并计算所述第二语音信号的第二响度,所述第二响度为所述第二语音信号的音频帧响度,所述第一干扰信号包括近端噪声信号;以及
根据所述第一响度和所述第二响度对所述音频解码器的输出音频响度进行调整,包括:
计算所述第一响度与所述第二响度在对应音频帧的响度差值;
通过滑动平均计算一定数量音频帧的所述响度差值的当前均值;以及
对输出音频响度进行调整,包括:
若所述当前均值大于历史均值,调高所述输出音频响度;
若所述当前均值小于所述历史均值,调低所述输出音频响度;以及
若所述当前均值等于所述历史均值,保持所述输出音频响度。
2.如权利要求1所述的响度均衡方法,其特征在于,在所述对第一语音信号进行响度计算,得到第一响度前还包括:
对原始语音信号进行第二前端处理,去除所述原始语音信号中的第二干扰信号得到所述第一语音信号,所述第二干扰信号包括远端回声信号。
3.如权利要求1所述的响度均衡方法,其特征在于,所述对输出音频响度进行调整的过程进一步包括:
若所述当前均值大于所述历史均值,增大响度增益参数,进而调高所述输出音频响度;以及
若所述当前均值小于所述历史均值时,减小所述响度增益参数,进而调低所述输出音频响度。
4.如权利要求2所述的响度均衡方法,其特征在于,根据所述当前均值与所述历史均值的差值大小确定所述响度增益参数的增加或减少的调整幅度。
5.如权利要求2-4任一项所述的响度均衡方法,其特征在于,通过线下仿真测试获得所述当前均值与所述历史均值的差值与所述响度增益参数的调整幅度的对应关系,进而对所述响度增益参数进行确定。
6.如权利要求1所述的响度均衡方法,其特征在于,对所述输出音频响度调整完成后,将所述当前均值替换所述历史均值,并保存。
7.如权利要求1所述的响度均衡方法,其特征在于,所述第一前端处理包括噪声消除处理,所述第二前端处理包括回声消除处理。
8.一种响度均衡装置,基于音频解码器,其特征在于,包括:
第一响度计算模块,其对第一语音信号进行响度计算,得到第一响度,所述第一响度为所述第一语音信号的音频帧响度;
第二响度计算模块,其对所述第一语音信号进行第一前端处理,去除所述第一语音信号中的第一干扰信号得到第二语音信号,并计算所述第二语音信号的第二响度,所述第二响度为所述第二语音信号的音频帧响度;以及
响度均衡模块,其根据所述第一响度和所述第二响度对所述音频解码器的输出音频响度进行调整,包括:
计算所述第一响度与所述第二响度在对应音频帧的响度差值;
通过滑动平均计算一定数量音频帧的所述响度差值的当前均值;以及
对输出音频响度进行调整,包括:
若所述当前均值大于历史均值,调高所述输出音频响度;
若所述当前均值小于所述历史均值,调低所述输出音频响度;以及
若所述当前均值等于所述历史均值,保持所述输出音频响度。
9.一种计算机可读存储介质,其存储有计算机指令,其中所述计算机指令被操作以执行权利要求1-7任一项所述的响度均衡方法。
10.一种计算机设备,其包括处理器和存储器,所述存储器存储有计算机指令,其中,所述处理器操作所述计算机指令以执行权利要求1-7任一项所述的响度均衡方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010899545.6A CN111883150B (zh) | 2020-08-31 | 2020-08-31 | 一种响度均衡方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010899545.6A CN111883150B (zh) | 2020-08-31 | 2020-08-31 | 一种响度均衡方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111883150A true CN111883150A (zh) | 2020-11-03 |
CN111883150B CN111883150B (zh) | 2024-03-05 |
Family
ID=73199771
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010899545.6A Active CN111883150B (zh) | 2020-08-31 | 2020-08-31 | 一种响度均衡方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111883150B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669797A (zh) * | 2020-12-30 | 2021-04-16 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100146445A1 (en) * | 2008-12-08 | 2010-06-10 | Apple Inc. | Ambient Noise Based Augmentation of Media Playback |
CN103973863A (zh) * | 2014-05-30 | 2014-08-06 | 深圳市中兴移动通信有限公司 | 自动调节通话音量的方法和通信终端 |
CN104468930A (zh) * | 2013-09-17 | 2015-03-25 | 中兴通讯股份有限公司 | 一种放音响度调整方法及装置 |
US20160111087A1 (en) * | 2014-10-15 | 2016-04-21 | Delphi Technologies, Inc. | Automatic volume control based on speech recognition |
CN106161781A (zh) * | 2016-06-22 | 2016-11-23 | 北京小米移动软件有限公司 | 音量调整方法及装置 |
CN106648527A (zh) * | 2016-11-08 | 2017-05-10 | 乐视控股(北京)有限公司 | 一种音量控制方法、装置以及播放设备 |
CN106713621A (zh) * | 2016-11-29 | 2017-05-24 | 努比亚技术有限公司 | 一种语音调节装置及方法 |
CN107071316A (zh) * | 2016-12-30 | 2017-08-18 | 华为技术有限公司 | 自动调节音量的方法和终端设备 |
WO2017143854A1 (zh) * | 2016-02-23 | 2017-08-31 | 努比亚技术有限公司 | 一种移动终端及控制音量的方法、计算机可读存储介质 |
CN107395883A (zh) * | 2017-07-17 | 2017-11-24 | 广东欧珀移动通信有限公司 | 语音信号调节方法、通信终端及计算机可读存储介质 |
CN111314560A (zh) * | 2020-03-17 | 2020-06-19 | 青岛海信移动通信技术股份有限公司 | 一种调整声音响度的方法及通信终端 |
-
2020
- 2020-08-31 CN CN202010899545.6A patent/CN111883150B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100146445A1 (en) * | 2008-12-08 | 2010-06-10 | Apple Inc. | Ambient Noise Based Augmentation of Media Playback |
CN104468930A (zh) * | 2013-09-17 | 2015-03-25 | 中兴通讯股份有限公司 | 一种放音响度调整方法及装置 |
CN103973863A (zh) * | 2014-05-30 | 2014-08-06 | 深圳市中兴移动通信有限公司 | 自动调节通话音量的方法和通信终端 |
US20160111087A1 (en) * | 2014-10-15 | 2016-04-21 | Delphi Technologies, Inc. | Automatic volume control based on speech recognition |
WO2017143854A1 (zh) * | 2016-02-23 | 2017-08-31 | 努比亚技术有限公司 | 一种移动终端及控制音量的方法、计算机可读存储介质 |
CN106161781A (zh) * | 2016-06-22 | 2016-11-23 | 北京小米移动软件有限公司 | 音量调整方法及装置 |
CN106648527A (zh) * | 2016-11-08 | 2017-05-10 | 乐视控股(北京)有限公司 | 一种音量控制方法、装置以及播放设备 |
CN106713621A (zh) * | 2016-11-29 | 2017-05-24 | 努比亚技术有限公司 | 一种语音调节装置及方法 |
CN107071316A (zh) * | 2016-12-30 | 2017-08-18 | 华为技术有限公司 | 自动调节音量的方法和终端设备 |
CN107395883A (zh) * | 2017-07-17 | 2017-11-24 | 广东欧珀移动通信有限公司 | 语音信号调节方法、通信终端及计算机可读存储介质 |
CN111314560A (zh) * | 2020-03-17 | 2020-06-19 | 青岛海信移动通信技术股份有限公司 | 一种调整声音响度的方法及通信终端 |
Non-Patent Citations (1)
Title |
---|
HA-DUONG BUI ET AL.: "Autonomous Speech Volume Control for Social Robots in a Noisy Environment Using Deep Reinforcement Learning", 2019 IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND BIOMIMETICS (ROBIO), 29 February 2020 (2020-02-29) * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669797A (zh) * | 2020-12-30 | 2021-04-16 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
CN112669797B (zh) * | 2020-12-30 | 2023-11-14 | 北京达佳互联信息技术有限公司 | 音频处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111883150B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5525508B2 (ja) | 周囲ノイズ検出を使用する明瞭度コントロール | |
JP4954334B2 (ja) | エコー抑制のためのフィルタ係数を演算する装置および方法 | |
US8521530B1 (en) | System and method for enhancing a monaural audio signal | |
US11605394B2 (en) | Speech signal cascade processing method, terminal, and computer-readable storage medium | |
US8199907B2 (en) | Echo canceller and echo cancelling method and program | |
CN110265046B (zh) | 一种编码参数调控方法、装置、设备及存储介质 | |
CN109754813B (zh) | 基于快速收敛特性的变步长回声消除方法 | |
JP4968147B2 (ja) | 通信端末、通信端末の音声出力調整方法 | |
US20150334215A1 (en) | Far-end sound quality indication for telephone devices | |
WO2005109404A2 (en) | Noise suppression based upon bark band weiner filtering and modified doblinger noise estimate | |
US8077858B2 (en) | Echo canceler and echo canceling method | |
WO2014000476A1 (zh) | 移动终端语音降噪的方法及装置 | |
JP2003506924A (ja) | 送受信器ユニットにおけるエコーをキャンセルするためのエコーキャンセル装置 | |
CN110782914B (zh) | 信号处理方法、装置、终端设备及存储介质 | |
KR20010043833A (ko) | 스펙트럼 종속 지수 이득 함수 평균화를 이용한 스펙트럼공제에 의한 신호 잡음 저감 | |
JP2013150250A (ja) | 音声処理装置及び音声処理方法 | |
TWI506620B (zh) | 通訊裝置及其語音處理方法 | |
CN109559756B (zh) | 滤波系数确定方法、回声消除方法、相应装置及设备 | |
US10192566B1 (en) | Noise reduction in an audio system | |
CN111883150B (zh) | 一种响度均衡方法、装置、存储介质及设备 | |
JP2008309955A (ja) | ノイズサプレス装置 | |
CN106297816B (zh) | 一种回声消除的非线性处理方法和装置及电子设备 | |
CN107533849B (zh) | 基于麦克风音频信号来处理输入耳机音频信号的音频信号处理装置 | |
US20140363005A1 (en) | Receiver Intelligibility Enhancement System | |
CN103002094B (zh) | 一种对环境噪声进行抑制的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Country or region after: China Address after: A1009, floor 9, block a, No. 9, Shangdi Third Street, Haidian District, Beijing 100085 Applicant after: Beijing Bairui Internet Technology Co.,Ltd. Address before: 7-1-1, building C, 7 / F, building 2-1, No.2, Shangdi Information Road, Haidian District, Beijing 100085 Applicant before: BARROT WIRELESS Co.,Ltd. Country or region before: China |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |