CN109994104B - 一种自适应通话音量控制方法及装置 - Google Patents

一种自适应通话音量控制方法及装置 Download PDF

Info

Publication number
CN109994104B
CN109994104B CN201910030712.0A CN201910030712A CN109994104B CN 109994104 B CN109994104 B CN 109994104B CN 201910030712 A CN201910030712 A CN 201910030712A CN 109994104 B CN109994104 B CN 109994104B
Authority
CN
China
Prior art keywords
far
sub
signal
band signal
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910030712.0A
Other languages
English (en)
Other versions
CN109994104A (zh
Inventor
谢宜昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Huilian Technology Co ltd
Original Assignee
Zhuhai Huilian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Huilian Technology Co ltd filed Critical Zhuhai Huilian Technology Co ltd
Priority to CN201910030712.0A priority Critical patent/CN109994104B/zh
Publication of CN109994104A publication Critical patent/CN109994104A/zh
Application granted granted Critical
Publication of CN109994104B publication Critical patent/CN109994104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party

Abstract

本申请提出一种自适应通话音量控制方法,包括以下步骤:分别采集远端语音信号和近端语音信号,并通过滤波分别提取形成远端子带信号和近端子带信号;基于远端子带信号和近端子带信号,形成针对远端语音信号和近端语音信号的语音均衡参数;根据语音均衡参数对远端子带信号作增益乘法,并解码所获得的输出子带信号;通过扬声器播放解码所述输出子带信号的输出语音。本申请还相应提出一种自适应通话音量控制装置。本申请的有益效果为:在综合考虑人耳的听觉特性以及环境噪声的影响的基础上,通过在主观感知域的调整而达到改善通话质量的效果。

Description

一种自适应通话音量控制方法及装置
技术领域
本发明涉及语音信号处理领域,尤其涉及一种在通话过程中的自适应通话音量控制方法及装置。
背景技术
随着移动网络的发展及消费类电子的便携移动化越来越明显,如今人们的通信方式越来越多样化。语音通信作为一项最基础的通信方式也变得随处可行,语音通信的环境和场景也变得越来越复杂。人们可以在家里、办公室、地铁站、工厂内等随处进行语音通话。这些复杂的使用场景所面临的一个典型的问题就是噪声问题。
现在的通信设备一般都考虑到这些噪声问题。普遍地,相关通信设备都或多或少地包含降噪技术用于噪声抑制或消除。这使得在语音通信过程中,远端能够比较清晰地听到近端说话人的语音。不过这些技术多数是为了提高远端的通话质量或者实现通话控制,而考虑近端说话人的通话质量并不多。例如,在某些场景下环境噪声很大,同时远端说话人的语音经近端扬声器、受话器或耳机重放出来后远远小于环境噪声。这些时候,近端的通话质量同样是无法忍受的。
传统的处理方法是,近端重放的语音一般会通过自动增益控制或者由近端说话人手动调整音量来改善通话质量。然而,在自动增益控制的方法中,现有方案一般仅仅会考虑数字域的数字信号需要达到什么样的幅度水平,而对环境噪声的大小以及重放出来的声压级及响度问题并不会考虑。这样会导致主观听感并不一定会被完全改善。譬如在相对安静的环境下,声音经自动增益孔处理后会被过度放大;而在过于嘈杂的环境下,声音经自动增益控制处理后的则显得较小。类似地,人为手动地控制音量的方法则也会有这些问题,并且不够方便。这是由于手动控制音量仅仅会对全频带信号做线性放大,然而一个被公知的事实是,人耳对不同频率的感知响度是不一致的。这同样使手动控制音量的方法带来的通话质量改善有限。
发明内容
本申请的目的是为了解决现有技术的不足,提供一种自适应通话音量控制方法及装置,能够获得基于人耳的听觉特性及环境噪音的影响,而更有针对性地改善通话质量的效果。
为了实现上述目的,本申请采用以下的技术方案。
首先,本申请提出一种自适应通话音量控制方法。该方法包括以下步骤:
S100)分别采集远端语音信号和近端语音信号,并通过滤波分别提取形成远端子带信号和近端子带信号;
S200)基于远端子带信号和近端子带信号,形成针对远端语音信号和近端语音信号的语音均衡参数;
S300)根据语音均衡参数对远端子带信号作增益乘法,并解码所获得的输出子带信号;
S400)通过扬声器播放解码所述输出子带信号的输出语音。
进一步地,在本申请的上述方法中,所述步骤S100包括以下子步骤:
S110)分别获取远端语音信号和近端语音信号在多个时刻的信号,以形成远端语音信号向量和近端语音信号向量;
S120)相应合并时间上连续的R个远端语音信号向量和近端语音信号向量为复合远端语音信号向量和复合近端语音信号向量;
S130)对复合远端语音信号向量和复合近端语音信号向量加窗处理,以获得加窗远端语音信号向量和加窗近端语音信号向量;
S140)分别对加窗远端语音信号向量和加窗近端语音信号向量执行快速傅里叶变换以形成相应的远端子带信号和近端子带信号。
进一步地,在本申请的上述方法中,用于合并时间上连续远端语音信号向量和近端语音信号向量以形成复合远端语音信号向量和复合近端语音信号向量的个数R为2。
可替代地,在本申请的上述方法中,所述语音均衡参数是基于远端子带信号的功率谱估计以及近端子带信号的背景噪声估计而确定的。
进一步地,在本申请的上述方法中,所述步骤S200还包括以下子步骤:
S210)将远端子带信号和近端子带信号的幅度平方分别通过远端历史向量和近端历史向量进行平滑,并将平滑后的平滑后远端子带信号和近端子带信号作为远端子带信号的远端平滑功率谱,以及近端子带信号的近端平滑功率谱;
S220)将所述远端平滑功率谱和近端平滑功率谱分别映射为人耳感知域的远端临界频带功率谱及近端临界频带功率谱;
S230)分别根据远端平滑功率谱及近端平滑功率谱的频域粗糙度,选取人耳听觉域能量的远端子带信号输入平滑系数和近端子带信号输入平滑系数;
S240)基于远端子带信号输入平滑系数、近端子带信号输入平滑系数、远端临界频带功率谱及近端临界频带功率谱,计算语音均衡参数。
进一步地,在本申请的上述方法中,所述步骤S240还包括以下子步骤:
S241)由所述远端子带信号输入平滑系数平滑远端临界频带功率谱,并选取平滑后的远端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为远端子带信号输入听觉域能量;
S242)由所述近端子带信号输入平滑系数平滑近端临界频带功率谱,并选取平滑后的近端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为近端子带信号输入听觉域能量;
S243)将所述近端子带信号输入听觉能量与所述远端子带信号输入听觉域能量相减并插值,以作为语音均衡参数。
再进一步地,在本申请的上述方法中,所述步骤S300还包括以下子步骤:
S310)将所述远端子带信号和语音均衡参数作增益乘法,以获得输出子带信号;
S320)对所述输出子带信号作反傅里叶变换以获得全频带信号向量;
S330)对所述全频带信号向量进行所述加窗处理,以获得加窗全频带信号向量;
S340)叠加所述加窗全频带信号向量,以获得输出语音。
其次,本申请提出一种自适应通话音量控制装置。该装置包括以下模块:采样模块,用于分别采集远端语音信号和近端语音信号,并通过滤波分别提取形成远端子带信号和近端子带信号;均衡模块,用于基于远端子带信号和近端子带信号,形成针对远端语音信号和近端语音信号的语音均衡参数;调整模块,用于根据语音均衡参数对远端子带信号作增益乘法,并解码所获得的输出子带信号以形成输出语音;输出模块,用于通过扬声器播放解码所述输出子带信号的输出语音。
进一步地,在本申请的上述装置中,所述采样模块包括以下子模块:成帧模块,用于分别获取远端语音信号和近端语音信号在多个时刻的信号,以形成远端语音信号向量和近端语音信号向量;重叠模块,用于相应合并时间上连续的R个远端语音信号向量和近端语音信号向量为复合远端语音信号向量和复合近端语音信号向量;加窗模块,用于对复合远端语音信号向量和复合近端语音信号向量加窗处理,以获得加窗远端语音信号向量和加窗近端语音信号向量;变换模块,用于分别对加窗远端语音信号向量和加窗近端语音信号向量执行快速傅里叶变换以形成相应的远端子带信号和近端子带信号。
进一步地,在本申请的上述装置中,用于合并时间上连续远端语音信号向量和近端语音信号向量以形成复合远端语音信号向量和复合近端语音信号向量的个数R为2。
可替代地,在本申请的上述装置中,所述语音均衡参数是基于远端子带信号的功率谱估计以及近端子带信号的背景噪声估计而确定的。
进一步地,在本申请的上述装置中,所述均衡模块还包括以下子模块:平滑模块,用于将远端子带信号和近端子带信号的幅度平方分别通过远端历史向量和近端历史向量进行平滑,并将平滑后的平滑后远端子带信号和近端子带信号作为远端子带信号的远端平滑功率谱,以及近端子带信号的近端平滑功率谱;估计模块,用于将所述远端平滑功率谱和近端平滑功率谱分别映射为人耳感知域的远端临界频带功率谱及近端临界频带功率谱;选取模块,用于分别根据远端平滑功率谱及近端平滑功率谱的频域粗糙度,选取人耳听觉域能量的远端子带信号输入平滑系数和近端子带信号输入平滑系数;确定模块,用于基于远端子带信号输入平滑系数、近端子带信号输入平滑系数、远端临界频带功率谱及近端临界频带功率谱,计算语音均衡参数。
进一步地,在本申请的上述装置中,所述确定模块还包括以下子模块:第一执行模块,用于由所述远端子带信号输入平滑系数平滑远端临界频带功率谱,并选取平滑后的远端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为远端子带信号输入听觉域能量;第二执行模块,用于由所述近端子带信号输入平滑系数平滑近端临界频带功率谱,并选取平滑后的近端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为近端子带信号输入听觉域能量;插值模块,用于将所述近端子带信号输入听觉能量与所述远端子带信号输入听觉域能量相减并插值,以作为语音均衡参数。
再进一步地,在本申请的上述装置中,所述调整模块还包括以下子模块:增益模块,用于将所述远端子带信号和语音均衡参数作增益乘法,以获得输出子带信号;反变换模块,用于对所述输出子带信号作反傅里叶变换以获得全频带信号向量;反加窗模块,用于对所述全频带信号向量进行所述加窗处理,以获得加窗全频带信号向量;反叠加模块,用于叠加所述加窗全频带信号向量,以获得输出语音。
最后,本申请还提出一种计算机可读存储介质,其上存储有计算机指令。上述指令被处理器执行时,执行如下步骤:
S100)分别采集远端语音信号和近端语音信号,并通过滤波分别提取形成远端子带信号和近端子带信号;
S200)基于远端子带信号和近端子带信号,形成针对远端语音信号和近端语音信号的语音均衡参数;
S300)根据语音均衡参数对远端子带信号作增益乘法,并解码所获得的输出子带信号;
S400)通过扬声器播放解码所述输出子带信号的输出语音。
进一步地,在本申请的上述指令被处理器执行的过程中,所述步骤S100包括以下子步骤:
S110)分别获取远端语音信号和近端语音信号在多个时刻的信号,以形成远端语音信号向量和近端语音信号向量;
S120)相应合并时间上连续的R个远端语音信号向量和近端语音信号向量为复合远端语音信号向量和复合近端语音信号向量;
S130)对复合远端语音信号向量和复合近端语音信号向量加窗处理,以获得加窗远端语音信号向量和加窗近端语音信号向量;
S140)分别对加窗远端语音信号向量和加窗近端语音信号向量执行快速傅里叶变换以形成相应的远端子带信号和近端子带信号。
进一步地,在本申请的上述指令被处理器执行的过程中,用于合并时间上连续远端语音信号向量和近端语音信号向量以形成复合远端语音信号向量和复合近端语音信号向量的个数R为2。
可替代地,在本申请的上述指令被处理器执行的过程中,所述语音均衡参数是基于远端子带信号的功率谱估计以及近端子带信号的背景噪声估计而确定的。
进一步地,在本申请的上述指令被处理器执行的过程中,所述步骤S200还包括以下子步骤:
S210)将远端子带信号和近端子带信号的幅度平方分别通过远端历史向量和近端历史向量进行平滑,并将平滑后的平滑后远端子带信号和近端子带信号作为远端子带信号的远端平滑功率谱,以及近端子带信号的近端平滑功率谱;
S220)将所述远端平滑功率谱和近端平滑功率谱分别映射为人耳感知域的远端临界频带功率谱及近端临界频带功率谱;
S230)分别根据远端平滑功率谱及近端平滑功率谱的频域粗糙度,选取人耳听觉域能量的远端子带信号输入平滑系数和近端子带信号输入平滑系数;
S240)基于远端子带信号输入平滑系数、近端子带信号输入平滑系数、远端临界频带功率谱及近端临界频带功率谱,计算语音均衡参数。
进一步地,在本申请的上述指令被处理器执行的过程中,所述步骤S240还包括以下子步骤:
S241)由所述远端子带信号输入平滑系数平滑远端临界频带功率谱,并选取平滑后的远端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为远端子带信号输入听觉域能量;
S242)由所述近端子带信号输入平滑系数平滑近端临界频带功率谱,并选取平滑后的近端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为近端子带信号输入听觉域能量;
S243)将所述近端子带信号输入听觉能量与所述远端子带信号输入听觉域能量相减并插值,以作为语音均衡参数。
再进一步地,在本申请的上述指令被处理器执行的过程中,所述步骤S300还包括以下子步骤:
S310)将所述远端子带信号和语音均衡参数作增益乘法,以获得输出子带信号;
S320)对所述输出子带信号作反傅里叶变换以获得全频带信号向量;
S330)对所述全频带信号向量进行所述加窗处理,以获得加窗全频带信号向量;
S340)叠加所述加窗全频带信号向量,以获得输出语音。
本申请的有益效果为:在综合考虑人耳的听觉特性以及环境噪声的影响的基础上,通过在主观感知域的调整而达到改善通话质量的效果。
附图说明
图1所示为本申请所公开的自适应通话音量控制方法的方法流程图;
图2所示为图1所示方法的一个应用场景示意图;
图3所示为本申请的一个实施例中,采集远端语音信号和近端语音信号的子方法流程图;
图4所示为本申请的另一个实施例中,形成针对远端语音信号和近端语音信号的语音均衡参数的子方法流程图;
图5所示为在图4所示的子方法中,计算语音均衡参数的子方法流程图;
图6所示为本申请的又一个实施例中,形成输出子带信号的子方法流程图;
图7所示为本申请所公开的自适应通话音量控制装置的模块结构图。
具体实施方式
以下将结合实施例和附图对本申请的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本申请的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本申请中所使用的上、下、左、右等描述仅仅是相对于附图中本申请各组成部分的相互位置关系来说的。在本申请和所附权利要求书中所使用的单数形式的“一种”、“该”和“所述”也旨在包括多数形式,除非上下文清楚地表示其他含义。
此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
应当理解,尽管在本申请中可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本申请范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”。
参照图1所示的方法流程图,本申请所公开的、应用在通话过程中的自适应通话音量控制方法包括以下步骤:
S100)分别采集远端语音信号和近端语音信号,并通过滤波分别提取形成远端子带信号和近端子带信号;
S200)基于远端子带信号和近端子带信号,形成针对远端语音信号和近端语音信号的语音均衡参数;
S300)根据语音均衡参数对远端子带信号作增益乘法,并解码所获得的输出子带信号;
S400)通过扬声器播放解码所述输出子带信号的输出语音。
参照图2所示的示意图,通信设备远端发送过来的远端语音信号和麦克风所采集到的近端语音信号将分别被通信设备的分析单元进行滤波,以相应提取远端子带信号和近端子带信号。其中,可以通过对通话过程中语音信号进行分析,分离出远端语音信号中的远端环境噪音和远端语音,以及近端语音信号的近端环境噪音和近端语音。然后,参数估计单元将基于远端子带信号和近端子带信号形成针对远端语音信号和近端语音信号的语音均衡参数。该语音均衡参数用于增益远端子带信号。增益后的远端子带信号被解码后通过播放器输出。因此,参数估计单元可以基于远端子带信号的噪音及近端子带信号功率谱,形成相应的语音均衡参数,从而通过在主观感知域的调整而达到改善通话质量的效果。
在本申请的上述一个或多个实施例中,所述远端子带信号和所述近端子带信号分别是通过对远端语音信号和近端语音信号这两种语音信号交叠和快速傅里叶变换得到的。具体地,参照图3所示方法流程图,在上述实施例中,所述步骤S100包括以下子步骤:
S110)分别获取远端语音信号x(k)和近端语音信号y(k)在kn时刻至kn-L+1时刻共L个时刻的信号,按照以下方式形成远端语音信号向量
Figure BDA0001944130640000071
和近端语音信号向量
Figure BDA0001944130640000072
Figure BDA0001944130640000073
S120)相应合并时间上连续的R个远端语音信号向量
Figure BDA0001944130640000074
和近端语音信号向量
Figure BDA0001944130640000075
为复合远端语音信号向量
Figure BDA0001944130640000076
和复合近端语音信号向量
Figure BDA0001944130640000077
具体如下
Figure BDA0001944130640000078
S130)按照以下公式对复合远端语音信号向量
Figure BDA0001944130640000079
和复合近端语音信号向量
Figure BDA00019441306400000710
加窗处理,以获得加窗远端语音信号向量
Figure BDA00019441306400000711
和加窗近端语音信号向量
Figure BDA00019441306400000712
Figure BDA00019441306400000713
其中,窗向量
Figure BDA00019441306400000714
为固定值的L×R维向量,且满足
Figure BDA00019441306400000715
S140)分别对加窗远端语音信号向量
Figure BDA0001944130640000081
和加窗近端语音信号向量
Figure BDA0001944130640000082
执行快速傅里叶变换以形成相应的远端子带信号
Figure BDA0001944130640000083
和近端子带信号
Figure BDA0001944130640000084
进一步地,在本申请的上述一个或多个实施例中,用于合并时间上连续远端语音信号向量
Figure BDA0001944130640000085
和近端语音信号向量
Figure BDA0001944130640000086
以形成复合远端语音信号向量
Figure BDA0001944130640000087
和复合近端语音信号向量
Figure BDA0001944130640000088
的个数R为2,以平衡后继步骤计算所得语音均衡参数与周边通话环境的针对性和自身的运算量。相应地,所述语音均衡参数可以是基于远端子带信号的功率谱估计以及近端子带信号的背景噪声估计而确定的,作为实现在主观感知域的调整而达到改善通话质量的基础。
例如,参照图4所示的子方法流程图,在本申请的上述一个或多个实施例中,所述步骤S200还包括以下子步骤:
S210)将远端子带信号和近端子带信号的幅度平方分别通过远端历史向量和近端历史向量进行平滑,并将平滑后的平滑后远端子带信号和近端子带信号作为远端子带信号的远端平滑功率谱,以及近端子带信号的近端平滑功率谱;
S220)将所述远端平滑功率谱和近端平滑功率谱分别映射为人耳感知域的远端临界频带功率谱及近端临界频带功率谱;
S230)分别根据远端平滑功率谱及近端平滑功率谱的频域粗糙度,选取人耳听觉域能量的远端子带信号输入平滑系数和近端子带信号输入平滑系数;
S240)基于远端子带信号输入平滑系数、近端子带信号输入平滑系数、远端临界频带功率谱及近端临界频带功率谱,计算语音均衡参数。
具体地,沿用前述记号,按照如下方式对
Figure BDA0001944130640000089
幅度平方与历史向量数据
Figure BDA00019441306400000810
做平滑处理,以得到新的向量数据
Figure BDA00019441306400000811
作为远端信号功率谱估计(其中α为在区间[0,1]内的实数):
Figure BDA00019441306400000812
然后,可以对远端信号的临界频带作映射,即按照如下公式将属于同一临界频带的子带能量组合相加在一起以分别形成Nb个点的临界频带功率谱
Figure BDA00019441306400000813
并计算其相应的功率谱平坦度
Figure BDA00019441306400000814
Figure BDA00019441306400000815
Figure BDA00019441306400000816
其中,freq(n)=nfs/2L,而
Figure BDA00019441306400000817
表示小于或等于Q的最大整数。Len为所有满足
Figure BDA00019441306400000818
的正整数n的个数,fs为信号的采样频率。在本申请的上述一个或多个实施例中,该采样频率可以是8Khz,即fs=8Khz。相应地,此时Nb可以设置为18。为实现在主观感知域的调整而达到改善通话质量,Bark(F)可以是由线性频率映射到心理声学临界频率的函数。例如,在本申请的上述一个或多个实施例中,该心理声学临界频率的函数可设置为:
Figure BDA0001944130640000091
接着,功率谱平坦度可以如下方式平滑为远端子带信号输入平滑系数
Figure BDA0001944130640000092
Figure BDA0001944130640000093
相应地,在本申请的一个或多个实施例中,近端子带信号的背景噪声可以如下方式估计。首先,按照如下方式将
Figure BDA0001944130640000094
幅度平方在频域做正向和逆向的双向平滑得到新的功率向量
Figure BDA0001944130640000095
Figure BDA0001944130640000096
其中,β为频域平滑系数,在本申请的上述一个或多个实施例中,其可以设置为在区间[0,1]内的实数。然后平滑
Figure BDA0001944130640000097
与历史数据向量
Figure BDA0001944130640000098
以得到新的噪声谱向量
Figure BDA0001944130640000099
并以如下方式构造辅助向量
Figure BDA00019441306400000910
Figure BDA00019441306400000911
Figure BDA00019441306400000912
其中,Δi、Δimin、Δd和Δdmax为平滑系数的增量及减量的相关参数。在本申请的上述一个或多个实施例中,它们可分别选为:1.002、1.002、0.99和0.99。基于上述辅助向量,近端子带信号的噪声功率谱估计
Figure BDA00019441306400000913
可以平滑为:
Figure BDA00019441306400000914
上述噪声功率谱估计
Figure BDA00019441306400000915
可以采用前述类似的方式计算得到近端临界频带功率谱
Figure BDA00019441306400000916
及功率谱平坦度
Figure BDA00019441306400000917
并从而进一步获得背景噪声的近端子带信号输入平滑系数
Figure BDA00019441306400000918
基于上述远端子带信号输入平滑系数
Figure BDA00019441306400000919
近端子带信号输入平滑系数
Figure BDA00019441306400000920
远端临界频带功率谱
Figure BDA00019441306400000921
及近端临界频带功率谱
Figure BDA00019441306400000922
即可计算语音均衡参数
Figure BDA00019441306400000923
进一步地,参照图5所示的子方法流程图,在本申请的上述一个或多个实施例中,语音均衡参数
Figure BDA0001944130640000101
可以如下方式确定:
S241)由所述远端子带信号输入平滑系数平滑远端临界频带功率谱,并选取平滑后的远端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为远端子带信号输入听觉域能量;
S242)由所述近端子带信号输入平滑系数平滑近端临界频带功率谱,并选取平滑后的近端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为近端子带信号输入听觉域能量;
S243)将所述近端子带信号输入听觉能量与所述远端子带信号输入听觉域能量相减并插值,以作为语音均衡参数。
具体地,可以先按照以下方式计算临界频带展宽的远端语音信号及近端语音信号的功率谱:
Figure BDA0001944130640000102
其中,S为Nb×Nb的展宽矩阵。在本申请的上述一个或多个实施例中,其可取为
Figure BDA0001944130640000103
然后,基于上述远端子带信号输入平滑系数
Figure BDA0001944130640000104
和近端子带信号输入平滑系数
Figure BDA0001944130640000105
按照以下方式确定远端子带信号和近端子带信号的偏置向量Ox(k)及On(k):
Figure BDA0001944130640000106
接着,根据上述远端子带信号和近端子带信号偏置向量Ox(k)及On(k),按照以下公式确定远端子带信号和近端子带信号的信号输入听觉能量
Figure BDA0001944130640000107
Figure BDA0001944130640000108
Figure BDA0001944130640000109
其中,
Figure BDA00019441306400001010
为修正向量,设置为:
Figure BDA00019441306400001011
1Nb×1为元素全为1的Nb×1维列向量。
Figure BDA00019441306400001012
为人耳的绝对听觉阈值。
最后,语音均衡参数
Figure BDA00019441306400001013
可以通过对所述近端子带信号输入听觉能量与所述远端子带信号输入听觉域能量按照如下方式相减并插值:
Figure BDA00019441306400001014
以确定最终的语音均衡参数
Figure BDA00019441306400001015
为:
Figure BDA00019441306400001016
参照图6所示的子方法流程图,在本申请的上述一个或多个实施例中,所述步骤S300还包括以下子步骤:
S310)将所述远端子带信号和语音均衡参数作增益乘法,以获得输出子带信号;
S320)对所述输出子带信号作反傅里叶变换以获得全频带信号向量;
S330)对所述全频带信号向量进行所述加窗处理,以获得加窗全频带信号向量;
S340)叠加所述加窗全频带信号向量,以获得输出语音。
具体地,上述所得的语音均衡参数
Figure BDA0001944130640000111
可以如下方式应用到远端语音信号。首先,按照如下方式将所述远端子带信号
Figure BDA0001944130640000112
和语音均衡参数
Figure BDA0001944130640000113
作增益乘法,以获得输出子带信号
Figure BDA0001944130640000114
Figure BDA0001944130640000115
其次,由于上述分别从对远端语音信号和近端语音信号中提取远端子带信号和所述近端子带信号的过程是可逆,因此可以按照其对应的拟过程来获得输出语音,即对子带信号向量
Figure BDA0001944130640000116
做反傅里叶变换以得到全频带信号向量
Figure BDA0001944130640000117
然后对全频带信号向量
Figure BDA0001944130640000118
加窗得到信号向量
Figure BDA0001944130640000119
Figure BDA00019441306400001110
其中,窗向量
Figure BDA00019441306400001111
与前面加窗处理时所采用的窗向量相同。此时,信号向量
Figure BDA00019441306400001112
的前L个点与历史信号向量
Figure BDA00019441306400001113
相加以得到输出语音zf(n),并将
Figure BDA00019441306400001114
更新为
Figure BDA00019441306400001115
的后L个点。历史信号向量
Figure BDA00019441306400001116
为与L个点相对应的向量。该历史信号向量
Figure BDA00019441306400001117
可以初始化为零向量。上述处理过程的具体变换方式如下:
Figure BDA00019441306400001118
最后,通信设备的播放器将播放解码出来的zf(n)。
参照图7所示的模块结构图,本申请所公开的、应用在通话过程中的自适应通话音量控制装置包括以下模块:采样模块,用于分别采集远端语音信号和近端语音信号,并通过滤波分别提取形成远端子带信号和近端子带信号;均衡模块,用于基于远端子带信号和近端子带信号,形成针对远端语音信号和近端语音信号的语音均衡参数;调整模块,用于根据语音均衡参数对远端子带信号作增益乘法,并解码所获得的输出子带信号以形成输出语音;输出模块,用于通过扬声器播放解码所述输出子带信号的输出语音。参照图2所示的示意图,通信设备远端发送过来的远端语音信号和麦克风所采集到的近端语音信号将分别被通信设备的分析单元进行滤波,以相应提取远端子带信号和近端子带信号。其中,可以通过对通话过程中语音信号进行分析,分离出远端语音信号中的远端环境噪音和远端语音,以及近端语音信号的近端环境噪音和近端语音。然后,参数估计单元将基于远端子带信号和近端子带信号形成针对远端语音信号和近端语音信号的语音均衡参数。该语音均衡参数用于增益远端子带信号。增益后的远端子带信号被解码后通过播放器输出。因此,参数估计单元可以基于远端子带信号的噪音及近端子带信号功率谱,形成相应的语音均衡参数,从而通过在主观感知域的调整而达到改善通话质量的效果。
在本申请的上述一个或多个实施例中,所述远端子带信号和所述近端子带信号分别是通过对远端语音信号和近端语音信号这两种语音信号交叠和快速傅里叶变换得到的。具体地,在上述实施例中,所述采样模块包括以下子模块:成帧模块,用于分别获取远端语音信号x(k)和近端语音信号y(k)在kn时刻至kn-L+1时刻共L个时刻的信号,按照以下方式形成远端语音信号向量
Figure BDA0001944130640000121
和近端语音信号向量
Figure BDA0001944130640000122
Figure BDA0001944130640000123
重叠模块,用于相应合并时间上连续的R个远端语音信号向量
Figure BDA0001944130640000124
和近端语音信号向量
Figure BDA0001944130640000125
为复合远端语音信号向量
Figure BDA0001944130640000126
和复合近端语音信号向量
Figure BDA0001944130640000127
具体如下
Figure BDA0001944130640000128
加窗模块,用于按照以下公式对复合远端语音信号向量
Figure BDA0001944130640000129
和复合近端语音信号向量
Figure BDA00019441306400001210
加窗处理,以获得加窗远端语音信号向量
Figure BDA00019441306400001211
和加窗近端语音信号向量
Figure BDA00019441306400001212
Figure BDA00019441306400001213
其中,窗向量
Figure BDA00019441306400001214
为固定值的L×R维向量,且满足
Figure BDA00019441306400001215
变换模块,用于分别对加窗远端语音信号向量
Figure BDA00019441306400001216
和加窗近端语音信号向量
Figure BDA00019441306400001217
执行快速傅里叶变换以形成相应的远端子带信号
Figure BDA00019441306400001218
和近端子带信号
Figure BDA00019441306400001219
进一步地,在本申请的上述一个或多个实施例中,用于合并时间上连续远端语音信号向量
Figure BDA00019441306400001220
和近端语音信号向量
Figure BDA00019441306400001221
以形成复合远端语音信号向量
Figure BDA00019441306400001222
和复合近端语音信号向量
Figure BDA00019441306400001223
的个数R为2,以平衡后继步骤计算所得语音均衡参数与周边通话环境的针对性和自身的运算量。相应地,所述语音均衡参数可以是基于远端子带信号的功率谱估计以及近端子带信号的背景噪声估计而确定的,作为实现在主观感知域的调整而达到改善通话质量的基础。
例如,在本申请的上述一个或多个实施例中,所述均衡模块还包括以下子模块:平滑模块,用于将远端子带信号和近端子带信号的幅度平方分别通过远端历史向量和近端历史向量进行平滑,并将平滑后的平滑后远端子带信号和近端子带信号作为远端子带信号的远端平滑功率谱,以及近端子带信号的近端平滑功率谱;估计模块,用于将所述远端平滑功率谱和近端平滑功率谱分别映射为人耳感知域的远端临界频带功率谱及近端临界频带功率谱;选取模块,用于分别根据远端平滑功率谱及近端平滑功率谱的频域粗糙度,选取人耳听觉域能量的远端子带信号输入平滑系数和近端子带信号输入平滑系数;确定模块,用于基于远端子带信号输入平滑系数、近端子带信号输入平滑系数、远端临界频带功率谱及近端临界频带功率谱,计算语音均衡参数。具体地,沿用前述记号,按照如下方式对
Figure BDA0001944130640000131
幅度平方与历史向量数据
Figure BDA0001944130640000132
做平滑处理,以得到新的向量数据
Figure BDA0001944130640000133
作为远端信号功率谱估计(其中α为在区间[0,1]内的实数):
Figure BDA0001944130640000134
然后,可以对远端信号的临界频带作映射,即按照如下公式将属于同一临界频带的子带能量组合相加在一起以分别形成Nb个点的临界频带功率谱
Figure BDA0001944130640000135
并计算其相应的功率谱平坦度
Figure BDA0001944130640000136
Figure BDA0001944130640000137
Figure BDA0001944130640000138
其中,freq(n)=nfs/2L,而
Figure BDA0001944130640000139
表示小于或等于Q的最大整数。Len为所有满足
Figure BDA00019441306400001310
的正整数n的个数,fs为信号的采样频率。在本申请的上述一个或多个实施例中,该采样频率可以是8Khz,即fs=8Khz。相应地,此时Nb可以设置为18。为实现在主观感知域的调整而达到改善通话质量,Bark(F)可以是由线性频率映射到心理声学临界频率的函数。例如,在本申请的上述一个或多个实施例中,该心理声学临界频率的函数可设置为:
Figure BDA00019441306400001311
接着,功率谱平坦度可以如下方式平滑为远端子带信号输入平滑系数
Figure BDA00019441306400001312
Figure BDA00019441306400001313
相应地,在本申请的一个或多个实施例中,近端子带信号的背景噪声可以如下方式估计。首先,按照如下方式将
Figure BDA00019441306400001314
幅度平方在频域做正向和逆向的双向平滑得到新的功率向量
Figure BDA00019441306400001315
Figure BDA0001944130640000141
其中,β为频域平滑系数,在本申请的上述一个或多个实施例中,其可以设置为在区间[0,1]内的实数。然后平滑
Figure BDA0001944130640000142
与历史数据向量
Figure BDA0001944130640000143
以得到新的噪声谱向量
Figure BDA0001944130640000144
并以如下方式构造辅助向量
Figure BDA0001944130640000145
Figure BDA0001944130640000146
Figure BDA0001944130640000147
其中,Δi、Δimin、Δd和Δdmax为平滑系数的增量及减量的相关参数。在本申请的上述一个或多个实施例中,它们可分别选为:1.002、1.002、0.99和0.99。基于上述辅助向量,近端子带信号的噪声功率谱估计
Figure BDA0001944130640000148
可以平滑为:
Figure BDA0001944130640000149
上述噪声功率谱估计
Figure BDA00019441306400001410
可以采用前述类似的方式计算得到近端临界频带功率谱
Figure BDA00019441306400001411
及功率谱平坦度
Figure BDA00019441306400001412
并从而进一步获得背景噪声的近端子带信号输入平滑系数
Figure BDA00019441306400001413
基于上述远端子带信号输入平滑系数
Figure BDA00019441306400001414
近端子带信号输入平滑系数
Figure BDA00019441306400001415
远端临界频带功率谱
Figure BDA00019441306400001416
及近端临界频带功率谱
Figure BDA00019441306400001417
即可计算语音均衡参数
Figure BDA00019441306400001418
进一步地,在本申请的上述一个或多个实施例中,语音均衡参数
Figure BDA00019441306400001419
可以由确定模块的以下子模块确定:第一执行模块,用于由所述远端子带信号输入平滑系数平滑远端临界频带功率谱,并选取平滑后的远端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为远端子带信号输入听觉域能量;第二执行模块,用于由所述近端子带信号输入平滑系数平滑近端临界频带功率谱,并选取平滑后的近端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为近端子带信号输入听觉域能量;插值模块,用于将所述近端子带信号输入听觉能量与所述远端子带信号输入听觉域能量相减并插值,以作为语音均衡参数。具体地,可以先按照以下方式计算临界频带展宽的远端语音信号及近端语音信号的功率谱:
Figure BDA00019441306400001420
其中,S为Nb×Nb的展宽矩阵。在本申请的上述一个或多个实施例中,其可取为
Figure BDA0001944130640000151
然后,基于上述远端子带信号输入平滑系数
Figure BDA0001944130640000152
和近端子带信号输入平滑系数
Figure BDA0001944130640000153
按照以下方式确定远端子带信号和近端子带信号的偏置向量Ox(k)及On(k):
Figure BDA0001944130640000154
接着,根据上述远端子带信号和近端子带信号偏置向量Ox(k)及On(k),按照以下公式确定远端子带信号和近端子带信号的信号输入听觉能量
Figure BDA0001944130640000155
Figure BDA0001944130640000156
Figure BDA0001944130640000157
其中,
Figure BDA0001944130640000158
为修正向量,设置为:
Figure BDA0001944130640000159
1Nb×1为元素全为1的Nb×1维列向量。
Figure BDA00019441306400001510
为人耳的绝对听觉阈值。
最后,语音均衡参数
Figure BDA00019441306400001511
可以通过对所述近端子带信号输入听觉能量与所述远端子带信号输入听觉域能量按照如下方式相减并插值:
Figure BDA00019441306400001512
以确定最终的语音均衡参数
Figure BDA00019441306400001513
为:
Figure BDA00019441306400001514
在本申请的上述一个或多个实施例中,所述调整模块还包括以下子模块:增益模块,用于将所述远端子带信号和语音均衡参数作增益乘法,以获得输出子带信号;反变换模块,用于对所述输出子带信号作反傅里叶变换以获得全频带信号向量;反加窗模块,用于对所述全频带信号向量进行所述加窗处理,以获得加窗全频带信号向量;反叠加模块,用于叠加所述加窗全频带信号向量,以获得输出语音。具体地,上述所得的语音均衡参数
Figure BDA00019441306400001515
可以如下方式应用到远端语音信号。首先,按照如下方式将所述远端子带信号
Figure BDA00019441306400001516
和语音均衡参数
Figure BDA00019441306400001517
作增益乘法,以获得输出子带信号
Figure BDA00019441306400001518
Figure BDA00019441306400001519
其次,由于上述分别从对远端语音信号和近端语音信号中提取远端子带信号和所述近端子带信号的过程是可逆,因此可以按照其对应的拟过程来获得输出语音,即对子带信号向量
Figure BDA00019441306400001520
做反傅里叶变换以得到全频带信号向量
Figure BDA00019441306400001521
然后对全频带信号向量
Figure BDA00019441306400001522
加窗得到信号向量
Figure BDA0001944130640000161
Figure BDA0001944130640000162
其中,窗向量
Figure BDA0001944130640000163
与前面加窗处理时所采用的窗向量相同。此时,信号向量
Figure BDA0001944130640000164
的前L个点与历史信号向量
Figure BDA0001944130640000165
相加以得到输出语音zf(n),并将
Figure BDA0001944130640000166
更新为
Figure BDA0001944130640000167
的后L个点。历史信号向量
Figure BDA0001944130640000168
为与L个点相对应的向量。该历史信号向量
Figure BDA0001944130640000169
可以初始化为零向量。上述处理过程的具体变换方式如下:
Figure BDA00019441306400001610
最后,通信设备的播放器将播放解码出来的zf(n)。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (8)

1.一种自适应通话音量控制方法,其特征在于,包括以下步骤:
S100)分别采集远端语音信号和近端语音信号,并通过滤波分别提取形成远端子带信号和近端子带信号;
S200)基于远端子带信号和近端子带信号,形成针对远端语音信号和近端语音信号的语音均衡参数;
S300)根据语音均衡参数对远端子带信号作增益乘法,并解码所获得的输出子带信号;
S400)通过扬声器播放解码所述输出子带信号的输出语音;
其中,所述远端子带信号和所述近端子带信号分别是通过对远端语音信号和近端语音信号这两种语音信号交叠和快速傅里叶变换得到的;以及
其中,所述步骤S100包括以下子步骤:
S110)分别获取远端语音信号和近端语音信号在多个时刻的信号,以形成远端语音信号向量和近端语音信号向量;
S120)相应合并时间上连续的R个远端语音信号向量和近端语音信号向量为复合远端语音信号向量和复合近端语音信号向量;
S130)对复合远端语音信号向量和复合近端语音信号向量加窗处理,以获得加窗远端语音信号向量和加窗近端语音信号向量;
S140)分别对加窗远端语音信号向量和加窗近端语音信号向量执行快速傅里叶变换以形成相应的远端子带信号和近端子带信号。
2.根据权利要求1所述的方法,其特征在于,用于合并时间上连续远端语音信号向量和近端语音信号向量以形成复合远端语音信号向量和复合近端语音信号向量的个数R为2。
3.根据权利要求1或2所述的方法,其特征在于,所述语音均衡参数是基于远端子带信号的功率谱估计以及近端子带信号的背景噪声估计而确定的。
4.根据权利要求3所述的方法,其特征在于,所述步骤S200还包括以下子步骤:
S210)将远端子带信号和近端子带信号的幅度平方分别通过远端历史向量和近端历史向量进行平滑,并将平滑后的远端子带信号和近端子带信号作为远端子带信号的远端平滑功率谱,以及近端子带信号的近端平滑功率谱;
S220)将所述远端平滑功率谱和近端平滑功率谱分别映射为人耳感知域的远端临界频带功率谱及近端临界频带功率谱;
S230)分别根据远端平滑功率谱及近端平滑功率谱的频域粗糙度,选取人耳听觉域能量的远端子带信号输入平滑系数和近端子带信号输入平滑系数;
S240)基于远端子带信号输入平滑系数、近端子带信号输入平滑系数、远端临界频带功率谱及近端临界频带功率谱,计算语音均衡参数。
5.根据权利要求4所述的方法,其特征在于,所述步骤S240还包括以下子步骤:
S241)由所述远端子带信号输入平滑系数平滑远端临界频带功率谱,并选取平滑后的远端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为远端子带信号输入听觉域能量;
S242)由所述近端子带信号输入平滑系数平滑近端临界频带功率谱,并选取平滑后的近端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为近端子带信号输入听觉域能量;
S243)将近端子带信号输入听觉域能量与所述远端子带信号输入听觉域能量相减并插值,以作为语音均衡参数。
6.根据权利要求4或5所述的方法,其特征在于,所述步骤S300还包括以下子步骤:
S310)将所述远端子带信号和语音均衡参数作增益乘法,以获得输出子带信号;
S320)对所述输出子带信号作反傅里叶变换以获得全频带信号向量;
S330)对所述全频带信号向量进行所述加窗处理,以获得加窗全频带信号向量;
S340)叠加所述加窗全频带信号向量,以获得输出语音。
7.一种自适应通话音量控制装置,其特征在于,包括以下模块:
采样模块,用于分别采集远端语音信号和近端语音信号,并通过滤波分别提取形成远端子带信号和近端子带信号;
均衡模块,用于基于远端子带信号和近端子带信号,形成针对远端语音信号和近端语音信号的语音均衡参数;
调整模块,用于根据语音均衡参数对远端子带信号作增益乘法,并解码所获得的输出子带信号以形成输出语音;
输出模块,用于通过扬声器播放解码所述输出子带信号的输出语音;
其中,所述远端子带信号和所述近端子带信号分别是通过对远端语音信号和近端语音信号这两种语音信号交叠和快速傅里叶变换得到的;以及
其中,所述采样模块包括以下子模块:
成帧模块,用于分别获取远端语音信号和近端语音信号在多个时刻的信号,以形成远端语音信号向量和近端语音信号向量;
重叠模块,用于相应合并时间上连续的R个远端语音信号向量和近端语音信号向量为复合远端语音信号向量和复合近端语音信号向量;
加窗模块,用于对复合远端语音信号向量和复合近端语音信号向量加窗处理,以获得加窗远端语音信号向量和加窗近端语音信号向量;
变换模块,用于分别对加窗远端语音信号向量和加窗近端语音信号向量执行快速傅里叶变换以形成相应的远端子带信号和近端子带信号。
8.一种计算机可读存储介质,其上存储有计算机指令,其特征在于该指令被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。
CN201910030712.0A 2019-01-14 2019-01-14 一种自适应通话音量控制方法及装置 Active CN109994104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910030712.0A CN109994104B (zh) 2019-01-14 2019-01-14 一种自适应通话音量控制方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910030712.0A CN109994104B (zh) 2019-01-14 2019-01-14 一种自适应通话音量控制方法及装置

Publications (2)

Publication Number Publication Date
CN109994104A CN109994104A (zh) 2019-07-09
CN109994104B true CN109994104B (zh) 2021-05-14

Family

ID=67129886

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910030712.0A Active CN109994104B (zh) 2019-01-14 2019-01-14 一种自适应通话音量控制方法及装置

Country Status (1)

Country Link
CN (1) CN109994104B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111312275B (zh) * 2020-02-13 2023-04-25 大连理工大学 一种基于子带分解的在线声源分离增强系统

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067927A (zh) * 2007-04-19 2007-11-07 北京中星微电子有限公司 音量调整方法及装置
CN104685563A (zh) * 2012-09-02 2015-06-03 质音公司 用于嘈杂环境噪里的回放的音频信号整形
US9076456B1 (en) * 2007-12-21 2015-07-07 Audience, Inc. System and method for providing voice equalization
CN105577961A (zh) * 2014-10-31 2016-05-11 想象技术有限公司 增益控制器的自动调谐
CN105791611A (zh) * 2016-02-22 2016-07-20 腾讯科技(深圳)有限公司 回声消除方法及装置
CN106657507A (zh) * 2015-11-03 2017-05-10 中移(杭州)信息技术有限公司 一种声学回声消除方法及装置
US20170243598A1 (en) * 2016-02-19 2017-08-24 Imagination Technologies Limited Controlling Analogue Gain Using Digital Gain Estimation
CN107888792A (zh) * 2017-10-19 2018-04-06 浙江大华技术股份有限公司 一种回声消除方法、装置及系统
CN108134863A (zh) * 2017-12-26 2018-06-08 中山大学花都产业科技研究院 一种基于双统计量的改进型双端检测装置及检测方法
WO2018174310A1 (ko) * 2017-03-22 2018-09-27 삼성전자 주식회사 잡음 환경에 적응적인 음성 신호 처리방법 및 장치

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067927A (zh) * 2007-04-19 2007-11-07 北京中星微电子有限公司 音量调整方法及装置
US9076456B1 (en) * 2007-12-21 2015-07-07 Audience, Inc. System and method for providing voice equalization
CN104685563A (zh) * 2012-09-02 2015-06-03 质音公司 用于嘈杂环境噪里的回放的音频信号整形
CN105577961A (zh) * 2014-10-31 2016-05-11 想象技术有限公司 增益控制器的自动调谐
CN106657507A (zh) * 2015-11-03 2017-05-10 中移(杭州)信息技术有限公司 一种声学回声消除方法及装置
US20170243598A1 (en) * 2016-02-19 2017-08-24 Imagination Technologies Limited Controlling Analogue Gain Using Digital Gain Estimation
CN105791611A (zh) * 2016-02-22 2016-07-20 腾讯科技(深圳)有限公司 回声消除方法及装置
WO2018174310A1 (ko) * 2017-03-22 2018-09-27 삼성전자 주식회사 잡음 환경에 적응적인 음성 신호 처리방법 및 장치
CN107888792A (zh) * 2017-10-19 2018-04-06 浙江大华技术股份有限公司 一种回声消除方法、装置及系统
CN108134863A (zh) * 2017-12-26 2018-06-08 中山大学花都产业科技研究院 一种基于双统计量的改进型双端检测装置及检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"modeling external volume changes in stereo echo cancellers";Elias Nemer;《international workshop on acoustic signal enhancement》;20121231;全文 *
"非均匀子带自适应噪声抵消技术研究";戴志美;《中国优秀硕士学位论文全文数据库信息科技辑》;20160115(第1期);全文 *

Also Published As

Publication number Publication date
CN109994104A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
KR100800725B1 (ko) 이동통신 단말의 오디오 재생시 주변 잡음에 적응하는 자동음량 조절 방법 및 장치
US9502048B2 (en) Adaptively reducing noise to limit speech distortion
US9361901B2 (en) Integrated speech intelligibility enhancement system and acoustic echo canceller
US10043533B2 (en) Method and device for boosting formants from speech and noise spectral estimation
AU771444B2 (en) Noise reduction apparatus and method
US9076456B1 (en) System and method for providing voice equalization
US8521530B1 (en) System and method for enhancing a monaural audio signal
US20120263317A1 (en) Systems, methods, apparatus, and computer readable media for equalization
US7869587B2 (en) Method and apparatus for canceling acoustic echo in a mobile terminal
US9699554B1 (en) Adaptive signal equalization
US9532149B2 (en) Method of signal processing in a hearing aid system and a hearing aid system
EP1769492A1 (en) Comfort noise generator using modified doblinger noise estimate
KR20190057052A (ko) 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치
KR101694225B1 (ko) 스테레오 신호를 결정하는 방법
CN109994104B (zh) 一种自适应通话音量控制方法及装置
US20060184361A1 (en) Method and apparatus for reducing an interference noise signal fraction in a microphone signal
US8406430B2 (en) Simulated background noise enabled echo canceller
JP4413205B2 (ja) エコー抑圧方法、装置、エコー抑圧プログラム、記録媒体
CN112437957A (zh) 用于全面收听的强加间隙插入
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
JP4209348B2 (ja) エコー抑圧方法、この方法を実施する装置、プログラムおよび記録媒体
Vashkevich et al. Speech enhancement in a smartphone-based hearing aid
CN115713942A (zh) 音频处理方法、装置、计算设备及介质
Sudo et al. Nonlinear Acoustic Echo Suppression Based on Spectrum Selection Using the Amount of Linear Echo Cancellation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant