CN109994104B - 一种自适应通话音量控制方法及装置 - Google Patents
一种自适应通话音量控制方法及装置 Download PDFInfo
- Publication number
- CN109994104B CN109994104B CN201910030712.0A CN201910030712A CN109994104B CN 109994104 B CN109994104 B CN 109994104B CN 201910030712 A CN201910030712 A CN 201910030712A CN 109994104 B CN109994104 B CN 109994104B
- Authority
- CN
- China
- Prior art keywords
- far
- sub
- signal
- band signal
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
Abstract
本申请提出一种自适应通话音量控制方法,包括以下步骤:分别采集远端语音信号和近端语音信号,并通过滤波分别提取形成远端子带信号和近端子带信号;基于远端子带信号和近端子带信号,形成针对远端语音信号和近端语音信号的语音均衡参数;根据语音均衡参数对远端子带信号作增益乘法,并解码所获得的输出子带信号;通过扬声器播放解码所述输出子带信号的输出语音。本申请还相应提出一种自适应通话音量控制装置。本申请的有益效果为:在综合考虑人耳的听觉特性以及环境噪声的影响的基础上,通过在主观感知域的调整而达到改善通话质量的效果。
Description
技术领域
本发明涉及语音信号处理领域,尤其涉及一种在通话过程中的自适应通话音量控制方法及装置。
背景技术
随着移动网络的发展及消费类电子的便携移动化越来越明显,如今人们的通信方式越来越多样化。语音通信作为一项最基础的通信方式也变得随处可行,语音通信的环境和场景也变得越来越复杂。人们可以在家里、办公室、地铁站、工厂内等随处进行语音通话。这些复杂的使用场景所面临的一个典型的问题就是噪声问题。
现在的通信设备一般都考虑到这些噪声问题。普遍地,相关通信设备都或多或少地包含降噪技术用于噪声抑制或消除。这使得在语音通信过程中,远端能够比较清晰地听到近端说话人的语音。不过这些技术多数是为了提高远端的通话质量或者实现通话控制,而考虑近端说话人的通话质量并不多。例如,在某些场景下环境噪声很大,同时远端说话人的语音经近端扬声器、受话器或耳机重放出来后远远小于环境噪声。这些时候,近端的通话质量同样是无法忍受的。
传统的处理方法是,近端重放的语音一般会通过自动增益控制或者由近端说话人手动调整音量来改善通话质量。然而,在自动增益控制的方法中,现有方案一般仅仅会考虑数字域的数字信号需要达到什么样的幅度水平,而对环境噪声的大小以及重放出来的声压级及响度问题并不会考虑。这样会导致主观听感并不一定会被完全改善。譬如在相对安静的环境下,声音经自动增益孔处理后会被过度放大;而在过于嘈杂的环境下,声音经自动增益控制处理后的则显得较小。类似地,人为手动地控制音量的方法则也会有这些问题,并且不够方便。这是由于手动控制音量仅仅会对全频带信号做线性放大,然而一个被公知的事实是,人耳对不同频率的感知响度是不一致的。这同样使手动控制音量的方法带来的通话质量改善有限。
发明内容
本申请的目的是为了解决现有技术的不足,提供一种自适应通话音量控制方法及装置,能够获得基于人耳的听觉特性及环境噪音的影响,而更有针对性地改善通话质量的效果。
为了实现上述目的,本申请采用以下的技术方案。
首先,本申请提出一种自适应通话音量控制方法。该方法包括以下步骤:
S100)分别采集远端语音信号和近端语音信号,并通过滤波分别提取形成远端子带信号和近端子带信号;
S200)基于远端子带信号和近端子带信号,形成针对远端语音信号和近端语音信号的语音均衡参数;
S300)根据语音均衡参数对远端子带信号作增益乘法,并解码所获得的输出子带信号;
S400)通过扬声器播放解码所述输出子带信号的输出语音。
进一步地,在本申请的上述方法中,所述步骤S100包括以下子步骤:
S110)分别获取远端语音信号和近端语音信号在多个时刻的信号,以形成远端语音信号向量和近端语音信号向量;
S120)相应合并时间上连续的R个远端语音信号向量和近端语音信号向量为复合远端语音信号向量和复合近端语音信号向量;
S130)对复合远端语音信号向量和复合近端语音信号向量加窗处理,以获得加窗远端语音信号向量和加窗近端语音信号向量;
S140)分别对加窗远端语音信号向量和加窗近端语音信号向量执行快速傅里叶变换以形成相应的远端子带信号和近端子带信号。
进一步地,在本申请的上述方法中,用于合并时间上连续远端语音信号向量和近端语音信号向量以形成复合远端语音信号向量和复合近端语音信号向量的个数R为2。
可替代地,在本申请的上述方法中,所述语音均衡参数是基于远端子带信号的功率谱估计以及近端子带信号的背景噪声估计而确定的。
进一步地,在本申请的上述方法中,所述步骤S200还包括以下子步骤:
S210)将远端子带信号和近端子带信号的幅度平方分别通过远端历史向量和近端历史向量进行平滑,并将平滑后的平滑后远端子带信号和近端子带信号作为远端子带信号的远端平滑功率谱,以及近端子带信号的近端平滑功率谱;
S220)将所述远端平滑功率谱和近端平滑功率谱分别映射为人耳感知域的远端临界频带功率谱及近端临界频带功率谱;
S230)分别根据远端平滑功率谱及近端平滑功率谱的频域粗糙度,选取人耳听觉域能量的远端子带信号输入平滑系数和近端子带信号输入平滑系数;
S240)基于远端子带信号输入平滑系数、近端子带信号输入平滑系数、远端临界频带功率谱及近端临界频带功率谱,计算语音均衡参数。
进一步地,在本申请的上述方法中,所述步骤S240还包括以下子步骤:
S241)由所述远端子带信号输入平滑系数平滑远端临界频带功率谱,并选取平滑后的远端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为远端子带信号输入听觉域能量;
S242)由所述近端子带信号输入平滑系数平滑近端临界频带功率谱,并选取平滑后的近端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为近端子带信号输入听觉域能量;
S243)将所述近端子带信号输入听觉能量与所述远端子带信号输入听觉域能量相减并插值,以作为语音均衡参数。
再进一步地,在本申请的上述方法中,所述步骤S300还包括以下子步骤:
S310)将所述远端子带信号和语音均衡参数作增益乘法,以获得输出子带信号;
S320)对所述输出子带信号作反傅里叶变换以获得全频带信号向量;
S330)对所述全频带信号向量进行所述加窗处理,以获得加窗全频带信号向量;
S340)叠加所述加窗全频带信号向量,以获得输出语音。
其次,本申请提出一种自适应通话音量控制装置。该装置包括以下模块:采样模块,用于分别采集远端语音信号和近端语音信号,并通过滤波分别提取形成远端子带信号和近端子带信号;均衡模块,用于基于远端子带信号和近端子带信号,形成针对远端语音信号和近端语音信号的语音均衡参数;调整模块,用于根据语音均衡参数对远端子带信号作增益乘法,并解码所获得的输出子带信号以形成输出语音;输出模块,用于通过扬声器播放解码所述输出子带信号的输出语音。
进一步地,在本申请的上述装置中,所述采样模块包括以下子模块:成帧模块,用于分别获取远端语音信号和近端语音信号在多个时刻的信号,以形成远端语音信号向量和近端语音信号向量;重叠模块,用于相应合并时间上连续的R个远端语音信号向量和近端语音信号向量为复合远端语音信号向量和复合近端语音信号向量;加窗模块,用于对复合远端语音信号向量和复合近端语音信号向量加窗处理,以获得加窗远端语音信号向量和加窗近端语音信号向量;变换模块,用于分别对加窗远端语音信号向量和加窗近端语音信号向量执行快速傅里叶变换以形成相应的远端子带信号和近端子带信号。
进一步地,在本申请的上述装置中,用于合并时间上连续远端语音信号向量和近端语音信号向量以形成复合远端语音信号向量和复合近端语音信号向量的个数R为2。
可替代地,在本申请的上述装置中,所述语音均衡参数是基于远端子带信号的功率谱估计以及近端子带信号的背景噪声估计而确定的。
进一步地,在本申请的上述装置中,所述均衡模块还包括以下子模块:平滑模块,用于将远端子带信号和近端子带信号的幅度平方分别通过远端历史向量和近端历史向量进行平滑,并将平滑后的平滑后远端子带信号和近端子带信号作为远端子带信号的远端平滑功率谱,以及近端子带信号的近端平滑功率谱;估计模块,用于将所述远端平滑功率谱和近端平滑功率谱分别映射为人耳感知域的远端临界频带功率谱及近端临界频带功率谱;选取模块,用于分别根据远端平滑功率谱及近端平滑功率谱的频域粗糙度,选取人耳听觉域能量的远端子带信号输入平滑系数和近端子带信号输入平滑系数;确定模块,用于基于远端子带信号输入平滑系数、近端子带信号输入平滑系数、远端临界频带功率谱及近端临界频带功率谱,计算语音均衡参数。
进一步地,在本申请的上述装置中,所述确定模块还包括以下子模块:第一执行模块,用于由所述远端子带信号输入平滑系数平滑远端临界频带功率谱,并选取平滑后的远端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为远端子带信号输入听觉域能量;第二执行模块,用于由所述近端子带信号输入平滑系数平滑近端临界频带功率谱,并选取平滑后的近端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为近端子带信号输入听觉域能量;插值模块,用于将所述近端子带信号输入听觉能量与所述远端子带信号输入听觉域能量相减并插值,以作为语音均衡参数。
再进一步地,在本申请的上述装置中,所述调整模块还包括以下子模块:增益模块,用于将所述远端子带信号和语音均衡参数作增益乘法,以获得输出子带信号;反变换模块,用于对所述输出子带信号作反傅里叶变换以获得全频带信号向量;反加窗模块,用于对所述全频带信号向量进行所述加窗处理,以获得加窗全频带信号向量;反叠加模块,用于叠加所述加窗全频带信号向量,以获得输出语音。
最后,本申请还提出一种计算机可读存储介质,其上存储有计算机指令。上述指令被处理器执行时,执行如下步骤:
S100)分别采集远端语音信号和近端语音信号,并通过滤波分别提取形成远端子带信号和近端子带信号;
S200)基于远端子带信号和近端子带信号,形成针对远端语音信号和近端语音信号的语音均衡参数;
S300)根据语音均衡参数对远端子带信号作增益乘法,并解码所获得的输出子带信号;
S400)通过扬声器播放解码所述输出子带信号的输出语音。
进一步地,在本申请的上述指令被处理器执行的过程中,所述步骤S100包括以下子步骤:
S110)分别获取远端语音信号和近端语音信号在多个时刻的信号,以形成远端语音信号向量和近端语音信号向量;
S120)相应合并时间上连续的R个远端语音信号向量和近端语音信号向量为复合远端语音信号向量和复合近端语音信号向量;
S130)对复合远端语音信号向量和复合近端语音信号向量加窗处理,以获得加窗远端语音信号向量和加窗近端语音信号向量;
S140)分别对加窗远端语音信号向量和加窗近端语音信号向量执行快速傅里叶变换以形成相应的远端子带信号和近端子带信号。
进一步地,在本申请的上述指令被处理器执行的过程中,用于合并时间上连续远端语音信号向量和近端语音信号向量以形成复合远端语音信号向量和复合近端语音信号向量的个数R为2。
可替代地,在本申请的上述指令被处理器执行的过程中,所述语音均衡参数是基于远端子带信号的功率谱估计以及近端子带信号的背景噪声估计而确定的。
进一步地,在本申请的上述指令被处理器执行的过程中,所述步骤S200还包括以下子步骤:
S210)将远端子带信号和近端子带信号的幅度平方分别通过远端历史向量和近端历史向量进行平滑,并将平滑后的平滑后远端子带信号和近端子带信号作为远端子带信号的远端平滑功率谱,以及近端子带信号的近端平滑功率谱;
S220)将所述远端平滑功率谱和近端平滑功率谱分别映射为人耳感知域的远端临界频带功率谱及近端临界频带功率谱;
S230)分别根据远端平滑功率谱及近端平滑功率谱的频域粗糙度,选取人耳听觉域能量的远端子带信号输入平滑系数和近端子带信号输入平滑系数;
S240)基于远端子带信号输入平滑系数、近端子带信号输入平滑系数、远端临界频带功率谱及近端临界频带功率谱,计算语音均衡参数。
进一步地,在本申请的上述指令被处理器执行的过程中,所述步骤S240还包括以下子步骤:
S241)由所述远端子带信号输入平滑系数平滑远端临界频带功率谱,并选取平滑后的远端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为远端子带信号输入听觉域能量;
S242)由所述近端子带信号输入平滑系数平滑近端临界频带功率谱,并选取平滑后的近端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为近端子带信号输入听觉域能量;
S243)将所述近端子带信号输入听觉能量与所述远端子带信号输入听觉域能量相减并插值,以作为语音均衡参数。
再进一步地,在本申请的上述指令被处理器执行的过程中,所述步骤S300还包括以下子步骤:
S310)将所述远端子带信号和语音均衡参数作增益乘法,以获得输出子带信号;
S320)对所述输出子带信号作反傅里叶变换以获得全频带信号向量;
S330)对所述全频带信号向量进行所述加窗处理,以获得加窗全频带信号向量;
S340)叠加所述加窗全频带信号向量,以获得输出语音。
本申请的有益效果为:在综合考虑人耳的听觉特性以及环境噪声的影响的基础上,通过在主观感知域的调整而达到改善通话质量的效果。
附图说明
图1所示为本申请所公开的自适应通话音量控制方法的方法流程图;
图2所示为图1所示方法的一个应用场景示意图;
图3所示为本申请的一个实施例中,采集远端语音信号和近端语音信号的子方法流程图;
图4所示为本申请的另一个实施例中,形成针对远端语音信号和近端语音信号的语音均衡参数的子方法流程图;
图5所示为在图4所示的子方法中,计算语音均衡参数的子方法流程图;
图6所示为本申请的又一个实施例中,形成输出子带信号的子方法流程图;
图7所示为本申请所公开的自适应通话音量控制装置的模块结构图。
具体实施方式
以下将结合实施例和附图对本申请的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本申请的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,如无特殊说明,当某一特征被称为“固定”、“连接”在另一个特征,它可以直接固定、连接在另一个特征上,也可以间接地固定、连接在另一个特征上。此外,本申请中所使用的上、下、左、右等描述仅仅是相对于附图中本申请各组成部分的相互位置关系来说的。在本申请和所附权利要求书中所使用的单数形式的“一种”、“该”和“所述”也旨在包括多数形式,除非上下文清楚地表示其他含义。
此外,除非另有定义,本文所使用的所有的技术和科学术语与本技术领域的技术人员通常理解的含义相同。本文说明书中所使用的术语只是为了描述具体的实施例,而不是为了限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的组合。
应当理解,尽管在本申请中可能采用术语第一、第二、第三等来描述各种元件,但这些元件不应限于这些术语。这些术语仅用来将同一类型的元件彼此区分开。例如,在不脱离本申请范围的情况下,第一元件也可以被称为第二元件,类似地,第二元件也可以被称为第一元件。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”。
参照图1所示的方法流程图,本申请所公开的、应用在通话过程中的自适应通话音量控制方法包括以下步骤:
S100)分别采集远端语音信号和近端语音信号,并通过滤波分别提取形成远端子带信号和近端子带信号;
S200)基于远端子带信号和近端子带信号,形成针对远端语音信号和近端语音信号的语音均衡参数;
S300)根据语音均衡参数对远端子带信号作增益乘法,并解码所获得的输出子带信号;
S400)通过扬声器播放解码所述输出子带信号的输出语音。
参照图2所示的示意图,通信设备远端发送过来的远端语音信号和麦克风所采集到的近端语音信号将分别被通信设备的分析单元进行滤波,以相应提取远端子带信号和近端子带信号。其中,可以通过对通话过程中语音信号进行分析,分离出远端语音信号中的远端环境噪音和远端语音,以及近端语音信号的近端环境噪音和近端语音。然后,参数估计单元将基于远端子带信号和近端子带信号形成针对远端语音信号和近端语音信号的语音均衡参数。该语音均衡参数用于增益远端子带信号。增益后的远端子带信号被解码后通过播放器输出。因此,参数估计单元可以基于远端子带信号的噪音及近端子带信号功率谱,形成相应的语音均衡参数,从而通过在主观感知域的调整而达到改善通话质量的效果。
在本申请的上述一个或多个实施例中,所述远端子带信号和所述近端子带信号分别是通过对远端语音信号和近端语音信号这两种语音信号交叠和快速傅里叶变换得到的。具体地,参照图3所示方法流程图,在上述实施例中,所述步骤S100包括以下子步骤:
进一步地,在本申请的上述一个或多个实施例中,用于合并时间上连续远端语音信号向量和近端语音信号向量以形成复合远端语音信号向量和复合近端语音信号向量的个数R为2,以平衡后继步骤计算所得语音均衡参数与周边通话环境的针对性和自身的运算量。相应地,所述语音均衡参数可以是基于远端子带信号的功率谱估计以及近端子带信号的背景噪声估计而确定的,作为实现在主观感知域的调整而达到改善通话质量的基础。
例如,参照图4所示的子方法流程图,在本申请的上述一个或多个实施例中,所述步骤S200还包括以下子步骤:
S210)将远端子带信号和近端子带信号的幅度平方分别通过远端历史向量和近端历史向量进行平滑,并将平滑后的平滑后远端子带信号和近端子带信号作为远端子带信号的远端平滑功率谱,以及近端子带信号的近端平滑功率谱;
S220)将所述远端平滑功率谱和近端平滑功率谱分别映射为人耳感知域的远端临界频带功率谱及近端临界频带功率谱;
S230)分别根据远端平滑功率谱及近端平滑功率谱的频域粗糙度,选取人耳听觉域能量的远端子带信号输入平滑系数和近端子带信号输入平滑系数;
S240)基于远端子带信号输入平滑系数、近端子带信号输入平滑系数、远端临界频带功率谱及近端临界频带功率谱,计算语音均衡参数。
其中,freq(n)=nfs/2L,而表示小于或等于Q的最大整数。Len为所有满足的正整数n的个数,fs为信号的采样频率。在本申请的上述一个或多个实施例中,该采样频率可以是8Khz,即fs=8Khz。相应地,此时Nb可以设置为18。为实现在主观感知域的调整而达到改善通话质量,Bark(F)可以是由线性频率映射到心理声学临界频率的函数。例如,在本申请的上述一个或多个实施例中,该心理声学临界频率的函数可设置为:
其中,Δi、Δimin、Δd和Δdmax为平滑系数的增量及减量的相关参数。在本申请的上述一个或多个实施例中,它们可分别选为:1.002、1.002、0.99和0.99。基于上述辅助向量,近端子带信号的噪声功率谱估计可以平滑为:
上述噪声功率谱估计可以采用前述类似的方式计算得到近端临界频带功率谱及功率谱平坦度并从而进一步获得背景噪声的近端子带信号输入平滑系数基于上述远端子带信号输入平滑系数近端子带信号输入平滑系数远端临界频带功率谱及近端临界频带功率谱即可计算语音均衡参数
S241)由所述远端子带信号输入平滑系数平滑远端临界频带功率谱,并选取平滑后的远端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为远端子带信号输入听觉域能量;
S242)由所述近端子带信号输入平滑系数平滑近端临界频带功率谱,并选取平滑后的近端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为近端子带信号输入听觉域能量;
S243)将所述近端子带信号输入听觉能量与所述远端子带信号输入听觉域能量相减并插值,以作为语音均衡参数。
具体地,可以先按照以下方式计算临界频带展宽的远端语音信号及近端语音信号的功率谱:
其中,S为Nb×Nb的展宽矩阵。在本申请的上述一个或多个实施例中,其可取为
参照图6所示的子方法流程图,在本申请的上述一个或多个实施例中,所述步骤S300还包括以下子步骤:
S310)将所述远端子带信号和语音均衡参数作增益乘法,以获得输出子带信号;
S320)对所述输出子带信号作反傅里叶变换以获得全频带信号向量;
S330)对所述全频带信号向量进行所述加窗处理,以获得加窗全频带信号向量;
S340)叠加所述加窗全频带信号向量,以获得输出语音。
其次,由于上述分别从对远端语音信号和近端语音信号中提取远端子带信号和所述近端子带信号的过程是可逆,因此可以按照其对应的拟过程来获得输出语音,即对子带信号向量做反傅里叶变换以得到全频带信号向量然后对全频带信号向量加窗得到信号向量
其中,窗向量与前面加窗处理时所采用的窗向量相同。此时,信号向量的前L个点与历史信号向量相加以得到输出语音zf(n),并将更新为的后L个点。历史信号向量为与L个点相对应的向量。该历史信号向量可以初始化为零向量。上述处理过程的具体变换方式如下:
最后,通信设备的播放器将播放解码出来的zf(n)。
参照图7所示的模块结构图,本申请所公开的、应用在通话过程中的自适应通话音量控制装置包括以下模块:采样模块,用于分别采集远端语音信号和近端语音信号,并通过滤波分别提取形成远端子带信号和近端子带信号;均衡模块,用于基于远端子带信号和近端子带信号,形成针对远端语音信号和近端语音信号的语音均衡参数;调整模块,用于根据语音均衡参数对远端子带信号作增益乘法,并解码所获得的输出子带信号以形成输出语音;输出模块,用于通过扬声器播放解码所述输出子带信号的输出语音。参照图2所示的示意图,通信设备远端发送过来的远端语音信号和麦克风所采集到的近端语音信号将分别被通信设备的分析单元进行滤波,以相应提取远端子带信号和近端子带信号。其中,可以通过对通话过程中语音信号进行分析,分离出远端语音信号中的远端环境噪音和远端语音,以及近端语音信号的近端环境噪音和近端语音。然后,参数估计单元将基于远端子带信号和近端子带信号形成针对远端语音信号和近端语音信号的语音均衡参数。该语音均衡参数用于增益远端子带信号。增益后的远端子带信号被解码后通过播放器输出。因此,参数估计单元可以基于远端子带信号的噪音及近端子带信号功率谱,形成相应的语音均衡参数,从而通过在主观感知域的调整而达到改善通话质量的效果。
在本申请的上述一个或多个实施例中,所述远端子带信号和所述近端子带信号分别是通过对远端语音信号和近端语音信号这两种语音信号交叠和快速傅里叶变换得到的。具体地,在上述实施例中,所述采样模块包括以下子模块:成帧模块,用于分别获取远端语音信号x(k)和近端语音信号y(k)在kn时刻至kn-L+1时刻共L个时刻的信号,按照以下方式形成远端语音信号向量和近端语音信号向量
进一步地,在本申请的上述一个或多个实施例中,用于合并时间上连续远端语音信号向量和近端语音信号向量以形成复合远端语音信号向量和复合近端语音信号向量的个数R为2,以平衡后继步骤计算所得语音均衡参数与周边通话环境的针对性和自身的运算量。相应地,所述语音均衡参数可以是基于远端子带信号的功率谱估计以及近端子带信号的背景噪声估计而确定的,作为实现在主观感知域的调整而达到改善通话质量的基础。
例如,在本申请的上述一个或多个实施例中,所述均衡模块还包括以下子模块:平滑模块,用于将远端子带信号和近端子带信号的幅度平方分别通过远端历史向量和近端历史向量进行平滑,并将平滑后的平滑后远端子带信号和近端子带信号作为远端子带信号的远端平滑功率谱,以及近端子带信号的近端平滑功率谱;估计模块,用于将所述远端平滑功率谱和近端平滑功率谱分别映射为人耳感知域的远端临界频带功率谱及近端临界频带功率谱;选取模块,用于分别根据远端平滑功率谱及近端平滑功率谱的频域粗糙度,选取人耳听觉域能量的远端子带信号输入平滑系数和近端子带信号输入平滑系数;确定模块,用于基于远端子带信号输入平滑系数、近端子带信号输入平滑系数、远端临界频带功率谱及近端临界频带功率谱,计算语音均衡参数。具体地,沿用前述记号,按照如下方式对幅度平方与历史向量数据做平滑处理,以得到新的向量数据作为远端信号功率谱估计(其中α为在区间[0,1]内的实数):
其中,freq(n)=nfs/2L,而表示小于或等于Q的最大整数。Len为所有满足的正整数n的个数,fs为信号的采样频率。在本申请的上述一个或多个实施例中,该采样频率可以是8Khz,即fs=8Khz。相应地,此时Nb可以设置为18。为实现在主观感知域的调整而达到改善通话质量,Bark(F)可以是由线性频率映射到心理声学临界频率的函数。例如,在本申请的上述一个或多个实施例中,该心理声学临界频率的函数可设置为:
其中,Δi、Δimin、Δd和Δdmax为平滑系数的增量及减量的相关参数。在本申请的上述一个或多个实施例中,它们可分别选为:1.002、1.002、0.99和0.99。基于上述辅助向量,近端子带信号的噪声功率谱估计可以平滑为:
上述噪声功率谱估计可以采用前述类似的方式计算得到近端临界频带功率谱及功率谱平坦度并从而进一步获得背景噪声的近端子带信号输入平滑系数基于上述远端子带信号输入平滑系数近端子带信号输入平滑系数远端临界频带功率谱及近端临界频带功率谱即可计算语音均衡参数
进一步地,在本申请的上述一个或多个实施例中,语音均衡参数可以由确定模块的以下子模块确定:第一执行模块,用于由所述远端子带信号输入平滑系数平滑远端临界频带功率谱,并选取平滑后的远端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为远端子带信号输入听觉域能量;第二执行模块,用于由所述近端子带信号输入平滑系数平滑近端临界频带功率谱,并选取平滑后的近端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为近端子带信号输入听觉域能量;插值模块,用于将所述近端子带信号输入听觉能量与所述远端子带信号输入听觉域能量相减并插值,以作为语音均衡参数。具体地,可以先按照以下方式计算临界频带展宽的远端语音信号及近端语音信号的功率谱:
其中,S为Nb×Nb的展宽矩阵。在本申请的上述一个或多个实施例中,其可取为
在本申请的上述一个或多个实施例中,所述调整模块还包括以下子模块:增益模块,用于将所述远端子带信号和语音均衡参数作增益乘法,以获得输出子带信号;反变换模块,用于对所述输出子带信号作反傅里叶变换以获得全频带信号向量;反加窗模块,用于对所述全频带信号向量进行所述加窗处理,以获得加窗全频带信号向量;反叠加模块,用于叠加所述加窗全频带信号向量,以获得输出语音。具体地,上述所得的语音均衡参数可以如下方式应用到远端语音信号。首先,按照如下方式将所述远端子带信号和语音均衡参数作增益乘法,以获得输出子带信号
其次,由于上述分别从对远端语音信号和近端语音信号中提取远端子带信号和所述近端子带信号的过程是可逆,因此可以按照其对应的拟过程来获得输出语音,即对子带信号向量做反傅里叶变换以得到全频带信号向量然后对全频带信号向量加窗得到信号向量
其中,窗向量与前面加窗处理时所采用的窗向量相同。此时,信号向量的前L个点与历史信号向量相加以得到输出语音zf(n),并将更新为的后L个点。历史信号向量为与L个点相对应的向量。该历史信号向量可以初始化为零向量。上述处理过程的具体变换方式如下:
最后,通信设备的播放器将播放解码出来的zf(n)。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (8)
1.一种自适应通话音量控制方法,其特征在于,包括以下步骤:
S100)分别采集远端语音信号和近端语音信号,并通过滤波分别提取形成远端子带信号和近端子带信号;
S200)基于远端子带信号和近端子带信号,形成针对远端语音信号和近端语音信号的语音均衡参数;
S300)根据语音均衡参数对远端子带信号作增益乘法,并解码所获得的输出子带信号;
S400)通过扬声器播放解码所述输出子带信号的输出语音;
其中,所述远端子带信号和所述近端子带信号分别是通过对远端语音信号和近端语音信号这两种语音信号交叠和快速傅里叶变换得到的;以及
其中,所述步骤S100包括以下子步骤:
S110)分别获取远端语音信号和近端语音信号在多个时刻的信号,以形成远端语音信号向量和近端语音信号向量;
S120)相应合并时间上连续的R个远端语音信号向量和近端语音信号向量为复合远端语音信号向量和复合近端语音信号向量;
S130)对复合远端语音信号向量和复合近端语音信号向量加窗处理,以获得加窗远端语音信号向量和加窗近端语音信号向量;
S140)分别对加窗远端语音信号向量和加窗近端语音信号向量执行快速傅里叶变换以形成相应的远端子带信号和近端子带信号。
2.根据权利要求1所述的方法,其特征在于,用于合并时间上连续远端语音信号向量和近端语音信号向量以形成复合远端语音信号向量和复合近端语音信号向量的个数R为2。
3.根据权利要求1或2所述的方法,其特征在于,所述语音均衡参数是基于远端子带信号的功率谱估计以及近端子带信号的背景噪声估计而确定的。
4.根据权利要求3所述的方法,其特征在于,所述步骤S200还包括以下子步骤:
S210)将远端子带信号和近端子带信号的幅度平方分别通过远端历史向量和近端历史向量进行平滑,并将平滑后的远端子带信号和近端子带信号作为远端子带信号的远端平滑功率谱,以及近端子带信号的近端平滑功率谱;
S220)将所述远端平滑功率谱和近端平滑功率谱分别映射为人耳感知域的远端临界频带功率谱及近端临界频带功率谱;
S230)分别根据远端平滑功率谱及近端平滑功率谱的频域粗糙度,选取人耳听觉域能量的远端子带信号输入平滑系数和近端子带信号输入平滑系数;
S240)基于远端子带信号输入平滑系数、近端子带信号输入平滑系数、远端临界频带功率谱及近端临界频带功率谱,计算语音均衡参数。
5.根据权利要求4所述的方法,其特征在于,所述步骤S240还包括以下子步骤:
S241)由所述远端子带信号输入平滑系数平滑远端临界频带功率谱,并选取平滑后的远端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为远端子带信号输入听觉域能量;
S242)由所述近端子带信号输入平滑系数平滑近端临界频带功率谱,并选取平滑后的近端临界频带功率谱的能量与人耳绝对听觉阈值的最大值作为近端子带信号输入听觉域能量;
S243)将近端子带信号输入听觉域能量与所述远端子带信号输入听觉域能量相减并插值,以作为语音均衡参数。
6.根据权利要求4或5所述的方法,其特征在于,所述步骤S300还包括以下子步骤:
S310)将所述远端子带信号和语音均衡参数作增益乘法,以获得输出子带信号;
S320)对所述输出子带信号作反傅里叶变换以获得全频带信号向量;
S330)对所述全频带信号向量进行所述加窗处理,以获得加窗全频带信号向量;
S340)叠加所述加窗全频带信号向量,以获得输出语音。
7.一种自适应通话音量控制装置,其特征在于,包括以下模块:
采样模块,用于分别采集远端语音信号和近端语音信号,并通过滤波分别提取形成远端子带信号和近端子带信号;
均衡模块,用于基于远端子带信号和近端子带信号,形成针对远端语音信号和近端语音信号的语音均衡参数;
调整模块,用于根据语音均衡参数对远端子带信号作增益乘法,并解码所获得的输出子带信号以形成输出语音;
输出模块,用于通过扬声器播放解码所述输出子带信号的输出语音;
其中,所述远端子带信号和所述近端子带信号分别是通过对远端语音信号和近端语音信号这两种语音信号交叠和快速傅里叶变换得到的;以及
其中,所述采样模块包括以下子模块:
成帧模块,用于分别获取远端语音信号和近端语音信号在多个时刻的信号,以形成远端语音信号向量和近端语音信号向量;
重叠模块,用于相应合并时间上连续的R个远端语音信号向量和近端语音信号向量为复合远端语音信号向量和复合近端语音信号向量;
加窗模块,用于对复合远端语音信号向量和复合近端语音信号向量加窗处理,以获得加窗远端语音信号向量和加窗近端语音信号向量;
变换模块,用于分别对加窗远端语音信号向量和加窗近端语音信号向量执行快速傅里叶变换以形成相应的远端子带信号和近端子带信号。
8.一种计算机可读存储介质,其上存储有计算机指令,其特征在于该指令被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910030712.0A CN109994104B (zh) | 2019-01-14 | 2019-01-14 | 一种自适应通话音量控制方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910030712.0A CN109994104B (zh) | 2019-01-14 | 2019-01-14 | 一种自适应通话音量控制方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109994104A CN109994104A (zh) | 2019-07-09 |
CN109994104B true CN109994104B (zh) | 2021-05-14 |
Family
ID=67129886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910030712.0A Active CN109994104B (zh) | 2019-01-14 | 2019-01-14 | 一种自适应通话音量控制方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109994104B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111312275B (zh) * | 2020-02-13 | 2023-04-25 | 大连理工大学 | 一种基于子带分解的在线声源分离增强系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067927A (zh) * | 2007-04-19 | 2007-11-07 | 北京中星微电子有限公司 | 音量调整方法及装置 |
CN104685563A (zh) * | 2012-09-02 | 2015-06-03 | 质音公司 | 用于嘈杂环境噪里的回放的音频信号整形 |
US9076456B1 (en) * | 2007-12-21 | 2015-07-07 | Audience, Inc. | System and method for providing voice equalization |
CN105577961A (zh) * | 2014-10-31 | 2016-05-11 | 想象技术有限公司 | 增益控制器的自动调谐 |
CN105791611A (zh) * | 2016-02-22 | 2016-07-20 | 腾讯科技(深圳)有限公司 | 回声消除方法及装置 |
CN106657507A (zh) * | 2015-11-03 | 2017-05-10 | 中移(杭州)信息技术有限公司 | 一种声学回声消除方法及装置 |
US20170243598A1 (en) * | 2016-02-19 | 2017-08-24 | Imagination Technologies Limited | Controlling Analogue Gain Using Digital Gain Estimation |
CN107888792A (zh) * | 2017-10-19 | 2018-04-06 | 浙江大华技术股份有限公司 | 一种回声消除方法、装置及系统 |
CN108134863A (zh) * | 2017-12-26 | 2018-06-08 | 中山大学花都产业科技研究院 | 一种基于双统计量的改进型双端检测装置及检测方法 |
WO2018174310A1 (ko) * | 2017-03-22 | 2018-09-27 | 삼성전자 주식회사 | 잡음 환경에 적응적인 음성 신호 처리방법 및 장치 |
-
2019
- 2019-01-14 CN CN201910030712.0A patent/CN109994104B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067927A (zh) * | 2007-04-19 | 2007-11-07 | 北京中星微电子有限公司 | 音量调整方法及装置 |
US9076456B1 (en) * | 2007-12-21 | 2015-07-07 | Audience, Inc. | System and method for providing voice equalization |
CN104685563A (zh) * | 2012-09-02 | 2015-06-03 | 质音公司 | 用于嘈杂环境噪里的回放的音频信号整形 |
CN105577961A (zh) * | 2014-10-31 | 2016-05-11 | 想象技术有限公司 | 增益控制器的自动调谐 |
CN106657507A (zh) * | 2015-11-03 | 2017-05-10 | 中移(杭州)信息技术有限公司 | 一种声学回声消除方法及装置 |
US20170243598A1 (en) * | 2016-02-19 | 2017-08-24 | Imagination Technologies Limited | Controlling Analogue Gain Using Digital Gain Estimation |
CN105791611A (zh) * | 2016-02-22 | 2016-07-20 | 腾讯科技(深圳)有限公司 | 回声消除方法及装置 |
WO2018174310A1 (ko) * | 2017-03-22 | 2018-09-27 | 삼성전자 주식회사 | 잡음 환경에 적응적인 음성 신호 처리방법 및 장치 |
CN107888792A (zh) * | 2017-10-19 | 2018-04-06 | 浙江大华技术股份有限公司 | 一种回声消除方法、装置及系统 |
CN108134863A (zh) * | 2017-12-26 | 2018-06-08 | 中山大学花都产业科技研究院 | 一种基于双统计量的改进型双端检测装置及检测方法 |
Non-Patent Citations (2)
Title |
---|
"modeling external volume changes in stereo echo cancellers";Elias Nemer;《international workshop on acoustic signal enhancement》;20121231;全文 * |
"非均匀子带自适应噪声抵消技术研究";戴志美;《中国优秀硕士学位论文全文数据库信息科技辑》;20160115(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109994104A (zh) | 2019-07-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100800725B1 (ko) | 이동통신 단말의 오디오 재생시 주변 잡음에 적응하는 자동음량 조절 방법 및 장치 | |
US9502048B2 (en) | Adaptively reducing noise to limit speech distortion | |
US9361901B2 (en) | Integrated speech intelligibility enhancement system and acoustic echo canceller | |
US10043533B2 (en) | Method and device for boosting formants from speech and noise spectral estimation | |
AU771444B2 (en) | Noise reduction apparatus and method | |
US9076456B1 (en) | System and method for providing voice equalization | |
US8521530B1 (en) | System and method for enhancing a monaural audio signal | |
US20120263317A1 (en) | Systems, methods, apparatus, and computer readable media for equalization | |
US7869587B2 (en) | Method and apparatus for canceling acoustic echo in a mobile terminal | |
US9699554B1 (en) | Adaptive signal equalization | |
US9532149B2 (en) | Method of signal processing in a hearing aid system and a hearing aid system | |
EP1769492A1 (en) | Comfort noise generator using modified doblinger noise estimate | |
KR20190057052A (ko) | 잡음 환경에 적응적인 신호 처리방법 및 장치와 이를 채용하는 단말장치 | |
KR101694225B1 (ko) | 스테레오 신호를 결정하는 방법 | |
CN109994104B (zh) | 一种自适应通话音量控制方法及装置 | |
US20060184361A1 (en) | Method and apparatus for reducing an interference noise signal fraction in a microphone signal | |
US8406430B2 (en) | Simulated background noise enabled echo canceller | |
JP4413205B2 (ja) | エコー抑圧方法、装置、エコー抑圧プログラム、記録媒体 | |
CN112437957A (zh) | 用于全面收听的强加间隙插入 | |
RU2589298C1 (ru) | Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке | |
JP4209348B2 (ja) | エコー抑圧方法、この方法を実施する装置、プログラムおよび記録媒体 | |
Vashkevich et al. | Speech enhancement in a smartphone-based hearing aid | |
CN115713942A (zh) | 音频处理方法、装置、计算设备及介质 | |
Sudo et al. | Nonlinear Acoustic Echo Suppression Based on Spectrum Selection Using the Amount of Linear Echo Cancellation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |