CN117789735A - 语音宽动态范围压缩方法、装置、设备及存储介质 - Google Patents
语音宽动态范围压缩方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117789735A CN117789735A CN202311834658.8A CN202311834658A CN117789735A CN 117789735 A CN117789735 A CN 117789735A CN 202311834658 A CN202311834658 A CN 202311834658A CN 117789735 A CN117789735 A CN 117789735A
- Authority
- CN
- China
- Prior art keywords
- channel
- signal
- voice
- pressure level
- sound pressure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007906 compression Methods 0.000 title claims abstract description 109
- 230000006835 compression Effects 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012545 processing Methods 0.000 claims abstract description 45
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 6
- 230000015654 memory Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 19
- 238000009499 grossing Methods 0.000 claims description 19
- 238000000354 decomposition reaction Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000003786 synthesis reaction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 5
- 208000032041 Hearing impaired Diseases 0.000 description 44
- 208000016354 hearing loss disease Diseases 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000003672 processing method Methods 0.000 description 8
- 230000003321 amplification Effects 0.000 description 7
- 238000003199 nucleic acid amplification method Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 206010011878 Deafness Diseases 0.000 description 4
- 230000010370 hearing loss Effects 0.000 description 4
- 231100000888 hearing loss Toxicity 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000000630 rising effect Effects 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 208000000114 Pain Threshold Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000037040 pain threshold Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Landscapes
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
本申请涉及一种语音宽动态范围压缩方法、装置、设备及存储介质,应用在语音信号处理技术领域,包括获取待处理的语音信息,所述待处理的语音信息包括从所述助听器中获取的一段正常听力动态范围内的声音信息;将所述待处理的语音信息转换成频域的语音信号,并分解成预设数量的通道信号;对每个所述通道信号进行宽动态范围压缩处理后得到通道压缩信号;将每个所述通道压缩信号合成全通道频域信号,并转换成时域语音信号后输出。本申请具有的技术效果是:经过宽动态范围压缩处理实现听力补偿后减小背景噪声的影响。
Description
技术领域
本申请涉及语音信号处理技术领域,尤其是涉及一种语音宽动态范围压缩方法、装置、设备及存储介质。
背景技术
助听器主要面向感音神经性听障患者,听障患者的听力障碍主要表现为听阈上升和听觉动态范围变窄。听阈上升,即能够感知的最小声强要比正常人高,并且不同频率处听阈上升的程度也不同,通常是高频部分上升的比较多;然而,听障患者的痛阈一般上升很小,或者可以认为不变,使得患者的听觉动态范围变窄。听障患者的听觉动态范围变窄的主要表现为,患者听不到细微的声音,或因为听不到声音的高频分量,造成能听到他人说话却不易听懂说话的内容。
针对听障患者听阈上升和听觉动态范围变窄的问题,需要对声音的响度进行补偿,将正常人听觉动态范围内的声音,“映射”到听障患者的听觉动态范围内,特别是对言语识别有重要影响的高频分量应当给予足够的补偿。
目前,较常采用单通道宽动态范围压缩(Wide Dynamic Range Compression,WDRC)算法实现响度补偿,在采用单通道WDRC算法对声音响度进行补偿时,一般采用快速压缩方法,即在强声时,增益快速下降,在弱声时,增益则快速上升。然而采用单通道WDRC方法会使得一些原本较小的背景噪声,在经过听力补偿后更加容易被感知。
发明内容
为了有助于解决单通道宽动态范围压缩方法会使得一些原本较小的背景噪声,在经过听力补偿后更加容易被感知的问题,本申请提供一种语音宽动态范围压缩方法、装置、设备及存储介质。
第一方面,本申请提供一种语音宽动态范围压缩方法,采用如下技术方案:所述方法应用于语音宽动态范围压缩系统,所述语音宽动态范围压缩系统包括助听器,所述方法包括:
获取待处理的语音信息,所述待处理的语音信息包括从所述助听器中获取的一段正常听力动态范围内的声音信息;
将所述待处理的语音信息转换成频域的语音信号,并分解成预设数量的通道信号;
对每个所述通道信号进行宽动态范围压缩处理后得到通道压缩信号;
将每个所述通道压缩信号合成全通道频域信号,并转换成时域语音信号后输出。
通过上述技术方案,由于听障患者在不同的频率处,听力损失的程度不同,通过将一路语音信号分解成多通道处理的方法,可以实现个性化听力补偿,在不同的通道上进行独立的压缩和放大,可以更好的拟合患者的听力曲线,满足不同频率的听力需求。此外,采用宽动态范围压缩处理方法可以对声音进行压缩放大,将正常人听力动态范围内的声音转换至听障者的听域范围内,并且尽可能地保证听觉的舒适和声音的清晰度,从而可以减少背景噪声在经过听力补偿后更容易被听障患者感知到的情况,进而使得听障患者在使用助听器听到正常人听见的声音时,尽可能减少被背景噪声所影响的情况。
在一个具体的可实施方案中,所述将所述待处理的语音信息转换成频域的语音信号,并分解成预设数量的通道信号包括:
将所述待处理的语音信息转换成频域表示,并获得语音频域信号;
将所述语音频域信号根据频域带宽均匀划分成若干语音子带信号;
根据bark尺度,将所述语音子带信号划分为预设数量的所述通道信号。
通过上述技术方案,考虑到人耳对声音频率高低的感觉与实际频率的高低不成线性关系,而近似成对数关系,利用线性频率到对数频率的映射,利用bark尺度划分,将频带划分到对应的通道上得到多通道信号。对多通道信号中的每个通道信号进行声音信号的处理,可以有助于减少背景噪声。
在一个具体的可实施方案中,所述对每个所述通道信号进行宽动态范围压缩处理后得到通道压缩信号包括:
计算每个所述通道信号的通道平均能量;
根据每个所述通道平均能量计算每个所述通道信号的通道输入声压级;
根据所述通道输入声压级计算每个所述通道信号的通道输出声压级;
根据所述通道输入声压级和所述通道输出声压级计算每个所述通道信号的通道增益;
将所述通道增益作用到所述通道信号,并生成所述通道压缩信号。
通过上述技术方案,采用宽动态范围压缩处理的方式对每个通道内的信号进行压缩处理后可以得到通道压缩信号。宽动态范围压缩听力补偿是助听器中语音处理技术的一种核心算法,宽动态范围压缩处理目的是对声音进行压缩放大,将正常人听力动态范围内的声音转换至听障者的听域范围内,并且尽可能地保证听觉的舒适和声音的清晰度,从而可以使得听障患者可以听见正常人可以听见的声音。
在一个具体的可实施方案中,所述根据所述通道输入声压级计算每个所述通道信号的通道输出声压级包括:
获取用于描述输入声压级和输出声压级对应关系的宽动态范围压缩曲线;
根据所述通道输入声压级查找对应于所述宽动态范围压缩曲线的输入区域;
根据所述输入区域的输入声压级和输出声压级的对应关系,计算得到所述通道输出声压级。
通过上述技术方案,宽动态范围压缩曲线是用于描述输入声压级和输出声压级对应关系的曲线图,不同的听障患者的真实听力情况会有所不同。为考虑到听障患者的真实听力情况以及环境噪声的影响,采用对低噪进行抑制的5段式曲线,可以对较低声压级以下的输入信号认为是底噪而加以抑制,从而可以减少噪声对听障患者听到外界声音的影响;其中,输入声压级表示正常人的听力声压级范围,输出声压级表示听障患者的声压级范围。
在一个具体的可实施方案中,在所述根据所述通道输入声压级和所述通道输出声压级计算每个所述通道信号的通道增益之后,还包括:
对计算得到的所述通道增益进行平滑滤波处理,并得到通道平滑增益;
所述将所述通道增益作用到所述通道信号,并生成所述通道压缩信号包括:
将所述通道平滑增益作用到所述通道信号,并生成所述通道压缩信号。
通过上述技术方案,若增益计算的结果波动较大会影响音质,因此对计算所得到的通道增益进行平滑滤波处理,可以降低增益计算结果的波动以及调整启动时间和释放时间,以减少计算结果的波动,从而可以提高经过处理后的语音信号的输出音质。
在一个具体的可实施方案中,所述通道信号包括若干语音子带信号,所述计算每个所述通道信号的通道平均能量包括:
计算若干所述语音子带信号的能量;
计算每个通道的所述通道信号的通道平均能量。
在一个具体的可实施方案中,所述通道输入声压级包括:
第二方面,本申请提供一种语音宽动态范围压缩装置,采用如下技术方案:所述装置应用于语音宽动态范围压缩系统,所述语音宽动态范围压缩系统包括助听器,所述装置包括:
语音信息获取模块,用于获取待处理的语音信息,所述待处理的语音信息包括从所述助听器中获取的一段正常听力动态范围内的声音信息;
语音信息分解模块,用于将所述待处理的语音信息转换成频域的语音信号,并分解成预设数量的通道信号;
压缩处理模块,用于对每个所述通道信号进行宽动态范围压缩处理后得到通道压缩信号;
语音信息合成模块,用于将每个所述通道压缩信号合成全通道频域信号,并转换成时域语音信号后输出。
第三方面,本申请提供一种计算机设备,采用如下技术方案:包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如上述任一种语音宽动态范围压缩方法的计算机程序。
第四方面,本申请提供一种计算机可读存储介质,采用如下技术方案:存储有能够被处理器加载并执行上述任一种语音宽动态范围压缩方法的计算机程序。
综上所述,本申请具有以下有益技术效果:
由于听障患者在不同的频率处,听力损失的程度不同,通过将一路语音信号分解成多通道处理的方法,可以实现个性化听力补偿,在不同的通道上进行独立的压缩和放大,可以更好的拟合患者的听力曲线,满足不同频率的听力需求。此外,采用宽动态范围压缩处理方法可以对声音进行压缩放大,将正常人听力动态范围内的声音转换至听障者的听域范围内,并且尽可能地保证听觉的舒适和声音的清晰度,从而可以减少背景噪声在经过听力补偿后更容易被听障患者感知到的情况,进而使得听障患者在使用助听器听到正常人听见的声音时,尽可能减少被背景噪声所影响的情况。
附图说明
图1是用于说明正常人与听障患者听力动态范围的曲线图;
图2是本申请实施例中语音宽动态范围压缩方法的流程图;
图3是本申请实施例中多通道宽动态范围压缩处理方法的框架图
图4是三段式和四段式宽动态范围压缩曲线示意图;
图5是本申请实施例中五段式宽动态范围压缩曲线图;
图6是本申请实施例中宽动态范围压缩处理听力补偿过程的流程图;
图7是本申请实施例中语音宽动态范围压缩装置的示意图;
图8是本申请实施例中用于体现计算机设备的示意图。
附图标记:701、语音信息获取模块;702、语音信息分解模块;703、压缩处理模块;704、语音信息合成模块。
具体实施方式
以下结合附图1-8对本申请作进一步详细说明。
本申请实施例公开一种语音宽动态范围压缩方法,该方法应用于语音宽动态范围压缩系统,用户采用该方法可以将正常人听觉动态范围内的声音转换成听障患者可以听到的听觉动态范围内。听障患者的听力障碍主要为表现是听阈上升和听觉动态范围变窄,听阈上升即能够感知的最小声强要比正常人高,并且不同频率处听阈上升的程度也不同,通常是高频部分上升的比较多;而听障患者的痛阈一般上升很小,或者可以认为不变,使得患者的听觉动态范围变窄。如图1,图1中,THR指threshold,听阈;UCL指uncomfortablelevel,不适阈;下标为n代表的是正常人的声压级可听阈值范围,下标为u代表的是听障患者的声压级可听阈值范围;参照图1可以看到,与听力正常者相比,听力损失者的听力动态范围大幅度下降,而且在不同的频率范围内下降的程度是不一样的。为了使听障患者能够听到正常人能够听到的声音,同时满足对声音的动态接受的要求,需要根据不同的频率范围和声音强度对听障患者进行动态的听力补偿,有针对性地对输入声音进行压缩或者放大,将正常人听觉动态范围内的声音转换到听障患者的听觉动态范围内。目前,较常采用单通道宽动态范围压缩(Wide Dynamic Range Compression,WDRC)算法实现响度补偿,然而采用单通道WDRC方法会使得一些原本较小的背景噪声,在经过听力补偿后更加容易被感知。由此,本申请提出一种语音宽动态范围压缩方法。
参照图2,该方法包括以下步骤:
S10,获取待处理的语音信息,待处理的语音信息包括从助听器中获取的一段正常听力动态范围内的声音信息。
具体来说,系统获取一段待处理的语音信息,获取的待处理的语音信息是从助听器中获取的一段正常人动态听力范围内声音信息,用户借助助听器获取到声音信息后传输至处理系统对该声音信息进行处理,以转换成听障患者可以听到的声音。
S20,将待处理的语音信息转换成频域的语音信号,并分解成预设数量的通道信号。
具体来说,将获得的待处理的语音信息先转换成频域的语音信号,之后再分解成多个通道信号进行处理,通道数量可以根据用户实际处理情况具体设定。多通道处理技术是对听力障碍进行个性化宽动态范围压缩听力补偿的基础,由于听障患者在不同的频率处听力损失的程度不同,采用多通道处理的方法可以实现准确的个性化听力补偿。
S30,对每个通道信号进行宽动态范围压缩处理后得到通道压缩信号。
具体来说,对待处理的语音信息进行分解后,可以得到多个通道信号,之后对每个通道上的信号分别进行宽动态范围压缩听力补偿后可以得到通道压缩信号。宽动态范围压缩听力补偿是助听器中语音处理技术的一种核心算法,算法目的是对声音进行压缩放大,将正常人听力动态范围内的声音转换到听障者的听域范围内,并且尽可能地保证听觉的舒适和声音的清晰度,从而使听障患者可以听见正常人听觉动态范围内的声音。
S40,将每个通道压缩信号合成全通道频域信号,并转换成时域语音信号后输出。
具体来说,将语音信息分解成多通道进行听力补偿的处理后,需要将处理后的多通道的信号进行合成全通道的频域信号再转换成时域的语音信号后输出才可以被听障患者听见。
参照图3,图3为多通道宽动态范围压缩处理方法的框架图,输入的是借助助听器获取到的待处理的语音信息,经过滤波器组分解成通道1~通道N的通道信号,之后对每个通道信号进行宽动态范围压缩听力补偿,图3中WDRC也即宽动态范围压缩,经过听力补偿处理输出后,最后再利用滤波器组合成一路语音信号输出。
在本申请方案中,由于听障患者在不同的频率处,听力损失的程度不同,通过将一路语音信号分解成多通道处理的方法,可以实现个性化听力补偿,在不同的通道上进行独立的压缩和放大,可以更好的拟合患者的听力曲线,满足不同频率的听力需求。此外,采用宽动态范围压缩处理方法可以对声音进行压缩放大,将正常人听力动态范围内的声音转换至听障者的听域范围内,并且尽可能地保证听觉的舒适和声音的清晰度,从而可以减少背景噪声在经过听力补偿后更容易被听障患者感知到的情况,进而使得听障患者在使用助听器听到正常人听见的声音时,尽可能减少被背景噪声所影响的情况。
在一个实施例中,将待处理的语音信息转换成频域的语音信号,并分解成预设数量的通道信号可以被具体执行为:
首先,将获取的待处理的语音信息转换成频域表示,得到语音频域信号后再做后续的处理。将待处理的语音信息转换成频域信号之后,对语音频域信号进行分解处理,根据频域带宽均匀划分成若干语音子带信号,其中,信号分解处理的操作可以采用滤波器组技术,采用的滤波器组可以是分析滤波器组,也即WOLA滤波器组,分析滤波器组的设计要使得分解后的频带间交叠尽可能少,以便为后续的宽动态范围压缩听力补偿提供足够的自由度。之后,将得到的若干语音子带信号划分成预设数量的通道信号,划分语音子带信号的具体的方式可以为利用bark尺度将语音子带信号划分到对应的通道上。由于考虑到人耳对声音频率高低的感觉与实际频率的高低不成线性关系,而近似成对数关系,因此,若直接将语音子带信号进行等宽组合的方式划分并不符合实际,压缩处理得到的结果可能会存在偏差,因此,用户可以根据实际,利用利用线性频率到对数频率的映射,利用bark尺度将子带信号划分到对应的通道上。用户根据bark尺度划分,则在22Hz~22kHz的正常人的听觉频率范围内有24个临界频带,若采用fs=16khz的采样频率,则在0-8khz的频率范围内,根据bark尺度表有20个标准bark临界频带,由于语音信息的有用信息集中在0-8khz,因此在本申请实施例中,主要对0-8khz的信号进行处理。若以h(f)表示临界频带,则临界频带与线性刻度频率f的对应关系可以表示为:
h(f)=13*arctan(0.76*f)+0.35*arctan((f/7.5)^2)
其中,f表示的是线性刻度频率,h(f)表示临界频带。
利用bark尺度对语音子带信号进行划分具体可以为,在bark尺度上按照通道数对语音子带信号进行划分,对于采用k=64频带的均匀滤波器组的频带划分方式,若采样率fs为16khz,对应的频带间隔即频域分辨率为fs/K=250hz,对于0-8k的频率范围,除第一个频带与最后一个频带的频带带宽为125hz,其余频带带宽均与频带间隔相同,利用每一个频带的上边界频率判断每一个频带所在的bark通道,从而将每一个频带对应到bark通道上,实现bark通道划分。
在本申请方案中,考虑到人耳对声音频率高低的感觉与实际频率的高低不成线性关系,而近似成对数关系,利用线性频率到对数频率的映射,利用bark尺度划分,将频带划分到对应的通道上得到多通道信号。对多通道信号中的每个通道信号进行声音信号的处理,可以有助于减少背景噪声。
在一个实施例中,对每个通道信号进行宽动态范围压缩处理后得到通道压缩信号可以被具体执行为:
首先,计算每个通道信号的平均能量,平均能量的计算方式可以为,先计算每个通道信号中的每个语音子带信号的能量,每个语音子带信号的能量计算方式可以为:
P子带=|X(n)|2
其中,X(n)表示一个语音子带信号,n表示时间帧索引。
之后,再根据语音子带信号的能量计算每一个通道信号的平均能量,每个通道信号的平均能量计算方式可以为:
其中,P(n)表示通道信号的平均能量,n表示时间帧索引,α和β表示常数。
若输入的语音波动太快可能会导致语音能量波动较快,而能量波动较快可能会导致计算出的增益的较快波动,从而导致语音的调制过度,进而引起语音的互调失真,通道信号的平均能量计算方式实际上是采用了一阶滤波,常数α和β用来独立的控制并调节启动时间和释放时间,从而可以对输入的能量进行平滑,避免能量波动较快引起的调制失真。
通过可配置的启动和释放时间对通道能量进行平滑,利用启动和释放时间控制算法的动态性;例如,通过使用较慢的启动和/或释放时间,可以减慢增益变化的速率;这种平滑还可以确保算法不会过快地调整增益,否则会导致信号失真。
之后,根据计算得到的通道信号的平均能量取对数后,可以计算通道输入声压级,通道输入声压级计算方式可以为:
其中,P(n)为通道平均能量;P(0)为常数,表示的是参考声压级;SPLin为计算所得通道输入声压级;参考声压级P(0)=2*10^(-5)Pa。
之后,根据计算得到的通道输入声压级计算通道输出声压级,具体的计算可以通过输入声压级和输出声压级的对应关系计算得到,表述输入声压级和输出声压级之间对应关系的可以是宽动态范围压缩曲线,也可以是其他描述输入和输出声压级之间对应关系的公式等,此处不做限制。之后,再计算通道信号的通道增益,通道增益的计算方式可以为:
gdB(n)=SPLout-SPLin
其中,gdB(n)表示计算得到的对数域通道增益,SPLout表示通道输出声压级,SPLin表示通道输入声压级。
由于采用的是声压级计算增益,得到的增益结果是在对数域,需要将计算的增益转换到线性域,转换方式可以为:
其中,gain(n)表示最终计算得到的通道增益,gdB(n)表示计算得到的对数域通道增益。
最后,将计算得到的通道增益作用到输入的通道信号生成通道压缩信号。
需要说明的是,在计算通道信号的平均能量之前,可以采用峰值包络检测查找信号的峰值,对输入信号能量进行估计,以便于后续信号的快速检测以及信号平均能量的快速计算。
在本申请方案中,采用宽动态范围压缩处理的方式对每个通道内的信号进行压缩处理后可以得到通道压缩信号。宽动态范围压缩听力补偿是助听器中语音处理技术的一种核心算法,宽动态范围压缩处理目的是对声音进行压缩放大,将正常人听力动态范围内的声音转换至听障者的听域范围内,并且尽可能地保证听觉的舒适和声音的清晰度,从而可以使得听障患者可以听见正常人可以听见的声音。
在一个实施例中,根据通道输入声压级计算每个通道信号的通道输出声压级可以被具体执行为:
利用宽动态范围压缩曲线在每一个通道单独地进行动态范围的放大与压缩。首先,获取宽动态范围压缩曲线,宽动态范围压缩曲线描述的是输入声压级和输出声压级对应关系,其中,根据不同的情况,宽动态范围压缩曲线不同,例如,参照图4,图4(a)为考虑了最适声压级,也即考虑了听力最舒适范围的宽动态范围压缩曲线,为四段式曲线;图4(b)为在整个听力范围内线性的对应的曲线,也即,未考虑最适声压级的曲线,为三段式曲线。然而,三段式或是四段式曲线对低噪抑制的效果并不理想,为考虑到患者的真实听力情况以及环境噪声的影响,对较低声压级以下的输入信号,也可以理解为低噪加以抑制的情况下,需要采用对低噪进行抑制的五段式曲线;在本申请实施例中,采用五段式曲线进行计算,例如,参照图5,横轴为输入声压级,即正常人的听力声压级范围,纵轴为输出声压级,即听障患者的声压级范围;根据正常人的听力声压级范围,与听障患者的声压级范围的对应关系,即可以确定曲线上的相应的拐点与阈值,也可以确定相应的压缩比。根据阈值拐点以及压缩比完全可以将正常人的动态听力范围DRn(Dynamic Range)完全映射到患者的动态听力范围DRu内。图5中,ith0~ith5表示的是输入声压级的阈值参数,oth1~oth5表示的是输出声压级的参数,k0~k5表示的是曲线的斜率;其中ith0~ith5和oth1~oth5的数值在听障患者佩戴助听器后根据个人实际情况进行验配确定。
在五段式的宽动态范围压缩曲线中,不同的曲线段,通道输出声压级计算方式不同,根据通道输入声压级计算通道输出声压级的方式如下:
当SOLin≤ith2,第一段曲线通常为扩展区曲线,扩展比意味着在低于扩展阈值ith2的情况下,输入声压级每下降1dB,输出电平将下降的量,扩展比k1大于1;例如,1:k1的扩展比意味着低于扩展阈值1dB的信号经过宽动态范围压缩后将相对于处于扩展阈值处的信号衰减k1dB;由于噪声电平通常较低,引入扩展区曲线可以避免噪声电平被不必要的放大,扩展比输出声压级SPLout=k1*(SPLin-ith1)+oth1,其中,oth1=0,此时虽然处于正常听力范围以下,为了保持声音的延续性,同时对噪声进行抑制,对输入进行k1段扩展放大,实际在处理的过程中,由于声压级小于oth1的声音不能被听到,可以简单的处理为0值。
当ith2<SPLin≤ith3,第二段曲线被认为是低线性区放大曲线,斜率为k2,上边界拐点为(ith3,oth3),斜率计算方式为输出声压级计算方式为SPLout=k2*(SPLin-ith2)+oth2。
当ith3<SPLin≤ith4,第三段曲线通常为压缩曲线,压缩比对应的斜率k3=1/CR,输出声压级SPLout=k3*(SPLin-ith3)+oth3。
当ith4<SPLin≤ith5,第四段曲线被认为是高线性区放大曲线,对应的斜率为输出声压级SPLout=k4*(SPLin-ith4)+oth4。
当SPLin>ith5,第五段曲线通常为限幅区,即处于听力不适阈时,为了保护患者的听力,启动削峰算法,曲线斜率k5=0,输出声压级SPLout-oth5。
之后,对数域通道增益根据分段得到的输出声压级计算,先确定输入声压级在哪个区域范围,之后计算该区域范围的输出声压级,之后计算对数域的通道增益,计算方式可以具体为:
当SPLin≤ith2,利用扩展区曲线:
gdB(n)=SPLout-SPLin=k1*(SPLin-th1)+oth1-SPLin
当ith2<SPLin≤ith3,启动低线性区曲线:
gdB(n)=SPLout-SPLin=k2*(SPLin-ith2)+oth2-SPLin
当ith3<SPLin≤ith4,启动压缩曲线:
gdB(n)=k3*(SPLin-ith3)+oth3-SPLin
当ith4<SPLin≤ith5,采用高线性区放大曲线将正常人的声压级听力值映射到患者的听力值中:
gdB(n)=SPLout-SPLin=k4*(SPLin-ith4)+oth4-SPLin
当SPLin>ith5,利用斜率为0的限幅区曲线来保护听障患者的听力:
QdB(n)=SPLout-SPLin=oth5-SPLin
在本申请方案中,宽动态范围压缩曲线是用于描述输入声压级和输出声压级对应关系的曲线图,不同的听障患者的真实听力情况会有所不同。为考虑到听障患者的真实听力情况以及环境噪声的影响,采用对低噪进行抑制的5段式曲线,可以对较低声压级以下的输入信号认为是底噪而加以抑制,从而可以减少噪声对听障患者听到外界声音的影响;其中,输入声压级表示正常人的听力声压级范围,输出声压级表示听障患者的声压级范围。
在一个实施例中,在根据通道输入声压级和通道输出声压级计算每个通道信号的通道增益之后还可以执行以下步骤:
对计算得到的通道增益进行平滑滤波处理,并得到通道平滑增益,通道平滑增益的计算方式可以为:
其中,为计算得到的通道平滑增益,gb1和gb2为常数。
之后,将通道平滑增益作用到通道信号生成通道压缩信号,通道压缩信号的表示方式可以为:
其中,x(n)表示输入的通道信号,为通道平滑增益,y(n)表示计算得到的通道压缩信号。
需要说明的是,在宽动态范围压缩处理完成后,也即通道信号经过通道平滑增益的放大后,若声音还不够大,可以对信号再进行一次通道增益的作用,再一次放大信号后输出,使患者可以听见声音,计算方式可以为:
Xout(n)=y(n)*gain(n)
其中,Xout(n)表示再一次放大后的信号,y(n)表示通道压缩信号,gain(n)表示通道增益。
在本申请方案中,若增益计算的结果波动较大会影响音质,因此对计算所得到的通道增益进行平滑滤波处理,可以降低增益计算结果的波动以及调整启动时间和释放时间,以减少计算结果的波动,从而可以提高经过处理后的语音信号的输出音质。
参照图6,为多通道宽动态范围压缩实现听力补偿的完整流程图,首先可以通过峰值包络检测查找信号的峰值,之后计算通道信号的平均能量和输入输出声压级,之后计算每个通道信号的通道增益,对通道增益进行平滑滤波处理后,将通道平滑增益作用到通道信号上,输出通道压缩信号,通道压缩信号也即经过宽动态范围压缩处理后得到的信号。
图2为一个实施例中语音宽动态范围压缩方法的流程示意图。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行;除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行;并且图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
基于上述方法,本申请实施例还公开一种语音宽动态范围压缩装置。
参照图7,该装置包括以下模块:
语音信息获取模块701,用于获取待处理的语音信息,待处理的语音信息包括从助听器中获取的一段正常听力动态范围内的声音信息;
语音信息分解模块702,用于将待处理的语音信息转换成频域的语音信号,并分解成预设数量的通道信号;
压缩处理模块703,用于对每个通道信号进行宽动态范围压缩处理后得到通道压缩信号;
语音信息合成模块704,用于将每个通道压缩信号合成全通道频域信号,并转换成时域语音信号后输出。
在一个实施例中,语音信息分解模块702,具体用于将待处理的语音信息转换成频域表示,并获得语音频域信号;将语音频域信号根据频域带宽均匀划分成若干语音子带信号;根据bark尺度,将语音子带信号划分为预设数量的通道信号。
在一个实施例中,压缩处理模块703,具体用于计算每个通道信号的通道平均能量;根据每个通道平均能量计算每个通道信号的通道输入声压级;根据通道输入声压级计算每个通道信号的通道输出声压级;根据通道输入声压级和通道输出声压级计算每个通道信号的通道增益;将通道增益作用到通道信号,并生成通道压缩信号。
在一个实施例中,压缩处理模块703,还用于获取用于描述输入声压级和输出声压级对应关系的宽动态范围压缩曲线;根据通道输入声压级查找对应于宽动态范围压缩曲线的输入区域;根据输入区域的输入声压级和输出声压级的对应关系,计算得到通道输出声压级。
在一个实施例中,压缩处理模块703,还用于对计算得到的通道增益进行平滑滤波处理,并得到通道平滑增益;将通道增益作用到通道信号,并生成通道压缩信号包括:将通道平滑增益作用到通道信号,并生成通道压缩信号。
在一个实施例中,压缩处理模块703,还用于计算若干语音子带信号的能量;计算每个通道的通道信号的通道平均能量。
在一个实施例中,压缩处理模块703中通道输入声压级包括:
本申请实施例提供的语音宽动态范围压缩装置,可以应用于如上述实施例中提供的语音宽动态范围压缩方法,相关细节参考上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
需要说明的是:本申请实施例中提供的语音宽动态范围压缩装置在进行语音宽动态范围压缩时,仅以上述各功能模块/功能单元的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块/功能单元完成,即将语音宽动态范围压缩装置的内部结构划分成不同的功能模块/功能单元,以完成以上描述的全部或者部分功能。另外,上述方法实施例提供的语音宽动态范围压缩方法的实施方式与本实施例提供的语音宽动态范围压缩装置的实施方式属于同一构思,本实施例提供的语音宽动态范围压缩装置的具体实现过程详见上述方法实施例,这里不再赘述。
本申请实施例还公开一种计算机设备。
具体来说,如图8所示,该计算机设备可以是桌上型计算机、笔记本电脑、掌上电脑以及云端服务器等计算机设备。该计算机设备可以包括,但不限于,处理器和存储器。其中,处理器和存储器可以通过总线或者其他方式连接。其中,处理器可以为中央处理器(Central Processing Unit,CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、图形处理器(Graphics Processing Unit,GPU)、嵌入式神经网络处理器(Neural-network Processing Unit,NPU)或者其他专用的深度学习协处理器、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请上述实施方式中的方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施方式中的方法。存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本申请实施例还公开一种计算机可读存储介质。
具体来说,计算机可读存储介质用于存储计算机程序,计算机程序被处理器执行时,实现上述方法实施方式中的方法。本领域技术人员可以理解,实现本申请上述实施方式方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施方式的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
本具体实施例仅仅是对本发明的解释,其并不是对本发明的限制,本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改,但只要在本发明的权利要求范围内都受到专利法的保护。
Claims (10)
1.一种语音宽动态范围压缩方法,其特征在于:所述方法应用于语音宽动态范围压缩系统,所述语音宽动态范围压缩系统包括助听器,所述方法包括:
获取待处理的语音信息,所述待处理的语音信息包括从所述助听器中获取的一段正常听力动态范围内的声音信息;
将所述待处理的语音信息转换成频域的语音信号,并分解成预设数量的通道信号;
对每个所述通道信号进行宽动态范围压缩处理后得到通道压缩信号;
将每个所述通道压缩信号合成全通道频域信号,并转换成时域语音信号后输出。
2.根据权利要求1所述的方法,其特征在于:所述将所述待处理的语音信息转换成频域的语音信号,并分解成预设数量的通道信号包括:
将所述待处理的语音信息转换成频域表示,并获得语音频域信号;
将所述语音频域信号根据频域带宽均匀划分成若干语音子带信号;
根据bark尺度,将所述语音子带信号划分为预设数量的所述通道信号。
3.根据权利要求1所述的方法,其特征在于:所述对每个所述通道信号进行宽动态范围压缩处理后得到通道压缩信号包括:
计算每个所述通道信号的通道平均能量;
根据每个所述通道平均能量计算每个所述通道信号的通道输入声压级;
根据所述通道输入声压级计算每个所述通道信号的通道输出声压级;
根据所述通道输入声压级和所述通道输出声压级计算每个所述通道信号的通道增益;
将所述通道增益作用到所述通道信号,并生成所述通道压缩信号。
4.根据权利要求3所述的方法,其特征在于:所述根据所述通道输入声压级计算每个所述通道信号的通道输出声压级包括:
获取用于描述输入声压级和输出声压级对应关系的宽动态范围压缩曲线;
根据所述通道输入声压级查找对应于所述宽动态范围压缩曲线的输入区域;
根据所述输入区域的输入声压级和输出声压级的对应关系,计算得到所述通道输出声压级。
5.根据权利要求3所述的方法,其特征在于:在所述根据所述通道输入声压级和所述通道输出声压级计算每个所述通道信号的通道增益之后,还包括:
对计算得到的所述通道增益进行平滑滤波处理,并得到通道平滑增益;
所述将所述通道增益作用到所述通道信号,并生成所述通道压缩信号包括:
将所述通道平滑增益作用到所述通道信号,并生成所述通道压缩信号。
6.根据权利要求3所述的方法,其特征在于:所述通道信号包括若干语音子带信号,所述计算每个所述通道信号的通道平均能量包括:
计算若干所述语音子带信号的能量;
计算每个通道的所述通道信号的通道平均能量。
7.根据权利要求3所述的方法,其特征在于:所述通道输入声压级包括:
其中,P(n)为所述通道平均能量;P(0)为常数,表示的是参考声压级;SPLin为计算所得所述通道输入声压级。
8.一种语音宽动态范围压缩装置,其特征在于:所述装置应用于语音宽动态范围压缩系统,所述语音宽动态范围压缩系统包括助听器,所述装置包括:
语音信息获取模块(701),用于获取待处理的语音信息,所述待处理的语音信息包括从所述助听器中获取的一段正常听力动态范围内的声音信息;
语音信息分解模块(702),用于将所述待处理的语音信息转换成频域的语音信号,并分解成预设数量的通道信号;
压缩处理模块(703),用于对每个所述通道信号进行宽动态范围压缩处理后得到通道压缩信号;
语音信息合成模块(704),用于将每个所述通道压缩信号合成全通道频域信号,并转换成时域语音信号后输出。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器上存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。
10.一种计算机可读存储介质,其特征在于,存储有能够被处理器加载并执行如权利要求1至7中任一种方法的计算机程序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311834658.8A CN117789735A (zh) | 2023-12-27 | 2023-12-27 | 语音宽动态范围压缩方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311834658.8A CN117789735A (zh) | 2023-12-27 | 2023-12-27 | 语音宽动态范围压缩方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117789735A true CN117789735A (zh) | 2024-03-29 |
Family
ID=90397968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311834658.8A Pending CN117789735A (zh) | 2023-12-27 | 2023-12-27 | 语音宽动态范围压缩方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117789735A (zh) |
-
2023
- 2023-12-27 CN CN202311834658.8A patent/CN117789735A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8098859B2 (en) | Methods, devices and systems using signal processing algorithms to improve speech intelligibility and listening comfort | |
JP2953397B2 (ja) | ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器 | |
US5274711A (en) | Apparatus and method for modifying a speech waveform to compensate for recruitment of loudness | |
US20030216907A1 (en) | Enhancing the aural perception of speech | |
US9369102B2 (en) | Methods and apparatus for processing audio signals | |
US20080082327A1 (en) | Sound Processing Apparatus | |
EP1121834A2 (en) | Hearing aids based on models of cochlear compression | |
JP2000165483A (ja) | デジタル電話のオ―ディオ出力を調整する方法およびユ―ザ―の個別聴力スペクトルに合わせてオ―ディオ出力を調整するデジタル電話 | |
JP4738213B2 (ja) | 利得調整方法及び利得調整装置 | |
CN113993053B (zh) | 一种通道自适应的数字助听器宽动态范围压缩方法 | |
CN112992159B (zh) | 一种lc3音频编解码方法、装置、设备及存储介质 | |
US9408001B2 (en) | Separate inner and outer hair cell loss compensation | |
TWI260538B (en) | Method of normalizing received digital audio data, normalizer for digital audio data, and computer system for perceptual normalization of digital audio data | |
EP2675191B1 (en) | Frequency translation in hearing assistance devices using additive spectral synthesis | |
US11445307B2 (en) | Personal communication device as a hearing aid with real-time interactive user interface | |
EP3595172B1 (en) | Systems and methods for processing an audio signal for replay on an audio device | |
JPH06208395A (ja) | ホルマント検出装置及び音声加工装置 | |
CN117789735A (zh) | 语音宽动态范围压缩方法、装置、设备及存储介质 | |
US7123732B2 (en) | Process to adapt the signal amplification in a hearing device as well as a hearing device | |
CN109874088A (zh) | 一种调整声压值的方法及设备 | |
WO2010000042A1 (en) | Linear gain amplification for mid-to-high intensity sounds in a compressive sound processor | |
CN115299075A (zh) | 扬声器的低音增强 | |
CN112866889B (zh) | 面向助听器的自适应多通道响度补偿方法及助听器芯片 | |
US11184715B1 (en) | Hearing devices and methods for implementing an adaptively adjusted cut-off frequency | |
Tiwari et al. | A sliding-band dynamic range compression for use in hearing aids |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |