发明内容
有鉴于此,本发明的目的在于提出一种增强时域信息的人工耳蜗虚拟通道信息处理系统和方法,提升人工耳蜗使用者的听音能力,改善植入者对声调语言和音乐的识别效果。
基于上述目的本发明提供的增强时域信息的人工耳蜗虚拟通道信息处理系统,包括:
声信号采集单元,用于采集外界的声信号;
转换成数字信号单元,与所述声信号采集单元相连,将采集的声信号转换成数字信号;
基频提取单元,与所述转换成数字信号单元相连,用于对数字信号进行基频(F0)提取;
分析单元,与所述转换成数字信号单元相连,用于将数字信号分解为M个频带,根据系统的可用电极数,将M个频带合并为N个通道;
第一级峰值选取单元,与所述分析单元相连,用于分别计算该N个通道的能量,选择能量最大的A个通道,并得到A个通道的包络能量值;
幅度调整单元,与所述第一级峰值选取单元和基频提取单元相连,用于固定低频与高频通道的界限,将A个通道分为高频通道和低频通道;然后固定可接受的基频范围,对低频通道的能量进行调制;
第二级峰值选取单元,与所述分析单元相连,计算并保留所述分析单元中合并的N个通道的每个通道内最大频段的位置;
声-电刺激单元,将调制后的低频通道进行声-电转换,然后得到低频通道对应电极的刺激量;将高频通道进行声-电转换,然后根据所述第二级峰值选取单元的N个通道的每个通道内最大频段的位置,设置电流分配参数,确定刺激产生该高频通道的最大频段时两个相邻独立电极上电流强度的比例,最后得到高频通道对应两个相邻独立电极上的刺激量。
可选地。所述的声信号采集单元通过自动增益控制的采样系统,准确无失真采集25-100dB动态范围的声信号。
可选地,所述的基频提取单元对数字信号进行基频(F0)提取:利用数字信号的平均幅度差函数:
其中,x(i)是输入的数字信号;τ为估计时延,取值同帧长;d(i,τ)是信号的周期,其最小值对应的是τ=τ0=1/F0;W是一帧语音中采样点的个数。
进一步地,所述的基频提取单元由于d(i,τ)的幅度变化范围比较大,在实时计算时,对d(i,τ)进行一个归一化处理:即
在按上述方法获得归一化后的d(记为dd(i,τ))的第一个极小值,其对应的τ为信号基频的倒数,即1/F0。
进一步地,所述的基频提取单元在实时计算时,为降低计算量,在计算
时,仅对一帧内的信号进行每S个点计算一次d(i,τ):
进一步地,所述的幅度调整单元固定可接受的基频范围[F0_min,F0_max],然后按如下方法对低频通道的能量进行调制:设低频通道所得通道能量AL(i),调制后的通道能量AL_mod(i)为:
当F0_min<F0<F0_max时,AL_mod(i)=AL(i)*cos(2π*F0*t);
当F0<F0_min时,AL_mod(i)=AL(i);
当F0>F0_max时,AL_mod(i)=AL(i);
其中,t是一帧信号的时间。
进一步地,所述的声-电刺激单元将调制后的低频通道能量AL_mod(i),按如下方法转换为低频通道电流值EL(i):
则AL_mod(i)<Amin时,EL(i)=Emin;
则Amin<AL_mod(i)<Amax时,EL(i)=Emin+(Emax-Emin)*k;
则AL_mod(i)>Amax时,EL(i)=Emax;
其中,k=[(A-Amin)/(Amax-Amin)]^p;
p取值范围为0.2—0.5;Emin和Emax分别对应于预先测量的植入者电极的电刺激感知阈值(T)和舒适阈值(C)的参数;[Amin–Amax]为通道声信号幅度输入范围;
所得低频通道对应电极E(i)的刺激量为EL(i);
将接收的高频通道的通道能量AH(i),按上述方法转换为高频通道电流值EH(i);
然后,根据第二级峰值选取单元的N个通道的每个通道内最大频段的位置,设置电流分配参数:在一帧时间内,以N个通道的每个通道内最大频段的位置,确定刺激产生该峰值时两个相邻独立电极上电流强度的比例;首先,设通道内包含频段数为K个,其中K的取值范围为2-30;B为1至K个频段内最大频段能量位置,则通道对应电极E(i)和E(i+1)的电流比例为:[B/K,1-B/K];
最后根据公式:EH(i)*B/K和EL(i)*(1-B/K),分别得到高频通道对应的电极E(i)和E(i+1)的刺激量。
基于上述目的,本发明还提供了增强时域信息的人工耳蜗虚拟通道信息处理方法,包括以下步骤:
采集外界的声信号,将采集的声信号转换成数字信号;
对数字信号进行基频(F0)提取;
并且将数字信号分解为M个频带,然后将分频处理后的M个频带合并为N个通道;进行第一级峰值选取,分别计算该N个通道的能量,选择能量最大的A个通道,并得到A个通道的包络能量值;进行第二级峰值选取:计算并保留合并的N个通道的每个通道内最大频段的位置;
根据第一级峰值选取的能量最大的A个通道和包络能量值,以及提取的信号基频进行声信号的幅度调整:固定低频与高频通道的界限,将A个通道分为高频通道和低频通道;然后固定可接受的基频范围,对低频通道的能量进行调制;
将调制后的低频通道进行声-电转换,然后得到低频通道对应电极的刺激量;将高频通道进行声-电转换,然后根据所述第二级峰值选取的N个通道的每个通道内最大频段的位置,设置电流分配参数,确定刺激产生该高频通道的最大频段时两个相邻独立电极上电流强度的比例,最后得到高频通道对应两个相邻独立电极上的刺激量。
可选地,所述对低频通道的能量进行调制是按照如下方式进行:
固定可接受的基频范围[F0_min,F0_max],然后对低频通道的能量进行调制:
设低频通道所得通道能量AL(i),调制后的通道能量AL_mod(i)为:
当F0_min<F0<F0_max时,AL_mod(i)=AL(i)*cos(2π*F0*t);
当F0<F0_min时,AL_mod(i)=AL(i);
当F0>F0_max时,AL_mod(i)=AL(i);
其中,t是一帧信号的时间。
进一步地,所述的进行声-电刺激是将调制后的低频通道能量AL_mod(i),按如下方法转换为低频通道电流值EL(i):
则AL_mod(i)<Amin时,EL(i)=Emin;
则Amin<AL_mod(i)<Amax时,EL(i)=Emin+(Emax-Emin)*k;
则AL_mod(i)>Amax时,EL(i)=Emax;
其中,k=[(A-Amin)/(Amax-Amin)]^p;
p取值范围为0.2—0.5;Emin和Emax分别对应于预先测量的植入者电极的电刺激感知阈值(T)和舒适阈值(C)的参数;[Amin–Amax]为通道声信号幅度输入范围;
所得低频通道对应电极E(i)的刺激量为EL(i);
将得到的高频通道的通道能量AH(i),按上述方法转换为高频通道电流值EH(i);
然后,根据第二级峰值选取的N个通道的每个通道内最大频段的位置,设置电流分配参数:在一帧时间内,以N个通道的每个通道内最大频段的位置,确定刺激产生该峰值时两个相邻独立电极上电流强度的比例;首先,设通道内包含频段数为K个,其中K的取值范围为2-30;B为1至K个频段内最大频段能量位置,则通道对应电极E(i)和E(i+1)的电流比例为:[B/K,1-B/K];
最后根据公式:EH(i)*B/K和EL(i)*(1-B/K),分别得到高频通道对应的电极E(i)和E(i+1)的刺激量。
从上面所述可以看出,本发明提供的增强时域信息的人工耳蜗虚拟通道信息处理系统和方法,通过在人工耳蜗信号处理的过程中对低频通道增强时域包络信息;对高频通道使用虚拟通道,增加频率感知。从而,可以提高人工耳蜗使用者的音调感知和识别效果。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
参阅图2所示,为本发明增强时域信息的人工耳蜗虚拟通道信息处理系统的一个实施例示意图,其中:
声信号采集单元201,采集外界的声信号。
较佳地,声信号通过自动增益控制的采样系统,准确无失真采集25-100dB动态范围的声信号。
转换成数字信号单元202,与所述声信号采集单元201相连:
在本发明的一个实施例中,将采集的声信号转换成数字信号,为了达到一定的转换精度,使用16位的模数转换器。
基频提取单元203,与所述转换成数字信号单元202相连,其主要功能包括:
1)对数字信号进行基频(F0)提取。
首先,数字信号的平均幅度差函数为:
其中,x(i)是输入的数字信号;τ为估计时延,取值同帧长;d(i,τ)是信号的周期,其最小值对应的是τ=τ0=1/F0;W是一帧语音中采样点的个数。
由于d(i,τ)的幅度变化范围比较大,在实时计算时,会引起一些意想不到的误差。较佳地,对d(i,τ)进行一个归一化处理:即
在按上述方法获得归一化后的d(记为dd(i,τ))的第一个极小值,其对应的τ为信号基频的倒数,即1/F0。
另外,在实时计算时,为降低计算量,在计算
时,仅对一帧内的信号进行每S个点计算一次d(i,τ):
2)将基频F0传送给幅度调整单元206。
分析单元204,与所述转换成数字信号单元202相连,其主要功能包括:
1)将数字信号分解为M个频带,可以利用数字信号处理芯片(DSP)对采集到的声信号进行分频处理。较佳地,数字信号处理芯片(DSP)采用快速傅里叶变换(FFT)方法完成。其中,M的取值范围为32-128。
2)将分频处理后的M个频带合并为N个通道:根据人工耳蜗系统可用电极的数目N,可以利用Greenwood公式将该M个频带合并为N个通道,分别获得每个通道的包络能量。其中,N的取值范围为2-24。
第一级峰值选取单元205,与所述分析单元204相连,其主要功能包括:
1)分别计算该N个通道的能量,选择能量最大的A个通道,并得到A个通道的包络能量值。其中,A<N。
2)将A个通道以及得到的A个通道的包络能量值一起传送给幅度调整单元206。
幅度调整单元206,与所述第一级峰值选取单元205和基频提取单元203相连,其主要功能包括:
1)接收基频提取单元203传送的基频F0。接收第一级峰值选取单元205传送的A个通道以及得到的A个通道的包络能量值。
2)固定低频与高频通道的界限(FR_TH),在本发明的实施例中,界限(FR_TH)为1kHz。对第一峰值选取单元205给出的A个通道进行分类,通道截止频率低于界限(FR_TH)为低频通道,高于界限(FR_TH)为高频通道。
3)固定可接受的基频范围[F0_min,F0_max],然后对低频通道的能量进行调制。
设低频通道所得通道能量AL(i),调制后的通道能量AL_mod(i)为:
当F0_min<F0<F0_max时,AL_mod(i)=AL(i)*cos(2π*F0*t);
当F0<F0_min时,AL_mod(i)=AL(i);
当F0>F0_max时,AL_mod(i)=AL(i);
其中,t是一帧信号的时间。
4)将高频通道的通道能量,以及调制后的低频通道的通道能量传送给声-电刺激单元208。
第二级峰值选取单元207,与所述分析单元204相连,其主要功能包括:
1)计算并保留分析单元203中合并的N个通道的每个通道内最大频段的位置。
2)将N个通道的每个通道内最大频段的位置传送给声-电刺激单元208。
声-电刺激单元208,其主要功能包括:
1)将接收的调制后的低频通道能量AL_mod(i),按如下方法转换为低频通道电流值EL(i):
则AL_mod(i)<Amin时,EL(i)=Emin;
则Amin<AL_mod(i)<Amax时,EL(i)=Emin+(Emax-Emin)*k;
则AL_mod(i)>Amax时,EL(i)=Emax;
其中,k=[(A-Amin)/(Amax-Amin)]^p;
p取值范围为0.2—0.5;Emin和Emax分别对应于预先测量的植入者电极的电刺激感知阈值(T)和舒适阈值(C)的参数;[Amin–Amax]为通道声信号幅度输入范围。
从而,所得低频通道对应电极E(i)的刺激量为EL(i)。
2)将接收的高频通道的通道能量AH(i),按上述方法转换为高频通道电流值EH(i)。
然后,根据第二级峰值选取单元207的N个通道的每个通道内最大频段的位置,设置电流分配参数:在一帧时间内,以N个通道的每个通道内最大频段的位置,确定刺激产生该峰值时两个相邻独立电极上电流强度的比例。首先,设通道内包含频段数为K个,其中K的取值范围为2-30;B为1至K个频段内最大频段能量位置,则通道对应电极E(i)和E(i+1)的电流比例为:[B/K,1-B/K]。从而,根据公式:EH(i)*B/K和EL(i)*(1-B/K),分别得到高频通道对应的电极E(i)和E(i+1)的刺激量。
参阅图3所示,为本发明增强时域信息的人工耳蜗虚拟通道信息处理的方法的一个实施例示意图,其中:
步骤301,采集外界的声信号。
较佳地,声信号通过自动增益控制的采样系统,准确无失真采集25-100dB动态范围的声信号。
步骤302,将采集的声信号转换成数字信号:在本发明的一个实施例中,为了达到一定的转换精度,使用16位的模数转换器。
步骤303,对数字信号进行基频(F0)提取。其主要实施过程如下:
对数字信号进行基频(F0)提取。
首先,数字信号的平均幅度差函数为:
其中,x(i)是输入的数字信号;τ为估计时延,取值同帧长;d(i,τ)是信号的周期,其最小值对应的是τ=τ0=1/F0;W是一帧语音中采样点的个数。
由于d(i,τ)的幅度变化范围比较大,在实时计算时,会引起一些意想不到的误差。较佳地,对d(i,τ)进行一个归一化处理:即
在按上述方法获得归一化后的d(记为dd(i,τ))的第一个最小值,其对应的τ为信号基频的倒数,即1/F0。
另外,在实时计算时,为降低计算量,在计算
时,仅对一帧内的信号进行每S个点计算一次d(i,τ):
步骤304,将数字信号分解为M个频带,然后将分频处理后的M个频带合并为N个通道。其主要实施过程如下:
1)将数字信号分解为M个频带,可以利用数字信号处理芯片(DSP)对采集到的声信号进行分频处理。较佳地,数字信号处理芯片(DSP)采用快速傅里叶变换(FFT)方法完成。其中,M的取值范围为32-128。
2)将分频处理后的M个频带合并为N个通道:根据人工耳蜗系统可用电极的数目N,可以利用Greenwood公式将该M个频段合并为N个通道,分别获得每个通道的包络能量。其中,N的取值范围为2-24。
步骤305,进行第一级峰值选取,分别计算该N个通道的能量,选择能量最大的A个通道,并得到A个通道的包络能量值。其中,A<N。
步骤306,根据第一级峰值选取的能量最大的A个通道和包络能量值,以及提取的信号基频进行声信号的幅度调整。其主要实施过程如下:
1)固定低频与高频通道的界限(FR_TH),在本发明的实施例中,界限(FR_TH)为1kHz。对第一峰值选取的A个通道给进行分类,通道截止频率低于界限(FR_TH)为低频通道,高于界限(FR_TH)为高频通道。
2)固定可接受的基频范围[F0_min,F0_max],然后对低频通道的能量进行调制。
设低频通道所得通道能量AL(i),调制后的通道能量AL_mod(i)为:
当F0_min<F0<F0_max时,AL_mod(i)=AL(i)*cos(2π*F0*t);
当F0<F0_min时,AL_mod(i)=AL(i);
当F0>F0_max时,AL_mod(i)=AL(i);
其中,t是一帧信号的时间。
步骤307,进行第二级峰值选取:计算并保留合并的N个通道的每个通道内最大频段的位置。
步骤308,进行声-电刺激,其主要实施过程如下:
1)将步骤306得到的调制后的低频通道能量AL_mod(i),按如下方法转换为低频通道电流值EL(i):
则AL_mod(i)<Amin时,EL(i)=Emin;
则Amin<AL_mod(i)<Amax时,EL(i)=Emin+(Emax-Emin)*k;
则AL_mod(i)>Amax时,EL(i)=Emax;
其中,k=[(A-Amin)/(Amax-Amin)]^p;
p取值范围为0.2—0.5;Emin和Emax分别对应于预先测量的植入者电极的电刺激感知阈值(T)和舒适阈值(C)的参数;[Amin–Amax]为通道声信号幅度输入范围。
从而,所得低频通道对应电极E(i)的刺激量为EL(i)。
2)将步骤306得到的高频通道的通道能量AH(i),按上述方法转换为高频通道电流值EH(i)。
然后,根据第二级峰值选取的N个通道的每个通道内最大频段的位置,设置电流分配参数:在一帧时间内,以N个通道的每个通道内最大频段的位置,确定刺激产生该峰值时两个相邻独立电极上电流强度的比例。首先,设通道内包含频段数为K个,其中K的取值范围为2-30;B为1至K个频段内最大频段能量位置,则通道对应电极E(i)和E(i+1)的电流比例为:[B/K,1-B/K]。从而,根据公式:EH(i)*B/K和EL(i)*(1-B/K),分别得到高频通道对应的电极E(i)和E(i+1)的刺激量。
在本发明的一个具体实施例中,声信号首先通过自动增益控制的采集系统,准确无失真的采集25-100dB动态范围的声信号,采用率为16K。随后,高性能的数字信号处理芯片(DSP)可以对采集到的声信号进行256点FFT处理,128个频带,并按可用电极的个数(本实施例中为20个),将128个频带合并为20个通道,同时保留当前帧的包络能量。如下表所示,为20个通道的频率对应关系:
电极-通道 |
起止频率范围(Hz) |
包含FFT点数(以128为总频段数) |
1 |
[91,213] |
2 |
2 |
[213,335] |
2 |
3 |
[335,457] |
2 |
4 |
[457,579] |
2 |
5 |
[579,701] |
2 |
6 |
[701,823] |
2 |
7 |
[823,945] |
2 |
8 |
[945,1066] |
2 |
9 |
[1066,1249] |
3 |
10 |
[1249,1493] |
4 |
11 |
[1493,1737] |
4 |
12 |
[1737,2041] |
5 |
13 |
[2041,2468] |
7 |
14 |
[2468,2895] |
7 |
15 |
[2895,3382] |
8 |
16 |
[3382,3991] |
10 |
17 |
[3991,4723] |
12 |
18 |
[4723,5576] |
14 |
19 |
[5576,6612] |
17 |
20 |
[6612,7770] |
19 |
挑选其中能量最大的8个通道能量,假设为1,2,3,4通道和10,12,13,14通道;能量分别为A1,A2,A3,A4,A10,A12,A13,A14;同时,计算并保存24个通道内的最大能量频段Fmax。
所述基频处理对预处理后的数字信号进行基频(F0)提取,设信号的平均幅度差函数为:
其中x(i)是输入信号,估计时延τ,取值同帧长,取20ms;W值为256;d(i,τ)的最小值对应的τ0,就是信号的周期。
由于d(i,τ)的幅度变化范围比较大,在实时计算时,会引起一些意想不到的误差,在本发明中对d(i,τ)进行一个归一化处理:
另外,在本发明中,为降低计算量,在计算
对一帧内的信号进行计算,即为每S个点计算一次d(i,τ):在本例中,S取16。
在按上述方法获得dd(i,τ)的值之后,选择dd(i,τ)第一个极小值作为周期值,假设所得F0值为200Hz。
设1kHz为低频和高频的界限(FR_TH),在本例中,前4个通道为低频通道,后4个通道为高频通道。
设可接受的基频范围是:F0_min=100Hz,F0_max=400Hz。F0=200Hz在可接受范围内。对低频通道能量调整为:
AL_mod(1)=AL(1)*cos(2π*200*t);
AL_mod(2)=AL(2)*cos(2π*200*t);
AL_mod(3)=AL(3)*cos(2π*200*t);
AL_mod(4)=AL(4)*cos(2π*200*t);
其中,t是一帧信号的时间,在本发明的实施例中,一帧为256点,采样率是16K,则t为16ms。
当T值取0,C值取植入体最大放电电流时,
则AL_mod(i)<Amin时,EL(i)=Emin;
则Amin<AL_mod(i)<Amax时,EL(i)=Emin+(Emax-Emin)*k;
则AL_mod(i)>Amax时,EL(i)=Emax;
其中,k=[(A-Amin)/(Amax-Amin)]^p;p取值范围为0.2;当Amax=75dB,Amin=35dB,将Amax设为1,Amin归一化为1/10^(40/10);计算得到对应电极E1-E4的刺激电流EL1,EL2,EL3,EL4;
所得高频通道能量值AH10-AH13,也按上述公式转换为电流值EH10-EH13。根据第二级峰值选择的值,设置电流分配参数:在一帧时间内,以每个通道中峰值的相对位置确定用刺激产生该峰值时两个独立电流源上电流强度的比例。下表内说明了本例所述情况的电流分配关系:
从上面的描述可以看出,本发明增强时域信息的人工耳蜗虚拟通道信息处理系统和方法,创造性的提出了在人工耳蜗信号处理的低频段增强时域包络信息周期性,在较高频段使用虚拟通道,增加频率感知;本发明显著提升了人工耳蜗使用者的听音能力和音调感知,以及对频率的分辨能力;与此同时,改善了植入者对声调语言和音乐的识别效果;最后,整个增强时域信息的人工耳蜗虚拟通道信息处理系统和方法实现起来简便易行。
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。