CN104616659B

CN104616659B - 相位对重构语音声调感知影响方法及在人工耳蜗中应用

Info

Publication number: CN104616659B
Application number: CN201510066246.3A
Authority: CN
Inventors: 田岚; 郭翠翠; 魏莹
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2015-02-09
Filing date: 2015-02-09
Publication date: 2017-10-27
Anticipated expiration: 2035-02-09
Also published as: CN104616659A

Abstract

本发明公开了相位对重构语音声调感知影响方法及在人工耳蜗中应用，采用傅立叶变换分析方法，首先对原始语音信号作频域分解，通过改变信号相位谱特征，重构合成新的语音，进而测听重构音的声调感知。实验发现，采用常用窗长分析和重构时，在信号幅频特征不变、初始相位全部置零条件下，得到的重构音节音质会下降，表明：相位特征对声调感知是有影响的，且与信号重构窗长有关。进一步采用声音嵌合重构方法，即用来自不同调型音节的幅频特征与相位特征交叉嵌合、重构音节，测听嵌合重构音的声调感知，由此验证：调型的感知主要取决于相位特征。

Description

相位对重构语音声调感知影响方法及在人工耳蜗中应用

技术领域

本发明公开了相位对重构语音声调感知影响方法及在人工耳蜗中应用。

背景技术

人工耳蜗(Cochlear Implant，简称CI)的问世为先天或后天重度至极重度感音性耳聋患者带来了福音。随着人工耳蜗对声信号编码策略的不断的改进，CI植入者的言语识别能力获得了明显改善，音节识别率可达到95％以上。但是，对讲汉语这类声调语言的CI植入者来说，声调感知不佳问题仍有待完善，是目前人工耳蜗技术研究的难题之一。为此，国内外学者对CI植入者进行了若干研究。近期研究表明，49例国产诺尔康人工耳蜗产品植入者在安静环境下的声调识别率平均为67.26％，噪声环境下仅为51.92％；另有研究，对16例语后聋CI植入者采用去除时长信息的测试材料进行声调识别能力测试，结果表明，声调识别总平均分为70.22％。同时，国外研究也发现，各种主流言语编码策略(如ACE、CIS和SPEAK等)的CI植入者的声调平均识别率为50％-80％，与言语音节或词汇识别率相差较大。

对上述声音编码策略的分析可知，根据人耳内部所具有的声音“频谱分析器”的感音生理结构，人工耳蜗声音处理器是将每小段声音信号随时间推移所包含的各种频率成分的变化分解成若干个频带，经带通滤波器滤波，每个通带输出对应频段的时变信号，经检波、低通，每个通带信号的能量包络按一定的时间间隔抽样编码，以所有通带或部分能量较高通带的能量编码调制刺激电流脉冲的幅度，再按一定工作顺序送到耳蜗内电极上，传递该段声音信号对末端听神经的刺激。目前子频带总数通常与电极总数相同，为12至24个，这样的电极密度对传递声道谱包络特性(或谐振特性)为主要特征的发音内容来说，可以比较准确地表达各个发音单元，所以目前的人工耳蜗各产品在识别语音内容(即不涉及声调的音节、词和句)方面达到较高满意度。然而，这样的声音编码策略传递的刺激信号阵列作用到听觉神经组织后得到的汉语的声调感知却并不理想，声调识别率明显下降，反映了这样的编码策略在声调信息表达上存在缺陷。

发明内容

为了解决现有技术中存在的技术缺陷，本发明公开了一种利用相位特征对重构汉语语音声调感知进行调教的方法。本发明从信号分解的角度出发，采用测听重构音的实验方法，研究这种缺失是否与相位特征有关，以改进人工耳蜗声调信息的编码方法。

本发明采用的技术方案如下：

一种相位对重构语音声调感知影响方法，包括以下步骤:

步骤1获取原始的汉语语音声调信号；

步骤2对步骤1的声调信号采用傅里叶变换分解，得到与汉语语音声调信号相应的幅度、频率和相位三组特征参数；

步骤3在相同条件下，保持信号的频率和幅度特征两者同时不变，仅改变相位特征，得到原始汉语语音声调信号的重构信号；

步骤4对重构信号进行识别，进而得到相位特征对重构汉语语音声调感知影响。

步骤3中所述的重构信号的方法为：去掉原始汉语语音声调信号的原相位特征，保持原信号频率和幅度特征不变，重构新信号。

具体方法如下：

3-1.选用符合短时平稳要求的窗长；

3-2.确定帧长、采样率和FFT样点数，随信号推移逐帧作FFT,半帧重叠,得到每帧语音信号频谱X(n,w)如下：

X(n,w)＝|X(n,w)|e^jφ(n,w),n＝0,1,...N-1 (1)

|X(n,w)|为短时幅度谱，φ(n,w)＝∠X(n,w)为短时相位谱；

3-3.保持原语音信号的短时幅度谱|X(n,w)|不变，将短时相位谱φ(n,w)置零，然后将幅度谱|X(n,w)|和零相位谱两者重新组合重构声音。

所述的窗长与相位特征关系的确定方法如下对同一个音节分别以不同窗长的语音短段进行短时频谱分析和零相位重构。

所述的窗长选取：16ms、10ms、8ms、5ms、4ms、3ms、2ms、1ms；在不考虑相位的情况下，减小窗长至2ms以下，音节的调型由于窗长较小、频谱的时间分辨率较高，即使在相位缺失情况下，各频率成分时间偏移有限，导致信号叠加后的主峰值间隔关系未发生明显变化，故声调可感知。

所述的3-2中重叠帧部分采用重叠相加法进行处理，以去除海明窗叠加产生的增益误差。

步骤3中所述的重构信号的方法如下：

采用短时傅里叶变换嵌合法重构语音，即将两个声信号进行相同的短时傅里叶变换，提取各自的幅度谱和相位谱，再将来自不同原信号的幅度谱和相位谱交叉组合，重构新的音节。

步骤3-1对相同音节，不同声调的两个信号做相同的短时傅里叶变换；

步骤3-2提取各自的幅度谱和相位谱；

步骤3-3将得到的幅度谱和相位谱交叉组合，得到两个重构信号；

步骤3-4按照步骤3-1和步骤3-3的方法依次对15个音节的4中声调进行两两组合，得到180个重构音节。

步骤4的识别方法采用以正常听力者完好的听觉神经传导系统为测听对方进行声调识别。

相位在人工耳蜗中的应用，利用相位特征对人工耳蜗的信号阵列编码进行控制。

本发明的有益效果如下：

本发明通过设计零相位重构音和嵌合音声调感知实验，给出了相位特征与声调感知的关系。(1)在完全丢弃原信号相位特征时(如相位置零)：采用常用窗长对信号分析并重构，重构音节识别基本不受影响，虽然音质有所下降，但音节识别率仍很高，而声调感知已很难区别，重构音几乎全部无声调变化；但当窗长低于2ms时，即使相位特征缺失，调型的变化仍能识别。从而得出结论：声调感知与信号的相位特征密切相关。(2)在用不同调型、相同音节的幅度特征和相位特征进行嵌合重构实验中，嵌合音被识别的四种调型主要由提供相位特征的音节决定，进而同样证实了相位对声调感知的主要作用。通过该发明，可以得出，若要进一步提高声音编码装置的性能，应该在保证幅度谱特征编码不受影响的前提下，寻找能有效提高相位信息编码和传递的措施。

附图说明

图1(a)语音/a1/的零相位重构信号和原信号波形比较；

图1(b)语音/a4/的零相位重构信号和原信号波形比较；

图2傅立叶分析嵌合原理图；

图3同音节不同声调嵌合音测听统计结果；

图4嵌合音的调型识别统计结果。

具体实施方式

1.语音信号产生模型与听觉感知机理分析

根据语音信号产生的数学模型可知，任何言语信号都是由一个声门激励源信号作用于声道系统、通过口鼻辐射产生出来的，声道和口鼻辐射系统相当于一个时变的调谐器。声门激励源中最重要的参数就是基音周期，它控制着声门(或声带)振动的快慢，汉语中发音比较响亮的元音音段都包含该参数。基音周期的倒数，简称基频，声调调型就是基频参数的变化模式。对于汉语单音节来说，每个音节都有声调，分别为“一、二、三、四”声，或“阴平、阳平、上声、去声”。根据语音的“声源+滤波”的产生模型，声源部分的信号与含有声道传递特征的传输函数相卷积，便形成传入听者耳内的声信号。该信号随时间推移在时域和频域上，均可按短时段分解为不同的频率、幅度及相位三个参量互相关联的线性叠加。鉴于人耳内部的生理结构，耳蜗相当于一个精密的频谱感应器，在耳蜗基底膜上按位置依次分布着大量的能感知不同频率成份的听细胞及相连接的听神经组织。当这些听细胞或听神经组织都正常工作时，将负责接收和传导声音阵列信号的刺激，其中包括各时间点上有效的频率位置、其上的幅度特征以及各频率和幅度特征在各时间关系上原有的时序(即相位特征)。这些特征与原声信号应直接对应，联合在一起构成信号阵列，分时、准确、有序地作用于感知神经，是脑干感知各种清晰的声音效果的基础。而目前的语音编码策略在频率位置和幅度特征上传递较为准确，而对阵列信号各路工作的时间顺序上基本未作相应处理，该问题主要涉及信号的相位特征。

为研究声调感知是否与信号相位特征有关，我们以正常听力者完好的听神经传导系统为测听对象，对声音信号采用短时傅立叶变换分解方法，得到音段相应的幅度、频率和相位三组特征参数，然后在相同实验材料和实验条件下，保持信号的频率和幅度特征两者同时不变，通过一定方式仅改变相位特征，再重构信号，以测听方式进行声调识别，统计评估重构信号的声调感知结果。

2语音测听实验方法

测听的语音材料采用两种重构语音方法，一种是去掉所给信号的原相位特征，保持原信号频率和幅度特征不变，重构新信号；另一种方法是利用短时傅里叶变换嵌合法重构语音，即将两种不同声调的音节的幅度谱和相位谱交叉嵌合再重构新信号。通过测听两种不同条件下重构音的声调感知识别结果，得出声调与相位之间的影响关系。

为科学有效地研究相位信息对汉语声调的影响，除了分析观察重构信号和原信号时域波形外，考虑到声音感知的主观评估重要性，还需要选取合适的人群，以大量的测听实验获取主观评估数据。测听实验中，测试者由6位正常听力者组成，其中3名男性和3名女性，其母语均为汉语普通话，对普通话四声调型有良好的识别能力。测试中，听者要求佩戴封闭式耳机，以确保良好的声音频响特性和隔离外界噪音干扰。要求听者主要关注两个方面的问题，一是对重构信号音节内容进行识别；二是对重构信号的声调识别调型。每个重构语音均重复播放2～4遍。

测听评估方法通常分为两种，一种为开放项测试方法，一种为封闭项测试方法。开放项测试：测听者依据自身已有知识、对听到的音记录，分别填写音节和声调。封闭项测试：从给出的选项中选择出最为相近的音节和声调。本发明的测听实验均采用开放项测试方法。

语音原始实验材料，取自中国科学院声学所发行的“普通话标准单音节语音库”，选出其中15个单音节，如下：

/a/，/ai/，

/ao/,/bi/,/bo/,/du/,/duo/,/ga/,/lei/,/nao/,/wa/,/wei/,/ye/,/you/,/yao/

每个音节均包含四种调型，共计60个单音节。

为保证音节嵌合时不同音节声调部分的时间对齐，实验中，在不明显影响音节声调完整性的前提下，将四种声调的各音节做等时长处理。实验中，语音信号的采样频率为f_s＝16kHz，采样精度为16bits。

3零相位重构音测听实验

3.1重构方法

根据语音信号的短时平稳性，按照人发音正常速度或声道变化速度，其分析步长不应大于10-30ms。短时傅立叶变换是窗选信号的标准傅立叶变换，海明窗是语音信号频域分析的最佳选择。由于窗长的变化对信号的频谱分辨率和时间分辨率有影响，考虑到傅立叶变换点数和采样率，作者首先选用符合短时平稳要求的窗长16ms，进行实验研究。

当帧长为16ms，采样率为16KHz时，FFT样点数N＝256，随信号推移逐帧作FFT,半帧重叠,可得到每帧语音信号频谱X(n,w)如下：

X(n,w)＝|X(n,w)|e^jφ(n,w),n＝0,1,...N-1 (1)

|X(n,w)|为短时幅度谱，φ(n,w)＝∠X(n,w)为短时相位谱。为得到零相位重构音，保持原语音信号的短时幅度谱|X(n,w)|不变，将短时相位谱φ(n,w)置零，然后将两者重新组合重构声音。重构信号的采样频率和采样精度与原信号保持一致，经短时傅里叶逆变换得到无相位特征的重构语音信号，其中重叠帧部分采用重叠相加法(Overlap-addmethod)进行处理，以去除海明窗叠加产生的增益误差。

3.2实验结果及分析

对60个重构音分别做音节和声调的测听实验。发现：重构音节和原音节相比，出现了明显的金属音，并伴有类似电子打火的啪啪声，但仍能准确辨别原音节的内容。采用开放项测试，重构音节的平均识别率可达92.36％。

原信号和重构信号波形如图1所示，不难发现，此时重构信号的时域包络和峰值间隔均发生了偏移。由于重构时信号的幅度和频率特性并未改变，改变的仅是相位，即全零相位，使各频率成分信号在叠加时产生了时间关系上的错位，从而导致重构信号的各峰值关系改变。这种改变会导致音质变化，同时，也会影响声调的感知，因为声调是以时域波形主要峰值时间间隔来表征的。

声调测听结果如表1所示，重构信号和原信号相比，调型感知确实发生了明显变化，即“二声”识别成“一声”比率为98.00％，“四声”识别成“一声”比率为97.33％，“三声”识别成“一声”比率为88.67％，“一声”全部保持“一声”，未变。该结果表明：相位的缺失使得除一声外原有的音节的其它调型几乎都变成一声。这说明，声调和相位有关。从图1不难发现，音节/a4/的原信号声调为四声，其波形主峰值的时间间隔(即基音周期)是由小变大的，而零相位重构后的信号，其主峰值间隔变成了等间隔，因此，听成一声；而主峰值等间隔的原一声音节/a1/，原信号和重构信号在主峰值上未发生变化，所以声调识别没有变化。由此可以得出以下结论：经零相位重构后，相位信息缺失对语音的清晰度不敏感，基本可准确识别，但对声调感知的影响非常严重，几乎导致原声调特征丢失，很难区分原有的四声调型。

然而，信号短时傅立叶变换的频率分辨率和时间分辨率均与窗长有关，即窗长与频率分辨率成正比、与时间分辨率成反比。当窗长为16ms时，窗长较大，此时语音信号的频率分辨率较高，幅频特性表达较为准确，使重构音节谱特征较为准确，故音节识别率较高。与此同时，时间分辨率相对较低，当相位特征缺失(即置零)时，信号叠加的时间关系会发生较大的偏差，从而导致波形主要峰值关系发生变化，这应是影响声调识别的主要原因。为了证实该问题，当时间分辨率较高时，即窗长较小时，影响声调的识别可能会发生变化，对此，进一步研究了减小窗长的实验。

对音节/a/分别以窗长为10ms、8ms、5ms、4ms、3ms、2ms、1ms的语音短段进行短时频谱分析和零相位重构。由于人工耳蜗的通路数一般不超过24个，当选定傅立叶变换的点数为64，其有效频率点32个，接近对应的人工耳蜗的通路数。实验测听结果如表2所示，当窗长为3ms以上时，重构音节/a/的二、三、四声在听觉上均为无声调；当窗长减少到1ms或2ms时，重构音节/a/的调型可识别。从而证实，在不考虑相位的情况下，减小窗长至2ms以下，音节的调型由于窗长较小、频谱的时间分辨率较高，即使在相位缺失情况下，各频率成分时间偏移有限，导致信号叠加后的主峰值间隔关系未发生明显变化，故声调可感知。

表1：重构音声调感知测听统计结果

表2重构音节/a/窗长变化后声调测试结果(+：有声调，-：无声调)

4嵌合音实验

4.1实现方法

时域语音信号可以表示为不同频率、幅度及相位关系的正弦信号的线性叠加，如公式(2)

其中A_i(t)和分别为各频率分量的幅度特征和相位特征。为进一步验证相位特征对声调感知的影响，我们又进行了傅立叶分析的嵌合音实验。嵌合思想主要用于研究对人工耳蜗编码策略下语音信号的包络信息A_i(t)和精细结构信息分别对音乐和汉语声调感知的影响。本发明在对信号傅立叶变换的基础上，采用该嵌合方法研究声调感知问题。嵌合音实现原理如图2所示，将两个声信号1和2分别进行相同的短时傅里叶变换，提取各自的幅度谱和相位谱，再将来自不同原信号的幅度谱|X(n,w)|和相位谱φ(n,w)交叉组合，重构新的音节。

4.2实验结果及分析

本实验采用相同音节、不同声调的嵌合组合。嵌合过程采用图2的重构信号1和2的流程，输入信号1和信号2具有相同音节、不同声调。例如/a1/和/a3/,对15个音节的4种声调进行两两组合，共嵌合出15*4*3＝180个音节。

测听结果分析：如图3所示，实验结果分为三类情况统计，第一类为嵌合音被识别的调型和提供幅度谱的输入信号调型一致；第二类为嵌合音被识别的调型和提供相位谱的输入信号调型一致；第三类为嵌合音被识别的调型和输入信号调型均不同。从图中可知，大多数嵌合音的调型(90.28％)被识别为与提供相位谱的输入信号调型一致，极少数嵌合音的调型(3.15％)被识别为与提供幅度谱的输入信号调型相同。将第二类实验结果进一步按调型分类统计，所得结果如图4所示，呈现了6位测听者的测听结果。从折线图中可以看出，对于一声调、二声调和四声调，6位测听者均以高达90％的几率与提供相位谱的信号声调一致。三声调与提供相位谱的信号声调一致的平均几率为73％。但是个人差异浮动较大。4种调型的混淆几率矩阵如表3所示，其中二声以8.89％被混淆为三声，三声以26.67％被混淆为二声，一声和四声最不易被混淆。二声和三声容易相互混淆是因为二声和三声的音调变化相似。图3和图4结果共同表明：相位特征对于声调识别起主要作用，幅度特征影响较小。换句话说，欲使重构音节具有良好的声调感知特性，原信号的相位特征需尽量保持原有特性。

表3与提供相位谱一致的声调的混淆关系(第二种情况)

本发明通过设计零相位重构音和嵌合音声调感知实验，研究了相位特征与声调感知的关系。研究表明:(1)在完全丢弃原信号相位特征时(如相位置零)：采用常用窗长对信号分析并重构，重构音节识别基本不受影响，虽然音质有所下降，但音节识别率仍很高，而声调感知已很难区别，重构音几乎全部无声调变化。但当窗长低于2ms时，即使相位特征缺失，调型的变化仍能识别。从而得出结论：声调感知与信号的相位特征密切相关。(2)在用不同调型、相同音节的幅度特征和相位特征进行嵌合重构实验中，嵌合音被识别的四种调型主要由提供相位特征的音节决定，进而同样证实了相位对声调感知的主要作用。

由此可见，当某些声音编码装置只关注信号的幅度谱特征，而忽略信号的相位特征，或相位特征未准确处理，该装置尽管可以获得识别率较高的音节测听效果，但在声调感知方面仍会存在问题。若要进一步提高这类装置的性能，应该在保证幅度谱特征编码不受影响的前提下，寻找能有效提高相位信息编码和传递的措施，例如当编码策略不考虑相位特征的情况下，可尽量增加电极刺激密度，有助于提高人工耳蜗的声调感知的结果。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种相位对重构语音声调感知影响方法，其特征在于，包括以下步骤:

步骤1获取原始的汉语语音声调信号；

步骤3在相同条件下，保持信号的频率和幅度特征两者同时不变，去掉原始汉语语音声调信号的原相位特征，保持原信号频率和幅度特征不变，重构新信号；

具体如下：

3-1.选用符合短时平稳要求的窗长；

X(n,w)＝|X(n,w)|e^jφ(n,w),n＝0,1,...N-1 (1)

|X(n,w)|为短时幅度谱，φ(n,w)＝∠X(n,w)为短时相位谱；

3-3保持原语音信号的短时幅度谱|X(n,w)|不变，将短时相位谱φ(n,w)置零，然后将幅度谱|X(n,w)|和零相位谱两者重新组合重构声音；

所述的窗长与相位特征关系的确定方法是对同一个音节分别以不同窗长的语音短段进行短时频谱分析和零相位重构；

2.如权利要求1所述的相位对重构语音声调感知影响方法，其特征在于，窗长选取：16ms、10ms、8ms、5ms、4ms、3ms、2ms、1ms；在不考虑相位的情况下，减小窗长至2ms以下，音节的调型由于窗长较小、频谱的时间分辨率较高，即使在相位缺失情况下，各频率成分时间偏移有限，导致信号叠加后的主峰值间隔关系未发生明显变化，故声调可感知。

3.如权利要求1所述的相位对重构语音声调感知影响方法，其特征在于，所述的3-2中重叠帧部分采用重叠相加法进行处理，以去除海明窗叠加产生的增益误差。

4.如权利要求1所述的相位对重构语音声调感知影响方法，其特征在于，步骤4的识别方法采用以正常听力者完好的听觉神经传导系统为测听对方进行声调识别。

5.一种相位对重构语音声调感知影响方法，其特征在于，

步骤1获取原始的汉语语音声调信号；

步骤3采用短时傅里叶变换嵌合法重构语音，即将两个声信号进行相同的短时傅里叶变换，提取各自的幅度谱和相位谱，再将来自不同原信号的幅度谱和相位谱交叉组合，重构新的音节；

具体如下：

步骤3-2提取各自的幅度谱和相位谱；

步骤3-4按照步骤3-1和步骤3-3的方法依次对15个音节的4中声调进行两两组合，得到180个重构音节；