CN104205213B

CN104205213B - 语音信号处理方法及装置以及使用其的助听器

Info

Publication number: CN104205213B
Application number: CN201280071691.3A
Authority: CN
Inventors: 杨晨
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2012-03-23
Filing date: 2012-03-23
Publication date: 2018-01-05
Anticipated expiration: 2032-03-23
Also published as: CN104205213A; WO2013139038A1

Abstract

本发明涉及一种语音信号处理方法。该方法包括以下步骤：步骤S1：将语音波形转换为数字信号；步骤S2：由从步骤SI中获得的数字信号计算短时频谱；步骤S3：通过使用以下公式中所示的音高移位算法来移位短时频谱的音高以获得具有修改音高的频谱：F0新(n)＝CxF0原始(n)，其中F0新(n)是声调增强的音高轮廓采样，F0原始(n)指原始语音信号的音高轮廓采样，C是音高移位因子且大于1；步骤S4：将具有修改音高的频谱转换回至时域信号；步骤S5：对步骤S4中获得的时域信号重新采样以获得重新采样的语音信号；以及步骤S6：将重新采样的语音信号转换回至波形。

Description

语音信号处理方法及装置以及使用其的助听器

技术领域

本发明总体涉及数字信号处理技术，更具体地，涉及一种语音信号处理方法及装置，以及使用其的助听器。

背景技术

根据2006年的调查发现中国有27,800,000名听觉障碍患者。助听器近年来取得了很大的进步。然而，无论当前的助听器取得了怎样的成功，许多辅助听觉障碍患者仍然抱怨他们听不清楚。其中一个原因是大多数患者患有感觉神经性听觉损失。由这种听觉损失，患者的内耳具有缺陷，这会导致语音分析能力丧失。传统的助听器更加关注振幅放大。然而，简单放大振幅无法补偿语音分析能力丧失。汉语是一种有声调的语言，不同于其他西方语言。基于临床听觉测试结果，我们发现声调识别能力低于听力正常的人。原因是丧失了语音分析能力。

目前，大多数助听器装置都是由西方的公司制作的，是基于西方语言研发的。然而，汉语与西方语言的不同之处在于几个方面：(1)声调语言，以及(2)不同于西方辅音音丛结构的辅音加元音结构。因此，对专门为中国用户设计的助听器装置提出了越来越高的要求。

具有声调增强功能的典型助听器简单地放大了带有汉语普通话语音中的声调信息的元音部分的大小。然而，元音是语音的低频率部分，作为心理学心理声学的模型的向上掩蔽(upward masking)原理，简单放大元音部分将掩蔽语音中的高频分量。这将进一步降低语音可懂度。

发明内容

本发明公开了一种语音信号处理方法及装置、以及使用其的助听器，这可以避免可能给出较低语音可懂度的向上掩蔽并且可以提供较高语音可懂度。

本发明的一个实施例提供了一种语音信号处理方法，所述方法包括以下步骤：

步骤S1：将语音波形转换为数字信号；

步骤S2：由从步骤S1中获得的数字信号计算频谱；

步骤S3：通过使用以下公式中所示的音高移位算法来移位频谱的音高以获得具有修改音高的频谱：

F0新(n)＝C×F0原始(n)，

其中F0新(n)指的是声调增强的音高轮廓采样，F0原始(n)指的是原始语音信号的音高轮廓采样，C是音高移位因子且大于1；

步骤S4：将具有修改音高的频谱转换回时域信号；

步骤S5：对步骤S4中获得的时域信号重新采样以获得重新采样的语音信号；以及

步骤S6：将重新采样的语音信号转换回波形。

优选地，所述方法还包括步骤S0：在步骤S1之前，收集语音波形。

优选地，步骤S2包括使用快速傅里叶变换算法来从步骤S1中获得的数字信号计算频谱；并且步骤S4包括使用快速傅里叶反变换算法来将具有修改音高的频谱转换回时域信号。

本发明的另一个实施例提供了一种语音信号处理装置，其包括：

模数转换模块，其被配置为将语音波形转换为数字信号；

快速傅里叶变换模块，其与模数转换模块连接并被配置为从由模数转换模块转移的数字信号计算短时频谱；

音高修改模块，其与快速傅里叶变换模块连接并被配置为通过使用以下公式中所示的音高移位算法来移位短时频谱的音高以获得具有修改音高的频谱：

F0新(n)＝C×F0原始(n)，

快速傅里叶反变换模块，其与音高修改模块连接并被配置为将具有修改音高的频谱转换回时域信号；

重新采样模块，其与快速傅里叶反变换模块连接并被配置为对快速傅里叶反变换模块获得的时域信号重新采样以获得重新采样的语音信号；以及

数模转换模块，其与重新采样模块连接并被配置为将重新采样的语音信号转换回波形。

优选地，模数转换模块、快速傅里叶变换模块、音高修改模块、快速傅里叶反变换模块、重新采样模块和数模转换模块依次串联连接。

本发明的另一个实施例提供了一种助听器，其包括：

语音信号处理装置；

语音输入装置，其连接至语音信号处理装置；以及

语音输出装置，其连接至语音信号处理装置；

其中语音信号处理装置包括：

模数转换模块，其与语音输入装置连接并被配置为将由语音输入装置转移的语音波形转换为数字信号；

F0新(n)＝C×F0原始(n)，

数模转换模块，其连接在重新采样模块与语音输出装置之间，并被配置为将语音信号重新采样回送入语音输出装置的波形。

如上所述，本发明的实施例提供了一种语音信号处理方法和装置，以及使用其的助听器，其可以优选由汉语用户或其他声调语言用户使用并且可以通过放大如以下公式中所示的整个音高轮廓来增加音高轮廓的斜率：F0新(n)＝C×F0原始(n)，因此，本发明可以避免很可能给出较低语音可懂度的向上掩蔽，并因此可以获得较高语音可懂度。由于本发明中使用了快速傅里叶变换并且本发明中不需要语音分段和音高提取，因此本发明可以获得大约5ms的缓存大小，而不会有明显的语音质量退化。

另外，由于模数转换模块、快速傅里叶变换模块、音高修改模块、快速傅里叶反变换模块、重新采样模块和数模转换模块依次串联连接，因此语音信号处理装置具有简单结构并且可以进行轻松组装和控制。

以下描述和附图详细阐述了本发明的多个说明性实施例。这些实施例表示且表示了一些可以使用本发明的几种方式。

附图说明

现在结合附图参考以下描述以便更加全面地理解本发明及其优点，其中类似参考编号表示类似部件：

图1是根据本发明的一个实施例的语音信号处理方法的流程图；并且

图2是根据本发明的一个实施例的助听器的示意性框图。

在附图中，参考编号和符号的描述如下：

S1 将语音波形转换为数字信号

S2 由数字信号计算短时频谱

S3 通过使用以下公式中所示的音高移位算法来移位短时频谱的音高以获得具有修改音高的频谱：F0新(n)＝C×F0原始(n)

S4 将具有修改音高的频谱转换回时域信号

S5 对时域信号重新采样以获得重新采样的语音信号

S6 将重新采样的语音信号转换回波形

100 助听器

120 语音输入装置

140 语音输出装置

160 语音信号处理装置

162 A/D转换模块

164 快速傅里叶变换模块

165 音高修改模块

166 快速傅里叶反变换模块

168 重新采样模块

169 D/A转换模块

具体实施方式

以下讨论用于本领域技术人员做出并使用本发明。在不背离本文中所限定的本发明的精神和范围的情况下，本文中描述的一般原理可以适用于除下面详细描述的实施例和应用之外的实施例和应用。本发明并非旨在限于所示的实施例，而是应具有与本文所公开的原理及特征相一致的最广范围。

声调在汉语语音识别中是比较重要的，因为单音节词的音调在词汇上是有意义的。换句话说，即使具有相同的音素成分，也可以具有不同的意义。因此，为了理解一个词，听觉障碍患者必须能够识别音素组成和声调。汉语普通话语音中存在四个词汇声调，并且音高轮廓的变型是声调信息感知的主要提示。鉴于该属性，本发明提出通过调节音高轮廓的斜率来增强声调信息。具体地，本发明提出通过放大如以下公式中所示的整个音高轮廓来增加音高轮廓的斜率：

F0新(n)＝C×F0原始(n)

其中F0新(n)指的是声调增强的音高轮廓采样，F0原始(n)指的是原始语音信号的音高轮廓采样，C是音高移位因子且大于1。

为了使本发明的目的、技术解决方案和优点清楚，本发明在下文中参照实施例和附图进一步详细解释。

本发明的一个实施例提供了一种语音信号处理方法。图1是语音信号处理方法的流程图，该方法包括以下步骤：

步骤S1：将语音波形转换为数字信号。

在一个实施例中，可以通过模数(A/D)转换模块将语音波形转换为数字信号。

步骤S2：从步骤S1中获得的数字信号计算短时频谱。

在一个实施例中，短时频谱可以通过使用快速傅里叶变换(FFT)算法从步骤S1中获得的数字信号来计算。

步骤S3：通过使用以下公式中所示的音高移位算法来移位短时频谱的音高以获得具有修改音高的频谱：

F0新(n)＝C×F0原始(n)，

在步骤S3中，可以通过执行听觉测试来优化音高移位因子C。此外，音高移位因子C还可以根据听觉障碍患者的需要进行调节。步骤S3可以允许放大整个音高轮廓。

步骤S4：将具有修改音高的频谱转换回时域信号。

在一个实施例中，可以通过使用快速傅里叶反变换(iFFT)算法将具有修改音高的频谱转换回时域信号。

步骤S5：对步骤S4中获得的时域信号重新采样以获得重新采样的语音信号。

在步骤S3的音高移位处理之后，步骤S5可以用于使语音长度不发生变化。

步骤S6：将重新采样的语音信号转换回波形。

在一个实施例中，可以通过数模(D/A)转换模块将重新采样的语音信号转换回波形。

此外，在一个实施例中，语言信号处理方法还可以包括步骤S0：在步骤S1之前，收集语音波形。

本发明的一个实施例提供了一种使用上述语音信号处理方法的助听器。图2是设置在本发明的一个实施例中的助听器100的示意性框图。

如图2中所示，助听器100包括语音输入装置120比如麦克风、语音输出装置140和语音信号处理装置160。语音输入装置120和语音输出装置140分别连接至语音信号处理装置160。

语音输入装置120用于接收或收集语音波形并将所收集的语音波形转移到语音信号处理装置160。

语音信号处理装置160用于对由语音输入装置120转移的语音波形进行处理，并将所处理的波形转移到语音输出装置140，听觉障碍患者可以通过该语音输出装置140来听修改的语音。即，语音输出装置140用于输出从语音信号处理装置160接收的波形。

在一个实施例中，语音信号处理装置160包括A/D转换模块162，快速傅里叶变换(FFT)模块164、音高修改模块165、快速傅里叶反变换模块166、重新采样模块168和D/A转换模块169。在图2中所示的实施例中，语音输入装置120、A/D转换模块162、快速傅里叶变换模块164、音高修改模块165、快速傅里叶反变换模块166、重新采样模块168、D/A转换模块169和语音输出装置140依次串联连接。因此，语音信号处理装置160具有简单结构并且可以轻松组装和控制。

具体地，A/D转换模块162与语音输入装置120连接并被配置为将由语音输入装置120转移的语音波形转换为数字信号。

快速傅里叶变换模块164与A/D转换模块162连接并被配置为从由A/D转换模块162转移的数字信号计算短时频谱。

音高修改模块165与快速傅里叶变换模块164连接并被配置为通过使用以下公式中所示的音高移位算法来移位短时频谱的音高以获得具有修改音高的频谱：

F0新(n)＝C×F0原始(n)，

其中F0新(n)指的是声调增强的音高轮廓采样，F0原始(n)指的是原始语音信号的音高轮廓采样，C是音高移位因子且大于1。可以理解的是，音高移位因子C可以通过执行听觉测试来优化，并且还可以根据听觉障碍患者的需要进行调节。

音高修改模块165可以允许放大整个音高轮廓。

快速傅里叶反变换模块166与音高修改模块165连接，并被配置为将具有修改音高的频谱转换回时域信号。

重新采样模块168与快速傅里叶反变换模块166连接并被配置为对快速傅里叶反变换模块166获得的时域信号重新采样以获得重新采样的语音信号。在音高修改模块165的音高移位处理之后，重新采样模块168可以使语音的长度不发生变化。

D/A转换模块169连接在重新采样模块168与语音输出装置140之间。D/A转换模块169被配置为将重新采样的语音信号转换回随后被送入语音输出装置140的波形，使得听觉障碍患者可以听到修改后的语音。

本发明的实施例提供了一种语音信号处理方法和装置，以及使用其的助听器，其可以通过放大如以下公式中所示的整个音高轮廓来增加音高轮廓的斜率：F0新(n)＝C×F0原始(n)，并且本发明的优点之一是可以避免很可能给出较低语音可懂度的向上掩蔽，并因此可以获得较高语音可懂度。此外，音高移位因子C可以通过执行听觉测试来优化并且还可以根据听觉障碍患者的需要进行调节，以这种方式，可以提高听觉障碍患者的声调识别。由于较高的声调识别率会产生较高的单词识别率，因此可以获得较高语音可懂度。此外，由于快速傅里叶变换用于本发明并且本发明中不需要语音分段和音高提取，因此可以避免由典型的助听器中存在语音分段和音高提取而导致的长处理延迟，并且本发明的一个实施例可以获得大约5ms的缓存大小，而不会有明显的语音质量退化。

应该注意的是，上述语音信号处理方法、装置以及助听器可以被汉语语言用户或其他声调语言用户使用。

提供所公开的实施例的先前描述以使本领域技术人员做出或使用本发明。在不背离本发明的精神或范围的情况下，对这些实施例的各种修改对本领域技术人员来说容易显而易见并且本文中限定的一般原理可以适用于其他实施例。因此，本发明并非旨在被限于本文中所示的实施例，而是要具有与本文所公开的原理及新颖特征相一致的最广范围。

Claims

1.一种语音信号处理方法，包括以下步骤：

将语音波形转换为数字信号；

由所述数字信号计算频谱；

通过使用以下公式中所示的音高移位算法来移位所述频谱的音高以获得具有修改音高的频谱：

F0新(n)＝C×F0原始(n)，

其中F0新(n)指声调增强的音高轮廓采样，F0原始(n)指原始语音信号的音高轮廓采样，以及C是音高移位因子且大于1；

将具有修改音高的所述频谱转换回至时域信号；

将所述时域信号转换回至波形，

其中，通过执行听觉测试来优化所述音高移位因子；以及

在将具有修改音高的所述频谱转换回所述时域信号之后，对所述时域信号重新采样以获得随后被转换回至波形的重新采样的语音信号，其中使得语音长度在音高移位处理之后不发生变化。

2.根据权利要求1所述的方法，还包括步骤：在将语音波形转换为数字信号之前，收集语音波形。

3.根据权利要求1所述的方法，其中使用快速傅里叶变换算法来由所述数字信号计算所述频谱。

4.根据权利要求1所述的方法，其中使用快速傅里叶反变换算法来将具有修改音高的所述频谱转换回所述时域信号。

5.根据权利要求1所述的方法，其中由所述数字信号获得的所述频谱是短时频谱。

6.一种语音信号处理装置(160)，包括：

模数转换模块(162)，配置为将语音波形转换为数字信号；

快速傅里叶变换模块(164)，配置为从由所述模数转换模块(162)转移的所述数字信号计算频谱；

音高修改模块(165)，配置为通过使用以下公式中所示的音高移位算法来移位所述频谱的音高以获得具有修改音高的频谱：

F0新(n)＝C×F0原始(n)，

其中F0新(n)指声调增强的音高轮廓采样，F0原始(n)指原始语音信号的音高轮廓采样，C是音高移位因子且大于1；

快速傅里叶反变换模块(166)，配置为将具有修改音高的所述频谱转换回至时域信号；以及

数模转换模块(169)，配置为将所述时域信号转换回至波形，

其中，通过执行听觉测试来优化所述音高移位因子；以及

重新采样模块(168)，配置为对由所述快速傅里叶反变换模块(166)获得的所述时域信号重新采样以获得重新采样的语音信号，该重新采样的语音信号随后通过所述数模转换模块(169)被转换回至时域信号，其中使得语音长度在音高移位处理之后不发生变化。

7.根据权利要求6所述的装置，其中所述模数转换模块(162)、所述快速傅里叶变换模块(164)、所述音高修改模块(165)、所述快速傅里叶反变换模块(166)、所述重新采样模块(168)和所述数模转换模块(169)依次串联连接。

8.一种助听器(100)，包括：

根据权利要求6至7中任一项所述的语音信号处理装置(160)；

语音输入装置(120)，用于接收或收集语音波形并将所收集的语音波形转移至所述语音信号处理装置(160)；以及

语音输出装置(140)，用于输出从所述语音信号处理装置(160)接收的波形。