CN108198546B

CN108198546B - 一种基于耳蜗非线性动力学机理的语音信号预处理方法

Info

Publication number: CN108198546B
Application number: CN201711469953.2A
Authority: CN
Inventors: 龙长才; 闫冰岩; 沈涛; 张�杰
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2017-12-29
Filing date: 2017-12-29
Publication date: 2020-05-19
Anticipated expiration: 2037-12-29
Also published as: CN108198546A

Abstract

本发明公开了一种基于耳蜗非线性动力学机理的语音信号预处理方法，包括(1)建立耳蜗非线性动力学模型；(2)构建非线性耳蜗阵列；非线性耳蜗阵列为一组包含n个不同固有频率的主动仿真模块，每一个主动仿真模块将接收的输入语音信号按照耳蜗非线性动力学模型进行相应的运算后，获得每一个主动仿真模块的实时响应输出信号；(3)将各个主动仿真模块的实时响应输出信号进行处理后获得语音预处理信号。本发明由于引入了利用耳蜗非线性动力学模型的非线性耳蜗阵列代替传统的被动滤波器组对语音信号进行预处理，使得经过预处理的周期性或准周期性语音信号得到放大，并展现出与音调相关的结合音，从而提高语音处理的抗噪声能力和特征分析能力。

Description

一种基于耳蜗非线性动力学机理的语音信号预处理方法

技术领域

本发明属于信号处理技术领域，更具体地，涉及一种用于语音识别的语音信号预处理方法。

背景技术

语音信号处理是现代信息处理的精华，通过计算机实现语音进行识别、人机语音交流。随着人工智能技术的发展，计算机语音识别的水平相当高，但是与人相比，仍有差距。机器语音处理的问题主要表现为其在现实场景中的语音识别能力易受环境噪声以及其他声源的干扰。

机器语音信号处理流程主要包括：语音信号预处理、语音信号特征提取、根据语音特征做出语音识别。神经网络、深度学习等人工智能技术用于上述流程后端：根据提取的语音特征来识别语音。流程前端的语音预处理和语音特征提取，过去一直是基于数学的信号处理方法来实现的，例如：傅里叶分析、小波变换等。为进一步提高机器语音识别的能力，人们越来越倾向借鉴听觉的信号处理机制，用于语音信号处理。现有基于听觉的语音信号处理方法，用具有不同中心频率的带通滤波器组来模拟耳蜗的频率分析功能。其中最为常见的是，以gamma tone作为滤波器的冲击响应。这些基于听觉的信号处理给语音信号处理带来一定的改善，但是，现有耳蜗滤波器模型，作为一个线性模型，与真实的耳蜗有很大的区别。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于耳蜗非线性动力学机理的语音信号预处理方法，旨在进一步提高现有机器语音信号处理技术的特征分析以及抗噪声干扰能力。

本发明提供了一种基于耳蜗非线性动力学机理的语音信号预处理方法，包括下述步骤：

(1)建立耳蜗非线性动力学模型；

(2)根据耳蜗非线性动力学模型构建非线性耳蜗阵列；

所述非线性耳蜗阵列为一组包含n个不同固有频率的主动仿真模块，每一个主动仿真模块将接收的输入语音信号按照所述耳蜗非线性动力学模型进行相应的运算后，获得每一个主动仿真模块的实时响应输出信号；

(3)将各个主动仿真模块的实时响应输出信号进行处理后获得语音预处理信号；

其中，n为主动仿真模块的数目，n取大于等于1的整数。

更进一步地，所述耳蜗非线性动力学模型为：

其中，x为基底膜偏离平衡位置位移，t为时间，γ为阻尼系数，γ_α为自适力系数，B为外毛细胞电致伸缩系数，x₀为外毛细胞原长，ω_i为耳蜗该部位的固有圆频率，S(t)为输入语音信号，x_i(t)为第i个主动仿真模块的实时响应输出信号，i为主动仿真模块的序号，i＝1,2,3......n。

更进一步地，所述耳蜗非线性动力学模型中自适力系数γ_α应满足如下范围：0＜γ_α≤γ，在此范围内γ_α值越大，主动仿真模块对其固有频率附近的语音信号的放大作用越大。

更进一步地，n个主动仿真模块的固有频率可按照如下方式设定：对于固有频率范围为a～a*e^ε(n-1)Hz(ε＜1)的非线性耳蜗阵列，其中第i个主动仿真模块的固有频率为f_i＝a*e^ε(i-1)Hz；i为主动仿真模块的序号，i＝1,2,3......n。

其中，20Hz≤a≤200Hz。

更进一步地，在步骤(3)中，按照能量法平均对实时响应输出信号x_i(t)进行处理后获得时间长度为T的语音帧信号

其中，x_i(t)为第i个主动仿真模块的实时响应输出信号，y_i(t)为预处理过后的信号，t为时间，T为语音帧时长。

通过本发明所构思的以上技术方案，与现有技术相比，由于引入了利用耳蜗非线性动力学模型的非线性耳蜗阵列代替传统的被动滤波器组对语音信号进行预处理，使得经过预处理的周期性或准周期性语音信号得到放大，并展现出与音调相关的结合音，从而提高语音处理的抗噪声能力和特征分析能力。

附图说明

图1为本发明运用耳蜗非线性动力学模型实现新型语音信号处理的技术框图。

图2(a)为非线性耳蜗模型的响应频谱；图2(b)为耳蜗生理实验中的响应频谱。

图3(a)为一段语音加噪声后的语谱图；图3(b)为经过主动仿真模块处理过后的语谱图。

图4为主动仿真模块与被动系统的频率响应特性对比图。图中实线为主动仿真模块的频率响应特性线，虚线为被动系统频率响应特性线。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

耳蜗是一个非线性信号处理系统，其具有两音抑制、产生结合音等特征，这些特征在信号处理中发挥着重要的作用。例如，所谓结合音，是指当两个频率为f₁、f₂的声音激励时，会有pf₁+mf₂(p、m为整数)等激励信号的频率组合成份出现。其中的差频成份f₁-f₂使得一个没有基频，只有高次谐波的复合音通过耳蜗后产生出相应的基频，从而仍有并不存在的基频的音调。耳蜗还能通过非线性使准周期信号的音调得以被感知。耳蜗的上述非线性特征可以用一个非线性动力学方程来描述，本发明根据此方程设计出可完成其数学运算的主动仿真模块，并根据方程中参数ω_i(代表主动仿真模块的固有圆频率)的不同取值，设计出由n个拥有不同固有频率的主动仿真模块构成的非线性耳蜗阵列，用于语音的预处理。与传统的利用带通滤波器组的语音处理策略相比，本发明中经过非线性耳蜗阵列处理后的语音信号能够反映与听觉处理结果类似的非线性调谐、多音畸变、两音抑制等与耳蜗自身声音处理机制相关的诸多非线性效应，尤其是能展现出与音调相关的结合音，以及对与主动仿真模块固有频率接近的周期性或准周期性语音信号的主动放大机制，这使得语音处理比以往方法有更好的特征分析和抗噪声能力。

为了提高现有机器语音信号处理在真实环境中的语音识别以及抗噪声干扰能力。本发明构建了一种基于耳蜗非线性动力学模型的语音信号预处理方法。该方法引入了利用耳蜗非线性动力学模型的非线性耳蜗阵列代替传统的被动滤波器组对语音信号进行预处理。分析表明，非线性耳蜗阵列的仿真结果与耳蜗基底膜生理实验结果，以及听觉心理实验结果高度一致，尤其是能够很好的模拟出非线性调谐、多音畸变、两音抑制等与耳蜗自身声音处理机制相关的诸多非线性效应。使用此方法对语音信号进行处理，可以展现出与音调相关的结合音，并增强与语音相关的周期性信号特征，将语音信号从噪声中凸显出来，从而提高语音辨识度。

本发明采用的具体技术方案如下：

(1)耳蜗非线性动力学模型的建立：

我们以耳蜗基底膜动力学特性为基础，以耳蜗局部为例进行受力分析。在声传导过程中，耳蜗基底膜局部将受到外界声刺激引发的外力F_s(t)，基底膜自身弹力F_T＝-kx，淋巴液以及自身产生的阻力

以及受外毛细胞电致伸缩，以及纤毛运动调控的非线性自适力F_a，其简化表达形式如下：

根据牛顿力学定律建立的耳蜗非线性动力学模型如下：

其中x为基底膜偏离平衡位置位移，γ为阻尼系数，γ_α为自适力系数，B为外毛细胞电致伸缩系数，x₀为外毛细胞原长，ω_i为耳蜗该部位的固有圆频率，输入信号为S(t)。求解上述非线性方程即可得到耳蜗基底膜实时响应输出x_i(t)。

(2)加入耳蜗非线性动力学模型的语音信号预处理方法：

如图1所示，新的语音信号预处理方法需要根据耳蜗非线性动力学模型构建非线性耳蜗阵列，以模拟耳蜗对声音的处理机制。非线性耳蜗阵列为一组由n个根据耳蜗非线性动力学模型设计的，拥有不同固有频率

的主动仿真模块构成的非线性仿真阵列。输入语音信号为S(t)，求解上述方程即可得到处理过后不同通道的实时响应输出x_i(t)。之后将各通道输出信号x_i(t)按照能量法平均即可得到语音预处理信号

需要注意的是，主动仿真模块设计时应使自适力系数γ_α设定在：0＜γ_α≤γ的范围，当γ_α＝0时，自适力为零，系统变为被动系统；当γ_α＝γ时，系统最终将自持振荡。当γ_α在上述范围内时，γ_α值越大，自适力最大值越大，主动仿真模块有效阻尼越小，故而对在主动仿真模块固有频率附近的语音信号响应幅度越大。主动仿真模块的频率响应曲线与被动系统的频率响应特性曲线对比如图4所示，可以看出主动仿真模块对其固有频率附近的语音信号有更好的放大作用。

下面结合附图和具体实例对本发明作进一步详细说明。

图1为运用耳蜗非线性动力学模型实现新型语音信号处理技术框图。具体策略如下：根据频率高低需设计n个频带通道，每个频带通道中包含不同固有频率的主动仿真模块，构成非线性耳蜗阵列。通过麦克风记录下来的声信号S(t)通过不同的仿真模块处理输出为x_i(t)，之后将x_i(t)通过能量平均输出为y_i(t)，y_i(t)即为预处理过后的信号。使用此方式得到的预处理信号，能够反映出与耳蜗处理结果一致的，与听觉音调相关的结合音信息，并增强与语音相关的周期性信号特征，使得语音信号特征在噪声中突显出来，从而提高语音辨识度。

图2为多音畸变效应展示，从图2(a)主动仿真模块的响应频谱中能够看出，非线性耳蜗阵列的响应频谱中出现了传统被动滤波器系统中不可能出现的畸变产物，即：结合音。图2(b)为实际生理实验耳蜗基底膜上的响应结果。对比可知，主动仿真模块能够很好的模拟出耳蜗中的多音畸变效应，经过主动仿真模块处理的语音信号中，将出现与语音音调相关的结合音信息，同时提升语音的基频信号，这也是本策略提升语音特征基础。

图3(a)为是一段语音在加噪声后的富氏谱分析结果，从图可见其语音特征几乎被噪声所淹没。采用本研究所建的模型，代替富氏谱分析的结果如图3(b)。可以看到，语音信号特征在噪声中能明显的突显出来。

图4为主动仿真模块与被动系统的频率响应特性对比图。图像横轴为声音频率，纵轴为系统对不同频率声音的响应幅度。图中主动仿真模块与被动系统的固有频率皆为140Hz，实线为主动仿真模块的频率响应特性线，虚线为被动系统频率响应特性线。从图中可以看出与被动系统相比，主动仿真模块对其固有频率附近的语音信号有更大的响应幅度，体现了主动仿真模块对语音信号的主动放大作用。

本发明提供的基于耳蜗非线性动力学机理的语音信号预处理方法，包括下述步骤：

(1)建立耳蜗非线性动力学模型

(2)根据耳蜗非线性动力学模型构建非线性耳蜗阵列，非线性耳蜗阵列为一组包含n个不同固有频率的主动仿真模块，其作用是按照上述非线性动力学模型进行相应的数学运算。主动仿真模块的固有频率可按照如下模式设定：例如对于固有频率范围为a～a*e^ε(n-1)Hz(一般情况下取20Hz≤a≤200Hz)的非线性耳蜗阵列，其中第i个主动仿真模块的固有频率为f_i＝a*e^ε(i-1)Hz(i＝1,2,3......n)。主动仿真模块设计时应使自适力系数γ_α设定在：0＜γ_α≤γ的范围，在此范围内γ_α值越大，主动仿真模块对其固有频率附近的语音信号的放大作用越大；

输入语音信号为S(t)，求解上述方程即可得到处理过后每一个主动仿真模块的实时响应输出x_i(t)；

(3)将各通道输出信号x_i(t)进行处理后获得语音预处理信号

其中，可以按照能量法平均来处理各通道输出信号x_i(t)，从而得到时间长度为T的语音帧信号用于后续语音处理进程。

由于非线性耳蜗阵列能够对准周期或周期性语音信号起到主动放大作用，因而能够将我们所需的语音信号从噪声中突显出来。同时，非线性耳蜗阵列能够很好的模拟出耳蜗的多音畸变效应，因此预处理后的信号能够展现出与音调相关的结合音，突出语音特征，提高语音辨识度。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于耳蜗非线性动力学机理的语音信号预处理方法，其特征在于，包括下述步骤：

(1)建立耳蜗非线性动力学模型，所述耳蜗非线性动力学模型为：

(2)根据耳蜗非线性动力学模型构建非线性耳蜗阵列，所述非线性耳蜗阵列为一组包含n个不同固有频率的主动仿真模块，每一个主动仿真模块将接收的输入语音信号按照所述耳蜗非线性动力学模型进行相应的运算后，获得每一个主动仿真模块的实时响应输出信号；

在步骤(3)中，按照能量法平均对实时响应输出信号x_i(t)进行处理后获得时间长度为T的语音帧信号

其中，x为基底膜偏离平衡位置位移，t为时间，γ为阻尼系数，γ_α为自适力系数，所述耳蜗非线性动力学模型中自适力系数γ_α应满足如下范围：0＜γ_α≤γ，在此范围内γ_α值越大，主动仿真模块对其固有频率附近的语音信号的放大作用越大，B为外毛细胞电致伸缩系数，x₀为外毛细胞原长，ω_i为耳蜗某部位的固有圆频率，S(t)为输入语音信号，x_i(t)为第i个主动仿真模块的实时响应输出信号，i为主动仿真模块的序号，i＝1,2,3......n，y_i(t)为预处理过后的信号，T为语音帧时长；n为主动仿真模块的数目，n取大于等于1的整数。

2.如权利要求1所述的语音信号预处理方法，其特征在于，n个主动仿真模块的固有频率可按照如下方式设定：

对于固有频率范围为a～a*e^ε(n-1)Hz的非线性耳蜗阵列，其中，第i个主动仿真模块的固有频率为f_i＝a*e^ε(i-1)Hz；ε＜1。

3.如权利要求2所述的语音信号预处理方法，其特征在于，20Hz≤a≤200Hz。