CN108198546B - 一种基于耳蜗非线性动力学机理的语音信号预处理方法 - Google Patents

一种基于耳蜗非线性动力学机理的语音信号预处理方法 Download PDF

Info

Publication number
CN108198546B
CN108198546B CN201711469953.2A CN201711469953A CN108198546B CN 108198546 B CN108198546 B CN 108198546B CN 201711469953 A CN201711469953 A CN 201711469953A CN 108198546 B CN108198546 B CN 108198546B
Authority
CN
China
Prior art keywords
cochlear
nonlinear
active simulation
voice
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201711469953.2A
Other languages
English (en)
Other versions
CN108198546A (zh
Inventor
龙长才
闫冰岩
沈涛
张�杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201711469953.2A priority Critical patent/CN108198546B/zh
Publication of CN108198546A publication Critical patent/CN108198546A/zh
Application granted granted Critical
Publication of CN108198546B publication Critical patent/CN108198546B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明公开了一种基于耳蜗非线性动力学机理的语音信号预处理方法,包括(1)建立耳蜗非线性动力学模型;(2)构建非线性耳蜗阵列;非线性耳蜗阵列为一组包含n个不同固有频率的主动仿真模块,每一个主动仿真模块将接收的输入语音信号按照耳蜗非线性动力学模型进行相应的运算后,获得每一个主动仿真模块的实时响应输出信号;(3)将各个主动仿真模块的实时响应输出信号进行处理后获得语音预处理信号。本发明由于引入了利用耳蜗非线性动力学模型的非线性耳蜗阵列代替传统的被动滤波器组对语音信号进行预处理,使得经过预处理的周期性或准周期性语音信号得到放大,并展现出与音调相关的结合音,从而提高语音处理的抗噪声能力和特征分析能力。

Description

一种基于耳蜗非线性动力学机理的语音信号预处理方法
技术领域
本发明属于信号处理技术领域,更具体地,涉及一种用于语音识别的语音信号预处理方法。
背景技术
语音信号处理是现代信息处理的精华,通过计算机实现语音进行识别、人机语音交流。随着人工智能技术的发展,计算机语音识别的水平相当高,但是与人相比,仍有差距。机器语音处理的问题主要表现为其在现实场景中的语音识别能力易受环境噪声以及其他声源的干扰。
机器语音信号处理流程主要包括:语音信号预处理、语音信号特征提取、根据语音特征做出语音识别。神经网络、深度学习等人工智能技术用于上述流程后端:根据提取的语音特征来识别语音。流程前端的语音预处理和语音特征提取,过去一直是基于数学的信号处理方法来实现的,例如:傅里叶分析、小波变换等。为进一步提高机器语音识别的能力,人们越来越倾向借鉴听觉的信号处理机制,用于语音信号处理。现有基于听觉的语音信号处理方法,用具有不同中心频率的带通滤波器组来模拟耳蜗的频率分析功能。其中最为常见的是,以gamma tone作为滤波器的冲击响应。这些基于听觉的信号处理给语音信号处理带来一定的改善,但是,现有耳蜗滤波器模型,作为一个线性模型,与真实的耳蜗有很大的区别。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种基于耳蜗非线性动力学机理的语音信号预处理方法,旨在进一步提高现有机器语音信号处理技术的特征分析以及抗噪声干扰能力。
本发明提供了一种基于耳蜗非线性动力学机理的语音信号预处理方法,包括下述步骤:
(1)建立耳蜗非线性动力学模型;
(2)根据耳蜗非线性动力学模型构建非线性耳蜗阵列;
所述非线性耳蜗阵列为一组包含n个不同固有频率的主动仿真模块,每一个主动仿真模块将接收的输入语音信号按照所述耳蜗非线性动力学模型进行相应的运算后,获得每一个主动仿真模块的实时响应输出信号;
(3)将各个主动仿真模块的实时响应输出信号进行处理后获得语音预处理信号;
其中,n为主动仿真模块的数目,n取大于等于1的整数。
更进一步地,所述耳蜗非线性动力学模型为:
Figure BDA0001531811460000021
其中,x为基底膜偏离平衡位置位移,t为时间,γ为阻尼系数,γα为自适力系数,B为外毛细胞电致伸缩系数,x0为外毛细胞原长,ωi为耳蜗该部位的固有圆频率,S(t)为输入语音信号,xi(t)为第i个主动仿真模块的实时响应输出信号,i为主动仿真模块的序号,i=1,2,3......n。
更进一步地,所述耳蜗非线性动力学模型中自适力系数γα应满足如下范围:0<γα≤γ,在此范围内γα值越大,主动仿真模块对其固有频率附近的语音信号的放大作用越大。
更进一步地,n个主动仿真模块的固有频率可按照如下方式设定:对于固有频率范围为a~a*eε(n-1)Hz(ε<1)的非线性耳蜗阵列,其中第i个主动仿真模块的固有频率为fi=a*eε(i-1)Hz;i为主动仿真模块的序号,i=1,2,3......n。
其中,20Hz≤a≤200Hz。
更进一步地,在步骤(3)中,按照能量法平均对实时响应输出信号xi(t)进行处理后获得时间长度为T的语音帧信号
Figure BDA0001531811460000031
其中,xi(t)为第i个主动仿真模块的实时响应输出信号,yi(t)为预处理过后的信号,t为时间,T为语音帧时长。
通过本发明所构思的以上技术方案,与现有技术相比,由于引入了利用耳蜗非线性动力学模型的非线性耳蜗阵列代替传统的被动滤波器组对语音信号进行预处理,使得经过预处理的周期性或准周期性语音信号得到放大,并展现出与音调相关的结合音,从而提高语音处理的抗噪声能力和特征分析能力。
附图说明
图1为本发明运用耳蜗非线性动力学模型实现新型语音信号处理的技术框图。
图2(a)为非线性耳蜗模型的响应频谱;图2(b)为耳蜗生理实验中的响应频谱。
图3(a)为一段语音加噪声后的语谱图;图3(b)为经过主动仿真模块处理过后的语谱图。
图4为主动仿真模块与被动系统的频率响应特性对比图。图中实线为主动仿真模块的频率响应特性线,虚线为被动系统频率响应特性线。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
耳蜗是一个非线性信号处理系统,其具有两音抑制、产生结合音等特征,这些特征在信号处理中发挥着重要的作用。例如,所谓结合音,是指当两个频率为f1、f2的声音激励时,会有pf1+mf2(p、m为整数)等激励信号的频率组合成份出现。其中的差频成份f1-f2使得一个没有基频,只有高次谐波的复合音通过耳蜗后产生出相应的基频,从而仍有并不存在的基频的音调。耳蜗还能通过非线性使准周期信号的音调得以被感知。耳蜗的上述非线性特征可以用一个非线性动力学方程来描述,本发明根据此方程设计出可完成其数学运算的主动仿真模块,并根据方程中参数ωi(代表主动仿真模块的固有圆频率)的不同取值,设计出由n个拥有不同固有频率的主动仿真模块构成的非线性耳蜗阵列,用于语音的预处理。与传统的利用带通滤波器组的语音处理策略相比,本发明中经过非线性耳蜗阵列处理后的语音信号能够反映与听觉处理结果类似的非线性调谐、多音畸变、两音抑制等与耳蜗自身声音处理机制相关的诸多非线性效应,尤其是能展现出与音调相关的结合音,以及对与主动仿真模块固有频率接近的周期性或准周期性语音信号的主动放大机制,这使得语音处理比以往方法有更好的特征分析和抗噪声能力。
为了提高现有机器语音信号处理在真实环境中的语音识别以及抗噪声干扰能力。本发明构建了一种基于耳蜗非线性动力学模型的语音信号预处理方法。该方法引入了利用耳蜗非线性动力学模型的非线性耳蜗阵列代替传统的被动滤波器组对语音信号进行预处理。分析表明,非线性耳蜗阵列的仿真结果与耳蜗基底膜生理实验结果,以及听觉心理实验结果高度一致,尤其是能够很好的模拟出非线性调谐、多音畸变、两音抑制等与耳蜗自身声音处理机制相关的诸多非线性效应。使用此方法对语音信号进行处理,可以展现出与音调相关的结合音,并增强与语音相关的周期性信号特征,将语音信号从噪声中凸显出来,从而提高语音辨识度。
本发明采用的具体技术方案如下:
(1)耳蜗非线性动力学模型的建立:
我们以耳蜗基底膜动力学特性为基础,以耳蜗局部为例进行受力分析。在声传导过程中,耳蜗基底膜局部将受到外界声刺激引发的外力Fs(t),基底膜自身弹力FT=-kx,淋巴液以及自身产生的阻力
Figure BDA0001531811460000051
以及受外毛细胞电致伸缩,以及纤毛运动调控的非线性自适力Fa,其简化表达形式如下:
Figure BDA0001531811460000052
根据牛顿力学定律建立的耳蜗非线性动力学模型如下:
Figure BDA0001531811460000053
其中x为基底膜偏离平衡位置位移,γ为阻尼系数,γα为自适力系数,B为外毛细胞电致伸缩系数,x0为外毛细胞原长,ωi为耳蜗该部位的固有圆频率,输入信号为S(t)。求解上述非线性方程即可得到耳蜗基底膜实时响应输出xi(t)。
(2)加入耳蜗非线性动力学模型的语音信号预处理方法:
如图1所示,新的语音信号预处理方法需要根据耳蜗非线性动力学模型构建非线性耳蜗阵列,以模拟耳蜗对声音的处理机制。非线性耳蜗阵列为一组由n个根据耳蜗非线性动力学模型设计的,拥有不同固有频率
Figure BDA0001531811460000054
的主动仿真模块构成的非线性仿真阵列。输入语音信号为S(t),求解上述方程即可得到处理过后不同通道的实时响应输出xi(t)。之后将各通道输出信号xi(t)按照能量法平均即可得到语音预处理信号
Figure BDA0001531811460000055
需要注意的是,主动仿真模块设计时应使自适力系数γα设定在:0<γα≤γ的范围,当γα=0时,自适力为零,系统变为被动系统;当γα=γ时,系统最终将自持振荡。当γα在上述范围内时,γα值越大,自适力最大值越大,主动仿真模块有效阻尼越小,故而对在主动仿真模块固有频率附近的语音信号响应幅度越大。主动仿真模块的频率响应曲线与被动系统的频率响应特性曲线对比如图4所示,可以看出主动仿真模块对其固有频率附近的语音信号有更好的放大作用。
下面结合附图和具体实例对本发明作进一步详细说明。
图1为运用耳蜗非线性动力学模型实现新型语音信号处理技术框图。具体策略如下:根据频率高低需设计n个频带通道,每个频带通道中包含不同固有频率的主动仿真模块,构成非线性耳蜗阵列。通过麦克风记录下来的声信号S(t)通过不同的仿真模块处理输出为xi(t),之后将xi(t)通过能量平均输出为yi(t),yi(t)即为预处理过后的信号。使用此方式得到的预处理信号,能够反映出与耳蜗处理结果一致的,与听觉音调相关的结合音信息,并增强与语音相关的周期性信号特征,使得语音信号特征在噪声中突显出来,从而提高语音辨识度。
图2为多音畸变效应展示,从图2(a)主动仿真模块的响应频谱中能够看出,非线性耳蜗阵列的响应频谱中出现了传统被动滤波器系统中不可能出现的畸变产物,即:结合音。图2(b)为实际生理实验耳蜗基底膜上的响应结果。对比可知,主动仿真模块能够很好的模拟出耳蜗中的多音畸变效应,经过主动仿真模块处理的语音信号中,将出现与语音音调相关的结合音信息,同时提升语音的基频信号,这也是本策略提升语音特征基础。
图3(a)为是一段语音在加噪声后的富氏谱分析结果,从图可见其语音特征几乎被噪声所淹没。采用本研究所建的模型,代替富氏谱分析的结果如图3(b)。可以看到,语音信号特征在噪声中能明显的突显出来。
图4为主动仿真模块与被动系统的频率响应特性对比图。图像横轴为声音频率,纵轴为系统对不同频率声音的响应幅度。图中主动仿真模块与被动系统的固有频率皆为140Hz,实线为主动仿真模块的频率响应特性线,虚线为被动系统频率响应特性线。从图中可以看出与被动系统相比,主动仿真模块对其固有频率附近的语音信号有更大的响应幅度,体现了主动仿真模块对语音信号的主动放大作用。
本发明提供的基于耳蜗非线性动力学机理的语音信号预处理方法,包括下述步骤:
(1)建立耳蜗非线性动力学模型
Figure BDA0001531811460000071
(2)根据耳蜗非线性动力学模型构建非线性耳蜗阵列,非线性耳蜗阵列为一组包含n个不同固有频率的主动仿真模块,其作用是按照上述非线性动力学模型进行相应的数学运算。主动仿真模块的固有频率可按照如下模式设定:例如对于固有频率范围为a~a*eε(n-1)Hz(一般情况下取20Hz≤a≤200Hz)的非线性耳蜗阵列,其中第i个主动仿真模块的固有频率为fi=a*eε(i-1)Hz(i=1,2,3......n)。主动仿真模块设计时应使自适力系数γα设定在:0<γα≤γ的范围,在此范围内γα值越大,主动仿真模块对其固有频率附近的语音信号的放大作用越大;
输入语音信号为S(t),求解上述方程即可得到处理过后每一个主动仿真模块的实时响应输出xi(t);
(3)将各通道输出信号xi(t)进行处理后获得语音预处理信号
Figure BDA0001531811460000072
其中,可以按照能量法平均来处理各通道输出信号xi(t),从而得到时间长度为T的语音帧信号用于后续语音处理进程。
由于非线性耳蜗阵列能够对准周期或周期性语音信号起到主动放大作用,因而能够将我们所需的语音信号从噪声中突显出来。同时,非线性耳蜗阵列能够很好的模拟出耳蜗的多音畸变效应,因此预处理后的信号能够展现出与音调相关的结合音,突出语音特征,提高语音辨识度。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (3)

1.一种基于耳蜗非线性动力学机理的语音信号预处理方法,其特征在于,包括下述步骤:
(1)建立耳蜗非线性动力学模型,所述耳蜗非线性动力学模型为:
Figure FDA0002390235730000011
(2)根据耳蜗非线性动力学模型构建非线性耳蜗阵列,所述非线性耳蜗阵列为一组包含n个不同固有频率的主动仿真模块,每一个主动仿真模块将接收的输入语音信号按照所述耳蜗非线性动力学模型进行相应的运算后,获得每一个主动仿真模块的实时响应输出信号;
(3)将各个主动仿真模块的实时响应输出信号进行处理后获得语音预处理信号;
在步骤(3)中,按照能量法平均对实时响应输出信号xi(t)进行处理后获得时间长度为T的语音帧信号
Figure FDA0002390235730000012
其中,x为基底膜偏离平衡位置位移,t为时间,γ为阻尼系数,γα为自适力系数,所述耳蜗非线性动力学模型中自适力系数γα应满足如下范围:0<γα≤γ,在此范围内γα值越大,主动仿真模块对其固有频率附近的语音信号的放大作用越大,B为外毛细胞电致伸缩系数,x0为外毛细胞原长,ωi为耳蜗某部位的固有圆频率,S(t)为输入语音信号,xi(t)为第i个主动仿真模块的实时响应输出信号,i为主动仿真模块的序号,i=1,2,3......n,yi(t)为预处理过后的信号,T为语音帧时长;n为主动仿真模块的数目,n取大于等于1的整数。
2.如权利要求1所述的语音信号预处理方法,其特征在于,n个主动仿真模块的固有频率可按照如下方式设定:
对于固有频率范围为a~a*eε(n-1)Hz的非线性耳蜗阵列,其中,第i个主动仿真模块的固有频率为fi=a*eε(i-1)Hz;ε<1。
3.如权利要求2所述的语音信号预处理方法,其特征在于,20Hz≤a≤200Hz。
CN201711469953.2A 2017-12-29 2017-12-29 一种基于耳蜗非线性动力学机理的语音信号预处理方法 Expired - Fee Related CN108198546B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711469953.2A CN108198546B (zh) 2017-12-29 2017-12-29 一种基于耳蜗非线性动力学机理的语音信号预处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711469953.2A CN108198546B (zh) 2017-12-29 2017-12-29 一种基于耳蜗非线性动力学机理的语音信号预处理方法

Publications (2)

Publication Number Publication Date
CN108198546A CN108198546A (zh) 2018-06-22
CN108198546B true CN108198546B (zh) 2020-05-19

Family

ID=62586109

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711469953.2A Expired - Fee Related CN108198546B (zh) 2017-12-29 2017-12-29 一种基于耳蜗非线性动力学机理的语音信号预处理方法

Country Status (1)

Country Link
CN (1) CN108198546B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111510837B (zh) * 2020-04-23 2023-05-30 武汉立江科学仪器有限责任公司 一种助听器听力康复方法、康复系统、存储介质及助听器

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5388182A (en) * 1993-02-16 1995-02-07 Prometheus, Inc. Nonlinear method and apparatus for coding and decoding acoustic signals with data compression and noise suppression using cochlear filters, wavelet analysis, and irregular sampling reconstruction
CN100502819C (zh) * 2005-05-24 2009-06-24 北京大学科技开发部 制造适合汉语语音编码策略的人工耳蜗的方法
CN101645267B (zh) * 2009-04-03 2012-02-01 中国科学院声学研究所 一种应用于电子耳蜗的语音处理方法
WO2011152889A2 (en) * 2010-01-29 2011-12-08 Circular Logic, LLC Method and apparatus for canonical nonlinear analysis of audio signals
CN106621033B (zh) * 2016-11-30 2019-09-27 深圳信息职业技术学院 一种电子耳蜗言语处理方法和系统

Also Published As

Publication number Publication date
CN108198546A (zh) 2018-06-22

Similar Documents

Publication Publication Date Title
CN107886967B (zh) 一种深度双向门递归神经网络的骨导语音增强方法
Cheng et al. Replay detection using CQT-based modified group delay feature and ResNeWt network in ASVspoof 2019
CN109326302A (zh) 一种基于声纹比对和生成对抗网络的语音增强方法
CN110379412A (zh) 语音处理的方法、装置、电子设备及计算机可读存储介质
CN109215674A (zh) 实时语音增强方法
CN107967920A (zh) 一种改进的自编码神经网络语音增强算法
US11800301B2 (en) Neural network model for cochlear mechanics and processing
CN109243429A (zh) 一种语音建模方法及装置
CN107274887A (zh) 基于融合特征mgfcc的说话人二次特征提取方法
CN111986679A (zh) 一种应对复杂声学环境的说话人确认方法、系统及存储介质
CN105448302A (zh) 一种环境自适应的语音混响消除方法和系统
Li et al. Densely connected network with time-frequency dilated convolution for speech enhancement
CN108053829B (zh) 一种基于耳蜗听觉非线性动力学机理的电子耳蜗编码方法
CN108198546B (zh) 一种基于耳蜗非线性动力学机理的语音信号预处理方法
CN108520757A (zh) 基于听觉特性的音乐适用场景自动分类方法
CN105679321A (zh) 语音识别方法、装置及终端
GROZDIĆ et al. Comparison of Cepstral Normalization Techniques in Whispered Speech Recognition.
CN111326170A (zh) 联合时频域扩张卷积的耳语音向正常音转换方法及其装置
JP5864441B2 (ja) 勾配周波数非線形振動子ネットワークにおける学習及び聴覚情景解析
Aggarwal et al. Performance evaluation of artificial neural networks for isolated Hindi digit recognition with LPC and MFCC
CN113763978B (zh) 语音信号处理方法、装置、电子设备以及存储介质
JP2013518313A (ja) 音声信号の正準非線形解析のための方法及び装置
Alam et al. Speaker identification system under noisy conditions
Vimal Study on the Behaviour of Mel Frequency Cepstral Coffecient Algorithm for Different Windows
Cataldo et al. IDENTIFICATION OF A STOCHASTIC PROCESS MODELING THE STIFFNESS OF THE VOCAL FOLDS FOR A VOICE PRODUCTION MODEL REPRESENTED BY A NEURAL NETWORK (EURODYN 2020)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200519

Termination date: 20201229