CN110223680A - 语音处理方法、识别方法及其装置、系统、电子设备 - Google Patents
语音处理方法、识别方法及其装置、系统、电子设备 Download PDFInfo
- Publication number
- CN110223680A CN110223680A CN201910425255.5A CN201910425255A CN110223680A CN 110223680 A CN110223680 A CN 110223680A CN 201910425255 A CN201910425255 A CN 201910425255A CN 110223680 A CN110223680 A CN 110223680A
- Authority
- CN
- China
- Prior art keywords
- speech
- voice
- voice signal
- signal
- acoustic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000001228 spectrum Methods 0.000 claims abstract description 159
- 230000006870 function Effects 0.000 claims description 59
- 238000013528 artificial neural network Methods 0.000 claims description 58
- 238000012549 training Methods 0.000 claims description 33
- 230000008569 process Effects 0.000 claims description 24
- 238000003672 processing method Methods 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 abstract description 11
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 239000004568 cement Substances 0.000 abstract 2
- 238000010586 diagram Methods 0.000 description 12
- 230000004913 activation Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 239000013589 supplement Substances 0.000 description 4
- 230000008447 perception Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- OAICVXFJPJFONN-UHFFFAOYSA-N Phosphorus Chemical compound [P] OAICVXFJPJFONN-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Telephonic Communication Services (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
本发明公开了一种语音处理方法、识别方法及其装置、系统、电子设备、存储介质,所述语音处理方法包括:获取语音信号;将所述语音信号由时域转换至频域,得到所述语音信号的频谱;由所述语音信号的频谱提取得到幅度谱特征,以及基于将所述语音信号识别为目标音素的声学模型,将所述声学模型中其中一个网络层的输出,作为所述目标音素的瓶颈特征;根据所述幅度谱特征和所述目标音素的瓶颈特征,对所述语音信号进行语音增强处理,得到增强语音信号。采用本发明所提供的语音处理方法、识别方法及其装置、系统、电子设备、存储介质解决了现有技术中语音增强效果不好而导致语音识别的识别率不高的问题。
Description
技术领域
本发明涉及语音处理领域,尤其涉及一种语音处理方法、识别方法及其装置、系统、电子设备。
背景技术
在语音处理领域中的许多应用场景下,语音增强和语音识别都扮演着至关重要的角色。例如,在智能音箱等智能家居场景中,由智能音箱拾取的语音会先进行语音增强处理以提升语音质量,进而有利于后续更好地进行语音识别。
然而,发明人发现,现有的语音增强过程中,由于语音中清音部分的能量较弱,并且在语谱结构上非常类似于噪声,导致对清音部分的语音增强效果不理想,进而造成语音识别的识别率不高,尤其是针对语音中清音部分的识别率不高。
为此,如何提高语音识别的识别率仍有待解决。
发明内容
为了解决相关技术中存在的语音识别的识别率不高的问题,本发明各实施例提供一种语音处理方法、识别方法及其装置、系统、电子设备、存储介质。
其中,本发明所采用的技术方案为:
根据本发明的一方面,一种语音处理方法,包括:获取语音信号;将所述语音信号由时域转换至频域,得到所述语音信号的频谱;由所述语音信号的频谱提取得到幅度谱特征,以及基于将所述语音信号识别为目标音素的声学模型,将所述声学模型中其中一个网络层的输出,作为所述目标音素的瓶颈特征;根据所述幅度谱特征和所述目标音素的瓶颈特征,对所述语音信号进行语音增强处理,得到增强语音信号。
根据本发明的一方面,一种语音识别方法,包括:获取语音信号;在声学模型将所述语音信号识别为第一目标音素的过程中,将所述声学模型中其中一个网络层的输出,作为所述第一目标音素的瓶颈特征;根据所述语音信号和所述第一目标音素的瓶颈特征,对所述语音信号进行语音增强处理,得到增强语音信号;将所述增强语音信号输入至所述声学模型进行语音识别,得到第二目标音素。
根据本发明的一方面,一种语音处理装置,包括:语音获取模块,用于获取语音信号;频谱获取模块,用于将所述语音信号由时域转换至频域,得到所述语音信号的频谱;输入特征获取模块,用于由所述语音信号的频谱提取得到幅度谱特征,以及基于将所述语音信号识别为目标音素的声学模型,将所述声学模型中其中一个网络层的输出,作为所述目标音素的瓶颈特征;语音增强模块,用于根据所述幅度谱特征和所述目标音素的瓶颈特征,对所述语音信号进行语音增强处理,得到增强语音信号。
根据本发明的一方面,一种语音识别装置,包括:语音获取模块,用于获取语音信号;瓶颈特征获取模块,用于在声学模型将所述语音信号识别为第一目标音素的过程中,将所述声学模型中其中一个网络层的输出,作为所述第一目标音素的瓶颈特征;语音增强模块,用于根据所述语音信号和所述第一目标音素的瓶颈特征,对所述语音信号进行语音增强处理,得到增强语音信号;语音识别模块,用于将所述增强语音信号输入至所述声学模型进行语音识别,得到第二目标音素。
根据本发明的一方面,一种语音识别系统,包括第一设备和第二设备,所述第一设备配置有拾取语音组件和第一处理器,所述第二设备配置有通信接口和第二处理器,其中,所述第一设备利用所述拾取语音组件拾取语音信号,并基于拾取到的语音信号,利用所述第一处理器执行如上所述的语音处理方法,进行语音增强处理,得到增强语音信号;所述第二设备利用所述通信接口与所述第一设备交互,接收所述增强语音信号,并利用所述第二处理器执行如上所述的语音识别方法,对所述增强语音信号进行语音识别,得到语音识别结果。
根据本发明的一方面,一种电子设备,包括处理器及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上所述的语音处理方法或者语音识别方法。
根据本发明的一方面,一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的语音处理方法或者语音识别方法。
在上述技术方案中,在对语音信号进行语音增强处理时,将音素的瓶颈特征作为对语音信号对应的幅度谱特征的补充,以此提升语音增强效果,进而达到提升语音识别的识别率的目的。
具体而言,获取语音信号,以将该语音信号由时域转换至频域,得到该语音信号的频谱,进而由该语音信号的频谱提取得到幅度谱特征,以及基于将语音信号识别为目标音素的声学模型,将声学模型中其中一个网络层的输出,作为目标音素的瓶颈特征,并最终根据幅度谱特征和目标音素的瓶颈特征,对语音信号进行语音增强处理,得到增强语音信号,也就是说,基于语音增强中的音素感知,即在对语音信号进行语音增强处理时,将目标音素的瓶颈特征作为幅度谱特征的补充,使得语音中的清音部分和噪声更容易区分,从而提升了关于语音中清音部分的语音增强效果,由此解决了现有技术中语音识别的识别率不高的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并于说明书一起用于解释本发明的原理。
图1是根据本发明所涉及的实施环境的示意图。
图2是根据一示例性实施例示出的一种电子设备的硬件结构框图。
图3是根据一示例性实施例示出的一种语音处理方法的流程图。
图4是图3对应实施例中步骤350在一个实施例的流程图。
图5是图3对应实施例中步骤350在另一个实施例的流程图。
图6是图5对应实施例中步骤352在一个实施例的流程图。
图7是图3对应实施例中步骤370在一个实施例的流程图。
图8是根据一示例性实施例示出的另一种语音处理方法的流程图。
图9是图8对应实施例中步骤410在一个实施例的流程图。
图10是图7对应实施例中步骤373在一个实施例的流程图。
图11是根据本发明所涉及的语音增强模型和声学模型相互融合的系统架构示意图。
图12是图10对应实施例中步骤3735在一个实施例的流程图。
图13是根据一示例性实施例示出的一种语音识别方法的流程图。
图14是图13对应实施例中语音增强和语音识别相辅相成的系统架构示意图。
图15是根据一示例性实施例示出的一种语音处理装置的框图。
图16是根据一示例性实施例示出的一种语音识别装置的框图。
图17是根据一示例性实施例示出的一种电子设备的框图。
通过上述附图,已示出本发明明确的实施例,后文中将有更详细的描述,这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
这里将详细地对示例性实施例执行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1为一种语音处理方法所涉及的实施环境的示意图。
以智能音箱等智能家居场景为例进行说明,如图1(a)所示,该实施环境包括用户110与智能家居,例如,该智能家居为智能音箱130。
当用户110需要智能音箱130播放某个歌曲A,便可通过语音输入的方式,例如,用户110说:“智能音箱130,播放歌曲A”,进而向智能音箱130发出关于播放歌曲A的播放指令的语音信号。
对于智能音箱130而言,便可接收到该语音信号,从而在对该语音信号进行语音识别之后,方可获知用户110发出的播放指令的具体内容。
为了提高语音识别的识别率,在进行语音识别之前,智能音箱130还会对该语音信号进行语音增强处理以提高语音质量,以此来提高后续语音识别的识别率。
具体地,基于语音信号对应的幅度谱特征和音素的瓶颈特征,对语音信号进行语音增强处理,使得智能音箱130能够有效地区分语音中的清音部分和噪声,进而提升增强后语音的质量,从而有效地提升语音识别的识别率。
当然,在其他应用场景中,语音增强处理和语音识别也可以分开执行,例如,电子设备150用于对语音信号进行语音增强处理,并将增强后语音传输至电子设备170,再由电子设备170对增强后语音进行语音识别,得到语音识别结果并反馈至电子设备150,如图1(b)所示。
其中,电子设备150配置有拾取语音组件,例如,该拾取语音组件为麦克风,该电子设备150可以是智能音箱、智能手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理、便携穿戴设备等等。
电子设备170配置有通信接口,例如,该通信接口为有线或者无线网络接口,该电子设备170可以是台式电脑、服务器等等,以便于电子设备150与电子设备170之间建立通信连接,进而通过建立的通信连接实现电子设备150与电子设备170之间的数据传输,例如,传输的数据包括但不限于增强后语音、语音识别结果等等。
图2是根据一示例性实施例示出的一种电子设备的硬件结构框图。
需要说明的是,该种电子设备只是一个适配于本发明的示例,不能认为是提供了对本发明的使用范围的任何限制。该种电子设备也不能解释为需要依赖于或者必须具有图2中示出的示例性的电子设备200中的一个或者多个组件。
电子设备200的硬件结构可因配置或者性能的不同而产生较大的差异,如图2所示,电子设备200包括:电源210、接口230、至少一存储器250、以及至少一中央处理器(CPU,Central Processing Units)270。
具体地,电源210用于为电子设备200上的各硬件设备提供工作电压。
接口230包括至少一输入输出接口235,用于接收外部信号。例如,进行图1所示出实施环境中智能音箱130拾取语音信号。
当然,在其余本发明适配的示例中,接口230还可以进一步包括至少一有线或无线网络接口231、至少一串并转换接口233、以及至少一USB接口237等,如图2所示,在此并非对此构成具体限定。
存储器250作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统251、应用程序253及数据255等,存储方式可以是短暂存储或者永久存储。
其中,操作系统251用于管理与控制电子设备200上的各硬件设备以及应用程序253,以实现中央处理器270对存储器250中海量数据255的运算与处理,其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。
应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序,其可以包括至少一模块(图2中未示出),每个模块都可以分别包含有对电子设备200的一系列计算机可读指令。例如,语音处理装置可视为部署于电子设备的应用程序253。
数据255可以是存储于磁盘中的照片、图片等,还可以是语音信号等,存储于存储器250中。
中央处理器270可以包括一个或多个以上的处理器,并设置为通过至少一通信总线与存储器250通信,以读取存储器250中存储的计算机可读指令,进而实现对存储器250中海量数据255的运算与处理。例如,通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成语音处理方法。
此外,通过硬件电路或者硬件电路结合软件也能同样实现本发明,因此,实现本发明并不限于任何特定硬件电路、软件以及两者的组合。
请参阅图3,在一示例性实施例中,一种语音处理方法适用于电子设备,例如,该电子设备为图1所示实施环境的智能音箱130,该电子设备的结构可以如图2所示。
该种语音处理方法可以由电子设备执行,也可以理解为由部署于电子设备中的语音处理装置执行。在下述方法实施例中,为了便于描述,以各步骤的执行主体为电子设备加以说明,但是并不对此构成限定。
该种语音处理方法可以包括以下步骤:
步骤310,获取语音信号。
首先说明的是,本实施例中,语音信号是由电子设备配置的拾取语音组件实时采集的,例如,该拾取语音组件为麦克风。
如前所述,在智能音箱等智能家居场景中,语音信号是用户通过语音输入的方式向智能音箱等智能家居发出的,那么,智能音箱等智能家居便可借助拾取语音组件实时采集到。
或者,在即时通信场景中,即时通信客户端提供语音转文字的功能,此时,语音信号便是用户通过语音输入的方式向智能手机等终端设备发出的,相应地,智能手机等终端设备便可借助拾取语音组件实时采集到。
应当说明的是,该语音信号,既有可能是不包含噪声的原始语音信号,还可能是包含噪声的带噪语音信号,本实施例对此并未进行限定。
其次,可以理解,在拾取语音组件实时采集语音信号之后,电子设备考虑处理性能,可以对采集到的语音信号进行存储。例如,将该语音信号存储至存储器中。
由此,关于语音信号的获取,既可以是实时获取采集到的语音信号,以便于实时地对该语音信号进行相关处理,也可以获取一历史时间段内采集到的语音信号,以便于在处理任务较少的时候对该语音信号进行相关处理,或者,在操作人员的指示下进行该语音信号的相关处理,本实施例并未对此加以限定。
换句话说,获取到的语音信号,可以来源于实时采集的语音信号,也可以来自于预先存储的语音信号。
在电子设备获取到语音信号之后,便可针对该语音信号进行相关处理,例如,相关处理包括语音增强处理、语音识别等。
步骤330,将所述语音信号由时域转换至频域,得到所述语音信号的频谱。
应当理解,在语音增强处理中,为了方便于对语音中的浊音部分、清音部分和噪音进行表征,例如,通过幅度谱特征在语谱结构上唯一地表征语音信号,首先,需要针对语音信号进行时频变换,即将语音信号由时域转换至频域,得到语音信号的频谱,进而基于语音信号的频谱进行后续的语音增强处理,例如,由语音信号的频谱提取得到幅度谱特征。
具体而言,对所述语音信号进行短时傅里叶变换(Short Time FourierTransformation,STFT)处理,得到所述语音信号的频谱。
也即是,x(k,f)=STFT(x(t))。
其中,x(t)表示语音信号,STFT表示短时傅里叶变换算法。
x(k,f)表示语音信号的频谱,k、f分别表示频谱中帧和频率的索引。
当然,在其他实施例中,时频变换,还可以通过快速傅里叶变换(Fast FourierTransformation,FFT)处理实现,本实施例并非对此构成具体的限定。
步骤350,由所述语音信号的频谱提取得到幅度谱特征,以及基于将所述语音信号识别为目标音素的声学模型,将所述声学模型中其中一个网络层的输出,作为所述目标音素的瓶颈特征。
首先,幅度谱特征(Log-power Spectra,LPS),用于在语谱结构上唯一地表征语音信号,使得基于该幅度谱特征的语音增强处理,能够在语谱结构上有效地区分出语音中的浊音部分,进而有效地提升关于语音中浊音部分的语音质量。
具体地,幅度谱特征,由语音信号的频谱提取得到。
然而,发明人同时意识到,一方面,语音中清音部分的能量较弱,并且和噪音在语谱结构上非常类似,基于幅度谱特征尚无法有效地区分语音中的清音部分和噪音,清音往往会被当成噪音处理,使得语音中关于清音部分的语音增强效果并不理想,即对语音中清音部分的语音增强不明显;另一方面,由于语音信号往往还涉及到相位、音素、说话人、声学环境等其他方面的因素,仅以幅度谱特征作为单一维度的特征尚不足以准确地表征语音信号,将会限制语音增强效果,进而影响语音识别的识别率。
为此,本实施例中,将目标音素的瓶颈(bottleneck)特征作为幅度谱特征的补充,引入语音增强处理。其中,目标音素,是基于声学模型,对语音信号进行语音识别得到的。
具体地,目标音素的瓶颈特征,在声学模型将语音信号识别为目标音素的过程中,由声学模型中的其中一个网络层输出。
可选地,输出目标音素的瓶颈特征的声学模型中的其中一个网络层,为LSTM(Long-Short Term Memory,长短期记忆)层。
当然,在其他实施例中,引入语音增强处理的特征,还可以是区别于幅度谱特征的其他维度的特征,比如,相位特征、声学环境特征、说话人特征中的任意一种或者几种,本实施例并非对此构成具体限定。
步骤370,根据所述幅度谱特征和所述目标音素的瓶颈特征,对所述语音信号进行语音增强处理,得到增强语音信号。
也就是说,引入语音增强处理中的特征,不仅有幅度谱特征,还包括音素的瓶颈特征。由于瓶颈特征与音素有关,一方面,能够有效地区分语音中的清音部分和噪音,进而提升关于清音部分的语音增强效果,以此充分地保障了清音部分在语音信号的质量和可懂度上的贡献,另一方面,由于音素涉及到说话人的说话内容,而说话内容正是语音识别的最终目标,故而有利于后续提升语音识别的识别率。
通过如上所述的过程,基于幅度谱特征和音素的瓶颈特征,以不同维度的特征来表征语音信号,提升了语音增强处理的客观指标,进而有利于提升语音信号的语音增强效果,有利于提升后续语音识别的识别率。
在此说明的是,语音增强处理的客观指标,包括但不限于:信噪比、噪声类型、以及混响环境中的PESQ(Perceptual evaluation of speech quality,主观语音质量评估)、SNR(信噪比)、STOI(Short-Time Objective Intelligibility,短时客观可懂度)等等。
请参阅图4,在一示例性实施例中,步骤350中,步骤由所述语音信号的频谱提取得到幅度谱特征,可以包括以下步骤:
步骤351,对所述语音信号的频谱进行求平方运算。
步骤353,对运算结果进行取log运算,得到所述幅度谱特征。
具体而言,LPS=log|x(k,f)|2。
其中,LPS表示幅度谱特征,x(k,f)表示语音信号的频谱,k、f分别表示频谱中帧和频率的索引。
在上述实施例的作用下,实现了幅度谱特征的提取,进而使得基于幅度谱特征的语音增强处理得以实现。
请参阅图5,在一示例性实施例中,步骤350中,步骤基于将所述语音信号识别为目标音素的声学模型,将所述声学模型中其中一个网络层的输出,作为所述目标音素的瓶颈特征,可以包括以下步骤:
步骤352,对所述语音信号的频谱进行输入特征提取,将提取到的输入特征输入所述声学模型的卷积层。
步骤354,基于所述声学模型的卷积层,由所述声学模型的输入特征提取得到卷积特征,并输出至所述声学模型的LSTM层。
如图12所示,声学模型的模型拓扑结构包括:输入层、卷积层(CNN网络)、LSTM层、全连接层、激活函数(Softmax)层、输出层。
其中,输入层,从语音信号的频谱中提取得到声学模型的输入特征,并将该输入特征传输至卷积层。
卷积层,从声学模型的输入特征中提取得到卷积特征,并将该卷积特征传输至LSTM层。
LSTM层,包含若干个网络节点,基于该LSTM层中的不同网络节点,对卷积特征进行局部特征提取,并将各网络节点提取到的局部特征传输至全连接层。
全连接层,基于各网络节点提取到的局部特征的前向传播,对该些局部特征进行融合,得到全局特征,并将该全局特征传输至激活函数层。
激活函数层,基于音素后验概率,对全局特征进行音素分类预测,得到语音信号对应的音素分类,即目标音素。
输出层,将目标音素作为语音识别结果输出。
由此,基于声学模型,便可将语音信号识别为目标音素。
步骤356,基于所述声学模型的LSTM层的输出,得到所述目标音素的瓶颈特征。
上述过程中,假设LSTM层的输出表示为p(k,m),m表示声学模型中LSTM层包含的网络节点个数,在此,由于幅度谱特征LPS=log|x(k,f)|2,f表示频谱中频率的索引,发明人意识到,log|x(k,f)|2的特征维度与p(k,m)的特征维度具有可比性,可视为语音信号在不同维度上的表征,因此,LSTM层的输出是对幅度谱特征很好的补充。
基于此,本实施例中,在声学模型将语音信号识别为目标音素的过程中,将声学模型中LSTM层的输出,作为目标音素的瓶颈特征,以引入语音增强处理。
进一步地,请参阅图6,在一示例性实施例中,步骤352可以包括以下步骤:
步骤3521,根据所述语音信号的频谱,分别计算所述语音信号的Fbank特征、一阶差分、以及二阶差分。
具体地,计算公式如下所示:
F(k)=Fbank[x(k,f)],
Y(k)=x(k+1,f)-x(k,f),
Z(k)=Y(k+1)-Y(k)=x(k+2,f)-2×x(k+1,f)+x(k,f)。
其中,F(k)表示语音信号的Fbank特征,Fbank表示Fbank特征提取算法。
Y(k)表示语音信号的一阶差分,Z(k)表示语音信号的二阶差分。
x(k,f)表示语音信号的频谱,k、f分别表示频谱中帧和频率的索引。
步骤3523,对所述语音信号的Fbank特征、一阶差分、以及二阶差分进行拼接运算,得到所述声学模型的输入特征。
基于前述,[F(k),Y(k),Z(k)],即表示声学模型的输入特征。
步骤3525,将所述声学模型的输入特征输入至所述声学模型的卷积层。
在上述实施例的配合下,实现了音素的瓶颈特征的提取,进而使得基于音素的瓶颈特征的语音增强处理得以实现。
请参阅图7,在一示例性实施例中,步骤370可以包括以下步骤:
步骤371,将所述幅度谱特征和所述目标音素的瓶颈特征拼接,获得语音增强模型的输入特征。
在得到幅度谱特征和目标音素的瓶颈特征之后,便可进行二者的拼接,以作为语音增强模型的输入特征。
具体地,[log|x(k,f)|2,p(k,m)],即表示语音增强模型的输入特征。
其中,log|x(k,f)|2表示幅度谱特征,x(k,f)表示语音信号的频谱,k、f分别表示频谱中帧和频率的索引。
p(k,m)表示目标音素的瓶颈特征,m表示声学模型中LSTM层包含的网络节点个数。
步骤373,基于神经网络构建的语音增强模型,进行关于该输入特征的语音增强处理,得到所述增强语音信号。
语音增强模型,实质是基于神经网络,在语音信号与增强语音信号之间建立了数学映射关系。那么,在获得语音信号之后,便可基于语音增强模型提供的该数学映射关系,由语音信号得到增强语音信号。
关于语音增强模型的生成,具体地,根据训练样本对所述神经网络进行训练,得到所述语音增强模型。其中,所述训练样本包括不包含噪声的原始语音信号、由原始语音信号携带噪声信号所生成的带噪语音信号。
关于训练样本中原始语音信号的获取,既可以来源于电子设备配置的拾取语音组件实时采集的,也可以来源于操作人员利用录音组件(例如录音机)录制的,在此并未加以限定。如图8所示,在一实施例的实现中,上述训练过程可以包括以下步骤:
步骤410,根据所述训练样本中的原始语音信号和带噪语音信号,获得所述神经网络的输入特征和输出目标。
其中,神经网络的输入特征,是指带噪语音信号对应的幅度谱特征。
神经网络的输出目标,则与原始语音信号的频谱、带噪语音信号的频谱有关。
步骤430,结合所述神经网络的参数,根据所述神经网络的输入特征和输出目标,构建收敛函数。
其中,收敛函数包括但不限于:最大期望函数、损失函数等等。
基于此,训练,则实质是通过训练样本对神经网络的参数加以迭代优化,进而使得收敛函数满足收敛条件,以此实现输入特征与输出目标之间的数学映射关系达到最优。
步骤450,当所述神经网络的参数使得所述收敛函数收敛时,由所述神经网络收敛得到所述语音增强模型。
以收敛函数为损失函数为例进行说明。
随机初始化神经网络的参数,结合神经网络的第一个输入特征和第一个输出目标,计算损失函数的损失值。
如果损失函数的损失值指示损失函数收敛,即损失函数的损失值达到最小,则由神经网络收敛得到语音增强模型。
反之,如果损失函数的损失值指示损失函数未收敛,即损失函数的损失值未达到最小,则更新神经网络的参数,并结合神经网络的后一个输入特征和后一个输出目标,继续计算重新构建的损失函数的损失值,直至损失函数的损失值达到最小。
值得一提的是,如果在损失函数的损失值达到最小之前,迭代次数已经达到迭代阈值,也将停止对神经网络的参数继续更新,以此保证训练的效率。
那么,当损失函数收敛并符合精度要求时,表示训练已完成,由此即得到语音增强模型,进而使得该语音增强模型具有了对语音信号进行语音增强的能力。
请参阅图9,在一示例性实施例中,步骤410可以包括以下步骤:
步骤411,分别将所述原始语音信号和所述带噪语音信号由时域转换至频域。
具体地,s(k,f)=STFT(s(t)),x′(k,f)=STFT(x′(t))。
其中,s(t)表示原始语音信号,x′(t)表示带噪语音信号,STFT表示短时傅里叶变换算法。
s(k,f)表示原始语音信号的频谱,x′(k,f)表示带噪语音信号的频谱,k、f分别表示频谱中帧和频率的索引。
步骤413,由所述带噪语音信号的频谱提取得到幅度谱特征,作为所述神经网络的输入特征。
具体而言,对所述带噪语音信号的频谱进行求平方运算。
对运算结果进行取log运算,得到幅度谱特征,作为神经网络的输入特征。
也即是,LPS’=log|x′(k,f)|2。
其中,LPS’表示神经网络的输入特征,即幅度谱特征,x′(k,f)表示带噪语音信号的频谱,k、f分别表示频谱中帧和频率的索引。
步骤415,在所述原始语音信号的频谱与所述带噪语音信号的频谱之间进行求商运算,将运算结果作为所述神经网络的输出目标。
具体地,s(k,f)/x′(k,f)=re(k,f)+j×im(k,f)。
其中,s(k,f)表示原始语音信号的频谱,x′(k,f)表示带噪语音信号的频谱。
re(k,f)表示输出目标的实部掩码,im(k,f)表示输出目标的虚部掩码,也即是,re(k,f)+j×im(k,f)表示神经网络的输出目标。
在上述实施例的作用下,实现了神经网络的输入特征LPS’和输出目标re(k,f)+j×im(k,f)的获取,进而使得对神经网络的训练得以实现,当训练完成,即由神经网络收敛得到语音增强模型。
也可以理解为,语音增强模型本质上构建了输入特征LPS与输出目标之间的最优数学映射关系。应当说明的是,该输入特征LPS与该输出目标视为语音增强模型的输入特征和输出目标,区别于神经网络的输入特征LPS’和输出目标re(k,f)+j×im(k,f)。
此时,在基于神经网络构建得到语音增强模型之后,便可进一步基于该语音增强模型,对语音信号x(t)进行语音增强处理,得到增强语音信号即执行步骤373,进行关于语音增强模型的输入特征的语音增强处理,得到增强语音信号。
下面对增强语音信号的生成过程进行详细地描述。
请参阅图10,在一示例性实施例中,步骤373可以包括以下步骤:
步骤3731,将所述语音增强模型的输入特征输入所述语音增强模型的LSTM层,进行局部特征的提取。
步骤3733,将提取到的局部特征输入所述语音增强模型的全连接层,进行局部特征的融合,得到所述语音增强模型的输出目标。
具体而言,如图11所示,语音增强模型的模型拓扑结构包括:输入层、LSTM层、全连接层、输出层。
其中,输入层,将由语音信号的频谱中提取得到的幅度谱特征、以及由声学模型中LSTM层输出的目标音素的瓶颈特征进行拼接,得到语音增强模型的输入特征,并将该输入特征传输至LSTM层。
LSTM层,包含若干个网络节点,基于该LSTM层中的不同网络节点,对语音增强模型的输入特征进行局部特征提取,并将各网络节点提取到的局部特征传输至全连接层。
全连接层,基于各网络节点提取到的局部特征的前向传播,对该些局部特征进行融合,得到全局特征,即语音增强模型的输出目标。
输出层,将语音增强模型的输出目标输出为增强语音信号,即执行步骤3735。
步骤3735,由所述语音增强模型的输出目标得到所述增强语音信号。
具体地,如图12所示,在一实施例的实现中,步骤3735可以包括以下步骤:
步骤3735a,将所述语音增强模型的输出目标与所述语音信号的频谱进行乘法运算,得到所述增强语音信号的频谱。
步骤3735c,对所述增强语音信号的频谱进行逆短时傅里叶变换处理,得到所述增强语音信号。
如图11所示,假设语音增强模型的输出目标表示为: 其中,表示该输出目标的实部掩码,表示该输出目标的虚部掩码。
此时,
其中,表示增强语音信号的频谱,x(k,f)表示语音信号的频谱。
最后,对增强语音信号的频谱进行逆短时傅里叶变换处理,即得到增强语音信号
其中,表示增强语音信号,iSTFT表示逆短时傅里叶变换算法。
上述实现过程中,实现了基于神经网络的语音增强模型的语音增强,有效地提升了语音质量,进而有利于后续语音识别。
此外,基于音素感知,将音素的瓶颈特征引入语音增强处理,使得电子设备能够更加有效地区分语音中的清音部分和噪声,从而提升关于清音部分的语音增强效果,进一步有利于提升后续语音识别的识别率。
请参阅图13,在一示例性实施例中,一种语音识别方法适用于电子设备,例如,该电子设备为图1所示实施环境的智能音箱130,该电子设备的结构可以如图2所示。
该种语音识别方法可以由电子设备执行,可以包括以下步骤:
步骤710,获取语音信号。
步骤730,在声学模型将所述语音信号识别为第一目标音素的过程中,将所述声学模型中其中一个网络层的输出,作为所述第一目标音素的瓶颈特征。
步骤750,根据所述语音信号和所述第一目标音素的瓶颈特征,对所述语音信号进行语音增强处理,得到增强语音信号。
步骤770,将所述增强语音信号输入至所述声学模型进行语音识别,得到第二目标音素。
如图14所示,一方面,语音增强处理过程中,引入第一目标音素的瓶颈特征,以实现基于音素感知的语音增强,也即是,利用了语音识别来帮助语音增强。
另一方面,语音识别过程中,基于增强语音信号再次进行语音识别,由此得到第二目标音素,作为语音识别结果。相较于第一目标音素,第二目标音素具有更加精准地识别率,也即是,利用了语音增强来帮助语音识别。
通过上述过程,语音增强和语音识别相辅相成,形成了一个有益的迭代过程,不仅提升了语音增强效果和语音增强的鲁棒性,而且在语音识别性能上,进一步有效地提升了语音识别的识别率。
下述为本发明装置实施例,可以用于执行本发明所涉及的语音处理方法。对于本发明装置实施例中未披露的细节,请参照本发明所涉及的语音处理方法的方法实施例。
请参阅图15,在一示例性实施例中,一种语音处理装置900包括但不限于:语音获取模块910、频谱获取模块930、输入特征获取模块950及语音增强模块970。
其中,语音获取模块910,用于获取语音信号。
频谱获取模块930,用于将所述语音信号由时域转换至频域,得到所述语音信号的频谱。
输入特征获取模块950,用于由所述语音信号的频谱提取得到幅度谱特征,以及基于将所述语音信号识别为目标音素的声学模型,将所述声学模型中其中一个网络层的输出,作为所述目标音素的瓶颈特征。
语音增强模块970,用于根据所述幅度谱特征和所述目标音素的瓶颈特征,对所述语音信号进行语音增强处理,得到增强语音信号。
在一示例性实施例中,所述语音处理装置900还用于实现以下功能,包括但不限于:
其中,对所述语音信号的频谱进行输入特征提取,将提取到的输入特征输入所述声学模型的卷积层。
基于所述声学模型的卷积层,由所述声学模型的输入特征提取得到卷积特征,并输出至所述声学模型的LSTM层。
基于所述声学模型的LSTM层的输出,得到所述目标音素的瓶颈特征。
在一示例性实施例中,所述语音处理装置900还用于实现以下功能,包括但不限于:
其中,根据所述语音信号的频谱,分别计算所述语音信号的Fbank特征、一阶差分、以及二阶差分。
对所述语音信号的Fbank特征、一阶差分、以及二阶差分进行拼接,得到所述声学模型的输入特征。
将所述声学模型的输入特征输入至所述声学模型的卷积层。
在一示例性实施例中,所述语音处理装置900还用于实现以下功能,包括但不限于:
其中,对所述语音信号进行短时傅里叶变换处理,得到所述语音信号的频谱。
在一示例性实施例中,所述语音处理装置900还用于实现以下功能,包括但不限于:
其中,对所述语音信号的频谱进行求平方运算。
对运算结果进行取log运算,得到所述幅度谱特征。
在一示例性实施例中,所述语音处理装置900还用于实现以下功能,包括但不限于:
其中,将所述幅度谱特征和所述目标音素的瓶颈特征拼接,获得语音增强模型的输入特征。
基于神经网络构建的语音增强模型,进行关于该输入特征的语音增强处理,得到所述增强语音信号。
在一示例性实施例中,所述语音处理装置900还用于实现以下功能,包括但不限于:
其中,根据训练样本对所述神经网络进行训练,得到所述语音增强模型,所述训练样本包括原始语音信号、由原始语音信号携带噪声信号所生成的带噪语音信号。
在一示例性实施例中,所述语音处理装置900还用于实现以下功能,包括但不限于:
其中,根据所述训练样本中的原始语音信号和带噪语音信号,获得所述神经网络的输入特征和输出目标。
结合所述神经网络的参数,根据所述神经网络的输入特征和输出目标,构建收敛函数。
当所述神经网络的参数使得所述收敛函数收敛时,由所述神经网络收敛得到所述语音增强模型。
在一示例性实施例中,所述语音处理装置900还用于实现以下功能,包括但不限于:
其中,分别将所述原始语音信号和所述带噪语音信号由时域转换至频域。
由所述带噪语音信号的频谱提取得到幅度谱特征,作为所述神经网络的输入特征。
在所述原始语音信号的频谱与所述带噪语音信号的频谱之间进行求商运算,将运算结果作为所述神经网络的输出目标。
在一示例性实施例中,所述语音处理装置900还用于实现以下功能,包括但不限于:
其中,将所述语音增强模型的输入特征输入所述语音增强模型的LSTM层,进行局部特征的提取。
将提取到的局部特征输入所述语音增强模型的全连接层,进行局部特征的融合,得到所述语音增强模型的输出目标。
由所述语音增强模型的输出目标得到所述增强语音信号。
在一示例性实施例中,所述语音处理装置900还用于实现以下功能,包括但不限于:
其中,将所述语音增强模型的输出目标与所述语音信号的频谱进行乘法运算,得到所述增强语音信号的频谱。
对所述增强语音信号的频谱进行逆短时傅里叶变换处理,得到所述增强语音信号。
需要说明的是,上述实施例所提供的语音处理装置在进行语音处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即语音处理装置的内部结构将划分为不同的功能模块,以完成以上描述的全部或者部分功能。
另外,上述实施例所提供的语音处理装置与语音处理方法的实施例属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
请参阅图16,在一示例性实施例中,一种语音识别装置1100包括但不限于:语音获取模块1110、瓶颈特征获取模块1130、语音增强模块1150及语音识别模块1170。
其中,语音获取模块1110,用于获取语音信号。
瓶颈特征获取模块1130,用于在声学模型将所述语音信号识别为第一目标音素的过程中,将所述声学模型中其中一个网络层的输出,作为所述第一目标音素的瓶颈特征。
语音增强模块1150,用于根据所述语音信号和所述第一目标音素的瓶颈特征,对所述语音信号进行语音增强处理,得到增强语音信号。
语音识别模块1170,用于将所述增强语音信号输入至所述声学模型进行语音识别,得到第二目标音素。
在一示例性实施例中,所述语音识别装置1100还用于实现以下功能,包括但不限于:
其中,对所述语音信号的频谱进行第一输入特征提取,将提取到的第一输入特征输入所述声学模型的卷积层。
基于所述声学模型的卷积层,由所述声学模型的第一输入特征提取得到第一卷积特征,并输出至所述声学模型的LSTM层。
基于所述声学模型的LSTM层的输出,得到所述第一目标音素的瓶颈特征。
在一示例性实施例中,所述语音识别装置1100还用于实现以下功能,包括但不限于:
其中,根据所述语音信号的频谱,分别计算所述语音信号的Fbank特征、一阶差分、以及二阶差分。
对所述语音信号的Fbank特征、一阶差分、以及二阶差分进行拼接,得到所述声学模型的第一输入特征。
将所述声学模型的输入特征输入至所述声学模型的卷积层。
在一示例性实施例中,所述语音识别装置1100还用于实现以下功能,包括但不限于:
其中,对所述语音信号进行短时傅里叶变换处理,得到所述语音信号的频谱。
在一示例性实施例中,所述语音识别装置1100还用于实现以下功能,包括但不限于:
其中,对所述语音信号的频谱进行求平方运算。
对运算结果进行取log运算,得到所述幅度谱特征;
根据所述幅度谱特征和所述第一目标音素的瓶颈特征,进行所述语音信号的语音增强处理,得到所述增强语音信号。
在一示例性实施例中,所述语音识别装置1100还用于实现以下功能,包括但不限于:
其中,将所述幅度谱特征和所述第一目标音素的瓶颈特征拼接,获得语音增强模型的输入特征。
基于神经网络构建的语音增强模型,进行关于该输入特征的语音增强处理,得到所述增强语音信号。
在一示例性实施例中,所述语音识别装置1100还用于实现以下功能,包括但不限于:
其中,根据第一训练样本对所述神经网络进行训练,得到所述语音增强模型,所述第一训练样本包括原始语音信号、由原始语音信号携带噪声信号所生成的带噪语音信号。
在一示例性实施例中,所述语音识别装置1100还用于实现以下功能,包括但不限于:
其中,根据所述第一训练样本中的原始语音信号和带噪语音信号,获得所述神经网络的输入特征和输出目标。
结合所述神经网络的参数,根据所述神经网络的输入特征和输出目标,构建第一收敛函数。
当所述神经网络的参数使得所述第一收敛函数收敛时,由所述神经网络收敛得到所述语音增强模型。
在一示例性实施例中,所述语音识别装置1100还用于实现以下功能,包括但不限于:
其中,分别将所述原始语音信号和所述带噪语音信号由时域转换至频域。
由所述带噪语音信号的频谱提取得到幅度谱特征,作为所述神经网络的输入特征。
在所述原始语音信号的频谱与所述带噪语音信号的频谱之间进行求商运算,将运算结果作为所述神经网络的输出目标。
在一示例性实施例中,所述语音识别装置1100还用于实现以下功能,包括但不限于:
其中,将所述语音增强模型的输入特征输入所述语音增强模型的LSTM层,进行局部特征的提取。
将提取到的局部特征输入所述语音增强模型的全连接层,进行局部特征的融合,得到所述语音增强模型的输出目标。
由所述语音增强模型的输出目标得到所述增强语音信号。
在一示例性实施例中,所述语音识别装置1100还用于实现以下功能,包括但不限于:
其中,将所述语音增强模型的输出目标与所述语音信号的频谱进行乘法运算,得到所述增强语音信号的频谱。
对所述增强语音信号的频谱进行逆短时傅里叶变换处理,得到所述增强语音信号。
在一示例性实施例中,所述语音识别装置1100还用于实现以下功能,包括但不限于:
其中,对所述增强语音信号进行时频变换,得到所述增强语音信号的频谱;
对所述增强语音信号的频谱进行第二输入特征提取,将提取到的第二输入特征输入所述声学模型的卷积层。
基于所述声学模型的卷积层,由所述声学模型的第二输入特征提取得到第二卷积特征,并输出至所述声学模型的LSTM层。
基于所述声学模型中LSTM层包含的若干个网络节点,对所述第二卷积特征进行局部特征提取,并将各网络节点提取到的局部特征传输至全连接层。
基于所述声学模型的全连接层,对各网络节点提取到的局部特征进行前向传播和局部特征融合,得到全局特征,并将所述全局特征传输至激活函数层。
基于所述声学模型的激活函数层,对所述全局特征进行音素分类预测,得到所述增强语音信号对应的音素分类,作为所述第二目标音素。
基于所述声学模型的输出层,将所述第二目标音素作为语音识别结果输出。
在一示例性实施例中,所述语音识别装置1100还用于实现以下功能,包括但不限于:
其中,根据第二训练样本对机器学习模型进行训练,得到所述声学模型,所述第二训练样本是进行了音素标注的语音信号。
在一示例性实施例中,所述语音识别装置1100还用于实现以下功能,包括但不限于:
其中,对所述第二训练样本进行时频变换,得到所述第二训练样本的频谱;
由所述第二训练样本的频谱提取得到所述声学模型的训练特征。
结合所述机器学习模型的参数,根据所述第二训练样本的训练特征和标注的音素,构建第二收敛函数。
当所述机器学习模型的参数使得所述第二收敛函数收敛时,由所述机器学习模型收敛得到所述声学模型。
需要说明的是,上述实施例所提供的语音识别装置在进行语音识别时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即语音识别装置的内部结构将划分为不同的功能模块,以完成以上描述的全部或者部分功能。
另外,上述实施例所提供的语音识别装置与语音识别方法的实施例属于同一构思,其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述,此处不再赘述。
请参阅图17,在一示例性实施例中,一种电子设备1000,包括至少一处理器1001、至少一存储器1002、以及至少一通信总线1003。
其中,存储器1002上存储有计算机可读指令,处理器1001通过通信总线1003读取存储器1002中存储的计算机可读指令。
该计算机可读指令被处理器1001执行时实现上述各实施例中的语音处理方法或者语音识别方法。
在一示例性实施例中,一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例中的语音处理方法或者语音识别方法。
上述内容,仅为本发明的较佳示例性实施例,并非用于限制本发明的实施方案,本领域普通技术人员根据本发明的主要构思和精神,可以十分方便地进行相应的变通或修改,故本发明的保护范围应以权利要求书所要求的保护范围为准。
Claims (15)
1.一种语音处理方法,其特征在于,包括:
获取语音信号;
将所述语音信号由时域转换至频域,得到所述语音信号的频谱;
由所述语音信号的频谱提取得到幅度谱特征,以及基于将所述语音信号识别为目标音素的声学模型,将所述声学模型中其中一个网络层的输出,作为所述目标音素的瓶颈特征;
根据所述幅度谱特征和所述目标音素的瓶颈特征,对所述语音信号进行语音增强处理,得到增强语音信号。
2.如权利要求1所述的方法,其特征在于,所述基于将所述语音信号识别为目标音素的声学模型,将所述声学模型中其中一个网络层的输出,作为所述目标音素的瓶颈特征,包括:
对所述语音信号的频谱进行输入特征提取,将提取到的输入特征输入所述声学模型的卷积层;
基于所述声学模型的卷积层,由所述声学模型的输入特征提取得到卷积特征,并输出至所述声学模型的LSTM层;
基于所述声学模型的LSTM层的输出,得到所述目标音素的瓶颈特征。
3.如权利要求2所述的方法,其特征在于,所述对所述语音信号的频谱进行输入特征提取,将提取到的输入特征输入所述声学模型的卷积层,包括:
根据所述语音信号的频谱,分别计算所述语音信号的Fbank特征、一阶差分、以及二阶差分;
对所述语音信号的Fbank特征、一阶差分、以及二阶差分进行拼接,得到所述声学模型的输入特征;
将所述声学模型的输入特征输入至所述声学模型的卷积层。
4.如权利要求1至3任一项所述的方法,其特征在于,所述将所述语音信号由时域转换至频域,得到所述语音信号的频谱,包括:
对所述语音信号进行短时傅里叶变换处理,得到所述语音信号的频谱。
5.如权利要求1至3任一项所述的方法,其特征在于,所述由所述语音信号的频谱提取得到幅度谱特征,包括:
对所述语音信号的频谱进行求平方运算;
对运算结果进行取log运算,得到所述幅度谱特征。
6.如权利要求1至3任一项所述的方法,其特征在于,所述根据所述幅度谱特征和所述目标音素的瓶颈特征,对所述语音信号进行语音增强处理,得到增强语音信号,包括:
将所述幅度谱特征和所述目标音素的瓶颈特征拼接,获得语音增强模型的输入特征;
基于神经网络构建的语音增强模型,进行关于该输入特征的语音增强处理,得到所述增强语音信号。
7.如权利要求6所述的方法,其特征在于,所述方法还包括:根据训练样本对所述神经网络进行训练,得到所述语音增强模型,所述训练样本包括原始语音信号、由原始语音信号携带噪声信号所生成的带噪语音信号;
所述根据训练样本对所述神经网络进行训练,得到所述语音增强模型,包括:
根据所述训练样本中的原始语音信号和带噪语音信号,获得所述神经网络的输入特征和输出目标;
结合所述神经网络的参数,根据所述神经网络的输入特征和输出目标,构建收敛函数;
当所述神经网络的参数使得所述收敛函数收敛时,由所述神经网络收敛得到所述语音增强模型。
8.如权利要求7所述的方法,其特征在于,所述根据所述训练样本中的原始语音信号和带噪语音信号,获得所述神经网络的输入特征和输出目标,包括:
分别将所述原始语音信号和所述带噪语音信号由时域转换至频域;
由所述带噪语音信号的频谱提取得到幅度谱特征,作为所述神经网络的输入特征;
在所述原始语音信号的频谱与所述带噪语音信号的频谱之间进行求商运算,将运算结果作为所述神经网络的输出目标。
9.如权利要求6所述的方法,其特征在于,所述基于神经网络构建的语音增强模型,进行关于该输入特征的语音增强处理,得到所述增强语音信号,包括:
将所述语音增强模型的输入特征输入所述语音增强模型的LSTM层,进行局部特征的提取;
将提取到的局部特征输入所述语音增强模型的全连接层,进行局部特征的融合,得到所述语音增强模型的输出目标;
由所述语音增强模型的输出目标得到所述增强语音信号。
10.如权利要求9所述的方法,其特征在于,所述由所述语音增强模型的输出目标得到所述增强语音信号,包括:
将所述语音增强模型的输出目标与所述语音信号的频谱进行乘法运算,得到所述增强语音信号的频谱;
对所述增强语音信号的频谱进行逆短时傅里叶变换处理,得到所述增强语音信号。
11.一种语音识别方法,其特征在于,包括:
获取语音信号;
在声学模型将所述语音信号识别为第一目标音素的过程中,将所述声学模型中其中一个网络层的输出,作为所述第一目标音素的瓶颈特征;
根据所述语音信号和所述第一目标音素的瓶颈特征,对所述语音信号进行语音增强处理,得到增强语音信号;
将所述增强语音信号输入至所述声学模型进行语音识别,得到第二目标音素。
12.一种语音处理装置,其特征在于,包括:
语音获取模块,用于获取语音信号;
频谱获取模块,用于将所述语音信号由时域转换至频域,得到所述语音信号的频谱;
输入特征获取模块,用于由所述语音信号的频谱提取得到幅度谱特征,以及基于将所述语音信号识别为目标音素的声学模型,将所述声学模型中其中一个网络层的输出,作为所述目标音素的瓶颈特征;
语音增强模块,用于根据所述幅度谱特征和所述目标音素的瓶颈特征,对所述语音信号进行语音增强处理,得到增强语音信号。
13.一种语音识别装置,其特征在于,包括:
语音获取模块,用于获取语音信号;
瓶颈特征获取模块,用于在声学模型将所述语音信号识别为第一目标音素的过程中,将所述声学模型中其中一个网络层的输出,作为所述第一目标音素的瓶颈特征;
语音增强模块,用于根据所述语音信号和所述第一目标音素的瓶颈特征,对所述语音信号进行语音增强处理,得到增强语音信号;
语音识别模块,用于将所述增强语音信号输入至所述声学模型进行语音识别,得到第二目标音素。
14.一种电子设备,其特征在于,包括:
处理器;及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如权利要求1至11中任一项所述的语音处理方法或者语音识别方法。
15.一种语音识别系统,其特征在于,所述系统包括第一设备和第二设备,所述第一设备配置有拾取语音组件和第一处理器,所述第二设备配置有通信接口和第二处理器,其中,
所述第一设备利用所述拾取语音组件拾取语音信号,并基于拾取到的语音信号,利用所述第一处理器执行如权利要求1至10中任一项所述的语音处理方法,进行语音增强处理,得到增强语音信号;
所述第二设备利用所述通信接口与所述第一设备交互,接收所述增强语音信号,并利用所述第二处理器执行如权利要求11所述的语音识别方法,对所述增强语音信号进行语音识别,得到语音识别结果。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910741367.1A CN110415686B (zh) | 2019-05-21 | 2019-05-21 | 语音处理方法、装置、介质、电子设备 |
CN201910741794.XA CN110415687B (zh) | 2019-05-21 | 2019-05-21 | 语音处理方法、装置、介质、电子设备 |
CN201910425255.5A CN110223680B (zh) | 2019-05-21 | 2019-05-21 | 语音处理方法、识别方法及其装置、系统、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910425255.5A CN110223680B (zh) | 2019-05-21 | 2019-05-21 | 语音处理方法、识别方法及其装置、系统、电子设备 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910741367.1A Division CN110415686B (zh) | 2019-05-21 | 2019-05-21 | 语音处理方法、装置、介质、电子设备 |
CN201910741794.XA Division CN110415687B (zh) | 2019-05-21 | 2019-05-21 | 语音处理方法、装置、介质、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110223680A true CN110223680A (zh) | 2019-09-10 |
CN110223680B CN110223680B (zh) | 2021-06-29 |
Family
ID=67821539
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910741367.1A Active CN110415686B (zh) | 2019-05-21 | 2019-05-21 | 语音处理方法、装置、介质、电子设备 |
CN201910741794.XA Active CN110415687B (zh) | 2019-05-21 | 2019-05-21 | 语音处理方法、装置、介质、电子设备 |
CN201910425255.5A Active CN110223680B (zh) | 2019-05-21 | 2019-05-21 | 语音处理方法、识别方法及其装置、系统、电子设备 |
Family Applications Before (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910741367.1A Active CN110415686B (zh) | 2019-05-21 | 2019-05-21 | 语音处理方法、装置、介质、电子设备 |
CN201910741794.XA Active CN110415687B (zh) | 2019-05-21 | 2019-05-21 | 语音处理方法、装置、介质、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (3) | CN110415686B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110808061A (zh) * | 2019-11-11 | 2020-02-18 | 广州国音智能科技有限公司 | 语音分离方法、装置、移动终端及计算机可读存储介质 |
CN112820300A (zh) * | 2021-02-25 | 2021-05-18 | 北京小米松果电子有限公司 | 音频处理方法及装置、终端、存储介质 |
CN113345461A (zh) * | 2021-04-26 | 2021-09-03 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
CN114299977A (zh) * | 2021-11-30 | 2022-04-08 | 北京百度网讯科技有限公司 | 混响语音的处理方法、装置、电子设备及存储介质 |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110930995B (zh) * | 2019-11-26 | 2022-02-11 | 中国南方电网有限责任公司 | 一种应用于电力行业的语音识别模型 |
CN111144347B (zh) * | 2019-12-30 | 2023-06-27 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、平台及存储介质 |
CN111261145B (zh) * | 2020-01-15 | 2022-08-23 | 腾讯科技(深圳)有限公司 | 语音处理装置、设备及其训练方法 |
CN112750425B (zh) * | 2020-01-22 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN113763976B (zh) * | 2020-06-05 | 2023-12-22 | 北京有竹居网络技术有限公司 | 音频信号的降噪方法、装置、可读介质和电子设备 |
WO2021248364A1 (zh) * | 2020-06-10 | 2021-12-16 | 深圳市大疆创新科技有限公司 | 无人飞行器录音方法、装置、芯片、无人飞行器、系统 |
CN111696532B (zh) * | 2020-06-17 | 2023-08-18 | 北京达佳互联信息技术有限公司 | 语音识别方法、装置、电子设备以及存储介质 |
CN111986653B (zh) * | 2020-08-06 | 2024-06-25 | 杭州海康威视数字技术股份有限公司 | 一种语音意图识别方法、装置及设备 |
CN111948622A (zh) * | 2020-08-07 | 2020-11-17 | 哈尔滨工程大学 | 基于并联cnn-lstm的线性调频雷达信号toa估计算法 |
CN111933172B (zh) * | 2020-08-10 | 2024-09-06 | 广州九四智能科技有限公司 | 人声分离提取方法、装置、计算机设备及存储介质 |
CN112201265A (zh) * | 2020-12-07 | 2021-01-08 | 成都启英泰伦科技有限公司 | 一种基于心理声学模型的lstm语音增强方法 |
CN113571063B (zh) * | 2021-02-02 | 2024-06-04 | 腾讯科技(深圳)有限公司 | 语音信号的识别方法、装置、电子设备及存储介质 |
CN113823312B (zh) * | 2021-02-19 | 2023-11-07 | 北京沃东天骏信息技术有限公司 | 语音增强模型生成方法和装置、语音增强方法和装置 |
CN113096682B (zh) * | 2021-03-20 | 2023-08-29 | 杭州知存智能科技有限公司 | 基于掩码时域解码器的实时语音降噪方法和装置 |
CN112992126B (zh) * | 2021-04-22 | 2022-02-25 | 北京远鉴信息技术有限公司 | 语音真伪的验证方法、装置、电子设备及可读存储介质 |
CN113178192B (zh) * | 2021-04-30 | 2024-05-24 | 平安科技(深圳)有限公司 | 语音识别模型的训练方法、装置、设备及存储介质 |
CN115512693B (zh) * | 2021-06-23 | 2024-08-09 | 中移(杭州)信息技术有限公司 | 音频识别方法、声学模型训练方法、装置和存储介质 |
CN117219107B (zh) * | 2023-11-08 | 2024-01-30 | 腾讯科技(深圳)有限公司 | 一种回声消除模型的训练方法、装置、设备及存储介质 |
CN118553267B (zh) * | 2024-07-30 | 2024-10-18 | 国网山东省电力公司邹城市供电公司 | 一种基于电力设备局部放电声音的故障识别方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9721559B2 (en) * | 2015-04-17 | 2017-08-01 | International Business Machines Corporation | Data augmentation method based on stochastic feature mapping for automatic speech recognition |
JP2018128647A (ja) * | 2017-02-10 | 2018-08-16 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
CN108701453A (zh) * | 2016-03-04 | 2018-10-23 | 微软技术许可有限责任公司 | 模块化深度学习模型 |
CN108694951A (zh) * | 2018-05-22 | 2018-10-23 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
CN109147810A (zh) * | 2018-09-30 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 建立语音增强网络的方法、装置、设备和计算机存储介质 |
CN109192199A (zh) * | 2018-06-30 | 2019-01-11 | 中国人民解放军战略支援部队信息工程大学 | 一种结合瓶颈特征声学模型的数据处理方法 |
CN109346087A (zh) * | 2018-09-17 | 2019-02-15 | 平安科技(深圳)有限公司 | 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置 |
US10210860B1 (en) * | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
WO2019081070A1 (en) * | 2017-10-27 | 2019-05-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9805305B2 (en) * | 2015-08-07 | 2017-10-31 | Yahoo Holdings, Inc. | Boosted deep convolutional neural networks (CNNs) |
US9693139B1 (en) * | 2016-03-30 | 2017-06-27 | Ford Global Tecghnologies, LLC | Systems and methods for electronic sound enhancement tuning |
CN107705801B (zh) * | 2016-08-05 | 2020-10-02 | 中国科学院自动化研究所 | 语音带宽扩展模型的训练方法及语音带宽扩展方法 |
CN108170686B (zh) * | 2017-12-29 | 2020-02-14 | 科大讯飞股份有限公司 | 文本翻译方法及装置 |
CN108417207B (zh) * | 2018-01-19 | 2020-06-30 | 苏州思必驰信息科技有限公司 | 一种深度混合生成网络自适应方法及系统 |
CN109671446B (zh) * | 2019-02-20 | 2020-07-14 | 西华大学 | 一种基于绝对听觉阈值的深度学习语音增强方法 |
-
2019
- 2019-05-21 CN CN201910741367.1A patent/CN110415686B/zh active Active
- 2019-05-21 CN CN201910741794.XA patent/CN110415687B/zh active Active
- 2019-05-21 CN CN201910425255.5A patent/CN110223680B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9721559B2 (en) * | 2015-04-17 | 2017-08-01 | International Business Machines Corporation | Data augmentation method based on stochastic feature mapping for automatic speech recognition |
CN108701453A (zh) * | 2016-03-04 | 2018-10-23 | 微软技术许可有限责任公司 | 模块化深度学习模型 |
JP2018128647A (ja) * | 2017-02-10 | 2018-08-16 | 日本電信電話株式会社 | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、音響モデル学習プログラム及び音声認識プログラム |
WO2019081070A1 (en) * | 2017-10-27 | 2019-05-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | APPARATUS, METHOD, OR COMPUTER PROGRAM PRODUCT FOR GENERATING ENHANCED BANDWIDTH AUDIO SIGNAL USING NEURAL NETWORK PROCESSOR |
CN108694951A (zh) * | 2018-05-22 | 2018-10-23 | 华南理工大学 | 一种基于多流分层融合变换特征和长短时记忆网络的说话人辨识方法 |
CN109192199A (zh) * | 2018-06-30 | 2019-01-11 | 中国人民解放军战略支援部队信息工程大学 | 一种结合瓶颈特征声学模型的数据处理方法 |
US10210860B1 (en) * | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
CN109346087A (zh) * | 2018-09-17 | 2019-02-15 | 平安科技(深圳)有限公司 | 对抗网络的瓶颈特征的噪声鲁棒的说话人确认方法和装置 |
CN109147810A (zh) * | 2018-09-30 | 2019-01-04 | 百度在线网络技术(北京)有限公司 | 建立语音增强网络的方法、装置、设备和计算机存储介质 |
Non-Patent Citations (3)
Title |
---|
ATSUNORI OGAWA 等: ""Robust Example Search Using Bottleneck Features for Example-based Speech Enhancement"", 《INTERSPEECH 2016》 * |
戴礼荣: ""深度语音信号与信息处理:研究进展与展望"", 《数据采集与处理》 * |
顾宇: ""基于神经网络的语音频带扩展方法研究"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110808061A (zh) * | 2019-11-11 | 2020-02-18 | 广州国音智能科技有限公司 | 语音分离方法、装置、移动终端及计算机可读存储介质 |
CN110808061B (zh) * | 2019-11-11 | 2022-03-15 | 广州国音智能科技有限公司 | 语音分离方法、装置、移动终端及计算机可读存储介质 |
CN112820300A (zh) * | 2021-02-25 | 2021-05-18 | 北京小米松果电子有限公司 | 音频处理方法及装置、终端、存储介质 |
CN112820300B (zh) * | 2021-02-25 | 2023-12-19 | 北京小米松果电子有限公司 | 音频处理方法及装置、终端、存储介质 |
CN113345461A (zh) * | 2021-04-26 | 2021-09-03 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于语音处理的装置 |
CN114299977A (zh) * | 2021-11-30 | 2022-04-08 | 北京百度网讯科技有限公司 | 混响语音的处理方法、装置、电子设备及存储介质 |
CN114299977B (zh) * | 2021-11-30 | 2022-11-25 | 北京百度网讯科技有限公司 | 混响语音的处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110415687A (zh) | 2019-11-05 |
CN110223680B (zh) | 2021-06-29 |
CN110415686B (zh) | 2021-08-17 |
CN110415686A (zh) | 2019-11-05 |
CN110415687B (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110223680B (zh) | 语音处理方法、识别方法及其装置、系统、电子设备 | |
CN110600017B (zh) | 语音处理模型的训练方法、语音识别方法、系统及装置 | |
Li et al. | Two heads are better than one: A two-stage complex spectral mapping approach for monaural speech enhancement | |
Li et al. | On the importance of power compression and phase estimation in monaural speech dereverberation | |
JP6903611B2 (ja) | 信号生成装置、信号生成システム、信号生成方法およびプログラム | |
CN105788603A (zh) | 一种基于经验模态分解的音频识别方法及系统 | |
CN108922543B (zh) | 模型库建立方法、语音识别方法、装置、设备及介质 | |
WO2022012195A1 (zh) | 音频信号处理方法和相关装置 | |
WO2023116660A2 (zh) | 一种模型训练以及音色转换方法、装置、设备及介质 | |
WO2024055752A9 (zh) | 语音合成模型的训练方法、语音合成方法和相关装置 | |
US20230335148A1 (en) | Speech Separation Method, Electronic Device, Chip, and Computer-Readable Storage Medium | |
WO2022121182A1 (zh) | 语音端点检测方法、装置、设备及计算机可读存储介质 | |
CN112289343B (zh) | 音频修复方法、装置及电子设备和计算机可读存储介质 | |
US20230186943A1 (en) | Voice activity detection method and apparatus, and storage medium | |
WO2023102930A1 (zh) | 语音增强方法、电子设备、程序产品及存储介质 | |
CN112002307A (zh) | 一种语音识别方法和装置 | |
CN114065720A (zh) | 会议纪要生成方法、装置、存储介质及电子设备 | |
CN116741193B (zh) | 语音增强网络的训练方法、装置、存储介质及计算机设备 | |
CN113571079A (zh) | 语音增强方法、装置、设备及存储介质 | |
JP6517124B2 (ja) | 雑音抑圧装置、雑音抑圧方法、およびプログラム | |
Kechichian et al. | Model-based speech enhancement using a bone-conducted signal | |
CN111784567B (zh) | 用于转换图像的方法、装置、电子设备和计算机可读介质 | |
CN113744724A (zh) | 一种语音转换方法、装置、设备及存储介质 | |
CN113707163A (zh) | 语音处理方法及其装置和模型训练方法及其装置 | |
CN113314101A (zh) | 一种语音处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |