CN110415686B

CN110415686B - 语音处理方法、装置、介质、电子设备

Info

Publication number: CN110415686B
Application number: CN201910741367.1A
Authority: CN
Inventors: 吴渤; 于蒙; 陈联武; 金明杰; 苏丹; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-21
Filing date: 2019-05-21
Publication date: 2021-08-17
Anticipated expiration: 2039-05-21
Also published as: CN110415687B; CN110415686A; CN110223680B; CN110415687A; CN110223680A

Abstract

本申请公开了一种语音处理方法、装置、介质、电子设备，涉及人工智能的语音技术，所述语音处理方法包括：获取语音信号的频谱；对所述语音信号的频谱进行输入特征提取，将提取到的输入特征输入声学模型的卷积层，所述声学模型用于将语音信号识别为音素；基于所述声学模型的卷积层，由所述声学模型的输入特征提取得到卷积特征，并输出至所述声学模型的LSTM层；基于所述声学模型的LSTM层的输出，得到所述目标音素的瓶颈特征。本申请实施例的技术方案可以有效提取出音素的瓶颈特征，进而可以提高语音增强效果和语音识别率。

Description

语音处理方法、装置、介质、电子设备

本申请是2019年05月21日提交的、申请号为201910425255.5、发明名称为“语音处理方法、识别方法及其装置、系统、电子设备”的分案申请。

技术领域

本申请涉及语音处理领域，尤其涉及一种语音处理方法、装置、介质、电子设备。

背景技术

语音技术(Speech Technology)的关键技术包括自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text To Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。在语音处理领域中的许多应用场景下，语音增强和语音识别都扮演着至关重要的角色。例如，在智能音箱等智能家居场景中，由智能音箱拾取的语音会先进行语音增强处理以提升语音质量，进而有利于后续更好地进行语音识别。

然而，发明人发现，现有的语音增强过程中，由于语音中清音部分的能量较弱，并且在语谱结构上非常类似于噪声，导致对清音部分的语音增强效果不理想，进而造成语音识别的识别率不高，尤其是针对语音中清音部分的识别率不高。而在语音增强过程中，需要考虑音素的瓶颈特征，因此如何能够有效提取出音素的瓶颈特征，以提高语音增强效果，从而提高语音识别率成为亟待解决的技术问题。

发明内容

本申请各实施例提供一种语音处理方法、装置、介质、电子设备，进而至少在一定程度上可以有效提取出音素的瓶颈特征，进而可以提高语音增强效果和语音识别率。

其中，本申请所采用的技术方案为：

根据本申请的一方面，一种语音处理方法，包括：获取语音信号的频谱；对所述语音信号的频谱进行输入特征提取，将提取到的输入特征输入声学模型的卷积层，所述声学模型用于将语音信号识别为音素；基于所述声学模型的卷积层，由所述声学模型的输入特征提取得到卷积特征，并输出至所述声学模型的LSTM层；基于所述声学模型的LSTM层的输出，得到所述目标音素的瓶颈特征。

根据本申请的一方面，一种语音处理装置，包括：获取模块，用于获取语音信号的频谱；第一特征提取模块，用于对所述语音信号的频谱进行输入特征提取，将提取到的输入特征输入声学模型的卷积层，所述声学模型用于将语音信号识别为音素；第二特征提取模块，用于基于所述声学模型的卷积层，由所述声学模型的输入特征提取得到卷积特征，并输出至所述声学模型的LSTM层；第三特征提取模块，用于基于所述声学模型的LSTM层的输出，得到所述目标音素的瓶颈特征。

根据本申请的一方面，一种电子设备，包括处理器及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的语音处理方法。

根据本申请的一方面，一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的语音处理方法。

在本申请的一些实施例所提供的技术方案中，通过获取语音信号的频谱，对语音信号的频谱进行输入特征提取，将提取到的输入特征输入声学模型的卷积层，基于声学模型的卷积层，由声学模型的输入特征提取得到卷积特征，并输出至声学模型的LSTM层，基于声学模型的LSTM层的输出得到目标音素的瓶颈特征，使得能够通过声学模型来有效提取出音素的瓶颈特征，进而可以将音素的瓶颈特征作为对语音信号对应的幅度谱特征的补充，以此提升语音增强效果，进而达到提升语音识别的识别率的目的。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并于说明书一起用于解释本申请的原理。

图1是根据本申请所涉及的实施环境的示意图。

图2是根据一示例性实施例示出的一种电子设备的硬件结构框图。

图3是根据一示例性实施例示出的一种语音处理方法的流程图。

图4是图3对应实施例中步骤350在一个实施例的流程图。

图5是图3对应实施例中步骤350在另一个实施例的流程图。

图6是图5对应实施例中步骤352在一个实施例的流程图。

图7是图3对应实施例中步骤370在一个实施例的流程图。

图8是根据一示例性实施例示出的另一种语音处理方法的流程图。

图9是图8对应实施例中步骤410在一个实施例的流程图。

图10是图7对应实施例中步骤373在一个实施例的流程图。

图11是根据本申请所涉及的语音增强模型和声学模型相互融合的系统架构示意图。

图12是图10对应实施例中步骤3735在一个实施例的流程图。

图13是根据一示例性实施例示出的一种语音识别方法的流程图。

图14是图13对应实施例中语音增强和语音识别相辅相成的系统架构示意图。

图15是根据一示例性实施例示出的一种语音处理装置的框图。

图16是根据一示例性实施例示出的一种语音识别装置的框图。

图17是根据一示例性实施例示出的一种电子设备的框图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的语音技术等，具体通过如下实施例进行说明：

图1为一种语音处理方法所涉及的实施环境的示意图。

以智能音箱等智能家居场景为例进行说明，如图1(a)所示，该实施环境包括用户110与智能家居，例如，该智能家居为智能音箱130。

当用户110需要智能音箱130播放某个歌曲A，便可通过语音输入的方式，例如，用户110说：“智能音箱130，播放歌曲A”，进而向智能音箱130发出关于播放歌曲A的播放指令的语音信号。

对于智能音箱130而言，便可接收到该语音信号，从而在对该语音信号进行语音识别之后，方可获知用户110发出的播放指令的具体内容。

为了提高语音识别的识别率，在进行语音识别之前，智能音箱130还会对该语音信号进行语音增强处理以提高语音质量，以此来提高后续语音识别的识别率。

具体地，基于语音信号对应的幅度谱特征和音素的瓶颈特征，对语音信号进行语音增强处理，使得智能音箱130能够有效地区分语音中的清音部分和噪声，进而提升增强后语音的质量，从而有效地提升语音识别的识别率。

当然，在其他应用场景中，语音增强处理和语音识别也可以分开执行，例如，电子设备150用于对语音信号进行语音增强处理，并将增强后语音传输至电子设备170，再由电子设备170对增强后语音进行语音识别，得到语音识别结果并反馈至电子设备150，如图1(b)所示。

其中，电子设备150配置有拾取语音组件，例如，该拾取语音组件为麦克风，该电子设备150可以是智能音箱、智能手机、平板电脑、笔记本电脑、掌上电脑、个人数字助理、便携穿戴设备等等。

电子设备170配置有通信接口，例如，该通信接口为有线或者无线网络接口，该电子设备170可以是台式电脑、服务器等等，以便于电子设备150与电子设备170之间建立通信连接，进而通过建立的通信连接实现电子设备150与电子设备170之间的数据传输，例如，传输的数据包括但不限于增强后语音、语音识别结果等等。

需要说明的是，该种电子设备只是一个适配于本申请的示例，不能认为是提供了对本申请的使用范围的任何限制。该种电子设备也不能解释为需要依赖于或者必须具有图2中示出的示例性的电子设备200中的一个或者多个组件。

电子设备200的硬件结构可因配置或者性能的不同而产生较大的差异，如图2所示，电子设备200包括：电源210、接口230、至少一存储器250、以及至少一中央处理器(CPU，Central Processing Units)270。

具体地，电源210用于为电子设备200上的各硬件设备提供工作电压。

接口230包括至少一输入输出接口235，用于接收外部信号。例如，进行图1所示出实施环境中智能音箱130拾取语音信号。

当然，在其余本申请适配的示例中，接口230还可以进一步包括至少一有线或无线网络接口231、至少一串并转换接口233、以及至少一USB接口237等，如图2所示，在此并非对此构成具体限定。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。

其中，操作系统251用于管理与控制电子设备200上的各硬件设备以及应用程序253，以实现中央处理器270对存储器250中海量数据255的运算与处理，其可以是WindowsServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTM等。

应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图2中未示出)，每个模块都可以分别包含有对电子设备200的一系列计算机可读指令。例如，语音处理装置可视为部署于电子设备的应用程序253。

数据255可以是存储于磁盘中的照片、图片等，还可以是语音信号等，存储于存储器250中。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过至少一通信总线与存储器250通信，以读取存储器250中存储的计算机可读指令，进而实现对存储器250中海量数据255的运算与处理。例如，通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成语音处理方法。

此外，通过硬件电路或者硬件电路结合软件也能同样实现本申请，因此，实现本申请并不限于任何特定硬件电路、软件以及两者的组合。

请参阅图3，在一示例性实施例中，一种语音处理方法适用于电子设备，例如，该电子设备为图1所示实施环境的智能音箱130，该电子设备的结构可以如图2所示。

该种语音处理方法可以由电子设备执行，也可以理解为由部署于电子设备中的语音处理装置执行。在下述方法实施例中，为了便于描述，以各步骤的执行主体为电子设备加以说明，但是并不对此构成限定。

该种语音处理方法可以包括以下步骤：

步骤310，获取语音信号。

首先说明的是，本实施例中，语音信号是由电子设备配置的拾取语音组件实时采集的，例如，该拾取语音组件为麦克风。

如前所述，在智能音箱等智能家居场景中，语音信号是用户通过语音输入的方式向智能音箱等智能家居发出的，那么，智能音箱等智能家居便可借助拾取语音组件实时采集到。

或者，在即时通信场景中，即时通信客户端提供语音转文字的功能，此时，语音信号便是用户通过语音输入的方式向智能手机等终端设备发出的，相应地，智能手机等终端设备便可借助拾取语音组件实时采集到。

应当说明的是，该语音信号，既有可能是不包含噪声的原始语音信号，还可能是包含噪声的带噪语音信号，本实施例对此并未进行限定。

其次，可以理解，在拾取语音组件实时采集语音信号之后，电子设备考虑处理性能，可以对采集到的语音信号进行存储。例如，将该语音信号存储至存储器中。

由此，关于语音信号的获取，既可以是实时获取采集到的语音信号，以便于实时地对该语音信号进行相关处理，也可以获取一历史时间段内采集到的语音信号，以便于在处理任务较少的时候对该语音信号进行相关处理，或者，在操作人员的指示下进行该语音信号的相关处理，本实施例并未对此加以限定。

换句话说，获取到的语音信号，可以来源于实时采集的语音信号，也可以来自于预先存储的语音信号。

在电子设备获取到语音信号之后，便可针对该语音信号进行相关处理，例如，相关处理包括语音增强处理、语音识别等。

步骤330，将所述语音信号由时域转换至频域，得到所述语音信号的频谱。

应当理解，在语音增强处理中，为了方便于对语音中的浊音部分、清音部分和噪音进行表征，例如，通过幅度谱特征在语谱结构上唯一地表征语音信号，首先，需要针对语音信号进行时频变换，即将语音信号由时域转换至频域，得到语音信号的频谱，进而基于语音信号的频谱进行后续的语音增强处理，例如，由语音信号的频谱提取得到幅度谱特征。

具体而言，对所述语音信号进行短时傅里叶变换(Short Time FourierTransformation，STFT)处理，得到所述语音信号的频谱。

也即是，x(k，f)＝STFT(x(t))。

其中，x(t)表示语音信号，STFT表示短时傅里叶变换算法。

x(k，f)表示语音信号的频谱，k、f分别表示频谱中帧和频率的索引。

当然，在其他实施例中，时频变换，还可以通过快速傅里叶变换(Fast FourierTransformation，FFT)处理实现，本实施例并非对此构成具体的限定。

步骤350，由所述语音信号的频谱提取得到幅度谱特征，以及基于将所述语音信号识别为目标音素的声学模型，将所述声学模型中其中一个网络层的输出，作为所述目标音素的瓶颈特征。

首先，幅度谱特征(Log-power Spectra，LPS)，用于在语谱结构上唯一地表征语音信号，使得基于该幅度谱特征的语音增强处理，能够在语谱结构上有效地区分出语音中的浊音部分，进而有效地提升关于语音中浊音部分的语音质量。

具体地，幅度谱特征，由语音信号的频谱提取得到。

然而，发明人同时意识到，一方面，语音中清音部分的能量较弱，并且和噪音在语谱结构上非常类似，基于幅度谱特征尚无法有效地区分语音中的清音部分和噪音，清音往往会被当成噪音处理，使得语音中关于清音部分的语音增强效果并不理想，即对语音中清音部分的语音增强不明显；另一方面，由于语音信号往往还涉及到相位、音素、说话人、声学环境等其他方面的因素，仅以幅度谱特征作为单一维度的特征尚不足以准确地表征语音信号，将会限制语音增强效果，进而影响语音识别的识别率。

为此，本实施例中，将目标音素的瓶颈(bottleneck)特征作为幅度谱特征的补充，引入语音增强处理。其中，目标音素，是基于声学模型，对语音信号进行语音识别得到的。

具体地，目标音素的瓶颈特征，在声学模型将语音信号识别为目标音素的过程中，由声学模型中的其中一个网络层输出。

可选地，输出目标音素的瓶颈特征的声学模型中的其中一个网络层，为LSTM(Long-Short Term Memory，长短期记忆)层。

当然，在其他实施例中，引入语音增强处理的特征，还可以是区别于幅度谱特征的其他维度的特征，比如，相位特征、声学环境特征、说话人特征中的任意一种或者几种，本实施例并非对此构成具体限定。

步骤370，根据所述幅度谱特征和所述目标音素的瓶颈特征，对所述语音信号进行语音增强处理，得到增强语音信号。

也就是说，引入语音增强处理中的特征，不仅有幅度谱特征，还包括音素的瓶颈特征。由于瓶颈特征与音素有关，一方面，能够有效地区分语音中的清音部分和噪音，进而提升关于清音部分的语音增强效果，以此充分地保障了清音部分在语音信号的质量和可懂度上的贡献，另一方面，由于音素涉及到说话人的说话内容，而说话内容正是语音识别的最终目标，故而有利于后续提升语音识别的识别率。

通过如上所述的过程，基于幅度谱特征和音素的瓶颈特征，以不同维度的特征来表征语音信号，提升了语音增强处理的客观指标，进而有利于提升语音信号的语音增强效果，有利于提升后续语音识别的识别率。

在此说明的是，语音增强处理的客观指标，包括但不限于：信噪比、噪声类型、以及混响环境中的PESQ(Perceptual evaluation of speech quality，主观语音质量评估)、SNR(信噪比)、STOI(Short-Time Objective Intelligibility，短时客观可懂度)等等。

请参阅图4，在一示例性实施例中，步骤350中，步骤由所述语音信号的频谱提取得到幅度谱特征，可以包括以下步骤：

步骤351，对所述语音信号的频谱进行求平方运算。

步骤353，对运算结果进行取log运算，得到所述幅度谱特征。

具体而言，LPS＝log|x(k，f)|²。

其中，LPS表示幅度谱特征，x(k，f)表示语音信号的频谱，k、f分别表示频谱中帧和频率的索引。

在上述实施例的作用下，实现了幅度谱特征的提取，进而使得基于幅度谱特征的语音增强处理得以实现。

请参阅图5，在一示例性实施例中，步骤350中，步骤基于将所述语音信号识别为目标音素的声学模型，将所述声学模型中其中一个网络层的输出，作为所述目标音素的瓶颈特征，可以包括以下步骤：

步骤352，对所述语音信号的频谱进行输入特征提取，将提取到的输入特征输入所述声学模型的卷积层。

步骤354，基于所述声学模型的卷积层，由所述声学模型的输入特征提取得到卷积特征，并输出至所述声学模型的LSTM层。

如图12所示，声学模型的模型拓扑结构包括：输入层、卷积层(CNN网络)、LSTM层、全连接层、激活函数(Softmax)层、输出层。

其中，输入层，从语音信号的频谱中提取得到声学模型的输入特征，并将该输入特征传输至卷积层。

卷积层，从声学模型的输入特征中提取得到卷积特征，并将该卷积特征传输至LSTM层。

LSTM层，包含若干个网络节点，基于该LSTM层中的不同网络节点，对卷积特征进行局部特征提取，并将各网络节点提取到的局部特征传输至全连接层。

全连接层，基于各网络节点提取到的局部特征的前向传播，对该些局部特征进行融合，得到全局特征，并将该全局特征传输至激活函数层。

激活函数层，基于音素后验概率，对全局特征进行音素分类预测，得到语音信号对应的音素分类，即目标音素。

输出层，将目标音素作为语音识别结果输出。

由此，基于声学模型，便可将语音信号识别为目标音素。

步骤356，基于所述声学模型的LSTM层的输出，得到所述目标音素的瓶颈特征。

上述过程中，假设LSTM层的输出表示为p(k，m)，m表示声学模型中LSTM层包含的网络节点个数，在此，由于幅度谱特征LPS＝log|x(k，f)|²，f表示频谱中频率的索引，发明人意识到，log|x(k，f)|²的特征维度与p(k，m)的特征维度具有可比性，可视为语音信号在不同维度上的表征，因此，LSTM层的输出是对幅度谱特征很好的补充。

基于此，本实施例中，在声学模型将语音信号识别为目标音素的过程中，将声学模型中LSTM层的输出，作为目标音素的瓶颈特征，以引入语音增强处理。

进一步地，请参阅图6，在一示例性实施例中，步骤352可以包括以下步骤：

步骤3521，根据所述语音信号的频谱，分别计算所述语音信号的Fbank特征、一阶差分、以及二阶差分。

具体地，计算公式如下所示：

F(k)＝Fbank[x(k，f)]，

Y(k)＝x(k+1，f)-x(k，f)，

Z(k)＝Y(k+1)-Y(k)＝x(k+2，f)-2×x(k+1，f)+x(k，f)。

其中，F(k)表示语音信号的Fbank特征，Fbank表示Fbank特征提取算法。

Y(k)表示语音信号的一阶差分，Z(k)表示语音信号的二阶差分。

步骤3523，对所述语音信号的Fbank特征、一阶差分、以及二阶差分进行拼接运算，得到所述声学模型的输入特征。

基于前述，[F(k)，Y(k)，Z(k)]，即表示声学模型的输入特征。

步骤3525，将所述声学模型的输入特征输入至所述声学模型的卷积层。

在上述实施例的配合下，实现了音素的瓶颈特征的提取，进而使得基于音素的瓶颈特征的语音增强处理得以实现。

请参阅图7，在一示例性实施例中，步骤370可以包括以下步骤：

步骤371，将所述幅度谱特征和所述目标音素的瓶颈特征拼接，获得语音增强模型的输入特征。

在得到幅度谱特征和目标音素的瓶颈特征之后，便可进行二者的拼接，以作为语音增强模型的输入特征。

具体地，[log|x(k，f)|²，p(k，m)]，即表示语音增强模型的输入特征。

其中，log|x(k，f)|²表示幅度谱特征，x(k，f)表示语音信号的频谱，k、f分别表示频谱中帧和频率的索引。

p(k，m)表示目标音素的瓶颈特征，m表示声学模型中LSTM层包含的网络节点个数。

步骤373，基于神经网络构建的语音增强模型，进行关于该输入特征的语音增强处理，得到所述增强语音信号。

语音增强模型，实质是基于神经网络，在语音信号与增强语音信号之间建立了数学映射关系。那么，在获得语音信号之后，便可基于语音增强模型提供的该数学映射关系，由语音信号得到增强语音信号。

关于语音增强模型的生成，具体地，根据训练样本对所述神经网络进行训练，得到所述语音增强模型。其中，所述训练样本包括不包含噪声的原始语音信号、由原始语音信号携带噪声信号所生成的带噪语音信号。

关于训练样本中原始语音信号的获取，既可以来源于电子设备配置的拾取语音组件实时采集的，也可以来源于操作人员利用录音组件(例如录音机)录制的，在此并未加以限定。如图8所示，在一实施例的实现中，上述训练过程可以包括以下步骤：

步骤410，根据所述训练样本中的原始语音信号和带噪语音信号，获得所述神经网络的输入特征和输出目标。

其中，神经网络的输入特征，是指带噪语音信号对应的幅度谱特征。

神经网络的输出目标，则与原始语音信号的频谱、带噪语音信号的频谱有关。

步骤430，结合所述神经网络的参数，根据所述神经网络的输入特征和输出目标，构建收敛函数。

其中，收敛函数包括但不限于：最大期望函数、损失函数等等。

基于此，训练，则实质是通过训练样本对神经网络的参数加以迭代优化，进而使得收敛函数满足收敛条件，以此实现输入特征与输出目标之间的数学映射关系达到最优。

步骤450，当所述神经网络的参数使得所述收敛函数收敛时，由所述神经网络收敛得到所述语音增强模型。

以收敛函数为损失函数为例进行说明。

随机初始化神经网络的参数，结合神经网络的第一个输入特征和第一个输出目标，计算损失函数的损失值。

如果损失函数的损失值指示损失函数收敛，即损失函数的损失值达到最小，则由神经网络收敛得到语音增强模型。

反之，如果损失函数的损失值指示损失函数未收敛，即损失函数的损失值未达到最小，则更新神经网络的参数，并结合神经网络的后一个输入特征和后一个输出目标，继续计算重新构建的损失函数的损失值，直至损失函数的损失值达到最小。

值得一提的是，如果在损失函数的损失值达到最小之前，迭代次数已经达到迭代阈值，也将停止对神经网络的参数继续更新，以此保证训练的效率。

那么，当损失函数收敛并符合精度要求时，表示训练已完成，由此即得到语音增强模型，进而使得该语音增强模型具有了对语音信号进行语音增强的能力。

请参阅图9，在一示例性实施例中，步骤410可以包括以下步骤：

步骤411，分别将所述原始语音信号和所述带噪语音信号由时域转换至频域。

具体地，s(k，f)＝STFT(s(t))，x′(k，f)＝STFT(x′(t))。

其中，s(t)表示原始语音信号，x′(t)表示带噪语音信号，STFT表示短时傅里叶变换算法。

s(k，f)表示原始语音信号的频谱，x′(k，f)表示带噪语音信号的频谱，k、f分别表示频谱中帧和频率的索引。

步骤413，由所述带噪语音信号的频谱提取得到幅度谱特征，作为所述神经网络的输入特征。

具体而言，对所述带噪语音信号的频谱进行求平方运算。

对运算结果进行取log运算，得到幅度谱特征，作为神经网络的输入特征。

也即是，LPS’＝log|x′(k，f)|²。

其中，LPS’表示神经网络的输入特征，即幅度谱特征，x′(k，f)表示带噪语音信号的频谱，k、f分别表示频谱中帧和频率的索引。

步骤415，在所述原始语音信号的频谱与所述带噪语音信号的频谱之间进行求商运算，将运算结果作为所述神经网络的输出目标。

具体地，s(k，f)/x′(k，f)＝re(k，f)+j×im(k，f)。

其中，s(k，f)表示原始语音信号的频谱，x′(k，f)表示带噪语音信号的频谱。

re(k，f)表示输出目标的实部掩码，im(k，f)表示输出目标的虚部掩码，也即是，re(k，f)+j×im(k，f)表示神经网络的输出目标。

在上述实施例的作用下，实现了神经网络的输入特征LPS’和输出目标re(k，f)+j×im(k，f)的获取，进而使得对神经网络的训练得以实现，当训练完成，即由神经网络收敛得到语音增强模型。

也可以理解为，语音增强模型本质上构建了输入特征LPS与输出目标

之间的最优数学映射关系。应当说明的是，该输入特征LPS与该输出目标

视为语音增强模型的输入特征和输出目标，区别于神经网络的输入特征LPS’和输出目标re(k，f)+j×im(k，f)。

此时，在基于神经网络构建得到语音增强模型之后，便可进一步基于该语音增强模型，对语音信号x(t)进行语音增强处理，得到增强语音信号

即执行步骤373，进行关于语音增强模型的输入特征的语音增强处理，得到增强语音信号。

下面对增强语音信号

的生成过程进行详细地描述。

请参阅图10，在一示例性实施例中，步骤373可以包括以下步骤：

步骤3731，将所述语音增强模型的输入特征输入所述语音增强模型的LSTM层，进行局部特征的提取。

步骤3733，将提取到的局部特征输入所述语音增强模型的全连接层，进行局部特征的融合，得到所述语音增强模型的输出目标。

具体而言，如图11所示，语音增强模型的模型拓扑结构包括：输入层、LSTM层、全连接层、输出层。

其中，输入层，将由语音信号的频谱中提取得到的幅度谱特征、以及由声学模型中LSTM层输出的目标音素的瓶颈特征进行拼接，得到语音增强模型的输入特征，并将该输入特征传输至LSTM层。

LSTM层，包含若干个网络节点，基于该LSTM层中的不同网络节点，对语音增强模型的输入特征进行局部特征提取，并将各网络节点提取到的局部特征传输至全连接层。

全连接层，基于各网络节点提取到的局部特征的前向传播，对该些局部特征进行融合，得到全局特征，即语音增强模型的输出目标。

输出层，将语音增强模型的输出目标输出为增强语音信号，即执行步骤3735。

步骤3735，由所述语音增强模型的输出目标得到所述增强语音信号。

具体地，如图12所示，在一实施例的实现中，步骤3735可以包括以下步骤：

步骤3735a，将所述语音增强模型的输出目标与所述语音信号的频谱进行乘法运算，得到所述增强语音信号的频谱。

步骤3735c，对所述增强语音信号的频谱进行逆短时傅里叶变换处理，得到所述增强语音信号。

如图11所示，假设语音增强模型的输出目标表示为：

其中，

表示该输出目标的实部掩码，

表示该输出目标的虚部掩码。

此时，

其中，

表示增强语音信号的频谱，x(k，f)表示语音信号的频谱。

最后，对增强语音信号的频谱

进行逆短时傅里叶变换处理，即得到增强语音信号

其中，

表示增强语音信号，iSTFT表示逆短时傅里叶变换算法。

上述实现过程中，实现了基于神经网络的语音增强模型的语音增强，有效地提升了语音质量，进而有利于后续语音识别。

此外，基于音素感知，将音素的瓶颈特征引入语音增强处理，使得电子设备能够更加有效地区分语音中的清音部分和噪声，从而提升关于清音部分的语音增强效果，进一步有利于提升后续语音识别的识别率。

请参阅图13，在一示例性实施例中，一种语音识别方法适用于电子设备，例如，该电子设备为图1所示实施环境的智能音箱130，该电子设备的结构可以如图2所示。

该种语音识别方法可以由电子设备执行，可以包括以下步骤：

步骤710，获取语音信号。

步骤730，在声学模型将所述语音信号识别为第一目标音素的过程中，将所述声学模型中其中一个网络层的输出，作为所述第一目标音素的瓶颈特征。

步骤750，根据所述语音信号和所述第一目标音素的瓶颈特征，对所述语音信号进行语音增强处理，得到增强语音信号。

步骤770，将所述增强语音信号输入至所述声学模型进行语音识别，得到第二目标音素。

如图14所示，一方面，语音增强处理过程中，引入第一目标音素的瓶颈特征，以实现基于音素感知的语音增强，也即是，利用了语音识别来帮助语音增强。

另一方面，语音识别过程中，基于增强语音信号再次进行语音识别，由此得到第二目标音素，作为语音识别结果。相较于第一目标音素，第二目标音素具有更加精准地识别率，也即是，利用了语音增强来帮助语音识别。

通过上述过程，语音增强和语音识别相辅相成，形成了一个有益的迭代过程，不仅提升了语音增强效果和语音增强的鲁棒性，而且在语音识别性能上，进一步有效地提升了语音识别的识别率。

下述为本申请装置实施例，可以用于执行本申请所涉及的语音处理方法。对于本申请装置实施例中未披露的细节，请参照本申请所涉及的语音处理方法的方法实施例。

请参阅图15，在一示例性实施例中，一种语音处理装置900包括但不限于：语音获取模块910、频谱获取模块930、输入特征获取模块950及语音增强模块970。

其中，语音获取模块910，用于获取语音信号。

频谱获取模块930，用于将所述语音信号由时域转换至频域，得到所述语音信号的频谱。

输入特征获取模块950，用于由所述语音信号的频谱提取得到幅度谱特征，以及基于将所述语音信号识别为目标音素的声学模型，将所述声学模型中其中一个网络层的输出，作为所述目标音素的瓶颈特征。

语音增强模块970，用于根据所述幅度谱特征和所述目标音素的瓶颈特征，对所述语音信号进行语音增强处理，得到增强语音信号。

在一示例性实施例中，所述语音处理装置900还用于实现以下功能，包括但不限于：

其中，对所述语音信号的频谱进行输入特征提取，将提取到的输入特征输入所述声学模型的卷积层。

基于所述声学模型的卷积层，由所述声学模型的输入特征提取得到卷积特征，并输出至所述声学模型的LSTM层。

基于所述声学模型的LSTM层的输出，得到所述目标音素的瓶颈特征。

其中，根据所述语音信号的频谱，分别计算所述语音信号的Fbank特征、一阶差分、以及二阶差分。

对所述语音信号的Fbank特征、一阶差分、以及二阶差分进行拼接，得到所述声学模型的输入特征。

将所述声学模型的输入特征输入至所述声学模型的卷积层。

其中，对所述语音信号进行短时傅里叶变换处理，得到所述语音信号的频谱。

其中，对所述语音信号的频谱进行求平方运算。

对运算结果进行取log运算，得到所述幅度谱特征。

其中，将所述幅度谱特征和所述目标音素的瓶颈特征拼接，获得语音增强模型的输入特征。

基于神经网络构建的语音增强模型，进行关于该输入特征的语音增强处理，得到所述增强语音信号。

其中，根据训练样本对所述神经网络进行训练，得到所述语音增强模型，所述训练样本包括原始语音信号、由原始语音信号携带噪声信号所生成的带噪语音信号。

其中，根据所述训练样本中的原始语音信号和带噪语音信号，获得所述神经网络的输入特征和输出目标。

结合所述神经网络的参数，根据所述神经网络的输入特征和输出目标，构建收敛函数。

当所述神经网络的参数使得所述收敛函数收敛时，由所述神经网络收敛得到所述语音增强模型。

其中，分别将所述原始语音信号和所述带噪语音信号由时域转换至频域。

由所述带噪语音信号的频谱提取得到幅度谱特征，作为所述神经网络的输入特征。

在所述原始语音信号的频谱与所述带噪语音信号的频谱之间进行求商运算，将运算结果作为所述神经网络的输出目标。

其中，将所述语音增强模型的输入特征输入所述语音增强模型的LSTM层，进行局部特征的提取。

将提取到的局部特征输入所述语音增强模型的全连接层，进行局部特征的融合，得到所述语音增强模型的输出目标。

由所述语音增强模型的输出目标得到所述增强语音信号。

其中，将所述语音增强模型的输出目标与所述语音信号的频谱进行乘法运算，得到所述增强语音信号的频谱。

对所述增强语音信号的频谱进行逆短时傅里叶变换处理，得到所述增强语音信号。

需要说明的是，上述实施例所提供的语音处理装置在进行语音处理时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即语音处理装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的语音处理装置与语音处理方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

请参阅图16，在一示例性实施例中，一种语音识别装置1100包括但不限于：语音获取模块1110、瓶颈特征获取模块1130、语音增强模块1150及语音识别模块1170。

其中，语音获取模块1110，用于获取语音信号。

瓶颈特征获取模块1130，用于在声学模型将所述语音信号识别为第一目标音素的过程中，将所述声学模型中其中一个网络层的输出，作为所述第一目标音素的瓶颈特征。

语音增强模块1150，用于根据所述语音信号和所述第一目标音素的瓶颈特征，对所述语音信号进行语音增强处理，得到增强语音信号。

语音识别模块1170，用于将所述增强语音信号输入至所述声学模型进行语音识别，得到第二目标音素。

在一示例性实施例中，所述语音识别装置1100还用于实现以下功能，包括但不限于：

其中，对所述语音信号的频谱进行第一输入特征提取，将提取到的第一输入特征输入所述声学模型的卷积层。

基于所述声学模型的卷积层，由所述声学模型的第一输入特征提取得到第一卷积特征，并输出至所述声学模型的LSTM层。

基于所述声学模型的LSTM层的输出，得到所述第一目标音素的瓶颈特征。

对所述语音信号的Fbank特征、一阶差分、以及二阶差分进行拼接，得到所述声学模型的第一输入特征。

将所述声学模型的输入特征输入至所述声学模型的卷积层。

其中，对所述语音信号的频谱进行求平方运算。

对运算结果进行取log运算，得到所述幅度谱特征；

根据所述幅度谱特征和所述第一目标音素的瓶颈特征，进行所述语音信号的语音增强处理，得到所述增强语音信号。

其中，将所述幅度谱特征和所述第一目标音素的瓶颈特征拼接，获得语音增强模型的输入特征。

其中，根据第一训练样本对所述神经网络进行训练，得到所述语音增强模型，所述第一训练样本包括原始语音信号、由原始语音信号携带噪声信号所生成的带噪语音信号。

其中，根据所述第一训练样本中的原始语音信号和带噪语音信号，获得所述神经网络的输入特征和输出目标。

结合所述神经网络的参数，根据所述神经网络的输入特征和输出目标，构建第一收敛函数。

当所述神经网络的参数使得所述第一收敛函数收敛时，由所述神经网络收敛得到所述语音增强模型。

由所述语音增强模型的输出目标得到所述增强语音信号。

其中，对所述增强语音信号进行时频变换，得到所述增强语音信号的频谱；

对所述增强语音信号的频谱进行第二输入特征提取，将提取到的第二输入特征输入所述声学模型的卷积层。

基于所述声学模型的卷积层，由所述声学模型的第二输入特征提取得到第二卷积特征，并输出至所述声学模型的LSTM层。

基于所述声学模型中LSTM层包含的若干个网络节点，对所述第二卷积特征进行局部特征提取，并将各网络节点提取到的局部特征传输至全连接层。

基于所述声学模型的全连接层，对各网络节点提取到的局部特征进行前向传播和局部特征融合，得到全局特征，并将所述全局特征传输至激活函数层。

基于所述声学模型的激活函数层，对所述全局特征进行音素分类预测，得到所述增强语音信号对应的音素分类，作为所述第二目标音素。

基于所述声学模型的输出层，将所述第二目标音素作为语音识别结果输出。

其中，根据第二训练样本对机器学习模型进行训练，得到所述声学模型，所述第二训练样本是进行了音素标注的语音信号。

其中，对所述第二训练样本进行时频变换，得到所述第二训练样本的频谱；

由所述第二训练样本的频谱提取得到所述声学模型的训练特征。

结合所述机器学习模型的参数，根据所述第二训练样本的训练特征和标注的音素，构建第二收敛函数。

当所述机器学习模型的参数使得所述第二收敛函数收敛时，由所述机器学习模型收敛得到所述声学模型。

需要说明的是，上述实施例所提供的语音识别装置在进行语音识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即语音识别装置的内部结构将划分为不同的功能模块，以完成以上描述的全部或者部分功能。

另外，上述实施例所提供的语音识别装置与语音识别方法的实施例属于同一构思，其中各个模块执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

请参阅图17，在一示例性实施例中，一种电子设备1000，包括至少一处理器1001、至少一存储器1002、以及至少一通信总线1003。

其中，存储器1002上存储有计算机可读指令，处理器1001通过通信总线1003读取存储器1002中存储的计算机可读指令。

该计算机可读指令被处理器1001执行时实现上述各实施例中的语音处理方法或者语音识别方法。

在一示例性实施例中，一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例中的语音处理方法或者语音识别方法。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种语音处理方法，其特征在于，包括：

获取语音信号的频谱；

根据所述语音信号的频谱，分别计算所述语音信号的Fbank特征、一阶差分、以及二阶差分；

对所述语音信号的Fbank特征、一阶差分、以及二阶差分进行拼接，得到声学模型的输入特征；

将所述声学模型的输入特征输入至所述声学模型的卷积层，所述声学模型用于将语音信号识别为目标音素；

基于所述声学模型的卷积层，由所述声学模型的输入特征提取得到卷积特征，并输出至所述声学模型的LSTM层；

基于所述声学模型的LSTM层的输出，得到所述目标音素的瓶颈特征；

所述语音处理方法还包括：

由所述语音信号的频谱提取得到幅度谱特征；

将所述幅度谱特征和所述目标音素的瓶颈特征拼接，获得语音增强模型的输入特征；

基于神经网络构建的语音增强模型，进行关于该输入特征的语音增强处理，得到增强语音信号。

2.根据权利要求1所述的方法，其特征在于，所述获取语音信号的频谱，包括：

获取语音信号；

将所述语音信号由时域转换至频域，得到所述语音信号的频谱。

3.根据权利要求1所述的方法，其特征在于，所述获取语音信号的频谱，包括：

对所述语音信号进行短时傅里叶变换处理，得到所述语音信号的频谱。

4.根据权利要求1所述的方法，其特征在于，所述由所述语音信号的频谱提取得到幅度谱特征，包括：

对所述语音信号的频谱进行求平方运算；

对运算结果进行取log运算，得到所述幅度谱特征。

5.根据权利要求4所述的方法，其特征在于，通过以下公式对所述运算结果进行取log运算，得到所述幅度谱特征：

LPS＝log|x(k,f)|²

其中，LPS表示所述幅度谱特征，x(k,f)表示所述语音信号的频谱，k表示所述频谱中帧的索引，f表示所述频谱中频率的索引。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：根据训练样本对所述神经网络进行训练，得到所述语音增强模型，所述训练样本包括原始语音信号、由原始语音信号携带噪声信号所生成的带噪语音信号；

所述根据训练样本对所述神经网络进行训练，得到所述语音增强模型，包括：

根据所述训练样本中的原始语音信号和带噪语音信号，获得所述神经网络的输入特征和输出目标；

结合所述神经网络的参数，根据所述神经网络的输入特征和输出目标，构建收敛函数；

7.如权利要求6所述的方法，其特征在于，所述根据所述训练样本中的原始语音信号和带噪语音信号，获得所述神经网络的输入特征和输出目标，包括：

分别将所述原始语音信号和所述带噪语音信号由时域转换至频域；

由所述带噪语音信号的频谱提取得到幅度谱特征，作为所述神经网络的输入特征；

8.如权利要求1所述的方法，其特征在于，所述基于神经网络构建的语音增强模型，进行关于该输入特征的语音增强处理，得到所述增强语音信号，包括：

将所述语音增强模型的输入特征输入所述语音增强模型的LSTM层，进行局部特征的提取；

将提取到的局部特征输入所述语音增强模型的全连接层，进行局部特征的融合，得到所述语音增强模型的输出目标；

由所述语音增强模型的输出目标得到所述增强语音信号。

9.如权利要求8所述的方法，其特征在于，所述由所述语音增强模型的输出目标得到所述增强语音信号，包括：

将所述语音增强模型的输出目标与所述语音信号的频谱进行乘法运算，得到所述增强语音信号的频谱；

10.一种语音处理装置，其特征在于，包括：

获取模块，用于获取语音信号的频谱；

第一特征提取模块，用于根据所述语音信号的频谱，分别计算所述语音信号的Fbank特征、一阶差分、以及二阶差分，对所述语音信号的Fbank特征、一阶差分、以及二阶差分进行拼接，得到声学模型的输入特征，将所述声学模型的输入特征输入至所述声学模型的卷积层，所述声学模型用于将语音信号识别为目标音素；

第二特征提取模块，用于基于所述声学模型的卷积层，由所述声学模型的输入特征提取得到卷积特征，并输出至所述声学模型的LSTM层；

第三特征提取模块，用于基于所述声学模型的LSTM层的输出，得到所述目标音素的瓶颈特征；

所述语音处理装置还包括：语音增强模块，用于由所述语音信号的频谱提取得到幅度谱特征，将所述幅度谱特征和所述目标音素的瓶颈特征拼接，获得语音增强模型的输入特征，并基于神经网络构建的语音增强模型，进行关于该输入特征的语音增强处理，得到增强语音信号。

11.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的方法。

12.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1至9中任一项所述的方法。