CN110931028B

CN110931028B - 一种语音处理方法、装置和电子设备

Info

Publication number: CN110931028B
Application number: CN201811096593.0A
Authority: CN
Inventors: 文仕学
Original assignee: Beijing Sogou Technology Development Co Ltd
Current assignee: Beijing Sogou Technology Development Co Ltd
Priority date: 2018-09-19
Filing date: 2018-09-19
Publication date: 2024-04-26
Anticipated expiration: 2038-09-19
Also published as: CN110931028A

Abstract

本发明实施例提供了一种语音处理方法、装置和电子设备，其中，所述方法包括：获取语音增强模型对应输入的第一语音特征信息和输出的第二语音特征信息；对所述第一语音特征信息和第二语音特征信息进行加权，得到目标语音特征信息并输出；进而本发明实施例能够在保证语音增强效果的同时，减小语音增强模型对语音的破坏程度，从而有效降低语音失真。

Description

一种语音处理方法、装置和电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种语音处理方法、装置和电子设备。

背景技术

随着通信技术的快速发展，诸如手机、平板电脑等终端越来越普及，给人们的生活、学习、工作带来了极大的便利。这些终端可以通过麦克风收集语音信号，使用语音增强技术对收集到的语音信号进行处理，以降低噪声干扰的影响。其中，语音增强是指当语音信号被各种各样的噪声干扰、甚至淹没后，从噪声背景中提取有用的语音信号，抑制、降低噪声干扰的技术。

目前，终端通常是使用诸如深度神经网络(Deep Neural Network，DNN)、卷积神经网络(Convolutional Neural Network，CNN)、长短期记忆人工神经网络(Long Short-TermMemory，LSTM)等传统神经网络的语音增强方法去除噪声，实现语音增强；但是传统神经网络的语音增强方法在去除噪声的同时，也会一定程度的破坏有用的语音信号，造成了语音失真。

发明内容

本发明实施例提供一种语音处理方法，以降低语音失真。

相应的，本发明实施例还提供了一种语音处理装置和一种电子设备，用以保证上述方法的实现及应用。

为了解决上述问题，本发明实施例公开了一种语音处理方法，具体包括：获取语音增强模型对应输入的第一语音特征信息和输出的第二语音特征信息；对所述第一语音特征信息和第二语音特征信息进行加权，得到目标语音特征信息并输出。

可选地，所述第一语音特征信息和第二语音特征信息均为多维向量；所述对所述第一语音特征信息和第二语音特征信息进行加权，得到目标语音特征信息，包括：获取权重信息，所述权重信息包括第一权重和第二权重；将所述第一权重与第一语音特征信息相乘得到第一特征向量，以及将所述第二权重与第二语音特征信息相乘得到第二特征向量；将所述第一特征向量和第二特征向量相加，得到目标语音特征信息。

可选地，所述方法还包括确定权重信息的步骤：确定测试语音信号和多个权重对，所述权重对包括输入语音对应的第一权重和输出语音对应的第二权重，所述第一权重和第二权重的和为设定值；依据所述测试语音信号和语音增强模型，对多个权重对进行筛选，确定所述权重信息。

可选地，所述依据所述测试语音信号和语音增强模型，对多个权重对进行筛选，确定所述权重信息，包括：分别依据各权重对和语音增强模型对所述测试语音信号进行处理，得到所述测试语音信号的多个语音识别结果，一个语音识别结果对应一个权重对；确定各权重对对应语音识别结果的识别率，依据各权重对对应的识别率，从所述多个权重对中筛选出一个权重对作为所述权重信息。

可选地，所述方法还包括依据所述目标语音特征信息进行语音识别的步骤：对所述目标语音特征信息进行波形重构得到目标语音信号，对目标语音信号进行语音识别得到对应的语音识别结果。

本发明实施例还公开了一种语音处理装置，具体包括：信息获取模块，用于获取语音增强模型对应输入的第一语音特征信息和输出的第二语音特征信息；

信息加权模块，用于对所述第一语音特征信息和第二语音特征信息进行加权，得到目标语音特征信息并输出。

可选地，所述第一语音特征信息和第二语音特征信息均为多维向量；所述信息加权模块，具体用于获取权重信息，所述权重信息包括第一权重和第二权重；将所述第一权重与第一语音特征信息相乘得到第一特征向量，以及将所述第二权重与第二语音特征信息相乘得到第二特征向量；将所述第一特征向量和第二特征向量相加，得到目标语音特征信息。

可选地，还包括：信息确定模块，用于确定测试语音信号和多个权重对，所述权重对包括输入语音对应的第一权重和输出语音对应的第二权重，所述第一权重和第二权重的和为设定值；权重确定模块，用于依据所述测试语音信号和语音增强模型，对多个权重对进行筛选，确定所述权重信息。

可选地，所述权重确定模块，用于分别依据各权重对和语音增强模型对所述测试语音信号进行处理，得到所述测试语音信号的多个语音识别结果，一个语音识别结果对应一个权重对；确定各权重对对应语音识别结果的识别率，依据各权重对对应的识别率，从所述多个权重对中筛选出一个权重对作为所述权重信息。

可选地，还包括：语音识别模块，用于对所述目标语音特征信息进行波形重构得到目标语音信号，对目标语音信号进行语音识别得到对应的语音识别结果。

本发明实施例还公开了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如本发明实施例任一所述的语音处理方法。

本发明实施例还公开了一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取语音增强模型对应输入的第一语音特征信息和输出的第二语音特征信息；对所述第一语音特征信息和第二语音特征信息进行加权，得到目标语音特征信息并输出。

可选地，还包含用于进行确定权重信息的指令：确定测试语音信号和多个权重对，所述权重对包括输入语音对应的第一权重和输出语音对应的第二权重，所述第一权重和第二权重的和为设定值；依据所述测试语音信号和语音增强模型，对多个权重对进行筛选，确定所述权重信息。

可选地，还包含用于进行依据所述目标语音特征信息进行语音识别的指令：对所述目标语音特征信息进行波形重构得到目标语音信号，对目标语音信号进行语音识别得到对应的语音识别结果。

本发明实施例包括以下优点：

本发明实施例可以通过对语音增强模型对应输入的第一语音特征信息和输出的第二语音特征信息进行加权后再输出，能够在保证语音增强效果的同时，减小语音增强模型对语音的破坏程度，从而有效降低语音失真。

附图说明

图1是本发明的一种语音处理方法实施例的步骤流程图；

图2本发明实施例的一种语音处理过程的示意图；

图3本发明的一种权重信息的确定方法实施例的步骤流程图；

图4是本发明的一种语音处理方法可选实施例的步骤流程图；

图5本发明实施例的另一种语音处理过程的示意图；

图6是本发明的一种语音处理装置实施例的结构框图；

图7是本发明的一种语音处理装置可选实施例的结构框图；

图8根据一示例性实施例示出的一种用于语音处理的电子设备的结构框图；

图9是本发明根据另一示例性实施例示出的一种用于语音处理的电子设备的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明实施例的核心构思之一是，将语音增强模型输出端输出的数据和输入端输入的数据作加权处理再输出，在保证语音增强效果的同时，能够减小语音增强模型对有用语音信号的破坏，有效的降低语音失真。

参照图1，示出了本发明的一种语音处理方法实施例的步骤流程图，具体可以包括如下步骤：

步骤102、获取语音增强模型对应输入的第一语音特征信息和输出的第二语音特征信息。

步骤104、对所述第一语音特征信息和第二语音特征信息进行加权，得到目标语音特征信息并输出。

本发明实施例中，在获取到待识别语音信号后，可以采用预先训练的语音增强模型，对所述待识别语音信号进行语音增强，以提高所述待识别语音信号的语音识别效果。其中，所述待识别语音信号可以包括目标用户的语音信号(即有用的语音信号)和噪声信号等；其中，目标用户的语音信号可以是指目标用户说话的干净语音信号，如目标说话人语音对应的时域信号；噪声信号可以是指干扰噪声所对应的信号，如可以包括其他说话人所说的干扰语音对应的时域信号等等，本发明实施例对此不作限制。所述语音增强模型可以是指用于对语音数据进行语音增强的模型，如神经网络等。

其中，在采用语音增强模型对所述待识别语音信号进行语音增强的过程中，可以先采用所述语音增强模型对待识别语音信号中噪声信号进行抑制，以实现对待识别语音信号中目标用户的语音信号进行加强。其中，可以对所述待识别语音信号进行特征提取得到第一语音特征信息，然后将所述第一语音特征信息输入至所述语音增强模型中；所述语音增强模型接收到输入的第一语音特征信息后，可以对所述第一语音特征进行处理，然后输出第二语音特征信息。由于语音增强模型在抑制待识别语音信号中噪声信号的同时，也会一定程度的破坏待识别语音信号中目标用户的语音信号，进而若直接输出第二语音特征信息，则待识别语音信号经过语音增强后(所述待识别语音信号经过语音增强后的信号可以依据第二语音特征信息确定的)，其中的目标用户的语音信号会出现失真；因此为减少语音失真，可以对所述第一语音特征信息和第二语音特征信息进行加权计算，然后输出加权处理得到的目标语音特征信息；进而能够降低待识别语音信号经过语音增强后(所述待识别语音信号经过语音增强后的信号可以依据目标语音特征信息确定)，其中的目标用户的语音信号的失真。进而后续可以依据目标语音特征信息得到的语音信号，对待识别语音信号进行语音识别。

作为本发明的一个示例，可参照图2，在对待识别语音信号进行语音增强的过程中，可以对待识别语音信号进行特征提取得到第一语音特征信息，输入至语音增强模型中，语音增强模型可以依据所述第一语音特征信息输出第二语音特征信息。然后可以获取语音增强模型输入的第一语音特征信息和第二语音特征信息，对第一语音特征信息和第二语音特征信息进行加权得到目标语音特征信息并输出。

本发明实施例可以通过对语音增强模型对应输入的第一语音特征信息和输出的第二语音特征信息进行加权后再输出，能够在保证语音去噪等增强效果的同时，减小语音增强模型对语音的破坏程度，从而有效降低语音失真。

本发明的另一个实施例中，可以预先确定包括第一权重和第二权重的权重信息，所述第一权重可以是语音增强模型输入的第一语音特征信息的权重，所述第二权重可以是语音增强模型输出的第二语音特征信息的权重；进而后续可以依据预先确定的权重信息对第一语音特征信息和第二语音特征信息进行加权，确定目标语音特征信息；具体如下：

参照图3，示出了本发明的一种权重信息的确定方法实施例的步骤流程图，具体可以包括如下步骤：

步骤302、确定测试语音信号和多个权重对，所述权重对包括输入语音的权重和输出语音的权重，所述输入语音的权重和输出语音的权重的和为设定值。

步骤304、依据所述测试语音信号和语音增强模型，对多个权重对进行筛选，确定所述权重信息。

本发明实施例中，可以预先确定测试语音信号和多个权重对，再依据所述测试语音数据和语音增强模型，从所述多个权重对中选取出一个权重对作为权重信息。其中，所述权重对包括输入语音对应的第一权重和输出语音对应的第二权重，所述输入语音可以是指语音增强模型对应输入的语音特征信息，所述输出语音可以是指语音增强模型对应输出的语音特征信息。所述测试语音信号可以包括用户的语音信号和噪声信号等等，所述测试语音数据中用户的语音信号对应的文本信息是已知的，所述用户可以包括上述目标用户，所述测试语音信号中的噪声信号和上述待识别语音数据中的噪声信号可以是相同的，也可以是不同的。其中，依据所述测试语音信号和语音增强模型，对多个权重对进行筛选确定所述权重信息，可以包括如下子步骤:

步骤42、分别依据各权重对和语音增强模型对所述测试语音信号进行处理，得到所述测试语音信号的多个语音识别结果，一个语音识别结果对应一个权重对。

步骤44、确定各权重对对应语音识别结果的识别率，依据各权重对对应的识别率，从所述多个权重对中筛选出一个权重对作为所述权重信息。

本发明实施例中，可以对所述测试语音信号进行特征提取，确定对应的第三语音特征信息，然后将所述第三语音特征信息输入至所述语音增强模型中；所述语音增强模型接收到第三语音特征信息后，可以对所述第三语音特征信息进行处理，得到第四语音特征信息。然后可以分别采用各权重对对所述第三语音特征信息和第四语音特征信息进行加权，确定各权重对对应的测试语音特征信息；例如，权重对为三个，分别为A(包括a1和a2)、B(包括b1和b2)和C(包括c1和c2)；然后依据A对第三语音特征信息和第四语音特征信息进行加权，得到A对应的测试语音特征信息A1，其中，若a1为输入语音对应的第一权重，a2为输出语音对应的第二权重，则可以将第三语音特征信息与a1相乘，将第四语音特征信息与a2相乘，然后将两个乘积相加得到A对应的测试语音特征信息A1；当然若a1为输出语音对应的第二权重，a2为输入语音对应的第一权重则可将第三语音特征信息与a2相乘，将第四语音特征信息与a1相乘，然后将两个乘积相加得到A对应的测试语音特征信息A1。以此类推，可以得到B对应的测试语音特征信息B1，以及C对应的测试语音特征信息C1。然后可以分别依据各个权重对对应的测试语音特征信息，对测试语音信号进行语音识别，得到所述测试语音信号对应的多个语音识别结果，一个语音识别结果对应一个权重对，其中，所述语音识别结果可以包括文本信息。例如依据测试语音特征信息A1对测试语音信号进行语音识别，得到语音识别结果A2，语音识别结果A2与权重对A对应，类似的，依据测试语音特征信息B1对测试语音信号进行语音识别，得到语音识别结果B2，语音识别结果B2与权重对B对应，依据测试语音特征信息C1对测试语音信号进行语音识别，得到语音识别结果C2，语音识别结果C2与权重对C对应。本发明实施例中，可以通过将各权重对对应的语音识别结果与所述测试语音信号中用户的语音信号对应的文本信息进行比对，确定各权重对对应的语音识别结果的识别率，即一个权重对对应一个识别率；然后依据各权重对对应的识别率，从多个权重对中筛选出一个权重对作为所述权重信息。可选地，为提高待识别语音信号的识别率，可以将最高识别率对应的权重对作为所述权重信息；其中，可以将最高识别率对应的权重对中输入语音的权重作为第一权重，将最高识别率对应的权重对中输入语音的权重作为第二权重。例如，权重对A对应语音识别结果A2的识别率为80％，权重对B对应语音识别结果B2的识别率为88％，权重对C对应语音识别结果C2的识别率为96％，因此可以将所述权重对C作为权重信息。

本发明实施例中，可以按照用户需求确定权重对，例如按照用户需求确定权重对的数量，设置各权重对中每个权重的范围，以及设置各权重对中输入语音对应的第一权重的权重值、输出语音对应的第二权重的权重值等。作为本发明的一个示例，可以将权重对中第一权重和第二权重的和限制为设定值，所述设定值可以按照需求设置如1；然后可以依据该限制条件，确定权重对。作为本发明的另一个示例，一种确定各权重对中各权重的权重值的方式可以是按照设定步长确定，所述设定步长可以按照需求设置如0.05；其中，可以基于前一个权重对和设定步长，确定当前权重对，例如，可以基于第一个权重对和设定步长，确定第二个权重对的两个权重的权重值，可以基于第二个权重对和设定步长确定，第三个权重对的两个权重的权重值；以此类推。其中，在基于前一个权重对和设定步长确定当前权重对过程中，可以将前一个权重对中第一权重对应的权重值增加设定步长，以及将第二权重对应的权重值减去设定步长，得到当前权重对；当然也可以前一个权重对中第一权重对应的权重值减去设定步长，以及将第二权重对应的权重值增加设定步长得到当前权重对。例如，设定值为1，设定步长为0.05，两个权重的范围均为0.05～0.95；其中，每个权重对中两个权重分别用w_i1、w_i2表示，其中，i为权重对的数量；若第一个权重对(W1)的两个权重：w₁₂＝0.05，w₁₂＝0.95，则其他权重对如下：

第二个权重对(W2)：W₂₁＝0.10，w₂₂＝0.90；

第三个权重对(W3)：W₃₁＝0.15，w₃₂＝0.85；

……

第(i-1)个权重对(W(i-1))：W_(i-1)1＝0.90，w_(i-1)2＝0.10；

第i个权重对(Wi)：w_i1＝0.95，w_i2＝0.05。

本发明实施例在确定权重信息过程中，确定测试语音信号和多个权重对，然后依据所述测试语音信号和语音增强模型，对多个权重对进行筛选确定所述权重信息；其中，在依据所述测试语音信号和语音增强模型，对多个权重对进行筛选确定所述权重信息过程中，可以分别依据各权重对和语音增强模型对所述测试语音信号进行处理，得到所述测试语音信号的多个语音识别结果，一个语音识别结果对应一个权重对；确定各权重对对应语音识别结果的识别率，依据各权重对对应的识别率，从所述多个权重对中筛选出一个权重对作为所述权重信息。由于后续是依据权重信息对第一语音特征信息和第二语音特征信息进行加权的，因此依据各权重对对应语音识别结果的识别了，选取出权重信息，能够进一步降低经过语音增强后待识别语音信号中目标用户的语音信号的失真。

本发明的另一个实施例中，输出目标语音特征信息后，还可以依据所述目标语音特征信息进行语音识别，进而实现对待识别语音信息的识别；且由于将语音增强模型输入的第一语音特征信息和输出的第二语音特征信息进行加权得到目标语音特征信息后再输出，能够降低语音失真，进而依据目标语音特征信息进行语音识别，能够提高语音识别的识别率。

参照图4，示出了本发明的一种语音处理方法可选实施例的步骤流程图，具体可以包括如下步骤：

步骤402、获取语音增强模型对应输入的第一语音特征信息和输出的第二语音特征信息。

本发明实施例中，可以预先对所述语音增强模型进行训练，进而后续可以采用训练后的语音增强模型对所述待识别语音数据进行语音增强；其中，在训练阶段，可以对干净的语音信号进行噪声加噪，生成带噪语音信号，然后可以对带噪语音信号进行特征提取，然后将提取的特征输入至语音增强模型中，对语音增强模型进行训练。其中，噪声信号可以包括仿真噪声信号和预先收集的噪声信号等。该仿真噪声信号可以用于表征预先通过语音合成技术合成的噪声；预先收集的噪声信号可以用于表征预先收集到的真实噪声，如可以是预先录制的噪声信号等。

本发明实施例中，在确定待识别语音信号后，可以对所述待识别语音信号进行频域变换得到频域上的信号，对所述频域上的信号进行语音特征提取得到第一语音特征信息；其中，所述第一语音特征信息可以是多维向量，如用向量X＝[1,1,1,1,1]表示第一语音特征信息。然后将所述第一语音特征信息输入至所述语音增强模型中，语音增强模型对所述第一语音特征信息进行处理输出第二语音特征信息；对应的，所述第二语音特征信息也可以是多维向量，第二语音特征信息的维度与第一语音特征信息的维度对应，如用向量Y＝[1,0,1,0,0]表示第二语音特征信息。然后可以对所述第一语音特征信息和第二语音特征信息进行加权，得到目标语音特征信息，可参照步骤404-步骤408。

步骤404、获取权重信息，所述权重信息包括第一权重和第二权重。

步骤406、将所述第一权重与第一语音特征信息相乘得到第一特征向量，以及将所述第二权重与第二语音特征信息相乘得到第二特征向量。

步骤408、将所述第一特征向量和第二特征向量相加，得到目标语音特征信息并输出。

本发明实施例中，所述权重信息包括第一权重和第二权重，其中，所述第一权重与语音增强模型输入端输入的语音特征信息对应，所述第二权重与语音增强模型输出端输出的语音特征信息对应；因此在依据所述权重信息对第一语音特征信息和第二语音特征信息进行加权的过程中，可以将第一权重作为第一语音特征信息的权重，以及将第二权重作为第二语音特征信息的权重，来实现对第一语音特征信息和第二语音特征信息进行加权。其中，可以将所述第一权重与第一语音特征信息相乘得到第一特征向量，以及将所述第二权重与第二语音特征信息相乘得到第二特征向量；将所述第一特征向量和第二特征向量相加，得到目标语音特征信息，对应的，所述目标语音特征信息也是多维向量，目标语音特征信息的维度与第一语音特征信息的维度对应。

作为本发明的一个示例，第一语音特征信息X＝[1,1,1,1,1]，第二语音特征信息Y＝[1,0,1,0,0]，所述权重信息中第一权重W1＝0.5，第二权重W2＝0.5；因此可以计算第一特征向量M1＝0.5*[1,1,1,1,1]＝[0.5,0.5,0.5,0.5,0.5]，计算第二特征向量M2＝0.5*[1,0,1,0,0]＝[0.5,0,0.5,0,0]，将第一特征向量和第二特征向量相加得到目标语音特征信息M＝[1,0.5,1,0.5,0.5]。

然后可以输出所述目标语音特征信息。在输入目标语音特征信息后，可以依据所述目标语音特征信息对所述待识别语音数据进行语音识别，确定所述待识别语音信号的语音识别结果，可参照步骤410-步骤412：

步骤410、对所述目标语音特征信息进行波形重构，得到目标语音信号。

步骤412、对目标语音信号进行语音识别，得到对应的语音识别结果。

本发明实施例中，在输出目标语音特征信息后，可以对所述目标语音特征信息进行时域变换得到时域上的信号，然后可以依据时域上的信号进行波形重构，可得到对应的目标语音信号。进而可以通过对目标语音信号进行语音识别，得到所述待识别语音信号对应的语音识别结果。

作为本发明的一个示例，可参照图5，在对待识别语音信号进行语音增强的过程中，可以对待识别语音信号进行特征提取，得到第一语音特征信息，然后将第一语音特征信息输入至语音增强模型中，语音增强模型可以依据所述第一语音特征信息输出第二语音特征信息。然后可以对第一语音特征信息和第二语音特征信息进行加权得到目标语音特征信息并输出。再对目标语音特征信息进行波形重构，得到目标语音信号，然后对目标语音信号进行语音识别，可以得到语音识别结果。

本发明实施例可以通过对语音增强模型对应输入的第一语音特征信息和输出的第二语音特征信息进行加权后再输出，能够减小语音增强模型对语音的破坏程度，从而有效降低语音失真。

进一步，本发明实施例在输出目标语音特征信息后，还可以通过对所述目标语音特征信息进行波形重构得到目标语音信号，对目标语音信号进行语音识别得到对应的语音识别结果，实现语音识别；且由于将语音增强模型输入的第一语音特征信息和第二语音特征信息进行加权得到目标语音特征信息后再输出，能够降低语音失真，因此本发明实施例依据目标语音特征信息进行语音识别还能够提高语音识别的识别率。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图6，示出了本发明的一种语音处理装置实施例的结构框图，具体可以包括如下模块：信息获取模块602和信息加权模块604，其中：

信息获取模块602，用于获取语音增强模型对应输入的第一语音特征信息和输出的第二语音特征信息；

信息加权模块604，用于对所述第一语音特征信息和第二语音特征信息进行加权，得到目标语音特征信息并输出。

参照图7，示出了本发明的一种语音处理装置可选实施例的结构框图。所述的装置还包括：

信息确定模块606，用于确定测试语音信号和多个权重对，所述权重对包括输入语音对应的第一权重和输出语音对应的第二权重，所述第一权重和第二权重的和为设定值；

权重确定模块608，用于依据所述测试语音信号和语音增强模型，对多个权重对进行筛选，确定所述权重信息。

语音识别模块610，用于对所述目标语音特征信息进行波形重构得到目标语音信号，对目标语音信号进行语音识别得到对应的语音识别结果。

本发明一个可选实施例中，所述权重确定模块608，用于分别依据各权重对和语音增强模型对所述测试语音信号进行处理，得到所述测试语音信号的多个语音识别结果，一个语音识别结果对应一个权重对；确定各权重对对应语音识别结果的识别率，依据各权重对对应的识别率，从所述多个权重对中筛选出一个权重对作为所述权重信息。

本发明一个可选的实施例中，所述第一语音特征信息和第二语音特征信息均为多维向量；所述信息加权模块604，具体用于获取权重信息，所述权重信息包括第一权重和第二权重；将所述第一权重与第一语音特征信息相乘得到第一特征向量，以及将所述第二权重与第二语音特征信息相乘得到第二特征向量；将所述第一特征向量和第二特征向量相加，得到目标语音特征信息。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

图8是根据一示例性实施例示出的一种用于语音处理的电子设备800的结构框图。例如，电子设备800可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图8，电子设备800可以包括以下一个或多个组件：处理组件802，存储器804，电力组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制电子设备800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理部件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在电子设备800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件806为电子设备800的各种组件提供电力。电力组件806可以包括电源管理系统，一个或多个电源，及其他与为电子设备800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述电子设备800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当电子设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当电子设备800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为电子设备800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为电子设备800的显示器和小键盘，传感器组件814还可以检测电子设备800或电子设备800一个组件的位置改变，用户与电子设备800接触的存在或不存在，电子设备800方位或加速/减速和电子设备800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于电子设备800和其他设备之间有线或无线方式的通信。电子设备800可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件814经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件814还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由电子设备800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行一种语音处理方法，所述方法包括：获取语音增强模型对应输入的第一语音特征信息和输出的第二语音特征信息；对所述第一语音特征信息和第二语音特征信息进行加权，得到目标语音特征信息并输出。

图9是本发明根据另一示例性实施例示出的一种用于语音处理的电子设备900的结构示意图。该电子设备900可以是服务器，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)922(例如，一个或一个以上处理器)和存储器932，一个或一个以上存储应用程序942或数据944的存储介质930(例如一个或一个以上海量存储设备)。其中，存储器932和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器922可以设置为与存储介质90通信，在服务器上执行存储介质930中的一系列指令操作。

服务器还可以包括一个或一个以上电源926，一个或一个以上有线或无线网络接口950，一个或一个以上输入输出接口958，一个或一个以上键盘956，和/或，一个或一个以上操作系统941，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

一种电子设备，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：获取语音增强模型对应输入的第一语音特征信息和输出的第二语音特征信息；对所述第一语音特征信息和第二语音特征信息进行加权，得到目标语音特征信息并输出。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种语音处理方法、一种语音处理装置和一种电子设备，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音处理方法，其特征在于，包括：

获取语音增强模型对应输入的第一语音特征信息和输出的第二语音特征信息；

确定测试语音信号和多个权重对，所述权重对包括输入语音对应的第一权重和输出语音对应的第二权重，所述第一权重和第二权重的和为设定值；

分别依据各权重对和语音增强模型对所述测试语音信号进行处理，得到所述测试语音信号的多个语音识别结果，一个语音识别结果对应一个权重对；

确定各权重对对应语音识别结果的识别率，依据各权重对对应的识别率，从所述多个权重对中筛选出一个权重对作为所述权重信息；

依据所述权重信息对所述第一语音特征信息和第二语音特征信息进行加权，得到目标语音特征信息并输出。

2.根据权利要求1所述的方法，其特征在于，所述第一语音特征信息和第二语音特征信息均为多维向量；

所述依据所述权重信息对所述第一语音特征信息和第二语音特征信息进行加权，得到目标语音特征信息，包括：

获取权重信息，所述权重信息包括第一权重和第二权重；

将所述第一权重与第一语音特征信息相乘得到第一特征向量，以及将所述第二权重与第二语音特征信息相乘得到第二特征向量；

将所述第一特征向量和第二特征向量相加，得到目标语音特征信息。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括依据所述目标语音特征信息进行语音识别的步骤：

对所述目标语音特征信息进行波形重构得到目标语音信号，对目标语音信号进行语音识别得到对应的语音识别结果。

4.一种语音处理装置，其特征在于，包括：

信息获取模块，用于获取语音增强模型对应输入的第一语音特征信息和输出的第二语音特征信息；

信息确定模块，用于确定测试语音信号和多个权重对，所述权重对包括输入语音对应的第一权重和输出语音对应的第二权重，所述第一权重和第二权重的和为设定值；

权重确定模块，用于分别依据各权重对和语音增强模型对所述测试语音信号进行处理，得到所述测试语音信号的多个语音识别结果，一个语音识别结果对应一个权重对；确定各权重对对应语音识别结果的识别率，依据各权重对对应的识别率，从所述多个权重对中筛选出一个权重对作为所述权重信息；

信息加权模块，用于依据所述权重信息对所述第一语音特征信息和第二语音特征信息进行加权，得到目标语音特征信息并输出。

5.根据权利要求4所述的装置，其特征在于，所述第一语音特征信息和第二语音特征信息均为多维向量；

所述信息加权模块，具体用于获取权重信息，所述权重信息包括第一权重和第二权重；将所述第一权重与第一语音特征信息相乘得到第一特征向量，以及将所述第二权重与第二语音特征信息相乘得到第二特征向量；将所述第一特征向量和第二特征向量相加，得到目标语音特征信息。

6.根据权利要求4所述的装置，其特征在于，还包括：

语音识别模块，用于对所述目标语音特征信息进行波形重构得到目标语音信号，对目标语音信号进行语音识别得到对应的语音识别结果。

7.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如方法权利要求1-3任一所述的语音处理方法。

8.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

9.根据权利要求8所述的电子设备，其特征在于，所述第一语音特征信息和第二语音特征信息均为多维向量；

所述对所述第一语音特征信息和第二语音特征信息进行加权，得到目标语音特征信息，包括：

获取权重信息，所述权重信息包括第一权重和第二权重；

10.根据权利要求8所述的电子设备，其特征在于，还包含用于进行依据所述目标语音特征信息进行语音识别的指令：