CN105989849B

CN105989849B - 一种语音增强方法、语音识别方法、聚类方法及装置

Info

Publication number: CN105989849B
Application number: CN201510303746.4A
Authority: CN
Inventors: 王育军
Original assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd
Current assignee: Leshi Zhixin Electronic Technology Tianjin Co Ltd
Priority date: 2015-06-03
Filing date: 2015-06-03
Publication date: 2019-12-03
Anticipated expiration: 2035-06-03
Also published as: US20160358599A1; CN105989849A

Abstract

本发明公开一种语音增强方法、语音识别方法、聚类方法及装置。方法包括：选取与测试语音的第一帧语音部分的特征向量最匹配的特征向量聚类中心；针对测试语音包含的其他各帧语音部分的特征向量执行：从与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心，以及与前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中，选取与该语音部分的特征向量最匹配的特征向量聚类中心；根据测试语音包含的各帧语音部分的特征向量、选取的特征向量聚类中心重建测试语音的特征向量。本发明由于在进行语音增强利用了能够表示语音连续性的特征，因此相比于现有技术中的传统的语音增强模型而言，能够达到更好的语音增强效果。

Description

一种语音增强方法、语音识别方法、聚类方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音增强方法、语音识别方法、聚类方法及装置。

背景技术

语音识别，也称自动语音识别(Automatic Speech Recognition，ASR)、语音辨识或言语辨别，其目标是语音信号中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列等。

在实际应用中，作为语音识别对象的语音信号(一般称为测试语音)中，往往会掺杂各种噪声，从而直接导致对于这样的语音信号的识别率较低。针对该情况，在对语音信号进行识别前，往往会先执行语音增强的操作。

语音增强，是指当语音信号被各种各样的噪声干扰甚至淹没后，从噪声背景中提取有用的语音信号，达到抑制、降低噪声干扰的一种技术。

现有技术中，一种常见的语音增强方案为：利用样本语音(也称训练语料)建立传统的语音增强模型；利用传统的语音增强模型，对测试语音进行语音增强处理。该方案的缺陷在于，在测试语音和训练语料最匹配度较低的情况下，难以达到较好的语音增强效果，进而使得语音识别的识别率较低。

发明内容

本发明实施例提供一种语音增强方法、语音识别方法、聚类方法及装置，用以解决采用传统的语音增强模型难以达到较好的语音增强效果的问题。

本发明实施例提供一种语音增强方法，包括：

从训练得到的特征向量聚类中心中，选取与所述测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心；

针对所述测试语音包含的其他各帧语音部分的特征向量执行：从训练得到的、与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心，以及与所述前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中，选取与该语音部分的特征向量最匹配的特征向量聚类中心；其中，训练得到的每个特征向量聚类中心与至少一个与其相邻的特征向量聚类中心构成的集合具有描述语音连续性的能力；

根据所述测试语音包含的各帧语音部分的特征向量，以及选取的特征向量聚类中心，重建所述测试语音的特征向量。

本发明实施例还提供一种语音识别方法，包括对采用上述语音增强方法重建的语音信号进行语音识别。

本发明实施例还提供一种聚类方法，包括：

从训练语料包含的各帧语音部分中分别提取特征向量样本；

确定特征向量样本在多维空间中的分布信息；

根据所述分布信息，确定初始聚类中心；

根据所述特征向量样本与各初始聚类中心的相似度，对所述各初始聚类中心进行迭代聚类，得到待定聚类中心；

根据训练语料中相邻语音部分的特征向量，对待定聚类中心进行迭代聚类，得到特征向量聚类中心。

本发明实施例还提供一种语音增强装置，包括：选取单元，用于从训练得到的特征向量聚类中心中，选取与测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心；以及，针对所述测试语音包含的其他各帧语音部分的特征向量执行：从训练得到的、与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心，以及与所述前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中，选取与该语音部分的特征向量最匹配的特征向量聚类中心；其中，训练得到的每个特征向量聚类中心与至少一个与其相邻的特征向量聚类中心构成的集合具有描述语音连续性的能力；重建单元，用于根据所述测试语音包含的各帧语音部分的特征向量，和选取单元选取的特征向量聚类中心，重建所述测试语音的特征向量。

本发明实施例还提供一种语音识别装置，包括：语音识别单元，用于对采用上述语音增强装置重建的语音信号进行语音识别。

本发明实施例还提供一种聚类装置，包括：特征提取单元，用于从训练语料包含的各帧语音部分中分别提取特征向量样本；分布确定单元，用于确定特征向量样本在多维空间中的分布信息；初始聚类中心确定单元，用于根据所述分布信息，确定初始聚类中心；第一聚类单元，用于根据所述特征向量样本与各初始聚类中心的相似度，对所述各初始聚类中心进行迭代聚类，得到待定聚类中心；第二聚类单元，用于根据训练语料中相邻语音部分的特征向量，对第一聚类单元得到的待定聚类中心进行迭代聚类，得到特征向量聚类中心。

本发明实施例提供的一种语音增强方法、语音识别方法、聚类方法及装置，由于在为测试语音包含的除第一帧外的其他各帧语音部分的特征向量确定相邻的特征向量聚类中心时，是从与该语音部分的前一帧语音部分的特征向量相邻的特征向量聚类中心，以及与前一帧语音部分的特征向量相邻的特征向量聚类中心相邻的特征向量聚类中心中选取的，而训练得到的每个特征向量聚类中心与至少一个与其相邻的特征向量聚类中心构成的集合具有描述语音连续性的能力，因此相当于在进行语音增强利用了能够表示语音连续性的特征，相比于现有技术中的传统的语音增强模型而言，达到了更好的语音增强效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本发明实施例1提供的一种语音增强方法的流程示意图；

图1b为多维空间中的特征向量样本的分布示意图；

图1c为本发明实施例1中生成的一种自组织图示意图；

图1d为本发明实施例1中生成的一种包含初始聚类中心的自组织图示意图；

图1e为初始聚类中心与相邻初始聚类中心的关系示意图；

图2a为本发明实施例2采用的一种语音识别系统的结构示意图；

图2b为本发明实施例2中的训练子系统功能的实现方式示意图；

图3为本发明实施例3提供的一种语音增强装置的结构示意图；

图4为本发明实施例4提供的一种聚类装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下结合附图，详细说明本发明各实施例提供的技术方案。

实施例1

为了达到较好的语音增强效果，本发明实施例1提供一种语音增强方法。该方法的实现流程示意图如图1a所示，包括如下步骤：

步骤11，获得特征向量集合。

其中，这里所说的特征向量集合是由从测试语音中提取出的特征向量构成的。

本发明实施例中，特征向量可以是从测试语音中提取出的与语音识别有关的向量，尤其可以是任何可以表示声道形状的特征向量。比如频谱特征向量，就是一种可以表示声道形状的特征向量。

具体地，频谱特征向量可以是梅尔频率倒谱系数(Mel Frequency CepstrumCoefficients，MFCC)构成的特征向量等频谱特征向量。

本发明实施例中，对特征向量的维数不进行限定，其可以是12维，也可以是40维，等等。

步骤12，从训练得到的特征向量聚类中心中，选取与测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心。

本发明实施例中，特征向量与特征向量聚类中心相最匹配，是指特征向量与特征向量聚类中心的相似度的值小于相似度阈值。一般地，特征向量与特征向量聚类中心的相似度，可以由特征向量与特征向量聚类中心之间的欧几里得距离的大小来衡量。该距离越小，则相似度的值越大；反之，则相似度的值越小。

相似度阈值的大小，往往决定了与测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心的数目。一般地，该阈值越小，该数目越小；反之，该数目越大。本发明实施例对该阈值的具体大小不作限定。

本发明实施例中，为了选取与测试语音最匹配的特征向量，作为对测试语音进行语音增强的依据，可以预先收集训练语料，并对训练语料进行训练。训练过程一般包括：从训练语料中提取特征向量；按照设定的聚类方式对提取的特征向量进行聚类，生成特征向量聚类中心。

本发明实施例中，为了保证对测试语音进行语音增强操作时使用的特征向量聚类中心中，彼此相邻的特征向量聚类中心存在连续性，可以采用如下子步骤生成特征向量聚类中心：

子步骤一：从训练语料包含的各帧语音部分中分别提取特征向量样本；

子步骤二：确定特征向量样本在多维空间中的分布信息；

具体地，可以根据特征向量样本，以及特征向量样本的维数，生成包含各特征向量样本的多维空间。在该多维空间中，每个特征向量样本的存在形式可以是该空间中的一个点，如图1b所示。根据该多维空间中各点的分布情况，可以确定出特征向量样本在多维空间中的分布信息。比如，以图1b为例，该分布信息具体是指特征向量样本的自相关矩阵的最大特征值A和第二大特征值B。

子步骤三：根据该分布信息，确定初始聚类中心；

以图1b所示的分布信息A和B为例，可以以作为二维空间中的水平线段的长度，以作为二维空间中的垂直线段的长度，生成如图1c所示的自组织图。

进一步地，可以按照预先设定的初始聚类中心数目，以及“使初始聚类中心在自组织图中的矩形框中达到均匀分布”的原则，生成如图1d所示的包含初始聚类中心的自组织图。本发明实施例不对初始聚类中心数目的数量进行限定，比如该数量可以是1万，也可以是2万，等等。

本领域技术人员可以理解，本发明实施例中，在生成包含初始聚类中心的自组织图时，也可以遵循不同于上述原则的其他原则。比如，其他原则可以为“使80％的初始聚类中心在自组织图中的框(不一定是矩形形状的框)中达到均匀分布”；或“使50％的初始聚类中心在自组织图中的框中的某特定区域达到均匀分布”，等等。此外，本发明实施例中的特定空间除了可以是二维空间，还可以是三维空间、四维空间，等等。

需要说明的是，虽然初始聚类中心可以表示为二维的自组织图上的点，但每个初始聚类中心的维数仍然与特征向量样本的维数相同，即每个初始聚类中心仍然可以由以该维数为空间维数的多维空间中的向量表示。为便于描述，本发明实施例中假设初始聚类中心和特征向量样本的维数均为M。

本发明实施例中，自组织图上的各聚类中心，无论是初始聚类中心，还是后文介绍的其他聚类中心，均可视为单层神经网络中“神经元”。

子步骤四：根据特征向量样本与各初始聚类中心的相似度，对各初始聚类中心进行迭代聚类，得到待定聚类中心；

以下以利用训练语料中提取出的特征向量样本，对各初始聚类中心进行一次迭代聚类为例，介绍子步骤四的具体实现方式：

首先，从初始聚类中心中，分别确定与训练语料的各帧语音部分的特征向量样本最匹配的初始聚类中心，以及确定该最匹配的初始聚类中心的相邻初始聚类中心。请参照图1e，与某语音部分的特征向量样本最匹配的初始聚类中心若为初始聚类中心1，则初始聚类中心1的相邻初始聚类中心是初始聚类中心2～初始聚类中心7。

然后，根据各帧语音部分的特征向量样本分别与与其最匹配的初始聚类中心的相似度，以及各帧语音部分的特征向量样本与与其最匹配的初始聚类中心的相邻初始聚类中心的相似度，计算各初始聚类中心的参数值。自组织图中，和单帧语音部分的特征向量样本最匹配的聚类中心(如初始聚类中心)可以称为最佳最匹配单元(Best Matured Unit，BMU)。

具体地，单帧语音部分的特征向量样本与与其最匹配的初始聚类中心(即BMU)的相似度可以等于1，而该特征向量样本与该BMU的相邻初始聚类中心的相似度，则可以是采用高斯衰减方式计算得到的。本发明实施例中，采用高斯衰减方式计算特征向量样本与该BMU的相邻初始聚类中心的相似度，可以是指采用下述公式，计算该相似度：

其中，i为该BMU的相邻初始聚类中心的编号；x_i为编号为i的相邻初始聚类中心与该BMU之间的欧几里得距离；r为学习率，其是一个常数，可以根据实际需求设置。

采用高斯衰减方式计算得到的相似度具体可以用于表示“该帧语音部分的特征向量样本分配给某相邻初始聚类中心的比例值”，即表示“该帧语音部分的特征向量样本归属于某相邻初始聚类中心的后验概率值”。与特征向量样本的BMU越相邻的初始聚类中心(即自组织图中与该BUM越近的神经元)，被分配到该特征向量样本的比例值越大；反之，该比例值越小。

举例而言，若下述假设成立：

有5个特征向量样本与某初始聚类中心的相似度不等于0；

这5个特征向量样本归属于该初始聚类中心的后验概率值分别为1、1、0.2、0.5、0.1；

这5个特征向量样本分别为{x₁,y₁,z₁,m₁,n₁}、{x₂,y₂,z₂,m₂,n₂}、{x₃,y₃,z₃,m₃,n₃}、{x₄,y₄,z₄,m₄,n₄}、{x₅,y₅,z₅,m₅,n₅}。

那么，该初始聚类中心的参数值为：各特征向量样本归属于该初始聚类中心的后验概率值和各特征向量样本的加权平均值。按照前文可知，这里所说的“各特征向量样本归属于该初始聚类中心的后验概率值”，也即各特征向量样本与该初始聚类中心相似度。

即，该初始聚类中心的参数值＝[1×{x₁,y₁,z₁,m₁,n₁}+1×{x₂,y₂,z₂,m₂,n₂}+0.2×{x₃,y₃,z₃,m₃,n₃}+0.5×{x₄,y₄,z₄,m₄,n₄}+0.1×{x₅,y₅,z₅,m₅,n₅}]/(1+1+0.2+0.5+0.1)。

按照上述方式，可以完成对各初始聚类中心的参数值的计算。完成各初始聚类中心的参数值的计算后，单次迭代聚类完成。

本发明实施例中，可以重复执行上述迭代聚类操作，直至满足第一迭代收敛条件时，停止该操作，并将具备满足第一迭代收敛条件时计算出的参数值的各初始聚类中心确定为“待定聚类中心”。

具体地，该第一迭代收敛条件比如可以是：当次迭代聚类操作完成后得到的各初始聚类中心的参数值，相比于上一次迭代聚类操作后得到的各初始聚类中心的参数值的变化幅度均小于规定阈值；或当次迭代聚类操作完成后得到的各初始聚类中心的参数值中，有80％的参数值相比于上一次迭代聚类操作后得到的相应的参数值的变化幅度小于规定阈值；等等。

针对上述介绍需要说明的是，语音(训练语料和测试语音均为语音)都可以被划分为多帧语音部分，每帧语音部分，可以称为一帧语音部分。按照各帧语音部分在语音中的排列位置，可以分别为各帧语音部分进行编号。其中，排列在最前的语音部分是该语音中最先被听到的部分，可以为其分配编号“1”，即该语音部分为该语音的第一帧语音部分；针对其他语音部分，可以按照其在语音中所处的位置由先至后的顺序，依次分配编号“2”、“3”…“N”。N为该语音包含的语音部分的总帧数。此外需要说明的是，初始聚类中心与特征向量样本之间的相似度，可以由初始聚类中心与特征向量样本之间的欧几里得距离来衡量。该距离越大，则相似度越大；反之，则相似度越小。本发明实施例中，相似度的取值范围可以为[0，1]。

子步骤五：根据设定的迭代聚类规则，对待定聚类中心进行迭代聚类，得到特征向量聚类中心。

其中，这里所说的设定的迭代聚类规则包括：1、根据训练语料的各语音部分的特征向量，对待定聚类中心进行迭代聚类；2、在对待定聚类中心进行单次迭代聚类时依据的特征向量，为训练语料中单个语音部分的特征向量；3、在对待聚类中心进行的每相邻两次迭代聚类时分别依据的特征向量，是训练语料中相邻语音部分的特征向量。

在一种实施方式中，子步骤五的实现过程如下：

根据设定的迭代聚类规则，针对每个训练语料执行迭代聚类操作，直至满足第二迭代收敛条件时，将具备满足第二迭代收敛条件时计算出的参数值的各待定聚类中心，确定为特征向量聚类中心。

其中，这里所说的迭代聚类操作包括下述步骤：

确定该训练语料的第一帧语音部分的特征向量与该第一帧语音部分的特征向量最匹配的待定聚类中心的相似度，以及该第一帧语音部分的特征向量与该最匹配的待定聚类中心的相邻待定聚类中心的相似度；

此外，针对该训练语料的其他各帧语音部分，执行：从与该语音部分的前一相邻语音部分的特征向量最匹配的待定聚类中心，以及自组织图中与该语音部分的前一相邻语音部分的特征向量最匹配的待定聚类中心的相邻聚类中心中，确定与该语音部分最匹配的待定聚类中心，并确定该语音部分的特征向量与该最匹配的待定聚类中心的相似度，以及该语音部分的特征向量与该最匹配的待定聚类中心的相邻待定聚类中心的相似度；

最后，根据确定的各相似度，计算各待定聚类中心的参数值。具体计算方式与子步骤四中的计算方式类似，此处不再赘述。

上述第二迭代收敛条件与第一迭代收敛条件的内容相似，比如可以为：当次迭代聚类操作完成后得到的各待定聚类中心的参数值，相比于上一次迭代聚类操作后得到的各待定聚类中心的参数值的变化幅度均小于规定阈值；或当次迭代聚类操作完成后得到的各待定聚类中心的参数值中，有80％的参数值相比于上一次迭代聚类操作后得到的相应的参数值的变化幅度小于规定阈值；等等。

对比子步骤四和子步骤五的不同之处可知，在子步骤五中，在确定与训练语料的第一帧外的其他各帧语音部分最匹配的待定聚类中心时，是从与各帧语音部分的前一相邻语音部分的特征向量最匹配的待定聚类中心，以及自组织图中与该语音部分的前一相邻语音部分的特征向量最匹配的待定聚类中心的相邻聚类中心中确定出的。该方式的好处在于，使得由特征向量聚类中心构成的集合(比如自组织图)具有描述语音连续性的能力。这里所说的语音连续性，是通过对大量语音进行分析后得到的一种结论。该结论具体为：在一段语音中，相邻两帧语音部分具有一定相似性，即该语音的第一帧语音部分的特征向量与第二帧语音部分的特征向量往往比较相似；第二帧语音部分的特征向量与第三帧语音部分的特征向量往往比较相似；依此类推。

步骤13，针对测试语音包含的其他各帧语音部分的特征向量执行：从训练得到的、与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心，以及与该前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中，选取与该语音部分的特征向量最匹配的特征向量聚类中心。

这里所说的“测试语音包含的其他各帧语音部分”，是指测试语音包含的、除第一帧语音部分外其他的语音部分。

针对步骤13的具体实现方式，以下进行举例说明：

比如，针对测试语音包含的第二帧语音部分的特征向量而言，可以从选取出的与第一帧语音部分的特征向量最匹配的特征向量聚类中心，以及与第一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中，选取与第二帧语音部分的特征向量最匹配的特征向量聚类中心；针对测试语音包含的第三帧语音部分的特征向量而言，可以从选取出的与第二帧语音部分的特征向量最匹配的特征向量聚类中心，以及与第二帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中，选取与第三帧语音部分的特征向量最匹配的特征向量聚类中心；依此类推。

由前文的对于步骤12的说明可知，采用本发明实施例提供的生成特征向量聚类中心的聚类方法，由于对于相邻的待定聚类中心的迭代聚类，是以相邻的两帧语音部分的特征向量为依据的，因此可以使得最终得到的特征向量聚类中心构成的集合具有描述语音连续性的能力。基于这样的集合，本发明实施例中采用步骤13这样的选取手段，可以使得被选取出的特征向量聚类中心延续描述语音连续性的能力，从而使得根据被选取的特征向量聚类中心进行测试语音的特征向量重建，能够得到较好的增强效果。

步骤14，根据特征向量集合和选取的特征向量聚类中心，重建测试语音的特征向量。

在一种实施方式中，可以但不限于采用插值运算方式，实现对测试语音的特征向量的重建。即，根据选取的特征向量聚类中心，执行对特征向量集合的插值运算操作，以获得测试语音的重建的特征向量。

采用本发明实施例提供的上述方法，在为测试语音包含的除第一帧外的其他各帧语音部分的特征向量确定相邻的特征向量聚类中心时，是从与该语音部分的前一帧语音部分的特征向量相邻的特征向量聚类中心，以及与前一帧语音部分的特征向量相邻的特征向量聚类中心相邻的特征向量聚类中心中选取的，而训练得到的每个特征向量聚类中心与至少一个与其相邻的特征向量聚类中心构成的集合具有描述语音连续性的能力，因此相当于在进行语音增强利用了能够表示语音连续性的特征，相比于现有技术中的传统的语音增强模型而言，达到了更好的语音增强效果。

通过上述方法，得到测试语音的重建的特征向量后，可以将该特征向量输入到语音识别装置中，实现对测试语音的语音识别。由于在为测试语音包含的除第一帧外的其他各帧语音部分的特征向量确定相邻的特征向量聚类中心时，是从与该语音部分的前一帧语音部分的特征向量相邻的特征向量聚类中心，以及与前一帧语音部分的特征向量相邻的特征向量聚类中心相邻的特征向量聚类中心中选取的，而训练得到的每个特征向量聚类中心与至少一个与其相邻的特征向量聚类中心构成的集合具有描述语音连续性的能力，因此相当于在进行语音增强利用了能够表示语音连续性的特征，从而相比于现有技术中的传统的语音增强模型而言，达到了更好的语音增强效果，能够提高语音识别的识别率。

需要说明的是，实施例1所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤11和步骤12的执行主体可以为设备1，步骤13和步骤14的执行主体可以为设备2；又比如，步骤11的执行主体可以为设备1，步骤12～步骤14的执行主体可以为设备2；等等。

实施例2

本发明实施例2中，主要介绍实施例1提供的语音增强方法在语音识别过程中的实际应用。

具体地，实际中用于实现该方法的一种语音识别系统的结构示意图如图2a所示，主要包括训练子系统和语音识别子系统。其中，训练子系统用于生成前文提及的自组织图；而语音识别子系统则用于基于训练子系统生成的自组织图，对测试语音进行识别。

以下分别对上述两个子系统的功能实现方式进行介绍。

1、训练子系统

训练子系统的功能在于生成时序受限自组织图。该功能的实现方式主要包括如图2b所示的如下步骤：

步骤一：特征提取。

即从训练语料中提取特征向量(即前文所述的特征向量样本)。

步骤二：自组织图初始化。

具体而言，可以根据提取到的所有特征向量样本，计算相应的协方差矩阵；然后，对协方差矩阵进行主成分分析后，将确定出的最大特征值的平方根的两倍作为自组织图的宽，将第二大特征值的平方根的两倍作为自组织图的高，按照设定的神经元的数目，生成包含该数目的神经元的自组织图。

实施例2中，自组织图是一个单层的神经网络，网络的每个节点是一个神经元。后文将要提到的神经元的参数值，用于表示一个平均的语音特征向量。该神经网络可以采用如图1e所示的六角形拓扑。

需要说明的是，为了增强自组织图上神经元的表述能力，可以对提取出的特征向量样本进行信道归一化、对角化变换或者区分度变换等预处理后，再利用预处理后的特征向量样本计算相应的协方差矩阵。

步骤三：自组织图预训练。

自组织图预训练是自组织图时序限制训练的基础。自组织图预训练的目的是为了得到一个能够反映特征向量样本分布情况的图。

具体而言，步骤三的实现方式包括：对于每个训练语料，都要执行样本分配(E步骤)和神经元参数评估(M步骤)。

其中，E步骤为：针对该训练语料中提取出的每个特征向量样本，在自组织图中分别为其寻找一个最优最匹配神经元，即寻找分别与每个特征向量样本之间的欧几里得距离最小的神经元，作为特征向量样本的最优最匹配神经元；将特征向量样本分配给相应的最优最匹配神经元的比例确定为1；然后，对于最优最匹配神经元的相邻神经元，按照距离的高斯衰减方式，计算相应的特征向量样本分配给相邻神经元的比例。

E步骤后，每个神经元都被分配了至少一个特征向量样本的比例。需要说明的是，某神经元没有被分配某特征向量样本的比例的情况，可以理解为该神经元分配到的该特征向量样本的比例为0。

M步骤为：每个神经元把分配给自己的特征向量样本的比例进行加权平均，得到自己的参数值。

E步骤和M步骤交替循环进行，直至满足如实施例1中所述的第一迭代收敛条件时，将具备满足第一迭代收敛条件时计算出的参数值的各神经元，确定为对自组织图进行预训练后得到的神经元(即实施例1中所说的待定聚类中心)。

步骤四：自组织图时序限制训练。

该轮训练的目的是让自组织图具有描述语音连续性的能力。

步骤四的实现流程和步骤三大致相同，包括交替循环执行的E’步骤和M’步骤。当满足如实施例2中所述的第二迭代收敛条件时，将具备满足第二迭代收敛条件时计算出的参数值的各神经元，确定为对自组织图进行时序限制训练后得到的神经元(即实施例1中所说的特征向量聚类中心)，从而得到时序受限自组织图。

具体而言，E’步骤为：针对该训练语料中提取出的每个特征向量样本，在自组织图中分别为其寻找一个最优最匹配神经元；将特征向量样本分配给相应的最优最匹配神经元的比例确定为1；然后，对于最优最匹配神经元的相邻神经元，按照距离的高斯衰减方式，计算相应的特征向量样本分配给相邻神经元的比例。与E步骤不同的是，E’步骤中，训练语料的t+1帧的语音特征向量x_t+1的最优最匹配神经元，只能在训练语料的t帧的语音特征向量x_t的最优最匹配神经元和该最优最匹配神经元的相邻神经元中选取。

M’步骤为：每个神经元把分配给自己的特征向量样本的比例进行加权平均，得到自己的参数值。

以下介绍语音识别子系统的功能。

语音识别子系统主要包括两个模块：特征增强模块和语音识别模块。

其中，特征增强模块用于利用对训练语料进行训练得到的“时序受限自组织图”，把测试语音的语音特征向量变得具有与训练语料类似的语音特征向量分布特性。语音识别模块，用于对特征增强模块输出的语音特征向量进行语音识别。

本发明实施例中，特征增强模块对测试语音进行语音特征增强的过程，就是在时序受限自组织图上搜索最佳语音路径的过程。其中，一条语音路径，即由时序受限自组织图上的神经元构成的一条线(往往是曲线)。

具体地，可以先在该图上，寻找多个和测试语音的第一帧语音部分中提取出的语音特征向量之间的欧几里得距离较小的神经元，作为多条语音路径的起点。然后，按照“测试语音的第n+1帧语音部分的最优最匹配神经元只能从测试语音的第n帧语音部分的最优最匹配神经元及其相邻神经元中选取”的方式，为测试语音的除第一帧语音部分外的其他语音部分分别确定最优最匹配神经元，从而保证语音路径的连续性。

特征增强模块在为测试语音的每帧语音部分均确定最优最匹配神经元后，能够得到至少一条语音路径。

若仅得到一条语音路径，则可以将该语音路径确定为最佳语音路径，并利用这条路径上的每个神经元的参数值和其相邻神经元的参数值，对测试语音的语音特征向量进行插值运算，得到一个重建的特征序列并输出给语音识别模块进行语音识别。

若得到至少两条语音路径，则从这至少两条语音路径中选取最优语音路径，进而利用最优语音路径上的每个神经元的参数值和其相邻神经元的参数值，对测试语音的语音特征向量进行插值运算，得到一个重建的特征序列并输出给语音识别模块进行语音识别。本发明实施例中，选取的最优语音路径满足：与得到的其他语音路径相比，该条语音路径上的神经元的参数值与测试语音的相应语音特征向量之间的欧几里德距离之和(或欧几里德距离平均值)最小。

以下举例说明，本发明实施例中，如何利用得到的语音路径上的每个神经元的参数值和其相邻神经元的参数值，对测试语音的语音特征向量进行插值运算：

假设测试语音的起始时刻为0，该测试语音的第一帧语音部分的长度为t，且该第一帧语音的原始特征向量为f_t，那么可以先从针对该测试语音确定出的最优路径上，确定出相距最优路径的初始神经元最近的神经元(后称神经元T)，以及确定该神经元T的各相邻神经元。

进一步地，计算f_t分配给该神经元T和该神经元T的各相邻神经元的比例值，并将计算出的该比例值作为相应的神经元的插值比例。比如，由于f_t与神经元T最匹配，则f_t分配给该神经元T的插值比例为1.0。若假设该神经元T有6个相邻神经元，则可以进一步假设f_t分配给该神经元T的插值比例均为0.7。

接下来，若假设所有神经元的插值比例占增强特征的40％，可以按照下述公式，计算针对该帧语音部分的插值特征f_t’：

f_t’＝[(1-0.4)f_t+0.4(1.0w₁+0.7w₂+0.7w₃+0.7w₄+0.7w₅+0.7w₆+0.7w₇)]/[1-0.4+0.4(1.0+0.7+0.7+0.7+0.7+0.7+0.7+0.7)]

上述公式中，w₁为神经元T的参数值，w_2…w₇分别为神经元T的6个相邻神经元的参数值。各参数值的计算方式如实施例1中所述，此处不再赘述。

计算出的f_t’即为该帧语音部分的、增强后的特征向量。

实施例3

本发明实施例3提供一种语音增强装置，用以达到较好的语音增强效果。该装置的结构示意图如图3所示，包括选取单元31和重建单元32。对各单元的功能介绍如下：

选取单元31，用于从训练得到的特征向量聚类中心中，选取与测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心；以及，针对测试语音包含的其他各帧语音部分的特征向量执行：从训练得到的、与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心，以及与该前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中，选取与该语音部分的特征向量最匹配的特征向量聚类中心。

其中，训练得到的每个特征向量聚类中心与至少一个与其相邻的特征向量聚类中心构成的集合具有描述语音连续性的能力。

重建单元32，用于根据测试语音包含的各帧语音部分的特征向量和选取单元31选取的特征向量聚类中心，重建测试语音的特征向量。

在一种实施方式中，重建单元32具体可以用于：根据选取的特征向量聚类中心，执行对测试语音包含的所有语音部分的特征向量构成的向量集合的插值运算操作，以获得所述测试语音的重建的特征向量。

在一种实施方式中，本发明实施例3提供的该装置还可以用于实现对于从训练语料中提取的特征向量样本的训练。具体地，可以由该装置包括的下述单元实现该功能：

提取单元，用于在选取单元31选取特征向量前，从训练语料包含的各帧语音部分中分别提取特征向量样本；

分布确定单元，用于确定特征向量样本在多维空间中的分布信息；

初始聚类中心确定单元，用于根据分布信息，确定初始聚类中心；

第一聚类单元，用于根据特征向量样本与各初始聚类中心的相似度，对各初始聚类中心进行迭代聚类，得到待定聚类中心；

第二聚类单元，用于根据设定的迭代聚类规则，对待定聚类中心进行迭代聚类，得到特征向量聚类中心。其中，这里所说的设定的迭代聚类规则包括：1、根据训练语料的各语音部分的特征向量，对待定聚类中心进行迭代聚类；2、在对待定聚类中心进行单次迭代聚类时依据的特征向量，为训练语料中单个语音部分的特征向量；3、在对待聚类中心进行的每相邻两次迭代聚类时分别依据的特征向量，是训练语料中相邻语音部分的特征向量。

在一种实施方式中，第二聚类单元可以用于：根据设定的迭代聚类规则，针对每个训练语料执行迭代聚类操作，直至满足迭代收敛条件时，将具备满足迭代收敛条件时计算出的参数值的各待定聚类中心，确定为特征向量聚类中心。

其中，迭代聚类操作包括下述步骤：

确定该训练语料的第一帧语音部分的特征向量与与该第一帧语音部分的特征向量最匹配的待定聚类中心的相似度，以及该第一帧语音部分的特征向量与该最匹配的待定聚类中心的相邻待定聚类中心的相似度；

针对该训练语料的其他各帧语音部分，执行：从与该语音部分的前一相邻语音部分的特征向量最匹配的待定聚类中心，以及特定空间中与该语音部分的前一相邻语音部分的特征向量最匹配的待定聚类中心的相邻聚类中心中，确定与该语音部分最匹配的待定聚类中心，并确定该语音部分的特征向量与该最匹配的待定聚类中心的相似度，以及该语音部分的特征向量与该最匹配的待定聚类中心的相邻待定聚类中心的相似度；

根据确定的各相似度，计算各待定聚类中心的参数值。

在为测试语音包含的除第一帧外的其他各帧语音部分的特征向量确定相邻的特征向量聚类中心时，是从与该语音部分的前一帧语音部分的特征向量相邻的特征向量聚类中心，以及与前一帧语音部分的特征向量相邻的特征向量聚类中心相邻的特征向量聚类中心中选取的，而训练得到的每个特征向量聚类中心与至少一个与其相邻的特征向量聚类中心构成的集合具有描述语音连续性的能力，因此相当于在进行语音增强利用了能够表示语音连续性的特征，相比于现有技术中的传统的语音增强模型而言，达到了更好的语音增强效果。

实施例4

实施例4提供一种聚类装置，用以实现对从训练语料包含的各帧语音部分中分别提取特征向量样本进行聚类。该装置的结构示意图如图4所示，主要包括下述功能单元：

特征提取单元41，用于从训练语料包含的各帧语音部分中分别提取特征向量样本；

分布确定单元42，用于确定特征提取单元41提取的特征向量样本在多维空间中的分布信息；

初始聚类中心确定单元43，用于根据分布确定单元42确定的分布信息，确定初始聚类中心；

第一聚类单元44，用于根据特征向量样本与各初始聚类中心的相似度，对各初始聚类中心进行迭代聚类，得到待定聚类中心；

第二聚类单元45，用于根据设定的迭代聚类规则，对待定聚类中心进行迭代聚类，得到特征向量聚类中心。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所描述的方法、装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音增强方法，其特征在于，包括：

从训练得到的特征向量聚类中心中，选取与测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心；

2.如权利要求1所述的方法，其特征在于，根据所述测试语音包含的各帧语音部分的特征向量，以及选取的特征向量聚类中心，重建所述测试语音的特征向量，包括：

根据选取的特征向量聚类中心，执行对所述测试语音包含的所有语音部分的特征向量构成的向量集合的插值运算操作，以获得所述测试语音的重建的特征向量。

3.如权利要求1所述的方法，其特征在于，从训练得到的特征向量聚类中心中，选取与所述测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心前，所述方法还包括：

从训练语料包含的各帧语音部分中分别提取特征向量样本；

确定特征向量样本在多维空间中的分布信息；

根据所述分布信息，确定初始聚类中心；

根据设定的迭代聚类规则，对待定聚类中心进行迭代聚类，得到特征向量聚类中心；

其中，所述设定的迭代聚类规则包括：根据所述训练语料的各语音部分的特征向量，对待定聚类中心进行迭代聚类；并且，在对待定聚类中心进行单次迭代聚类时依据的特征向量，为所述训练语料中单个语音部分的特征向量；在对待聚类中心进行的每相邻两次迭代聚类时分别依据的特征向量，是所述训练语料中相邻语音部分的特征向量。

4.如权利要求3所述的方法，其特征在于，根据设定的迭代聚类规则，对待定聚类中心进行迭代聚类，得到特征向量聚类中心，包括：

根据设定的迭代聚类规则，针对每个训练语料执行迭代聚类操作，直至满足迭代收敛条件时，将具备满足迭代收敛条件时计算出的参数值的各待定聚类中心，确定为特征向量聚类中心；其中，所述迭代聚类操作包括下述步骤：

根据确定的各相似度，计算各待定聚类中心的参数值。

5.一种语音识别方法，其特征在于，包括：

对采用如权利要求1～4任一权项所述的语音增强方法重建的语音信号进行语音识别。

6.一种聚类方法，其特征在于，包括：

从训练语料包含的各帧语音部分中分别提取特征向量样本；

确定特征向量样本在多维空间中的分布信息；

根据所述分布信息，确定初始聚类中心；

7.一种语音增强装置，其特征在于，包括：

选取单元，用于从训练得到的特征向量聚类中心中，选取与测试语音包含的第一帧语音部分的特征向量最匹配的特征向量聚类中心；以及，针对所述测试语音包含的其他各帧语音部分的特征向量执行：从训练得到的、与该语音部分的前一帧语音部分的特征向量最匹配的特征向量聚类中心，以及与所述前一帧语音部分的特征向量最匹配的特征向量聚类中心相邻的特征向量聚类中心中，选取与该语音部分的特征向量最匹配的特征向量聚类中心；其中，训练得到的每个特征向量聚类中心与至少一个与其相邻的特征向量聚类中心构成的集合具有描述语音连续性的能力；

重建单元，用于根据所述测试语音包含的各帧语音部分的特征向量，和选取单元选取的特征向量聚类中心，重建所述测试语音的特征向量。

8.如权利要求7所述的装置，其特征在于，重建单元用于：

9.一种语音识别装置，其特征在于，包括：

语音识别单元，用于对采用如权利要求7或8所述的语音增强装置重建的语音信号进行语音识别。

10.一种聚类装置，其特征在于，包括：

特征提取单元，用于从训练语料包含的各帧语音部分中分别提取特征向量样本；

初始聚类中心确定单元，用于根据所述分布信息，确定初始聚类中心；

第一聚类单元，用于根据所述特征向量样本与各初始聚类中心的相似度，对所述各初始聚类中心进行迭代聚类，得到待定聚类中心；

第二聚类单元，用于根据设定的迭代聚类规则，对待定聚类中心进行迭代聚类，得到特征向量聚类中心；