CN107564513A

CN107564513A - 语音识别方法及装置

Info

Publication number: CN107564513A
Application number: CN201610509783.5A
Authority: CN
Inventors: 薛少飞
Original assignee: Alibaba Group Holding Ltd
Current assignee: Zhejiang Tmall Technology Co Ltd
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2018-01-09
Anticipated expiration: 2036-06-30
Also published as: WO2018005858A1; EP3479377A4; EP3479377A1; JP7008638B2; CN107564513B; US20180005628A1; EP3479377B1; JP2019525214A; US10891944B2

Abstract

本发明提供了一种语音识别方法及装置，其中的方法包括：针对训练数据特征矢量进行聚类处理，得到聚类训练数据特征矢量；利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算；将经过所述插值计算后的待识别数据特征矢量输入到语音识别模型，用于对语音识别模型的自适应调整。本发明可提高语音识别自适应的准确性和处理效率。

Description

语音识别方法及装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音识别方法及装置。

背景技术

语音识别技术，也被称为自动语音识别(Automatic Speech Recognition，ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。语音识别是一门交叉学科，所涉及的领域包括：信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。近年来，语音识别技术取得显著进步，开始从实验室走向市场。语音识别技术已经或即将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

语音识别声学模型自适应是一种提高语音识别准确率的重要技术，在个性化语音识别等领域有着重要应用，它通常是通过自适应数据对原有声学模型进行一定程度的改进来实现性能提升。比较流行的是基于特征矢量的自适应方法，通过将特征矢量(如i-Vector)补偿输入到声学模型来提高语音识别的准确率。在现有技术中，需要使用较多数据才能估计出性能较好的特征矢量，当数据很少时估计出的特征矢量不能带来明显的语音识别性能提升。然而，对于一些语音识别应用场景，用户往往仅给出很短的语音(例如用户仅给出“查找附近酒店”的很短的一句话)，这给语音识别自适应提出了更高的要求。

发明内容

本发明解决的技术问题之一是提供一种语音识别方法及装置，可提高语音识别自适应的准确度和处理效率。

根据本发明一方面的一个实施例，提供了一种语音识别方法，包括：针对训练数据特征矢量进行聚类处理，得到聚类训练数据特征矢量；利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算；将经过所述插值计算后的待识别数据特征矢量输入到语音识别模型，用于对语音识别模型的自适应调整。

可选的，在得到聚类训练数据特征矢量之后，还包括：将所述聚类训练数据特征矢量用于语音识别模型自适应训练，得到语音识别模型。

可选的，在所述针对训练数据特征矢量进行聚类处理之后、所述得到聚类训练数据特征矢量之前，还包括：对聚到同一类的训练数据特征矢量进行加权平均处理。

可选的，所述利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算，包括：计算待识别数据特征矢量与所述聚类训练数据特征矢量的余弦距离；选择余弦距离最大的预定数量的所述聚类训练数据特征矢量对所述待识别数据特征矢量进行插值计算。

可选的，在进行插值计算过程中，设置插值可调参数，通过调整所述可调参数的数值，设置所述聚类训练数据特征矢量对所述待识别数据特征矢量的影响程度。

可选的，所述数据特征矢量包括声纹特征矢量、噪声特征矢量、方言特征矢量、场景信息特征矢量中的一项或多项。

根据本发明另一方面的一个实施例，提供了一种语音识别装置，包括：聚类单元，用于针对训练数据特征矢量进行聚类处理，得到聚类训练数据特征矢量；插值单元，用于利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算；自适应调整单元，用于将经过所述插值计算后的待识别数据特征矢量输入到语音识别模型，对语音识别模型进行自适应调整。

可选的，所述装置还包括：模型自适应单元，用于将所述聚类训练数据特征矢量用于语音识别模型自适应训练，得到语音识别模型。

可选的，所述装置还包括：加权单元，用于对聚到同一类的训练数据特征矢量进行加权平均处理。

可选的，所述插值单元具体用于，计算待识别数据特征矢量与所述聚类训练数据特征矢量的余弦距离；选择余弦距离最大的预定数量的所述聚类训练数据特征矢量对所述待识别数据特征矢量进行插值计算。

可选的，所述插值单元还用于设置插值可调参数，通过调整所述可调参数的数值，设置所述聚类训练数据特征矢量对所述待识别数据特征矢量的影响程度。

可见，相对于现有语音识别方案，特别是语音识别自适应方案，本发明实施例在训练阶段，对训练数据特征矢量进行了聚类处理，由此可以减少训练数据特征矢量的数量，提高准确度，而且，在将聚类训练数据特征矢量用于建模时，由于聚类后矢量维度减小，从而减小了模型复杂度。继而，在识别阶段，将聚类训练数据特征矢量用于对待识别数据特征矢量进行插值计算，由于训练数据相对丰富，准确性较高，因此，这种方式特别适用于待识别数据较少(例如，用户提供的语音较短)的情况，通过较为准确的训练数据对待识别数据进行补偿，从而得到更为准确的语音识别结果。而且，由于模型复杂度降低，因此在识别过程中，可提高识别效率。

本领域普通技术人员将了解，虽然下面的详细说明将参考图示实施例、附图进行，但本发明并不仅限于这些实施例。而是，本发明的范围是广泛的，且意在仅通过后附的权利要求限定本发明的范围。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是根据本发明实施例的语音识别方法的流程图；

图2是根据本发明实施例的说话人自适应系统架构示意图；

图3为根据本发明实施例的语音识别装置结构示意图。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

所述计算机设备包括用户设备与网络设备。其中，所述用户设备包括但不限于电脑、智能手机、PDA等；所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述计算机设备可单独运行来实现本发明，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中，所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。

需要说明的是，所述用户设备、网络设备和网络等仅为举例，其他现有的或今后可能出现的计算机设备或网络如可适用于本发明，也应包含在本发明保护范围以内，并以引用方式包含于此。

后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时，用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。

这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

应当理解的是，当一个单元被称为“连接”或“耦合”到另一单元时，其可以直接连接或耦合到所述另一单元，或者可以存在中间单元。与此相对，当一个单元被称为“直接连接”或“直接耦合”到另一单元时，则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”，“与...邻近”相比于“与...直接邻近”等等)。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

还应当提到的是，在一些替换实现方式中，所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说，取决于所涉及的功能/动作，相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。

首先对本发明实施例中的专业术语说明如下。

语音识别，将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

聚类(Cluster)分析是由若干模式(Pattern)组成的，通常，模式是一个度量(Measurement)的向量，或者是多维空间中的一个点。聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。

插值法，又称“内插法”，是利用函数f(x)在某区间中已知的若干点的函数值，作出适当的特定函数，在区间的其他点上用这特定函数的值作为函数f(x)的近似值，这种方法称为插值法。如果这特定函数是多项式，就称它为插值多项式。

说话人自适应，是用一定的新目标说话人的语音数据，即自适应数据来尽量提高声学模型对该目标说话人的建模准确度。

i-vector，在说话人自适应中，每一个说话人所拥有的一个能够在不同说话人间被区分开的矢量。

下面结合附图对本发明的技术方案作进一步详细描述。

图1是根据本发明实施例的语音识别自适应优化方法的流程图。本实施例的方法主要包括如下步骤：

S101：针对训练数据特征矢量进行聚类处理，得到聚类训练数据特征矢量；

S102：利用聚类训练数据特征矢量对待识别数据特征矢量进行插值计算；

S103：将经过插值计算后的待识别数据特征矢量输入到语音识别模型，对语音识别模型进行自适应调整。

本发明实施例中，在训练阶段，主要是对特征矢量进行聚类处理，在识别阶段，从聚类训练特征矢量中选取数个特征矢量按照预先设置的算法对待识别特征矢量进行插值计算。

相对于现有语音识别方案，特别是语音识别自适应方案，本发明实施例在训练阶段，对训练数据特征矢量进行了聚类处理，由此可以减少训练数据特征矢量的数量，提高准确度，而且，在将聚类训练数据特征矢量用于建模时，由于聚类后矢量维度减小，从而减小了模型复杂度。继而，在识别阶段，将聚类训练数据特征矢量用于对待识别数据特征矢量进行插值计算，由于训练数据相对丰富，准确性较高，因此，这种方式特别适用于待识别数据较少(例如，用户提供的语音较短)的情况，通过较为准确的训练数据对待识别数据进行补偿，从而得到更为准确的语音识别结果。而且，由于模型复杂度降低，因此在识别过程中，可提高识别效率。

聚类(Cluster)分析是由若干模式(Pattern)组成的，通常，模式是一个度量(Measurement)的向量，或者是多维空间中的一个点。聚类分析以相似性为基础，在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。聚类算法可分为划分法、层次法、密度算法、图论聚类法、网格算法、模型算法等，具体的算法例如K-MEANS、K-MEDOIDS、Clara、Clarans等。

插值计算处理，即插值法或内差法。本发明实施例中，采用聚类训练特征矢量对待识别(测试)特征矢量进行插值计算，也即，根据聚类训练特征矢量，近似求解待识别特征矢量。

语音识别声学模型自适应是一种提高语音识别准确率的重要技术，包括：说话人自适应、方言(口音)自适应、噪声自适应、场景自适应等。在个性化语音识别等领域有着重要应用，它通常是通过利用自适应数据对原有声学模型进行一定程度的改进来实现性能提升的。当用于自适应的数据很少时，自适应的效果将会变得不明显，本发明提出一种基于聚类和插值的自适应方法，以实现快速有效的声学模型自适应。

本发明实施例提供的语音识别方案，可以用于整体语音识别，也可以用于语音识别中的说话人自适应识别、方言(口音)自适应识别、噪声自适应识别、场景自适应识别。

例如，在整体语音识别过程中，数据特征矢量是指包含了语音、噪音、场景影响、方言影响的整体语音处理得到的数据特征矢量，其中的数据一般是指语音特征数据。对于说话人自适应识别，数据特征矢量是指声纹特征矢量，该声纹特征矢量是将语音特征数据考虑其对应说话人提取到的。再如，方言(口音)自适应识别中，数据特征矢量是指各类方言特征矢量。噪声自适应识别中，数据特征矢量是指各级噪声特征矢量。场景自适应识别中，数据特征矢量是指场景信息特征矢量。

在训练阶段，如何实现特征矢量的聚类，在识别阶段，如何利用聚类训练特征矢量对待识别特征矢量进行插值处理，是本发明实施例较为关注的问题。

下面以说话人自适应识别对本发明实施例提供的语音识别方案进行示例性说明。

说话人自适应是用一定的新目标说话人的语音数据，即自适应数据来尽量提高声学模型对该目标说话人的建模准确度。它通过将说话人相关的语音特征变换为说话人无关的语音特征或将说话人无关的声学模型变换为说话人相关的声学模型来使待测目标说话人的语音特征与其声学模型更加匹配，从而得到更好的识别效果。

每一个说话人拥有一个能够在不同说话人间被区分开的矢量表示，称之为i-vector。一般对说话人和信道分别建模两个相互独立的空间：说话人空间和信道空间。说话人空间由本征音(Eigenvoice)矩阵V表示，信道空间由本征信道(Eigenchannel)矩阵U表示，对两者的建模估计可以帮助进行有效的说话人确认研究。然而，实际中JFA方法很难严格区分出一段语音数据中包含的说话人和信道信息。针对这一特点，总变化因子分析技术被提出，它只使用一个被称之为总变化空间的单独空间，来表示说话人和信道的联合信息。变化因子由总变化矩阵定义，总变化矩阵由总变化协方差矩阵中最大特征值对应的特征向量构成。在变化因子方法中，不区分GMM超向量空间中说话人和信道分别的影响。假设给定一段语音数据，则表示说话人和信道的总变化空间的GMM均值超向量可以用如下公式表示：

M＝m+Tw

其中，m是UBM的均值超矢量，用来表示与说话人和信道无关的信息，T是一个CF×R维的低阶总变化矩阵，C是GMM高斯数目，F是声学特征维数，R是总变化矩阵中包含的特征矢量个数，矢量w为总变化因子(Total Variability Factors)矢量，服从标准正态分布N(0,I)，其中每一个元素代表一维总变化因子，称矢量w为identity vector，简称i-Vector。

将语音特征数据与其对应说话人提取到的声纹特征矢量(包括但不限于i-Vector)拼接作为输入特征训练DNN，识别时同样将待测数据与相应说话人声纹特征矢量一起输入DNN进行解码识别。

在现有技术中，需要使用较多数据才能估计出性能较好的说话人声纹特征矢量(如i-vector)，用于说话人自适应，当数据很少时估计出的声纹特征矢量不能带来明显的语音识别性能提升。由此带来两个缺点：1、当训练数据中没有说话人信息或数据时长很短不足以估计出准确的声纹特征矢量时，无法使用这部分数据进行说话人自适应训练；2、在线语音识别中由于能够用于估计声纹特征矢量的数据过少，说话人自适应不能取得明显的效果。

针对以上缺点，本发明实施例提出一种基于说话人聚类插值的快速有效说话人自适应方法。

参见图2，为本发明实施例说话人自适应系统示意图。系统分为训练阶段和识别阶段(识别阶段也称测试阶段)。下面从说话人自适应识别的各个环节进行详细介绍。

(1)首先对训练语音提取声纹信息，声纹特征矢量包括但不限于i-vector、说话人编码等。

(2)对上述步骤中提取的声纹特征矢量进行无监督聚类，聚类方法包括但不限于k-means、分层聚类等，被聚到一类的声纹特征矢量被认为来自同一个“说话人”。

(3)对聚到同一类的所有声纹特征矢量进行加权平均得到该“说话人”类别的声纹特征矢量。

(4)将上一步骤中得到的声纹特征矢量用于语音识别声学模型的自适应训练，得到说话人相关模型。

通过以上四个步骤完成训练过程。

下面是识别阶段或测试阶段。

(5)识别(或测试)时，首先提取待识别数据声纹特征矢量s_test，然后计算与所有训练集声纹特征矢量的余弦距离s_train,i，选择余弦距离最大的N(例如5)个训练集声纹特征矢量s_train,i，与s_test进行插值，得到新的待识别数据声纹特征矢量用于识别。插值采用如下公式：

其中α是可调参数，用于根据待识别数据量调整插值比例，α为1表示完全采用待识别数据声纹特征矢量，α为0表示完全采用训练数据集插值出的声纹特征矢量。

可见，在进行插值计算过程中，设置插值可调参数，通过调整所述可调参数的数值，设置聚类训练数据特征矢量对所述待识别数据特征矢量的影响程度。

(6)将新的待识别数据声纹特征矢量输入到说话人相关模型进行模型自适应调整。

上面通过图2说明了说话人自适应识别，实际上，本发明方案还可用于方言自适应识别、噪声自适应识别、场景自适应识别等。

例如，对于方言自适应识别，在训练阶段，需要训练出预定类型的方言数据，得到方言特征矢量，并经过聚类处理后，得到聚类训练方言特征矢量；在识别阶段，将聚类后训练方言特征矢量用于待识别方言特征矢量进行插值计算，然后将插值计算后的特征矢量输入到模型中，进行模型自适应调整。

同理，对于噪声自适应识别，可以在训练阶段，针对不同大小噪声进行分段(分级)，即进行聚类处理，然后在识别阶段，利用聚类训练噪声特征矢量对待识别噪声特征矢量进行插值计算，将插值计算后的特征矢量输入到模型中，进行模型自适应调整。

对于场景信息识别，在训练阶段，一般需要用户输入或提交场景信息，对于场景信息预先设定参考模板，将各个输入的场景信息进行聚类，得到聚类训练场景信息特征矢量，在识别阶段，将聚类训练场景信息特征矢量用于对待识别场景信息特征矢量进行插值计算，插值计算后的特征矢量输入到模型中，进行模型自适应调整。

当然，对于整体的语音识别，可以综合考虑上述的说话人识别、方言识别、噪声识别、场景信息识别。具体的，在训练阶段，输入的训练数据特征包括了上述声纹特征、方言特征、噪声特、场景信息特征，在进行数据特征矢量生成时，按照各类特征分别生成对应的特征矢量，并分别进行聚类处理，得到各类聚类训练特征矢量；在识别阶段，将各类聚类训练特征矢量分别对对应的待识别特征矢量进行插值计算，然后将插值计算得到的各类特征矢量在各自对应的模型中进行匹配，进行模型自适应调整。

本发明实施例提供一种与上述方法相对应的一种语音识别自适应优化装置。参见图3，该装置包括：

聚类单元301，用于针对训练数据特征矢量进行聚类处理，得到聚类训练数据特征矢量；

插值单元302，用于利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算；

自适应调整单元303，用于将经过插值计算后的待识别数据特征矢量输入到语音识别模型，对语音识别模型进行自适应调整。

可选的，所述装置还包括：

模型自适应单元304，用于将所述聚类训练数据特征矢量用于语音识别模型自适应训练，得到语音识别模型。

可选的，所述装置还包括：

加权单元305，用于对聚到同一类的训练数据特征矢量进行加权平均处理。

可选的，所述插值单元302具体用于，计算待识别数据特征矢量与所述聚类训练数据特征矢量的余弦距离；选择余弦距离最大的预定数量的所述聚类训练数据特征矢量对所述待识别数据特征矢量进行插值计算。

可选的，所述插值单元302还用于设置插值可调参数，通过调整所述可调参数的数值，设置所述聚类训练数据特征矢量对所述待识别数据特征矢量的影响程度。

需要注意的是，本发明可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本发明的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。

另外，本发明的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本发明的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

1.一种语音识别方法，其特征在于，包括：

针对训练数据特征矢量进行聚类处理，得到聚类训练数据特征矢量；

利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算；

将经过所述插值计算后的待识别数据特征矢量输入到语音识别模型，用于对语音识别模型的自适应调整。

2.如权利要求1所述的方法，其特征在于，在得到聚类训练数据特征矢量之后，还包括：

将所述聚类训练数据特征矢量用于语音识别模型自适应训练，得到语音识别模型。

3.如权利要求1所述的方法，其特征在于，在所述针对训练数据特征矢量进行聚类处理之后、所述得到聚类训练数据特征矢量之前，还包括：

对聚到同一类的训练数据特征矢量进行加权平均处理。

4.如权利要求1所述的方法，其特征在于，所述利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算，包括：

计算待识别数据特征矢量与所述聚类训练数据特征矢量的余弦距离；

选择余弦距离最大的预定数量的所述聚类训练数据特征矢量对所述待识别数据特征矢量进行插值计算。

5.如权利要求4所述的方法，其特征在于，在进行插值计算过程中，设置插值可调参数，通过调整所述可调参数的数值，设置所述聚类训练数据特征矢量对所述待识别数据特征矢量的影响程度。

6.如权利要求1至5任一项所述的方法，其特征在于，所述数据特征矢量包括声纹特征矢量、噪声特征矢量、方言特征矢量、场景信息特征矢量中的一项或多项。

7.一种语音识别装置，其特征在于，包括：

聚类单元，用于针对训练数据特征矢量进行聚类处理，得到聚类训练数据特征矢量；

插值单元，用于利用所述聚类训练数据特征矢量对待识别数据特征矢量进行插值计算；

自适应调整单元，用于将经过所述插值计算后的待识别数据特征矢量输入到语音识别模型，对语音识别模型进行自适应调整。

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

模型自适应单元，用于将所述聚类训练数据特征矢量用于语音识别模型自适应训练，得到语音识别模型。

9.如权利要求7所述的装置，其特征在于，所述装置还包括：

加权单元，用于对聚到同一类的训练数据特征矢量进行加权平均处理。

10.如权利要求9所述的装置，其特征在于，所述插值单元具体用于，计算待识别数据特征矢量与所述聚类训练数据特征矢量的余弦距离；选择余弦距离最大的预定数量的所述聚类训练数据特征矢量对所述待识别数据特征矢量进行插值计算。

11.如权利要求10所述的装置，其特征在于，所述插值单元还用于设置插值可调参数，通过调整所述可调参数的数值，设置所述聚类训练数据特征矢量对所述待识别数据特征矢量的影响程度。

12.如权利要求7至11任一项所述的装置，其特征在于，所述数据特征矢量包括声纹特征矢量、噪声特征矢量、方言特征矢量、场景信息特征矢量中的一项或多项。