CN107958666A

CN107958666A - 用于口音不变语音识别的方法

Info

Publication number: CN107958666A
Application number: CN201711143001.1A
Authority: CN
Inventors: 罗恩·弗瑞丹特尔; 伊利亚·布雷瓦兹; 帕维尔·纳斯科
Original assignee: Little Ant Technology (hongkong) Co Ltd
Current assignee: Little Ant Technology (hongkong) Co Ltd
Priority date: 2017-05-11
Filing date: 2017-11-17
Publication date: 2018-04-24
Also published as: US20180330719A1; US10446136B2

Abstract

本公开提供用于口音不变语音识别的方法，包括：维护数据库，所述数据库以给定语言存储一组语言单元，并且针对每个语言单元，存储由多个说话者发音的所述语言单元的发音变化的音频样本；在所述数据库中提取和存储用于在特征空间中定位每个音频样本的特征向量；标识发音变化距离和单元间距离，所述发音变化距离是所述特征空间中相同语言单元的音频样本的位置之间的距离，所述单元间距离是所述特征空间中不同语言单元的音频样本的位置之间的距离；计算适用于所述特征空间的变换，以相对于所述单元间距离减小所述发音变化距离；以及基于所计算的变换，训练处理器将相同语言单元的发音变化分类为所述相同语言单元。

Description

用于口音不变语音识别的方法

技术领域

本公开总体涉及语音识别，更具体地，涉及适用于来自各种人群的说话者的语音识别方法。

本申请基于申请号为US15/592,222、申请日为2017年5月11日的美国专利申请提出，并要求该美国专利申请的优先权，该美国专利申请的全部内容在此引入本申请作为参考。

背景技术

在一些已知的语音识别方法中，利用频谱分析，并且通过将某个音频段的提取出的特征向量用作预训练的学习引擎的输入来识别词，预训练的学习引擎可以获得来自词典和/或某种语言模型的词的先验概率。

有时，通过基于多个文本和/或实地标记的音频流来估计词出现的概率，从而获得语言模型。通常基于目标硬件上记录的某些目标人群在目标环境条件下所说的目标应用词典的预录制音频样本来训练学习引擎。

请注意以下参考文献：

现有技术文献

非专利文献

非专利文献1：[BH Juang,2005]B.H.Juang and L.R.Rabiner,“Automaticspeech recognition -A brief history of the technology development”in ElsevierEncyclopedia ofLanguage and Linguistics,Amsterdam,The Netherlands:Elsevier,2005.

非专利文献2：[I Blayvas 2006]I.Blayvas,et.al.Linear DimensionalityReduction for Classification,Technion,Technical Report CS-2006-04.

非专利文献3：[GH Golub 2012]Golub,Gene H.,and Charles F.VanLoan.Matrix computations.Vol.3.JHU Press,2012.

非专利文献4：[S.Mobin 2016]Shariq A.Mobin,Joan Bruna.Voice Conversionusing Convolutional Neural Networks,UC Berkeley.

非专利文献5：[Ian GoodFellow 2014]Ian GoodFellowet.al.GenerativeAdversarial Nets.

发明内容

根据本发明的一些实施例的方面，提供了一种用于口音不变语音识别的方法，包括：维护数据库，所述数据库以给定语言存储一组语言单元，并且针对每个语言单元，存储由多个说话者发音的所述语言单元的发音变化的音频样本；在所述数据库中提取和存储用于在特征空间中定位每个音频样本的特征向量；标识发音变化距离和单元间距离，所述发音变化距离是所述特征空间中相同语言单元的音频样本的位置之间的距离，所述单元间距离是所述特征空间中不同语言单元的音频样本的位置之间的距离；计算适用于所述特征空间的变换，以相对于所述单元间距离减小所述发音变化距离；以及基于所计算的变换，训练处理器将相同语言单元的发音变化分类为所述相同语言单元。

可选地，所述语言单元是词或音素。

可选地，所述方法包括：接收输入音频信号；将所计算的变换应用于所述输入音频信号；以及通过应用所述处理器的分类来识别所述输入音频信号中的语言单元。

可选地，识别语言单元包括基于语言统计来调整分类。

可选地，所述训练包括将所计算的变换应用于存储在所述数据库中的所述发音变化的音频样本。

可选地，所计算的变换包括线性判别分析(LDA)变换。

可选地，所计算的变换由适当训练的神经网络执行。

可选地，所存储的音频样本是由多个不同族群的说话者发音的语言单元的发音变化的音频样本。

根据本发明的一些实施例的方面，提供了一种用于口音不变语音识别的方法，包括：维护数据库，所述数据库以给定语言存储一组语言单元，并且针对每个语言单元，存储由具有已知口音的多个说话者发音的所述语言单元的发音变化的音频样本，其中所述音频样本根据所述音频样本中包括的所述语言单元和口音来索引；以及训练处理器以将音频信号分类为针对给定口音的相应语言单元。

可选地，所述方法包括：接收输入音频信号；在接收到的所述输入音频信号的口音被标识的情况下，由所述处理器应用所标识的口音的分类，从而识别所述输入音频信号中的语言单元；以及在接收到的所述输入音频信号的口音未被标识的情况下：对每个已知口音应用单独的分类，从而针对每个已知口音来识别所述输入音频信号中的语言单元；以及选择最可能的所识别的语言单元。

根据本发明的一些实施例的方面，提供了一种用于口音不变语音识别的方法，包括：维护数据库，所述数据库以给定语言存储一组语言单元，并且针对每个语言单元，存储由多个说话者发音的所述语言单元的标准发音音频样本和发音变化的多个变化音频样本；对于每个样本，提取描述符并将描述符存储在所述数据库中，从而获得至少一个标准描述符和一组变化描述符；训练处理器以产生用于将所述变化描述符变换为所述标准描述符的变换过程以及用于区分所述标准描述符与变换的变化描述符的区别过程，直到所述变换的变化描述符与所述标准描述符不可区分；接收输入音频信号；以及通过已训练的变换过程，将所述输入音频信号变换为与相应标准发音样本不可区分的修改信号。

附图说明

所公开的主题的一些非限制性示例性实施例或特征在下列附图中示出。

在附图中：

图1是根据本发明的一些实施例的用于口音不变语音识别的系统的示意图；

图2是根据本发明的一些实施例的用于训练处理器和/或分类引擎以用于口音不变语音识别的方法的示意性流程图；

图3是根据本发明的一些实施例的用于口音不变语音识别的系统的示意图；

图4是根据本发明的一些实施例的用于口音不变语音识别的方法的示意性流程图；

图5是根据本发明的一些实施例的用于口音不变语音识别的系统的示意图；以及

图6是根据本发明的一些实施例的用于口音不变语音识别的方法的示意性流程图。

现在详细参考附图，强调所示的细节是作为示例的，并且为了本发明的实施例的说明性讨论的目的。在这方面，使用附图进行的描述使得如何实施本发明的实施例对于本领域技术人员来说是显而易见的。

出现在一个或多个图中的相同或重复或相等或相似的结构、元素或部件通常用相同的附图标号来标记，可选地用附加的字母以区分相似实体或实体的变型，并且不会被重复地标记和/或描述。对以前呈现的元素的引用是隐含的，而不必进一步引用它们出现的图或描述。

图中所示组件和特征的尺寸是为了方便或清晰的呈现而选择的，并不一定按比例或真实的视角展示。为了方便或清楚起见，一些元件或结构未示出或仅部分地示出和/或以不同的视角或从不同的观点来示出。

具体实施方式

本发明的一些实施例提供了一种系统和方法，能够实现对各种口音不变的有效且准确的语音识别。

本发明的一些实施例提供了关于语音识别软件出现的问题的解决方案，该问题是：当存在例如各种非母语客户，具有显著口音并影响软件性能从显著降级到完全失败时，难以识别语音元素(例如词和/或音素)。

本发明的一些实施例提供的一些解决方案通过以下操作克服了该问题：对音频样本的特征向量应用变换，基于变换的所述特征向量训练语音识别引擎，以及对馈送到语音识别引擎的输入音频流进行相应变换。所述变换包括信号的时间、频谱和/或倒谱域变换。

提供的方法适用于从话音命令识别(VCR)到自然语言处理(NLP)的语音识别实现。在一些实施例中，所提供的方法被应用于音素级，其中样本、训练和数据库条目是语言的音素，而不是词。音素是一个声音或一组不同的声音，被所讨论的语言或方言的说话者感知为具有相同功能。例如，英语音素/k/出现在cat、kit、scat和skit等词中。

本发明的一些实施例可以包括系统，方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的有形的非暂态计算机可读存储介质(或媒体)，所述指令用于使处理器执行本发明的各方面。用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或用一种或多种编程语言的任何组合编写的源代码或对象代码，包括任何面向对象的编程语言和/或常规的过程编程语言。

在详细解释本发明的至少一个实施例之前，应当理解，本发明在其应用中不一定限于以下描述中阐述和/或在附图和/或示例中示意的组件和/或方法的结构和布局的细节。本发明能够以其他实施例或以各种方式实现或执行。

现在参考图1，图1是根据本发明的一些实施例的用于口音不变语音识别的系统100的示意图。

系统100可以包括语音识别服务器10和数据库15，数据库15可以由服务器10控制、包括在服务器10中和/或与服务器10通信。服务器10可以包括至少一个硬件处理器12和非暂态存储器14，非暂态存储器14可以存储处理器12可执行的代码指令。一旦由处理器12执行，代码指令可以使处理器12执行本文描述的动作和/或方法。

数据库15可以存储一组语言单元，例如词和/或音素。例如，处理器12可以解析词典或任何其他合适的语言单元资源来提取语言单元，然后存储在数据库15中。

对于每个存储的语言单元，数据库15可以存储属于特定语言单元的发音变化的多个音频样本，例如，由多个说话者发音的语言单元的样本。例如，数据库15可以存储根据各自存储的语言单元索引的多个音频样本。例如，存储的音频样本具有由不同族群的多个说话者发音的语言单元的发音变化。在一些实施例中，音频样本可以包括多个语言单元，即多个词和/或音素，和/或被发音多于一次的相同的语言单元。例如，音频单元可以包括多个语言单元或相同单元的多个实例，并且可以与哪些语言单元和/或实例被包括在样本中和/或以何种顺序被包括在样本中的指示一起存储。

在本发明的一些实施例中，数据库15存储根据由处理器12提取的多个特征索引的多个音频样本16，例如如本文更详细描述的。基于提取的特征，处理器12可以计算音频样本之间的差异的度量。例如，处理器12针对音频样本获得相应特征空间中该音频样本的相应特征向量和/或位置。例如，处理器12计算特征空间中的音频样本之间的距离。

如本文更详细描述的，处理器12可以接收输入音频信号，并根据相应语言单元对其进行分类，即标识在输入音频信号中发音的语言单元。例如，处理器12可以针对输入信号提取特征空间中的特征向量和/或位置，并且基于位置和/或向量来标识输入信号属于哪个语言单元。在一些实施例中，例如为了增强语言单元之间的区别，处理器12可以计算和/或应用特征空间上的变换，这使得属于不同语言单元的样本之间的距离相对于属于同一语言单元的样本之间的距离更大。

例如，处理器12可以计算并在数据库15中存储距离18，作为发音变化距离索引，例如一类属于相同语言单元的样本之间的距离，或作为单元间距离索引，例如一类属于不同语言单元的样本之间的距离。处理器12可以针对每个类别中的距离计算代表值，例如均方根或任何其他合适的值。然后，例如，处理器12计算和/或应用相对于单元间距离减小发音变化距离的特征空间的变换。

换言之，特征空间包括例如通过不同类别(例如，词典或其他源的不同词)之间的距离张成的第一子空间，以及由同一类别内的不同实例(例如，不同说话者或不同族群和/或口音的说话者对相同词的不同发音)之间的距离张成的第二子空间。第二子空间构成特征空间内的某个词的估计的概率密度分布，由表示相同词的不同发音的向量定义。处理器12可以计算和/或应用相对于第二子空间减小第一子空间的特征空间的变换。

如本文更详细地描述的，通过应用变换，处理器12可以训练分类引擎13，以将相同语音单元的发音变化分类为相同的语音单元，例如在将所计算的变换应用于存储在数据库中的音频样本之后。例如，处理器12可以将所计算的变换应用于所接收的输入音频信号，并且根据转换的特征空间通过执行引擎13来应用分类。因此，例如，处理器12识别输入信号中的语言单元，例如，如果输入信号属于所存储的语言单元之一。分类引擎13可以是任何类型的，例如高斯混合模型(GMM)、支持向量机(SVM)、径向基函数(RBF)、多层神经网络、卷积神经网络(CNN)等。特征空间的计算变换可以是由矩阵乘法、应用公式、由多层神经网络辅助的任何线性或非线性变换。

在本发明的一些实施例中，音频样本和/或输入信号可以从更长的音频段获得。例如，处理器12可以将话音检测器应用于音频段，因此例如检测话音时段，即话音存在的时段。处理器12可以从话音时段中提取某些时间间隔的部分。例如，时间间隔可以包括例如0.1至5秒重叠的时间间隔。

现在参照图2，图2是示意了根据本发明一些实施例的用于训练处理器12和/或分类引擎13用于口音不变语音识别的方法200。如框210中所示，处理器12可以存储和/或维护根据语言单元索引的音频样本的数据库15。

如框220所示，处理器12可以提取每个音频样本的特征。在本发明的一些实施例中，为了提取音频样本的特征，处理器12可以对每个音频样本应用频域变换和/或其他操作。

基于提取的特征，如本文中详细描述的，处理器12可以将音频样本映射到特征空间，并且基于特征空间中的音频信号的位置便于识别语言单元。例如，处理器12和/或引擎13被训练以基于音频样本及其特征来识别语言单元。当接收到新的输入音频信号时，处理器12可以以与从音频样本中提取特征相同的方式从输入信号中提取特征，以便识别输入信号所属的语言单元。因此，提取特征的步骤对于音频样本和输入信号可以是相同的。

在本发明的一些实施例中，处理器12可以将音频采样分为K个时间帧信号。时间帧信号可能重叠。每个时间帧信号可以是例如5到50毫秒。处理器12可以例如通过应用快速傅立叶变换(FFT)将每个时间帧信号转换到频域，从而例如获得时间帧信号的功率谱。在一些实施例中，处理器12然后获得对时间帧信号的功率谱的对数的逆FFT(倒谱)。在一些实施例中，处理器12可以从倒谱获得时间帧信号的特征。例如，处理器12可以将倒谱分为在覆盖频率范围上对数展开的N个箱(例如5至50个箱)，并针对每个箱获得量化的代表能量值，即表示时间帧信号的倒谱的N个值。

因此，处理器12可以针对K个时间帧信号中的每一个获得N个代表值，因此，例如，针对每个音频样本生成维度K*N的特征向量。在一些实施例中，K个时间帧信号中的每一个具有附加的代表值，例如在N个箱中的平均能量值，和/或信号的导数值，对时间的一阶和二阶导数表示信号的改变速率和加速度。因此，每个音频样本可以由具有更大维数的特征向量表示。

如框230所示，处理器12可以计算特征向量之间的距离。如框240所示，处理器12可以计算相对于发音变化距离增加(例如最大化)单元之间的距离的口音不变变换。例如，所计算的变换包括和/或构成线性判别分析(LDA)变换。

如框250所示，处理器12可以训练引擎13，以根据语言单元对音频信号进行分类。首先，例如，处理器12可以通过计算的口音不变变换来变换所存储的音频样本的特征向量。然后，处理器12可以基于变换的特征向量来训练分类引擎13用于识别语言单元。变换后的输入数据变得对于说话者口音不变或至少相对不可变，而分类引擎13实际上被训练用于基于类似变换的样本来识别语言单元。

在一些实施例中，处理器12调整分类引擎13以进一步基于语言统计来识别语音单元。例如，处理器12通过词典语言单元(即词和/或音素)的内容无关的使用概率来计算和/或调整分类引擎13。例如，处理器12还根据n个先前语言单元(即词和/或音素)的n元组语言统计来调整使用概率和/或分类引擎13。

现在参考图3，图3是根据本发明的一些实施例的用于口音不变语音识别的系统300的示意图。数据库15可以存储一组17已知口音和/或种族的。如上所述，数据库15可以以给定语言存储一组语言单元，并且针对每个语言单元，存储由具有已知口音和/或种族的多个说话者发音的语言单元的发音变化的音频样本。存储的音频样本可以根据已知口音和/或说话者的种族进行索引，即对于每个存储的音频样本，指示哪个已知口音和/或说话者的种族被包括在样本中。例如，每个音频样本根据语言单元(如上文详细描述的)、音频样本中包含的口音和/或种族来索引。

现在进一步参考图4，图4是根据本发明的一些实施例的用于口音不变语音识别的方法400的示意性流程图。如框410所示，处理器12可以存储和/或维护根据语言单元和包括在音频样本中的已知口音和/或种族来索引的音频样本的数据库15。如权利要求420所示，处理器12可以训练引擎13，以针对给定口音和/或种族根据语言单元对音频信号进行分类。例如，处理器12可以训练多个分类引擎13a-13n，针对每个口音和/或种族使用单独的引擎，每个引擎基于包括相应的口音和/或种族的音频样本。

如框430所示，处理器12可以接收输入音频信号，并检查说话者的口音和/或种族是否已知和/或已标识。例如，可以基于说话者的位置、设备的本地化、菜单语言设置和/或基于任何其他合适的指示来标识说话者的口音。

如框440所示，在说话者的口音已知和/或已标识的情况下，处理器12可以将引擎13a-13n的相应分类引擎应用于所述处理器所标识的口音，从而识别出输入音频信号中的语言单元。

如框450所示，在接收到的音频信号的口音不是已知和/或已标识的情况下，处理器12可以针对每个已知的口音应用引擎13a-13n的对应单独分类引擎，从而针对每个已知口音识别所述输入音频信号中的语言单元。如框460所示，处理器12可以例如基于词典语言单元的内容无关的使用概率和/或基于针对n个先前语言单元的n元组语言统计来计算所识别的语言单元的使用概率。处理器12可以选择最可能的识别的语言单元。

现在参考图5，图5是根据本发明的一些实施例的用于口音不变语音识别的系统500的示意图。数据库15可以针对每个语言单元存储标准语音音频样本19和由多个说话者发音的语言单元的发音变化的多个变化音频样本16。

现在参考图6，图6是根据本发明的一些实施例的用于口音不变语音识别的方法600的示意性流程图。如框610所示，处理器12可以为每个音频样本16和19提取描述符，并将描述符存储在数据库中，从而获得至少一个标准描述符，即标准样本19的描述符，以及一组变化描述符，即变化样本16的描述符。描述符可以包括例如至少如参照图2所获得的一些样本特征。处理器12可以以与获得特征相同的方式获得描述符，例如参照图2所述。

如框620所示，处理器12可以训练变换过程引擎11a，以产生变换过程，用于将变化描述符变换为标准描述符，例如，尽可能类似于标准描述符。所述变换可以是线性变换如线性判别分析(LDA)、独立分量分析(ICA)，也可以是由矩阵、公式、算法或神经网络表示的任何非线性变换。另外，只要变换后的变化描述符与标准描述符不是不可区分，处理器12可以训练区别过程引擎11b来产生区分过程以区分标准描述符和变换后的变化描述符的，例如根据预定的可区分阈值和/或处理器12的固有限制。

例如，处理器12可以提取某个音频样本16的描述符，通过变换过程引擎11a将该描述符变换为标准描述符，并将获得的变换后的描述符馈送到区别过程引擎11b。在区别过程引擎l1b不区分变换后的变化描述符和标准描述符的情况下，处理器12相应地可以更新区别过程引擎11b，以调整其参数和/或改善区别程序。然而，在区别过程引擎11b区分变换后的变化描述符和标准描述符的情况下，处理器12可以相应地更新变换过程引擎11a，以调整其参数和/或改进变换过程。

在一些实施例中，处理器12可以提取某个特定音频样本19的标准描述符，对标准描述符应用变换过程引擎11a进行的变换，并且将变换的标准描述符馈送到区别过程引擎11b。在区别过程引擎11b区分变换后的标准描述符与提取出的标准描述符本身的情况下，处理器12可以相应地更新区别过程引擎11b，以调整其参数和/或校正区别过程中的错误。

如框630所示，处理器12可以接收输入音频信号，并且通过训练的变换过程，可以将输入音频信号变换为与相应标准发音不可区分的修改信号。

在本公开的一些实施例的上下文中，作为示例而非限制，如“操作”或“执行”之类的术语也分别意味着如“可操作”或“可执行”的能力。

作为示例，“事物属性”的结合术语意味着该事物的属性，除非从上下文中清楚地另有显示。

术语“处理器”或“计算机”或其系统在本文中用作本领域的通常上下文，如通用处理器、或诸如智能电话或平板计算机的便携式设备、微处理器、或RISC处理器、或DSP，可能包括诸如存储器或通信端口的附加元件。可选地或附加地，术语“处理器”或“计算机”或其派生物可以表示能够执行提供的或并入的程序和/或能够控制和/或访问数据存储设备和/或其他设备(如输入和输出端口)的设备。术语“处理器”或“计算机”还表示连接、和/或链接和/或以其他方式通信的多个处理器或计算机，可能共享一个或多个其他资源(如存储器)。

术语“软件”、“程序”、“软件程序”或“过程”或“软件代码”或“代码”或“应用”可以根据其上下文互换使用，并且表示用于执行通常表示算法和/或其他过程或方法的一系列操作的一个或多个指令或命令或电子电路。程序存储在如RAM、ROM或盘的介质中或介质上，或者嵌入在如处理器或其它电路的设备可访问和可执行的电路中。处理器和程序可以至少部分地构成相同的设备，例如被设计为执行编程的操作序列的电子门阵列，例如FPGA或ASIC，可选地包括或与处理器或其他电路链接。

术语“配置”和/或“适配”用于某个目的，或其变型，意味着至少使用设计和/或实现和/或可操作或操作以实现该目的的软件和/或电子电路和/或辅助设备。

存储和/或包括程序和/或数据的设备构成制品。除非另有指明，否则程序和/或数据存储在非暂态介质中或非暂态介质上。

在公开电气或电子设备的情况下，假设使用适当的电源用于其操作。

流程图和框图说明了根据本公开主题的各种实施例的系统、方法和计算机程序产品的可能实现的架构、功能或操作。在这方面，流程图或框图中的每个框可以表示程序代码的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。还应当注意，在一些替代实施方案中，示出或描述的操作可以以不同的顺序或以组合或并行操作进行，而不是顺序操作，以实现相同或等同效果。

所附权利要求中的所有装置或步骤加功能元件的相应结构、材料、作用和等同物旨在包括与具体要求保护的其他要求保护的要素相结合以执行功能的任何结构、材料或作用。如本文所使用的，单数形式“一”，“一个”和“该”也意图包括复数形式，除非上下文另有明确指出。还将理解，在本说明书中使用时，术语“包括”、“包含”和/或“具有”以及这些术语的其他形式指定了所述特征、整体、步骤、操作、元素和/或组件的存在，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其组合。

除非另有说明，本文使用的术语不应被理解为限制，仅用于描述特定实施例的目的，而不是限制所公开的主题。虽然已经示出和描述了所公开的主题的某些实施例，但是显而易见的是，本公开不限于这里描述的实施例。不排除各种修改、更改、变化、替代和等同物。

Claims

1.一种用于口音不变语音识别的方法，包括：

维护数据库，所述数据库以给定语言存储一组语言单元，并且针对每个语言单元，存储由多个说话者发音的所述语言单元的发音变化的音频样本；

在所述数据库中提取和存储用于在特征空间中定位每个音频样本的特征向量；

标识发音变化距离和单元间距离，所述发音变化距离是所述特征空间中相同语言单元的音频样本的位置之间的距离，所述单元间距离是所述特征空间中不同语言单元的音频样本的位置之间的距离；

计算适用于所述特征空间的变换，以相对于所述单元间距离减小所述发音变化距离；以及

基于所计算的变换，训练处理器将相同语言单元的发音变化分类为所述相同语言单元。

2.根据权利要求1所述的方法，其中所述语言单元是词或音素。

3.根据权利要求1所述的方法，包括：

接收输入音频信号；

将所计算的变换应用于所述输入音频信号；以及

通过应用所述处理器的分类来识别所述输入音频信号中的语言单元。

4.根据权利要求1所述的方法，其中识别语言单元包括基于语言统计来调整分类。

5.根据权利要求1所述的方法，其中所述训练包括将所计算的变换应用于存储在所述数据库中的所述发音变化的音频样本。

6.根据权利要求1所述的方法，其中所计算的变换包括线性判别分析LDA变换。

7.根据权利要求1所述的方法，其中所计算的变换由适当训练的神经网络执行。

8.根据权利要求1所述的方法，其中所存储的音频样本是由多个不同族群的说话者发音的语言单元的发音变化的音频样本。

9.一种用于口音不变语音识别的方法，包括：

维护数据库，所述数据库以给定语言存储一组语言单元，并且针对每个语言单元，存储由具有已知口音的多个说话者发音的所述语言单元的发音变化的音频样本，其中所述音频样本根据所述样本中包括的所述语言单元和口音来索引；以及

训练处理器以将音频信号分类为针对给定口音的相应语言单元。

10.根据权利要求9所述的方法，包括：

接收输入音频信号；

在接收到的所述输入音频信号的口音被标识的情况下，由所述处理器应用所标识的口音的分类，从而识别所述输入音频信号中的语言单元；以及

在接收到的所述输入音频信号的口音未被标识的情况下：

对每个已知口音应用单独的分类，从而针对每个已知口音来识别所述输入音频信号中的语言单元；以及

选择最可能的所识别的语言单元。

11.一种用于口音不变语音识别的方法，包括：

维护数据库，所述数据库以给定语言存储一组语言单元，并且针对每个语言单元，存储由多个说话者发音的所述语言单元的标准发音音频样本和发音变化的多个变化音频样本；

对于每个样本，提取描述符并将描述符存储在所述数据库中，从而获得至少一个标准描述符和一组变化描述符；

训练处理器以产生用于将所述变化描述符变换为所述标准描述符的变换过程以及用于区分所述标准描述符与变换的变化描述符的区别过程，直到所述变换的变化描述符与所述标准描述符不可区分；

接收输入音频信号；以及

通过已训练的变换过程，将所述输入音频信号变换为与相应标准发音样本不可区分的修改信号。