CN102419974A - 处理语音识别的稀疏表示特征的方法和系统 - Google Patents

处理语音识别的稀疏表示特征的方法和系统 Download PDF

Info

Publication number
CN102419974A
CN102419974A CN2011102828268A CN201110282826A CN102419974A CN 102419974 A CN102419974 A CN 102419974A CN 2011102828268 A CN2011102828268 A CN 2011102828268A CN 201110282826 A CN201110282826 A CN 201110282826A CN 102419974 A CN102419974 A CN 102419974A
Authority
CN
China
Prior art keywords
training dataset
training
subclass
step further
selecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011102828268A
Other languages
English (en)
Inventor
D·卡涅夫斯基
D·纳哈莫
B·拉马巴德兰
T·N·赛纳斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN102419974A publication Critical patent/CN102419974A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种处理语音识别的稀疏表示特征的方法和系统。披露了用于生成和使用稀疏表示特征来提高语音识别性能的技术。具体地说,本发明的原理提供了基于稀疏表示样例的识别技术。例如,所述方法包括以下步骤。获取与语音识别系统关联的测试向量和训练数据集。选择所述训练数据集的子集。将所述测试向量与所述训练数据集的选定子集一起映射为由稀疏约束加权的线性组合以便形成新的测试特征集,其中由于所述稀疏约束而使所述训练数据集移动到更靠近所述测试向量。针对所述新的测试特征集训练声学模型。针对所述新的测试特征集训练的声学模型可用于对输入所述语音识别系统的用户语音进行解码。

Description

处理语音识别的稀疏表示特征的方法和系统
技术领域
本发明一般地涉及语音识别,更具体地说,涉及用于生成和使用稀疏表示特征提高语音识别性能的技术。
背景技术
众所周知,高斯混合模型(GMM)一直以来非常广泛地用于语音识别类问题。尽管GMM允许快速的模型训练和评分,但是训练样本被汇集在一起进行参数估计,从而导致个别训练样本中存在的信息丢失。
另一方面,基于样例的技术使用与实际训练实例有关的信息。尽管基于样例的方法已被证实较之GMM提升了分类任务的准确性,但是对于识别任务而言并非如此。如公知的,语音分类是将语音信号分类为先验已知的给定类别或类型集合中的给定类别或类型的任务,而语音识别是对语音信号进行解码以生成识别结果的任务。应该理解,尽管可以在语音识别任务中执行语音分类,但是在这种情况下,通常无法先验地获知类别或类型。
发明内容
本发明的原理提供了用于生成和使用稀疏表示特征提高语音识别性能的技术。具体地说,本发明的原理提供了基于稀疏表示样例的识别技术。
例如,在一个方面中,一种方法包括以下步骤。获取与语音识别系统关联的测试向量和训练数据集。选择所述训练数据集的子集。将所述测试向量与所述训练数据集的选定子集一起映射为由稀疏约束加权的线性组合以便形成新的测试特征集,其中由于所述稀疏约束而使所述训练数据集移动到更靠近所述测试向量。针对所述新的测试特征集训练声学模型。针对所述新的测试特征集训练的声学模型可用于对输入所述语音识别系统的用户语音进行解码。
有利地,通过使训练数据集受稀疏约束的影响而移动到更靠近测试向量,提高了语音识别性能,例如,帧准确性、字错误率等。
当结合附图阅读本发明的示例性实施例的以下详细描述之后,本发明的这些和其他目标、特征和优点将变得显而易见。
附图说明
图1A示出根据本发明的一个实施例的稀疏表示训练系统;
图1B示出根据本发明的一个实施例的语音识别系统;
图2示出根据本发明的一个实施例的基于稀疏表示样例的训练方法;
图3示出用于实现根据本发明的一个或多个实施例的一个或多个步骤和/或组件的计算机系统。
具体实施方式
在此将在用于提供语音识别功能的方法、装置、制品和系统的示例性实施例的上下文中描述本发明的原理。但是应理解,本发明的原理不限于此处示例性示出和描述的特定方法、装置、制品和系统。相反,本发明的原理广泛地涉及语音识别技术,借助此技术,可通过在基于样例的训练方法中生成和使用稀疏表示特征来提高识别性能。为此,在本发明的范围内,可以对所示的实施例做出大量修改。也就是说,并非旨在对此处所述的具体实施例做出任何限制或者不应推断任何限制。
已认识到现有基于样例的识别任务方法的不成功可归因于以下原因。第一,与评估一组高斯混合相比,通过搜索大量训练数据(例如,对于大型词汇表,通常大于50个小时)来表征测试样本的计算量更大。第二,分类和识别的目标都是确定最佳表示测试样本的类别。在分类中,提前获知与每个类别相关的段,因此可以使用基于样例的技术直接计算每个段的决策评分。在识别中,无法提前获知类别界限,因此必须通过动态编程方法(例如,隐马尔可夫模型或HMM)确定。这需要估计可以跨帧比较的类别概率,而现有基于样例的方法无法轻易做到这一点。
根据本发明的示例性原理,提供了基于稀疏表示样例的训练方法以便创建新的特征集,同时利用HMM的优点有效地跨帧比较评分。这与尝试利用来自基于样例的分类器自身的决策评分生成概率的现有基于样例的方法形成对照。
在以下将详细说明的本发明的一个稀疏表示(SR)实施例中,给定测试向量和来自训练数据集的一组样例,通过求解受给定稀疏约束影响的给定特征而将测试向量表示为训练实例的线性组合。所述给定特征可被视为将测试向量映射回训练实例的线性范围。下面将在图2的上下文中描述生成此类特征的基于稀疏表示样例的训练方法的一个示例性实施例。
首先参考图1A,其中示出根据本发明的一个实施例的稀疏表示训练系统。如图所示,稀疏表示(SR)训练引擎102接收一个或多个测试向量以及训练数据集。引擎102然后使用将在下面详细描述的基于稀疏表示样例的训练方法产生SR训练后的声学模型。该模型可存储在存储单元104中。
如公知的,训练数据通常被理解为用于典型地在非实时(脱机)过程中初始训练声学模型的语音数据。测试数据通常被理解为在实时(联机)解码或识别期间被提供给语音识别系统的语音数据。
图1B示出根据本发明的一个实施例的语音识别系统。将理解,语音识别系统106利用存储单元104中存储(并且根据图1A中的训练引擎102生成)的SR训练后的声学模型对输入系统106的用户语音进行解码。这是实际的解码或识别任务,通过这些任务,输入用户的语音并将语音进行解码以生成表示输入语音的转录(即,识别结果)。将认识到,可以在根据本发明的实施例的基于样例的训练方法中通过生成和使用稀疏表示特征来提高识别性能。
尽管未具体示出,但是应该理解,语音识别系统106可包括诸如语音发声预处理器和特征提取器之类的前端处理组件。语音发声预处理器接收通常形式为测试或实时发声的用户语音,并且生成代表性语音波形(即,语音信号)。语音发声预处理器可以包括例如音频转换器(例如,麦克风)和数模转换器,它们分别在操作上将所接收的发声转换为模拟电子信号,然后优选地将模拟信号转换为所接收发声的数字信号表示。此外,语音发声预处理器可以以预定间隔对语音信号进行采样并将信号分为重叠帧,以便系统的其余部分能够单独处理每个帧。来自语音发声预处理器的输出信号是采样后的语音波形或语音信号,所述语音波形或语音信号优选地被记录并被提供给特征提取器。
特征提取器接收语音信号并且如本领域中公知的那样,以预定(例如,定期)间隔(例如每隔10毫秒)从信号中提取倒谱特征。倒谱特征优选地采取语音或特征向量(信号)的形式。与实时语音发声的至少一部分关联的特征向量由特征提取器输出并被传递到语音识别引擎,该引擎使用SR训练后的声学模型对实时应用(用户语音)期间接收的语音数据进行解码以生成识别结果。
现在转到对根据本发明的基于稀疏表示(SR)样例的训练方法的描述,图2示出此类基于稀疏表示样例的训练方法的一个实施例。
方法200从步骤202开始,其中获取测试向量和训练数据集。
在步骤204,选择所述训练数据集的子集以形成词典。所述训练数据集的子集可称为样例。
在步骤206,将测试向量与训练数据集的选定子集一起映射为通过稀疏约束值加权的线性组合。所述映射形成新的测试特征集。根据此新的测试特征集,训练数据受某种预定稀疏度的影响而移动到更靠近测试数据。
在步骤208,针对所述新的特征集训练语音识别系统所使用的声学模型(多个)。如上所述,这些SR训练后的声学模型然后被语音识别引擎用于以提高的识别性能对输入的用户语音进行解码。
例如,给定测试向量y和来自训练集的样例集hi,将这些样例集放入词典H=[h1;h2...;hn]中,通过求解受施加于β的稀疏约束影响的y=Hβ,将y表示为训练实例的线性组合。可以将特征Hβ视为将测试样本y映射回H中的训练实例的线性范围(图2中的步骤206)。已证明与GMM相比,SR方法的帧分类准确性更高,其中不仅Hβ表示使测试特征移动到更靠近训练,而且它还使这些特征移动到更靠近正确的类别。给定这些新的Hβ特征集,针对这些特征充分训练HMM(即,SR训练后的声学模型104)并执行识别(即,在语音识别系统106中)。
为了创建SR特征集,首先考虑获取类别i中的所有训练实例ni并将它们串接成矩阵Hi作为列,即,
Figure BDA0000093323130000051
其中x∈Rm表示类别为i的训练集中的特征向量且维度为m。给定来自类别i的充足训练实例,来自同一类别的测试样本y∈Rm可以表示为Hi中的表项的线性组合,所述线性组合通过β进行加权,也就是说:
y = β i , 1 x i , 1 + β i , 2 x i , 2 + . . . + β i , n i x i , n i - - - ( 1 )
但是,由于y的类别成员资格未知,因此将矩阵H定义为包括来自训练集中k个不同类别的训练实例,即,H的列被定义为此处m为每个特征向量x的维度,N为来自所有类别的所有训练实例的总数。H可被视为过完备词典,其中m<<N。然后可以将测试向量y写为所有训练实例的线性组合,即y=Hβ。理想地,最佳β应是稀疏的,并且仅对于H中与y属于同一类别的元素为非零值。因此理想地,y将自身指定为位于它所属的正确类别的训练集实例的线性范围内。例如,假设H由来自五个类别的特征组成并且y属于类别0。然后,H中与类别0对应的β值将很高,而属于不正确类别的其他β值将接近0。
因此,根据本发明的一个实施例,求解受施加于β的稀疏约束影响的问题y=Hβ。将理解,施加于β的稀疏约束充当正则化项以防止过拟合,并且通常允许优于没有稀疏的分类性能。
可以使用各种SR方法求解β。例如,本领域的技术人员将理解,可以使用诸如Lasso方法、弹性网络方法、Dantzig Selector方法、OMP方法以及Cosamp方法之类的各种方法计算β。根据本发明的一个实施例,使用向β施加l1和l2正则化组合的近似贝叶斯压缩感知(ABCS)方法求解β。
在ABCS方法中,使用CS(压缩感知)求解下面的问题:
y=Hβ,使得满足对于β,
Figure BDA0000093323130000054
此处
Figure BDA0000093323130000061
表示稀疏性提升半高斯约束,将在下文对其进行详细描述。此外,y是来自测试集的数据帧,使得y∈Rm,其中m为特征向量y的维度。H为训练实例的矩阵并且H∈Rm×n,其中m<<n。假设y满足线性模型:y=Hβ+ζ,其中ζ~N(0,R)。这允许将p(y|β)表示为高斯分布:
p(y|β)μ exp(-1/2(y-Hβ)TR-1(y-Hβ))                 (3)
假设β为具有某个先验值p(β)的随机参数,可以在给定y的情况下获取β的最大后验(MAP)估计,如下所示:β*=arg maxβp(β|y)=maxβp(y|β)p(β)。在ABCS公式中,假设p(β)实际上是两个先验约束(即,一个高斯约束pG(β)和一个半高斯约束pSG(β))的乘积。下面,提供两步解决方法来求解ABCS框架中的以下问题。
β * = arg max β p ( y | β ) p G ( β ) p SG ( β ) - - - ( 4 )
在步骤1中,求解最大化以下表达式的β。方程5等价于求解方程y=Hβ,只是没有向β施加稀疏约束。
β * = arg max β p ( y | β ) p G ( β ) - - - ( 5 )
假设pG(β)为高斯约束,即pG(β)=N(β|β0,P0)。此处β0和P0是在算法中使用的初始化后的统计动差。可以证明,方程5的解具有由方程6给出的闭合形式的解。
β*=β1=(I-P0HT(HP0HT+R)-1H)β0+
P0HT(HP0HT+R)-1y                        (6)
类似地,可以将β1的方差表示为P1=E[(β-β1)(β-β1)T],此方差由方程7更显式地给出。
P1=(I-P0HT(HP0HT+R)-1H)P0    (7)
步骤1本质上求解y=Hβ的伪逆矩阵,该矩阵具有很多解。在步骤2,施加额外的约束,以便β具有稀疏提升半高斯先验值,如方程8给出的那样。此处σ2是控制β的稀疏度的恒定参数。
p SG ( β ) = exp ( - | | β | | 1 2 2 σ 2 ) - - - ( 8 )
给定步骤1中方程6和方程7的解,可以简单地将方程5改写为另一高斯约束p′(β|y)=p(y|β)pG(β)=N(β|β1,P1)。因此,现在假设在约束为半高斯约束的情况下求解β的MAP估计,换言之:
β * = arg max β p ′ ( β | y ) p SG ( β ) - - - ( 9 )
为了按照方程3中表示p(y|β)的方式将pSG(β)表示为高斯约束,将βi定义为向量β的第i个项。引入矩阵
Figure BDA0000093323130000073
对于i=1,...,n,该矩阵的元(entry)设为此处对于βi>0,
Figure BDA0000093323130000075
对于βi<0,
Figure BDA0000093323130000076
并且对于βi=0,
Figure BDA0000093323130000077
该矩阵
Figure BDA0000093323130000078
通过以下方程给出:
| | β | | 1 2 = ( Σ i ( | β i | ) ) 2 = ( Σ i ( H ^ i ( β i ) β i ) ) 2 = ( H ^ β ) 2 - - - ( 10 )
使用该表达式代替方程10中给出的
Figure BDA00000933231300000710
并假设y=0,可以将方程8改写为方程11。注意,方程11与方程3形式相同,只是H和R现在分别被
Figure BDA00000933231300000711
和σ替代。
p SG ( β ) = p ( y = 0 | β ) = exp ( - ( 0 - H ^ β ) 2 2 σ 2 ) - - - ( 11 )
使用方程9求解β的唯一问题是对方程6中的β的依赖性。因此,通过根据之前估计的β的符号计算
Figure BDA00000933231300000714
来做出假设。换言之,
Figure BDA00000933231300000715
通过此近似,可以使用方程6和方程7求解方程11。但是,由于此半高斯近似,必须迭代地估计β和P。此迭代还要求将σ2设为σ2×d,其中d是步骤2中迭代的总数。方程12给出递归公式,对于k>1到d,该公式在迭代k处解出方程9。注意p′(β|y)=N(β|βk-1,Pk-1)。
β k = β k - 1 - P k - 1 H T ^ H ^ P k - 1 H T ^ + d × σ 2 H ^ β k - 1 - - - ( 12 )
P k = [ I - P k - 1 H T ^ H ^ P k - 1 H T ^ + d × σ 2 ] P k - 1 - - - ( 13 )
可以证明,对于较大的σ2和k,使用方程11中给出的近似半高斯对β和P的估计以通过O(1/σ2)在方程8中给出的真实半高斯的这些参数的估计为界限。
将理解,语音信号由一系列特征向量Y={y1,y2...yn}定义,例如美尔倒频谱系数(MFCC)。对于每个测试样本yt∈Y,选择适当的Ht,然后求解yt=Ht βt以通过ABCS计算βt。然后,给定该βt的情况下,形成相应的Ht βt向量。因此,在每个帧处创建一系列Hβ向量{H1 β1,H2 β2...Hn βn}。针对训练和测试都创建稀疏表示特征。在给定此新的特征集的情况下,然后训练HMM并在此新的特征空间中执行识别。
已经说明了在给定y和H的情况下求解β的示例性方法,现在介绍如何度量将测试向量y映射回H中的训练实例的线性范围的质量。可以通过查看y和与特定类别对应的Hβ项之间的残余误差来度量y将自身指定给H中的不同类别的效果。理想地,β中的所有非零项都应对应于H中与y具有相同类别的项,并且残余误差在该类别中将是最小的。更具体地说,将选择器δi(β)∈RN定义为这样的向量:除了β中与类别i对应的项之外,该向量的各项均为非零值。然后计算类别i的残余误差||y-Hδ(β)||2。y的最佳类别是具有最小残余误差的类别。在数学上,最佳类别i*定义为
i * = min i | | y - H δ i ( β ) | | 2 - - - ( 10 )
稀疏表示特征的成功取决于适当地选择词典H(图2中的步骤204)。将所有类别中的所有训练数据汇集到H中将使H的列非常大(通常为数百万个帧),并且使得β的求解异常困难。因此,下面介绍从大型样本集中选择H的各种方法。前面提到过,针对每个帧y选择H,然后使用ABCS找到β以便针对每个帧创建Hβ特征。
通过最近邻排种H
对于每个y,在训练集中找到y的最近邻域点。这k个邻居成为H的项。在kNN过程中,给定测试向量y,计算y与训练数据中的所有点之间的欧氏距离。选择训练数据中与y距离最小的k个最近点作为k个最近邻。为训练和测试两者创建Hβ特征集,但是始终使用来自训练数据的数据排种H。为了避免针对训练集过度训练Hβ特征,规定仅当针对训练创建Hβ特征时,才从训练中选择与帧y对应的发音者不同的发音者的样本。
作为使用kNN方法的一个实例,给定测试向量y,所述方法使用kd树在训练集中找到该向量的k个最近邻。来自训练集的k个最近邻串接成敏感度矩阵作为列。下一步是将测试数据和敏感度矩阵与查找稀疏分类器的优化问题进行关联,所述稀疏分类器在敏感度矩阵上是线性形式并且使训练数据受预定稀疏度的影响而移动到最靠近测试数据。通过找到稀疏分类器而解决所述优化问题。通过使用稀疏分类器将敏感度矩阵映射到特征空间而创建新的特征空间。然后所述方法包括针对新的特征空间参数模型进行训练并应用使用这些模型的解码方法。
尽管这种kNN方法针对较小词汇表任务而言在计算上是可行的,但是对于大型词汇表任务使用kNN的计算成本非常高。为了解决此问题,在下面介绍其他排种H的实施例,从而满足大词汇表应用的要求。
使用三元语言模型
理想地,在给定帧处通常仅对较小的高斯分布(Gaussians)子集求值,因此可以使用属于该较小子集的训练数据排种H。为了确定每个帧处的这些高斯分布,使用三元语言模型(LM)对数据进行解码,找到每个帧处的最佳对准高斯分布(GMM)。对于每个高斯分布,计算距离此高斯分布最近的其他四个高斯分布。在此,通过查找高斯分布对的均值之间具有最小欧氏距离的高斯分布对来定义接近度。找到特定帧处的前五个高斯分布之后,使用对准这前五个高斯分布的训练数据排种H。由于这通常在H中仍达到数千个训练样本,因此进一步对此进行采样。以下在“采样选择”中描述了一种优选的采样方法。还使用前十个而非前五个高斯分布比较排种H。
使用一元语言模型
使用三元语言模型(LM)的一个问题是,以与最佳对准高斯分布相关的帧排种H实质上将y向下投射回最初识别该y的同一高斯分布。因此,为了增加用于排种H的高斯分布与来自三元LM解码的最佳对准高斯分布之间的可变性,在一个备选实施例中,使用一元LM查找每个帧处的最佳对准高斯分布。再次地,给定最佳对准高斯分布,找到四个距离此高斯分布最近的高斯分布并且使用来自这五个高斯分布的数据排种H。
不使用语言模型信息
为了进一步弱化LM的作用,在一个备选实施例中,仅使用声学信息排种H。即,在每个帧处,查找五个最高评分的高斯分布。使用对准这些高斯分布的训练数据排种H。
强制唯一音素
通过查找相对于最佳对准高斯分布的五个最近高斯分布来排种H的另一问题是所有这些高斯分布可能来自同一音素(即,音素“AA”)。因此,在一个备选实施例中,查找相对于最佳对准高斯分布的五个最近高斯分布,以使这些高斯分布的音素身份是唯一的(即,“AA”、“AE”、“AW”等)。然后从对准这五个高斯分布的帧来排种H。
使用高斯均值
上述排种H的方法使用来自训练集的实际实例,其计算成本非常高。为了解决此问题,在一个备选实施例中,提出从高斯均值排种H。即,在每个帧处,使用三元L M查找最佳对准高斯分布。然后,查找最接近此最佳高斯分布的499个高斯分布,然后使用这500个高斯分布的均值排种H。
现在描述两个不同的用于对该数据的子集进行采样以排种H的实施例。
随机采样
对于希望从中选择训练数据的每个高斯分布,提出从对准该高斯分布的训练帧全集随机采样N个训练实例。针对五个最近高斯分布中的每个高斯分布重复此过程。随着“接近度”的降低,N的大小减小。例如,对于五个最接近的高斯分布,从每个高斯分布选择的数据点N的数目分别为200、100、100、50和50。
基于余弦相似度进行采样
尽管随机采样提供相对较快的方法来选择训练实例的子集,但是它不一定保证从此高斯分布中选择实际靠近帧y的“好的实例”。备选地,提出将对准高斯分布的训练点分割为远离高斯均值的1σ、2σ等。此处σ被选择为对准此高斯分布的训练点的总数除以希望从此高斯分布采样的样本N的数量。然后在每个σ集合中,查找与测试点y具有最接近的余弦相似度的训练点。针对所有1σ、2σ等值重复此过程。再次地,随着“接近度”的降低,从每个高斯分布获取的样本数减小。
本领域的技术人员将理解,本发明的各方面可以体现为系统、装置、方法或计算机程序产品。因此,本发明的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合了在此通常被称为“电路”、“模块”或“系统”的软件和硬件方面的实施例的形式。此外,本发明的各方面可以采取体现在一个或多个计算机可读介质(在介质中具有计算机可用程序代码)中的计算机程序产品的形式。
可以使用一个或多个计算机可读介质的任意组合。所述计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是(例如但不限于)电、磁、光、电磁、红外线或半导体系统、装置、设备或它们的的任何适当组合。计算机可读存储介质的更具体实例(非穷举列表)将包括以下项:具有一条或多条线的电连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦写可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光存储设备、磁存储设备或它们的的任何适当组合。在本文档的上下文中,计算机可读存储介质可以是任何能够包含或存储由指令执行系统、装置或设备使用或与所述指令执行系统、装置或设备结合的程序的有形介质。
计算机可读信号介质可以包括其中包含计算机可读程序代码(例如,在基带中或作为载波的一部分)的传播数据信号。此类传播信号可以采取多种形式中的任何形式,其中包括但不限于电磁、光或它们的任何适当组合。计算机可读信号介质可以是计算机可读存储介质以外的任何能够传送、传播或传输由指令执行系统、装置或设备使用或与所述指令执行系统、装置或设备结合的程序的计算机可读介质。
可以使用任何适当的介质(包括但不限于无线、有线、光缆、RF等或它们的任何适当组合)来传输计算机可读介质中包含的程序代码。
用于执行本发明的各方面的操作的计算机程序代码可以使用一种或多种编程语言的任意组合来编写,所述编程语言包括诸如Java、Smalltalk、C++之类的面向对象的编程语言或类似语言以及诸如“C”编程语言之类的常规过程编程语言或类似编程语言。所述程序代码可以完全地在用户计算机上执行,部分地在用户计算机上执行、作为独立的软件包、部分地在用户计算机上并部分地在远程计算机上执行,或者完全地在远程计算机或服务器上执行。在后者的情况中,远程计算机可以通过包括局域网(LAN)或广域网(WAN)的任何类型网络与用户的计算机相连,也可以与外部计算机进行连接(例如,使用因特网服务提供商通过因特网连接)。
此处参考根据本发明的实施例的方法、装置(系统)和计算机程序产品的流程图和/或方块图对本发明的各方面进行描述。将理解,所述流程图和/或方块图的每个方块以及所述流程图和/或方块图中的方块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,以便通过所述计算机或其他可编程数据处理装置的处理器执行的所述指令产生用于实现在一个或多个流程图和/或方块图方块中指定的功能/操作的装置。
这些计算机程序指令也可以被存储在可引导计算机、其他可编程数据处理装置或其他设备以特定方式执行功能的计算机可读介质中,以便存储在所述计算机可读介质中的指令产生一件包括实现在所述一个或多个流程图和/或方块图方块中指定的功能/操作的指令的制品。
所述计算机程序指令还可被加载到计算机、其他可编程数据处理装置或其他设备,以导致在所述计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机实现的过程,从而在所述计算机或其他可编程装置上执行的指令提供用于实现在一个或多个流程图和/或方块图方块中指定的功能/操作的过程。
再次参考图1A、1B和2,附图中的示意图示出了根据本发明的各种实施例的系统、方法和计算机程序产品的可能实施方式的架构、功能和操作。在此方面,所述流程图或方块图中的每个方块都可以表示代码的模块、段或部分,所述代码包括用于实现指定的逻辑功能(多个)的一个或多个可执行指令。还应指出,在某些备选实施方式中,在方块中说明的功能可以不按图中说明的顺序发生。例如,示为连续的两个方块可以实际上被基本同时地执行,或者某些时候,取决于所涉及的功能,可以以相反的顺序执行所述方块。还应指出,所述方块图和/或流程图的每个方块以及所述方块图和/或流程图中的方块的组合可以由执行指定功能或操作的基于专用硬件的系统或专用硬件和计算机指令的组合来实现。
因此,例如如图1A、1B和2中所描述的本发明的技术还可以包括(如此处所述)提供一种系统,其中所述系统包括不同的模块(例如,模块包括软件、硬件或软件和硬件)。仅作为实例,所述模块可以包括但不限于稀疏表示训练引擎模块、语音发声预处理器模块、特征提取器模块、语音识别引擎模块以及声学模型存储模块。这些以及其他模块也可以被配置为例如执行图1A、1B和2的上下文中描述和说明的步骤。
一个或多个实施例可以利用通用计算机或工作站上运行的软件。参考图3,此类实施方式300采用例如处理器302、存储器304以及例如由显示器306和键盘308构成的输入/输出接口。此处所用的术语“处理器”旨在包括任何处理设备,例如包括CPU(中央处理单元)和/或其他形式的处理电路的处理设备。此外,术语“处理器”可以指多个单独的处理器。术语“存储器”旨在包括与处理器或CPU关联的存储器,例如RAM(随机存取存储器)、ROM(只读存储器)、固定存储设备(例如,硬盘驱动器)、可移动存储设备(例如,软盘)、闪存等。此外,此处所用的短语“输入/输出接口”旨在包括例如一个或多个用于将数据输入处理单元的装置(例如,键盘或鼠标)以及一个或多个用于提供与处理单元关联的结果的装置(例如,显示器或打印机)。
处理器302、存储器304以及诸如显示器306和键盘308之类的输入/输出接口可以例如通过作为数据处理单元312一部分的总线310互连。还可以例如通过总线310提供到诸如网卡之类的网络接口314(可用于与计算机网络对接)以及提供到诸如软盘或CD-ROM驱动器之类的介质接口316(可用于与介质318对接)的适当互连。
适于存储和/或执行程序代码的数据处理系统可包括至少一个直接或通过系统总线310间接连接到存储元件304的处理器302。所述存储元件可以包括在程序代码的实际执行期间采用的本地存储器、大容量存储装置以及提供至少某些程序代码的临时存储以减少必须在执行期间从大容量存储装置检索代码的次数的高速缓冲存储器。
输入/输出或I/O设备(包括但不限于键盘308、显示器306、指点设备、麦克风等)可以直接(例如通过总线310)或通过中间I/O控制器(为清晰起见省略)与系统相连。
诸如网络接口314之类的网络适配器也可以被连接到系统以使所述数据处理系统能够通过中间专用或公共网络变得与其他数据处理系统或远程打印机或存储设备相连。调制解调器、电缆调制解调器和以太网卡只是几种当前可用类型的网络适配器。
如此处使用的,“服务器”包括运行服务器程序的物理数据处理系统(例如,图3中所示的系统312)。将理解,此类物理服务器可能包括,也可能不包括显示器或键盘。
将理解并应认识到的是,以上描述的本发明的示例性实施例可以通过多种不同的方式实现。给出此处提供的本发明的教导的情况下,本领域的技术人员将能够构想本发明的其他实现方式。实际上,尽管此处参考附图描述了本发明的示例性实施例,但是将理解,本发明并不限于这些精确的实施例,并且在不偏离本发明的范围或精神的情况下,本领域的技术人员可以做出各种其他更改和修改。

Claims (24)

1.一种方法,包括:
获取与语音识别系统关联的测试向量和训练数据集;
选择所述训练数据集的子集;
将所述测试向量与所述训练数据集的选定子集一起映射为由稀疏约束加权的线性组合以便形成新的测试特征集,其中由于所述稀疏约束而使所述训练数据集移动到更靠近所述测试向量;以及
针对所述新的测试特征集训练声学模型。
2.如权利要求1中所述的方法,还包括使用针对所述新的测试特征集训练的声学模型对输入所述语音识别系统的用户语音进行解码。
3.如权利要求1中所述的方法,其中选择步骤进一步包括选择所述训练数据集的所述子集作为所述测试向量在所述训练数据集中的k个最近邻。
4.如权利要求1中所述的方法,其中选择步骤进一步包括根据三元语言模型选择所述训练数据集的所述子集。
5.如权利要求1中所述的方法,其中选择步骤进一步包括根据一元语言模型选择所述训练数据集的所述子集。
6.如权利要求1中所述的方法,其中选择步骤进一步包括仅根据声学信息选择所述训练数据集的所述子集。
7.如权利要求6中所述的方法,其中声学信息选择步骤进一步包括使用具有唯一音素身份的声学信息。
8.如权利要求6中所述的方法,其中所述声学信息包括给定数量的最高得分高斯混合模型。
9.如权利要求1中所述的方法,其中选择步骤进一步包括根据高斯均值选择所述训练数据集的所述子集。
10.如权利要求1中所述的方法,其中选择步骤进一步包括根据随机采样选择所述训练数据集的所述子集。
11.如权利要求1中所述的方法,其中选择步骤进一步包括根据余弦相似度采样选择所述训练数据集的所述子集。
12.如权利要求1中所述的方法,其中映射步骤进一步包括求解方程y=Hβ,其中y是所述测试向量,H是所述训练数据集的选定子集,并且β是稀疏约束值。
13.如权利要求12中所述的方法,其中使用近似贝叶斯压缩感知方法计算β。
14.一种装置,包括:
存储器;以及
处理器,所述处理器在操作上耦合到所述存储器并被配置为执行以下步骤:
获取与语音识别系统关联的测试向量和训练数据集;
选择所述训练数据集的子集;
将所述测试向量与所述训练数据集的选定子集一起映射为由稀疏约束加权的线性组合以便形成新的测试特征集,其中由于所述稀疏约束而使所述训练数据集移动到更靠近所述测试向量;以及
针对所述新的测试特征集训练声学模型。
15.如权利要求14中所述的装置,其中所述处理器还被配置为使用针对所述新的测试特征集训练的声学模型对输入所述语音识别系统的用户语音进行解码。
16.如权利要求14中所述的装置,其中选择步骤进一步包括选择所述训练数据集的所述子集作为所述测试向量在所述训练数据集中的k个最近邻。
17.如权利要求14中所述的装置,其中选择步骤进一步包括根据三元语言模型选择所述训练数据集的所述子集。
18.如权利要求14中所述的装置,其中选择步骤进一步包括根据一元语言模型选择所述训练数据集的所述子集。
19.如权利要求14中所述的装置,其中选择步骤进一步包括仅根据声学信息选择所述训练数据集的所述子集。
20.如权利要求14中所述的装置,其中选择步骤进一步包括根据高斯均值选择所述训练数据集的所述子集。
21.如权利要求14中所述的装置,其中选择步骤进一步包括根据随机采样选择所述训练数据集的所述子集。
22.如权利要求14中所述的装置,其中选择步骤进一步包括根据余弦相似度采样选择所述训练数据集的所述子集。
23.如权利要求14中所述的装置,其中映射步骤进一步包括求解方程y=Hβ,其中y是所述测试向量,H是所述训练数据集的选定子集,并且β是稀疏约束值。
24.如权利要求23中所述的装置,其中使用近似贝叶斯压缩感知方法计算β。
CN2011102828268A 2010-09-24 2011-09-22 处理语音识别的稀疏表示特征的方法和系统 Pending CN102419974A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/889,845 US8484023B2 (en) 2010-09-24 2010-09-24 Sparse representation features for speech recognition
US12/889,845 2010-09-24

Publications (1)

Publication Number Publication Date
CN102419974A true CN102419974A (zh) 2012-04-18

Family

ID=45871520

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011102828268A Pending CN102419974A (zh) 2010-09-24 2011-09-22 处理语音识别的稀疏表示特征的方法和系统

Country Status (2)

Country Link
US (1) US8484023B2 (zh)
CN (1) CN102419974A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021406A (zh) * 2012-12-18 2013-04-03 台州学院 基于压缩感知的鲁棒性语音情感识别方法
CN103268765A (zh) * 2013-06-04 2013-08-28 沈阳空管技术开发有限公司 民航管制语音稀疏编码方法
CN103594084A (zh) * 2013-10-23 2014-02-19 江苏大学 联合惩罚稀疏表示字典学习的语音情感识别方法及系统
CN104021797A (zh) * 2014-06-19 2014-09-03 南昌大学 一种基于频域稀疏约束的语音信号增强方法
US9761239B2 (en) 2014-06-24 2017-09-12 Huawei Technologies Co., Ltd. Hybrid encoding method and apparatus for encoding speech or non-speech frames using different coding algorithms
CN107403628A (zh) * 2017-06-30 2017-11-28 天津大学 一种基于压缩感知的语音信号重构方法

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8566270B2 (en) * 2010-09-24 2013-10-22 Nuance Communications, Inc. Sparse representations for text classification
KR20120046627A (ko) * 2010-11-02 2012-05-10 삼성전자주식회사 화자 적응 방법 및 장치
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) * 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
CN102664010B (zh) * 2012-05-04 2014-04-16 山东大学 一种基于多因素频率位移不变特征的鲁棒说话人辨别方法
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
US9412373B2 (en) * 2013-08-28 2016-08-09 Texas Instruments Incorporated Adaptive environmental context sample and update for comparing speech recognition
CN103474066B (zh) * 2013-10-11 2016-01-06 福州大学 基于多频带信号重构的生态声音识别方法
US9953646B2 (en) 2014-09-02 2018-04-24 Belleau Technologies Method and system for dynamic speech recognition and tracking of prewritten script
CN104978972B (zh) * 2015-05-07 2018-08-10 大连民族学院 基于超完备傅里叶基的语音信号稀疏表示方法
US10141009B2 (en) 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
US9824692B1 (en) 2016-09-12 2017-11-21 Pindrop Security, Inc. End-to-end speaker recognition using deep neural network
US10325601B2 (en) 2016-09-19 2019-06-18 Pindrop Security, Inc. Speaker recognition in the call center
WO2018053518A1 (en) 2016-09-19 2018-03-22 Pindrop Security, Inc. Channel-compensated low-level features for speaker recognition
US10553218B2 (en) 2016-09-19 2020-02-04 Pindrop Security, Inc. Dimensionality reduction of baum-welch statistics for speaker recognition
US10397398B2 (en) 2017-01-17 2019-08-27 Pindrop Security, Inc. Authentication using DTMF tones
CN108597534B (zh) * 2018-04-09 2021-05-14 中国人民解放军国防科技大学 基于卷积框架的语音信号稀疏表示方法
US11355103B2 (en) 2019-01-28 2022-06-07 Pindrop Security, Inc. Unsupervised keyword spotting and word discovery for fraud analytics
WO2020163624A1 (en) 2019-02-06 2020-08-13 Pindrop Security, Inc. Systems and methods of gateway detection in a telephone network
WO2020198354A1 (en) 2019-03-25 2020-10-01 Pindrop Security, Inc. Detection of calls from voice assistants
CN113065449B (zh) * 2021-03-29 2022-08-19 济南大学 面部图像采集方法、装置、计算机设备及存储介质
CN114512124B (zh) * 2022-03-28 2022-07-26 北京沃丰时代数据科技有限公司 端到端语音识别方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640487A (en) * 1993-02-26 1997-06-17 International Business Machines Corporation Building scalable n-gram language models using maximum likelihood maximum entropy n-gram models
EP1047046A2 (en) * 1999-04-20 2000-10-25 Matsushita Electric Industrial Co., Ltd. Distributed architecture for training a speech recognition system
CN1301379A (zh) * 1998-04-15 2001-06-27 微软公司 语音识别系统的动态可配置声模型
EP1199708A2 (en) * 2000-10-16 2002-04-24 Microsoft Corporation Noise robust pattern recognition
US20110218804A1 (en) * 2010-03-02 2011-09-08 Kabushiki Kaisha Toshiba Speech processor, a speech processing method and a method of training a speech processor

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2696036B1 (fr) 1992-09-24 1994-10-14 France Telecom Procédé de mesure de ressemblance entre échantillons sonores et dispositif de mise en Óoeuvre de ce procédé.
US7054810B2 (en) * 2000-10-06 2006-05-30 International Business Machines Corporation Feature vector-based apparatus and method for robust pattern recognition
US7502737B2 (en) 2002-06-24 2009-03-10 Intel Corporation Multi-pass recognition of spoken dialogue
WO2004064040A1 (en) 2003-01-15 2004-07-29 Siemens Corporate Research Inc. A method for processing speech
US7464031B2 (en) * 2003-11-28 2008-12-09 International Business Machines Corporation Speech recognition utilizing multitude of speech features
US7240042B2 (en) * 2004-08-25 2007-07-03 Siemens Medical Solutions Usa, Inc. System and method for biological data analysis using a bayesian network combined with a support vector machine
US7676371B2 (en) 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
US8195734B1 (en) * 2006-11-27 2012-06-05 The Research Foundation Of State University Of New York Combining multiple clusterings by soft correspondence
US8406525B2 (en) * 2008-01-31 2013-03-26 The Regents Of The University Of California Recognition via high-dimensional data classification
US9293130B2 (en) * 2008-05-02 2016-03-22 Nuance Communications, Inc. Method and system for robust pattern matching in continuous speech for spotting a keyword of interest using orthogonal matching pursuit
US8301624B2 (en) * 2009-03-31 2012-10-30 Yahoo! Inc. Determining user preference of items based on user ratings and user features
US8326787B2 (en) * 2009-08-31 2012-12-04 International Business Machines Corporation Recovering the structure of sparse markov networks from high-dimensional data
US8527566B2 (en) * 2010-05-11 2013-09-03 International Business Machines Corporation Directional optimization via EBW
US8566270B2 (en) * 2010-09-24 2013-10-22 Nuance Communications, Inc. Sparse representations for text classification
US8484024B2 (en) * 2011-02-24 2013-07-09 Nuance Communications, Inc. Phonetic features for speech recognition

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5640487A (en) * 1993-02-26 1997-06-17 International Business Machines Corporation Building scalable n-gram language models using maximum likelihood maximum entropy n-gram models
CN1301379A (zh) * 1998-04-15 2001-06-27 微软公司 语音识别系统的动态可配置声模型
EP1047046A2 (en) * 1999-04-20 2000-10-25 Matsushita Electric Industrial Co., Ltd. Distributed architecture for training a speech recognition system
EP1199708A2 (en) * 2000-10-16 2002-04-24 Microsoft Corporation Noise robust pattern recognition
US20110218804A1 (en) * 2010-03-02 2011-09-08 Kabushiki Kaisha Toshiba Speech processor, a speech processing method and a method of training a speech processor

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
TARA N. SAINATH, AVISHY CARMI, DIMITRI KANEVSKY AND BHUVANA RAMA: "Bayesian compressive sensing for phonetic classification", 《ACOUSTICS SPEECH AND SIGNAL PROCESSING (ICASSP), 2010 IEEE INTERNATIONAL CONFERENCE ON》, 19 March 2010 (2010-03-19), pages 4370 - 4373, XP031697565 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103021406A (zh) * 2012-12-18 2013-04-03 台州学院 基于压缩感知的鲁棒性语音情感识别方法
CN103021406B (zh) * 2012-12-18 2014-10-22 台州学院 基于压缩感知的鲁棒性语音情感识别方法
CN103268765A (zh) * 2013-06-04 2013-08-28 沈阳空管技术开发有限公司 民航管制语音稀疏编码方法
CN103268765B (zh) * 2013-06-04 2015-06-17 沈阳空管技术开发有限公司 民航管制语音稀疏编码方法
CN103594084A (zh) * 2013-10-23 2014-02-19 江苏大学 联合惩罚稀疏表示字典学习的语音情感识别方法及系统
CN103594084B (zh) * 2013-10-23 2016-05-25 江苏大学 联合惩罚稀疏表示字典学习的语音情感识别方法及系统
CN104021797A (zh) * 2014-06-19 2014-09-03 南昌大学 一种基于频域稀疏约束的语音信号增强方法
US9761239B2 (en) 2014-06-24 2017-09-12 Huawei Technologies Co., Ltd. Hybrid encoding method and apparatus for encoding speech or non-speech frames using different coding algorithms
US10347267B2 (en) 2014-06-24 2019-07-09 Huawei Technologies Co., Ltd. Audio encoding method and apparatus
US11074922B2 (en) 2014-06-24 2021-07-27 Huawei Technologies Co., Ltd. Hybrid encoding method and apparatus for encoding speech or non-speech frames using different coding algorithms
CN107403628A (zh) * 2017-06-30 2017-11-28 天津大学 一种基于压缩感知的语音信号重构方法
CN107403628B (zh) * 2017-06-30 2020-07-10 天津大学 一种基于压缩感知的语音信号重构方法

Also Published As

Publication number Publication date
US20120078621A1 (en) 2012-03-29
US8484023B2 (en) 2013-07-09

Similar Documents

Publication Publication Date Title
CN102419974A (zh) 处理语音识别的稀疏表示特征的方法和系统
CN107680582B (zh) 声学模型训练方法、语音识别方法、装置、设备及介质
Ghosh et al. Representation learning for speech emotion recognition.
Ferrer et al. Study of senone-based deep neural network approaches for spoken language recognition
WO2021174757A1 (zh) 语音情绪识别方法、装置、电子设备及计算机可读存储介质
US11264044B2 (en) Acoustic model training method, speech recognition method, acoustic model training apparatus, speech recognition apparatus, acoustic model training program, and speech recognition program
Xu et al. Explore wav2vec 2.0 for Mispronunciation Detection.
US9058811B2 (en) Speech synthesis with fuzzy heteronym prediction using decision trees
CN110349597B (zh) 一种语音检测方法及装置
US20140278412A1 (en) Method and apparatus for audio characterization
Kamper et al. Fully unsupervised small-vocabulary speech recognition using a segmental bayesian model
Ferrer et al. Spoken language recognition based on senone posteriors.
Li et al. Speaker verification using simplified and supervised i-vector modeling
KR20160059265A (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
KR102406512B1 (ko) 음성인식 방법 및 그 장치
Soliman et al. Isolated word speech recognition using convolutional neural network
Chen et al. Speech representation learning through self-supervised pretraining and multi-task finetuning
Aradilla Acoustic models for posterior features in speech recognition
Pan et al. Robust Speech Recognition by DHMM with A Codebook Trained by Genetic Algorithm.
Tong et al. Graph convolutional network based semi-supervised learning on multi-speaker meeting data
EP3423989A1 (en) Uncertainty measure of a mixture-model based pattern classifer
Hegde et al. A Multiple Classifier System for Automatic Speech Recognition
Vidal et al. Mispronunciation detection using self-supervised speech representations
CN116153337B (zh) 合成语音溯源取证方法及装置、电子设备及存储介质
US8744981B1 (en) Method and apparatus for machine learning using a random projection

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20120418