CN1953050A - 用于确定语音/非语音的装置和方法 - Google Patents
用于确定语音/非语音的装置和方法 Download PDFInfo
- Publication number
- CN1953050A CN1953050A CNA2006101447605A CN200610144760A CN1953050A CN 1953050 A CN1953050 A CN 1953050A CN A2006101447605 A CNA2006101447605 A CN A2006101447605A CN 200610144760 A CN200610144760 A CN 200610144760A CN 1953050 A CN1953050 A CN 1953050A
- Authority
- CN
- China
- Prior art keywords
- speech
- frame
- unit
- model
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 27
- 230000009466 transformation Effects 0.000 claims abstract description 61
- 239000011159 matrix material Substances 0.000 claims abstract description 54
- 238000003860 storage Methods 0.000 claims abstract description 35
- 239000000284 extract Substances 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 8
- 230000000052 comparative effect Effects 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 230000003068 static effect Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 230000000630 rising effect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
第一存储单元存储变换矩阵,以及第二存储单元存储语音模型和非语音模型。划分单元将声信号划分成多个帧。提取单元从所述帧的声信号提取特征向量,变换单元对该特征向量进行线性变换,以及确定单元确定所述帧中的特定帧是语音帧还是非语音帧。
Description
技术领域
本发明涉及一种用于确定声信号是语音信号还是非语音信号的装置和方法。
背景技术
在一种用于确定声信号是语音信号还是非语音信号的常规方法中,从每个帧的声信号中提取特征值,并且通过将该特征值与阈值作比较,来确定该帧的声信号是语音信号还是非语音信号。所述特征值可以是短期功率(short term power)或者倒频谱。由于仅从单帧数据计算特征值,其自然不包含任何时变信息,因此对于语音/非语音信号确定的效果不是最佳的。
在N.Binder,K.Markov,R.Gruhn and S.Nakamura,“SPEECH-NON-SPEECH SEPARATION WITH GMMS”AcousticalSociety of Japan 2001 fall season symposium,Vol.1,pp.141-142,2001中公开的方法中,从多个帧的每个帧中提取的美尔频率倒频谱系数(MelFrequency Cepstrum Coefficient,MFCC)被结合以形成向量,并且该向量被用作为特征值。
当按照这种方式从多帧的数据中计算出特征向量时,特征向量包含时变信息,可以从中提取出时变信息。因此,可以提供这样的鲁棒系统,即使声信号包含噪声,其也能够确定该声信号是语音信号还是非语音信号。
另一方面,当从多帧的数据中提取出特征向量时,产生高维的特征向量,并且计算量也会不利地增长。一种已知的用于解决这个问题的方法是把高维特征向量变换成低维特征向量。这种变换可以通过利用变换矩阵进行线性变换的方式来实现。
主分量分析(Principal Component Analysis,PCA)和KL展开(Karhunen-Loeve Expansion)是变换矩阵的例子。例如,已在Ken-ichiroIshii,Naonori Ueda,Eisaku Maeda,and Hiroshi Murase,“Wakari-yasui(comprehensible)Pattern Recognition”,Ohm-sya,August20,1998,ISBN:4274131491中公开了一种常规技术。
然而,通过学习以提供基于通过在变换前学习而获得的样本的最佳逼近来获得变换矩阵。因此,在这种技术中无法选择最佳变换。
因而,要实现精确的语音/非语音信号确定,技术本身必须能够实现最佳变换,而不用考虑是否要把高维特征向量变换成低维特征向量或者把特定维数的特征向量变换成维数相同的另一特征向量。
发明内容
根据本发明的一个方面,语音/非语音确定装置包括:第一存储单元,用于存储变换矩阵,其中,基于从通过学习获得的已知样本计算的实际语音/非语音似然来计算所述变换矩阵;第二存储单元,用于存储语音模型和非语音模型,其中,基于存在于所述第一存储单元中的所述语音/非语音似然来计算所述语音模型和所述非语音模型;获取单元,用于获取声信号;划分单元,用于将所述声信号划分成多个帧;提取单元,用于从所述帧的声信号中提取特征向量;变换单元,利用存在于所述第一存储单元中的所述变换矩阵对所述特征向量进行线性变换,从而获得经线性变换的特征向量;以及确定单元,基于在所述经线性变换的特征向量和存在于所述第二存储单元中的所述语音模型及所述非语音模型之间的比较结果,确定所述帧中的每个帧是语音帧还是非语音帧。
根据本发明的另一个方面,一种确定语音/非语音的方法,包括步骤:获取声信号;将所述声信号划分成多个帧;从所述帧的声信号提取特征向量;利用变换矩阵对所述特征向量进行线性变换,其中该变换矩阵被存储在第一存储单元中,并且基于对于通过学习获得的预定样本所计算的实际语音/非语音似然来计算该变换矩阵;以及基于在经线性变换的特征向量和语音模型及非语音模型之间的比较结果,确定所述帧中的帧是语音帧还是非语音帧,其中所述语音模型和所述非语音模型被存储在第二存储单元中,并基于存在于所述第一存储单元中的所述语音/非语音似然来计算所述语音模型和所述非语音模型。
附图说明
图1是根据本发明第一实施例的语音区间检测装置的框图;
图2是由图1所示的语音区间检测装置执行的语音区间检测处理的流程图;
图3是用于解释检测语音的起点和终点的处理的示意图;
图4描述了图1所示的语音区间检测装置的硬件结构;
图5是根据本发明第二实施例的语音区间检测装置的框图;
图6是由图5所示的语音区间检测装置在学习模式下执行的参数更新处理的流程图。
具体实施方式
下面参考附图对根据本发明的装置和方法的示例性实施例进行详细的描述。本发明不限于下面所解释的实施例。
图1是根据本发明第一实施例的语音区间检测装置10的框图。语音区间检测装置10包括A/D转换单元100、帧划分单元102、特征提取单元104、特征变换单元106、模型比较单元108、语音/非语音确定单元110、语音区间检测单元112、特征变换参数存储单元120以及语音/非语音确定参数存储单元122。
A/D转换单元100通过以特定采样频率对模拟输入信号进行采样来将该模拟输入信号转换成数字信号。帧划分单元102把所述数字信号划分成特定数量的帧。特征提取单元104从所述帧的信号中提取出n维特征向量。
特征变换参数存储单元120存储将被用于变换矩阵的参数。
特征变换单元106通过使用所述变换矩阵,把所述n维特征向量线性地变换成m维特征向量(m<n)。应该注意到,n可以等于m。换句话说,所述特征向量可以被变换成维数相同但实质上不同的特征向量。
语音/非语音确定参数存储单元122存储语音模型参数和非语音模型参数。该语音模型参数和非语音模型参数将被与特征向量进行比较。
模型比较单元108基于对所述m维特征向量和通过预先学习获得的语音模型及非语音模型的比较,来计算评价值。从存在于语音/非语音确定参数存储单元122中的所述语音模型参数和所述非语音模型参数,来确定所述语音模型和所述非语音模型。
语音/非语音确定单元110通过将所述评价值与阈值进行比较,来确定所述帧中的每一帧是语音帧还是非语音帧。语音区间检测单元112基于由语音/非语音确定单元110获得的确定结果,来检测声信号中的语音区间。
图2是由语音区间检测装置10执行的语音区间检测处理的流程图。首先,A/D转换单元100从将被检测的语音区间中获得声信号,并将模拟声信号转换成数字声信号(步骤S100)。接下来,帧划分单元102将该数字声信号划分成特定数量的帧(步骤S102)。每帧的长度优选地从20毫秒到30毫秒,并且两个相邻帧之间的间隔优选地从10毫秒到20毫秒。汉明(Hamming)窗可以被用来将所述数字声信号划分成帧。
接下来,特征提取单元104从所述帧的声信号中提取n维特征向量(步骤S104)。具体而言,首先,从每一帧的声信号中提取MFCC。MFCC表示该帧的频谱特征。在语音识别领域,MFCC被广泛用作为特征值。
接下来,用等式1计算在特定时间t的函数增量(function delta)。函数增量是从对应于时间t的帧之前和之后的特定数量,例如3到6,的帧中获得的频谱动态特征值。
随后,通过使用等式2从所述增量计算n维特征向量x(t)。
x(t)=[x1(t),…,xN(t),Δ1(t)…,ΔN(t)]T (2)
在等式1和2中,xi(t)表示i维MFCC;Δi(t)是i维增量特征值;K是用于计算所述增量的帧的数量;以及N是维数。
如等式2所表示的,通过结合作为静态特征值的MFCC和作为动态特征值的函数增量,来产生特征向量x。此外,特征向量x表示由帧的频谱信息所反映的特征值。
如上面所解释的,当使用多帧时,可以提取频谱的时变信息。也就是说,与包括在从单帧中提取的特征值(例如MFCC)中的信息相比,在时变信息中包含有能够更有效地用于进行语音/非语音确定的信息。
也可以使用通过结合多个单帧特征值来获得的向量。在这种情况下,在时间t的特征向量x(t)被表示为:
z(t)=[x1(t),…,xN(t)]T (3)
x(t)=[z(t-Z)T,…,z(t-1)T,z(t)T,z(t+1)T,…,z(t+Z)T]T (4)
其中z(t)是在时间t的MFCC;Z是在结合对应于时间t的帧之前和之后的帧时所使用的帧的数量。
由等式4表示的特征向量x也结合了多个帧的特征值。另外,由等式4表示的特征向量x结合了包含频谱的时变信息的特征值。
虽然MFCC被用作为单帧特征值,但是也可以用FFT功率谱、美尔滤波器组(Mel Filter Bank)分析和LPC倒频谱的特征值等来代替MFCC。
接下来,特征变换单元106利用存在于特征变换参数存储单元120中的变换矩阵,将n维特征向量变换为m维特征向量(m<n)(步骤S106)。
所述特征向量包括基于多个帧的信息所产生的特征值,其通常是比基于单帧的特征向量更高维的特征向量。因此,为了降低计算量,特征变换单元106利用下列线性变换将n维特征向量x变换成m维特征向量y(m<n):
y=Px (5)
其中P是m×n变换矩阵。利用诸如用以提供分布的最佳逼近的PCA或KL展开的方法,通过学习获得变换矩阵P。在后面对变换矩阵P进行描述。
接下来,模型比较单元108利用通过预先学习获得的m维特征向量和语音/非语音高斯混合模型(Gaussian Mixture Model,GMM),来计算表示语音的似然(对数似然比)的评价值LR(步骤S108),如下所示:
LR=g(y|speech)-g(y|nonspeech) (6)
其中g(|speech)是语音GMM的对数似然,g(|nonspeech)是非语音GMM的对数似然。
基于利用最大期望算法(Expectation-Maximization algorithm,EMalgorithm)的最大似然准则,通过学习获得每个GMM。稍后描述每个GMM的值。
虽然GMM被用作为语音模型和非语音模型,但是也可以采用任何其它模型。例如,可以使用隐马尔可夫模型(Hidden Markov Model,HMM)或者VQ码本来代替GMM。
接下来,语音/非语音确定单元110基于在所述帧的评价值LR和阈值θ之间的比较,确定所述帧中的每个帧是包含语音信号的语音帧,还是不包含语音信号的非语音帧(步骤S110),如等式7所示,其中LR表示语音的似然并在步骤S108获得:
If(LR>θ)语音
If(LR≤θ)非语音 (7)
所述阈值θ可以被按照需要进行设置。例如,阈值θ可以被设置为0。
接下来,语音区间检测单元112基于每个帧的确定结果,检测输入信号的语音区间的上升沿和下降沿(步骤S112)。语音区间检测处理到此结束。
图3是用于解释对语音区间的上升沿和下降沿的检测的示意图。语音区间检测单元112利用有限状态自动机(Finite-state Automaton)方法,检测语音区间的上升沿或下降沿。所述自动机基于每个帧的确定结果运行。
缺省状态被设置为非语音,并且在缺省状态中将定时计数器设置为0。当帧的确定结果表示该帧是语音帧时,定时计数器开始计时。当确定结果表示语音帧持续了预先指定的时间时,可以确定语音区间已开始。也就是说,将那段特定时间确定为语音的上升沿。当确认了上升沿时,定时计数器被重置为0,并且开始语音处理操作。另一方面,当确定结果表示该帧是非语音帧时,继续计时。
在工作模式被切换到语音状态之后,当确定结果变成非语音时,定时计数器开始计时。当确定结果表示在用于确认语音下降沿的预定时段内为非语音状态时,确认语音的下降沿。也就是说,确认语音的终点。
用于确认语音的上升沿和下降沿的时间可以被按照需要进行设置。例如,用于确认上升沿的时间可以被预设为60毫秒,而用于确认下降沿的时间可以被预设为80毫秒。
如上所述,通过从每帧的声音输入信号中提取n维特征向量,可以使用特征值的时变信息。也就是说,与单帧的特征值相比,可以提取出对于语音/非语音确定处理更有效的特征值。在这种情况下,能够实现更精确的语音/非语音确定。另外,能够更精确地检测语音区间。
在上面所描述的处理中,利用通过学习获取的样本,通过学习而获得在特征变换单元106中使用的变换矩阵,即,存储在特征变换参数存储单元120中的变换矩阵的参数(变换矩阵P的元素)。通过学习获取的样本是声信号,并且所述评价值是通过与语音/非语音模型进行比较而获知的。
通过学习获取的变换矩阵的参数被注册在特征变换参数存储单元120中。变换矩阵P的参数是变换矩阵的元素;并且GMM的参数包括均值向量、方差(dispersion)和双权重(double weight)。
同样地,利用通过学习获取的样本,通过预先学习获得由模型比较单元108使用的语音/非语音确定参数,或者说,存储在语音/非语音确定参数存储单元122中的语音/非语音确定参数。通过学习获取的语音/非语音确定参数(语音/非语音GMM),被注册在语音/非语音确定参数存储单元122中。
通过将区别特征提取(Discriminative Feature Extraction,DFE)用作为区别学习方法(discriminative learning method),语音区间检测装置10获得变换矩阵P和语音/非语音GMM的最佳参数。
DFE通过基于最小分类错误(Minimum Classification Error,MCE)的广义概率下降(Generalized Probabilistic Descent,GPD)的方式,同时优化特征提取单元(即变换矩阵P)和识别单元(即语音/非语音GMM)。DFE主要被应用于语音识别和字符识别,并且已经报告有DFE的有效性。利用了DFE的字符识别技术,在例如日本专利3537949中进行了详细描述。下面描述用于确定变换矩阵P和注册在语音区间检测装置10中的语音/非语音GMM的处理。数据被分类到两类中的任一类:语音(C1)和非语音(C2)。变换矩阵P和语音/非语音GMM的所有参数集(变换矩阵的元素,包括均值向量、方差和混合权重)都被表示为Λ。g1是语音GMM;g2是非语音GMM。
从通过学习获取的样本中提取的m维特征向量由如下等式8给出:
y∈Ck(k=1,2) (8)
以及,用等式9定义下列等式:
dk(y;Λ)=-gk(y;Λ)+gi(y;Λ) 其中(i≠k)。 (9)
等式9中的dk(y;Λ)是gk和gi之间的对数似然。当作为通过学习获取的样本的声信号被分类为属于正确答案类别时,dk(y;Λ)为负。另一方面,当作为通过学习获取的样本的声信号被分类为属于错误答案类别时,dk(y;Λ)为正。由于分类错误(y;Λ)而导致的损失lk由等式10定义:
当错误识别率较大时,由损失函数提供的损失lk更接近于1,而当错误率较小时,由损失函数提供的损失lk更接近于0。进行参数集Λ的学习,从而降低由损失函数提供的值。此外,如等式11所示来更新Λ:
其中ε是称作步长参数的小正数。可以优化Λ,即,通过预先学习获取的样本,以通过对于通过预先学习获取的样本利用等式11对Λ进行更新,来最小化对于变换矩阵和语音/非语音GMM的参数的错误识别率。
当调整DFE的参数时,必需设置变换矩阵和语音/非语音GMM的缺省值。由PCA计算出的m×n变换矩阵的值被用作为P的缺省值。使用由EM算法计算出的参数值作为GMM的缺省值。
如上面所解释的,可以调整在将从帧中提取的n维特征向量变换成m维向量(m<n)时使用的变换矩阵P和语音/非语音GMM的参数,以便利用区别学习方法来最小化错误识别率。因此,能够改善语音/非语音确定的性能。此外,能够更精确地检测语音区间。
如上面所描述的,可以借助于PCA或KL展开,通过学习获得变换矩阵P的值。也可以用EM算法,通过学习获取语音/非语音确定的参数。PCA和KL展开建立在通过学习获取的样本的最佳逼近的基础上。此外,EM算法建立在通过学习获取的样本的最大似然准则的基础上。对于语音/非语音确定,这些方法并不是通过学习获取参数的最佳方法。
与之相对,借助区别学习方法之一的区别特征提取(DFE)来确定由语音区间检测装置10使用的变换矩阵P和语音/非语音GMM。因此,能够更精确地实现语音区间的语音/非语音确定和检测。
图4描述了语音区间检测装置10的硬件结构。语音区间检测装置10包括只读存储器(ROM)52,在其中存储了用于检测语音区间的计算机程序(在下文中称为“语音区间检测程序”);中央处理单元(CPU)52,其根据在ROM 52中存储的程序来控制语音区间检测装置10的每个部分;随机存取存储器(RAM)53,在其中存储了对语音区间检测装置10进行控制所必需的各种数据;通信接口(I/F)57,其将语音区间检测装置10连接到网络(未示出);总线62,其将语音区间检测装置10的不同部分相互连接。
语音区间检测程序被以可安装或可执行的方式存储在计算机可读记录介质上,该介质诸如CD-ROM,软(R)盘(FD),以及数字通用光盘(DVD)。
语音区间检测装置10从记录介质中读出语音区间检测程序。然后,该程序被上传到主存储器(未示出),并且上面所解释的每个功能结构都可以在主存储器上实现。
也可以将语音区间检测程序存储到连接于网络的计算机中,该计算机能够经由网络下载所述语音区间检测程序,并且该网络可以是Internet。
以上参考示例性实施例解释了本发明,但在本发明的范围内可以进行各种变型或替换。
上面已经描述了语音区间检测。然而,可以提供一种语音/非语音确定装置,该装置仅仅确定声信号是语音还是非语音,即,不检测语音区间。该语音/非语音确定装置不包括图1中示出的语音区间检测单元112的功能。换句话说,语音/非语音确定装置输出声信号是语音还是非语音的确定结果。
图5是根据本发明第二实施例的语音区间检测装置20的功能框图。除了第一实施例的语音区间检测装置10的结构之外,语音区间检测装置20还包括损失计算单元130和参数更新单元132。
损失计算单元130将在特征提取单元104中获得的m维特征向量分别与语音及非语音模型相比较,然后计算由等式10所表示的损失。
参数更新单元132更新存储在特征变换参数存储单元120中的变换矩阵的参数,以及更新存储在语音/非语音确定参数存储单元122中的语音/非语音确定参数,从而最小化由等式10所表示的损失函数的值。换句话说,参数更新单元132计算(更新)等式11中所表示的Λ。
语音区间检测装置20具有学习模式和语音/非语音确定模式。在学习模式中,语音区间检测装置20对作为通过学习获取的样本的声信号进行处理,并且参数更新单元132更新参数。
图6是用于解释在学习模式中对参数进行更新的处理的流程图。在学习模式中,A/D转换单元100将通过学习获取的样本从模拟信号转换成数字信号(步骤S100)。接下来,帧划分单元102和特征提取单元104计算样本的n维特征向量(步骤S102和S104)。然后,特征变换单元106产生m维特征向量(步骤S106)。
接下来,损失计算单元130利用在步骤S106获取的m维特征向量,计算出由等式10所表示的损失(步骤S120)。接下来,参数更新单元132基于损失函数,对存在于特征变换参数存储单元120中的变换矩阵的参数(变换矩阵P的元素)和存在于语音/非语音确定参数存储单元122中的语音/非语音确定参数(语音GMM和非语音GMM)进行更新(步骤S122)。学习模式中的参数更新处理到此结束。
可以重复上述过程来优化为更适当的参数集Λ,换句话说,用来降低变换矩阵P和语音/非语音GMM的错误识别率。
在语音/非语音确定模式中,可以按照与上述参照图2相同的方式对语音区间进行检测。在这种情况下,用变换矩阵P和语音/非语音GMM来检查声信号是语音信号还是非语音信号。
具体地,在步骤S106中使用在学习模式中所选择的n维特征向量x。此外,利用在学习模式中通过学习获得的变换矩阵P,将向量x变换成m维特征向量。随后,在步骤S108,利用在学习模式中通过学习获得的语音/非语音GMM,计算出对数似然比。
这样,在学习模式中通过学习获得变换矩阵和语音/非语音GMM的参数。通过借助于区别学习方法调整变换矩阵和语音/非语音GMM的参数来最小化错误识别率,能够改善语音/非语音确定性能。也可以改善语音区间检测的性能。
除了上述几点,语音区间检测装置20的结构和处理步骤与语音区间检测装置10相同。
本领域技术人员可以很容易想到本发明的其它优点和变型。因此,本发明就其更宽的方面而言不受限于在此示出及描述的特定细节和代表性实施例。因而,在不脱离由所附权利要求及其等同内容所定义的一般创造性概念的精神或范围的情况下,可以对本发明作各种变型。
Claims (19)
1.一种语音/非语音确定装置,包括:
第一存储单元,用于存储变换矩阵,其中,基于从通过学习获取的已知样本计算的实际语音/非语音似然来计算所述变换矩阵;
第二存储单元,用于存储语音模型和非语音模型,其中,基于存储在所述第一存储单元中的所述语音/非语音似然来计算所述语音模型和所述非语音模型;
获取单元,用于获取声信号;
划分单元,用于将所述声信号划分成多个帧;
提取单元,用于从所述帧的声信号中提取特征向量;
变换单元,用于利用存储在所述第一存储单元中的所述变换矩阵来对所述特征向量进行线性变换,从而获得经线性变换的特征向量;以及
确定单元,用于基于在所述经线性变换的特征向量和存储在所述第二存储单元中的所述语音模型及所述非语音模型之间的比较结果来确定所述帧中的每个帧是语音帧还是非语音帧。
2.根据权利要求1所述的装置,进一步包括:比较单元,其将所述经线性变换的特征向量与所述语音模型及所述非语音模型进行比较,其中,
所述确定单元通过将所述比较单元的比较结果与阈值进行比较,来确定所述帧是语音帧还是非语音帧。
3.根据权利要求2所述的装置,进一步包括:
似然计算单元,用于计算所述样本的所述语音/非语音似然;以及
第一计算单元,用于基于所述语音/非语音似然来计算所述变换矩阵,其中,
所述第一存储单元存储由所述第一计算单元计算的所述变换矩阵。
4.根据权利要求3所述的装置,其中,所述第一计算单元计算所述变换矩阵,从而减小为所述样本计算的语音/非语音似然与为所述样本设置的语音/非语音似然之间的差。
5.根据权利要求3所述的装置,包括学习模式和语音/非语音确定模式,其中,
当处于所述学习模式时,所述第一计算单元计算所述变换矩阵。
6.根据权利要求5所述的装置,其中,当处于所述语音/非语音确定模式时,所述确定单元确定所述帧是语音帧还是非语音帧。
7.根据权利要求2所述的装置,进一步包括:
似然计算单元,用于计算所述样本的所述语音/非语音似然;以及
第二计算单元,用于基于所述语音/非语音似然来计算所述语音模型和所述非语音模型,其中,
所述第二存储单元存储由所述第二计算单元计算的所述语音模型和所述非语音模型。
8.根据权利要求7所述的装置,其中,所述第二计算单元计算所述语音模型和所述非语音模型,以最小化在为所述样本计算的语音/非语音似然和为所述样本设置的语音/非语音似然之间的差。
9.根据权利要求7所述的装置,包括学习模式和语音/非语音确定模式,其中,
当处于所述学习模式时,所述第一计算单元计算所述变换矩阵。
10.根据权利要求1所述的装置,其中,所述变换单元将所述特征向量线性变换成更低维的特征向量。
11.根据权利要求1所述的装置,其中,所述提取单元提取结合了所述声信号的静态和动态频谱的n维特征向量。
12.根据权利要求1所述的装置,其中,所述提取单元提取结合了所述帧的声信号的频谱特征值的n维特征向量。
13.根据权利要求1所述的装置,进一步包括:检测单元,用于基于所述确定单元的确定结果来检测语音区间。
14.一种确定语音/非语音的方法,包括以下步骤:
获取声信号;
将所述声信号划分成多个帧;
从所述帧的声信号提取特征向量;
利用变换矩阵对所述特征向量进行线性变换,其中该变换矩阵被存储在第一存储单元中,并且基于对于通过学习获取的预定样本所计算的实际语音/非语音似然来计算该变换矩阵;以及
基于在所述经线性变换的特征向量和语音模型及非语音模型之间的比较结果,确定所述帧中的帧是语音帧还是非语音帧,其中所述语音模型和所述非语音模型被存储在第二存储单元中,并且基于存储在所述第一存储单元中的所述语音/非语音似然来计算所述语音模型和所述非语音模型。
15.根据权利要求14所述的方法,其中,所述确定步骤包括:
将所述经线性变换的特征向量与所述语音模型及所述非语音模型进行比较;以及
通过将在所述比较步骤中获得的比较结果与阈值进行比较,来确定所述帧是语音帧还是非语音帧。
16.根据权利要求15所述的方法,进一步包括:
计算所述样本的所述语音/非语音似然;
基于所述语音/非语音似然来计算所述变换矩阵;以及
将所述变换矩阵保存在所述第一存储单元中。
17.根据权利要求15所述的方法,进一步包括:
计算所述样本的所述语音/非语音似然;
基于所述语音/非语音似然来计算所述语音模型和所述非语音模型;以及
将所述语音模型和所述非语音模型存储在所述第二存储单元中。
18.根据权利要求14所述的方法,进一步包括将所述特征向量线性地变换成更低维的特征向量。
19.根据权利要求14所述的方法,进一步包括基于所述确定步骤的确定结果来检测语音区间。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP304770/2005 | 2005-10-19 | ||
JP2005304770A JP2007114413A (ja) | 2005-10-19 | 2005-10-19 | 音声非音声判別装置、音声区間検出装置、音声非音声判別方法、音声区間検出方法、音声非音声判別プログラムおよび音声区間検出プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1953050A true CN1953050A (zh) | 2007-04-25 |
Family
ID=37949207
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006101447605A Pending CN1953050A (zh) | 2005-10-19 | 2006-10-19 | 用于确定语音/非语音的装置和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20070088548A1 (zh) |
JP (1) | JP2007114413A (zh) |
CN (1) | CN1953050A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009015567A1 (fr) * | 2007-07-30 | 2009-02-05 | Huawei Technologies Co., Ltd. | Procédé et système consistant à détecter un attribut de données et un dispositif d'analyse d'attribut de données |
CN101809652B (zh) * | 2007-09-25 | 2013-07-10 | 日本电气株式会社 | 频率轴伸缩系数估计设备、系统方法 |
CN103903629A (zh) * | 2012-12-28 | 2014-07-02 | 联芯科技有限公司 | 基于隐马尔科夫链模型的噪声估计方法和装置 |
CN105496447A (zh) * | 2016-01-15 | 2016-04-20 | 厦门大学 | 具有主动降噪和辅助诊断功能的电子听诊器 |
CN105590624A (zh) * | 2014-11-10 | 2016-05-18 | 现代自动车株式会社 | 车辆中的语音识别系统及其方法 |
CN108428448A (zh) * | 2017-02-13 | 2018-08-21 | 芋头科技(杭州)有限公司 | 一种语音端点检测方法及语音识别方法 |
CN111862985A (zh) * | 2019-05-17 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别装置、方法、电子设备及存储介质 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4282704B2 (ja) * | 2006-09-27 | 2009-06-24 | 株式会社東芝 | 音声区間検出装置およびプログラム |
US8046221B2 (en) * | 2007-10-31 | 2011-10-25 | At&T Intellectual Property Ii, L.P. | Multi-state barge-in models for spoken dialog systems |
JP5505896B2 (ja) * | 2008-02-29 | 2014-05-28 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 発話区間検出システム、方法及びプログラム |
JP4950930B2 (ja) * | 2008-04-03 | 2012-06-13 | 株式会社東芝 | 音声/非音声を判定する装置、方法およびプログラム |
WO2010019831A1 (en) * | 2008-08-14 | 2010-02-18 | 21Ct, Inc. | Hidden markov model for speech processing with training method |
JP4937393B2 (ja) * | 2010-09-17 | 2012-05-23 | 株式会社東芝 | 音質補正装置及び音声補正方法 |
US8831947B2 (en) * | 2010-11-07 | 2014-09-09 | Nice Systems Ltd. | Method and apparatus for large vocabulary continuous speech recognition using a hybrid phoneme-word lattice |
CN102148030A (zh) * | 2011-03-23 | 2011-08-10 | 同济大学 | 一种语音识别的端点检测方法 |
US20130317821A1 (en) * | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Sparse signal detection with mismatched models |
CN110895929B (zh) * | 2015-01-30 | 2022-08-12 | 展讯通信(上海)有限公司 | 语音识别方法及装置 |
KR101957993B1 (ko) * | 2017-08-17 | 2019-03-14 | 국방과학연구소 | 소리 데이터 분류 장치 및 방법 |
WO2021107333A1 (ko) * | 2019-11-25 | 2021-06-03 | 광주과학기술원 | 딥러닝 기반 감지상황에서의 음향 사건 탐지 방법 |
US20240054400A1 (en) * | 2020-12-24 | 2024-02-15 | Nec Corporation | Information processing system, information processing method, and computer program |
US20240086424A1 (en) * | 2021-01-25 | 2024-03-14 | Nec Corporation | Information processing system, information processing method, and computer program |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3034279B2 (ja) * | 1990-06-27 | 2000-04-17 | 株式会社東芝 | 有音検出装置および有音検出方法 |
CA2040025A1 (en) * | 1990-04-09 | 1991-10-10 | Hideki Satoh | Speech detection apparatus with influence of input level and noise reduced |
JPH0416999A (ja) * | 1990-05-11 | 1992-01-21 | Seiko Epson Corp | 音声認識装置 |
JPH06332492A (ja) * | 1993-05-19 | 1994-12-02 | Matsushita Electric Ind Co Ltd | 音声検出方法および検出装置 |
JP2690027B2 (ja) * | 1994-10-05 | 1997-12-10 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | パターン認識方法及び装置 |
JP3716870B2 (ja) * | 1995-05-31 | 2005-11-16 | ソニー株式会社 | 音声認識装置および音声認識方法 |
JP3537949B2 (ja) * | 1996-03-06 | 2004-06-14 | 株式会社東芝 | パターン認識装置及び同装置における辞書修正方法 |
JP3105465B2 (ja) * | 1997-03-14 | 2000-10-30 | 日本電信電話株式会社 | 音声区間検出方法 |
US20020138254A1 (en) * | 1997-07-18 | 2002-09-26 | Takehiko Isaka | Method and apparatus for processing speech signals |
US6343267B1 (en) * | 1998-04-30 | 2002-01-29 | Matsushita Electric Industrial Co., Ltd. | Dimensionality reduction for speaker normalization and speaker and environment adaptation using eigenvoice techniques |
US6327565B1 (en) * | 1998-04-30 | 2001-12-04 | Matsushita Electric Industrial Co., Ltd. | Speaker and environment adaptation based on eigenvoices |
US6529872B1 (en) * | 2000-04-18 | 2003-03-04 | Matsushita Electric Industrial Co., Ltd. | Method for noise adaptation in automatic speech recognition using transformed matrices |
US7089182B2 (en) * | 2000-04-18 | 2006-08-08 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for feature domain joint channel and additive noise compensation |
US6563309B2 (en) * | 2001-09-28 | 2003-05-13 | The Boeing Company | Use of eddy current to non-destructively measure crack depth |
JP4292837B2 (ja) * | 2002-07-16 | 2009-07-08 | 日本電気株式会社 | パターン特徴抽出方法及びその装置 |
US20040064314A1 (en) * | 2002-09-27 | 2004-04-01 | Aubert Nicolas De Saint | Methods and apparatus for speech end-point detection |
JP4497834B2 (ja) * | 2003-04-28 | 2010-07-07 | パイオニア株式会社 | 音声認識装置及び音声認識方法並びに音声認識用プログラム及び情報記録媒体 |
US7567900B2 (en) * | 2003-06-11 | 2009-07-28 | Panasonic Corporation | Harmonic structure based acoustic speech interval detection method and device |
-
2005
- 2005-10-19 JP JP2005304770A patent/JP2007114413A/ja active Pending
-
2006
- 2006-10-18 US US11/582,547 patent/US20070088548A1/en not_active Abandoned
- 2006-10-19 CN CNA2006101447605A patent/CN1953050A/zh active Pending
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009015567A1 (fr) * | 2007-07-30 | 2009-02-05 | Huawei Technologies Co., Ltd. | Procédé et système consistant à détecter un attribut de données et un dispositif d'analyse d'attribut de données |
CN101083627B (zh) * | 2007-07-30 | 2010-09-15 | 华为技术有限公司 | 检测数据属性的方法及系统、数据属性分析装置 |
CN101809652B (zh) * | 2007-09-25 | 2013-07-10 | 日本电气株式会社 | 频率轴伸缩系数估计设备、系统方法 |
US8909518B2 (en) | 2007-09-25 | 2014-12-09 | Nec Corporation | Frequency axis warping factor estimation apparatus, system, method and program |
CN103903629A (zh) * | 2012-12-28 | 2014-07-02 | 联芯科技有限公司 | 基于隐马尔科夫链模型的噪声估计方法和装置 |
CN103903629B (zh) * | 2012-12-28 | 2017-02-15 | 联芯科技有限公司 | 基于隐马尔科夫链模型的噪声估计方法和装置 |
CN105590624A (zh) * | 2014-11-10 | 2016-05-18 | 现代自动车株式会社 | 车辆中的语音识别系统及其方法 |
CN105496447A (zh) * | 2016-01-15 | 2016-04-20 | 厦门大学 | 具有主动降噪和辅助诊断功能的电子听诊器 |
CN105496447B (zh) * | 2016-01-15 | 2019-02-05 | 厦门大学 | 具有主动降噪和辅助诊断功能的电子听诊器 |
CN108428448A (zh) * | 2017-02-13 | 2018-08-21 | 芋头科技(杭州)有限公司 | 一种语音端点检测方法及语音识别方法 |
CN111862985A (zh) * | 2019-05-17 | 2020-10-30 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别装置、方法、电子设备及存储介质 |
CN111862985B (zh) * | 2019-05-17 | 2024-05-31 | 北京嘀嘀无限科技发展有限公司 | 一种语音识别装置、方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20070088548A1 (en) | 2007-04-19 |
JP2007114413A (ja) | 2007-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1953050A (zh) | 用于确定语音/非语音的装置和方法 | |
US9633652B2 (en) | Methods, systems, and circuits for speaker dependent voice recognition with a single lexicon | |
EP0891618B1 (en) | Speech processing | |
JP3002204B2 (ja) | 時系列信号認識装置 | |
EP2048656B1 (en) | Speaker recognition | |
EP1399915B1 (en) | Speaker verification | |
EP0501631B1 (en) | Temporal decorrelation method for robust speaker verification | |
US8930196B2 (en) | System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands | |
US8271283B2 (en) | Method and apparatus for recognizing speech by measuring confidence levels of respective frames | |
US20060053009A1 (en) | Distributed speech recognition system and method | |
CN108694949B (zh) | 基于重排序超向量和残差网络的说话人识别方法及其装置 | |
EP0831456A2 (en) | Speech recognition method and apparatus therefor | |
AU2002311452A1 (en) | Speaker recognition system | |
WO1998022936A1 (en) | Subword-based speaker verification using multiple classifier fusion, with channel, fusion, model, and threshold adaptation | |
EP1688913A1 (en) | Method and apparatus for predicting word accuracy in automatic speech recognition systems | |
CN112233651B (zh) | 方言类型的确定方法、装置、设备及存储介质 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN116153330B (zh) | 一种智能电话语音机器人控制方法 | |
CN113628612A (zh) | 语音识别方法、装置、电子设备及计算机可读存储介质 | |
CN111508505A (zh) | 一种说话人识别方法、装置、设备及存储介质 | |
Yamamoto et al. | Robust endpoint detection for speech recognition based on discriminative feature extraction | |
JP4745502B2 (ja) | 周波数スペクトラムにおける確率論的信頼度を用いた音声検出方法 | |
KR100429896B1 (ko) | 잡음 환경에서의 음성신호 검출방법 및 그 장치 | |
US20230206924A1 (en) | Voice wakeup method and voice wakeup device | |
CN106373576B (zh) | 一种基于vq和svm算法的说话人确认方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20070425 |