CN1216380A - 特征抽取装置和方法以及模式识别装置和方法 - Google Patents

特征抽取装置和方法以及模式识别装置和方法 Download PDF

Info

Publication number
CN1216380A
CN1216380A CN98125060A CN98125060A CN1216380A CN 1216380 A CN1216380 A CN 1216380A CN 98125060 A CN98125060 A CN 98125060A CN 98125060 A CN98125060 A CN 98125060A CN 1216380 A CN1216380 A CN 1216380A
Authority
CN
China
Prior art keywords
classification
parameter
data
characteristic
characteristic distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN98125060A
Other languages
English (en)
Inventor
岩桥直人
包洪长
本田等
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of CN1216380A publication Critical patent/CN1216380A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明意在提高语音识别和图像识别中的识别速率。将作为输入数据表示观测矢量空间中的某一点的观测矢量进行变换映射到在特征矢量空间中离散的一点,以及确定表示该分布的特征分布参数。根据特征分布参数进行输入数据的模式识别。

Description

特征抽取装置和方法以及模式识别装置和方法
本发明涉及一种特征抽取装置和方法以及模式识别装置和方法。特别是本发明涉及适合于在噪声环境中进行语音识别的情况下使用的特征抽取装置和方法以及模式识别装置和方法。
图1表示一种常规的模式识别装置的示例性结构。
一个作为模式识别对象的观测矢量输入到特征抽取部分101。特征抽取部分101根据该观测矢量确定表示其特征参量的特征矢量。这样确定的特征矢量提供到一鉴别部分102。根据由特征提取部分101提供的特征矢量,鉴别部分102判别该输入的观测矢量属于预定数量的类别中的哪一类别。
例如,在图1中的模式识别装置是语音识别装置的情况下,每一时间单位的语音数据(在适当的情况下,下文称为一帧)作为一观测矢量输入到特征抽取部分101。特征抽取部分101按声学原理对作为观测矢量的语音数据进行分析,并因此抽取特征矢量作为语言的特征参数例如功率谱、倒频谱系数或线性预测系数。该特征矢量提供到鉴别部分102。鉴别部分102将该特征矢量分类为预定数量类别中的一个类别。分类结果作为语言数据(观测矢量)的识别结果输出。
在鉴别部分102中在已知的用于判别一特征矢量属于预定数量的类别中的一个类别的各种方法中,有利用Mahalanobis鉴别函数,混合正态分布函数或多项式函数的方法、利用HMM方法的方法,以及利用中枢网络的方法。
例如,上述语音识别技术的详细情况公开在由L.Rabiner和BH.Juang共同著的“语音识别基本原理(Ⅰ)和(Ⅱ)”,(由Furui(NTT Advanced Technology Corp)出版的论文集,1995)。至于普遍的模式识别,例如在RDuda和P.Hart所著的“模式分类和场景分析”(John Wiley & Sons 1973)。
顺便说,当进行模式识别时,作为模式识别对象的观测矢量(输入模式)通常包含噪声。例如作为观测矢量当进行语音识别时输入的声音包含使用人谈话时的环境噪声(例如,其它人的声音或车辆的噪声)。为了提供另一个实例,作为观测矢量当进行图像识别时输入的图像包含图像的拍摄环境的噪声(例如与气候条件例如雾或雨相关的噪声,或由于用于拍摄图像的摄像机的透镜像差)。
已知频谱相减法是特征参量(特征矢量)抽取方法中的一种,这些抽取方法用在噪声环境中的声音识别。
在频谱相减法中,将产生声音之前的输入(即在一语音段落之前的输入)采用作为噪声,以及计算噪声的平均频谱。当接着输入声音时,由该声音中减去噪声平均频谱,通过利用其余的部分计算特征矢量作为真实声音部分。
频谱相减法的详细情况例如公开在S.F.Boll的“利用频谱相减抑制语音中的噪声”(IEEE关于声学、语音和信号处理的论文集,第1卷,ASSP-27,第2期,1979);以及P.Lockwood和J.Boudy的“利用非线性频谱减法器、隐藏马尔科夫模型的实验及设计,汽车中的实用语音识别”(语音通信,第11卷1992)。
顺便说,可认为图1中的模式识别装置中的特征抽取部分101实行一种处理,即将表示在观测矢量空间中的某一点的观测矢量变换映射到表示在图2中所示的特征矢量空间中的对应点的特征矢量Y。
因此,特征矢量Y表示在特征矢量空间中的某一点(对应于观测矢量a)。在图2中,按照三维空间画出了观测矢量空间和特征矢量空间。
按照频谱相减法,由观测矢量a减去平均噪声部分频谱,然后计算特征矢量Y。然而,由于特征矢量Y如上所述表示特征矢量空间中的一个点,特征矢量Y不反映表示噪声的不规则性例如离差(variance)的特性,虽然其反映噪声的平均特性。
因此,特征矢量Y不能充分反映观测矢量a的特征,因此难于利用这种特征矢量Y实现高的识别速率。
根据上述情况形成本发明,因此本发明的目的是提高识别速度。
根据本发明的第一方面,提供一种特征抽取部分,其抽取输入数据的特征参量,包含:计算装置,用于计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数。
根据本发明的第二方面,提供一种特征抽取方法,用于抽取输入数据的特征参量,包含的步骤有:计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数。
根据本发明的第三方面,提供一种模式识别装置,其通过将该模式分类为预定数量的类别中的一个类别来识别输入数据的模式,包含:计算装置,用于计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的分布特征参数;以及分类装置,用于将特征分布参数分类为预定数量的类别中的一个类别。
根据本发明的第四方面,提供一种模式识别方法,用于通过将该模式分类为预定数量的类别中的一类别来识别输入数据的模式,包含的步骤有:计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数;以及将特征分布参数分类为预定数量的类别中的一个类别。
根据本发明的第五个方面,提供一种模式识别装置,其通过将该模式分类为预定数量的类别中的一个类别来识别输入数据的模式,包含:帧形成装置,用于按预定间隔抽取部分输入数据,以及按照一帧数据输出每一抽取的数据;特征抽取装置,接收由每一抽取的数据组成的一帧数据,用于输出一表示当将一帧数据进行变换映射到该一帧数据的特征参量的空间中时得到的分布的特征分布参数;以及分类装置,用于将一系列特征分布参数分类为预定数量的类别中的一个类别。
根据本发明的第六方面,提供一种模式识别方法,用于通过将该模式分类为预定数量的类别中的一个类别来识别输入数据的模式,包含:帧形成步骤,按照预定间隔抽取部分输入数据,以及按照一帧数据输出每一抽取的数据;特征抽取步骤,接收由每一抽取的数据组成的一帧数据,并输出一表示当将一帧数据进行变换映射到该一帧数据的特征参量的空间中时得到的分布的特征分布参数;以及分类步骤,将一系列特征分布系数分类为预定数量的类别中的一个类别。
在根据本发明的第五方面的特征抽取装置中,该计算装置计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数。
在根据本发明的第二方面的特征抽取方法中,计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数。
在根据本发明的第三方面的模式识别装置中,计算装置计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数,并且分类装置将该特征分布参数分类为预定数量的类别中的一个类别。
在根据本发明的第四方面的模式识别方法中,计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数;以及将该特征分布参数分类为预定数量的类别中的一个类别。
在根据本发明的第五方面的模式识别装置中,其通过将该模式分类为预定数量的类别中的一个类别来识别输入数据的模式,按照预定的间隔抽取部分输入数据,并按照一帧数据输出每一抽取的数据。输出一表示当将每一抽取数据组成的一帧数据进行变换映射到该一帧数据的特征参量的空间中时得到的分布的特征分布参数。然后将一系列的特征分布参数分类为预定数量的类别中的一个类别。
在根据本发明的第六方面的模式识别方法中,通过将该模式分类为预定数量的类别中的一个类别来识别输入数据的模式,按照预定间隔抽取部分输入数据,并按照一帧数据输出每一抽取的数据。输出一表示当将每一抽出的数据组成的一帧数据进行变换映射到该一帧数据的特征参量的空间中时得到的分布的特征分布参数。然后,将一系列的特征分布参数分类为预定数量类别中的一个类别。
图1是表示常规模式识别装置的示例性结构的方块示意图;
图2表示图1中所示的特征抽取部分101的工作过程;
图3是表示根据本发明的一实施例的语音识别装置的示例性结构的方块示意图;
图4表示图3中所示的帧形成部分的过程;
图5表示图3中所示的特征抽取部分的过程;
图6是表示图3中所示的特征抽取部分的示例性结构的方块示意图;
图7A和7B表示噪声功率谱和真实声音功率谱的概率密度函数;
图8是表示在图3中所示的鉴别部分的示例性结构的方块示意图;
图9表示HMM;以及
图10是表示图3中所示的特征抽取部分2的另一示例性结构的方块示意图。
图3表示根据本发明的一实施例的语音识别装置的示例性结构。
作为识别对象的数字语音数据输入到帧形成部分1。例如,如图4中所示,帧形成部分1按预定的时间间隔(例如10毫秒)抽取部分的接收语音数据1这一操作称为帧形成),并将作为1帧数据的每一抽取语音数据输出。由帧形成部分1输出的每一帧语音数据以观测矢量a的形式提供到特征抽取部分,该观测矢量a含有该帧包含的作为分量(components)的对应时序语音数据。
随后,适当情况下作为第t帧语音数据的观测矢量用a(t)来表示。
特征抽取部分2(计算装置)按声学原理对按照由帧抽取部分1提供的观测矢量a形式的语音数据进行分析,以此由语音数据中抽取特征参量。例如特征抽取部分2利用付立业变换确定作为观测矢量a的语音数据的功率谱;并计算具有作为组成部分的功率谱的对应频率部分的特征矢量Y。计算功率谱的方法并不局限于付立业变换,利用其它方法例如滤波器组方法就可以确定功率谱。
此外,特征抽取部分2根据上面计算的特征矢量Y计算参数Z(下文称之为特征分布参数),该参数代表当在的语音数据中包含的真实声音作为观测矢量a被映射变换(mapping)到特征矢量空间中时得到的特征参量空间(即特征矢量空间)中的分布,并将参数Z提供到鉴别部分3。
即,如图5中所示,特征抽取部分2计算并输出作为特征分布参数的一种参数,该参数表示在通过将代表在观测矢量中的某一点的某一观测矢量a变换映射到特征矢量空间时得到的特征矢量空间中产生的离散状况的分布。
虽然在图5中观测矢量空间和特征矢量空间都是按照三维空间表示的,观测矢量空间和特征矢量空间的各自维数并不局限于三,甚至不必相同。
鉴别部分3(分类装置)将由特征抽取部分2提供的每一个特征分布参数(系列参数)分类为预定数量的类别的其中之一个类别,并且将作为输入语音的识别结果的分类结果输出。例如,鉴别部分3存储各用于判别鉴别对象属于与预定字数K相对应的类别中的哪一类别的鉴别函数,并通过利用作为变量的,由特征抽取部分2提供的特征分布参数,计算各个类别的鉴别函数的数值。具有最大函数值的类别(在这一实例中为一个字)输出作为观测矢量a的声音识别结果。
接着,介绍上述装置的工作情况。
帧形成部分1将输入数字语音数据分帧作为识别对象。将各帧的语音数据的观测矢量a顺序提供到特征提取部分2。特征抽取部分2通过对作为由帧形成部分1提供的观测矢量a的语音数据按声学原理分析来确定特征矢量Y。此外,根据这样确定的特征矢量Y,特征抽取部分2计算一代表在特征矢量空间中的分布的特征分布参数,并将其提供到鉴别部分3。
通过利用由特征提取部分2提供的特征分布参数,鉴别部分3计算与预定字数K相对应的各个类别的鉴别函数,并将具有最大函数值的类别输出作为声音的识别结果。
由于作为观测矢量a的语音数据被变换为代表如上所述的特征矢量空间(语音数据的特征参量的空间)中的分布的特征分布参数,特征分布参数Z反映包含在语音数据中的噪声的分布特性。此外由于声音的识别是根据这样一种特征分布参数Z,识别速率可以大为提高。
图6表示在图3中所示的特征抽取部分2的示例性结构。
观测矢量a提供到功率谱分析器12。功率谱分析器12例如根据FFT(快速付立业变换)算法对观测矢量a进行付立业变换,并因此按照特征矢量确定(抽取)作为声音的特征参量的功率谱。这里假设,作为一帧语音数据的观测矢量变换为由D维构成的特征矢量(即D维特征矢量)。
下面,将由第t帧的观测矢量a(t)得到的特征矢量用y(t)来代表。此外,特征矢量y(t)中的真实声音部分频谱和噪声部分频谱分别用x(t)和u(t)来表示。在这种情况下,真实声音成分频谱x(t)由下式确定:
x(t)=y(t)-U(t)其中假设,噪声具有不规则的特性,作为观测矢量a(t)的语音数据是真实声音部分和噪声之和。
由于噪声u(t)具有不规则的特性,u(t)是一随机的变量,因此x(t)由于是按方程(1)确定的,也是一随机的变量。因此,例如,如果噪声功率谱具有如图7A中所示的概率密度分布,则根据方程(1)真实声音的功率谱的概率密度函数按照图7B所示确定。真实声音的功率谱具有某一数值的概率是通过乘以一归一化系数得到的,该系数使得真实声音的概率分布具有单位面积;噪声功率谱具有某一数值的概率,是通过由输入声音(输入信号)的功率谱减去真实声音的功率谱的上述数值得到的。图7A和7B是按照这一假设画出的,即每一U(t),x(t)和y(t)的分量的数目为1(D=1)。
参阅图6,由功率谱分析器12得到的特征矢量y(t)提供到开关13。开关13在语音部分检测部分11的控制下选择连接端13a和13b的其中之一。
语音时段检测部分11检测语音时段(即使用人说话持续时间)。例如检测语音时段方法的细节公开在J.C.Junqua,B.Mark以及B.Reaves的“用于在出现噪声时的字边界检测的实用算法”,IEEE论文集“语音和音频处理,第2卷、第3期、1994。
可以利用其它方法来识别语音时段,例如通过在语音识别装置中装设适当的按键和当使用人说话时由使用人操纵该按键。
语音时段检测部分11控制开关13,使得其在一语言时段中选择端13b而在另一时段(下文称之为无语音时段,在适当情况下)选择端13a。
因此,在无语音时段,开关13选择端13a,因此,将功率谱分析器12的输出经过开关13提供到噪声特性计算器14。噪声特性计算器14根据在无语音时段中功率谱分析器12的输出计算在语音时段中的噪声特性。
在这一实例中,噪声特性计算器14按照一些假设确定噪声的平均数值(平均矢量)和离差(离差矩阵),该假设即在某一语音时段中的噪声功率谱U(t)具有与直接在这一语音时段之前的无语音时段相同的分布,以及假设该分布是正态分布。
具体地说,假设语音时段中的第1帧为1号帧(t=1),确定100帧(由语音时段之前200帧的一帧到语音时段之前101帧的一帧)的功率谱分析器12的y(-200)到y(-101)输出的平均矢量μ’和离差矩阵∑’,作为该语音时段的噪声特性。
可以根据如下方程(2)确定平均矢量μ’和离差矩阵∑’ μ ′ ( i ) = 1 100 Σ 1 - - 200 - 101 y ( t ) ( i ) Σ ′ ( i , j ) = 1 100 Σ 1 - - 200 - 101 ( y ( t ) ( i ) - μ ′ ( i ) ) ( y ( t ) ( j ) - μ ′ ( j ) ) . . . . . ( 2 ) 其中μ’(i)代表平均矢量μ’(i=1,2,…D)的第i部分,y(t)(i)代表第t帧的特征矢量的第i部分;以及∑’(i,j)代表离差矩阵∑’中的第i行第j列部(j=1,2,…D)。
这里,为了减少计算量,假设关于噪声,该特征矢量y的各部分必须互相关。在这种情况下,按照下式(3)除离差矩阵∑’中的对角线分量以外的分量为0
∑’(i,j)=0,1≠j              ……(3)
噪声特性计算器14按上述方式确定平均矢量μ’和离差矩阵∑’作为噪声特性并将它们提供到特征分布参数计算器15。
另一方面,在语音时段,开关13选择端13b,因此,功率谱分析器12的输出即作为包含真实声音和噪声的语音数据的特征矢量经过开关13提供到特征分布参数计算器15。根据由功率谱分析器12提供的特征矢量Y和由噪声特性计算器15提供的噪声,特征分布参数计算器15计算代表真实声音的功率谱的分布(估值的分布)。
即,按照假设,即真实声音的功率谱为正态分布,特征分布参数计算器15根据如下公式计算该分布的平均矢量3和离差4,该公式为:E(t)(i)-E[x(t)(i)]
   -E[y(t)(i)-u(t)(i)] - ∫ 0 y ( t ) ( i ) ( y ( t ) ( i ) - u ( t ) ( i ) ) P ( u ( t ) ( i ) ) ∫ 0 y ( t ) ( i ) P ( u ( t ) ( i ) du ( t ) ( i ) ) du ( t ) ( i ) - y ( t ) ( i ) ∫ 0 y ( t ) ( i ) P ( u ( t ) ( i ) ) du ( t ) ( i ) - ∫ 0 y ( t ) ( i ) u ( t ) ( i ) P ( u ( t ) ( i ) ) du ( t ) ( i ) ∫ 0 y ( t ) ( i ) P ( u ( t ) ( i ) ) du ( t ) ( i ) · · · · · ( 4 ) - y ( t ) ( i ) - ∫ 0 y ( t ) ( i ) u ( t ) ( i ) P ( u ( t ) ( i ) ) du ( t ) ( i ) ∫ 0 y ( t ) ( i ) P ( u ( t ) ( i ) ) du ( t ) ( i ) 如果i=j,ψ(t)(i,j)=V[x(t)(i)]
      =E[(x(t)(i))2]-(E[x(t)(i)])2
      (=E[(x(t)(i))2]-(ξ(T)(i))2).如果i≠j,ψ(t)(i,j)=0.
                                   .....(5)E[(x(t)(i)2]-E[(y(t)(i)-u(t)(i))2] - ∫ 0 y ( t ) ( i ) ( y ( t ) ( i ) - u ( t ) ( i ) ) 2 P ( u ( t ) ( i ) ) ∫ 0 y ( t ) ( i ) P ( u ( t ) ( i ) ) du ( t ) ( i ) du ( t ) ( i ) - 1 ∫ 0 y ( t ) ( i ) P ( u ( t ) ( i ) ) du ( t ) ( i ) × { ( y ( t ) ( i ) ) 2 ∫ 0 y ( t ) ( i ) P ( u ( t ) ( i ) ) du ( t ) ( i ) - 2 y ( t ) ( i ) ∫ 0 y ( t ) ( i ) u ( t ) ( i ) P ( u ( t ) ( i ) ) du ( t ) ( i ) + ∫ 0 y ( t ) ( i ) ( u ( t ) ( i ) ) 2 P ( u ( t ) ( i ) ) du ( t ) ( i ) } - ( y ( t ) ( i ) ) 2 - 2 y ( t ) ( i ) ∫ 0 y ( t ) ( i ) u ( t ) ( i ) P ( u ( t ) ( i ) ) du ( t ) ( i ) ∫ 0 y ( t ) ( i ) P ( u ( t ) ( i ) ) du ( t ) ( i ) . . . . . ( 6 ) + ∫ 0 y ( t ) ( i ) ( u ( t ) ( i ) ) 2 P ( u ( t ) ( i ) ) du ( t ) ( i ) ∫ 0 y ( t ) ( i ) P ( u ( t ) ( i ) ) du ( t ) ( i ) P ( u ( t ) ( i ) ) = 1 2 πΣ ′ ( i , i ) e - 1 2 Σ ′ ( i , i ) ( u ( t ) ( i ) - μ ′ ( i ) ) 2 . . . . . ( 7 )
在上述公式中,ξ(t)(i)代表第t帧的平均矢量ξ(t)的第i部分,E[]意指在方括号“[]”中的变量的平均值,x(t)(i)代表第t帧的真实声音的功率谱的第i部分。此外,u(t)(i)代表第t帧的噪声功率谱的第i部分;以及P(U(t)(i)代表第i帧的噪声功率谱中第i部分为U(t)(i)的概率。在这一实例中,由于假设噪声分布是正态分布,P(U(t)(i))由方程(7)确定。
此外,ψ(t)(i,j)代表第t帧的离差矩阵ψ(t)中的第i行第j列分量,以及V[]意指在方括号“[]”中的变量的离差。
按上述方式,特征分布参数计算器15针对每一帧确定作为代表在特征矢量空间中真实声音分布(即假设在特征矢量空间中真实声音的分布是正态分布)的特征分布参数的,平均矢量ξ和离差矩阵ψ。
于是,当语音时段结束时,开关13选择端13a并且特征分布参数计算器15向鉴别部分3输出已针对在该语音时段中的每一帧确定的特征参数。即,假设该语言时段由T帧组成,针对T帧中的每一帧确定的特征分布参数按Z(t)={ξ(t),ψ(t)}来表示,其中t=1,2,…T,特征分布参数计算器15向鉴别部分3提供特征分布参数(序列参数)Z={z(1),z(2),…z(T)}。
在此之后特征抽取部分2重复相似的过程。
图8表示在图3中的鉴别部分3的示例性结构。
由特征抽取部分2(特征分布参数计算器15)提供的特征分布参数Z被提供到K个鉴别函数计算部分211-21k。鉴别函数计算部分21k存储用于鉴别与K个类别(K=1,2,…K)的第K类别相对应的一个字的鉴别函数gk(Z),并且作为变量通过利用由特征抽取部分2提供的特征分布参数Z来计算鉴别函数gk(Z)。
鉴别部分3例如根据HMM(隐藏马尔科夫模型)确定作为一类别的字。
在这一实施例中,例如采用图9中所示的HMM。按照这种HMM,有H级q1-qH,以及仅允许一自转换和转换到直接相邻的状态。起始的状态是最左侧的状态q1和最终的状态是最右侧的状态,并且禁止由最终状态qH再状态转换。一种其中当前状态左侧状态没有发生转换的模型称之为左向右模型。在语音识别中通常采用左向右模型。
下面将用于鉴别HMM中的第K类别的模型称之为第K类别模型。例如,利用起始状态为状态qh的概率(起始状态概率)πk(qh);概率(转换概率)ak(qi,qj),即在某一时间点(帧)t建立状态q1和在下一时间点t+1产生向状态qj的状态转变时的概率;以及概率(输出概率)bk(qi)(o),即当由状态qi(h=1,2,…H)发生状态转换时状态qi输出特征矢量o的概率;来确定第k组模型。
当提供特征矢量序列O1,O2,…时,例如将具有观测这样的特征矢量序列的最高概率(观测概率)的该组模型,选择作为特征矢量序列的识别结果。
在这一实例中,通过利用鉴别函数qrZ)来确定观测概率。即,利用作为用于确定概率的函数的如下方程提供鉴别函数,该概率即在对特征分布参数(序列)Z={z1,z2,…ZT}在最佳状态序列(即状态转变的最佳方式)下观测特征分布参数(序列)Z={z1,z2,…ZT}时的概率。 g k ( Z ) = max q t . c 2 . · · · q r π k ( q 1 ) · b k ′ ( q 1 ) ( z 1 ) · a k ( q 1 · q 2 ) · b k ′ ( q 2 ) ( z 2 ) …ak(qT-1,qT)·bk’(qT)(zT)    .....(8)
在上述方程中,bk’(qi)(Zi)代表对于具有一种分布Zj的输出概率。在这一实施例中,例如作为每个特征矢量在状态转变时输出时的概率的输出概率是在假设在特征矢量空间中的各部分不具有互相关的情况下用正态分布函数表示的。在这种情况下,当输入具有一分布Zt时,可以通过利用如下方程来确定输出概率bk’(S)(Zt),该方程包含利用平均矢量μk(S)和离差矩阵∑k(S)确定的概率密度函数Pk m(s)(x)以及表示第t帧的特征矢量的分布(在这一实施例中为功率谱)的概率密度函数Pf(t)(x)。bk’(s)(zt)-∫Pf(t)(x)Px m(s)(x)dx = Π 1 - 1 0 P ( s ) ( i ) ( ξ ( t ) ( i ) , ψ ( t ) ( i , i ) ) k=1,2,…,K:s=q1.q2...,qT:T=1.2…,T.....(9)
在方程(9)中,该积分的积分区间是整个的D维特征矢量空间(在这一实例中为功率谱空间)。
在方程(9)中,P(s)(i)(ξ(t)(i),ψ(t),(i,1))是由下式给定的:P(s)(i)(ξ(t)(i),ψ(t),(i,i)) = 1 2 π ( Σ k ( s ) ( i , i ) + ψ ( t ) ( i , i ) ) e - ( μ k ( s ) ( i ) - ξ ( t ) ( i ) ) 2 2 ( Σ k ( s ) ( i , i ) + ψ ( t ) ( i , i ) ) · · · · · ( 10 ) 其中μk(S)(i)代表平均矢量μk(S)中的第i分量以及∑k(S)(i,i)代表离差矩阵∑k(S)中的第i行第i列分量。第K类别模型的输出概率是按上面方程确定的。
如上所述,HMM是利用起始状态概率πk(qh)、转变概率ak(qi,qj)和输出概率bk(qi)(O)确定的,而这些概率是通过使用根据学习语音数据计算的特征矢量预先确定的。
在使用图9中所示的HMM的情况下,由最左侧状态q1开始转变。因此,仅状态q1的起始概率为1,其它状态的起始概率为0。正如由方程(9)和(10)所看到的,如果项ψ(t),(i,i)为O,则输出概率等于在其中没有考虑特征矢量的离差的连续的HMM中的输出概率。
HMM学习方法的一个实例是Baum-Welch的重新估测法。
图8中所示的鉴别函数计算部分Z1k对于第K类别模型存储该利用先前已经通过学习确定的起始状态概率πk(qh)、转变概率ak(qi,qj)和输出概率bk(qi)(0)确定的方程(8)的鉴别函数gk(Z)。鉴别函数计算部分Z1k通过利用由特征提取部分2提供的特征分布参数Z计算该鉴别函数,并将所形成的函数值(上面介绍的观测概率)gk(Z)输出到决定部分22。
决定部分22通过例如将如下公式的一种确定规则应用于由各个确定函数计算部分21r-21k提供的函数值gk(Z),确定特征分布参数Z即输入声音所属的那一类别(即输入声音被分类为各类别中的一类别)。 C ( Z ) = C k · H g k ( Z ) = max 1 ( g i ( Z ) ) · · · · · ( 11 ) 其中,C(Z)是为确定特征分布参数Z所属一个类别的鉴别运算(处理)的函数。在公式(11)的第二方程中的右侧的运算“max”意指在其后的函数值gi(Z)的最大值(i=1,2,…K)。
确定部分22根据公式(11)确定类别,并将其作为输入声音的识别结果输出。
图10表示在图3中所示的特征抽取部分2的另一种示例性结构。在图10中与图6中的组成部分相对应的各部分指定与图6中所示相同的标号。即这一特征抽取部分2除去设有噪声缓冲器31和特征分布参数计算器32分别取代噪声特性计算器14和特性分布参数计算器15之外,其基本上按照与图6相同的方式构成。
在这一实例中,例如,噪声缓冲器31暂时存储作为噪声功率谱的,无语音时段中的功率谱分析器12的输出。例如,噪声缓冲器31存储作为噪声功率谱W(1),W(2)…W(100)的即100帧的功率谱12的各个输出y(-200),y(-199),…y(-101),这100帧即在一语音时段前分别为200帧到101帧的各帧。
当语音时段已出现时,100帧的噪声功率谱W(n)(n=1,2,…N;在这一实例中N=100)输出到特征分布参数计算器32。
当语音时段已经出现以及特征分布参数计算器32已接收来自噪声缓冲器31的噪声功率谱W(n)(n=1,2,…N)时,特征分布参数计算器32例如根据如下的方程计算平均矢量ξ(t)和离差矩阵∑(t),它们限定了真实声音的功率谱的分布(假设按正态分布)(即真实声音的功率谱的估值的分布)。ξ(t)(i)=E[x(t)(i)] = 1 N Σ n = 1 N ( y ( t ) ( i ) - w ( n ) ( i ) ) ψ ( t ) ( i , j ) = 1 N Σ n = 1 N ( ( y ( t ) ( i ) - w ( n ) ( i ) - ξ ( t ) ( i ) ) · · · · · ( 12 ) X(y(t)(j)-w(n)(j)-ξ(t)(j)))j=1,2,…,D:j=1,2,…,D其中W(n)(i)表示第n噪声功率谱W(n)中的第i部分(W(n)(j)按相似方式确定)。
特征分布参数计算器32按照上述方式对于每一帧确定平均矢量ξ(t)和离差矩阵∑(t),并将在语音时段内的特征分布参数Z={Z1,Z2…ZT}输出到鉴别部分3(特征分布参数Zt是ξ(t)和∑(t)的组合)
虽然在图6所示的实例中假设:噪声功率谱中的各部分必须互相关,但是在图10所示的实例中没有采用这种假设确定特征分布参数,因此可以得到更精确的特征分布参数。
虽然在以上各实例中,将功率谱用作特征矢量(矢量参量),例如倒频谱也可用作特征矢量。
现在假设xc(t)代表某一帧t的真实声音的倒频谱,以及它的分布(倒频谱的估值的分布)例如是正态分布。根据如下方程可以确定平均矢量ξc(t)和离差矩阵ψc(t),它们确定了代表第t帧的特征矢量的分布xc(在这一实例中为倒频谱)的概率密度函数Pf(t)(xc)。 ξ c ( t ) ( i ) = 1 N Σ n = 1 N x c ( t ) ( n ) ( i ) . . . . . . i = 1,2 , · · · , D ψ c ( t ) ( i , j ) = 1 N Σ n = 1 N ( x c ( t ) ( n ) ( i ) - ξ c ( t ) ( i ) ) ( x c ( t ) ( n ) ( j ) - ξ c ( t ) ( i ) ) . . . . . ( 13 ) i=1,2,..,D:j=1,2,...,D其中ξc(t)(i)表示平均矢量ξc(t)的第i分量,ψc(t)(i,j)是离差矩阵ψc(t)的第i行第j列分量,以及xc(t)(n)(i)是如下列方程提供的倒频谱xc(t)(n)的第i分量。
xc(t)(n)=CxL(t)(n)
xL(t)(n)=(xL(t)(n)(1),xL(t)(n)(2),...,xL(t)(n)(D))
xL(t)(n)(i)=log(y(t)(i)-w(n)(i))
                                         .....(14)其中i=1,2,…D。在方程组(14)中的第一个方程中,C是DCT(离散余弦变换)矩阵。
在将倒频谱用作特征矢量的情况下,图3中的特征抽取部分2可以按照上述方式对于每一帧确定平均矢量ξc(t)和离差矩阵ψc(t),并将在语音时段中的特征分布参数Zc={Z1 c,Z2 c,…ZT c}输出到鉴别部分3(特征分布参数Zt c是{ξc(t),ψc(t)}的组合。
在这种情况下,通过利用如下方程可以确定用于在鉴别部分3计算鉴别函数gk(Zc)的输出概率bk’(S)(Zt c),作为表示在倒频谱空间中分布的概率;该方程包含由平均矢量μk c(S)和离差矩阵∑k c(S)确定的概率密度函数Pk m(S)(xc)以及表示第t帧特征矢量的分布(在这一实例中为例频谱)的概率密度函数。bk’(s)(zt c)=∫Pf(xc)Pk m(s)(xc)dxc = e - 1 2 ( ξ c ( i ) - μ k c ( s ) ) 7 ( ψ c ( t ) + Σ k c ( s ) ) - 1 ( ξ c ( t ) - μ k c ( s ) ) ( 2 π ) D 2 | ψ c ( t ) + Σ k c ( s ) | 1 2 . . . . . ( 15 ) 在方程(15)中,积分的积分区间是整个D维特征矢量空间(在这一实例中为倒频谱空间)。该项(ξc(t)-μk c(S))T是矢量ξc(t)-μk c(S)的转置。
如上所述,由于特征分布参数的确定反映了噪声分布特性以及利用这样确定的特征分布参数进行语音识别,识别速率可以提高。
表1表示了在这样一种情况下的识别速率,即其中通过利用倒频谱以及HMM方法实验语音的特征参数和鉴别部分3中的语音识别算法分别为利用特征分布参数进行语音识别(字识别)实验时的识别速率,以及在利用频谱减法进行语音识别实验情况下的识别速率。
                     表1
        识别速率%
    语音输入环境     SS方法     本发明
    汽车慢速和背景音乐     72     86
    在市区行进     85     90
    在高速路上行进     57     69
在上述各实验中,识别对象字的数目为5000,谈话人并非特定的人。在3种环境下进行谈话,即车辆慢速状态以及有背景音乐的环境、车辆行驶在市区的环境,以及车辆行驶在高速公路上的环境下谈话。
由表1可以看出,通过利用特征分布参数的语音识别,在这些环境中的任一个环境下,都能实现较高的识别速率。
上面已经将本发明应用于语音识别装置进行了介绍。这种语音识别装置能应用于可输入语音的车辆导引装置。
在上述实施例中,确定一种反映噪声分布特性的特征分布参数。应注意,例如该噪声包含在谈话环境中的外部噪声以及通信线路的噪声特性(当要识别经过电话线或某些其它通信线传输的声音)。
例如,本发明还可适用于在特定谈话人识别的情况下对于特定谈话人的查明。在这种情况下,本发明可以提高查明速度。
本发明不仅能够适用于语音识别,而且还适于模式识别,例如图像识别。例如,在图像识别的情况下,通过利用反映噪声分布特性的特征分布参数可提高图像识别速率,这种噪声来自用于拍摄图像,气候状态等的摄像机的镜头特性。
在上述实施例中,确定表示在功率谱或倒频谱空间中的分布的特征分布参数。然而,其它空间例如线性预测系数的空间,在各倒频谱和相邻各帧之间的差的空间以及过零空间都可用作要确定其中分布的空间。
在上述实施例中,确定表示在一种语音特征参数的空间中的分布的特征分布参数。然而,可以确定在多种语音特征参数的各个空间中的特征分布参数。还可以确定在多种语音特征参数的一或多个空间中的特征分布参数,以及通过利用这样确定的特征分布参数和在其它特征参数的空间中的特征矢量来进行语音识别。
在上述实施例中,在特征矢量空间中的特征矢量的分布(真实声音的特征矢量的各估值)被假设为正态分布,以及采用表示这样一种分布的特征分布参数。然而还可以采用其它分布例如对数正态概率分布,离散概率分布以及模糊分布作为要利用特征分布参数表示的分布。
.此外,在上述实施例中,通过利用其中的输出概率用正态分布表示的HMM来进行鉴别部分3中的类别鉴别。然而,可以按其它方法,例如通过利用其中的输出概率用混合的正态概率分布或离散分布表示的HMM;或者利用正态概率分布函数、对数概率分布函数,多项式函数、中枢(neural)网络等,在鉴别部分3中进行类别鉴别。
如上所述,在根据本发明的特征抽取装置和方法中,计算一表示当将输入数据进行变换映射到输入数据的特征参量的一个空间时得到的分布的特征分布参数。然而,例如当输入数据包含噪声时,可以得到一种反映噪声分布特性的参数。
在根据本发明的模式识别装置和方法中,计算一种表示当将输入数据变换映射到输入数据的特征参量的空间时得到的分布的特征分布参数,并将该特征分布参数进行分类作为预定数量的类别中的一个类别。因此,例如,当输入数据包含噪声时,可以得到反映噪声分布特性的参数。这样就使得能够增加输入数据的识别速率。

Claims (40)

1、一种特征抽取装置,抽取输入数据中的特征参量,包含:
计算装置,用于计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数。
2、根据权利要求1所述的特征抽取装置,其中的计算装置计算一表示正态概率分布的特征分布参数。
3、根据权利要求1所述的特征抽取装置,其中的计算装置计算一表示对数正态概率分布的特征分布参数。
4、根据权利要求1所述的特征抽取装置,其中的计算装置计算一表示离散概率分布的特征分布参数。
5、根据权利要求1所述的特征抽取装置,其中的计算装置计算一表示模糊分布的特征分布参数。
6、根据权利要求1所述的特征抽取装置,其中的计算装置计算在输入数据的多种特征参量中的至少一种的空间中的特征分布参数。
7、一种特征抽取方法,用于抽取输入数据中的特征参量,包含的步骤有:
计算一表示当将输入数据进行变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数。
8、一种模式识别装置,其通过将该模式分类为预定数目的类别中的一个类别来识别输入数据的模式,包含:
计算装置,用于计算一表示当将输入数据变换映射到输入数据的特征参量的空间中时得到的分布的特征分布参数;以及
分类装置,用于将该特征分布数据分类为预定数量的类别中的一个类别。
9、根据权利要求8所述的模式识别装置,其中的计算装置计算一表示正态概率分布的特征分布参数。
10、根据权利要求8所述的模式识别装置,其中的计算装置计算一表示对数正态概率分布的特征分布参数。
11、根据权利要求8所述的模式识别装置,其中的计算装置计算一种表示离散概率分布的特征分布参数。
12、根据权利要求8所述的模式识别装置,其中的计算装置计算一表示模糊分布的特征分布参数。
13、根据权利要求8所述的模式识别装置,其中的计算装置计算在输入数据的多种特征参量的至少其中一个的空间中的特征分布参数,以及其中该分类装置将其余种类的特征参量和特征分布参数分类为预定数量类别中的一个类别。
14、根据权利要求8所述的模式识别装置,其中的分类装置通过利用至少一个正交概率分布函数判别特征分布参数属于预定数量的类别中的哪一个类别。
15、根据权利要求8所述的模式识别装置,其中的分类装置通过利用至少一个多项式函数判别特征分布参数属于预定数量的类别中的哪一个类别。
16、根据权利要求8所述的模式识别装置,其中的分类装置通过利用至少一种隐藏的马尔科夫模型方法判别特征分布参数属于预定数量的类别中的哪一个类别。
17、根据权利要求8所述的模式识别装置,其中的分类装置通过利用至少一个中枢网络判别特征分布参数属于预定数量的类别中的哪一个类别。
18、根据权利要求8所述的模式识别装置,其中的输入数据是语音数据。
19、根据权利要求18所述的模式识别装置,其中的计算装置通过利用语音数据和与噪声相关的信息计算特征分布参数。
20、根据权利要求18所述的模式识别装置,其中的计算装置计算一表示正态概率分布的特征分布参数。
21、根据权利要求18所述的模式识别装置,其中的分类装置通过利用至少一种隐藏马尔科夫模型法判别特征分布参数属于预定数量的类别中的哪一个类别。
22、根据权利要求18所述的模式识别装置,其中的分类装置通过利用至少一种中枢网络判别特征分布参数属于预定数量类别中的哪一个类别。
23、根据权利要求18所述的模式识别装置,其中的计算装置计算一种表示语音数据的功率谱空间或倒频谱空间中的分布的特征分布参数。
24、一种模式识别方法,用于通过将该模式分类为预定数量类别中的一个类别来识别输入数据的模式,包含的步骤有:
计算一种表示当将输入数据变换映射到输入数据的特征参数的空间中时得到的分布的特征分布参数;以及
将特征分布参数分类为预定数量类别中的一个类别。
25、一种模式识别装置,通过将该模式分类为预定数量类别中的一个类别来识别输入数据的模式,包含:
帧形成装置,用于按照预定的间隔抽取部分输入数据,并作为1帧数据输出每一抽取的数据;
特征抽取装置,接收由每一抽取的数据组成的1帧数据,用于输出一种表示当将一帧数据变换映射到该一帧数据的特征参量的空间中时得到的分析的特征分布参数;以及
分类装置,用于将一系列的特征分布参数分类为预定数量类别中的一个类别。
26、根据权利要求25所述的模式识别装置,其中的输入数据是语音数据。
27、根据权利要求25所述的模式识别装置,其中的特征抽取装置包含:
频谱分析装置,用于对包含1帧数据的数据的频谱进行分析,并输出该频谱;
噪声特性计算装置,用于计算和输出噪声特性;以及
特征分布参数计算装置,用于根据该频谱和噪声特性计算表示1帧数据的频谱分布的特征频谱参数,并输出所计算的特征分布参数。
28、根据权利要求27所述的模式识别装置,其中的特征分布参数是表示在倒频谱空间中的分布的参数。
29、根据权利要求27所述的模式识别装置,其中的特征分布参数是表示在功率谱空间中的分布的参数。
30、根据权利要求27所述的模式识别装置,其中的特征分布参数是表示在频谱幅值空间中的分布的参数。
31、根据权利要求27所述的模式识别装置,其中的特征抽取装置还包含:
数据输入时段检测装置,用于检测其中输入了数据的数据输入时段和其中未输入该输入数据的未输入数据时段,并将数据时段检测结果输出,以及
选择装置,用于根据数据时段检测结果,选择性地将由频谱分析装置输出的频谱输出到噪声特性计算装置或者特征分布参数计算装置。
32、根据权利要求31所述的模式识别装置,其中的噪声计算装置根据在未输入数据的时段中的噪声输出数据。
33、一种模式识别方法,用于通过将该模式分类为预定数量类别中的一个类别来识别输入数据的模式,包含:
帧形成步骤,按照预定间隔抽取部分的输入数据,以及按照1帧数据输出每一抽取的数据;
特征抽取步骤,接收由每一抽取数据构成的1帧数据,并输出一种表示当将1帧数据变换映射到1帧数据的特征参量的空间中时得到的分析的特征分布参数;以及
分类步骤,将一系列的特征分布参数分类为预定数量的类别中的一个类别。
34、根据权利要求33所述的模式识别方法,其中的输入数据是语音数据。
35、根据权利要求33所述的模式识别方法,其中的特征抽取步骤包含:
频谱分析步骤,对包含1帧数据的数据进行分析,并输出该频谱;
噪声特性计算步骤,计算和输出噪声特性;以及
特征分布参数计算步骤,根据该频谱和噪声特征计算一种表示1帧数据的频谱分布的特征分布参数,并输出计算的特征分布参数。
36、根据权利要求35所述的模式识别方法,其中的特征分布参数是表示在倒频谱空间中的分布的参数。
37、根据权利要求35所述的模式识别方法,其中的特征分布参数是表示在功率谱空间中的分布的参数。
38、根据权利要求35所述的模式识别方法,其中的特征分布参数是表示在频谱幅值空间中分布的参数。
39、根据权利要求35所述的模式识别方法,其中的特征抽取步骤还包含:
数据输入时段检测步骤,检测其中输入了该输入数据的数据输入时段和未输入该输入数据的未输入数据时段,并输出数据时段检测结果;以及
选择步骤,根据数据时段检测结果输出该利用频谱分析步骤输出的该频谱。
40、根据权利要求39所述的模式识别方法,其中的噪声特性计算步骤根据在未输入数据的时段中的噪声输出数据。
CN98125060A 1997-10-31 1998-10-31 特征抽取装置和方法以及模式识别装置和方法 Pending CN1216380A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP300979/97 1997-10-31
JP30097997A JP3584458B2 (ja) 1997-10-31 1997-10-31 パターン認識装置およびパターン認識方法

Publications (1)

Publication Number Publication Date
CN1216380A true CN1216380A (zh) 1999-05-12

Family

ID=17891383

Family Applications (1)

Application Number Title Priority Date Filing Date
CN98125060A Pending CN1216380A (zh) 1997-10-31 1998-10-31 特征抽取装置和方法以及模式识别装置和方法

Country Status (10)

Country Link
US (3) US6910010B2 (zh)
EP (1) EP0913810A3 (zh)
JP (1) JP3584458B2 (zh)
KR (1) KR19990037460A (zh)
CN (1) CN1216380A (zh)
AU (1) AU746511B2 (zh)
BR (1) BR9804324A (zh)
CA (1) CA2251509C (zh)
SG (1) SG75886A1 (zh)
TW (1) TW392130B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3584458B2 (ja) * 1997-10-31 2004-11-04 ソニー株式会社 パターン認識装置およびパターン認識方法
JP2000259198A (ja) 1999-03-04 2000-09-22 Sony Corp パターン認識装置および方法、並びに提供媒体
EP1132896A1 (en) * 2000-03-08 2001-09-12 Motorola, Inc. Frequency filtering method using a Wiener filter applied to noise reduction of acoustic signals
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
JP4538705B2 (ja) * 2000-08-02 2010-09-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
JP2002123285A (ja) * 2000-10-13 2002-04-26 Sony Corp 話者適応装置および話者適応方法、記録媒体、並びに音声認識装置
US9280748B2 (en) 2012-06-22 2016-03-08 Knowm Tech, Llc Methods and systems for Anti-Hebbian and Hebbian (AHaH) feature extraction of surface manifolds using
US9269043B2 (en) 2002-03-12 2016-02-23 Knowm Tech, Llc Memristive neural processor utilizing anti-hebbian and hebbian technology
US7130776B2 (en) * 2002-03-25 2006-10-31 Lockheed Martin Corporation Method and computer program product for producing a pattern recognition training set
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
JP4529492B2 (ja) * 2004-03-11 2010-08-25 株式会社デンソー 音声抽出方法、音声抽出装置、音声認識装置、及び、プログラム
US8218880B2 (en) 2008-05-29 2012-07-10 Microsoft Corporation Linear laplacian discrimination for feature extraction
US8738367B2 (en) * 2009-03-18 2014-05-27 Nec Corporation Speech signal processing device
US8713018B2 (en) * 2009-07-28 2014-04-29 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via inclusion
US8145483B2 (en) * 2009-08-05 2012-03-27 Tze Fen Li Speech recognition method for all languages without using samples
JP5523017B2 (ja) * 2009-08-20 2014-06-18 キヤノン株式会社 画像処理装置及び画像処理方法
CA3026879A1 (en) 2009-08-24 2011-03-10 Nuix North America, Inc. Generating a reference set for use during document review
KR101137533B1 (ko) * 2010-09-03 2012-04-20 경희대학교 산학협력단 패턴 인식을 위한 특징 데이터 선택 방법 및 그 방법을 이용한 특징 데이터 선택 장치
US20120116764A1 (en) * 2010-11-09 2012-05-10 Tze Fen Li Speech recognition method on sentences in all languages
US20130090926A1 (en) * 2011-09-16 2013-04-11 Qualcomm Incorporated Mobile device context information using speech detection
US8918353B2 (en) 2012-02-22 2014-12-23 Knowmtech, Llc Methods and systems for feature extraction
US11237556B2 (en) 2012-06-22 2022-02-01 Knowm, Inc. Autonomous vehicle
CN104575498B (zh) * 2015-01-30 2018-08-17 深圳市云之讯网络技术有限公司 有效语音识别方法及系统
JP6543844B2 (ja) * 2015-08-27 2019-07-17 本田技研工業株式会社 音源同定装置および音源同定方法
US11068546B2 (en) 2016-06-02 2021-07-20 Nuix North America Inc. Computer-implemented system and method for analyzing clusters of coded documents
ES2964982T3 (es) * 2016-12-06 2024-04-10 Nippon Telegraph & Telephone Dispositivo de extracción de características de señal, método de extracción de características de señal, y programa
CN110197670B (zh) * 2019-06-04 2022-06-07 大众问问(北京)信息科技有限公司 音频降噪方法、装置及电子设备
CN111256806A (zh) * 2020-01-20 2020-06-09 福州大学 一种非接触振动频率组成测量方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE2751184C2 (de) * 1977-11-16 1979-04-19 Carl Hepting & Co, Lederwaren- Und Guertelfabrik, Gmbh, 7000 Stuttgart Beschlag für einen Reisekoffer o.dgl
US4718093A (en) * 1984-03-27 1988-01-05 Exxon Research And Engineering Company Speech recognition method including biased principal components
US4897878A (en) * 1985-08-26 1990-01-30 Itt Corporation Noise compensation in speech recognition apparatus
JP2776848B2 (ja) * 1988-12-14 1998-07-16 株式会社日立製作所 雑音除去方法、それに用いるニューラルネットワークの学習方法
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
US5063603A (en) 1989-11-06 1991-11-05 David Sarnoff Research Center, Inc. Dynamic method for recognizing objects and image processing system therefor
US5210820A (en) * 1990-05-02 1993-05-11 Broadcast Data Systems Limited Partnership Signal recognition system and method
US5680481A (en) 1992-05-26 1997-10-21 Ricoh Corporation Facial feature extraction method and apparatus for a neural network acoustic and visual speech recognition system
JP2795058B2 (ja) * 1992-06-03 1998-09-10 松下電器産業株式会社 時系列信号処理装置
IT1257073B (it) 1992-08-11 1996-01-05 Ist Trentino Di Cultura Sistema di riconoscimento, particolarmente per il riconoscimento di persone.
US5497447A (en) * 1993-03-08 1996-03-05 International Business Machines Corporation Speech coding apparatus having acoustic prototype vectors generated by tying to elementary models and clustering around reference vectors
US5522011A (en) * 1993-09-27 1996-05-28 International Business Machines Corporation Speech coding apparatus and method using classification rules
UA41913C2 (uk) * 1993-11-30 2001-10-15 Ейті Енд Ті Корп. Спосіб шумозаглушення у системах зв'язку
US5704004A (en) * 1993-12-01 1997-12-30 Industrial Technology Research Institute Apparatus and method for normalizing and categorizing linear prediction code vectors using Bayesian categorization technique
US5544250A (en) * 1994-07-18 1996-08-06 Motorola Noise suppression system and method therefor
JP2690027B2 (ja) * 1994-10-05 1997-12-10 株式会社エイ・ティ・アール音声翻訳通信研究所 パターン認識方法及び装置
US5706395A (en) * 1995-04-19 1998-01-06 Texas Instruments Incorporated Adaptive weiner filtering using a dynamic suppression factor
KR0170317B1 (ko) * 1995-07-13 1999-03-30 김광호 관찰벡터의 디스토션 확률밀도를 가진 은닉마코프 모델을 이용한 음성인식 방법
JP3536471B2 (ja) * 1995-09-26 2004-06-07 ソニー株式会社 識別装置および識別方法、並びに音声認識装置および音声認識方法
US5734796A (en) * 1995-09-29 1998-03-31 Ai Ware, Inc. Self-organization of pattern data with dimension reduction through learning of non-linear variance-constrained mapping
US5787394A (en) * 1995-12-13 1998-07-28 International Business Machines Corporation State-dependent speaker clustering for speaker adaptation
US6104833A (en) * 1996-01-09 2000-08-15 Fujitsu Limited Pattern recognizing apparatus and method
US5862519A (en) * 1996-04-02 1999-01-19 T-Netix, Inc. Blind clustering of data with application to speech processing systems
US5920644A (en) * 1996-06-06 1999-07-06 Fujitsu Limited Apparatus and method of recognizing pattern through feature selection by projecting feature vector on partial eigenspace
US6539115B2 (en) * 1997-02-12 2003-03-25 Fujitsu Limited Pattern recognition device for performing classification using a candidate table and method thereof
KR100434522B1 (ko) * 1997-04-29 2004-07-16 삼성전자주식회사 시간축 상호관계를 이용한 음성인식 방법
US5960397A (en) 1997-05-27 1999-09-28 At&T Corp System and method of recognizing an acoustic environment to adapt a set of based recognition models to the current acoustic environment for subsequent speech recognition
JP3584458B2 (ja) * 1997-10-31 2004-11-04 ソニー株式会社 パターン認識装置およびパターン認識方法
KR20000033530A (ko) * 1998-11-24 2000-06-15 김영환 음성 구간 검출과 스펙트럼 차감법을 이용한 차량 잡음제거방법
KR20000040574A (ko) * 1998-12-18 2000-07-05 김영환 Gpfn 알고리즘과 lvq 알고지즘을 이용한 음성인식 방법
KR100358006B1 (ko) * 1999-07-27 2002-10-25 학교법인 한국정보통신학원 음악 데이타 베이스에서의 곡목 검색 장치 및 방법
KR100343223B1 (ko) * 1999-12-07 2002-07-10 윤종용 화자 위치 검출 장치 및 그 방법

Also Published As

Publication number Publication date
CA2251509A1 (en) 1999-04-30
AU8937398A (en) 1999-05-20
BR9804324A (pt) 1999-12-21
US7509256B2 (en) 2009-03-24
TW392130B (en) 2000-06-01
US7117151B2 (en) 2006-10-03
US6910010B2 (en) 2005-06-21
SG75886A1 (en) 2000-10-24
JP3584458B2 (ja) 2004-11-04
JPH11133992A (ja) 1999-05-21
US20050171773A1 (en) 2005-08-04
EP0913810A3 (en) 2000-04-12
EP0913810A2 (en) 1999-05-06
CA2251509C (en) 2005-01-25
US20020010583A1 (en) 2002-01-24
AU746511B2 (en) 2002-05-02
KR19990037460A (ko) 1999-05-25
US20050171772A1 (en) 2005-08-04

Similar Documents

Publication Publication Date Title
CN1216380A (zh) 特征抽取装置和方法以及模式识别装置和方法
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
US7133826B2 (en) Method and apparatus using spectral addition for speaker recognition
CN109256150B (zh) 基于机器学习的语音情感识别系统及方法
CN1188831C (zh) 具有多个话音识别引擎的话音识别系统和方法
DE60124842T2 (de) Rauschrobuste Mustererkennung
CN1805008A (zh) 语音检测装置、自动图像拾取装置和语音检测方法
CN1199488A (zh) 模式识别
US6182036B1 (en) Method of extracting features in a voice recognition system
CN1856820A (zh) 语音识别方法和通信设备
CN111916108B (zh) 一种语音评测方法及装置
CN1650349A (zh) 用于抗噪声语音识别的在线参数直方图正态化
CN113129927B (zh) 语音情绪识别方法、装置、设备及存储介质
CN113223560A (zh) 情绪识别方法、装置、设备及存储介质
CN111326178A (zh) 基于卷积神经网络的多模态语音情感识别系统及方法
CN1584984A (zh) 使用瞬时信噪比作为最优估计的主量的降噪方法
US7103547B2 (en) Implementing a high accuracy continuous speech recognizer on a fixed-point processor
CN114333865A (zh) 一种模型训练以及音色转换方法、装置、设备及介质
Huang et al. Research on robustness of emotion recognition under environmental noise conditions
CN113539243A (zh) 语音分类模型的训练方法、语音分类方法及相关装置
US7702489B2 (en) Method and apparatus for fast machine learning using probability maps and fourier transforms
CN109119073A (zh) 基于多源识别的语音识别方法、系统、音箱及存储介质
CN113112992B (zh) 一种语音识别方法、装置、存储介质和服务器
WO2007041789A1 (en) Front-end processing of speech signals
CN111640450A (zh) 多人声音频处理方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication