CN1214141A

CN1214141A - 识别装置和识别方法以及学习装置和学习方法

Info

Publication number: CN1214141A
Application number: CN97193175A
Authority: CN
Inventors: 近藤哲二郎
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1996-12-26
Filing date: 1997-12-22
Publication date: 1999-04-14
Anticipated expiration: 2017-12-22
Also published as: WO1998029864A1; KR100578260B1; EP0896319B1; EP0896319A1; KR19990087263A; DE69730705D1; JP3702978B2; JPH10187186A; US6396954B1; CN1119795C; EP0896319A4; DE69730705T2

Abstract

从输入单元(10)输出多种数据,例如,用户发出的语音数据、通过对用户口部摄象而获得的图像数据、周围噪声的数据等。这些数据由前处理单元(20－23)分析,从而获得特征参数。在分类用数据构成单元(24)中,根据特征参数构成分类用数据,分类单元(25)将这些数据进行分类。在综合参数构成单元(26)中,根据前处理单元(20－23)输出的特征参数来构成综合参数。在自适应判定单元(27)中,选出与分类单元(25)分类结果相对应的表格。根据登记在所选表格中的标准参数和根据综合参数构成单元(26)输出的综合参数来识别用户发出的语音。因此本发明可提高语音的识别率。

Description

识别装置和识别方法以及学习装置和学习方法

本发明涉及识别装置和识别方法以及学习装置和学习方法，具体涉及对于例如声音和物体等不但用其声音及图像数据、还用其它数据进行识别、因而能提高识别精度的识别装置和识别方法以及学习装置和学习方法。

在已有的例如识别语音的语音识别装置中，是对从送话器输出的语音数据进行(音响)分析及利用该分析结果来识别用户发出的语音的。

但是，在已有的语音识别装置中，由于只用来自送话器的语音数据的分析结果进行语音识别，其识别性能在某种程度上受到限制。

即，在识别说话人的语音时，不但来自送话器的语音数据，而且该说话人的表情和嘴部动作等也是重要因素，因而必须考虑此种等种种因素。

而且，语音识别装置几乎不在如隔音室之类的只把作为识别对象的语音从送话器输入的环境下使用，而往往在存在除此之外的种种噪声的环境下使用。最近，设有语音识别装置的例如导航系统正在实用化，在此场合下，在语音认别装置中，除了应识别的说话人的语音之外，还输入了装备在汽车中的CD(光盘)播放器的输出声音、引擎的声音、空调器的声音等其它噪声。而从混合有此类噪声的语言数据中只除去噪声是十分困难的。因此，为了提高识别性能，有必要采纳作为识别对象的语音以外的声音的噪声。

此外，在已往的语音识别装置中，是对从送话器输出的声音数据进行规定的分析处理而求出其特征参数，然后通过计算在参数空间中该特征参数之间的距离等来识别语音的。但是，要考虑，在识别时，主要的特征参数随语音识别装置的使用环境而变化。

鉴于以上状况而提出本发明。本发明的目的是提高对语音及其它因素进行识别的识别装置的识别性能。

在权利要求1中所述的识别装置包括以下设备：第一分类设备，用于根据多种输入数据的性质将这些数据按照规定的类别分类；综合参数构成设备，用于构成综合多种输入数据的综合参数；标准参数存储设备，用于存储分配给所述第一分类设备的每个输出类别的、登记着规定的标准参数的表格；以及识别设备，用于根据在与第一分类设备输出的类别对应的表格中登记的标准参数和根据综合参数来识别识别对象。

在权利要求5中所述的识别方法包括以下步骤：根据多种输入数据的性质将这些输入数据按规定的类别分类，同时通过对多种输入数据进行综合而构成综合参数；以及根据登记有与分类结果得到的类别对应的标准参数的表格和根据综合参数来识别识别对象。

在权利要求6中所述的学习装置包括以下设备：第一分类设备，用于根据多种输入数据的性质将这些数据按规定的类别分类；综合参数构成设备，用于构成综合多种输入数据的综合参数；以及分类设备，用于按照第一分类设备输出的每个类别来对综合参数分类。

在权利要求9中所述的学习方法包括以下步骤：根据多种输入数据的性质将这些输入数据按规定的类别分类，同时通过对多种输入数据进行综合而构成综合参数，以及按照分类结果得出的每个类别来对综合参数分类。

在权利要求1所述的识别装置中，第一分类设备根据多种输入数据的性质将这些输入数据进行按规定类别分类，综合参数据构成设备通过对多种输入数据的综合而构成综合参数。标准参数存储设备存储分配给所述第一分类设备的每个输出类别的、登记着规定的标准参数的表格，识别设备则根据在与第一分类设备输出的类别相对应的表格中登记的标准参数和根据综合参数来识别识别对象。

在权利要求5所述的识别方法中，根据多种输入数据的性质将这些输入数据按规定的类别分类，同时通过对多种输入数据进行综合而构成综合参数；根据登记有与分类结果得到的类别相对应的标准参数的表格和根据综合参数来识别识别对象。

在权利要求6所述的学习装置中，第一分类设备根据多种输入数据的性质把这些输入数据按规定的类别分类，综合参数构成设备构成综合多种输入数据的综合参数。分类设备把综合参数按第一分类设备输出的每个类别分类。

在权利要求9所述的学习方法中，根据多种输入数据的性质将这些数据分类成规定的类别，同时通过对多种输入数据进行综合而构成综合参数；把综合参数按分类结果得出的每个类别分类。

图1是表示应用本发明的导航系统的组成例的方框图。

图2是表示应用本发明的语音识别装置第一实施例的组成例的方框图。

图3是说明前处理单元21的处理用的图。

图4是表示应用本发明的学习装置第一实施例的组成例的方框图。

图5是表示参数空间的图。

图6是表示应用本发明的语音识别装置第二实施例的组成例的方框图。

图7是表示应用本发明的学习装置第二实施例的组成例的方框图。

图8是表示应用本发明的语音识别装置第三实施例的组成例的方框图。

图9是表示应用本发明的学习装置第三实施例的组成例的方框图。

图1是表示应用本发明的导航系统的实施例的方框图。

该导航系统装备在汽车等中，包括系统控制单元1、位置测定装置2、数据库装置3、输入装置4及输出装置5。该导航系统由例如操作按钮开关或通过对话方式输入的语音来控制。而且，该导航系统也能携带着使用。

系统控制单元1在构成该系统的各方框之间进行信息的发送和接收以控制整个系统的动作。位置测定系统2接收来自GPS(全球定位系统)卫星的电波并且用例如陀螺仪或车速传感器的测量设备来测定当前位置。在数据库装置3中，记录(存储)着例如多种比例尺的电子化地图信息及其它对导航必要的信息，由此根据来自系统控制单元1的指令来检索必要的信息以供给系统控制单元1。

在输入装置4中，装备有对导航系统进行规定处理用的按钮开关或操纵杆、输入语音用的送话器、对用户摄象用的CCD(电荷耦合器件)摄象机、还有测定汽车振动用的加速度传感器、测定湿度和温度用的传感器、以及其它各种传感器等。来自输入装置4的与按钮开关或操纵杆操作对应的信号发送到系统控制单元1。而且，输入装置4含有语音识别装置，对输入的声音进行语音识别，然后把该语音识别结果发送到系统控制单元1。

输出装置5含有例如显示图像等用的液晶显示监视器或CRT(阴极射线管)、输出语音等用的扬声器、由文本信息生成合成语音的语音合成装置等，并且显示从系统控制单元1送来的信息之中的例如地图信息和现在位置信息等以及输出语音信息。而且，输出装置5在接收到系统控制单元1发送来的文本信息时，在语音合成装置中合成并输出与该文本信息对应的语音。

在如上构成的导航系统中，例如，一旦用户说出作为目的地的地名，此语音就在输入装置4内装的语音识别装置中进行语音识别，该语音识别结果被供给到系统控制单元1。一旦系统控制单元1接收到作为目的地的地名的语音识别结果，它就根据位置测定装置2的输出识别出当前位置，并且参照存储在数据库装置3中的地图信息求出从现在位置到目的地的路线。接着，系统控制单元1把表示该路线的地图信息供给输出装置5进行显示，同时在输出装置5内装的语音合成装置中生成并输出引导该路线的合成语音。

因而，在此情况下，用户能容易地到达目的地。

图2表示图1输入装置4内装的语音识别装置第一实施例的组成例子。

输入单元10由送话器11、CCD摄象机12、送话器13、传感器14、放大器15、A/D(模数)变换器16、放大器17、A/D变换器18和19组成，由这些组成输出用于识别作为驾驶员的用户的语音的各种输入数据。

具体说，送话器11是例如有方向性的，设置成指向作为驾驶员的用户的方向。因此，在送话器11中主要输入用户的语音。把在送话器11输入的语音变换成音频信号，通过放大器15的放大供给A/D变换器18。在A/D变换器18中，通过放大器15供给的模拟语音信号用规定的取样时钟取样，然后以规定的量化步长量化，因而被变换成数字信号的音频数据。把A/D变换器18输出的音频数据提供给前处理单元20。

CCD摄象机12设置成对用户的口部摄象，把用该CCD摄象机12摄象的用户口部作为视频信号供给A/D变换器16。与在A/D变换器18中的情况相同，A/D变换器16把模拟视频信号变换成图像数据供给前处理单元21。

送话器13例如为无方向性的，它主要输入用户语音之外的声音。即，输入例如引擎声音、汽车装备的收音机和CD播放器等输出的声音、空调器的声音、以及在窗户开着的时候输入外部噪声等。在放大器17和A/D变换器19中，与在放大器15和A/D变换器18中相同地对送话器13输入的声音进行处理，据此作为音频数据提供给前处理单元22。

传感器14可以是测定汽车振动用的加速度传感器或者是测定湿度和温度用的传感器等，其输出供给前处理单元23。加速度传感器的输出表示例如由汽车振动所产生的噪声的程度(大小)。根据测定湿度和温度用的传感器的输出，判定例如是否在下雨，而且，如果在下雨，则测定该雨声大小的程度。

在前处理单元20至23中，分别对供给的数据进行分析，求出表示数据特征的特征参数。

即，前处理单元20和22根据音频数据，以规定时间的语音帧为单位，求出例如音频数据的过零值、在每一规定的频带中的功率电平、线性预测系数、倒频谱(cepsturm)系数等，作为特征参数输出至分类用数据构成单元24和综合参数构成单元26。

如图3所示，前处理单元21根据用户口部的图像数据求出例如用户嘴部的横长L₁和纵长L₂，将其比值L₁/L₂作为特征参数输出至分类用数据构成单元24和综合参数构成单元26。或者，在前处理单元21中，从用户口部的视频数据求出运动向量、边界值、DCT(离散余弦变换)系数等作为特征参数输出至分类用数据构成单元24和综合参数构成单元26。

在前处理单元23中，根据对传感器14输出的分析，求出如上所述的例如反映由汽车振动产生的噪声程度(大小)的特征参数或者反映雨声程度的特征参数，这些参数也输出至分类用数据构成单元24和综合参数构成单元26。

分类用数据构成单元24把前处理单元20至23输出的特征参数的至少一部分作为用于分类的分类用数据输出至分类单元25。在分类单元25中，根据来自分类用数据构成单元24的分类用数据的性质，对这些分类用数据按规定类别进行分类。

即，分类单元25把预先分配给构成分类用数据的特征参数值的模式(pattern)的值作为该分类用数据的类别供给自适应判定单元27。

在这里，若特征参数由例如A比特表示，且若分类用数据由B个特征参数构成，则构成这样的分类用数据的特征参数值的模式数为(2^A)^B。因此如果A或B很大，类别数就变得巨大，难于使此后的处理迅速进行。

因此，作为进行分类之前的前处理，对分类用数据进行例如ADRC(自适应动态范围编码)之类的处理，以减少构成分类用数据的特征参数的比特数。

即，在ADRC处理中，首先从构成分类用数据的B个特征参数中检出数值最大的(以下适当地称作最大特征参数)和数值最小的(以下适当地称作最小特征参数)。然后，计算最大特征参数的值MAX和最小特征参数的值MIN的差值DR(=MAX-MIN)，将其作为分类用数据的局部动态范围；根据该动态范围DR，构成分类用数据的各个特征参数被再量化成比原来分配的比特数A少的C比特。即，从构成分类用数据的各个特征参数减去最小特征参数的值MIN，把各减后值除以DR/2^C。

其结果是，构成分类用数据的各个特征参数用C比特来表示。因此，在例如设C=1的场合，B个特征参数的模式数成为(2¹)^B，与不进行ADRC的场合比较，能使模式数变得非常少。

从减少构成分类用数据的特征参数的模式数的观点看，构成分类用数据的特征参数的数目B希望是不怎么大的数值。但是，特征参数的数目B过于小，也有不能进行恰当分类的危险。因此特征参数的数目B希望通过对以上二者平衡后加以确定。

另一方面，综合参数构成单元26综合(集合)前处理单元20至23输出的特征参数的至少一部分而作为综合参数输出至自适应判定单元27。

在这里，综合参数所综合和构成的特征参数组可以与构成分类用数据的特征参数组相同，也可以与构成分类用数据的特征参数组不同。

自适应判定单元27由标准参数存储单元28和匹配单元29组成。当分别从分类单元25接收到类别或从综合参数构成单元26接收到综合参数时，自适应判定单元27首先从标准参数存储单元28选择一登记有与从分类单元25接收的类别相对应的标准参数的标准参数表。

即，标准参数存储单元28存储有与类别数目相应的标准参数表，每个标准参数表登记有由后述学习装置(图4)通过学习处理获得的一组与例如音素对应的标准参数。在匹配单元29中，从所述每个类别的标准参数表之中选择与分类单元25输出的类别相对应的表格。

而且，匹配单元29算出在所选的标准参数表中登记的各个标准参数与来自综合参数构成单元26的综合参数之间的例如欧几里德(Euclidian)距离，把与该欧几里德距离为最小的标准参数相对应的音素作为语音识别结果输出。

因此，由于有了这种语音识别装置，不但利用了主要输入用户语音的送话器11输出的语音数据，还利用了从CCD摄象机12输出的图像数据中得到的例如用户的口部状态和动作、从送话器13输出的音频数据和传感器14检测出的其它数据，例如不同类型和频带成分的噪声等，来识别用户的语音，所以能提高其识别率。

而且，为每个类别准备了标准参数表，并从中选择与输入单元10输出的多种数据所确定的类别相对应的标准参数模式，所以能按照输入单元10输出的多种数据而使用对识别用户语音最适当的标准模式表，其结果是能够进一步提高识别率。

图4表示进行学习处理的学习装置的构成例，该学习装置用于求取要登记在图2所示的标准参数存储单元28中存储的每个类别的标准参数表中的标准参数。

图4中，输入单元30(送话器31、CCD摄象机32、送话器33、传感器34、放大器35，A/变换器36、放大器37、A/D变换器38和39)、前处理单元40至43、分类用数据构成单元44、分类单元45、或综合参数构成单元46在结构上分别与在图2中的语音识别装置中的输入单元10(送话器11、CCD摄象机12、送话器13、传感器14、放大器15、A/D变换器16、放大器17、A/D变换器18和19)、前处理单元20至23、分类用数据构成单元24、分类单元25、或综合参数构成单元26相同。存储器47设有接收从分类单元45输出的类别作为地址的地址端(AD)。该存储器47存储综合参数构成单元46输出的综合参数。

在如上构成的学习装置中，输入单元30输入进行学习用的学习数据。即，送话器31输入例如某个说话人发话的语音。而且，此时说话人的嘴部用CCD摄象机32摄象。此外，送话器33输入例如各种汽车的引擎声、用CD播放器再现的乐曲、雨声、空调器声、以及其它环境噪声。传感器34检测各种振动的程度，而且，当送话器33输入雨声时，检测该降雨状态下的温度、湿度等。

然后，由输入单元30接收的学习数据在前处理单元40至43、分类用数据构成单元44、分类单元45、或综合参数构成单元46中分别进行与在图2的前处理单元20至23、分类用数据构成单元24、分类单元25、或综合参数构成单元26中所进行处理相同的处理。因此，分类单元45向存储器47供给类别，综合参数构成单元46也向该存储器供给综合参数。

存储器47在与来自分类单元45的类别相对应的地址上存储来自综合参数构成单元46的综合参数作为标准参数。

以上的处理是对说话人发话的各个音素以及由送话器33及传感器34输入的各种噪声和数据进行的。

其结果是，在存储器47中，属于同一类别的综合参数按照地址分类存储。

存储在存储器47的各地址中的综合参数(组)保存在图2的标准参数存储单元28中，作为标准参数登记为与各类别对应的标准参数表中的存储内容。

由于有了该学习装置，在无噪声输入送话器33和有噪声输入送话器33的场合下产生的数据，在分类单元45中分类成不同类别。其结果是构成了对有噪声场合最适合的标准参数表和对无噪声场合最适合的标准参数表。而且，在图2的语音识别装置中，由分类单元25输出的类别与分类单元45输出的类别相同，所以能在有噪声的场合下选择对该场合最适合的标准参数表，而在无噪声的场合下选择对该场合最适合的标准参数表。

而且，在学习装置中，如上所述，对标准参数不仅按照有噪声场合和无噪声场合而且按照噪声的种类和程度、说话人发话的音素种类和说话人是男性或女性等分类成各种类别。但是怎样对标准参数分类不是重要问题。这是因为，例如，如果语音识别装置输入单元10的输入数据与学习装置输入单元30的输入数据相同，则在语音识别装置分类单元25中的分类结果与在学习装置分类单元45中的分类结果相同。因此，在语音识别装置中，可以使用由输入单元10输入的数据确定的标准参数或对该输入数据最合适的标准参数来进行语音识别。

而且，在图4所示的学习装置中，能够按照每一个类别对某个音素把一组综合参数存储在存储器47中。即，在学习中，让一个说话人在种种不同噪声环境下发出同一音素及让多个说话人作这样的发音，会对某一类别的某个音素得到散布在参数空间某种程度范围内的多个综合参数。

具体说，为简单起见，假设综合参数有三个成分P₁、P₂、P₃，图5(A)表示三维的参数空间。如果对某个类别得到的音素“a”和“i”的综合参数进行作图，在参数空间中它们散布在一定的区域内。

虽然这样散布在该区域内的所有点都可以作为该音素的标准参数，但是最好是求出如图5(B)所示的该区域重心，将此重心作为该音素的标准参数。

图6表示图1中输入装置4内装的语音识别装置第二实施例的组成例。图中与图2对应的部分用同一标号表示，在以下适当省略对这些部分的说明。简言之，该第二实施例的语音识别装置设有标准参数存储单元28₁至28_M来代替标准参数存储单元28，并且新设立了分类用数据构成单元51和分类单元52，其余基本上与图2的语音识别装置相同。

分类用数据构成单元51根据输入单元10输出的多种数据而构成分类用数据，将其输出至分类单元52。分类单元52对分类用数据构成单元51输出的分类用数据进行分类，把作为其分类结果的类别供给前处理单元20至23。

此时，在前处理单元20至23中，进行与分类单元52输出的类别对应的前处理。即，例如，输入到送话器11的语音包含较多的元音等有声音时，采用线性预测系数和倒频谱系数等比过零值等更易提取语音的特征，而输入到送话器11的语音包含较多的辅音等无声音时，则采用过零值和每个频带的功率电平、辅音的持续时间比线性预测系数和倒频谱系数等更易提取语音的特征。而且，当输入到送话器13的噪声电平小时，不必考虑该噪声的影响，但是当噪声电平大时则希望考虑其影响进行语音识别。而且，若用户嘴部很少或没有运动，则不需要考虑其运动向量；如果用户的嘴部产生一定程度的运动，则在语音识别时需考虑其运动向量。而且，当汽车没有或很少振动以及不下雨或下雨很小等等时，不必考虑传感器14的输出；在相反的场合，则希望考虑传感器14的输出进行语音识别。

所以，在识别语音时最合适的特征参数(为获得较高正确率的识别结果的特征参数)随其它因素而变，更不用说随作为识别对象的语音而变。

另外，在图6的语音识别装置中，根据输入单元10输出的数据来构成分类用数据，对其进行分类，然后分别在前处理单元20至23中求出对每种类别的最适当特征参数。

因此，在图6的实施例中，在自适应判定单元27(匹配单元29)中计算距离用的参数空间随分类单元52的分类结果而变化。即，在自适应判定单元27中计算在与分类单元52输出的类别相对应的参数空间中的距离，根据该距离来输出语音识别结果。

假定在分类单元52中，把分类用数据构成单元51输出的分类用数据均分成M个类别。

而且，在前处理单元20至23中，除了确定与分类单元52输出的类别相对应的特征参数之外，还可以改变特征参数的阶数(degree)(例如第8阶或第12阶的线性预测系数)，或者可以取消特征参数的输出(例如，当汽车在寂静场所停车的时候，可不必考虑送话器13和传感器14的输出，因此使前处理器22和23处于休眠状态)等等。

分类单元52输出的类别，除了供给前处理单元20至23外，也供给自适应判定单元27。如上所述，自适应判定单元27有M个标准参数存储单元28₁至28_M，其中分别存储着分别与在分类单元52输出的M个类别对应的参数空间中的标准参数。

而且，在标准参数存储单元28_m(m=1,2,…,M)中，与在图2的标准参数存储单元28中的情况相同，存储着分类单元25输出的每个类别的标准参数表。

存储在标准参数存储单元28₁至28_M中的标准参数表，可以用后述的学习装置(图7)通过学习求出。

一旦从分类单元52收到类别，自适应判定单元27就从标准参数存储单元28₁至28_M中选择与该类别对应的存储单元(以下把从标准参数存储单元28₁至28_M中选出的存储单元适当地记为标准参数存储单元28_ms)。

另一方面，前处理单元20至23输出的特征参数通过分类用数据构成单元24供给分类单元25以进行分类，然后作为该分类结果的类别则供给自适应判定单元27。而且，前处理单元20至23输出的特征参数也供给综合参数构成单元26，在该单元内形成综合参数。根据在由自适应判定单元27选出的标准参数存储单元28_ms中存储的标准参数表中登记的标准参数的同一参数空间中的参数，由综合参数构成单元26构成综合参数。

在综合参数构成单元26中得到的综合参数供给自适应判定单元27。在自适应判定单元27中，按照分类单元25输出的类别，来选择标准参数存储单元28_ms存储的一个标准参数表。在匹配单元29中，算出登记在所选标准参数表中各标准参数的每一个标准参数与来自综合参数构成单元26的综合参数之间的距离。把与综合参数的距离为最小的标准参数对应的音素作为语音识别结果来输出。

如上所述，进行与分类单元52输出的类别相对应的前处理，得到了在各种场合下最适当的特征参数，因此能根据对各场合最合适的参数空间中的距离得到精度更高的语音识别结果。

图7表示进行学习处理的学习装置的组成例，该学习装置用于求出要登记在图6的各个标准参数存储单元28₁至28_M中存储的每个类别的标准参数表中的标准参数。

在该图中，与图4对应的部分用相同的标号表示，在下文中适当省略对其的说明。该学习装置设有存储器47₁至47_M来取代存储器47，而且新设立了分类用数据构成单元61、分类单元62和选择器63，其它组成基本上和图4的学习装置相同。

在分类用数据构成单元61或分类单元62中，分别进行与图6的分类用数据构成单元51或分类单元52中所进行处理的相同处理，作为分类处理结果的类别供给前处理单元40至43和选择器63。在前处理单元40至43中进行与图6的前处理单元20至23中所进行处理的相同处理，从而得到并输出与分类单元62输出的类别对应的最适合的特征参数。

而且，在分类用数据构成单元44、分类单元45、或综合参数构成单元46中，分别进行与图6的分类用数据构成单元24、分类单元25、或综合参数构成单元26的情况同样的处理，其结果是分别从分类单元45输出类别，从综合参数构成单元46输出综合参数。

另一方面，选择器63随着分类单元62输出的类别把选择信号输出至存储器47₁至47_M中任一存储器的片选(CS)端。即，由此在存储器47₁至47_M中选择与分类单元62输出的类别相对应的存储器。

又，分类单元45输出的类别供给存储器47₁至47_M的地址(AD)端，因此，按照分类单元62输出类别选择的与分类单元45输出类别对应的存储器地址，综合参数构成单元46输出的各个综合参数被存储在存储器47₁至47_M中。

如上所述，分别存储在标准参数存储器47₁至47_M中各个地址中的综合参数(组)被分别存储在图6的标准参数存储器28₁至28_M中相应的一个存储器，作为登记在与各个类别(分类单元25输出的类别)对应的标准参数表中的标准参数。

在此情况下，也可以如图5所说明的，在图6的各个标准参数存储单元28₁至28_M中存储散布参数空间内的一组综合参数的重心之类，作为标准参数。

图8表示图1输入装置4内装的语音识别装置第三实施例的组成例。在图8中，对与图6对应的部分给予相同标号，在以下省略对这些部分的说明。此实施例的语音识别装置新设立前处理单元71至74，前处理单元71至74的输出取代了前处理单元20至23的输出而供给综合参数构成单元26，其余的组成与图6的语音识别装置基本上相同。

给予前处理单元71至74的输入与给予前处理器20至23的输入相同。而且，也把分类单元52输出的类别供给前处理器71至74。

在前处理单元71至74中，进行与分类单元52输出的类别相对应的前处理，因此把最适合的特征参数输出至综合参数构成单元26。在前处理单元71至74的每一个中，进行与前处理单元20至23的每一个中基本上不同的前处理。即，根据前处理单元20至23的输出，最终得到分类单元25输出的类别，与此相反，根据前处理单元71至74的输出，得到的是综合参数构成单元26输出的综合参数。因此，在前处理单元20至23中，与分类单元52输出的类别对应地求出适用于在分类单元25中进行分类的最合适的特征参数，另一方面，在前处理单元71至74中，则与分类单元52输出的类别对应地求出对于构成最适用于语音识别的综合参数来说最适合的特征参数。

图9表示进行学习处理的学习装置的组成例，该装置用于求取要登记在标准参数存储单元281至28M中存储的每个类别的标准参数表中的标准参数。

在图9中，与图7对应的部分用相同的标号表示，在下文中适当省略对其的说明。该学习装置新设立前处理单元81至84，前处理单元81至84的输出取代前处理单元40至43的输出而供给综合参数构成单元46，其它组成基本上和图7的学习装置相同。

与图8的前处理单元20至23的情况相同，在前处理单元40至43中与分类单元62输出的类别相对应地求出用于在分类单元45中进行分类的最合适的特征参数，而且，与图8的前处理单元71至74的情况相同，前处理单元81至84与分类单元62输出的类别相对应地求出对于构成最适用于语音识别的综合参数来说最合适的特征参数。

虽然可以把通过利用图9的学习装置学习处理得到的综合参数存储在图8的标准参数存储单元28₁至28_M中，但是，也可以不全部存储通过学习得到的综合参数。如图5所说明的，可以存储在参数空间中散布的一组综合参数的重心之类作为标准参数。

以上对应用本发明的语音识别装置作了说明，但是本发明也可应用于除语音之外的例如图像和文字、人物等其它对象的认别装置。

而且，在本实施例中，除了使用作为识别对象的用户的语音之外，还使用CCD摄象机32、送话器33和传感器34的输出进行识别，但是不局限于这些输出。

而且，在图2的实施例中，根据前处理单元20至23的输出数据而构成分类用数据，并在分类单元25中把该分类用数据进行分类。但是也可以直接从例如输入单元10的输出数据来构成分类用数据，用于在分类单元25中分类。

而且，虽然在图6至9的实施例中向前处理单元20至23、40至43、71至73、81至83提供类别并进行与该类别相对应的前处理，但是也可以向前处理单元20至23、40和43、71至73、81至83供给与类别对应的函数，以便利用该函数进行数学运算来进行与该类别对应的前处理。

而且，为了简化本实施例的说明，在匹配单元29中根据在某个所采用参数空间的综合参数与标准参数之间的距离而得到语音识别结果，但是在匹配单元29中也可以根据按时间序列规定的综合参数与标准参数之间的距离和根据此种时间序列的出现概率来求得语音识别结果。此外，在匹配单元29中，也可以对分类单元25和52输出的每个类别用不同的语音识别算法来进行语音识别。

而且，图2、图6和图8中说明的语音识别装置以及图4、图7和图9中说明的学习装置不仅可用硬件来实现，也可以作为具有CPU(中央处理单元)和存储器等的微处理器的应用以软件方式实现。

按照权利要求1所述的识别装置和权利要求5所述的识别方法，根据多种输入数据的性质把这些数据按规定类别分类，同时构成对多种输入数据综合的综合参数，根据登记了与分类结果得到的每个类别相对应的标准参数的标准参数表和根据综合参数而对识别对象进行识别。因此，使用了最适合于每一种场合的表，所以能提高识别性能。

按照权利要求6所述的学习装置和权利要求9所述的学习方法，根据多种输入数据的性质把这些数据按规定类别分类，同时构成对多种输入数据综合的综合参数，把该综合数据按照由分类结果得到的每个类别来分类。因此，对于每一种情况，可得到最适合于识别用的参数。

Claims

1．一种根据多种输入数据来识别给定识别对象的识别装置，包括：

第一分类设备，用于根据所述多种输入数据的性质把这些数据按规定的类别来分类；

综合参数构成设备，用于通过综合所述多种输入数据而构成综合参数；

标准参数存储设备，用于按照所述第一分类设备输出的每一个类别来存储登记着指定的标准参数的表格；以及

识别设备，用于根据在与所述第一分类设备输出的类别相对应的表格中登记的标准参数和根据所述综合参数来对所述识别对象进行识别。

2．如权利要求1所述的识别装置，其特征在于，还包括：

分析设备，用于分析所述输入数据以求取其特征参数；并且

所述第一分类设备根据所述特征参数进行所述的分类。

3．如权利要求1所述的识别装置，其特征在于，还包括：

分析设备，用于与所述第一分类设备输出的类别相对应地分析所述输入数据以求取其特征参数；

第二分类设备，用于利用所述多种输入数据各自的所述特征参数来进行所述的分类；

所述综合参数构成设备通过对所述多种输入数据各自的特征参数进行综合而构成所述综合参数；

所述标准参数存储设备按照所述第一分类设备输出的每个类别来存储登记着由所述第二分类设备输出的每个类别指定的标准参数的表格；

所述识别设备根据在与所述第一和第二分类设备输出的两种类别相对应的表格中登记的标准参数和根据所述综合参数来识别所述识别对象。

4．如权利要求1所述的识别装置，其特征在于：

所述识别对象是给定的说话人发出的语音；

所述多种输入数据至少包含该语音数据和对说话人嘴部摄象而得到的图像数据。

5．一种根据多种输入数据来识别给定的识别对象的识别方法，包括以下步骤：

根据所述多种输入数据的性质对这些数据按照规定的类别进行分类，同时通过综合所述多种输入数据而构成综合参数；

根据登记有与所述分类结果得到的类别相对应的标准参数的表格和根据所述综合参数来识别所述识别对象。

6．一种求取标准参数的学习装置，所述标准参数用于根据多种输入数据来识别给定的识别对象，所述学习装置包括：

第一分类设备，用于根据所述多种输入数据的性质将这些数据按规定类别分类；

综合参数构成设备，用于通过对所述多种输入数据进行综合而构成综合参数；以及

分类设备，用于把所述综合参数按所述第一分类设备输出的每个类别进行分类。

7．如权利要求6所述的学习装置，其特征在于，还包括：

分析设备，用于分析所述输入数据以求取其特征参数；并且

所述第一分类设备根据所述特征参数进行所述分类。

8．如权利要求6所述的学习装置，其特征在于，还包括：

第二分类设备，用于利用所述多种输入数据各自的所述特征参数来进行所述分类；

所述综合参数构成设备通过对所述多种输入数据各自的所述特征参数进行综合而构成所述综合参数；

所述分类设备按照所述第一分类设备输出的类别和所述第二分类设备输出的类别对所述综合参数进行分类。

9．一种求取标准参数的学习方法，所述标准参数用于根据多种输入数据来识别给定的识别对象，所述学习方法包括下列步骤：

根据所述多种输入数据的性质将这些数据按规定的类别分类，同时通过综合所述多种输入数据而构成综合参数；

把所述综合参数按照所述分类结果得到的每个类别来分类。