JP3702978B2

JP3702978B2 - 認識装置および認識方法、並びに学習装置および学習方法

Info

Publication number: JP3702978B2
Application number: JP34731296A
Authority: JP
Inventors: 哲二郎近藤
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1996-12-26
Filing date: 1996-12-26
Publication date: 2005-10-05
Anticipated expiration: 2016-12-26
Also published as: JPH10187186A; EP0896319B1; EP0896319A4; DE69730705D1; KR19990087263A; KR100578260B1; CN1119795C; CN1214141A; WO1998029864A1; DE69730705T2; US6396954B1; EP0896319A1

Description

【０００１】
【発明の属する技術分野】
本発明は、認識装置および認識方法、並びに学習装置および学習方法に関する。特に、例えば、音声や、物体などを、その音声データや画像データだけでなく、他のデータをも用いて認識することにより、その認識精度を向上させることができるようにする認識装置および認識方法、並びに学習装置および学習方法に関する。
【０００２】
【従来の技術】
従来の、例えば、音声を認識する音声認識装置では、マイク（マイクロフォン）から出力される音声データを音響分析し、その分析結果を用いて、ユーザの発した音声を認識するようになされている。
【０００３】
【発明が解決しようとする課題】
しかしながら、従来の音声認識装置では、マイクからの音声データの分析結果だけを用いて音声認識を行うようになされているため、その認識性能を向上させるのに、ある程度の限界があった。
【０００４】
即ち、話者の発話の認識にあたっては、マイクからの音声データだけでなく、その相手の表情や口の動きなども重要な要素であると考えられ、従って、そのような種々の要素を考慮すべきである。
【０００５】
また、音声認識装置は、防音室などのように、認識対象である音声だけがマイクに入力されるような環境で使用されることはほとんどなく、それ以外の音である様々な雑音のある環境下で使用されることが多い。即ち、最近では、音声認識装置を備えた、例えば、ナビゲーションシステムが実用化されつつあるが、この場合、音声認識装置には、認識すべき話者の音声の他、自動車に装備されたＣＤ（Compact Disc）プレーヤが出力する音や、エンジン音、エアコンディショナの音、その他の雑音が入力される。そして、このような雑音が混ざった音声データから、その雑音だけを取り除くのは困難であるため、認識性能を向上させるには、認識対象の音声以外の音である雑音も加味する必要がある。
【０００６】
さらに、従来の音声認識装置では、マイクから出力される音声データに対して、一定の音響分析処理を施して、その特徴パラメータを求め、その特徴パラメータのパラメータ空間における距離などに基づいて、音声が認識されるようになされている。しかしながら、認識にあたって重要な特徴パラメータは、音声認識装置が使用される環境によって変化すると考えられる。
【０００７】
本発明は、このような状況に鑑みてなされたものであり、音声その他の認識を行う認識装置の認識性能を向上させることができるようにするものである。
【０００８】
【課題を解決するための手段】
請求項１に記載の認識装置は、複数の異なる種類の入力データを分析し、その分析結果の少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うクラス分類手段と、複数の異なる種類の入力データの分析結果の少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段と、クラス分類手段が出力するクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶している標準パラメータ記憶手段と、クラス分類手段が出力するクラスに対応するテーブルに登録された標準のパラメータと、統合パラメータとに基づいて、認識対象を認識する認識手段とを備え、標準パラメータ記憶手段に記憶されている所定の標準のパラメータは、認識対象に対応するパラメータであって、複数の異なる種類の学習用データの分析結果の少なくとも一部を統合した学習用統合パラメータをクラスごとに求める学習により得られたものであることを特徴とする。
請求項２に記載の認識装置は、複数の異なる種類の入力データからクラス分類用データを構成し、クラス分類用データを所定のクラスに分類し、その結果得られる第 1 のクラス分類結果を出力する第 1 のクラス分類手段と、入力データを、第１のクラス分類結果に応じて分析し、入力データの特徴パラメータを求める分析手段と、分析手段からの特徴パラメータの少なくとも一部に基づいて、入力データを所定のクラスに分類し、その結果得られる第２のクラス分類結果を出力する第２のクラス分類手段と、特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段と、第１のクラス分類手段により分類されたクラスごとであって、第２のクラス分類手段により分類されたクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶する標準パラメータ記憶手段と、第１および第２のクラス分類手段により分類された両方のクラスに対応するテーブルに登録された標準のパラメータと、統合パラメータとに基づいて、認識対象を認識する認識手段とを備え、標準パラメータ記憶手段に記憶されている所定の標準のパラメータは、認識対象に対応するパラメータであって、第１のクラス分類手段によるクラスごとであって第 2 のクラス分類手段によるクラスごとに、複数の異なる種類の学習用データの特徴パラメータの少なくとも一部を統合した学習用統合パラメータを求める学習により得られたものであることを特徴とする。
【０００９】
請求項４に記載の認識方法は、複数の異なる種類の入力データを分析し、その分析結果の少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うとともに、複数の異なる種類の入力データの分析結果の少なくとも一部を統合した統合パラメータを構成し、クラス分類の結果得られるクラスに対応し、認識対象に対応するパラメータであって、複数の異なる種類の学習用データの分析結果の少なくとも一部を統合した学習用統合パラメータをクラスごとに求める学習により得られた標準のパラメータが登録されたテーブルと、統合パラメータとに基づいて、認識対象を認識することを特徴とする。
【００１０】
請求項５に記載の学習装置は、学習用の複数の異なる種類の入力データを分析し、その特徴パラメータを求める分析手段と、学習用の複数の異なる種類の入力データを、特徴パラメータの少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うクラス分類手段と、特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段と、統合パラメータを、クラス分類手段が出力するクラスごとに分類して記憶する記憶手段とを備えることを特徴とする。
請求項６に記載の学習装置は、学習用の複数の異なる種類の入力データからクラス分類用データを構成し、クラス分類用データを所定のクラスに分類し、その結果得られる第１のクラス分類結果を出力する第１のクラス分類手段と、学習用の複数の異なる種類の入力データを、第１のクラス分類結果に応じて分析し、特徴パラメータを求める分析手段と、分析手段からの特徴パラメータの少なくとも一部に基づいて、入力データを所定のクラスに分類し、その結果得られる第２のクラス分類結果を出力する第２のクラス分類手段と、特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段と、統合パラメータを、第１のクラス分類手段が出力するクラスごとであって、第２のクラス分類手段が出力するクラスごとに分類して記憶する記憶手段とを備えることを特徴とする。
【００１１】
請求項７に記載の学習方法は、学習用の複数の異なる種類の入力データを分析し、その特徴パラメータを求め、学習用の複数の異なる種類の入力データを、特徴パラメータの少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うとともに、特徴パラメータの少なくとも一部を統合した統合パラメータを構成し、統合パラメータを、クラス分類の結果得られるクラスごとに分類して記憶することを特徴とする。
【００１２】
請求項１に記載の認識装置においては、クラス分類手段は、複数の異なる種類の入力データを分析し、その分析結果の少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行い、統合パラメータ構成手段は、複数の異なる種類の入力データの分析結果の少なくとも一部を統合した統合パラメータを構成するようになされている。標準パラメータ記憶手段は、クラス分類手段が出力するクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶しており、認識手段は、クラス分類手段が出力するクラスに対応するテーブルに登録された標準のパラメータと、統合パラメータとに基づいて、認識対象を認識するようになされている。ここで、標準パラメータ記憶手段に記憶されている所定の標準のパラメータは、認識対象に対応するパラメータであって、複数の異なる種類の学習用データの分析結果の少なくとも一部を統合した学習用統合パラメータをクラスごとに求める学習により得られたものであるようになされている。
請求項２に記載の認識装置においては、第 1 のクラス分類手段は、複数の異なる種類の入力データからクラス分類用データを構成し、クラス分類用データを所定のクラスに分類し、その結果得られる第 1 のクラス分類結果を出力し、分析手段は、入力データを、第１のクラス分類結果に応じて分析し、入力データの特徴パラメータを求め、第２のクラス分類手段は、分析手段からの特徴パラメータの少なくとも一部に基づいて、入力データを所定のクラスに分類し、その結果得られる第２のクラス分類結果を出力するようになされている。統合パラメータ構成手段は、特徴パラメータの少なくとも一部を統合した統合パラメータを構成し、標準パラメータ記憶手段は、第１のクラス分類手段により分類されたクラスごとであって、第２のクラス分類手段により分類されたクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶し、認識手段は、第１および第２のクラス分類手段により分類された両方のクラスに対応するテーブルに登録された標準のパラメータと、統合パラメータとに基づいて、認識対象を認識するようになされている。ここで、標準パラメータ記憶手段に記憶されている所定の標準のパラメータは、認識対象に対応するパラメータであって、第１のクラス分類手段によるクラスごとであって第 2 のクラス分類手段によるクラスごとに、複数の異なる種類の学習用データの特徴パラメータの少なくとも一部を統合した学習用統合パラメータを求める学習により得られたものであるようになされている。
【００１３】
請求項４に記載の認識方法においては、複数の異なる種類の入力データを分析し、その分析結果の少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うとともに、複数の異なる種類の入力データの分析結果の少なくとも一部を統合した統合パラメータを構成し、クラス分類の結果得られるクラスに対応し、認識対象に対応するパラメータであって、複数の異なる種類の学習用データの分析結果の少なくとも一部を統合した学習用統合パラメータをクラスごとに求める学習により得られた標準のパラメータが登録されたテーブルと、統合パラメータとに基づいて、認識対象を認識するようになされている。
【００１４】
請求項５に記載の学習装置においては、分析手段は、学習用の複数の異なる種類の入力データを分析し、その特徴パラメータを求め、クラス分類手段は、学習用の複数の異なる種類の入力データを、特徴パラメータの少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行い、統合パラメータ構成手段は、特徴パラメータの少なくとも一部を統合した統合パラメータを構成するようになされている。記憶手段は、統合パラメータを、クラス分類手段が出力するクラスごとに分類するようになされている。
請求項６に記載の学習装置においては、第１のクラス分類手段は、学習用の複数の異なる種類の入力データからクラス分類用データを構成し、クラス分類用データを所定のクラスに分類し、その結果得られる第１のクラス分類結果を出力し、分析手段は、学習用の複数の異なる種類の入力データを、第１のクラス分類結果に応じて分析し、特徴パラメータを求め、第２のクラス分類手段は、分析手段からの特徴パラメータの少なくとも一部に基づいて、入力データを所定のクラスに分類し、その結果得られる第２のクラス分類結果を出力し、統合パラメータ構成手段は、特徴パラメータの少なくとも一部を統合した統合パラメータを構成し、記憶手段は、統合パラメータを、第１のクラス分類手段が出力するクラスごとであって、第２のクラス分類手段が出力するクラスごとに分類して記憶するようになされている。
【００１５】
請求項７に記載の学習方法においては、学習用の複数の異なる種類の入力データを分析し、その特徴パラメータを求め、学習用の複数の異なる種類の入力データを、特徴パラメータの少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うとともに、特徴パラメータの少なくとも一部を統合した統合パラメータを構成し、統合パラメータを、クラス分類の結果得られるクラスごとに分類して記憶するようになされている。
【００１６】
【発明の実施の形態】
以下に、本発明の実施の形態を説明するが、その前に、特許請求の範囲に記載の発明の各手段と以下の実施の形態との対応関係を明らかにするために、各手段の後の括弧内に、対応する実施の形態（但し、一例）を付加して、本発明の特徴を記述すると、次のようになる。
【００１７】
即ち、請求項１に記載の認識装置は、所定の認識対象を、複数の異なる種類の入力データから認識する認識装置であって、複数の異なる種類の入力データを分析し、その分析結果の少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うクラス分類手段（例えば、図１に示すクラス分類部２５や、図６、図８に示すクラス分類部５２など）と、複数の異なる種類の入力データの分析結果の少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段（例えば、図２や図６、図８に示す統合パラメータ構成部２６など）と、クラス分類手段が出力するクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶している標準パラメータ記憶手段（例えば、図２に示す標準パラメータ記憶部２８や、図６、図８に示す標準パラメータ記憶部２８₁乃至２８_Mなど）と、クラス分類手段が出力するクラスに対応するテーブルに登録された標準のパラメータと、統合パラメータとに基づいて、認識対象を認識する認識手段（例えば、図２や図６、図８に示すマッチング部２９など）とを備え、標準パラメータ記憶手段に記憶されている所定の標準のパラメータは、認識対象に対応するパラメータであって、複数の異なる種類の学習用データの分析結果の少なくとも一部を統合した学習用統合パラメータをクラスごとに求める学習により得られたものであることを特徴とする。
【００１９】
請求項２に記載の認識装置は、所定の認識対象を、複数の異なる種類の入力データから認識する認識装置であって、複数の異なる種類の入力データからクラス分類用データを構成し、クラス分類用データを所定のクラスに分類し、その結果得られる第 1 のクラス分類結果を出力する第 1 のクラス分類手段（例えば、図６や図８に示すクラス分類用データ構成部５１およびクラス分類部５２など）と、入力データを、第１のクラス結果に応じて分析し、入力データの特徴パラメータを求める分析手段（例えば、図６や図８に示す前処理部２０乃至２３など）と、分析手段からの特徴パラメータの少なくとも一部に基づいて、入力データを所定のクラスに分類し、その結果得られる第２のクラス分類結果を出力する第２のクラス分類手段（例えば、図６や図８に示すクラス分類部２５など）と、特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段（例えば、図６や図８に示す統合パラメータ構成部２６など）と、第１のクラス分類手段により分類されたクラスごとであって、第２のクラス分類手段により分類されたクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶する標準パラメータ記憶手段（例えば、図６や図８に示す標準パラメータ記憶部２８ ₁ 乃至２８ _M など）と、第１および第２のクラス分類手段により分類された両方のクラスに対応するテーブルに登録された標準のパラメータと、統合パラメータとに基づいて、認識対象を認識する認識手段（例えば、図６や図８に示すマッチング部２９など）とを備え、標準パラメータ記憶手段に記憶されている所定の標準のパラメータは、認識対象に対応するパラメータであって、第１のクラス分類手段によるクラスごとであって第 2 のクラス分類手段によるクラスごとに、複数の異なる種類の学習用データの特徴パラメータの少なくとも一部を統合した学習用統合パラメータを求める学習により得られたものであることを特徴とする。
【００２０】
請求項５に記載の学習装置は、所定の認識対象を、複数種類の入力データから認識するのに用いる標準のパラメータを求める学習装置であって、学習用の複数の異なる種類の入力データを分析し、その特徴パラメータを求める分析手段（例えば、図４に示す前処理部４０乃至４３など）と、学習用の複数の異なる種類の入力データを、特徴パラメータの少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うクラス分類手段（例えば、図４に示すクラス分類部４５や、図７、図９に示すクラス分類部６２など）と、特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段（例えば、図４や図７、図９に示す統合パラメータ構成部４６など）と、統合パラメータを、クラス分類手段が出力するクラスごとに分類して記憶する記憶手段（例えば、図４に示すメモリ４７や、図７、図９に示すメモリ４７₁乃至４７_Mおよびセレクタ６３など）とを備えることを特徴とする。
【００２２】
請求項６に記載の額種装置は、所定の認識対象を、複数の異なる種類の入力データから認識するのに用いる標準のパラメータを求める学習装置であって、学習用の複数の異なる種類の入力データからクラス分類用データを構成し、クラス分類用データを所定のクラスに分類し、その結果得られる第１のクラス分類結果を出力する第１のクラス分類手段（例えば、図７や図９に示すクラス分類用データ構成部６１およびクラス分類部６２など）と、学習用の複数の異なる種類の入力データを、第１のクラス分類結果に応じて分析し、特徴パラメータを求める分析手段（例えば、図７や図９に示す前処理部４０乃至４３など）と、分析手段からの特徴パラメータの少なくとも一部に基づいて、入力データを所定のクラスに分類し、その結果得られる第２のクラス分類結果を出力する第２のクラス分類手段（例えば、図７や図９に示すクラス分類部４５など）と、特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段（例えば、図７や図９に示す統合パラメータ構成部４６など）と、統合パラメータを、第１のクラス分類手段が出力するクラスごとであって、第２のクラス分類手段が出力するクラスごとに分類して記憶する記憶手段（例えば、図７や図９に示すメモリ４７ ₁ 乃至４７ _M およびセレクタ６３など）とを備えることを特徴とする。
【００２３】
なお、勿論この記載は、各手段を上記したものに限定することを意味するものではない。
【００２４】
図１は、本発明を適用したナビゲーションシステムの一実施の形態の構成例を示している。
【００２５】
このナビゲーションシステムは、システム制御部１、位置測定装置２、データベース装置３、入力装置４、および出力装置５によって構成されており、自動車などに装備され、例えばボタンなどの操作による他、対話的に発せられる入力音声に対応して、装置の制御が行われるようになされている。なお、このナビゲーションシステムは、例えば携帯して用いることもできるようになされている。
【００２６】
システム制御部１は、システムを構成する各ブロックとの間で情報の送受を行い、システム全体の動作を制御するようになされている。位置測定装置２は、ＧＰＳ（Global Positioning System）衛星からの電波を受信したり、例えばジャイロスコープや車速センサなどの測定装置を用いて現在地を測定するようになされている。データベース装置３には、例えば複数のスケールの、電子化された地図情報、その他のナビゲーションに必要な情報が記録（記憶）されており、そこからは、システム制御部１からの指令に基づいて必要な情報が検索され、システム制御部１に送信されるようになされている。
【００２７】
入力装置４には、ナビゲーションシステムに所定の処理を行わせるためのボタンやジョイスティック、音声を入力するためのマイク、ユーザを撮像するためのＣＣＤ（Charge Coupled Device）カメラ、さらには、自動車の振動を測定するための加速度センサや、湿度や温度を測定するためのセンサ、その他の各種のセンサなどが装備されている。入力装置４からは、ボタンやジョイスティックなどの操作に対応した信号がシステム制御部１に送信されるようになされている。さらに、入力装置４は、音声認識装置を有しており、入力された音声を音声認識し、その音声認識結果を、システム制御部１に送信するようにもなされている。
【００２８】
出力装置５は、画像その他を表示するための、例えば液晶モニタやＣＲＴ（Cathod Ray Tube）、音声その他を出力するためのスピーカ、テキスト情報から合成音を生成する音声合成装置などを有しており、システム制御部１から送られてくる情報のうちの、例えば地図情報や現在位置情報などを表示したり、また音声情報を出力したりするようになされている。さらに、出力装置５は、システム制御部１からテキスト情報が送信されてきた場合には、そのテキスト情報に対応する音声を音声合成装置に音声合成させて出力するようにもなされている。
【００２９】
以上のように構成されるナビゲーションシステムには、例えば、ユーザが目的地としての地名を発話すると、その音声は、入力装置４が内蔵する音声認識装置で音声認識され、その音声認識結果が、システム制御部１に供給される。システム制御部１は、目的地としての地名の音声認識結果を受信すると、位置測定装置２の出力から現在地を認識し、さらに、データベース装置３に記憶された地図情報を参照することで、現在地から目的地までのルートを求める。そして、システム制御部１は、そのルートを表した地図情報を、出力装置５に供給して表示させるとともに、そのルートを案内する合成音を出力装置５が内蔵する音声合成装置に生成させて出力させる。
【００３０】
従って、この場合、ユーザは、容易に、目的地にたどりつくことができる。
【００３１】
次に、図２は、図１の入力装置４が内蔵する音声認識装置の第１の実施の形態の構成例を示している。
【００３２】
入力部１０は、マイク１１、ＣＣＤカメラ１２、マイク１３、センサ１４、アンプ１５、Ａ／Ｄ変換器１６、アンプ１７、Ａ／Ｄ変換器１８、および１９から構成され、そこからは、運転者であるユーザの音声を認識するために用いられる各種の入力データが出力される。
【００３３】
即ち、マイク１１は、例えば、指向性を有するもので、運転者であるユーザの方向に向けて設置されている。従って、マイク１１には、主としてユーザの音声が入力される。マイク１１に入力された音声は、そこで電気信号としての音声信号に変換され、アンプ１５を介することにより増幅されて、Ａ／Ｄ変換器１８に供給される。Ａ／Ｄ変換器１８では、アンプ１５を介して供給されるアナログ信号である音声信号が、所定のサンプリングクロックにしたがってサンプリングされ、さらに、所定の量子化ステップで量子化されることにより、ディジタル信号である音声データとされる。Ａ／Ｄ変換器１８が出力する音声データは、前処理部２０に供給される。
【００３４】
ＣＣＤカメラ１２は、ユーザの口の部分を撮影するように設置されており、このＣＣＤカメラ１２で撮像されたユーザの口の部分は、電気信号としての画像信号とされ、Ａ／Ｄ変換器１６に供給される。Ａ／Ｄ変換器１６では、Ａ／Ｄ変換器１８における場合と同様に、アナログ信号である画像信号が、ディジタル信号である画像データとされ、前処理部２１に供給される。
【００３５】
マイク１３は、例えば、無指向性のもので、主としてユーザの音声以外の音が入力される。即ち、例えば、エンジン音や、自動車に装備されたラジオ受信機やＣＤプレーヤなどから出力される音、エアコンディショナの音、さらに、窓が開いている場合には、外部の雑音などが入力される。マイク１３に入力された音は、アンプ１７またはＡ／Ｄ変換器１９において、上述のアンプ１５またはＡ／Ｄ変換器１８における場合とそれぞれ同様に処理され、これにより音声データとされて、前処理部２２に供給される。
【００３６】
センサ１４は、自動車の振動を測定するための加速度センサや、湿度や温度を測定するためのセンサなどで、その出力は、前処理部２３に供給される。なお、加速度センサの出力からは、例えば、自動車が振動することにより生じる騒音の程度（大きさ）がわかる。また、湿度や温度を測定するためのセンサの出力からは、例えば、雨が降っているかどうかがわかり、さらに、雨が降っていれば、その雨の音の程度がわかる。
【００３７】
前処理部２０乃至２３では、それぞれに供給されるデータが分析され、その特徴を表す特徴パラメータが求められる。
【００３８】
即ち、前処理部２０および２２では、音声データから、例えば、そのゼロクロス数や、所定の周波数帯域ごとのパワー、線形予測係数、ケプストラム係数などが、所定の時間としての音声フレーム単位で求められ、特徴パラメータとして、クラス分類用データ構成部２４および統合パラメータ構成部２６に出力される。
【００３９】
前処理部２１では、ユーザの口の部分の画像データから、例えば、図３に示すように、ユーザの口の横の長さＬ₁および縦の長さＬ₂が求められ、その比Ｌ₁／Ｌ₂が、特徴パラメータとして、クラス分類用データ構成部２４および統合パラメータ構成部２６に出力される。あるいは、また、前処理部２１では、ユーザの口の部分の画像データから動きベクトルや、エッジ、ＤＣＴ（離散コサイン変換）係数などが求められ、特徴パラメータとして、クラス分類用データ構成部２４および統合パラメータ構成部２６に出力される。
【００４０】
前処理部２３では、センサ１４の出力が分析されることにより、上述したように、例えば、自動車が振動することにより生じる騒音の程度（大きさ）を反映する特徴パラメータや、雨の音の程度を反映する特徴パラメータなどが求められ、やはり、クラス分類用データ構成部２４および統合パラメータ構成部２６に出力される。
【００４１】
クラス分類用データ構成部２４は、前処理部２０乃至２４が出力する特徴パラメータの少なくとも一部を、クラス分類に用いるクラス分類用データとして、クラス分類部２５に出力する。クラス分類部２５では、クラス分類用データ構成部２４からのクラス分類用データを、その性質に応じて、所定のクラスに分類するクラス分類を行う。
【００４２】
即ち、クラス分類部２５は、クラス分類用データを構成する特徴パラメータの値のパターンにあらかじめ割り当てられた値を、そのクラス分類用データのクラスとして、適応判定部２７に供給する。
【００４３】
ここで、特徴パラメータを表すのに、例えば、Ａビットが割り当てられている場合に、そのような特徴パラメータをＢ個集めてクラス分類用データを構成すると、そのようなクラス分類用データを構成する特徴パラメータの値のパターン数は、（２^A）^B通りとなる。従って、ＡまたはＢが大きいと、クラス数が莫大な数となり、その後の処理の迅速化が困難となる。
【００４４】
そこで、クラス分類を行う前の前処理として、クラス分類用データには、それを構成する特徴パラメータのビット数を低減するための処理である、例えばＡＤＲＣ（Adaptive Dynamic Range Coding）処理などが施される。
【００４５】
即ち、ＡＤＲＣ処理では、まず、クラス分類用データを構成するＢ個の特徴パラメータから、その値の最大のもの（以下、適宜、最大特徴パラメータという）と最小のもの（以下、適宜、最小特徴パラメータという）とが検出される。そして、最大特徴パラメータの値ＭＡＸと最小特徴パラメータの値ＭＩＮとの差分ＤＲ（＝ＭＡＸ−ＭＩＮ）が演算され、このＤＲをクラス分類用データの局所的なダイナミックレンジとし、このダイナミックレンジＤＲに基づいて、クラス分類用データを構成する各特徴パラメータが、元の割当ビット数Ａより少ないＣビットに再量子化される。つまり、クラス分類用データを構成する各特徴パラメータから最小特徴パラメータの値ＭＩＮが減算され、各減算値が、ＤＲ／２^Cで除算される。
【００４６】
その結果、クラス分類用データを構成する各特徴パラメータはＣビットで表現されるようになる。従って、例えばＣ＝１とした場合、Ｂ個の特徴パラメータののパターン数は、（２¹）^B通りになり、ＡＤＲＣ処理を行わない場合に比較して、パターン数を非常に少ないものとすることができる。
【００４７】
また、クラス分類用データを構成する特徴パラメータのパターン数を少なくする観点からは、クラス分類用データを構成する特徴パラメータの数Ｂは、あまり大きな値にしない方が望ましい。但し、特徴パラメータの数Ｂは、少なすぎても、適切なクラス分類が行われないおそれがある。従って、特徴パラメータの数Ｂは、これらをバランスさせて決めるのが望ましい。
【００４８】
一方、統合パラメータ構成部２６は、前処理部２０乃至２４が出力する特徴パラメータの少なくとも一部を統合して（集めて）統合パラメータとして、適応判定部２７に出力する。
【００４９】
ここで、統合パラメータは、クラス分類用データを構成する特徴パラメータと同一のものを統合して構成しても良いし、また、クラス分類用データを構成する特徴パラメータとは異なるものを統合して構成しても良い。
【００５０】
適応判定部２７は、標準パラメータ記憶部２８およびマッチング部２９から構成されており、クラス分類部２５または統合パラメータ構成部２６からクラスまたは統合パラメータをそれぞれ受信すると、まずクラス分類部２５から受信したクラスに対応する標準パラメータが登録された標準パラメータテーブルを、標準パラメータ記憶部２８から選択する。
【００５１】
即ち、標準パラメータ記憶部２８は、後述する学習装置（図４）による学習処理によって得られる、例えば音素に対応する標準パラメータが登録されている標準パラメータテーブルを、クラスごと分けて記憶しており、マッチング部２９では、そのクラスごとの標準パラメータテーブルの中から、クラス分類部２５が出力したクラスに対応するものが選択される。
【００５２】
さらに、マッチング部２９は、選択された標準パラメータテーブルに登録されている標準パラメータそれぞれと、統合パラメータ構成部２６からの統合パラメータとの、例えば、ユークリッド距離を算出し、そのユークリッド距離を最も小さくする標準パラメータに対応する音素を、音声認識結果として出力する。
【００５３】
従って、この音声認識装置によれば、主としてユーザの音声が入力されるマイク１１から出力される音声データだけでなく、ＣＣＤカメラ１２が出力する画像データから得られる、例えばユーザの口の状態や動き、マイク１３が出力する音声データやセンサ１４の出力から得られる、例えば雑音の種類や周波数帯域成分などをも用いて、ユーザの音声が認識されるので、その認識率を向上させることができる。
【００５４】
また、クラスごとに、標準パラメータテーブルを用意し、入力部１０が出力する複数種類のデータのクラスに対応する標準パターンテーブルを選択するようにしたので、入力部１０が出力する複数種類のデータに基づいて、ユーザの音声を認識するのに最適な標準パターンテーブルを用いることができ、その結果、認識率をさらに向上させることが可能となる。
【００５５】
次に、図４は、図２の標準パラメータ記憶部２８に記憶させる、クラスごとの標準パラメータテーブルに登録する標準パラメータを求める学習処理を行う学習装置の構成例を示している。
【００５６】
入力部３０（マイク３１、ＣＣＤカメラ３２、マイク３３、センサ３４、アンプ３５、Ａ／Ｄ変換器３６、アンプ３７、Ａ／Ｄ変換器３８、および３９）、前処理部４０乃至４３、クラス分類用データ構成部４４、クラス分類部４５、または統合パラメータ構成部４６は、図２の音声認識装置における入力部１０（マイク１１、ＣＣＤカメラ１２、マイク１３、センサ１４、アンプ１５、Ａ／Ｄ変換器１６、アンプ１７、Ａ／Ｄ変換器１８、および１９）、前処理部２０乃至２３、クラス分類用データ構成部２４、クラス分類部２５、または統合パラメータ構成部２６とそれぞれ同様に構成されている。メモリ４７は、そのアドレス端子（ＡＤ）に、クラス分類部４５が出力するクラスがアドレスとして与えられるようになされており、統合パラメータ構成部４６が出力する統合パラメータを記憶するようになされている。
【００５７】
以上のように構成される学習装置では、入力部３０に学習を行うための学習データが入力される。即ち、マイク３１には、例えば、ある話者が発話した音声が入力される。また、そのときの話者の口の部分が、ＣＣＤカメラ３２で撮像される。さらに、マイク３３には、例えば、各種の自動車のエンジン音や、ＣＤプレーヤで再生された曲、雨の音、エアコンディショナの音、その他の雑音が入力される。センサ３４に対しては、各種の振動や、また、マイク３３に雨の音が入力されるときには、その雨が降っている状態における温度、湿度などが与えられる。
【００５８】
入力部３０に入力された学習データとしての各種のデータは、前処理部４０乃至４３、クラス分類用データ構成部４４、クラス分類部４５、または統合パラメータ構成部４６において、図２の前処理部２０乃至２３、クラス分類用データ構成部２４、クラス分類部２５、または統合パラメータ構成部２６における場合とそれぞれ同様に処理され、これにより、メモリ４７には、クラス分類部４５からクラスが供給されるとともに、統合パラメータ構成部４６から統合パラメータが供給される。
【００５９】
メモリ４７は、クラス分類部４５からのクラスに対応するアドレスに、統合パラメータ構成部４６からの統合パラメータを、標準パラメータとして記憶する。
【００６０】
以上の処理が、多くの話者が発話した各音素について、マイク３３に入力する雑音、およびセンサ３４への入力を様々なものに変えて行われる。
【００６１】
その結果、メモリ４７には、同一のクラスに属する統合パラメータが、各アドレスに分類されて記憶される。
【００６２】
図２の標準パラメータ記憶部２８には、メモリ４７の各アドレスに記憶された統合パラメータ（の集合）が、標準パラメータとして、各クラスに対応する標準パラメータテーブルに登録されたものが記憶されている。
【００６３】
この学習装置によれば、例えば、マイク３３に雑音を入力しなかった場合と、入力した場合とでは、クラス分類部４５において異なるクラスに分類され、その結果、雑音がある場合に最適な標準パラメータテーブルと、雑音がない場合に最適な標準パラメータテーブルとが作成されることになる。そして、図２の音声認識装置では、クラス分類部４５の出力と同一のクラスがクラス分類部２５から出力されるから、雑音がある場合には、その場合に最適な標準パラメータテーブルが、また、雑音がない場合にも、その場合に最適な標準パラメータテーブルが選択されることになる。
【００６４】
なお、学習装置においては、標準パラメータは、上述のように、雑音がある場合とない場合とで異なるクラスに分類され、また、雑音の種類やレベル、さらには、話者が発話した音素の種類や、話者が男性であるか、あるいは女性であるかなどによっても異なるクラスに分類されることが予想されるが、標準パラメータが、どのように分類されるかは、特に問題とならない。これは、例えば、音声認識装置の入力部１０への入力が、学習装置の入力部３０と同一であれば、音声認識装置のクラス分類部２５におけるクラス分類結果は、学習装置のクラス分類部４５におけるクラス分類結果と同一になり、従って、音声認識装置では、入力部１０への入力と同一の入力から得られた標準パラメータ、即ち、その入力に対して最適な標準パラメータを用いて音声認識が行われるからである。
【００６５】
また、図４の学習装置において、メモリ４７には、各クラスごとに、ある音素についての統合パラメータが複数記憶される場合がある。即ち、学習においては、１の話者に、様々な雑音環境下で、同一の音素を発話してもらい、さらに、このような発話を、多数の話者に行ってもらうため、あるクラスのある音素について、パラメータ空間のある程度の範囲に散らばる複数の統合パラメータが得られる場合がある。
【００６６】
具体的には、例えば、図５（左側）は、簡単のために、統合パラメータが３つの成分Ｐ₁，Ｐ₂，Ｐ₃を有するものとして、３次元のパラメータ空間を表している
が、このようなパラメータ空間に、あるクラスに対して得られた音素「ア」や「イ」についての統合パラメータをプロットすると、その点は、ある程度の範囲に散らばる。
【００６７】
そこで、このような、ある程度の範囲に散らばるすべての点を、その音素についての標準パラメータとしても良いが、その他、例えば、図５（右側）に示すように、その範囲の重心などを求め、これを、その音素の標準パラメータとすることなども可能である。
【００６８】
次に、図６は、図１の入力装置４が内蔵する音声認識装置の第２の実施の形態の構成例を示している。なお、図中、図２における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、この音声認識装置は、標準パラメータ記憶部２８に代えて、標準パラメータ記憶部２８₁乃至２８_Mが設けられ、さらに、クラス分類用データ構成部５１およびクラス分類部５２が新たに設けられている他は、図２の音声認識装置と基本的に同様に構成されている。
【００６９】
クラス分類用データ構成部５１は、入力部１０が出力する複数種類のデータから、クラス分類用データを構成し、クラス分類部５２に出力する。クラス分類部５２は、クラス分類用データ構成部５１が出力するクラス分類用データをクラス分類し、そのクラス分類結果としてのクラスを、前処理部２０乃至２３に供給する。
【００７０】
この場合、前処理部２０乃至２３では、クラス分類部５２が出力するクラスに対応した前処理が行われる。即ち、例えば、マイク１１に入力された音声が母音などの有声音である場合は、ゼロクロス数などよりも、線形予測係数やケプストラム係数などの方が、また、マイク１１に入力された音声が無声音である場合は、線形予測係数やケプストラム係数などよりも、ゼロクロス数や周波数帯域ごとのパワー、無音の期間などの方が、音声の特徴をとらえ易い。さらに、マイク１３に入力される雑音のレベルが小さい場合は、その雑音による影響は考慮する必要がないが、そのレベルが大きい場合には、雑音による影響を考慮して音声認識を行うのが望ましい。また、ユーザの口の動きがほとんどない場合は、その動きベクトルは考慮する必要がなく、逆に、動きがある場合には、その動きベクトルを考慮して音声認識を行うのが望ましい。さらに、自動車の振動がほとんどない場合や、雨が降っていない場合などには、センサ１４の出力を考慮する必要はないが、その逆の場合は、センサ１４の出力を考慮して音声認識を行うのが望ましい。
【００７１】
つまり、認識の対象である音声は勿論、その他の要因に関しても、音声を認識するにあたって最適な特徴パラメータ（より正答率の高い認識結果を得るための特徴パラメータ）は、場合によって変化すると考えられる。
【００７２】
そこで、図６の音声認識装置では、入力部１０が出力するデータからクラス分類用データを構成し、それをクラス分類することで、幾つかの場合に分け、各場合について最適な特徴パラメータが、前処理部２０乃至２３で求められる。
【００７３】
従って、図６の実施の形態では、適応判定部２７（マッチング部２９）において距離計算する際のパラメータ空間が、クラス分類部５２のクラス分類結果によって変化することになる。即ち、適応判定部２７では、クラス分類部５２が出力するクラスに対応するパラメータ空間における距離が計算され、その距離に基づいて、音声認識結果が出力される。
【００７４】
なお、ここでは、クラス分類部５２において、クラス分類用度データ構成部５１が出力するクラス分類用データが、Ｍ個のクラスのうちのいずれかにクラス分類されるものとする。
【００７５】
また、前処理部２０乃至２３には、クラス分類部５２が出力するクラスに対応した種類の特徴パラメータを出力させる他、同一の特徴パラメータであっても、その次数を変化させたり（例えば、８次や１２次その他の線形予測係数を出力させたり）、また、特徴パラメータを出力させないようにする（例えば、自動車が静かな場所で停止している場合には、マイク１３およびセンサ１４の出力は考慮する必要がないと考えられるので、前処理部２２および２３には特に処理を行わせないようにする）ことなども可能である。
【００７６】
クラス分類部５２が出力するクラスは、前処理部２０乃至２３の他、適応判定部２７にも供給される。適応判定部２７は、上述したように、Ｍ個の標準パラメータ記憶部２８₁乃至２８_Mを有しており、この標準パラメータ記憶部２８₁乃至２８_Mそれぞれには、クラス分類部５２が出力するＭ個のクラスそれぞれに対応するパラメータ空間における標準パラメータが記憶されている。
【００７７】
さらに、標準パラメータ記憶部２８_m（但し、ｍ＝１，２，・・・，Ｍ）には、図２の標準パラメータ記憶部２８における場合と同様に、クラス分類部２５が出力するクラスごとの標準パラメータテーブルが記憶されている。
【００７８】
なお、標準パラメータ記憶部２８₁乃至２８_Mが記憶している標準パラメータテーブルは、後述する学習装置（図７）において学習により求められるようになされている。
【００７９】
適応判定部２７では、クラス分類部５２からクラスを受信すると、標準パラメータ記憶部２８₁乃至２８_Mの中から、そのクラスに対応するものが選択される（標準パラメータ記憶部２８₁乃至２８_Mの中から選択されたものを、以下、適宜、標準パラメータ記憶部２８ｍ_sと記載する）。
【００８０】
一方、前処理部２０乃至２３が出力する特徴パラメータは、クラス分類用データ構成部２４を介してクラス分類部２５に供給されることでクラス分類され、そのクラス分類結果としてのクラスが、適応判定部２７に供給される。また、前処理部２０乃至２３が出力する特徴パラメータは、統合パラメータ構成部２６にも供給され、そこで、統合パラメータとされる。なお、統合パラメータ構成部２６では、適応判定部２７で選択された標準パラメータ記憶部２８ｍ_sが記憶している標準パラメータテーブルに登録されている標準パラメータと同一のパラメータ空間におけるパラメータが、統合パラメータとして構成される。
【００８１】
統合パラメータ構成部２６で得られた統合パラメータは、適応判定部２７に供給される。適応判定部２７では、標準パラメータ記憶部２８ｍ_sが記憶している標準パラメータテーブルから、クラス分類部２５が出力したクラスに対応するものが選択され、マッチング部２９において、その標準パラメータテーブルに登録されている標準パラメータそれぞれと、統合パラメータ構成部２６からの統合パラメータとの距離が算出される。そして、その距離を最も小さくする標準パラメータに対応する音素が、音声認識結果として出力される。
【００８２】
以上のように、クラス分類部５２が出力するクラスに対応した前処理を行い、各場合において最適な特徴パラメータを得るようにしたので、各場合に最適なパラメータ空間における距離に基づいて、より精度の高い音声認識結果を得ることが可能となる。
【００８３】
次に、図７は、図６の標準パラメータ記憶部２８₁乃至２８_Mに記憶させる、クラスごとの標準パラメータテーブルに登録する標準パラメータを求める学習処理を行う学習装置の構成例を示している。
【００８４】
なお、図中、図４における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、この学習装置は、メモリ４７に代えて、メモリ４７₁乃至４７_Mが設けられ、さらに、クラス分類用データ構成部６１、クラス分類部６２、およびセレクタ６３が新たに設けられている他は、図４の学習装置と基本的に同様に構成されている。
【００８５】
クラス分類用データ構成部６１またはクラス分類部６２では、図６のクラス分類用データ構成部５１またはクラス分類部５２における場合とそれぞれ同様の処理が行われ、その結果得られるクラスが、前処理部４０乃至４３およびセレクタ６３に供給される。前処理部４０乃至４３では、図６の前処理部２０乃至２３における場合と同様に、クラス分類部６２が出力するクラスに対応した前処理が行われ、これにより、いまの場合に最適な特徴パラメータが出力される。
【００８６】
以下、クラス分類用データ構成部４４、クラス分類部４５、または統合パラメータ構成部４６において、図６のクラス分類用データ構成部２４、クラス分類部２５、または統合パラメータ構成部２６における場合とそれぞれ同様の処理が行われ、その結果、クラス分類部４５からはクラスが、統合パラメータ構成部４６からは統合パラメータが、それぞれ出力される。
【００８７】
一方、セレクタ６３では、クラス分類部６２が出力するクラスにしたがって、メモリ４７₁乃至４７_Mのうちのいずれかのチップセレクト（ＣＳ）端子に選択信号が出力される。即ち、これにより、メモリ４７₁乃至４７_Mのうち、クラス分類部６２が出力するクラスに対応するものが選択される。
【００８８】
また、クラス分類部４５が出力するクラスは、メモリ４７₁乃至４７_Mのアドレス（ＡＤ）端子に供給されており、これにより、統合パラメータ４６が出力する統合パラメータは、メモリ４７₁乃至４７_Mのうちの、クラス分類部６２が出力するクラスに対応するものの、クラス分類部４５が出力するクラスに対応するアドレスに記憶される。
【００８９】
図６の標準パラメータ記憶部２８₁乃至２８_Mそれぞれには、以上のようにしてメモリ４７₁乃至４７_Mそれぞれの各アドレスに記憶された統合パラメータ（の集合）が、標準パラメータとして、各クラス（クラス分類部２５が出力するクラス）に対応する標準パラメータテーブルに登録されたものが記憶されている。
【００９０】
なお、この場合においても、図６の標準パラメータ記憶部２８₁乃至２８_Mそれぞれには、図５で説明したように、ある範囲にちらばる統合パラメータの重心などを標準パラメータとして記憶させるようにすることが可能である。
【００９１】
次に、図８は、図１の入力装置４が内蔵する音声認識装置の第３の実施の形態の構成例を示している。なお、図中、図６における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、この音声認識装置は、前処理部７１乃至７４が新たに設けられ、前処理部２０乃至２３に代えて、前処理部７１乃至７４の出力が統合パラメータ構成部２６に供給される他は、図６の音声認識装置と同様に構成されている。
【００９２】
前処理部７１乃至７４には、前処理部２０乃至２３に対する入力と同一の入力が与えられるようになされている。さらに、前処理部７１乃至７４には、クラス分類部５２が出力するクラスも供給されるようになされている。
【００９３】
前処理部７１乃至７４では、クラス分類部５２が出力するクラスに対応した前処理が行われ、これにより、いまの場合に最適な特徴パラメータが、統合パラメータ構成部２６に出力される。但し、ここでは、前処理部７１乃至７４それぞれと、前処理部２０乃至２３それぞれとでは、基本的に異なる前処理が行われるようになされている。即ち、ここでは、前処理部２０乃至２３の出力からは、クラス分類部２５が出力するクラスが、最終的に得られるのに対し、前処理部７１の出力からは、統合パラメータ構成部２６が出力する統合パラメータが得られる。そこで、前処理部２０乃至２３では、クラス分類部２５においてクラス分類を行うのに最適な特徴パラメータが、クラス分類部５２が出力するクラスに対応して求められ、他方、前処理部７１乃至７４では、音声認識に用いるのに最適な統合パラメータを構成するのに最適な特徴パラメータが、クラス分類部５２が出力するクラスに対応して求められる。
【００９４】
次に、図９は、図８の標準パラメータ記憶部２８₁乃至２８_Mに記憶させる、クラスごとの標準パラメータテーブルに登録する標準パラメータを求める学習処理を行う学習装置の構成例を示している。
【００９５】
なお、図中、図７における場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。即ち、この学習装置は、前処理部８１乃至８４が新たに設けられ、前処理部４０乃至４３に代えて、前処理部８１乃至８４の出力が統合パラメータ構成部４６に供給される他は、図７の学習装置と基本的に同様に構成されている。
【００９６】
前処理部４０乃至４３では、図８の前処理部２０乃至２３における場合と同様に、クラス分類部４５においてクラス分類を行うのに最適な特徴パラメータが、クラス分類部６２が出力するクラスに対応して求められ、また、前処理部８１乃至８４では、図８の前処理部７１乃至７４における場合と同様に、音声認識に用いるのに最適な統合パラメータを構成するのに最適な特徴パラメータが、クラス分類部６２が出力するクラスに対応して求められる。
【００９７】
なお、図９の学習装置による学習により得られる統合パラメータが、図８の標準パラメータ記憶部２８₁乃至２８_Mに記憶されるが、この場合も、学習により得られた統合パラメータをすべて記憶させるのではなく、図５で説明したように、ある範囲にちらばる統合パラメータの重心などを標準パラメータとして記憶させるようにすることが可能である。
【００９８】
以上、本発明を適用した音声認識装置について説明したが、本発明は、音声以外の、例えば、画像や文字、人物その他を対象とした認識装置にも適用可能である。
【００９９】
なお、本実施の形態では、認識対象であるユーザの音声の他に、ＣＣＤカメラ３２、マイク３３、およびセンサ３４の出力を用いて認識を行うようにしたが、この認識に用いるデータは、これらに限定されるものではない。
【０１００】
また、図２の実施の形態では、前処理部２０乃至２３の出力から、クラス分類用データを構成し、クラス分類部２５に、そのクラス分類用データをクラス分類させるようにしたが、クラス分類部２５には、その他、例えば、入力部１０の出力から直接クラス分類用データを構成し、これをクラス分類させるようにすることなども可能である。
【０１０１】
さらに、図６乃至図９の実施の形態においては、前処理部２０乃至２３，４０乃至４３，７１乃至７３，８１乃至８３に、クラスを供給し、そのクラスに対応した前処理を行わせるようにしたが、前処理部２０乃至２３，４０乃至４３，７１乃至７３，８１乃至８３には、クラスに対応した関数を供給するようにし、この関数にしたがった演算を行わせることで、そのクラスに対応した前処理を行わせるようにすることも可能である。
【０１０２】
また、本実施の形態では、説明を簡単にするため、マッチング部２９において、あるパラメータ空間における、統合パラメータと標準パラメータとの距離に基づいて、音声認識結果を得るようにしたが、マッチング部２９には、その他、時系列に得られる統合パラメータと標準パラメータとの系列の間の距離や、そのような系列が観測される確率を算出させ、これに基づいて音声認識結果を求めさせるようにすることも可能である。さらに、マッチング部２９には、クラス分類部２５や５２が出力するクラスごとに、異なる音声認識アルゴリズムを用いて、音声認識を行わせるようにすることも可能である。
【０１０３】
さらに、図２、図６、および図８で説明した音声認識装置、並びに図４、図７、および図９で説明した学習装置は、ハードウェアで実現することは勿論、ＣＰＵやメモリなどを有するマイクロプロセッサのアプリケーションとしてソフトウェアで実現することも可能である。
【０１０４】
【発明の効果】
本発明の認識装置および認識方法によれば、各場合ごとに適切なテーブルが用いられるので、認識性能を向上させることが可能となる。
【０１０５】
本発明の学習装置および学習方法によれば、各場合ごとに、認識に用いるのに最適なパラメータを得ることが可能となる。
【図面の簡単な説明】
【図１】本発明を適用したナビゲーションシステムの構成例を示すブロック図である。
【図２】本発明を適用した音声認識装置の第１の実施の形態の構成例を示すブロック図である。
【図３】前処理部２１の処理を説明するための図である。
【図４】本発明を適用した学習装置の第１の実施の形態の構成例を示すブロック図である。
【図５】パラメータ空間を示す図である。
【図６】本発明を適用した音声認識装置の第２の実施の形態の構成例を示すブロック図である。
【図７】本発明を適用した学習装置の第２の実施の形態の構成例を示すブロック図である。
【図８】本発明を適用した音声認識装置の第３の実施の形態の構成例を示すブロック図である。
【図９】本発明を適用した学習装置の第３の実施の形態の構成例を示すブロック図である。
【符号の説明】
１システム制御部，２位置測定装置，３データベース装置，４入力装置，５出力装置，１０入力部，１１マイク，１２ＣＣＤカメラ，１３マイク，１４センサ，１５アンプ，１６Ａ／Ｄ変換器，１７アンプ，１８，１９Ａ／Ｄ変換器，２０乃至２３前処理部，２４クラス分類用データ構成部，２５クラス分類部，２６統合パラメータ構成部，２７適応判定部，２８，２８₁乃至２８_M 標準パラメータ記憶部，２９マッチング部，３０入力部，３１マイク，３２ＣＣＤカメラ，３３マイク，３４センサ，３５アンプ，３６Ａ／Ｄ変換器，３７アンプ，３８，３９Ａ／Ｄ変換器，４０乃至４３前処理部，４４クラス分類用データ構成部，４５クラス分類部，４６統合パラメータ構成部，４７，４７₁乃至４７_M メモリ，５１クラス分類用データ構成部，５２クラス分類部，６１クラス分類用データ構成部，６２クラス分類部，６３セレクタ，７１乃至７４，８１乃至８４前処理部

Claims

所定の認識対象を、複数の異なる種類の入力データから認識する認識装置であって、
前記複数の異なる種類の入力データを分析し、その分析結果の少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うクラス分類手段と、
前記複数の異なる種類の入力データの分析結果の少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段と、
前記クラス分類手段が出力するクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶している標準パラメータ記憶手段と、
前記クラス分類手段が出力するクラスに対応するテーブルに登録された標準のパラメータと、前記統合パラメータとに基づいて、前記認識対象を認識する認識手段と
を備え、
前記標準パラメータ記憶手段に記憶されている前記所定の標準のパラメータは、前記認識対象に対応するパラメータであって、複数の異なる種類の学習用データの分析結果の少なくとも一部を統合した学習用統合パラメータを前記クラスごとに求める学習により得られたものである
ことを特徴とする認識装置。
所定の認識対象を、複数の異なる種類の入力データから認識する認識装置であって、
前記複数の異なる種類の入力データからクラス分類用データを構成し、前記クラス分類用データを所定のクラスに分類し、その結果得られる第 1 のクラス分類結果を出力する第 1 のクラス分類手段と、
前記入力データを、前記第１のクラス分類結果に応じて分析し、前記入力データの特徴パラメータを求める分析手段と、
前記分析手段からの特徴パラメータの少なくとも一部に基づいて、前記入力データを所定のクラスに分類し、その結果得られる第２のクラス分類結果を出力する第２のクラス分類手段と、
前記特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段と、
前記第１のクラス分類手段により分類されたクラスごとであって、前記第２のクラス分類手段により分類されたクラスごとに、所定の標準のパラメータが登録されているテーブルを記憶する標準パラメータ記憶手段と、
前記第１および第２のクラス分類手段により分類された両方のクラスに対応するテーブルに登録された標準のパラメータと、前記統合パラメータとに基づいて、前記認識対象を認識する認識手段と
を備え、
前記標準パラメータ記憶手段に記憶されている前記所定の標準のパラメータは、前記認識対象に対応するパラメータであって、前記第１のクラス分類手段によるクラスごとであって前記第 2 のクラス分類手段によるクラスごとに、複数の異なる種類の学習用データの特徴パラメータの少なくとも一部を統合した学習用統合パラメータを求める学習により得られたものである
ことを特徴とする認識装置。
前記認識対象は、所定の話者が発した音声であり、
前記複数の異なる種類の入力データは、少なくとも、その音声データと、話者の口を撮影して得られる画像データとを含む
ことを特徴とする請求項１に記載の認識装置。
所定の認識対象を、複数の異なる種類の入力データから認識する認識方法であって、
前記複数の異なる種類の入力データを分析し、その分析結果の少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うとともに、前記複数の異なる種類の入力データの分析結果の少なくとも一部を統合した統合パラメータを構成し、
前記クラス分類の結果得られるクラスに対応し、前記認識対象に対応するパラメータであって、複数の異なる種類の学習用データの分析結果の少なくとも一部を統合した学習用統合パラメータを前記クラスごとに求める学習により得られた標準のパラメータが登録されたテーブルと、前記統合パラメータとに基づいて、前記認識対象を認識する
ことを特徴とする認識方法。
所定の認識対象を、複数の異なる種類の入力データから認識するのに用いる標準のパラメータを求める学習装置であって、
学習用の複数の異なる種類の入力データを分析し、その特徴パラメータを求める分析手段と、
前記学習用の複数の異なる種類の入力データを、前記特徴パラメータの少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うクラス分類手段と、
前記特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段と、
前記統合パラメータを、前記クラス分類手段が出力するクラスごとに分類して記憶する記憶手段と
を備えることを特徴とする学習装置。
所定の認識対象を、複数の異なる種類の入力データから認識するのに用いる標準のパラメータを求める学習装置であって、
学習用の複数の異なる種類の入力データからクラス分類用データを構成し、前記クラス分類用データを所定のクラスに分類し、その結果得られる第１のクラス分類結果を出力する第１のクラス分類手段と、
前記学習用の複数の異なる種類の入力データを、前記第１のクラス分類結果に応じて分析し、特徴パラメータを求める分析手段と、
前記分析手段からの特徴パラメータの少なくとも一部に基づいて、前記入力データを所定のクラスに分類し、その結果得られる第２のクラス分類結果を出力する第２のクラス分類手段と、
前記特徴パラメータの少なくとも一部を統合した統合パラメータを構成する統合パラメータ構成手段と、
前記統合パラメータを、前記第１のクラス分類手段が出力するクラスごとであって、前記第２のクラス分類手段が出力するクラスごとに分類して記憶する記憶手段と
を備えることを特徴とする学習装置。
所定の認識対象を、複数の異なる種類の入力データから認識するのに用いる標準のパラメータを求める学習方法であって、
学習用の複数の異なる種類の入力データを分析し、その特徴パラメータを求め、
前記学習用の複数の異なる種類の入力データを、前記特徴パラメータの少なくとも一部に基づいて、所定のクラスに分類するクラス分類を行うとともに、前記特徴パラメータの少なくとも一部を統合した統合パラメータを構成し、
前記統合パラメータを、前記クラス分類の結果得られるクラスごとに分類して記憶する
ことを特徴とする学習方法。