JP4345156B2

JP4345156B2 - 学習装置および学習方法、認識装置および認識方法、並びに記録媒体

Info

Publication number: JP4345156B2
Application number: JP28761999A
Authority: JP
Inventors: 典文吉原
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1998-10-09
Filing date: 1999-10-08
Publication date: 2009-10-14
Anticipated expiration: 2019-10-08
Also published as: JP2000181486A

Description

【０００１】
【発明の属する技術分野】
本発明は、学習装置および学習方法、認識装置および認識方法、並びに記録媒体に関し、特に、例えば、状態の遷移等を、十分に表現可能なモデルを提供することにより、音声等の認識率を向上させることができるようにする学習装置および学習方法、認識装置および認識方法、並びに記録媒体に関する。
【０００２】
【従来の技術】
例えば、音声を認識するアルゴリズムとしては、従来より、ＨＭＭ（Hidden Markov Models）法などが知られている。離散ＨＭＭ法では、あらかじめ学習を行うことにより、認識対象に対応するモデルが求められ、各モデルから、入力された音声に対応する入力系列が観測される確率（観測確率）が、そのモデルに与えられた状態遷移確率（ある状態から他の状態へ遷移（自分自身への遷移も含むのが一般的である）する確率）や出力確率（状態が遷移するときに、あるコード（ラベル）（シンボル）が出力される確率）に基づいて計算される。そして、その観測確率に基づいて、入力された音声の認識が行われる。
【０００３】
【発明が解決しようとする課題】
ところで、ＨＭＭ法における学習は、システムの製作者が、モデルの状態数や状態遷移の形態（例えば、ある状態からの状態の遷移は、自分自身と自分の右隣の状態のいずれか一方にのみ限られるなどといった状態遷移の制限）を決定し、そのようなモデルを用いて行われる。
【０００４】
しかしながら、システムの製作者が、いわば勝手に決定した状態数や状態遷移の形態のモデルが、認識対象が有する本来の状態数や状態遷移の形態に沿うものとは限らない。そして、システムの製作者が決定したモデルが、認識対象が有する本来の状態数や状態遷移の形態に沿わないものである場合には、そのモデルによっては、認識対象の定常状態や過渡状態を正確に表現することができず、その結果、認識率が劣化するおそれがある。
【０００５】
本発明は、このような状況に鑑みてなされたものであり、認識対象が有する本来の状態数等を、十分に表現可能なモデルを提供することにより、音声等の認識率を向上させることができるようにするものである。
【０００６】
【課題を解決するための手段】
本発明の第１の側面の学習装置は、所定の標準系列と、ベクトル量子化に用いられるコードベクトルとの間の距離の推移を表す距離推移モデルを求めるための学習を行う学習装置であって、時系列の学習データについて、時間軸の正規化を行い、前記標準系列を出力する正規化手段と、前記標準系列と、前記コードベクトルとの間の距離を算出し、その距離の推移を出力する距離算出手段と、前記距離の推移を多項式で近似する近似手段とを備え、前記近似手段は、前記コードブックのコードベクトルのうち、前記標準系列との距離を最小にするものとの距離の累積値が最小となるように、前記多項式の次数を決定する学習装置である。
【０００７】
本発明の第１の側面の学習方法は、所定の標準系列と、ベクトル量子化に用いられるコードベクトルとの間の距離の推移を表す距離推移モデルを求めるための学習を行う学習方法であって、時系列の学習データについて、時間軸の正規化を行い、前記標準系列を出力し、前記標準系列と、前記コードベクトルとの間の距離を算出し、その距離の推移を出力し、前記距離の推移を多項式で近似するステップを含み、前記コードブックのコードベクトルのうち、前記標準系列との距離を最小にするものとの距離の累積値が最小となるように、前記多項式の次数を決定する学習方法である。
【０００８】
本発明の第１の側面の記録媒体は、所定の標準系列と、ベクトル量子化に用いられるコードベクトルとの間の距離の推移を表す距離推移モデルを求めるための学習を、コンピュータに行わせるプログラムが記録されている記録媒体であって、時系列の学習データについて、時間軸の正規化を行い、前記標準系列を出力する正規化手段と、前記標準系列と、前記コードベクトルとの間の距離を算出し、その距離の推移を出力する距離算出手段と、前記距離の推移を多項式で近似する近似手段として、コンピュータを機能させるためのプログラムであり、前記近似手段は、前記コードブックのコードベクトルのうち、前記標準系列との距離を最小にするものとの距離の累積値が最小となるように、前記多項式の次数を決定するプログラムが記録されている記録媒体である。
【０００９】
本発明の第２の側面の認識装置は、時系列の入力データが所定の認識対象に一致するか否かを認識する認識装置であって、複数のコードベクトルと、各コードベクトルを示す識別子とからなるコードブックを記憶しているコードブック記憶手段と、所定の標準系列と、前記コードブックの各コードベクトルとの間の距離の推移を表す、少なくとも１つの認識対象に対応した距離推移モデルを記憶しているモデル記憶手段と、前記時系列の入力データを、前記コードブックを用いてベクトル量子化し、前記識別子の系列を出力するベクトル量子化手段と、前記距離推移モデルと、前記入力データについての識別子の系列とに基づいて、前記入力データが所定の認識対象に一致するか否かを認識する認識手段とを備え、前記認識手段は、前記識別子の系列と前記距離推移モデルとに基づいて、前記識別子ごとの距離を累積し、その累積された距離に基づいて、前記入力データが所定の認識対象に一致するか否かを認識する認識装置である。
【００１０】
本発明の第２の側面の認識方法は、時系列の入力データが所定の認識対象に一致するか否かを認識する認識方法であって、前記時系列の入力データを、複数のコードベクトルと、各コードベクトルを示す識別子とからなるコードブックを用いてベクトル量子化し、前記識別子の系列を出力し、所定の標準系列と前記コードベクトルとの間の距離の推移を表す、少なくとも１つの認識対象に対応した距離推移モデルと、前記入力データについての識別子の系列とに基づいて、前記入力データが所定の認識対象に一致するか否かを認識するステップを含み、前記識別子の系列と前記距離推移モデルとに基づいて、前記識別子ごとの距離を累積し、その累積された距離に基づいて、前記入力データが所定の認識対象に一致するか否かを認識する認識方法である。
【００１１】
本発明の第２の側面の記録媒体は、時系列の入力データが所定の認識対象に一致するか否かを認識する認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、前記時系列の入力データを、複数のコードベクトルと、各コードベクトルを示す識別子とからなるコードブックを用いてベクトル量子化し、前記識別子の系列を出力するベクトル量子化手段と、所定の標準系列と前記コードベクトルとの間の距離の推移を表す、少なくとも１つの認識対象に対応した距離推移モデルと、前記入力データについての識別子の系列とに基づいて、前記入力データが所定の認識対象に一致するか否かを認識する認識手段として、コンピュータを機能させるためのプログラムであり、前記認識手段は、前記識別子の系列と前記距離推移モデルとに基づいて、前記識別子ごとの距離を累積し、その累積された距離に基づいて、前記入力データが所定の認識対象に一致するか否かを認識するプログラムが記録されている記録媒体である。
【００１２】
本発明の第３の側面の認識装置は、時系列の入力データが所定の認識対象に一致するか否かを認識する認識装置であって、時系列の第１および第２の入力データを統合し、時系列の統合データを出力する統合手段と、前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて、前記第１または第２の入力データが所定の認識対象に一致するか否かを認識する認識手段とを備え、前記認識手段は、前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて行われる第１のマッチング処理、および前記時系列の統合データに基づくベクトルから得られる空間分布に基づいて行われる第２のマッチング処理を行い、前記第１および第２のマッチング処理の結果に基づいて、前記第１または第２の入力データが所定の認識対象に一致するか否かを認識するか、又は、ベクトル量子化に用いられるコードブックのコードベクトルと、所定の標準系列との間の距離の推移を表す距離推移モデルから、前記統合データに基づくベクトルを、前記コードブックを用いてベクトル量子化したベクトル量子化結果が観測されるときの前記距離を累積し、その累積結果に基づいて、前記第１または第２のデータが所定の認識対象に一致するか否かを認識する認識装置である。
【００１３】
本発明の第３の側面の認識方法は、時系列の入力データが所定の認識対象に一致するか否かを認識する認識方法であって、時系列の第１および第２の入力データを統合し、時系列の統合データを出力し、前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて、前記第１または第２の入力データが所定の認識対象に一致するか否かを認識するステップを含み、前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて行われる第１のマッチング処理、および前記時系列の統合データに基づくベクトルから得られる空間分布に基づいて行われる第２のマッチング処理を行い、前記第１および第２のマッチング処理の結果に基づいて、前記第１または第２の入力データが所定の認識対象に一致するか否かを認識するか、又は、ベクトル量子化に用いられるコードブックのコードベクトルと、所定の標準系列との間の距離の推移を表す距離推移モデルから、前記統合データに基づくベクトルを、前記コードブックを用いてベクトル量子化したベクトル量子化結果が観測されるときの前記距離を累積し、その累積結果に基づいて、前記第１または第２のデータが所定の認識対象に一致するか否かを認識する認識方法である。
【００１４】
本発明の第３の側面の記録媒体は、時系列の入力データが所定の認識対象に一致するか否かを認識する認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、時系列の第１および第２の入力データを統合し、時系列の統合データを出力する統合手段と、前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて、前記第１または第２の入力データが所定の認識対象に一致するか否かを認識する認識手段として、コンピュータを機能させるためのプログラムであり、前記認識手段は、前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて行われる第１のマッチング処理、および前記時系列の統合データに基づくベクトルから得られる空間分布に基づいて行われる第２のマッチング処理を行い、前記第１および第２のマッチング処理の結果に基づいて、前記第１または第２の入力データが所定の認識対象に一致するか否かを認識するか、又は、ベクトル量子化に用いられるコードブックのコードベクトルと、所定の標準系列との間の距離の推移を表す距離推移モデルから、前記統合データに基づくベクトルを、前記コードブックを用いてベクトル量子化したベクトル量子化結果が観測されるときの前記距離を累積し、その累積結果に基づいて、前記第１または第２のデータが所定の認識対象に一致するか否かを認識するプログラムが記録されている記録媒体である。
【００１５】
本発明の第１の側面においては、時系列の学習データについて、時間軸の正規化が行われ、前記標準系列が出力される。さらに、前記標準系列と、前記コードベクトルとの間の距離が算出され、その距離の推移が出力されて、前記距離の推移が多項式で近似される。前記多項式の次数は、前記コードブックのコードベクトルのうち、前記標準系列との距離を最小にするものとの距離の累積値が最小となるように決定される。
【００１６】
本発明の第２の側面においては、前記時系列の入力データが、複数のコードベクトルと、各コードベクトルを示す識別子とからなるコードブックを用いてベクトル量子化され、前記識別子の系列が出力される。そして、所定の標準系列と前記コードベクトルとの間の距離の推移を表す、少なくとも１つの認識対象に対応した距離推移モデルと、前記入力データについての識別子の系列とに基づいて、前記入力データが所定の認識対象に一致するか否かが認識される。すなわち、前記識別子の系列と前記距離推移モデルとに基づいて、前記識別子ごとの距離が累積され、その累積された距離に基づいて、前記入力データが所定の認識対象に一致するか否かが認識される。
【００１７】
本発明の第３の側面においては、時系列の第１および第２の入力データが統合され、時系列の統合データが出力される。さらに、前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて、前記第１または第２の入力データが所定の認識対象に一致するか否かが認識される。すなわち、前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて行われる第１のマッチング処理、および前記時系列の統合データに基づくベクトルから得られる空間分布に基づいて行われる第２のマッチング処理が行われ、前記第１および第２のマッチング処理の結果に基づいて、前記第１または第２の入力データが所定の認識対象に一致するか否かが認識される。又は、ベクトル量子化に用いられるコードブックのコードベクトルと、所定の標準系列との間の距離の推移を表す距離推移モデルから、前記統合データに基づくベクトルを、前記コードブックを用いてベクトル量子化したベクトル量子化結果が観測されるときの前記距離が累積され、その累積結果に基づいて、前記第１または第２のデータが所定の認識対象に一致するか否かが認識される。
【００１８】
【発明の実施の形態】
図１は、本発明を適用した音声認識装置の一実施の形態の構成例を示している。
【００１９】
この音声認識装置には、ユーザが発話した音声をマイクロフォンで集音した発話データの他、そのユーザが発話している口唇をビデオカメラで撮影した画像のデータ（画像データ）、ユーザが発話した環境における雑音のデータ（雑音データ）、その他のユーザの発話（音声）を認識するのに役立ちうるデータ（例えば、ユーザが発話を行っている場所を入力するボタンが装置に設けられている場合において、そのボタンが操作されたときの、その操作に対応する信号や、音声認識を行う環境の温度を計測する温度センサの出力など）が、時系列に、順次入力されるようになされており、これらのデータを必要に応じて考慮して、発話データの認識が行われるようになされている。
【００２０】
即ち、パラメータ化回路１には、上述した発話データ、口唇の画像データ、雑音データ、その他のデータ（ここでは、いずれもディジタルデータとする）が入力されるようになされている。そして、パラメータ化回路１は、そこに入力される各種のデータそれぞれを処理するための信号処理部１１₁乃至１１_Nを有しており、発話データ、口唇の画像データ、雑音データ、その他のデータを、対応する信号処理部１１_n（ｎ＝１，２，・・・，Ｎ：Ｎは、パラメータ化回路１に入力可能な信号の最大の種類数）において処理することにより、各データの特徴を表す特徴パラメータの抽出等を行うようになされている。パラメータ化回路１で抽出された特徴パラメータは、統合パラメータ生成回路２に供給されるようになされている。
【００２１】
ここで、図１の実施の形態では、信号処理部１１₁，１１₂、または１１_Nそれぞれにおいて、口唇の画像データ、発話データ、または雑音データが処理されるようになされている。なお、発話データや雑音データなどの音声（音響）データの特徴パラメータとしては、例えば、線形予測係数や、ケプストラム(Cepstrum)係数、パワー、線スペクトル対(Line Spectrum Pair)、ゼロクロスなどがある。また、口唇の画像データの特徴パラメータについては、後述する。
【００２２】
統合パラメータ生成回路２は、メディア間正規化部２１および統合パラメータ生成部２２で構成され、パラメータ化回路１からの各種の信号の特徴パラメータを統合した統合パラメータを生成するようになされている。
【００２３】
即ち、メディア間正規化部２１は、パラメータ化回路１からの各種の信号の特徴パラメータを、同一の重み（スケール）で扱うことができるように正規化し、統合パラメータ生成部２２に出力するようになされている。統合パラメータ生成部２２は、メディア間正規化部２１から供給される、各種の信号の、正規化された特徴パラメータを統合する（つなぎ合わせる）ことにより、統合パラメータを生成し、マッチング回路３に出力するようになされている。
【００２４】
マッチング回路３は、統合パラメータと、標準パターン（認識対象のモデル）とのマッチングを行い、そのマッチング結果を、判定回路４に出力するようになされている。マッチング回路３は、距離推移方式マッチング部３１および空間分布方式マッチング部３２を有している。距離推移方式マッチング部３１は、後述する距離推移モデルを用いて、後述する距離推移方式による統合パラメータのマッチングを行い、そのマッチング結果を、判定回路４に出力するようになされている。空間分布方式マッチング部３２は、後述する空間分布方式による統合パラメータのマッチングを行い、そのマッチング結果を、判定回路４に出力するようになされている。
【００２５】
判定回路４は、マッチング回路３の出力、即ち、ここでは、距離推移方式マッチング部３１および空間分布方式マッチング部３２におけるマッチング結果に基づいて、ユーザの発話（音声）を認識し、その認識結果としての、例えば、単語を出力するようになされている。
【００２６】
次に、図２のフローチャートを参照して、図１の音声認識装置の処理について説明する。
【００２７】
音声認識装置では、発話データ、口唇の画像データ、雑音データ等が入力されると、それらのデータが、パラメータ化回路１に供給される。なお、パラメータ化回路１には、口唇の画像データとともに、あるいは口唇の画像データに替えて、発話者のジェスチャを撮影した画像データや、喉の（筋肉の）動きを撮影した画像データ（または喉の動きを計測するセンサの出力）等を入力するようにすることも可能である。
【００２８】
パラメータ化回路１は、ステップＳ１において、発話データ、口唇の画像データ、雑音データ等を処理し、それぞれのデータについて、特徴パラメータを抽出する。各データの特徴パラメータは、統合パラメータ生成回路２に供給される。
【００２９】
統合パラメータ生成回路２のメディア間正規化部２１は、ステップＳ２において、パラメータ化回路１からの各データの特徴パラメータを正規化し、その正規化された特徴パラメータを、統合パラメータ生成部２２に供給する。統合パラメータ生成部２２は、ステップＳ３において、メディア間正規化部２１からの各データの正規化された特徴パラメータを統合し、統合パラメータとする。この統合パラメータは、マッチング回路３の距離推移方式マッチング部３１および空間分布方式マッチング部３２に供給され、ステップＳ４に進む。
【００３０】
ステップＳ４では、距離推移方式マッチング部３１が、統合パラメータ生成回路２からの統合パラメータのマッチングを、距離推移方式によって行う。さらに、ステップＳ４では、空間分布方式マッチング部３２が、統合パラメータ生成回路２からの統合パラメータのマッチングを、空間分布方式によって行う。そして、距離推移方式マッチング部３１および空間分布マッチング部３２によるマッチング結果は、判定回路４に供給される。判定回路４は、ステップＳ５において、マッチング回路３からのマッチング結果に基づき、発話データの認識を行い、その認識結果（音声認識結果）を出力して、処理を終了する。
【００３１】
次に、図１におけるパラメータ化回路１の信号処理部１１₁は、上述したように、口唇の画像データを処理し、その特徴パラメータを抽出するようになっているが、図３は、そのような信号処理部１１₁の構成例を示している。
【００３２】
口唇の画像データは、ＹＩＱ変換部４１に供給されるようになされており、ＹＩＱ変換部４１は、口唇の画像データを、ＹＩＱで表される信号に変換するようになされている。即ち、信号処理部１１₁に入力される口唇の画像データは、例えば、ＲＧＢ（Red, Green, Blue）で表現されており、ＹＩＱ変換部４１は、そのようなＲＧＢで表現された口唇の画像データを、ＹＩＱで表現されたものに変換し、Ｑ成分抽出部４２に供給するようになされている。
【００３３】
Ｑ成分抽出部４２は、ＹＩＱ変換部４１からのＹＩＱで表現された口唇の画像データのうちの、Ｑ成分の信号レベルが閾値以上となっている画素を抽出し、その画素を、口唇を構成する画素（以下、適宜、口唇画素という）として、全体重心算出部４３、上重心／下重心算出部４４、分割重心算出部４５、および分割部４６に出力するようになされている。
【００３４】
全体重心算出部４３は、Ｑ成分抽出部４２からの口唇画素全体の重心（以下、適宜、全体重心という）を求め、上重心／下重心算出部４４および分割重心算出部４５に供給するようになされている。
【００３５】
上重心／下重心算出部４４は、後述する上重心および下重心を求めるようになされている。即ち、上重心／下重心算出部４４は、全体重心算出部４３からの全体重心に基づいて、口唇画素を、上唇を構成する画素（以下、適宜、上唇画素という）と、下唇を構成する画素（以下、適宜、下唇画素という）とに仮に分割するようになされている。さらに、上重心／下重心算出部４４は、上唇画素全体の重心（以下、適宜、上重心という）、および下唇画素全体の重心（以下、適宜、下重心という）を求め、分割重心算出部４５に出力するようになされている。
【００３６】
分割重心算出部４５は、口唇画素を、上唇画素と下唇画素とに最終的に分割するための、その分割の基準となる点（以下、適宜、分割重心という）を、全体重心算出部４３からの全体重心、並びに上重心／下重心算出部４４からの上重心および下重心に基づいて求め、分割部４６に出力するようになされている。
【００３７】
分割部４６は、Ｑ成分抽出部４２からの口唇画素を、分割重心算出部４５からの分割重心に基づいて、上唇画素と下唇画素とに分割し、上唇画素はミラー領域生成部４７Ｕに、下唇画素はミラー領域生成部４７Ｄに、それぞれ出力するようになされている。
【００３８】
ミラー領域生成部４７Ｕは、上唇画素について、後述するミラー領域を構成し、上唇画素とともに、楕円近似部４８Ｕに供給するようになされている。ミラー領域生成部４７Ｄは、下唇画素について、ミラー領域を構成し、下唇画素とともに、楕円近似部４８Ｄに供給するようになされている。
【００３９】
楕円近似部４８Ｕは、ミラー領域生成部４７Ｕからの上唇画素とそのミラー領域を近似する楕円を求め、その楕円を規定するパラメータ（楕円パラメータ）を、口唇パラメータ出力部４９に供給するようになされている。楕円近似部４８Ｄは、ミラー領域生成部４７Ｄからの下唇画素とそのミラー領域を近似する楕円を求め、その楕円を規定する楕円パラメータを、口唇パラメータ出力部４９に供給するようになされている。
【００４０】
口唇パラメータ出力部４９は、楕円近似部４８Ｕおよび４８Ｄからの楕円パラメータのうち、重複するものを削除し、残りを、口唇の特徴を表す特徴パラメータである口唇パラメータとして出力するようになされている。
【００４１】
次に、図４のフローチャートを参照して、図３の処理部１１₁の処理について説明する。
【００４２】
ＹＩＱ変換部４１は、例えば、ＲＧＢで表現された口唇の画像データを受信すると、ステップＳ１１において、ＹＩＱ変換行列を用いて、その画像データを、ＹＩＱで表現されたものに変換し、Ｑ成分抽出部４２に供給する。
【００４３】
Ｑ成分抽出部４２は、ステップＳ１２において、ＹＩＱ変換部４１からのＹＩＱで表現された口唇の画像データのうちの、Ｑ成分が閾値以上となっている画素を抽出し、その画素を、口唇画素として、全体重心算出部４３、上重心／下重心算出部４４、分割重心算出部４５、および分割部４６に出力する。
【００４４】
ここで、本件発明者が行った調査によれば、口唇を構成する画素（口唇画素）は、比較的、Ｑ成分が大きくなり、Ｑ成分の大きい画素を抽出することで、口唇画素を比較的精度良く抽出することができることが分かっている。なお、Ｑ成分は、赤系統の色の成分であるが、ＲＧＢで表現された画像から、同じく赤系統の色の成分であるＲ成分が大きい画素を抽出するよりは、Ｑ成分の大きい画素を抽出した方が口唇画素を比較的精度良く抽出することも、本件発明者が行った調査から分かっている。
【００４５】
全体重心算出部４３は、Ｑ成分抽出部４２から、口唇画素を受信すると、ステップＳ１３において、図５に◎印で示すような、その口唇画素全体の重心（全体重心）を求め、上重心／下重心算出部４４および分割重心算出部４５に供給して、ステップＳ１４に進む。ステップＳ１４では、上重心／下重心算出部４４において、上重心および下重心が算出される。
【００４６】
即ち、上重心／下重心算出部４４は、図５に示すような、全体重心を通る水平方向の直線によって、Ｑ成分抽出部４２からの口唇画素を、仮に上下に２分割する。ここで、本実施の形態では、口唇の画像データとして、発話を行っているユーザを正面から撮影して得られるものが供給されるものとしている。
【００４７】
さらに、上重心／下重心算出部４４は、口唇画素を、上述したようにして上下２分割したものの上側または下側の画素を、それぞれ上唇を構成する画素（上唇画素）または下唇を構成する画素（下唇画素）として、図５に×印で示すような上重心または下重心をそれぞれ求める。この上重心および下重心は、分割重心算出部４５に供給される。
【００４８】
分割重心算出部４５は、ステップＳ１５において、分割重心を求める。即ち、分割重心算出部４５は、上重心／下重心算出部４４における場合と同様に、全体重心を通る水平方向の直線によって、Ｑ成分抽出部４２からの口唇画素を、上下に２分割することで、上唇画素と下唇画素とに分け、それぞれの画素数をカウントする。さらに、分割重心算出部４５は、上重心と下重心とを通る線分を、上唇画素の画素数と下唇画素の画素数との比にしたがって内分し、その内分点を、分割重心とする。この分割重心は、分割部４６に供給される。
【００４９】
分割部４６は、ステップＳ１６において、分割重心算出部４５からの、図５において・印で示す分割重心を通る水平方向の直線によって、Ｑ成分抽出部４２からの口唇画素を、上下に２分割することにより、最終的な上唇画素と下唇画素とに分け、上唇画素はミラー領域生成部４７Ｕに、下唇画素はミラー領域生成部４７Ｄに、それぞれ出力する。
【００５０】
そして、ステップＳ１７において、ミラー領域生成部４７Ｕは、上唇画素について、ミラー領域を構成し、ミラー領域生成部４７Ｄは、下唇画素について、ミラー領域を構成する。即ち、ミラー領域生成部４７Ｕは、図６（Ａ）に示すように、上唇画素について、分割重心を通る水平方向の直線（以下、適宜、上下分割線という）に線対称な領域を、そのミラー領域として生成し、上唇画素とともに、楕円近似部４８Ｕに供給する。また、ミラー領域生成部４７Ｄは、図６（Ｂ）に示すように、下唇画素について、上下分割線に線対称な領域を、そのミラー領域として生成し、下唇画素とともに、楕円近似部４８Ｄに供給する。
【００５１】
その後、ステップＳ１８において、楕円近似部４８Ｕは、図６（Ａ）に示すように、上唇画素とそのミラー領域を近似する、分割重心を中心とする楕円を、例えば、最小二乗法によって求める。楕円近似部４８Ｄも、図６（Ｂ）に示すように、下唇画素とそのミラー領域を近似する、分割重心を中心とする楕円を、最小二乗法によって求める。
【００５２】
即ち、いま、分割重心のｘまたはｙ座標を、ｘ₀またはｙ₀と表すと、横径（ｘ軸方向（水平方向）の半径）または縦径（ｙ軸方向（垂直方向）の半径）を、それぞれ１／ａ^1/2または１／ｂ^1/2とする楕円は、次式で表すことができる。
【００５３】
ａ（ｘ−ｘ₀）²＋ｂ（ｙ−ｙ₀）²＝１
・・・（１）
【００５４】
従って、上唇画素、およびそのミラー領域を構成する画素を近似する二乗誤差を最小にする楕円は、次式を解くことで求めることができる。
【００５５】
【数１】

・・・（２）
ここで、式（２）において、Σは、上唇画素、およびそのミラー領域を構成する画素すべてについてのサメーションを表す。
【００５６】
楕円近似部４８Ｕは、上唇画素とそのミラー領域を近似する、分割重心を中心とする楕円の横径および縦径を、式（２）を解くことにより求め、上唇を近似する楕円の楕円パラメータとして、口唇パラメータ出力部４９に供給する。楕円近似部４８Ｄも、楕円近似部４８Ｕにおける場合と同様にして、下唇画素とそのミラー領域を近似する楕円の横径および縦径を求め、口唇パラメータ出力部４９に供給する。
【００５７】
口唇パラメータ出力部４９は、ステップＳ１９において、楕円近似部４８Ｕまたは４８Ｄからの楕円パラメータのうち、重複するものを削除する。即ち、上唇画素とそのミラー領域を近似する楕円の横径と、下唇画素とそのミラー領域を近似する楕円の横径は、理想的には、図７に示すように、一致するはずであり、口唇パラメータ出力部４９は、その一致する横径の１つを削除し、残りの横径、並びに上唇画素とそのミラー領域を近似する楕円の縦径（以下、適宜、上縦径という）および下唇画素とそのミラー領域を近似する楕円の縦径（以下、適宜、下縦径という）の３つの楕円パラメータを、口唇の特徴パラメータとして出力し、処理を終了する。
【００５８】
なお、処理部１１₁は、以上の処理を、例えば、１フレームの口唇の画像データが供給されるごとに繰り返す。
【００５９】
ここで、上唇画素とそのミラー領域を近似する楕円の横径と、下唇画素とそのミラー領域を近似する楕円の横径は、上述したように、理想的には、一致するはずであるが、楕円を、最小二乗法によって求める場合には、僅かな差ではあるが、一致しないことが多い。そこで、横径についてだけは、図３において点線で示すように、楕円近似部４８Ｕと４８Ｄとの間でデータをやりとりすることにより、上唇を近似する楕円の二乗誤差と、下唇を近似する楕円の二乗誤差との和を求め、その和を最小にする楕円の横径を求めるようにすることができる。
【００６０】
なお、上唇画素とそのミラー領域を近似する楕円の横径と、下唇画素とそのミラー領域を近似する楕円の横径とを、それぞれ独立に、最小二乗法によって求めた後、そのうちのいずれか一方のみを選択したり、また、その２つの横径の平均値を計算することによっても、２つの横径を１つに、いわばまとめることが可能であるが、上唇または下唇を最も良く近似する楕円のうちのいずれか一方の横径を選択する場合には、選択されなかった方の楕円による近似の精度が悪化し、また、２つの横径の平均値を計算する場合には、その平均値を横径とする楕円が、上唇および下唇を精度良く近似するとは限らないため、楕円による上唇および下唇の近似の精度を、ある程度高く維持するためには、上述したように、上唇を近似する楕円の二乗誤差と、下唇を近似する楕円の二乗誤差との和を求め、その和を最小にする楕円の横径を求めるようにするのが望ましい。
【００６１】
以上のように、口唇画素を、上唇画素と下唇画素とに２分割し、それぞれを近似する楕円を求め、その楕円を表す横径および縦径を、口唇の特徴を表す特徴パラメータとするようにしたので、この特徴パラメータによれば、口唇の動き等を、忠実に再現することができる。
【００６２】
さらに、口唇を楕円で近似することにより、口唇の画像データが多少のノイズを有していても、そのノイズに対して、ロバスト性のある特徴パラメータを得ることができる。
【００６３】
さらに、口唇を近似する楕円の横径、上縦径、および下縦径である特徴パラメータは、人が、他人または自身の口唇を見た場合に、視覚的に得る口唇の動きに連動するから、その特徴パラメータの検証を行う場合に、その検証効率を向上させることができる。
【００６４】
また、特徴パラメータが、横径、上縦径、下縦径の３つで済むので、例えば、口唇の上下左右の４つの端点を特徴パラメータとする場合に比較して、少ない数の特徴パラメータで、口唇を、効率良く表現することができる。
【００６５】
その結果、例えば、図１に示すように、処理部１１₁が出力する口唇の特徴パラメータと、処理部１１₂が出力する発話データの特徴パラメータとを、送信装置５から、例えば、電話回線や、ＣＡＴＶ（Cable Television）、インターネット、衛星回線などの伝送媒体６を介して、受信装置７に伝送し、受信装置７において、口唇の特徴パラメータに基づいて、人の顔の画像を動かしながら、発話データの特徴パラメータに基づいて音声を再生するような場合において、送信装置５から受信装置７に送信する口唇の特徴パラメータのデータ量が少なくて済むようになる。
【００６６】
さらに、図３の実施の形態においては、口唇画素全体の重心（全体重心）を求め、その全体重心に基づき、口唇画素を、上唇画素と下唇画素とに仮に分割し、上重心および下重心を求め、さらに、分割重心を求め、その分割重心に基づき、口唇画素を、最終的な上唇画素と下唇画素とに分割するようにしたので、実際には、上唇を構成する画素が、誤って下唇画素とされたり、逆に、下唇を構成する画素が、誤って上唇画素とされたりするケースを少なくすることができる。即ち、一般には、下唇の表面積が上唇の表面積より広いため、全体重心は、下唇寄りに位置する。その結果、全体重心に基づき、口唇画素を、上唇画素と下唇画素とに分割した場合には、実際には、下唇を構成する画素が、誤って上唇画素とされるケースが多くなる。これに対して、全体重心に基づき、口唇画素を、上唇画素と下唇画素とに仮に分割し、上重心および下重心を求め、さらに、分割重心を求めて、その分割重心に基づき、口唇画素を、最終的な上唇画素と下唇画素とに分割する場合には、分割重心が、上重心寄りに位置することとなるため、下唇を構成する画素が、誤って上唇画素とされるケースを少なくすることができる。
【００６７】
なお、図３の実施の形態では、発話者（ユーザ）の口唇を楕円で近似するようにしたが、その他、例えば、目などの人の顔の、口唇以外の器官も、上述の場合と同様にして、楕円で近似することが可能である。
【００６８】
また、図３の実施の形態では、口唇を、上唇と下唇とに２分割するようにしたが、その他、例えば、さらに、上唇のみを左右に２分割することにより、合計で３分割し、各分割部分を楕円近似したり、上唇および下唇の両方を左右に２分割することにより、合計で４分割し、各分割部分を楕円近似したりすることも可能である。
【００６９】
次に、図１のメディア間正規化部２１は、上述したように、パラメータ化回路１からの各種のデータの特徴パラメータを、同一の重みで扱うことができるように正規化するが、この正規化は、各特徴パラメータに、正規化係数を乗算することで行われるようになされている。そして、その正規化係数は、学習を行うことにより求められるようになされており、図８は、そのような学習を行う学習装置の一実施の形態の構成例を示している。
【００７０】
なお、ここでは、説明を簡単にするために、異なる２つのメディアである画像と音声の特徴パラメータの重みを同一にするための正規化係数を求める学習について説明する。
【００７１】
仮正規化部５１には、ベクトル量子化に用いるコードブックを生成するためのコードベクトル学習パラメータ（コードブック生成データ）としての、画像の特徴パラメータＰ_i,jおよび音声の特徴パラメータＶ_i,j（認識対象とする各音韻について、複数セットの特徴パラメータＰ_i,jおよび音声の特徴パラメータＶ_i,j）が供給されるようになされており、仮正規化部５１は、正規化係数制御部５５からの正規化係数によって、特徴パラメータＰ_i,jおよび音声の特徴パラメータＶ_i,jを、仮に正規化し、コードブック作成部５２に供給するようになされている。即ち、本実施の形態では、例えば、画像の特徴パラメータＰ_i,jの重みを基準とし、その重みに、音声の特徴パラメータＶ_i,jの重みを一致させるために、音声の特徴パラメータＶ_i,jに対して、正規化係数制御部５５からの正規化係数αが乗算される。従って、画像の特徴パラメータＰ_i,jには、正規化係数として１が乗算されると考えることができる。
【００７２】
ここで、特徴パラメータＰ_i,jおよびＶ_i,jの行を表すサフィックスｉは、その特徴パラメータＰ_i,j，Ｖ_i,jが抽出された時刻（時間）を表し、列を表すサフィックスｊは、特徴パラメータＰ_i,j，Ｖ_i,jの次数（次元）を表す（従って、（Ｐ_i,1，Ｐ_i,2，・・・，Ｐ_i,L，Ｖ_i,1，Ｖ_i,2，・・・，Ｖ_i,M）が、ある時刻ｉにおける特徴パラメータ（特徴ベクトル）である）。また、図８では、特徴パラメータＰ_i,jにカッコ付きのサフィックス（ｋ）を付して、Ｐ^(k) _i,jと示してあるが、これは、ｋが異なれば、異なる学習用のデータから生成された特徴パラメータであることを表している。Ｖ^(k) _i,jのサフィックス（ｋ）についても、同様である。
【００７３】
なお、本実施の形態においては、画像の特徴パラメータＰ_i,jとしては、例えば、上述した口唇を近似する楕円の横径、上縦径、下縦径を用いることができ、この場合、特徴パラメータＰ_i,jの次数Ｌは３次となる。また、音声の特徴パラメータＶ_i,jとしては、例えば、８次の線スペクトル対を用いることができ、この場合、特徴パラメータＶ_i,jの次数Ｍは８次となる。
【００７４】
コードブック作成部５２は、仮の正規化がなされた特徴パラメータとしてのコードベクトル学習パラメータＰ_i,jおよびＶ_i,jを用いて、ベクトル量子化部５４におけるベクトル量子化に用いるコードブックを生成し、ベクトル量子化部５４に供給するようになされている。
【００７５】
ここで、コードブック作成部５２は、例えば、ＬＢＧ（Linde, Buzo, Gray）アルゴリズムにしたがって、コードブックを作成するようになされている。
【００７６】
ＬＢＧアルゴリズムは、いわばバッチ型学習アルゴリズムで、学習サンプル（学習データ）としての特徴パラメータと、コードブックを構成するコードベクトル（代表ベクトル）（最初は、適当な初期値が与えられる）との距離に対応して、特徴パラメータ空間を最適分割するボロノイス(Voronois)分割、およびボロノイス分割により得られる、特徴パラメータ空間の各部分領域の重心への、コードベクトルの更新を繰り返し行うことにより、コードブックのコードベクトルを、局所的に最適な位置に収束させるようになっている。
【００７７】
ここで、学習サンプルの集合をｘ_j（ｊ＝０，１，・・・，Ｊ−１）と、コードベクトルの集合をＹ＝｛ｙ₀，ｙ₁，・・・，ｙ_Na-1｝と（Ｎａはコードベクトルの数を表し、任意に設定される）、それぞれするとき、ボロノイス分割では、学習サンプルの集合ｘ_jが、コードベクトルＹの集合によって、Ｎａ個の部分集合Ｓ_i（ｉ＝０，１，・・・，Ｎａ−１）に分割される。即ち、学習サンプルｘ_jとコードベクトルｙ_iとの間の距離をｄ（ｘ_j，ｙ_i）と表した場合、ｉと等しくないｔ（ｔ＝０，１，・・・，Ｎａ−１）すべてについて、式
ｄ（ｘ_j，ｙ_i）＜ｄ（ｘ_j，ｙ_t）
・・・（３）
が成り立つとき、学習サンプルｘ_jは、部分集合Ｓ_iに属する（ｘ_j∈Ｓ_i）とされる。
【００７８】
また、ベクトルｖ₀，ｖ₁，・・・，ｖ_M-1についてのセントロイド（重心）Ｃ（ｖ₀，ｖ₁，・・・，ｖ_M-1）を、式
【数２】

・・・（４）
で定義するとき、コードベクトルの更新では、コードベクトルｙ_iが、式
ｙ_i＝Ｃ（｛Ｓ_i｝）
・・・（５）
にしたがって更新される。
【００７９】
なお、式（４）の右辺ａｒｇｍｉｎ｛｝は、｛｝内の値を最小にするベクトルｖを意味する。また、式（５）による、いわゆるクラスタリング手法は、ｋ平均クラスタリング法（k-means法）と呼ばれる。
【００８０】
また、ＬＢＧアルゴリズムについては、例えば、「音声・画像工学」、中田和男、南敏著、昭晃堂、昭和６２年の第２９ページ乃至第３１ページなどに、その詳細が記載されている。
【００８１】
ここで、図８の実施の形態において、コードブック作成部５２が出力するコードブックの要素Ｓ_i,jおよびＴ_i,jの行を表すサフィックスｉ，ｊは、コード＃ｉに対応するコードベクトルのｊ番目の要素であることを表している。従って、（Ｓ_i,1，Ｓ_i,2，・・・，Ｓ_i,L，Ｔ_i,1，Ｔ_i,2，・・・，Ｔ_i,M）は、コード＃ｉに対応するコードベクトルを表す。また、コードベクトルの要素Ｓ_i,jは、画像に対応しており、要素Ｔ_i,jは、音声に対応している。
【００８２】
仮正規化部５３には、正規化係数αの学習のための正規化係数学習パラメータとしての画像の特徴パラメータＰ_i,jおよび音声の特徴パラメータＶ_i,j（ここでは、コードベクトル学習パラメータとは異なる画像、音声から得られたものとする）が供給されるようになされており、仮正規化部５３は、仮正規化部５１と同様に、正規化係数制御部５５からの正規化係数によって、特徴パラメータＰ_i,jおよび音声の特徴パラメータＶ_i,jを、仮に正規化し、ベクトル量子化部５４に供給するようになされている。即ち、仮正規化部５３は、正規化係数学習パラメータとしての画像の特徴パラメータＰ_i,jと音声の特徴パラメータＶ_i,jのうちの音声の特徴パラメータＶ_i,jに対して、正規化係数制御部５５からの正規化係数αを乗算し、ベクトル量子化部５４に出力するようになされている。
【００８３】
なお、仮正規化部５３には、正規化係数学習パラメータが複数セット供給されるようになされており、仮正規化部５３は、その複数セットの正規化係数学習パラメータそれぞれについて、正規化を行うようになっている。
【００８４】
ベクトル量子化部５４は、コードブック作成部５２からの最新のコードブックを用いて、仮正規化部５３から供給される正規化された正規化係数学習パラメータをベクトル量子化し、そのベクトル量子化による量子化誤差を、正規化係数制御部５５に供給するようになされている。
【００８５】
即ち、ベクトル量子化部５４は、コードブックのコードベクトルそれぞれ（標準パラメータ）と、正規化された正規化係数学習パラメータとの距離（ユークリッド距離）(Euclidean distance)を、画像と音声それぞれについて計算し、その距離のうちの最も短いものを、量子化誤差として、正規化係数制御部５５に供給するようになされている。つまり、正規化された正規化係数学習パラメータのうちの画像の特徴パラメータＰ_i,jと、コードブックにおけるコードベクトルそれぞれの画像に関する要素Ｓ_i,jからなるベクトルとの距離が算出され、その距離の最も短いものが、画像についての量子化誤差として、正規化係数制御部５５に供給されるとともに、正規化された正規化係数学習パラメータのうちの音声の特徴パラメータαＶ_i,jと、コードブックにおけるコードベクトルそれぞれの音声に関する要素Ｔ_i,jからなるベクトルとの距離が算出され、その距離の最も短いものが、音声についての量子化誤差として、正規化係数制御部５５に供給されるようになされている。
【００８６】
正規化係数制御部５５は、ベクトル量子化部５４からの画像と音声についての量子化誤差を、すべての正規化係数学習パラメータに関して、それぞれ累積（積算）し、その画像と音声についての累積値が等しくなるように、仮正規化部５１および５３に供給する正規化係数αを変更するようになされている。
【００８７】
次に、図９のフローチャートを参照して、図８の学習装置が行う処理（正規化係数学習処理）について説明する。
【００８８】
図８の学習装置においては、まず最初に、コードベクトル学習パラメータが仮正規化部５１に供給されるとともに、正規化係数学習パラメータが仮正規化部５３に供給され、正規化係数制御部５５から、正規化係数αの初期値が、仮正規化部５１および５３に供給される。
【００８９】
そして、ステップＳ２１において、仮正規化部５１は、コードベクトル学習パラメータのうちの、音声の特徴パラメータＶ_i,jに対して、正規化係数制御部５５からの正規化係数αを乗算し、これにより、コードベクトル学習パラメータを仮に正規化して、コードブック作成部５２に供給する。
【００９０】
コードブック作成部５２は、仮正規化部５１から、正規化されたコードベクトル学習パラメータを受信すると、ステップＳ２２において、そのコードベクトル学習パラメータを用い、ＬＢＧアルゴリズムにより、ベクトル量子化部５４がベクトル量子化を行うのに用いるコードブックを作成し、ベクトル量子化部５４に供給する。
【００９１】
一方、仮正規化部５３は、ステップＳ２３において、正規化係数学習パラメータのうちの音声の特徴パラメータＶ_i,jに対して、正規化係数制御部５５からの正規化係数αを乗算し、これにより、正規化係数学習パラメータを仮に正規化して、ベクトル量子化部５４に供給する。
【００９２】
ベクトル量子化部５４は、コードブック作成部５２から、最新のコードブックを受信するとともに、仮正規化部５３から、最新の正規化された正規化係数学習パラメータを受信すると、ステップＳ２４において、仮正規化部５３からの正規化係数学習パラメータを、コードブック作成部５２からのコードブックを用い、画像と音声それぞれについてベクトル量子化を行い、それぞれの量子化誤差を、正規化係数制御部５５に供給する。
【００９３】
即ち、ステップＳ２４では、ベクトル量子化部５４は、正規化された正規化係数学習パラメータのうちの画像の特徴パラメータ（画像パラメータ）Ｐ_i,jと、コードベクトルのうちの画像に関する要素Ｓ_i,jからなるベクトルとの距離を算出し、その距離の最も短いものを、画像についての量子化誤差として、正規化係数制御部５５に供給するとともに、正規化された正規化係数学習パラメータのうちの音声の特徴パラメータ（音声パラメータ）αＶ_i,jと、コードベクトルのうちの音声に関する要素Ｔ_i,jからなるベクトルとの距離を算出し、その距離のうち、最も短いものを、音声についての量子化誤差として、正規化係数制御部５５に供給する。
【００９４】
ここで、仮正規化部５３には、上述したように、複数の正規化係数学習パラメータが供給されるため、ベクトル量子化部５４にも、仮正規化された正規化係数学習パラメータが複数セット供給されるが、ベクトル量子化部５４は、その複数の正規化された正規化係数学習パラメータそれぞれについて、順次、上述したような画像および音声についての量子化誤差を求め、正規化係数制御部５５に供給するようになっている。
【００９５】
ステップＳ２４では、さらに、正規化係数制御部５５が、ベクトル量子化部５４から供給される画像と音声についての量子化誤差を、すべての正規化係数学習パラメータについて、それぞれ累積し、それぞれの量子化誤差の累積値Ｄ_PとＤ_Vを求める。この画像と音声についての量子化誤差の累積値Ｄ_PとＤ_Vは、正規化係数制御部５５に供給されて記憶される。
【００９６】
そして、ステップＳ２５に進み、正規化係数制御部５５は、すべてのαに関して、画像と音声についての量子化誤差の累積値Ｄ_PとＤ_Vを求めたかどうかを判定する。即ち、本実施の形態では、例えば、αを、その初期値を０．００１として、０．００１から２．０００までの範囲を、０．００１刻みに変更（ここでは、増加）して、累積値Ｄ_PとＤ_Vを求めることとしており、正規化係数制御部５５は、ステップＳ２５において、そのような範囲のαに関して、画像と音声についての量子化誤差の累積値Ｄ_PとＤ_Vを求めたかどうかを判定する。
【００９７】
ステップＳ２５において、すべてのαに関して、まだ、累積値Ｄ_PとＤ_Vが求められていないと判定された場合、ステップＳ２６に進み、正規化係数制御部５５は、正規化係数αを上述したように変更し、仮正規化部５１および５３に供給する。そして、ステップＳ２１に戻り、以下、変更後の正規化係数αを用いて、同様の処理が繰り返される。
【００９８】
一方、ステップＳ２５において、すべてのαに関して、累積値Ｄ_PとＤ_Vが求められたと判定された場合、ステップＳ２７に進み、正規化係数制御部５５は、ステップＳ２４で記憶した各値のαに関する画像についての量子化誤差Ｄ_Pと、音声についての量子化誤差Ｄ_Vとの差分の絶対値｜Ｄ_P−Ｄ_V｜を計算する。さらに、正規化係数制御部５５は、各値のαに関する差分絶対値｜Ｄ_P−Ｄ_V｜の最小値を与えるα、即ち、理想的には、画像についての量子化誤差Ｄ_Pと、音声についての量子化誤差Ｄ_Vとが同一になる場合のαを検出する。そして、ステップＳ２８に進み、正規化係数制御部５５は、その最小の絶対値｜Ｄ_P−Ｄ_V｜を与える正規化係数αを、画像と音声の特徴パラメータを、同一の重みで扱うことができるように正規化することのできるものとして出力し、処理を終了する。
【００９９】
以上のように、画像と音声の特徴パラメータからなる統合パラメータであるコードベクトル学習パラメータを正規化し、その正規化されたコードベクトル学習パラメータを用いて、コードブックを生成する一方、画像と音声の特徴パラメータからなる統合パラメータである正規化係数学習パラメータを仮に正規化し、その正規化された正規化係数学習パラメータのうちの画像または音声の特徴パラメータそれぞれについて、生成されたコードブックを用いてベクトル量子化を行うことにより、量子化誤差の累積値を求め、その累積値どうしが等しくなるように、正規化係数を変更するようにしたので、画像と音声などといった異なるメディアの特徴パラメータを、同等の重みで扱うことができるように正規化を行うことができる正規化係数を求めることができる。
【０１００】
その結果、例えば、音声から抽出した特徴パラメータと、口唇の画像から抽出した特徴パラメータとを、正規化係数によって正規化し、さらに、それらを統合して、統合パラメータとし、この統合パラメータを用いて、音声の認識を行う場合においては、音声または画像のうちのいずれか一方の影響を強く受けることにより、認識率の向上の妨げられることを防止することが可能となる。
【０１０１】
さらに、統合パラメータを構成する各メディアの特徴パラメータが、認識率に与える影響の検証を、容易に行うことが可能となる。
【０１０２】
なお、図８の実施の形態では、画像と音声の２種類の特徴パラメータの重みを同一にするための正規化係数αを求める学習について説明したが、３種類以上の特徴パラメータ、あるいは、画像や音声の他のメディアの特徴パラメータの重みを同一にするための正規化係数を求める学習も、同様に行うことが可能である。
【０１０３】
また、上述した正規化係数の学習方法は、特徴パラメータの種類や次元に依存するものではないため、特徴パラメータの種類や次元に関係なく適用可能である。
【０１０４】
次に、図１０は、図１の距離推移方式マッチング部３１の構成例を示している。
【０１０５】
時間軸正規化部６１には、統合パラメータ生成回路２（図１）から、例えば、ある単語が発話されたときの統合パラメータが時系列に供給されるようになされており、時間軸正規化部６１は、その時系列の統合パラメータの時間軸正規化を行うようになされている。
【０１０６】
即ち、ある単語が発話されたときの発話時間をｔとすると、その単語の発話による統合パラメータのある要素の時間変化は、例えば、図１１（Ａ）に示すようになるが、図１１（Ａ）における発話時間ｔは、同一人による同一単語の発話であっても、発話ごとに変動する。そこで、時間軸正規化部６１は、発話時間ｔが、図１１（Ｂ）に示すように、一律に、時間Ｔ_Cとなるように、時間軸正規化を行うようになされている。なお、例えば、いま、図１の音声認識装置において、単語認識を行うものとすると、時間Ｔ_Cは、認識対象の単語を発話したときの一般的な発話時間よりも十分長い時間に設定されている。従って、時間軸正規化部６１では、図１１（Ａ）に示した時系列の統合パラメータが、いわば時間軸方向に間延びしたように変更される。なお、時間軸正規化の手法は、これに限定されるものではない。
【０１０７】
時間軸正規化後の統合パラメータは、時間軸正規化部６１からベクトル量子化部６２に供給されるようになされている。ベクトル量子化部６２は、コードブック記憶部６３に記憶されたコードブックを用いて、時間軸正規化された時系列の統合パラメータを、順次、ベクトル量子化し、そのベクトル量子化結果としてのコード、即ち、統合パラメータとの距離が最も近いコードベクトルに対応するコードを、順次、距離計算部６４に供給するようになされている。
【０１０８】
コードブック記憶部６３は、ベクトル量子化部６２がベクトル量子化に用いるコードブックを記憶している。
【０１０９】
距離計算部６４は、距離推移モデル記憶部６５に記憶されている、認識対象の単語の距離推移モデルから、ベクトル量子化部６２が出力するコードの系列が観測されるときの、コードベクトルとの距離を、時間ごとに累積し、その累積値を、ソート部６６に供給するようになされている。
【０１１０】
距離推移モデル記憶部６５は、例えば、図１２に示すような、認識対象の単語の時系列の統合パラメータ（標準系列）と、コードブック記憶部６３に記憶されたコードブックの各コードベクトルとの間の距離の推移を表す距離推移モデルを記憶している。即ち、距離推移モデル記憶部６５は、後述する学習により得られる、図１２に示したような距離推移モデルを、認識対象とされている単語それぞれについて記憶している。
【０１１１】
なお、図１２の実施の形態では、コードブック記憶部６３に記憶されたコードブックが、Ｊ＋１個のコードベクトルＣ₀乃至Ｃ_Jを有するものとしてある。また、図１２（Ａ）は、距離推移モデルをグラフで、図１２（Ｂ）は、距離推移モデルを表で、それぞれ表している。ここで、図１２（Ｂ）の表において、コードベクトルＣ_jの行に注目すれば、その行に記載した各時刻ｔ₀，ｔ₁，ｔ₂，・・・における距離Ｄ_cjt0，Ｄ_cjt1，Ｄ_cjt2，・・・が図１２（Ａ）のグラフにおけるコードベクトルＣ_jに対する距離の推移を表す。
【０１１２】
ソート部６６は、距離計算部６４から供給される、認識対象の各単語の距離推移モデルについての距離の累積値のうち、その値が小さいものから、上位Ｎｂ個を選択し（Ｎｂは自然数）、統合パラメータと距離推移モデルとのマッチング結果として、判定回路４に出力するようになされている。
【０１１３】
以上のように構成される距離推移方式マッチング部３１では、距離推移方式によるマッチングが行われるようになされており、この距離推移方式によるマッチング処理について、図１３のフローチャートを参照して説明する。
【０１１４】
時間軸正規化部６１は、統合パラメータ生成回路２から、ある単語の発話に対応する時系列の統合パラメータを受信すると、ステップＳ３１において、その時系列の統合パラメータを時間軸正規化し、ベクトル量子化部６２に出力する。ベクトル量子化部６２は、ステップＳ３２において、コードブック記憶部６３に記憶されたコードブックを参照することで、時間軸正規化部６１からの時系列の統合パラメータを、順次、ベクトル量子化し、そのベクトル量子化結果としての、統合パラメータとの距離を最も短くするコードベクトルに対応するコードの系列を、順次、距離計算部６４に供給する。
【０１１５】
距離計算部６４は、ステップＳ３３において、距離推移モデル記憶部６５に記憶されている、認識対象の単語の距離推移モデルから、ベクトル量子化部６２が出力するコードの系列が観測されるときの、コードベクトルとの距離を累積する。
【０１１６】
即ち、ベクトル量子化部６２が出力するコードの系列のうち、時刻ｔのコードをｓ_t（ｔ＝０，１，・・・，Ｔ_C）と表すと、距離計算部６４は、ベクトル量子化部６２が最初に出力するコードｓ₀に対応するコードベクトルＣ_j（ｊ＝０，１，・・・，Ｊ）についての、時刻＃０における距離を、距離推移モデルを参照することで求める。具体的には、例えば、コードｓ₀に対応するコードベクトルがＣ₀である場合には、図１２において、コードベクトルＣ₀からの距離の推移を表している曲線上の、時刻＃０における距離が求められる。
【０１１７】
さらに、距離計算部６４は、ベクトル量子化部６２が２番目に出力するコードｓ₁に対応するコードベクトルＣ_jとの、時刻＃１における距離を、距離推移モデルを参照することで求める。以下、同様にして、距離計算部６４は、ベクトル量子化部６２が最後に出力するコードｓ_TCに対応するコードベクトルＣ_jとの、時刻＃Ｔ_Cにおける距離までを、距離推移モデルを参照することで、順次求めていき、それらの距離の累積値を計算する。
【０１１８】
従って、ベクトル量子化部６２が、時刻＃０，＃１，＃２，・・・において、例えば、コードＳ₀，Ｓ₀，Ｓ₁，・・・を出力する場合には、コードＳ₀に対応するコードベクトルＣ₀との、時刻＃０における距離Ｄ_c0t0、コードＳ₀に対応するコードベクトルＣ₀との、時刻＃１における距離Ｄ_c0t1、コードＳ₁に対応するコードベクトルＣ₁との、時刻＃２における距離Ｄ_c1T2，・・・の加算値が、累積値として求められる。
【０１１９】
そして、距離計算部６４は、距離推移モデル記憶部６５に記憶されたすべての距離推移モデルそれぞれについて、距離の累積値を計算すると、それらの距離の累積値を、ソート部６６に出力し、ステップＳ３４に進む。
【０１２０】
ステップＳ３４では、ソート部６６において、距離計算部６４からの、認識対象の各単語の距離推移モデルについての距離の累積値のうち、その値が小さいものから、上位Ｎｂ個が選択され、ステップＳ３５に進み、統合パラメータと距離推移モデルとのマッチング結果として、判定回路４に出力され、処理を終了する。
【０１２１】
次に、図１４は、図１０の距離推移モデル記憶部６５に記憶させる距離推移モデルを求める学習を行う学習装置の一実施の形態の構成例を示している。
【０１２２】
時間軸正規化部７１には、距離推移モデルを求める学習を行うのに用いる時系列の学習統合パラメータが供給されるようになされており、時間軸正規化部７１は、図１０の時間軸正規化部６１と同様に、学習統合パラメータを時間軸正規化し、距離計算部７２に供給するようになされている。
【０１２３】
ここで、時間軸正規化部７１には、例えば、ある単語の距離推移モデルを求めるための時系列の学習統合パラメータが複数セット供給されるようになされており、時間軸正規化部７１は、その複数セットの学習統合パラメータそれぞれについて時間軸正規化を行い、それらを１の学習統合パラメータにまとめて出力するようになされている。即ち、時間軸正規化部７１には、例えば、図１５（Ａ）に示すように、ある単語について、継続時間が必ずしも同一でない複数（図１５においては、Ｎｃ個）の学習統合パラメータが供給されるようになされており、時間軸正規化部７１は、その複数の学習統合パラメータの継続時間が、図１５（Ｂ）に示すように、いずれも時間Ｔ_Cとなるように時間軸正規化を行う。そして、時間軸正規化部７１は、図１５（Ｃ）に示すように、時間軸正規化を行った複数の学習統合パラメータの、同一時刻のサンプル値どうしの、例えば、平均値を計算し、その平均値を、各時刻におけるサンプル値とする１つの学習統合パラメータを生成する。
【０１２４】
なお、複数の学習統合パラメータを、１つの学習統合パラメータにまとめる方法は、これに限定されるものではない。また、ある単語の距離推移モデルを求めるための時系列の学習統合パラメータが１つだけしか用意されていない場合には、時間軸正規化部７１は、その１つの学習統合パラメータを時間軸正規化して、そのまま出力するようになされている。
【０１２５】
距離計算部７２は、図１６に示すように、コードブック記憶部７３に記憶されたコードブックの各コードベクトルと、時間軸正規化部７１から供給される時系列の学習統合パラメータとの距離を、順次計算し、その距離の推移、即ち、時間軸正規化された、時刻＃０乃至＃Ｔ_Cまでの学習統合パラメータと、各コードベクトルとの距離の推移を、多項式表現化部７４に供給するようになされている。
【０１２６】
コードブック記憶部７３は、図１０のコードブック記憶部６３に記憶されているコードブックと同一のコードブックを記憶している。なお、コードブック記憶部６３および７３におけるコードブックは、コードブック作成部５２（図８）が作成したものと同一のものであっても良いし、異なるものであっても良い。
【０１２７】
多項式表現化部７４は、距離計算部７２から供給されるコードベクトルとの間の距離の推移を近似する多項式を求め、距離推移モデルとして出力するようになされている。即ち、多項式表現化部７４では、図１６に示したような距離の推移が、図１２に示したような多項式で表される曲線で近似されるようになされている。
【０１２８】
次に、図１７のフローチャートを参照して、図１４の学習装置の処理について説明する。
【０１２９】
時間軸正規化部７１に対しては、ある単語の距離推移モデルを求めるための時系列の学習統合パラメータが複数セット供給され、時間軸正規化部７１は、ステップＳ４１において、その複数セットの学習統合パラメータそれぞれについて時間軸正規化を行い、それらを１の学習統合パラメータにまとめて、距離計算部７２に出力する。距離計算部７２は、ステップＳ４２において、図１６に示したような、コードブック記憶部７３に記憶されたコードブックの各コードベクトルと、時間軸正規化部７１から供給される時系列の学習統合パラメータとの距離を、順次計算し、その距離の推移を、多項式表現化部７４に供給する。
【０１３０】
多項式表現化部７４では、ステップＳ４３において、距離計算部７２から供給される、学習統合パラメータ（標準系列）とコードベクトルとの間の距離の推移を近似するＮｄ次の多項式が、例えば、最小二乗法により求められる。
【０１３１】
即ち、時刻ｔにおける学習統合パラメータと、コードベクトルＣ_jとの間の距離を近似するＮｄ次の多項式ｆ_j（ｔ）は、次のように表すことができる。
【０１３２】
ｆ_j（ｔ）＝ａ_j0＋ａ_j1ｔ¹＋ａ_j2ｔ²＋・・・＋ａ_jNdｔ^Nd
・・・（６）
【０１３３】
従って、距離計算部７２において求められた、時刻ｔにおける学習統合パラメータと、コードベクトルＣ_jとの間の距離ｆ_j（ｔ）を用いて、次式を解くことで、最小二乗法により、式（６）を規定する係数ａ_j0，ａ_j1，ａ_j2，・・・，ａ_jNdを求めることができる。
【０１３４】
【数３】

・・・（７）
【０１３５】
多項式表現化部７４は、式（７）を、コードベクトルＣ₀，Ｃ₁，・・・，Ｃ_Jそれぞれについて解くことで、次式に示すような、学習統合パラメータと、コードベクトルＣ₀，Ｃ₁，・・・，Ｃ_Jそれぞれとの間の距離の推移を近似するＮｄ次の多項式ｆ_j（ｔ）を規定する係数のセットＡを求める。
【０１３６】
【数４】

・・・（８）
【０１３７】
その後、ステップＳ４４に進み、多項式表現化部７４は、式（８）の係数のセットＡで近似される距離の推移と、図１６に示したような実際の距離の推移との二乗誤差の、各コードベクトルＣ_jについての累積値を求め、係数のセットＡとともに記憶して、ステップＳ４５に進む。ステップＳ４５では、多項式表現部７４は、あらかじめ用意された範囲のすべての次数Ｎｄについて、上述したような二乗誤差の累積値を求めたかどうかを判定する。ステップＳ４５において、あらかじめ用意された範囲のすべての次数Ｎｄについて、まだ、二乗誤差の累積値を求めていないと判定された場合、ステップＳ４６に進み、多項式表現化部７４は、式（６）に示した多項式ｆ_j（ｔ）の次数Ｎｄを、まだ二乗誤差の累積値を求めていない値に変更する。そして、ステップＳ４３に戻り、変更後の次数Ｎｄについて、以下、同様の処理が繰り返される。
【０１３８】
また、ステップＳ４５において、あらかじめ用意された範囲のすべての次数Ｎｄについて、二乗誤差の累積値を求めたと判定された場合、ステップＳ４７に進み、多項式表現化部７４は、ステップＳ４４で記憶した、あらかじめ用意された範囲のすべての次数Ｎｄについての距離の推移の二乗誤差の累積値のうちの最小値を検出し、その最小値とともに記憶している、多項式ｆ_j（ｔ）を規定する係数のセットＡを、単語の距離推移モデルとして出力して、処理を終了する。
【０１３９】
なお、以上の処理は、認識対象の各単語についてそれぞれ行われる。
【０１４０】
以上のように、時系列の学習統合パラメータについて、時間軸の正規化を行い、その時間軸正規化された学習統合パラメータ（標準系列）と、コードベクトルとの間の距離を算出し、その距離の推移を表す距離推移モデルを求めるようにしたので、認識対象が有する本来の状態数や状態遷移の形態に沿うモデルを得ることができる。従って、そのような距離推移モデルによれば、認識対象の定常状態や過渡状態が正確に表現され、その結果、認識率を向上させることができる。
【０１４１】
また、距離の推移を、多項式で近似するようにしたので、その多項式を規定する係数だけで、即ち、少ないデータ量で、距離の推移を表現することができる。
【０１４２】
さらに、距離の推移を近似する多項式の次数Ｎｄを、二乗誤差の累積値が最小になるように決定するようにしたので、その多項式により、精度良く、距離の推移を表現することができる。
【０１４３】
なお、図１４では、統合パラメータを、学習用のデータとして用いるようにしたが、単一の特徴パラメータで認識を行う場合には、その単一の特徴パラメータを、学習用のデータとして用いて、学習を行えば良い。
【０１４４】
また、上述した距離推移モデルの学習方法は、特徴パラメータの種類や次元に依存するものではないため、特徴パラメータの種類や次元に関係なく適用可能である。
【０１４５】
さらに、上述の場合には、図１６に示したような実際の距離の推移を、図１２に示したように多項式で近似された距離推移モデルを用いてマッチングを行うようにしたが、マッチングは、図１６に示したような実際の距離の推移をそのまま距離推移モデルとして用いて行うことも可能である。
【０１４６】
次に、図１８は、図１の空間分布方式マッチング部３２の構成例を示している。
【０１４７】
ベクトル量子化部８１には、図１の統合パラメータ生成回路２から統合パラメータが時系列に供給されるようになされており、ベクトル量子化部８１は、その時系列の統合パラメータを、コードブック記憶部８２に記憶されたコードブックを用いてベクトル量子化し、そのベクトル量子化結果としてのコードの系列を、順次、カイ二乗（χ²）検定部８３に供給するようになされている。
【０１４８】
コードブック記憶部８２は、ベクトル量子化部８１におけるベクトル量子化に用いられるコードブックを記憶している。
【０１４９】
カイ二乗検定部８３は、期待度数記憶部８４を参照し、ベクトル量子化部８１からのコード系列の空間分布が、認識対象の単語が発話されたときに得られるコード系列の空間分布に類似しているかどうか、即ち、ベクトル量子化部８１に供給された統合パラメータが、認識対象の単語に対応するものであるかどうかの適正さを、カイ二乗検定(Hi Square Test)を行うことにより求め、ソート部８５に供給するようになされている。
【０１５０】
期待度数記憶部８４は、コードブック記憶部８２に記憶されたコードブックのコードベクトルに対応する各コードについて、認識対象の単語に対応する統合パラメータが入力されたときに観測される（ベクトル量子化部８１に供給されたときに、そこから出力される）期待度数を記憶している。
【０１５１】
ソート部８５は、カイ二乗検定部８３から供給される、入力された統合パラメータが認識対象の単語に対応するものであるかどうかの適正さに基づいて、適正さが上位Ｎｂ個となる単語を選択し、空間分布方式によるマッチング結果として、判定回路４（図１）に出力するようになされている。
【０１５２】
以上のように構成される空間分布マッチング部３２では、空間分布方式によるマッチングが行われるようになされており、この空間分布方式によるマッチング処理について、図１９のフローチャートを参照して説明する。
【０１５３】
認識すべき統合パラメータは、時系列に、ベクトル量子化部８１に供給され、ベクトル量子化部８１は、ステップＳ５１において、時系列の統合パラメータを、順次ベクトル量子化し、そのベクトル量子化結果としてのコードの系列を、カイ二乗検定部８３に供給する。
【０１５４】
カイ二乗検定部８３は、ステップＳ５２において、ベクトル量子化部８１からのコード系列の空間分布を求める。即ち、カイ二乗検定部８３は、ベクトル量子化部８１からのコード系列において、各コードが観測される回数（以下、適宜、観測度数という）をカウントする。そして、ステップＳ５３に進み、カイ二乗検定部８３は、各コードの観測度数と、期待度数記憶部８４に記憶された、認識対象の単語の発話がなされたときに観測されることが期待される各コードの回数である期待度数とを用いてカイ二乗検定を行うことにより、入力された統合パラメータについての各コードの観測度数が、認識対象の単語についての各コードの期待度数に類似している度合い（以下、適宜、類似度という）を求め、ソート部８５に供給する。
【０１５５】
即ち、カイ二乗検定部８３は、あるコード＃ｊの観測度数をＦ_jと表すとともに、ある単語Ｗのあるコード＃ｊの期待度数をｆ_jと表すと、次式に示すχ²（カイ二乗）を計算し、例えば、その逆数を、単語Ｗに対する類似度として、ソート部８５に供給する。
【０１５６】
【数５】

・・・（９）
【０１５７】
なお、式（９）に示したχ²は、入力された統合パラメータについての各コードの観測度数が、認識対象の単語についての各コードの期待度数に類似しているほど小さくなる。従って、その逆数である類似度は、入力された統合パラメータについての各コードの観測度数が、認識対象の単語についての各コードの期待度数に類似しているほど大きくなる。
【０１５８】
ソート部８５は、カイ二乗検定部８３から、認識対象の単語すべてについての類似度を受信すると、ステップＳ５４において、そのうちの類似度の高い上位Ｎｂ個を選択し、ステップＳ５５に進み、空間分布方式によるマッチング結果として、判定回路４に出力して、処理を終了する。
【０１５９】
以上のような空間分布方式によるマッチングによれば、統合パラメータ空間における、入力された統合パラメータの分布状態と、認識対象の単語の統合パラメータの分布状態との類似性が、カイ二乗検定により求められるため、その類似性は、入力された音声の時間的変動に影響を受けない。即ち、入力された音声の時間（音声区間の長さ）は、カイ二乗検定に用いる観測度数に影響するが、各コードの観測度数それぞれが、音声区間の長さに比例した値だけ増減すると予測されるため、カイ二乗検定結果は影響を受けない。従って、音声が有する時間成分を考慮せずに認識を行うことができ、その結果、認識率を向上させることが可能となる。
【０１６０】
次に、図２０は、図１８の期待度数記憶部８４に記憶されている認識対象の各単語についての各コードの期待度数を求める学習を行う学習装置の一実施の形態の構成例を示している。
【０１６１】
ベクトル量子化部９１には、認識対象の単語について、期待度数の学習を行うための時系列の学習統合パラメータが供給されるようになされており、ベクトル量子化部９１は、時系列の学習統合パラメータを、コードブック記憶部９２に記憶されたコードブックを用いてベクトル量子化し、そのベクトル量子化結果としてのコードの系列を、期待度数算出部９３に供給するようになされている。
【０１６２】
コードブック記憶部９２は、図１８のコードブック記憶部８２が記憶しているコードブックと同一のコードブックを記憶している。なお、コードブック記憶部８２および９２におけるコードブックは、コードブック作成部５２（図８）が作成したものと同一のものであっても良いし、異なるものであっても良い。
【０１６３】
期待度数算出部９３は、ベクトル量子化部９１からのコードの系列において、各コードが観測される回数をカウントするようになされている。
【０１６４】
次に、図２１のフローチャートを参照して、図２０の学習装置の処理について説明する。
【０１６５】
ベクトル量子化部９１には、認識対象の１の単語について、例えば、複数の時系列の学習統合パラメータ（異なる話者が発話したり、同一の話者が複数回発話して得られたもの）が供給されるようになされており、ステップＳ６１では、その統合パラメータの数をカウントするための変数ｉが、例えば、１に初期化され、ステップＳ６２に進む。
【０１６６】
ステップＳ６２では、複数の学習統合パラメータのうちの最初の学習統合パラメータが、ベクトル量子化部９１に供給され、ベクトル量子化部９１は、その学習統合パラメータをベクトル量子化する。そのベクトル量子化の結果得られるコードの系列は、期待度数算出部９３に供給され、ステップＳ６３に進む。
【０１６７】
ステップＳ６３では、ベクトル量子化部９１からのコードの系列において、各コードが観測される回数が積算され、これにより各コードの観測度数が求められる。そして、ステップＳ６４に進み、まだ、次に処理すべき学習統合パラメータがあるかどうかが判定され、あると判定された場合、ステップＳ６５に進み、変数ｉが１だけインクリメントされる。そして、ステップＳ６２に進み、その次に処理すべき学習統合パラメータを対象に、同様の処理が繰り返される。即ち、これにより、ある単語についての複数の学習統合パラメータから観測される各コードの観測度数が積算されていく。
【０１６８】
一方、ステップＳ６４において、次に処理すべき学習統合パラメータがないと判定された場合、ステップＳ６６に進み、各コードの観測度数の積算値が、例えば、変数ｉで除算され、即ち、ある単語についての複数の学習統合パラメータから観測される各コードの観測度数の平均値が求められ、その各コードの観測度数の平均値が、その単語についての各コードの期待度数として出力されて、処理を終了する。
【０１６９】
なお、図２１の処理は、認識対象の単語それぞれについて行われる。
【０１７０】
次に、図２２は、図１の判定回路４の構成例を示している。
【０１７１】
スコア算出部１０１には、距離推移方式マッチング部３１が出力する、距離推移方式による上位Ｎｂ個のマッチング結果が供給されるようになっており、スコア算出部１０２には、空間分布方式マッチング部３２が出力する、空間分布方式による上位Ｎｂ個のマッチング結果が供給されるようになっている。スコア算出部１０１は、距離推移方式による上位Ｎｂ個のマッチング結果に対して、その順位の高い順に、高いスコアを付し、スコア加算部１０３に出力するようになっている。スコア算出部１０２は、空間分布方式による上位Ｎｂ個のマッチング結果に対して、その順位の高い順に、高いスコアを付し、スコア加算部１０３に出力するようになっている。
【０１７２】
スコア加算部１０３は、スコア算出部１０１と１０２それぞれからの上位Ｎｂ個のマッチング結果の中から、同一単語のマッチング結果どうしのスコアを加算し、その加算値を、最大スコア検出部１０４に供給するようになっている。
【０１７３】
最大スコア検出部１０４は、スコア加算部１０３から供給されるスコアのうちの最大値を検出し、その最大のスコアを与える単語を、最終的な音声認識結果として出力するようになっている。
【０１７４】
次に、図２３のフローチャートを参照して、図２２の判定回路４の処理について説明する。
【０１７５】
スコア算出部１０１に対して、距離推移方式マッチング部３１から、距離推移方式による上位Ｎｂ個のマッチング結果が供給されるとともに、スコア算出部１０２に対して、空間分布方式マッチング部３２から、空間分布方式による上位Ｎｂ個のマッチング結果が供給されると、ステップＳ７１において、スコア算出部１０１は、距離推移方式による上位Ｎｂ個のマッチング結果に対して、その順位の高い順に、高いスコアを付し、スコア加算部１０３に出力するとともに、スコア算出部１０２は、空間分布方式による上位Ｎｂ個のマッチング結果に対して、その順位の高い順に、高いスコアを付し、スコア加算部１０３に出力する。
【０１７６】
ここで、マッチング結果に対して付すスコアは、例えば、マッチング結果の順位に対して線形に変化する値であっても良いし、非線形に変化する値であっても良い。
【０１７７】
スコア加算部１０３は、ステップＳ７２において、スコア算出部１０１と１０２それぞれからの上位Ｎｂ個のマッチング結果の中から、同一単語のマッチング結果どうしのスコアを加算し、その加算値を、最大スコア検出部１０４に出力する。なお、スコア加算部１０３は、スコア算出部１０１と１０２それぞれからの上位Ｎｂ個のマッチング結果のいずれか一方にしか含まれない単語については、その単語に付されたスコアを、そのまま最大スコア検出部１０４に供給する。
【０１７８】
最大スコア検出部１０４は、ステップＳ７３において、スコア加算部１０３から供給されるスコアのうちの最大値を検出し、その最大のスコアを与える単語を、最終的な音声認識結果として出力して、処理を終了する。
【０１７９】
次に、上述した一連の処理を行う、各ブロック図で表される装置は、専用のハードウェアにより実現することもできるし、ソフトウェアにより実現することもできる。ソフトウェアによって実現する場合には（この場合、上述した各ブロック図は、機能ブロックを表している図であるということができる）、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【０１８０】
そこで、図２４は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【０１８１】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク２０５やＲＯＭ２０３に予め記録しておくことができる。
【０１８２】
あるいはまた、プログラムは、フロッピーディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体２１１に、一時的あるいは永続的に格納（記録）しておくことができる。このようなリムーバブル記録媒体２１１は、いわゆるパッケージソフトウエアとして提供することができる。
【０１８３】
なお、プログラムは、上述したようなリムーバブル記録媒体２１１からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部２０８で受信し、内蔵するハードディスク２０５にインストールすることができる。
【０１８４】
コンピュータは、CPU(Central Processing Unit)２０２を内蔵している。CPU２０２には、バス２０１を介して、入出力インタフェース１２０が接続されており、CPU２０２は、入出力インタフェース１２０を介して、ユーザによって、キーボードやマウス等で構成される入力部２０７が操作されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)２０３に格納されているプログラムを実行する。あるいは、また、CPU２０２は、ハードディスク２０５に格納されているプログラム、衛星若しくはネットワークから転送され、通信部２０８で受信されてハードディスク２０５にインストールされたプログラム、またはドライブ２０９に装着されたリムーバブル記録媒体２１１から読み出されてハードディスク２０５にインストールされたプログラムを、RAM(Random Access Memory)２０４にロードして実行する。これにより、CPU２０２は、上述したフローチャートにしたがった各種の処理を実行する。そして、CPU２０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１２０を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部２０６から出力、あるいは、通信部２０８から送信、さらには、ハードディスク２０５に記録等させる。
【０１８５】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むものである。
【０１８６】
また、プログラムは、１のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【０１８７】
以上、本発明を適用した音声認識装置について説明したが、本発明は、その他、例えば、話者や、画像その他を認識する装置などにも適用可能である。
【０１８８】
【発明の効果】
本発明の第１の側面によれば、距離推移モデルにより、認識対象の定常状態や過渡状態が正確に表現されるようになる。
【０１８９】
本発明の第２の側面によれば、認識率を向上させることが可能となる。
【０１９０】
本発明の第３の側面によれば、認識率を向上させることが可能となる。
【図面の簡単な説明】
【図１】本発明を適用した音声認識装置の一実施の形態の構成例を示すブロック図である。
【図２】図１の音声認識装置の処理を説明するためのフローチャートである。
【図３】図１の処理部１１₁の一実施の形態の構成例を示すブロック図である。
【図４】図３の処理部１１₁の処理を説明するためのフローチャートである。
【図５】全体重心、上重心、下重心、分割重心を示す図である。
【図６】図３の楕円近似部４８Ｕおよび４８Ｄの処理を説明するための図である。
【図７】図３の口唇パラメータ出力部４９が出力する口唇の特徴パラメータを説明するための図である。
【図８】図１のメディア間正規化部２１が用いる正規化係数の学習を行う学習装置の一実施の形態の構成例を示すブロック図である。
【図９】図８の学習装置の処理を説明するためのフローチャートである。
【図１０】図１の距離推移方式マッチング部３１の一実施の形態の構成例を示すブロック図である。
【図１１】図１０の時間軸正規化部６１の処理を説明するための図である。
【図１２】図１０の距離推移モデル記憶部６５に記憶されている距離推移モデルを説明するための図である。
【図１３】図１０の距離推移方式マッチング部３１の処理を説明するためのフローチャートである。
【図１４】距離推移モデルを求める学習を行う学習装置の一実施の形態の構成例を示すブロック図である。
【図１５】図１４の時間軸正規化部７１の処理を説明するための図である。
【図１６】図１４の距離計算部７２が出力する距離の推移を示す図である。
【図１７】図１４の学習装置の処理を説明するためのフローチャートである。
【図１８】図１の空間分布方式マッチング部３２の一実施の形態の構成例を示すブロック図である。
【図１９】図１８の空間分布方式マッチング部３２の処理を説明するためのフローチャートである。
【図２０】図１８の期待度数記憶部８４に記憶されている期待度数を求める学習を行う学習装置の一実施の形態の構成例を示すブロック図である。
【図２１】図２０の学習装置の処理を説明するためのフローチャートである。
【図２２】図１の判定回路４の構成例を示すブロック図である。
【図２３】図２２の判定回路４の処理を説明するためのフローチャートである。
【図２４】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
１パラメータ化回路，２統合パラメータ生成回路，３マッチング回路，４判定回路，１１₁乃至１１_N 処理部，２１メディア間正規化部，２２統合パラメータ生成部，３１距離推移方式マッチング部，３２空間分布方式マッチング部，４１ＹＩＱ変換部，４２Ｑ成分抽出部，４３全体重心算出部，４４上重心／下重心算出部，４５分割重心算出部，４６分割部，４７Ｕ，４７Ｄミラー領域生成部，４８Ｕ，４８Ｄ楕円近似部，４９口唇パラメータ出力部，５１仮正規化部，５２コードブック作成部，５３仮正規化部，５４ベクトル量子化部，５５正規化係数制御部，６１時間軸正規化部，６２ベクトル量子化部，６３コードブック記憶部，６４距離計算部，６５距離推移モデル記憶部，６６ソート部，７１時間軸正規化部，７２距離計算部，７３コードブック記憶部，７４多項式表現化部，８１ベクトル量子化部，８２コードブック記憶部，８３カイ二乗検定部，８４期待度数記憶部，８５ソート部，９１ベクトル量子化部，９２コードブック記憶部，９３期待度数算出部，１０１，１０２スコア算出部，１０３スコア加算部，１０４最大スコア検出部，２０１バス，２０２ CPU，２０３ ROM，２０４ RAM，２０５ハードディスク，２０６出力部，２０７入力部，２０８通信部，２０９ドライブ，１２０入出力インタフェース，２１１リムーバブル記録媒体

Claims

所定の標準系列と、ベクトル量子化に用いられるコードベクトルとの間の距離の推移を表す距離推移モデルを求めるための学習を行う学習装置であって、
時系列の学習データについて、時間軸の正規化を行い、前記標準系列を出力する正規化手段と、
前記標準系列と、前記コードベクトルとの間の距離を算出し、その距離の推移を出力する距離算出手段と、
前記距離の推移を多項式で近似する近似手段と
を備え、
前記近似手段は、前記コードブックのコードベクトルのうち、前記標準系列との距離を最小にするものとの距離の累積値が最小となるように、前記多項式の次数を決定する
学習装置。
所定の標準系列と、ベクトル量子化に用いられるコードベクトルとの間の距離の推移を表す距離推移モデルを求めるための学習を行う学習方法であって、
時系列の学習データについて、時間軸の正規化を行い、前記標準系列を出力し、
前記標準系列と、前記コードベクトルとの間の距離を算出し、その距離の推移を出力し、
前記距離の推移を多項式で近似する
ステップを含み、
前記コードブックのコードベクトルのうち、前記標準系列との距離を最小にするものとの距離の累積値が最小となるように、前記多項式の次数を決定する
学習方法。
所定の標準系列と、ベクトル量子化に用いられるコードベクトルとの間の距離の推移を表す距離推移モデルを求めるための学習を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
時系列の学習データについて、時間軸の正規化を行い、前記標準系列を出力する正規化手段と、
前記標準系列と、前記コードベクトルとの間の距離を算出し、その距離の推移を出力する距離算出手段と、
前記距離の推移を多項式で近似する近似手段と
して、コンピュータを機能させるためのプログラムであり、
前記近似手段は、前記コードブックのコードベクトルのうち、前記標準系列との距離を最小にするものとの距離の累積値が最小となるように、前記多項式の次数を決定する
プログラムが記録されている記録媒体。
時系列の入力データが所定の認識対象に一致するか否かを認識する認識装置であって、
複数のコードベクトルと、各コードベクトルを示す識別子とからなるコードブックを記憶しているコードブック記憶手段と、
所定の標準系列と、前記コードブックの各コードベクトルとの間の距離の推移を表す、少なくとも１つの認識対象に対応した距離推移モデルを記憶しているモデル記憶手段と、
前記時系列の入力データを、前記コードブックを用いてベクトル量子化し、前記識別子の系列を出力するベクトル量子化手段と、
前記距離推移モデルと、前記入力データについての識別子の系列とに基づいて、前記入力データが所定の認識対象に一致するか否かを認識する認識手段と
を備え、
前記認識手段は、前記識別子の系列と前記距離推移モデルとに基づいて、前記識別子ごとの距離を累積し、その累積された距離に基づいて、前記入力データが所定の認識対象に一致するか否かを認識する
認識装置。
前記記憶手段は、前記標準系列とコードベクトルとの間の距離の推移を多項式で近似したものを、前記距離推移モデルとして記憶している
請求項４に記載の認識装置。
前記時系列の入力データについて、時間軸の正規化を行う正規化手段をさらに備え、
前記ベクトル量子化手段は、正規化された前記入力データをベクトル量子化する
請求項４に記載の認識装置。
前記時系列の入力データは、音声の特徴パラメータと、その音声の発話がなされているときの口唇の画像の特徴パラメータとを統合した統合パラメータである
請求項４に記載の認識装置。
前記ベクトル量子化手段は、前記入力データとの間の距離が最も近い前記コードベクトルの識別子を出力する
請求項４に記載の認識装置。
前記モデル記憶手段は、複数の前記距離推移モデルを記憶している
請求項４に記載の認識装置。
時系列の入力データが所定の認識対象に一致するか否かを認識する認識方法であって、
前記時系列の入力データを、複数のコードベクトルと、各コードベクトルを示す識別子とからなるコードブックを用いてベクトル量子化し、前記識別子の系列を出力し、
所定の標準系列と前記コードベクトルとの間の距離の推移を表す、少なくとも１つの認識対象に対応した距離推移モデルと、前記入力データについての識別子の系列とに基づいて、前記入力データが所定の認識対象に一致するか否かを認識する
ステップを含み、
前記識別子の系列と前記距離推移モデルとに基づいて、前記識別子ごとの距離を累積し、その累積された距離に基づいて、前記入力データが所定の認識対象に一致するか否かを認識する
認識方法。
時系列の入力データが所定の認識対象に一致するか否かを認識する認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
前記時系列の入力データを、複数のコードベクトルと、各コードベクトルを示す識別子とからなるコードブックを用いてベクトル量子化し、前記識別子の系列を出力するベクトル量子化手段と、
所定の標準系列と前記コードベクトルとの間の距離の推移を表す、少なくとも１つの認識対象に対応した距離推移モデルと、前記入力データについての識別子の系列とに基づいて、前記入力データが所定の認識対象に一致するか否かを認識する認識手段と
して、コンピュータを機能させるためのプログラムであり、
前記認識手段は、前記識別子の系列と前記距離推移モデルとに基づいて、前記識別子ごとの距離を累積し、その累積された距離に基づいて、前記入力データが所定の認識対象に一致するか否かを認識する
プログラムが記録されている記録媒体。
時系列の入力データが所定の認識対象に一致するか否かを認識する認識装置であって、
時系列の第１および第２の入力データを統合し、時系列の統合データを出力する統合手段と、
前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて、前記第１または第２の入力データが所定の認識対象に一致するか否かを認識する認識手段と
を備え、
前記認識手段は、
前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて行われる第１のマッチング処理、および前記時系列の統合データに基づくベクトルから得られる空間分布に基づいて行われる第２のマッチング処理を行い、前記第１および第２のマッチング処理の結果に基づいて、前記第１または第２の入力データが所定の認識対象に一致するか否かを認識する
か、又は、
ベクトル量子化に用いられるコードブックのコードベクトルと、所定の標準系列との間の距離の推移を表す距離推移モデルから、前記統合データに基づくベクトルを、前記コードブックを用いてベクトル量子化したベクトル量子化結果が観測されるときの前記距離を累積し、その累積結果に基づいて、前記第１または第２のデータが所定の認識対象に一致するか否かを認識する
認識装置。
時系列の入力データが所定の認識対象に一致するか否かを認識する認識方法であって、
時系列の第１および第２の入力データを統合し、時系列の統合データを出力し、
前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて、前記第１または第２の入力データが所定の認識対象に一致するか否かを認識する
ステップを含み、
前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて行われる第１のマッチング処理、および前記時系列の統合データに基づくベクトルから得られる空間分布に基づいて行われる第２のマッチング処理を行い、前記第１および第２のマッチング処理の結果に基づいて、前記第１または第２の入力データが所定の認識対象に一致するか否かを認識する
か、又は、
ベクトル量子化に用いられるコードブックのコードベクトルと、所定の標準系列との間の距離の推移を表す距離推移モデルから、前記統合データに基づくベクトルを、前記コードブックを用いてベクトル量子化したベクトル量子化結果が観測されるときの前記距離を累積し、その累積結果に基づいて、前記第１または第２のデータが所定の認識対象に一致するか否かを認識する
認識方法。
時系列の入力データが所定の認識対象に一致するか否かを認識する認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
時系列の第１および第２の入力データを統合し、時系列の統合データを出力する統合手段と、
前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて、前記第１または第２の入力データが所定の認識対象に一致するか否かを認識する認識手段と
して、コンピュータを機能させるためのプログラムであり、
前記認識手段は、
前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて行われる第１のマッチング処理、および前記時系列の統合データに基づくベクトルから得られる空間分布に基づいて行われる第２のマッチング処理を行い、前記第１および第２のマッチング処理の結果に基づいて、前記第１または第２の入力データが所定の認識対象に一致するか否かを認識する
か、又は、
ベクトル量子化に用いられるコードブックのコードベクトルと、所定の標準系列との間の距離の推移を表す距離推移モデルから、前記統合データに基づくベクトルを、前記コードブックを用いてベクトル量子化したベクトル量子化結果が観測されるときの前記距離を累積し、その累積結果に基づいて、前記第１または第２のデータが所定の認識対象に一致するか否かを認識する
プログラムが記録されている記録媒体。