JP2000181484A

JP2000181484A - 学習装置および学習方法、認識装置および認識方法、並びに記録媒体

Info

Publication number: JP2000181484A
Application number: JP11287617A
Authority: JP
Inventors: Tetsujiro Kondo; 哲二郎近藤; Norifumi Yoshihara; 典文吉原
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1998-10-09
Filing date: 1999-10-08
Publication date: 2000-06-30
Anticipated expiration: 2019-10-08
Also published as: JP4340939B2

Abstract

(57)【要約】【課題】音声や画像などの異なる入力の特徴パラメー
タを、同等の重みで扱うことができるようにする。【解決手段】仮正規化部５３において、正規化係数制
御部５５からの正規化係数に基づいて、音声と画像の特
徴パラメータそれぞれが正規化され、ベクトル量子化部
５４において、正規化された音声と画像の特徴パラメー
タそれぞれについて、ベクトル量子化が行われることに
より、コードブックのコードベクトルとの距離が、量子
化誤差として算出される。そして、正規化係数制御部５
５において、音声の特徴パラメータについての量子化誤
差と、画像の特徴パラメータについての量子化誤差とが
等しくなるように、正規化係数が変更される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、学習装置および学
習方法、認識装置および認識方法、並びに記録媒体に関
し、特に、例えば、音声の認識を、音声と、その発話が
なされたときの口唇の画像とに基づいて行う場合に、音
声と画像のパラメータを、いわば同一の重みで扱うこと
ができるようにすることにより、認識性能を向上させる
ことができるようにする学習装置および学習方法、認識
装置および認識方法、並びに記録媒体に関する。

【０００２】

【従来の技術】例えば、音声の認識は、その音声から、
特徴パラメータを抽出し、その特徴パラメータを、基準
となる標準パラメータ（標準パターン）と比較すること
で行われる。

【０００３】

【発明が解決しようとする課題】ところで、音声の認識
を、その音声のみに基づいて行う場合には、その認識率
を向上させるのに、ある程度の限界がある。そこで、音
声の認識を、その音声の他、発話を行っている話者の口
唇を撮影した画像などをも用いて行うことにより、その
認識率を向上させる方法が考えられる。

【０００４】そして、この場合、音声から抽出した特徴
パラメータと、口唇の画像から抽出した特徴パラメータ
とを統合（結合）して、いわば統合パラメータとし、こ
の統合パラメータを用いて、音声の認識を行うことが考
えられる。

【０００５】しかしながら、音声の特徴パラメータと、
画像の特徴パラメータとを、単に並べて（つなぎ合わせ
て）統合パラメータとし、認識を行う場合には、音声ま
たは画像のうちのいずれか一方の影響を強く受け、即
ち、いずれか一方の特徴パラメータの重みが大きく、認
識率の向上の妨げになるおそれがある。

【０００６】本発明は、このような状況に鑑みてなされ
たものであり、音声や画像などの異なる入力の特徴パラ
メータを、同等の重みで扱うことができるようにし、こ
れにより、認識性能を向上させることができるようにす
るものである。

【０００７】

【課題を解決するための手段】本発明の学習装置は、正
規化係数に基づいて、複数の特徴パラメータそれぞれを
正規化する特徴パラメータ正規化手段と、正規化された
複数の特徴パラメータそれぞれについて、所定の標準パ
ラメータとの距離を算出する距離算出手段と、複数の特
徴パラメータのうちの任意の１つについての距離と、他
の任意の１つについての距離とが等しくなるように、正
規化係数を変更する変更手段とを備えることを特徴とす
る。

【０００８】本発明の学習方法は、正規化係数に基づい
て、複数の特徴パラメータそれぞれを正規化し、正規化
された複数の特徴パラメータそれぞれについて、所定の
標準パラメータとの距離を算出し、複数の特徴パラメー
タのうちの任意の１つについての距離と、他の任意の１
つについての距離とが等しくなるように、正規化係数を
変更することを特徴とする。

【０００９】本発明の第１の記録媒体は、正規化係数に
基づいて、複数の特徴パラメータそれぞれを正規化する
特徴パラメータ正規化ステップと、正規化された複数の
特徴パラメータそれぞれについて、所定の標準パラメー
タとの距離を算出する距離算出ステップと、複数の特徴
パラメータのうちの任意の１つについての距離と、他の
任意の１つについての距離とが等しくなるように、正規
化係数を変更する変更ステップとを備えるプログラムが
記録されていることを特徴とする。

【００１０】本発明の認識装置は、複数の入力データそ
れぞれの特徴パラメータを正規化する正規化手段と、正
規化された複数の特徴パラメータを統合し、統合パラメ
ータとする統合手段と、統合パラメータに基づいて、複
数の入力データの１以上が所定の認識対象に対するもの
か否かを認識する認識手段とを備えることを特徴とす
る。

【００１１】本発明の認識方法は、複数の入力データそ
れぞれの特徴パラメータを正規化し、正規化された複数
の特徴パラメータを統合して統合パラメータとし、統合
パラメータに基づいて、複数の入力データの１以上が所
定の認識対象に対するものか否かを認識することを特徴
とする。

【００１２】本発明の第２の記録媒体は、複数の入力デ
ータを処理することにより、その複数の入力データそれ
ぞれについて、特徴パラメータを出力する処理ステップ
と、複数の入力データそれぞれの特徴パラメータを正規
化する正規化ステップと、正規化された複数の特徴パラ
メータを統合し、統合パラメータとする統合ステップ
と、統合パラメータに基づいて、複数の入力データの１
以上が所定の認識対象に対するものか否かを認識する認
識ステップとを備えるプログラムが記録されていること
を特徴とする。

【００１３】本発明の学習装置および学習方法、並びに
第１の記録媒体においては、正規化係数に基づいて、複
数の特徴パラメータそれぞれが正規化され、正規化され
た複数の特徴パラメータそれぞれについて、所定の標準
パラメータとの距離が算出される。そして、複数の特徴
パラメータのうちの任意の１つについての距離と、他の
任意の１つについての距離とが等しくなるように、正規
化係数が変更される。

【００１４】本発明の認識装置および認識方法、並びに
第２の記録媒体においては、複数の入力データそれぞれ
の特徴パラメータが正規化され、正規化された複数の特
徴パラメータが統合されて統合パラメータとされる。そ
して、統合パラメータに基づいて、複数の入力データの
１以上が所定の認識対象に対するものか否かが認識され
る。

【００１５】

【発明の実施の形態】図１は、本発明を適用した音声認
識装置の一実施の形態の構成例を示している。

【００１６】この音声認識装置には、ユーザが発話した
音声をマイクロフォンで集音した発話データの他、その
ユーザが発話している口唇をビデオカメラで撮影した画
像のデータ（画像データ）、ユーザが発話した環境にお
ける雑音のデータ（雑音データ）、その他のユーザの発
話（音声）を認識するのに役立ちうるデータ（例えば、
ユーザが発話を行っている場所を入力するボタンが装置
に設けられている場合において、そのボタンが操作され
たときの、その操作に対応する信号や、音声認識を行う
環境の温度を計測する温度センサの出力など）が、時系
列に、順次入力されるようになされており、これらのデ
ータを必要に応じて考慮して、発話データの認識が行わ
れるようになされている。

【００１７】即ち、パラメータ化回路１には、上述した
発話データ、口唇の画像データ、雑音データ、その他の
データ（ここでは、いずれもディジタルデータとする）
が入力されるようになされている。そして、パラメータ
化回路１は、そこに入力される各種のデータそれぞれを
処理するための信号処理部１１₁乃至１１_Nを有してお
り、発話データ、口唇の画像データ、雑音データ、その
他のデータを、対応する信号処理部１１_n（ｎ＝１，
２，・・・，Ｎ：Ｎは、パラメータ化回路１に入力可能
な信号の最大の種類数）において処理することにより、
各データの特徴を表す特徴パラメータの抽出等を行うよ
うになされている。パラメータ化回路１で抽出された特
徴パラメータは、統合パラメータ生成回路２に供給され
るようになされている。

【００１８】ここで、図１の実施の形態では、信号処理
部１１₁，１１₂、または１１_Nそれぞれにおいて、口唇
の画像データ、発話データ、または雑音データが処理さ
れるようになされている。なお、発話データや雑音デー
タなどの音声（音響）データの特徴パラメータとして
は、例えば、線形予測係数や、ケプストラム(Cepstrum)
係数、パワー、線スペクトル対(Line Spectrum Pair)、
ゼロクロスなどがある。また、口唇の画像データの特徴
パラメータについては、後述する。

【００１９】統合パラメータ生成回路２は、メディア間
正規化部２１および統合パラメータ生成部２２で構成さ
れ、パラメータ化回路１からの各種の信号の特徴パラメ
ータを統合した統合パラメータを生成するようになされ
ている。

【００２０】即ち、メディア間正規化部２１は、パラメ
ータ化回路１からの各種の信号の特徴パラメータを、同
一の重み（スケール）で扱うことができるように正規化
し、統合パラメータ生成部２２に出力するようになされ
ている。統合パラメータ生成部２２は、メディア間正規
化部２１から供給される、各種の信号の、正規化された
特徴パラメータを統合する（つなぎ合わせる）ことによ
り、統合パラメータを生成し、マッチング回路３に出力
するようになされている。

【００２１】マッチング回路３は、統合パラメータと、
標準パターン（認識対象のモデル）とのマッチングを行
い、そのマッチング結果を、判定回路４に出力するよう
になされている。マッチング回路３は、距離推移方式マ
ッチング部３１および空間分布方式マッチング部３２を
有している。距離推移方式マッチング部３１は、後述す
る距離推移モデルを用いて、後述する距離推移方式によ
る統合パラメータのマッチングを行い、そのマッチング
結果を、判定回路４に出力するようになされている。空
間分布方式マッチング部３２は、後述する空間分布方式
による統合パラメータのマッチングを行い、そのマッチ
ング結果を、判定回路４に出力するようになされてい
る。

【００２２】判定回路４は、マッチング回路３の出力、
即ち、ここでは、距離推移方式マッチング部３１および
空間分布方式マッチング部３２におけるマッチング結果
に基づいて、ユーザの発話（音声）を認識し、その認識
結果としての、例えば、単語を出力するようになされて
いる。

【００２３】次に、図２のフローチャートを参照して、
図１の音声認識装置の処理について説明する。

【００２４】音声認識装置では、発話データ、口唇の画
像データ、雑音データ等が入力されると、それらのデー
タが、パラメータ化回路１に供給される。なお、パラメ
ータ化回路１には、口唇の画像データとともに、あるい
は口唇の画像データに替えて、発話者のジェスチャを撮
影した画像データや、喉の（筋肉の）動きを撮影した画
像データ（または喉の動きを計測するセンサの出力）等
を入力するようにすることも可能である。

【００２５】パラメータ化回路１は、ステップＳ１にお
いて、発話データ、口唇の画像データ、雑音データ等を
処理し、それぞれのデータについて、特徴パラメータを
抽出する。各データの特徴パラメータは、統合パラメー
タ生成回路２に供給される。

【００２６】統合パラメータ生成回路２のメディア間正
規化部２１は、ステップＳ２において、パラメータ化回
路１からの各データの特徴パラメータを正規化し、その
正規化された特徴パラメータを、統合パラメータ生成部
２２に供給する。統合パラメータ生成部２２は、ステッ
プＳ３において、メディア間正規化部２１からの各デー
タの正規化された特徴パラメータを統合し、統合パラメ
ータとする。この統合パラメータは、マッチング回路３
の距離推移方式マッチング部３１および空間分布方式マ
ッチング部３２に供給され、ステップＳ４に進む。

【００２７】ステップＳ４では、距離推移方式マッチン
グ部３１が、統合パラメータ生成回路２からの統合パラ
メータのマッチングを、距離推移方式によって行う。さ
らに、ステップＳ４では、空間分布方式マッチング部３
２が、統合パラメータ生成回路２からの統合パラメータ
のマッチングを、空間分布方式によって行う。そして、
距離推移方式マッチング部３１および空間分布マッチン
グ部３２によるマッチング結果は、判定回路４に供給さ
れる。判定回路４は、ステップＳ５において、マッチン
グ回路３からのマッチング結果に基づき、発話データの
認識を行い、その認識結果（音声認識結果）を出力し
て、処理を終了する。

【００２８】次に、図１におけるパラメータ化回路１の
信号処理部１１₁は、上述したように、口唇の画像デー
タを処理し、その特徴パラメータを抽出するようになっ
ているが、図３は、そのような信号処理部１１₁の構成
例を示している。

【００２９】口唇の画像データは、ＹＩＱ変換部４１に
供給されるようになされており、ＹＩＱ変換部４１は、
口唇の画像データを、ＹＩＱで表される信号に変換する
ようになされている。即ち、信号処理部１１₁に入力さ
れる口唇の画像データは、例えば、ＲＧＢ（Red, Gree
n, Blue）で表現されており、ＹＩＱ変換部４１は、そ
のようなＲＧＢで表現された口唇の画像データを、ＹＩ
Ｑで表現されたものに変換し、Ｑ成分抽出部４２に供給
するようになされている。

【００３０】Ｑ成分抽出部４２は、ＹＩＱ変換部４１か
らのＹＩＱで表現された口唇の画像データのうちの、Ｑ
成分の信号レベルが閾値以上となっている画素を抽出
し、その画素を、口唇を構成する画素（以下、適宜、口
唇画素という）として、全体重心算出部４３、上重心／
下重心算出部４４、分割重心算出部４５、および分割部
４６に出力するようになされている。

【００３１】全体重心算出部４３は、Ｑ成分抽出部４２
からの口唇画素全体の重心（以下、適宜、全体重心とい
う）を求め、上重心／下重心算出部４４および分割重心
算出部４５に供給するようになされている。

【００３２】上重心／下重心算出部４４は、後述する上
重心および下重心を求めるようになされている。即ち、
上重心／下重心算出部４４は、全体重心算出部４３から
の全体重心に基づいて、口唇画素を、上唇を構成する画
素（以下、適宜、上唇画素という）と、下唇を構成する
画素（以下、適宜、下唇画素という）とに仮に分割する
ようになされている。さらに、上重心／下重心算出部４
４は、上唇画素全体の重心（以下、適宜、上重心とい
う）、および下唇画素全体の重心（以下、適宜、下重心
という）を求め、分割重心算出部４５に出力するように
なされている。

【００３３】分割重心算出部４５は、口唇画素を、上唇
画素と下唇画素とに最終的に分割するための、その分割
の基準となる点（以下、適宜、分割重心という）を、全
体重心算出部４３からの全体重心、並びに上重心／下重
心算出部４４からの上重心および下重心に基づいて求
め、分割部４６に出力するようになされている。

【００３４】分割部４６は、Ｑ成分抽出部４２からの口
唇画素を、分割重心算出部４５からの分割重心に基づい
て、上唇画素と下唇画素とに分割し、上唇画素はミラー
領域生成部４７Ｕに、下唇画素はミラー領域生成部４７
Ｄに、それぞれ出力するようになされている。

【００３５】ミラー領域生成部４７Ｕは、上唇画素につ
いて、後述するミラー領域を構成し、上唇画素ととも
に、楕円近似部４８Ｕに供給するようになされている。
ミラー領域生成部４７Ｄは、下唇画素について、ミラー
領域を構成し、下唇画素とともに、楕円近似部４８Ｄに
供給するようになされている。

【００３６】楕円近似部４８Ｕは、ミラー領域生成部４
７Ｕからの上唇画素とそのミラー領域を近似する楕円を
求め、その楕円を規定するパラメータ（楕円パラメー
タ）を、口唇パラメータ出力部４９に供給するようにな
されている。楕円近似部４８Ｄは、ミラー領域生成部４
７Ｄからの下唇画素とそのミラー領域を近似する楕円を
求め、その楕円を規定する楕円パラメータを、口唇パラ
メータ出力部４９に供給するようになされている。

【００３７】口唇パラメータ出力部４９は、楕円近似部
４８Ｕおよび４８Ｄからの楕円パラメータのうち、重複
するものを削除し、残りを、口唇の特徴を表す特徴パラ
メータである口唇パラメータとして出力するようになさ
れている。

【００３８】次に、図４のフローチャートを参照して、
図３の処理部１１₁の処理について説明する。

【００３９】ＹＩＱ変換部４１は、例えば、ＲＧＢで表
現された口唇の画像データを受信すると、ステップＳ１
１において、ＹＩＱ変換行列を用いて、その画像データ
を、ＹＩＱで表現されたものに変換し、Ｑ成分抽出部４
２に供給する。

【００４０】Ｑ成分抽出部４２は、ステップＳ１２にお
いて、ＹＩＱ変換部４１からのＹＩＱで表現された口唇
の画像データのうちの、Ｑ成分が閾値以上となっている
画素を抽出し、その画素を、口唇画素として、全体重心
算出部４３、上重心／下重心算出部４４、分割重心算出
部４５、および分割部４６に出力する。

【００４１】ここで、本件発明者が行った調査によれ
ば、口唇を構成する画素（口唇画素）は、比較的、Ｑ成
分が大きくなり、Ｑ成分の大きい画素を抽出すること
で、口唇画素を比較的精度良く抽出することができるこ
とが分かっている。なお、Ｑ成分は、赤系統の色の成分
であるが、ＲＧＢで表現された画像から、同じく赤系統
の色の成分であるＲ成分が大きい画素を抽出するより
は、Ｑ成分の大きい画素を抽出した方が口唇画素を比較
的精度良く抽出することも、本件発明者が行った調査か
ら分かっている。

【００４２】全体重心算出部４３は、Ｑ成分抽出部４２
から、口唇画素を受信すると、ステップＳ１３におい
て、図５に◎印で示すような、その口唇画素全体の重心
（全体重心）を求め、上重心／下重心算出部４４および
分割重心算出部４５に供給して、ステップＳ１４に進
む。ステップＳ１４では、上重心／下重心算出部４４に
おいて、上重心および下重心が算出される。

【００４３】即ち、上重心／下重心算出部４４は、図５
に示すような、全体重心を通る水平方向の直線によっ
て、Ｑ成分抽出部４２からの口唇画素を、仮に上下に２
分割する。ここで、本実施の形態では、口唇の画像デー
タとして、発話を行っているユーザを正面から撮影して
得られるものが供給されるものとしている。

【００４４】さらに、上重心／下重心算出部４４は、口
唇画素を、上述したようにして上下２分割したものの上
側または下側の画素を、それぞれ上唇を構成する画素
（上唇画素）または下唇を構成する画素（下唇画素）と
して、図５に×印で示すような上重心または下重心をそ
れぞれ求める。この上重心および下重心は、分割重心算
出部４５に供給される。

【００４５】分割重心算出部４５は、ステップＳ１５に
おいて、分割重心を求める。即ち、分割重心算出部４５
は、上重心／下重心算出部４４における場合と同様に、
全体重心を通る水平方向の直線によって、Ｑ成分抽出部
４２からの口唇画素を、上下に２分割することで、上唇
画素と下唇画素とに分け、それぞれの画素数をカウント
する。さらに、分割重心算出部４５は、上重心と下重心
とを通る線分を、上唇画素の画素数と下唇画素の画素数
との比にしたがって内分し、その内分点を、分割重心と
する。この分割重心は、分割部４６に供給される。

【００４６】分割部４６は、ステップＳ１６において、
分割重心算出部４５からの、図５において・印で示す分
割重心を通る水平方向の直線によって、Ｑ成分抽出部４
２からの口唇画素を、上下に２分割することにより、最
終的な上唇画素と下唇画素とに分け、上唇画素はミラー
領域生成部４７Ｕに、下唇画素はミラー領域生成部４７
Ｄに、それぞれ出力する。

【００４７】そして、ステップＳ１７において、ミラー
領域生成部４７Ｕは、上唇画素について、ミラー領域を
構成し、ミラー領域生成部４７Ｄは、下唇画素につい
て、ミラー領域を構成する。即ち、ミラー領域生成部４
７Ｕは、図６（Ａ）に示すように、上唇画素について、
分割重心を通る水平方向の直線（以下、適宜、上下分割
線という）に線対称な領域を、そのミラー領域として生
成し、上唇画素とともに、楕円近似部４８Ｕに供給す
る。また、ミラー領域生成部４７Ｄは、図６（Ｂ）に示
すように、下唇画素について、上下分割線に線対称な領
域を、そのミラー領域として生成し、下唇画素ととも
に、楕円近似部４８Ｄに供給する。

【００４８】その後、ステップＳ１８において、楕円近
似部４８Ｕは、図６（Ａ）に示すように、上唇画素とそ
のミラー領域を近似する、分割重心を中心とする楕円
を、例えば、最小二乗法によって求める。楕円近似部４
８Ｄも、図６（Ｂ）に示すように、下唇画素とそのミラ
ー領域を近似する、分割重心を中心とする楕円を、最小
二乗法によって求める。

【００４９】即ち、いま、分割重心のｘまたはｙ座標
を、ｘ₀またはｙ₀と表すと、横径（ｘ軸方向（水平方
向）の半径）または縦径（ｙ軸方向（垂直方向）の半
径）を、それぞれ１／ａ^1/2または１／ｂ^1/2とする楕円
は、次式で表すことができる。

【００５０】ａ（ｘ−ｘ₀）²＋ｂ（ｙ−ｙ₀）²＝１・・・（１）

【００５１】従って、上唇画素、およびそのミラー領域
を構成する画素を近似する二乗誤差を最小にする楕円
は、次式を解くことで求めることができる。

【００５２】

【数１】・・・（２）ここで、式（２）において、Σは、上唇画
素、およびそのミラー領域を構成する画素すべてについ
てのサメーションを表す。

【００５３】楕円近似部４８Ｕは、上唇画素とそのミラ
ー領域を近似する、分割重心を中心とする楕円の横径お
よび縦径を、式（２）を解くことにより求め、上唇を近
似する楕円の楕円パラメータとして、口唇パラメータ出
力部４９に供給する。楕円近似部４８Ｄも、楕円近似部
４８Ｕにおける場合と同様にして、下唇画素とそのミラ
ー領域を近似する楕円の横径および縦径を求め、口唇パ
ラメータ出力部４９に供給する。

【００５４】口唇パラメータ出力部４９は、ステップＳ
１９において、楕円近似部４８Ｕまたは４８Ｄからの楕
円パラメータのうち、重複するものを削除する。即ち、
上唇画素とそのミラー領域を近似する楕円の横径と、下
唇画素とそのミラー領域を近似する楕円の横径は、理想
的には、図７に示すように、一致するはずであり、口唇
パラメータ出力部４９は、その一致する横径の１つを削
除し、残りの横径、並びに上唇画素とそのミラー領域を
近似する楕円の縦径（以下、適宜、上縦径という）およ
び下唇画素とそのミラー領域を近似する楕円の縦径（以
下、適宜、下縦径という）の３つの楕円パラメータを、
口唇の特徴パラメータとして出力し、処理を終了する。

【００５５】なお、処理部１１₁は、以上の処理を、例
えば、１フレームの口唇の画像データが供給されるごと
に繰り返す。

【００５６】ここで、上唇画素とそのミラー領域を近似
する楕円の横径と、下唇画素とそのミラー領域を近似す
る楕円の横径は、上述したように、理想的には、一致す
るはずであるが、楕円を、最小二乗法によって求める場
合には、僅かな差ではあるが、一致しないことが多い。
そこで、横径についてだけは、図３において点線で示す
ように、楕円近似部４８Ｕと４８Ｄとの間でデータをや
りとりすることにより、上唇を近似する楕円の二乗誤差
と、下唇を近似する楕円の二乗誤差との和を求め、その
和を最小にする楕円の横径を求めるようにすることがで
きる。

【００５７】なお、上唇画素とそのミラー領域を近似す
る楕円の横径と、下唇画素とそのミラー領域を近似する
楕円の横径とを、それぞれ独立に、最小二乗法によって
求めた後、そのうちのいずれか一方のみを選択したり、
また、その２つの横径の平均値を計算することによって
も、２つの横径を１つに、いわばまとめることが可能で
あるが、上唇または下唇を最も良く近似する楕円のうち
のいずれか一方の横径を選択する場合には、選択されな
かった方の楕円による近似の精度が悪化し、また、２つ
の横径の平均値を計算する場合には、その平均値を横径
とする楕円が、上唇および下唇を精度良く近似するとは
限らないため、楕円による上唇および下唇の近似の精度
を、ある程度高く維持するためには、上述したように、
上唇を近似する楕円の二乗誤差と、下唇を近似する楕円
の二乗誤差との和を求め、その和を最小にする楕円の横
径を求めるようにするのが望ましい。

【００５８】以上のように、口唇画素を、上唇画素と下
唇画素とに２分割し、それぞれを近似する楕円を求め、
その楕円を表す横径および縦径を、口唇の特徴を表す特
徴パラメータとするようにしたので、この特徴パラメー
タによれば、口唇の動き等を、忠実に再現することがで
きる。

【００５９】さらに、口唇を楕円で近似することによ
り、口唇の画像データが多少のノイズを有していても、
そのノイズに対して、ロバスト性のある特徴パラメータ
を得ることができる。

【００６０】さらに、口唇を近似する楕円の横径、上縦
径、および下縦径である特徴パラメータは、人が、他人
または自身の口唇を見た場合に、視覚的に得る口唇の動
きに連動するから、その特徴パラメータの検証を行う場
合に、その検証効率を向上させることができる。

【００６１】また、特徴パラメータが、横径、上縦径、
下縦径の３つで済むので、例えば、口唇の上下左右の４
つの端点を特徴パラメータとする場合に比較して、少な
い数の特徴パラメータで、口唇を、効率良く表現するこ
とができる。

【００６２】その結果、例えば、図１に示すように、処
理部１１₁が出力する口唇の特徴パラメータと、処理部
１１₂が出力する発話データの特徴パラメータとを、送
信装置５から、例えば、電話回線や、ＣＡＴＶ（Cable
Television）、インターネット、衛星回線などの伝送媒
体６を介して、受信装置７に伝送し、受信装置７におい
て、口唇の特徴パラメータに基づいて、人の顔の画像を
動かしながら、発話データの特徴パラメータに基づいて
音声を再生するような場合において、送信装置５から受
信装置７に送信する口唇の特徴パラメータのデータ量が
少なくて済むようになる。

【００６３】さらに、図３の実施の形態においては、口
唇画素全体の重心（全体重心）を求め、その全体重心に
基づき、口唇画素を、上唇画素と下唇画素とに仮に分割
し、上重心および下重心を求め、さらに、分割重心を求
め、その分割重心に基づき、口唇画素を、最終的な上唇
画素と下唇画素とに分割するようにしたので、実際に
は、上唇を構成する画素が、誤って下唇画素とされた
り、逆に、下唇を構成する画素が、誤って上唇画素とさ
れたりするケースを少なくすることができる。即ち、一
般には、下唇の表面積が上唇の表面積より広いため、全
体重心は、下唇寄りに位置する。その結果、全体重心に
基づき、口唇画素を、上唇画素と下唇画素とに分割した
場合には、実際には、下唇を構成する画素が、誤って上
唇画素とされるケースが多くなる。これに対して、全体
重心に基づき、口唇画素を、上唇画素と下唇画素とに仮
に分割し、上重心および下重心を求め、さらに、分割重
心を求めて、その分割重心に基づき、口唇画素を、最終
的な上唇画素と下唇画素とに分割する場合には、分割重
心が、上重心寄りに位置することとなるため、下唇を構
成する画素が、誤って上唇画素とされるケースを少なく
することができる。

【００６４】なお、図３の実施の形態では、発話者（ユ
ーザ）の口唇を楕円で近似するようにしたが、その他、
例えば、目などの人の顔の、口唇以外の器官も、上述の
場合と同様にして、楕円で近似することが可能である。

【００６５】また、図３の実施の形態では、口唇を、上
唇と下唇とに２分割するようにしたが、その他、例え
ば、さらに、上唇のみを左右に２分割することにより、
合計で３分割し、各分割部分を楕円近似したり、上唇お
よび下唇の両方を左右に２分割することにより、合計で
４分割し、各分割部分を楕円近似したりすることも可能
である。

【００６６】次に、図１のメディア間正規化部２１は、
上述したように、パラメータ化回路１からの各種のデー
タの特徴パラメータを、同一の重みで扱うことができる
ように正規化するが、この正規化は、各特徴パラメータ
に、正規化係数を乗算することで行われるようになされ
ている。そして、その正規化係数は、学習を行うことに
より求められるようになされており、図８は、そのよう
な学習を行う学習装置の一実施の形態の構成例を示して
いる。

【００６７】なお、ここでは、説明を簡単にするため
に、異なる２つのメディアである画像と音声の特徴パラ
メータの重みを同一にするための正規化係数を求める学
習について説明する。

【００６８】仮正規化部５１には、ベクトル量子化に用
いるコードブックを生成するためのコードベクトル学習
パラメータ（コードブック生成データ）としての、画像
の特徴パラメータＰ_i,jおよび音声の特徴パラメータＶ
_i,j（認識対象とする各音韻について、複数セットの特
徴パラメータＰ_i,jおよび音声の特徴パラメータＶ_i,j）
が供給されるようになされており、仮正規化部５１は、
正規化係数制御部５５からの正規化係数によって、特徴
パラメータＰ_i,jおよび音声の特徴パラメータＶ_i _,jを、
仮に正規化し、コードブック作成部５２に供給するよう
になされている。即ち、本実施の形態では、例えば、画
像の特徴パラメータＰ_i,jの重みを基準とし、その重み
に、音声の特徴パラメータＶ_i,jの重みを一致させるた
めに、音声の特徴パラメータＶ_i,jに対して、正規化係
数制御部５５からの正規化係数αが乗算される。従っ
て、画像の特徴パラメータＰ_i,jには、正規化係数とし
て１が乗算されると考えることができる。

【００６９】ここで、特徴パラメータＰ_i,jおよびＶ_i,j
の行を表すサフィックスｉは、その特徴パラメータＰ
_i,j，Ｖ_i,jが抽出された時刻（時間）を表し、列を表す
サフィックスｊは、特徴パラメータＰ_i,j，Ｖ_i,jの次数
（次元）を表す（従って、（Ｐ _i,1，Ｐ_i,2，・・・，Ｐ
_i,L，Ｖ_i,1，Ｖ_i,2，・・・，Ｖ_i,M）が、ある時刻ｉに
おける特徴パラメータ（特徴ベクトル）である）。ま
た、図８では、特徴パラメータＰ_i,jにカッコ付きのサ
フィックス（ｋ）を付して、Ｐ^(k) _i,jと示してあるが、
これは、ｋが異なれば、異なる学習用のデータから生成
された特徴パラメータであることを表している。Ｖ^(k)
_i,jのサフィックス（ｋ）についても、同様である。

【００７０】なお、本実施の形態においては、画像の特
徴パラメータＰ_i,jとしては、例えば、上述した口唇を
近似する楕円の横径、上縦径、下縦径を用いることがで
き、この場合、特徴パラメータＰ_i,jの次数Ｌは３次と
なる。また、音声の特徴パラメータＶ_i,jとしては、例
えば、８次の線スペクトル対を用いることができ、この
場合、特徴パラメータＶ_i,jの次数Ｍは８次となる。

【００７１】コードブック作成部５２は、仮の正規化が
なされた特徴パラメータとしてのコードベクトル学習パ
ラメータＰ_i,jおよびＶ_i,jを用いて、ベクトル量子化部
５４におけるベクトル量子化に用いるコードブックを生
成し、ベクトル量子化部５４に供給するようになされて
いる。

【００７２】ここで、コードブック作成部５２は、例え
ば、ＬＢＧ（Linde, Buzo, Gray）アルゴリズムにした
がって、コードブックを作成するようになされている。

【００７３】ＬＢＧアルゴリズムは、いわばバッチ型学
習アルゴリズムで、学習サンプル（学習データ）として
の特徴パラメータと、コードブックを構成するコードベ
クトル（代表ベクトル）（最初は、適当な初期値が与え
られる）との距離に対応して、特徴パラメータ空間を最
適分割するボロノイス(Voronois)分割、およびボロノイ
ス分割により得られる、特徴パラメータ空間の各部分領
域の重心への、コードベクトルの更新を繰り返し行うこ
とにより、コードブックのコードベクトルを、局所的に
最適な位置に収束させるようになっている。

【００７４】ここで、学習サンプルの集合をｘ_j（ｊ＝
０，１，・・・，Ｊ−１）と、コードベクトルの集合を
Ｙ＝｛ｙ₀，ｙ₁，・・・，ｙ_Na-1｝と（Ｎａはコードベ
クトルの数を表し、任意に設定される）、それぞれする
とき、ボロノイス分割では、学習サンプルの集合ｘ
_jが、コードベクトルＹの集合によって、Ｎａ個の部分
集合Ｓ_i（ｉ＝０，１，・・・，Ｎａ−１）に分割され
る。即ち、学習サンプルｘ_jとコードベクトルｙ_iとの間
の距離をｄ（ｘ_j，ｙ_i）と表した場合、ｉと等しくない
ｔ（ｔ＝０，１，・・・，Ｎａ−１）すべてについて、
式ｄ（ｘ_j，ｙ_i）＜ｄ（ｘ_j，ｙ_t）・・・（３）が成り立つとき、学習サンプルｘ_jは、部分集合Ｓ_iに属
する（ｘ_j∈Ｓ_i）とされる。

【００７５】また、ベクトルｖ₀，ｖ₁，・・・，ｖ_M-1
についてのセントロイド（重心）Ｃ（ｖ₀，ｖ₁，・・
・，ｖ_M-1）を、式

【数２】・・・（４）で定義するとき、コードベクトルの更新では、コードベ
クトルｙ_iが、式ｙ_i＝Ｃ（｛Ｓ_i｝）・・・（５）にしたがって更新される。

【００７６】なお、式（４）の右辺ａｒｇｍｉｎ｛｝
は、｛｝内の値を最小にするベクトルｖを意味する。ま
た、式（５）による、いわゆるクラスタリング手法は、
ｋ平均クラスタリング法（k-means法）と呼ばれる。

【００７７】また、ＬＢＧアルゴリズムについては、例
えば、「音声・画像工学」、中田和男、南敏著、昭晃
堂、昭和６２年の第２９ページ乃至第３１ページなど
に、その詳細が記載されている。

【００７８】ここで、図８の実施の形態において、コー
ドブック作成部５２が出力するコードブックの要素Ｓ
_i,jおよびＴ_i,jの行を表すサフィックスｉ，ｊは、コー
ド＃ｉに対応するコードベクトルのｊ番目の要素である
ことを表している。従って、（Ｓ_i,1，Ｓ_i,2，・・・，
Ｓ_i,L，Ｔ_i,1，Ｔ_i,2，・・・，Ｔ_i,M）は、コード＃ｉ
に対応するコードベクトルを表す。また、コードベクト
ルの要素Ｓ_i,jは、画像に対応しており、要素Ｔ_i,jは、
音声に対応している。

【００７９】仮正規化部５３には、正規化係数αの学習
のための正規化係数学習パラメータとしての画像の特徴
パラメータＰ_i,jおよび音声の特徴パラメータＶ_i,j（こ
こでは、コードベクトル学習パラメータとは異なる画
像、音声から得られたものとする）が供給されるように
なされており、仮正規化部５３は、仮正規化部５１と同
様に、正規化係数制御部５５からの正規化係数によっ
て、特徴パラメータＰ_i,jおよび音声の特徴パラメータ
Ｖ_i,jを、仮に正規化し、ベクトル量子化部５４に供給
するようになされている。即ち、仮正規化部５３は、正
規化係数学習パラメータとしての画像の特徴パラメータ
Ｐ_i,jと音声の特徴パラメータＶ_i,jのうちの音声の特徴
パラメータＶ_i,jに対して、正規化係数制御部５５から
の正規化係数αを乗算し、ベクトル量子化部５４に出力
するようになされている。

【００８０】なお、仮正規化部５３には、正規化係数学
習パラメータが複数セット供給されるようになされてお
り、仮正規化部５３は、その複数セットの正規化係数学
習パラメータそれぞれについて、正規化を行うようにな
っている。

【００８１】ベクトル量子化部５４は、コードブック作
成部５２からの最新のコードブックを用いて、仮正規化
部５３から供給される正規化された正規化係数学習パラ
メータをベクトル量子化し、そのベクトル量子化による
量子化誤差を、正規化係数制御部５５に供給するように
なされている。

【００８２】即ち、ベクトル量子化部５４は、コードブ
ックのコードベクトルそれぞれ（標準パラメータ）と、
正規化された正規化係数学習パラメータとの距離（ユー
クリッド距離）(Euclidean distance)を、画像と音声そ
れぞれについて計算し、その距離のうちの最も短いもの
を、量子化誤差として、正規化係数制御部５５に供給す
るようになされている。つまり、正規化された正規化係
数学習パラメータのうちの画像の特徴パラメータＰ_i,j
と、コードブックにおけるコードベクトルそれぞれの画
像に関する要素Ｓ_i,jからなるベクトルとの距離が算出
され、その距離の最も短いものが、画像についての量子
化誤差として、正規化係数制御部５５に供給されるとと
もに、正規化された正規化係数学習パラメータのうちの
音声の特徴パラメータαＶ_i,jと、コードブックにおけ
るコードベクトルそれぞれの音声に関する要素Ｔ_i,jか
らなるベクトルとの距離が算出され、その距離の最も短
いものが、音声についての量子化誤差として、正規化係
数制御部５５に供給されるようになされている。

【００８３】正規化係数制御部５５は、ベクトル量子化
部５４からの画像と音声についての量子化誤差を、すべ
ての正規化係数学習パラメータに関して、それぞれ累積
（積算）し、その画像と音声についての累積値が等しく
なるように、仮正規化部５１および５３に供給する正規
化係数αを変更するようになされている。

【００８４】次に、図９のフローチャートを参照して、
図８の学習装置が行う処理（正規化係数学習処理）につ
いて説明する。

【００８５】図８の学習装置においては、まず最初に、
コードベクトル学習パラメータが仮正規化部５１に供給
されるとともに、正規化係数学習パラメータが仮正規化
部５３に供給され、正規化係数制御部５５から、正規化
係数αの初期値が、仮正規化部５１および５３に供給さ
れる。

【００８６】そして、ステップＳ２１において、仮正規
化部５１は、コードベクトル学習パラメータのうちの、
音声の特徴パラメータＶ_i,jに対して、正規化係数制御
部５５からの正規化係数αを乗算し、これにより、コー
ドベクトル学習パラメータを仮に正規化して、コードブ
ック作成部５２に供給する。

【００８７】コードブック作成部５２は、仮正規化部５
１から、正規化されたコードベクトル学習パラメータを
受信すると、ステップＳ２２において、そのコードベク
トル学習パラメータを用い、ＬＢＧアルゴリズムによ
り、ベクトル量子化部５４がベクトル量子化を行うのに
用いるコードブックを作成し、ベクトル量子化部５４に
供給する。

【００８８】一方、仮正規化部５３は、ステップＳ２３
において、正規化係数学習パラメータのうちの音声の特
徴パラメータＶ_i,jに対して、正規化係数制御部５５か
らの正規化係数αを乗算し、これにより、正規化係数学
習パラメータを仮に正規化して、ベクトル量子化部５４
に供給する。

【００８９】ベクトル量子化部５４は、コードブック作
成部５２から、最新のコードブックを受信するととも
に、仮正規化部５３から、最新の正規化された正規化係
数学習パラメータを受信すると、ステップＳ２４におい
て、仮正規化部５３からの正規化係数学習パラメータ
を、コードブック作成部５２からのコードブックを用
い、画像と音声それぞれについてベクトル量子化を行
い、それぞれの量子化誤差を、正規化係数制御部５５に
供給する。

【００９０】即ち、ステップＳ２４では、ベクトル量子
化部５４は、正規化された正規化係数学習パラメータの
うちの画像の特徴パラメータ（画像パラメータ）Ｐ_i,j
と、コードベクトルのうちの画像に関する要素Ｓ_i,jか
らなるベクトルとの距離を算出し、その距離の最も短い
ものを、画像についての量子化誤差として、正規化係数
制御部５５に供給するとともに、正規化された正規化係
数学習パラメータのうちの音声の特徴パラメータ（音声
パラメータ）αＶ_i,jと、コードベクトルのうちの音声
に関する要素Ｔ_i,jからなるベクトルとの距離を算出
し、その距離のうち、最も短いものを、音声についての
量子化誤差として、正規化係数制御部５５に供給する。

【００９１】ここで、仮正規化部５３には、上述したよ
うに、複数の正規化係数学習パラメータが供給されるた
め、ベクトル量子化部５４にも、仮正規化された正規化
係数学習パラメータが複数セット供給されるが、ベクト
ル量子化部５４は、その複数の正規化された正規化係数
学習パラメータそれぞれについて、順次、上述したよう
な画像および音声についての量子化誤差を求め、正規化
係数制御部５５に供給するようになっている。

【００９２】ステップＳ２４では、さらに、正規化係数
制御部５５が、ベクトル量子化部５４から供給される画
像と音声についての量子化誤差を、すべての正規化係数
学習パラメータについて、それぞれ累積し、それぞれの
量子化誤差の累積値Ｄ_PとＤ_Vを求める。この画像と音声
についての量子化誤差の累積値Ｄ_PとＤ_Vは、正規化係数
制御部５５に供給されて記憶される。

【００９３】そして、ステップＳ２５に進み、正規化係
数制御部５５は、すべてのαに関して、画像と音声につ
いての量子化誤差の累積値Ｄ_PとＤ_Vを求めたかどうかを
判定する。即ち、本実施の形態では、例えば、αを、そ
の初期値を０．００１として、０．００１から２．００
０までの範囲を、０．００１刻みに変更（ここでは、増
加）して、累積値Ｄ_PとＤ_Vを求めることとしており、正
規化係数制御部５５は、ステップＳ２５において、その
ような範囲のαに関して、画像と音声についての量子化
誤差の累積値Ｄ_PとＤ_Vを求めたかどうかを判定する。

【００９４】ステップＳ２５において、すべてのαに関
して、まだ、累積値Ｄ_PとＤ_Vが求められていないと判定
された場合、ステップＳ２６に進み、正規化係数制御部
５５は、正規化係数αを上述したように変更し、仮正規
化部５１および５３に供給する。そして、ステップＳ２
１に戻り、以下、変更後の正規化係数αを用いて、同様
の処理が繰り返される。

【００９５】一方、ステップＳ２５において、すべての
αに関して、累積値Ｄ_PとＤ_Vが求められたと判定された
場合、ステップＳ２７に進み、正規化係数制御部５５
は、ステップＳ２４で記憶した各値のαに関する画像に
ついての量子化誤差Ｄ_Pと、音声についての量子化誤差
Ｄ_Vとの差分の絶対値｜Ｄ_P−Ｄ_V｜を計算する。さら
に、正規化係数制御部５５は、各値のαに関する差分絶
対値｜Ｄ_P−Ｄ_V｜の最小値を与えるα、即ち、理想的に
は、画像についての量子化誤差Ｄ_Pと、音声についての
量子化誤差Ｄ_Vとが同一になる場合のαを検出する。そ
して、ステップＳ２８に進み、正規化係数制御部５５
は、その最小の絶対値｜Ｄ_P−Ｄ_V｜を与える正規化係数
αを、画像と音声の特徴パラメータを、同一の重みで扱
うことができるように正規化することのできるものとし
て出力し、処理を終了する。

【００９６】以上のように、画像と音声の特徴パラメー
タからなる統合パラメータであるコードベクトル学習パ
ラメータを正規化し、その正規化されたコードベクトル
学習パラメータを用いて、コードブックを生成する一
方、画像と音声の特徴パラメータからなる統合パラメー
タである正規化係数学習パラメータを仮に正規化し、そ
の正規化された正規化係数学習パラメータのうちの画像
または音声の特徴パラメータそれぞれについて、生成さ
れたコードブックを用いてベクトル量子化を行うことに
より、量子化誤差の累積値を求め、その累積値どうしが
等しくなるように、正規化係数を変更するようにしたの
で、画像と音声などといった異なるメディアの特徴パラ
メータを、同等の重みで扱うことができるように正規化
を行うことができる正規化係数を求めることができる。

【００９７】その結果、例えば、音声から抽出した特徴
パラメータと、口唇の画像から抽出した特徴パラメータ
とを、正規化係数によって正規化し、さらに、それらを
統合して、統合パラメータとし、この統合パラメータを
用いて、音声の認識を行う場合においては、音声または
画像のうちのいずれか一方の影響を強く受けることによ
り、認識率の向上の妨げられることを防止することが可
能となる。

【００９８】さらに、統合パラメータを構成する各メデ
ィアの特徴パラメータが、認識率に与える影響の検証
を、容易に行うことが可能となる。

【００９９】なお、図８の実施の形態では、画像と音声
の２種類の特徴パラメータの重みを同一にするための正
規化係数αを求める学習について説明したが、３種類以
上の特徴パラメータ、あるいは、画像や音声の他のメデ
ィアの特徴パラメータの重みを同一にするための正規化
係数を求める学習も、同様に行うことが可能である。

【０１００】また、上述した正規化係数の学習方法は、
特徴パラメータの種類や次元に依存するものではないた
め、特徴パラメータの種類や次元に関係なく適用可能で
ある。

【０１０１】次に、図１０は、図１の距離推移方式マッ
チング部３１の構成例を示している。

【０１０２】時間軸正規化部６１には、統合パラメータ
生成回路２（図１）から、例えば、ある単語が発話され
たときの統合パラメータが時系列に供給されるようにな
されており、時間軸正規化部６１は、その時系列の統合
パラメータの時間軸正規化を行うようになされている。

【０１０３】即ち、ある単語が発話されたときの発話時
間をｔとすると、その単語の発話による統合パラメータ
のある要素の時間変化は、例えば、図１１（Ａ）に示す
ようになるが、図１１（Ａ）における発話時間ｔは、同
一人による同一単語の発話であっても、発話ごとに変動
する。そこで、時間軸正規化部６１は、発話時間ｔが、
図１１（Ｂ）に示すように、一律に、時間Ｔ_Cとなるよ
うに、時間軸正規化を行うようになされている。なお、
例えば、いま、図１の音声認識装置において、単語認識
を行うものとすると、時間Ｔ_Cは、認識対象の単語を発
話したときの一般的な発話時間よりも十分長い時間に設
定されている。従って、時間軸正規化部６１では、図１
１（Ａ）に示した時系列の統合パラメータが、いわば時
間軸方向に間延びしたように変更される。なお、時間軸
正規化の手法は、これに限定されるものではない。

【０１０４】時間軸正規化後の統合パラメータは、時間
軸正規化部６１からベクトル量子化部６２に供給される
ようになされている。ベクトル量子化部６２は、コード
ブック記憶部６３に記憶されたコードブックを用いて、
時間軸正規化された時系列の統合パラメータを、順次、
ベクトル量子化し、そのベクトル量子化結果としてのコ
ード、即ち、統合パラメータとの距離が最も近いコード
ベクトルに対応するコードを、順次、距離計算部６４に
供給するようになされている。

【０１０５】コードブック記憶部６３は、ベクトル量子
化部６２がベクトル量子化に用いるコードブックを記憶
している。

【０１０６】距離計算部６４は、距離推移モデル記憶部
６５に記憶されている、認識対象の単語の距離推移モデ
ルから、ベクトル量子化部６２が出力するコードの系列
が観測されるときの、コードベクトルとの距離を、時間
ごとに累積し、その累積値を、ソート部６６に供給する
ようになされている。

【０１０７】距離推移モデル記憶部６５は、例えば、図
１２に示すような、認識対象の単語の時系列の統合パラ
メータ（標準系列）と、コードブック記憶部６３に記憶
されたコードブックの各コードベクトルとの間の距離の
推移を表す距離推移モデルを記憶している。即ち、距離
推移モデル記憶部６５は、後述する学習により得られ
る、図１２に示したような距離推移モデルを、認識対象
とされている単語それぞれについて記憶している。

【０１０８】なお、図１２の実施の形態では、コードブ
ック記憶部６３に記憶されたコードブックが、Ｊ＋１個
のコードベクトルＣ₀乃至Ｃ_Jを有するものとしてある。
また、図１２（Ａ）は、距離推移モデルをグラフで、図
１２（Ｂ）は、距離推移モデルを表で、それぞれ表して
いる。ここで、図１２（Ｂ）の表において、コードベク
トルＣ_jの行に注目すれば、その行に記載した各時刻
ｔ₀，ｔ₁，ｔ₂，・・・における距離Ｄ_cjt0，Ｄ_cjt1，
Ｄ_cjt2，・・・が図１２（Ａ）のグラフにおけるコード
ベクトルＣ_jに対する距離の推移を表す。

【０１０９】ソート部６６は、距離計算部６４から供給
される、認識対象の各単語の距離推移モデルについての
距離の累積値のうち、その値が小さいものから、上位Ｎ
ｂ個を選択し（Ｎｂは自然数）、統合パラメータと距離
推移モデルとのマッチング結果として、判定回路４に出
力するようになされている。

【０１１０】以上のように構成される距離推移方式マッ
チング部３１では、距離推移方式によるマッチングが行
われるようになされており、この距離推移方式によるマ
ッチング処理について、図１３のフローチャートを参照
して説明する。

【０１１１】時間軸正規化部６１は、統合パラメータ生
成回路２から、ある単語の発話に対応する時系列の統合
パラメータを受信すると、ステップＳ３１において、そ
の時系列の統合パラメータを時間軸正規化し、ベクトル
量子化部６２に出力する。ベクトル量子化部６２は、ス
テップＳ３２において、コードブック記憶部６３に記憶
されたコードブックを参照することで、時間軸正規化部
６１からの時系列の統合パラメータを、順次、ベクトル
量子化し、そのベクトル量子化結果としての、統合パラ
メータとの距離を最も短くするコードベクトルに対応す
るコードの系列を、順次、距離計算部６４に供給する。

【０１１２】距離計算部６４は、ステップＳ３３におい
て、距離推移モデル記憶部６５に記憶されている、認識
対象の単語の距離推移モデルから、ベクトル量子化部６
２が出力するコードの系列が観測されるときの、コード
ベクトルとの距離を累積する。

【０１１３】即ち、ベクトル量子化部６２が出力するコ
ードの系列のうち、時刻ｔのコードをｓ_t（ｔ＝０，
１，・・・，Ｔ_C）と表すと、距離計算部６４は、ベク
トル量子化部６２が最初に出力するコードｓ₀に対応す
るコードベクトルＣ_j（ｊ＝０，１，・・・，Ｊ）につ
いての、時刻＃０における距離を、距離推移モデルを参
照することで求める。具体的には、例えば、コードｓ₀
に対応するコードベクトルがＣ₀である場合には、図１
２において、コードベクトルＣ₀からの距離の推移を表
している曲線上の、時刻＃０における距離が求められ
る。

【０１１４】さらに、距離計算部６４は、ベクトル量子
化部６２が２番目に出力するコードｓ₁に対応するコー
ドベクトルＣ_jとの、時刻＃１における距離を、距離推
移モデルを参照することで求める。以下、同様にして、
距離計算部６４は、ベクトル量子化部６２が最後に出力
するコードｓ_TCに対応するコードベクトルＣ_jとの、時
刻＃Ｔ_Cにおける距離までを、距離推移モデルを参照す
ることで、順次求めていき、それらの距離の累積値を計
算する。

【０１１５】従って、ベクトル量子化部６２が、時刻＃
０，＃１，＃２，・・・において、例えば、コード
Ｓ₀，Ｓ₀，Ｓ₁，・・・を出力する場合には、コードＳ₀
に対応するコードベクトルＣ₀との、時刻＃０における
距離Ｄ_c ₀ _t ₀、コードＳ₀に対応するコードベクトルＣ₀と
の、時刻＃１における距離Ｄ_c0t1、コードＳ₁に対応す
るコードベクトルＣ₁との、時刻＃２における距離Ｄ
_c1T2，・・・の加算値が、累積値として求められる。

【０１１６】そして、距離計算部６４は、距離推移モデ
ル記憶部６５に記憶されたすべての距離推移モデルそれ
ぞれについて、距離の累積値を計算すると、それらの距
離の累積値を、ソート部６６に出力し、ステップＳ３４
に進む。

【０１１７】ステップＳ３４では、ソート部６６におい
て、距離計算部６４からの、認識対象の各単語の距離推
移モデルについての距離の累積値のうち、その値が小さ
いものから、上位Ｎｂ個が選択され、ステップＳ３５に
進み、統合パラメータと距離推移モデルとのマッチング
結果として、判定回路４に出力され、処理を終了する。

【０１１８】次に、図１４は、図１０の距離推移モデル
記憶部６５に記憶させる距離推移モデルを求める学習を
行う学習装置の一実施の形態の構成例を示している。

【０１１９】時間軸正規化部７１には、距離推移モデル
を求める学習を行うのに用いる時系列の学習統合パラメ
ータが供給されるようになされており、時間軸正規化部
７１は、図１０の時間軸正規化部６１と同様に、学習統
合パラメータを時間軸正規化し、距離計算部７２に供給
するようになされている。

【０１２０】ここで、時間軸正規化部７１には、例え
ば、ある単語の距離推移モデルを求めるための時系列の
学習統合パラメータが複数セット供給されるようになさ
れており、時間軸正規化部７１は、その複数セットの学
習統合パラメータそれぞれについて時間軸正規化を行
い、それらを１の学習統合パラメータにまとめて出力す
るようになされている。即ち、時間軸正規化部７１に
は、例えば、図１５（Ａ）に示すように、ある単語につ
いて、継続時間が必ずしも同一でない複数（図１５にお
いては、Ｎｃ個）の学習統合パラメータが供給されるよ
うになされており、時間軸正規化部７１は、その複数の
学習統合パラメータの継続時間が、図１５（Ｂ）に示す
ように、いずれも時間Ｔ_Cとなるように時間軸正規化を
行う。そして、時間軸正規化部７１は、図１５（Ｃ）に
示すように、時間軸正規化を行った複数の学習統合パラ
メータの、同一時刻のサンプル値どうしの、例えば、平
均値を計算し、その平均値を、各時刻におけるサンプル
値とする１つの学習統合パラメータを生成する。

【０１２１】なお、複数の学習統合パラメータを、１つ
の学習統合パラメータにまとめる方法は、これに限定さ
れるものではない。また、ある単語の距離推移モデルを
求めるための時系列の学習統合パラメータが１つだけし
か用意されていない場合には、時間軸正規化部７１は、
その１つの学習統合パラメータを時間軸正規化して、そ
のまま出力するようになされている。

【０１２２】距離計算部７２は、図１６に示すように、
コードブック記憶部７３に記憶されたコードブックの各
コードベクトルと、時間軸正規化部７１から供給される
時系列の学習統合パラメータとの距離を、順次計算し、
その距離の推移、即ち、時間軸正規化された、時刻＃０
乃至＃Ｔ_Cまでの学習統合パラメータと、各コードベク
トルとの距離の推移を、多項式表現化部７４に供給する
ようになされている。

【０１２３】コードブック記憶部７３は、図１０のコー
ドブック記憶部６３に記憶されているコードブックと同
一のコードブックを記憶している。なお、コードブック
記憶部６３および７３におけるコードブックは、コード
ブック作成部５２（図８）が作成したものと同一のもの
であっても良いし、異なるものであっても良い。

【０１２４】多項式表現化部７４は、距離計算部７２か
ら供給されるコードベクトルとの間の距離の推移を近似
する多項式を求め、距離推移モデルとして出力するよう
になされている。即ち、多項式表現化部７４では、図１
６に示したような距離の推移が、図１２に示したような
多項式で表される曲線で近似されるようになされてい
る。

【０１２５】次に、図１７のフローチャートを参照し
て、図１４の学習装置の処理について説明する。

【０１２６】時間軸正規化部７１に対しては、ある単語
の距離推移モデルを求めるための時系列の学習統合パラ
メータが複数セット供給され、時間軸正規化部７１は、
ステップＳ４１において、その複数セットの学習統合パ
ラメータそれぞれについて時間軸正規化を行い、それら
を１の学習統合パラメータにまとめて、距離計算部７２
に出力する。距離計算部７２は、ステップＳ４２におい
て、図１６に示したような、コードブック記憶部７３に
記憶されたコードブックの各コードベクトルと、時間軸
正規化部７１から供給される時系列の学習統合パラメー
タとの距離を、順次計算し、その距離の推移を、多項式
表現化部７４に供給する。

【０１２７】多項式表現化部７４では、ステップＳ４３
において、距離計算部７２から供給される、学習統合パ
ラメータ（標準系列）とコードベクトルとの間の距離の
推移を近似するＮｄ次の多項式が、例えば、最小二乗法
により求められる。

【０１２８】即ち、時刻ｔにおける学習統合パラメータ
と、コードベクトルＣ_jとの間の距離を近似するＮｄ次
の多項式ｆ_j（ｔ）は、次のように表すことができる。

【０１２９】ｆ_j（ｔ）＝ａ_j0＋ａ_j1ｔ¹＋ａ_j2ｔ²＋・・・＋ａ_jNdｔ^Nd ・・・（６）

【０１３０】従って、距離計算部７２において求められ
た、時刻ｔにおける学習統合パラメータと、コードベク
トルＣ_jとの間の距離ｆ_j（ｔ）を用いて、次式を解くこ
とで、最小二乗法により、式（６）を規定する係数
ａ_j0，ａ_j1，ａ_j2，・・・，ａ_jN _dを求めることができ
る。

【０１３１】

【数３】・・・（７）

【０１３２】多項式表現化部７４は、式（７）を、コー
ドベクトルＣ₀，Ｃ₁，・・・，Ｃ_Jそれぞれについて解
くことで、次式に示すような、学習統合パラメータと、
コードベクトルＣ₀，Ｃ₁，・・・，Ｃ_Jそれぞれとの間
の距離の推移を近似するＮｄ次の多項式ｆ_j（ｔ）を規
定する係数のセットＡを求める。

【０１３３】

【数４】・・・（８）

【０１３４】その後、ステップＳ４４に進み、多項式表
現化部７４は、式（８）の係数のセットＡで近似される
距離の推移と、図１６に示したような実際の距離の推移
との二乗誤差の、各コードベクトルＣ_jについての累積
値を求め、係数のセットＡとともに記憶して、ステップ
Ｓ４５に進む。ステップＳ４５では、多項式表現部７４
は、あらかじめ用意された範囲のすべての次数Ｎｄにつ
いて、上述したような二乗誤差の累積値を求めたかどう
かを判定する。ステップＳ４５において、あらかじめ用
意された範囲のすべての次数Ｎｄについて、まだ、二乗
誤差の累積値を求めていないと判定された場合、ステッ
プＳ４６に進み、多項式表現化部７４は、式（６）に示
した多項式ｆ_j（ｔ）の次数Ｎｄを、まだ二乗誤差の累
積値を求めていない値に変更する。そして、ステップＳ
４３に戻り、変更後の次数Ｎｄについて、以下、同様の
処理が繰り返される。

【０１３５】また、ステップＳ４５において、あらかじ
め用意された範囲のすべての次数Ｎｄについて、二乗誤
差の累積値を求めたと判定された場合、ステップＳ４７
に進み、多項式表現化部７４は、ステップＳ４４で記憶
した、あらかじめ用意された範囲のすべての次数Ｎｄに
ついての距離の推移の二乗誤差の累積値のうちの最小値
を検出し、その最小値とともに記憶している、多項式ｆ
_j（ｔ）を規定する係数のセットＡを、単語の距離推移
モデルとして出力して、処理を終了する。

【０１３６】なお、以上の処理は、認識対象の各単語に
ついてそれぞれ行われる。

【０１３７】以上のように、時系列の学習統合パラメー
タについて、時間軸の正規化を行い、その時間軸正規化
された学習統合パラメータ（標準系列）と、コードベク
トルとの間の距離を算出し、その距離の推移を表す距離
推移モデルを求めるようにしたので、認識対象が有する
本来の状態数や状態遷移の形態に沿うモデルを得ること
ができる。従って、そのような距離推移モデルによれ
ば、認識対象の定常状態や過渡状態が正確に表現され、
その結果、認識率を向上させることができる。

【０１３８】また、距離の推移を、多項式で近似するよ
うにしたので、その多項式を規定する係数だけで、即
ち、少ないデータ量で、距離の推移を表現することがで
きる。

【０１３９】さらに、距離の推移を近似する多項式の次
数Ｎｄを、二乗誤差の累積値が最小になるように決定す
るようにしたので、その多項式により、精度良く、距離
の推移を表現することができる。

【０１４０】なお、図１４では、統合パラメータを、学
習用のデータとして用いるようにしたが、単一の特徴パ
ラメータで認識を行う場合には、その単一の特徴パラメ
ータを、学習用のデータとして用いて、学習を行えば良
い。

【０１４１】また、上述した距離推移モデルの学習方法
は、特徴パラメータの種類や次元に依存するものではな
いため、特徴パラメータの種類や次元に関係なく適用可
能である。

【０１４２】さらに、上述の場合には、図１６に示した
ような実際の距離の推移を、図１２に示したように多項
式で近似された距離推移モデルを用いてマッチングを行
うようにしたが、マッチングは、図１６に示したような
実際の距離の推移をそのまま距離推移モデルとして用い
て行うことも可能である。

【０１４３】次に、図１８は、図１の空間分布方式マッ
チング部３２の構成例を示している。

【０１４４】ベクトル量子化部８１には、図１の統合パ
ラメータ生成回路２から統合パラメータが時系列に供給
されるようになされており、ベクトル量子化部８１は、
その時系列の統合パラメータを、コードブック記憶部８
２に記憶されたコードブックを用いてベクトル量子化
し、そのベクトル量子化結果としてのコードの系列を、
順次、カイ二乗（χ²）検定部８３に供給するようにな
されている。

【０１４５】コードブック記憶部８２は、ベクトル量子
化部８１におけるベクトル量子化に用いられるコードブ
ックを記憶している。

【０１４６】カイ二乗検定部８３は、期待度数記憶部８
４を参照し、ベクトル量子化部８１からのコード系列の
空間分布が、認識対象の単語が発話されたときに得られ
るコード系列の空間分布に類似しているかどうか、即
ち、ベクトル量子化部８１に供給された統合パラメータ
が、認識対象の単語に対応するものであるかどうかの適
正さを、カイ二乗検定(Hi Square Test)を行うことによ
り求め、ソート部８５に供給するようになされている。

【０１４７】期待度数記憶部８４は、コードブック記憶
部８２に記憶されたコードブックのコードベクトルに対
応する各コードについて、認識対象の単語に対応する統
合パラメータが入力されたときに観測される（ベクトル
量子化部８１に供給されたときに、そこから出力され
る）期待度数を記憶している。

【０１４８】ソート部８５は、カイ二乗検定部８３から
供給される、入力された統合パラメータが認識対象の単
語に対応するものであるかどうかの適正さに基づいて、
適正さが上位Ｎｂ個となる単語を選択し、空間分布方式
によるマッチング結果として、判定回路４（図１）に出
力するようになされている。

【０１４９】以上のように構成される空間分布マッチン
グ部３２では、空間分布方式によるマッチングが行われ
るようになされており、この空間分布方式によるマッチ
ング処理について、図１９のフローチャートを参照して
説明する。

【０１５０】認識すべき統合パラメータは、時系列に、
ベクトル量子化部８１に供給され、ベクトル量子化部８
１は、ステップＳ５１において、時系列の統合パラメー
タを、順次ベクトル量子化し、そのベクトル量子化結果
としてのコードの系列を、カイ二乗検定部８３に供給す
る。

【０１５１】カイ二乗検定部８３は、ステップＳ５２に
おいて、ベクトル量子化部８１からのコード系列の空間
分布を求める。即ち、カイ二乗検定部８３は、ベクトル
量子化部８１からのコード系列において、各コードが観
測される回数（以下、適宜、観測度数という）をカウン
トする。そして、ステップＳ５３に進み、カイ二乗検定
部８３は、各コードの観測度数と、期待度数記憶部８４
に記憶された、認識対象の単語の発話がなされたときに
観測されることが期待される各コードの回数である期待
度数とを用いてカイ二乗検定を行うことにより、入力さ
れた統合パラメータについての各コードの観測度数が、
認識対象の単語についての各コードの期待度数に類似し
ている度合い（以下、適宜、類似度という）を求め、ソ
ート部８５に供給する。

【０１５２】即ち、カイ二乗検定部８３は、あるコード
＃ｊの観測度数をＦ_jと表すとともに、ある単語Ｗのあ
るコード＃ｊの期待度数をｆ_jと表すと、次式に示すχ²
（カイ二乗）を計算し、例えば、その逆数を、単語Ｗに
対する類似度として、ソート部８５に供給する。

【０１５３】

【数５】・・・（９）

【０１５４】なお、式（９）に示したχ²は、入力され
た統合パラメータについての各コードの観測度数が、認
識対象の単語についての各コードの期待度数に類似して
いるほど小さくなる。従って、その逆数である類似度
は、入力された統合パラメータについての各コードの観
測度数が、認識対象の単語についての各コードの期待度
数に類似しているほど大きくなる。

【０１５５】ソート部８５は、カイ二乗検定部８３か
ら、認識対象の単語すべてについての類似度を受信する
と、ステップＳ５４において、そのうちの類似度の高い
上位Ｎｂ個を選択し、ステップＳ５５に進み、空間分布
方式によるマッチング結果として、判定回路４に出力し
て、処理を終了する。

【０１５６】以上のような空間分布方式によるマッチン
グによれば、統合パラメータ空間における、入力された
統合パラメータの分布状態と、認識対象の単語の統合パ
ラメータの分布状態との類似性が、カイ二乗検定により
求められるため、その類似性は、入力された音声の時間
的変動に影響を受けない。即ち、入力された音声の時間
（音声区間の長さ）は、カイ二乗検定に用いる観測度数
に影響するが、各コードの観測度数それぞれが、音声区
間の長さに比例した値だけ増減すると予測されるため、
カイ二乗検定結果は影響を受けない。従って、音声が有
する時間成分を考慮せずに認識を行うことができ、その
結果、認識率を向上させることが可能となる。

【０１５７】次に、図２０は、図１８の期待度数記憶部
８４に記憶されている認識対象の各単語についての各コ
ードの期待度数を求める学習を行う学習装置の一実施の
形態の構成例を示している。

【０１５８】ベクトル量子化部９１には、認識対象の単
語について、期待度数の学習を行うための時系列の学習
統合パラメータが供給されるようになされており、ベク
トル量子化部９１は、時系列の学習統合パラメータを、
コードブック記憶部９２に記憶されたコードブックを用
いてベクトル量子化し、そのベクトル量子化結果として
のコードの系列を、期待度数算出部９３に供給するよう
になされている。

【０１５９】コードブック記憶部９２は、図１８のコー
ドブック記憶部８２が記憶しているコードブックと同一
のコードブックを記憶している。なお、コードブック記
憶部８２および９２におけるコードブックは、コードブ
ック作成部５２（図８）が作成したものと同一のもので
あっても良いし、異なるものであっても良い。

【０１６０】期待度数算出部９３は、ベクトル量子化部
９１からのコードの系列において、各コードが観測され
る回数をカウントするようになされている。

【０１６１】次に、図２１のフローチャートを参照し
て、図２０の学習装置の処理について説明する。

【０１６２】ベクトル量子化部９１には、認識対象の１
の単語について、例えば、複数の時系列の学習統合パラ
メータ（異なる話者が発話したり、同一の話者が複数回
発話して得られたもの）が供給されるようになされてお
り、ステップＳ６１では、その統合パラメータの数をカ
ウントするための変数ｉが、例えば、１に初期化され、
ステップＳ６２に進む。

【０１６３】ステップＳ６２では、複数の学習統合パラ
メータのうちの最初の学習統合パラメータが、ベクトル
量子化部９１に供給され、ベクトル量子化部９１は、そ
の学習統合パラメータをベクトル量子化する。そのベク
トル量子化の結果得られるコードの系列は、期待度数算
出部９３に供給され、ステップＳ６３に進む。

【０１６４】ステップＳ６３では、ベクトル量子化部９
１からのコードの系列において、各コードが観測される
回数が積算され、これにより各コードの観測度数が求め
られる。そして、ステップＳ６４に進み、まだ、次に処
理すべき学習統合パラメータがあるかどうかが判定さ
れ、あると判定された場合、ステップＳ６５に進み、変
数ｉが１だけインクリメントされる。そして、ステップ
Ｓ６２に進み、その次に処理すべき学習統合パラメータ
を対象に、同様の処理が繰り返される。即ち、これによ
り、ある単語についての複数の学習統合パラメータから
観測される各コードの観測度数が積算されていく。

【０１６５】一方、ステップＳ６４において、次に処理
すべき学習統合パラメータがないと判定された場合、ス
テップＳ６６に進み、各コードの観測度数の積算値が、
例えば、変数ｉで除算され、即ち、ある単語についての
複数の学習統合パラメータから観測される各コードの観
測度数の平均値が求められ、その各コードの観測度数の
平均値が、その単語についての各コードの期待度数とし
て出力されて、処理を終了する。

【０１６６】なお、図２１の処理は、認識対象の単語そ
れぞれについて行われる。

【０１６７】次に、図２２は、図１の判定回路４の構成
例を示している。

【０１６８】スコア算出部１０１には、距離推移方式マ
ッチング部３１が出力する、距離推移方式による上位Ｎ
ｂ個のマッチング結果が供給されるようになっており、
スコア算出部１０２には、空間分布方式マッチング部３
２が出力する、空間分布方式による上位Ｎｂ個のマッチ
ング結果が供給されるようになっている。スコア算出部
１０１は、距離推移方式による上位Ｎｂ個のマッチング
結果に対して、その順位の高い順に、高いスコアを付
し、スコア加算部１０３に出力するようになっている。
スコア算出部１０２は、空間分布方式による上位Ｎｂ個
のマッチング結果に対して、その順位の高い順に、高い
スコアを付し、スコア加算部１０３に出力するようにな
っている。

【０１６９】スコア加算部１０３は、スコア算出部１０
１と１０２それぞれからの上位Ｎｂ個のマッチング結果
の中から、同一単語のマッチング結果どうしのスコアを
加算し、その加算値を、最大スコア検出部１０４に供給
するようになっている。

【０１７０】最大スコア検出部１０４は、スコア加算部
１０３から供給されるスコアのうちの最大値を検出し、
その最大のスコアを与える単語を、最終的な音声認識結
果として出力するようになっている。

【０１７１】次に、図２３のフローチャートを参照し
て、図２２の判定回路４の処理について説明する。

【０１７２】スコア算出部１０１に対して、距離推移方
式マッチング部３１から、距離推移方式による上位Ｎｂ
個のマッチング結果が供給されるとともに、スコア算出
部１０２に対して、空間分布方式マッチング部３２か
ら、空間分布方式による上位Ｎｂ個のマッチング結果が
供給されると、ステップＳ７１において、スコア算出部
１０１は、距離推移方式による上位Ｎｂ個のマッチング
結果に対して、その順位の高い順に、高いスコアを付
し、スコア加算部１０３に出力するとともに、スコア算
出部１０２は、空間分布方式による上位Ｎｂ個のマッチ
ング結果に対して、その順位の高い順に、高いスコアを
付し、スコア加算部１０３に出力する。

【０１７３】ここで、マッチング結果に対して付すスコ
アは、例えば、マッチング結果の順位に対して線形に変
化する値であっても良いし、非線形に変化する値であっ
ても良い。

【０１７４】スコア加算部１０３は、ステップＳ７２に
おいて、スコア算出部１０１と１０２それぞれからの上
位Ｎｂ個のマッチング結果の中から、同一単語のマッチ
ング結果どうしのスコアを加算し、その加算値を、最大
スコア検出部１０４に出力する。なお、スコア加算部１
０３は、スコア算出部１０１と１０２それぞれからの上
位Ｎｂ個のマッチング結果のいずれか一方にしか含まれ
ない単語については、その単語に付されたスコアを、そ
のまま最大スコア検出部１０４に供給する。

【０１７５】最大スコア検出部１０４は、ステップＳ７
３において、スコア加算部１０３から供給されるスコア
のうちの最大値を検出し、その最大のスコアを与える単
語を、最終的な音声認識結果として出力して、処理を終
了する。

【０１７６】次に、上述した一連の処理を行う、各ブロ
ック図で表される装置は、専用のハードウェアにより実
現することもできるし、ソフトウェアにより実現するこ
ともできる。ソフトウェアによって実現する場合には
（この場合、上述した各ブロック図は、機能ブロックを
表している図であるということができる）、そのソフト
ウェアを構成するプログラムが、汎用のコンピュータ等
にインストールされる。

【０１７７】そこで、図２４は、上述した一連の処理を
実行するプログラムがインストールされるコンピュータ
の一実施の形態の構成例を示している。

【０１７８】プログラムは、コンピュータに内蔵されて
いる記録媒体としてのハードディスク２０５やＲＯＭ２
０３に予め記録しておくことができる。

【０１７９】あるいはまた、プログラムは、フロッピー
ディスク、CD-ROM(Compact Disc Read Only Memory)，M
O(Magneto optical)ディスク，DVD(Digital Versatile
Disc)、磁気ディスク、半導体メモリなどのリムーバブ
ル記録媒体２１１に、一時的あるいは永続的に格納（記
録）しておくことができる。このようなリムーバブル記
録媒体２１１は、いわゆるパッケージソフトウエアとし
て提供することができる。

【０１８０】なお、プログラムは、上述したようなリム
ーバブル記録媒体２１１からコンピュータにインストー
ルする他、ダウンロードサイトから、ディジタル衛星放
送用の人工衛星を介して、コンピュータに無線で転送し
たり、LAN(Local Area Network)、インターネットとい
ったネットワークを介して、コンピュータに有線で転送
し、コンピュータでは、そのようにして転送されてくる
プログラムを、通信部２０８で受信し、内蔵するハード
ディスク２０５にインストールすることができる。

【０１８１】コンピュータは、CPU(Central Processing
Unit)２０２を内蔵している。CPU２０２には、バス２
０１を介して、入出力インタフェース１２０が接続され
ており、CPU２０２は、入出力インタフェース１２０を
介して、ユーザによって、キーボードやマウス等で構成
される入力部２０７が操作されることにより指令が入力
されると、それにしたがって、ROM(Read Only Memory)
２０３に格納されているプログラムを実行する。あるい
は、また、CPU２０２は、ハードディスク２０５に格納
されているプログラム、衛星若しくはネットワークから
転送され、通信部２０８で受信されてハードディスク２
０５にインストールされたプログラム、またはドライブ
２０９に装着されたリムーバブル記録媒体２１１から読
み出されてハードディスク２０５にインストールされた
プログラムを、RAM(Random Access Memory)２０４にロ
ードして実行する。これにより、CPU２０２は、上述し
たフローチャートにしたがった各種の処理を実行する。
そして、CPU２０２は、その処理結果を、必要に応じ
て、例えば、入出力インタフェース１２０を介して、LC
D(Liquid CryStal Display)やスピーカ等で構成される
出力部２０６から出力、あるいは、通信部２０８から送
信、さらには、ハードディスク２０５に記録等させる。

【０１８２】ここで、本明細書において、コンピュータ
に各種の処理を行わせるためのプログラムを記述する処
理ステップは、必ずしもフローチャートとして記載され
た順序に沿って時系列に処理する必要はなく、並列的あ
るいは個別に実行される処理（例えば、並列処理あるい
はオブジェクトによる処理）も含むものである。

【０１８３】また、プログラムは、１のコンピュータに
より処理されるものであっても良いし、複数のコンピュ
ータによって分散処理されるものであっても良い。さら
に、プログラムは、遠方のコンピュータに転送されて実
行されるものであっても良い。

【０１８４】以上、本発明を適用した音声認識装置につ
いて説明したが、本発明は、その他、例えば、話者や、
画像その他を認識する装置などにも適用可能である。

【０１８５】

【発明の効果】本発明の学習装置および学習方法、並び
に第１の記録媒体によれば、正規化係数に基づいて、複
数の特徴パラメータそれぞれが正規化され、正規化され
た複数の特徴パラメータそれぞれについて、所定の標準
パラメータとの距離が算出される。そして、複数の特徴
パラメータのうちの任意の１つについての距離と、他の
任意の１つについての距離とが等しくなるように、正規
化係数が変更される。従って、複数の特徴パラメータそ
れぞれを、同等の重みで扱うことができるように正規化
を行うことができる正規化係数を求めることが可能とな
る。

【０１８６】本発明の認識装置および認識方法、並びに
第２の記録媒体によれば、複数の入力データそれぞれの
特徴パラメータが正規化され、正規化された複数の特徴
パラメータが統合されて統合パラメータとされる。そし
て、統合パラメータに基づいて、複数の入力データの１
以上が所定の認識対象に対するものか否かが認識され
る。従って、認識にあたり、ある入力データの影響を強
く受けることを防止することが可能となる。

【図面の簡単な説明】

【図１】本発明を適用した音声認識装置の一実施の形態
の構成例を示すブロック図である。

【図２】図１の音声認識装置の処理を説明するためのフ
ローチャートである。

【図３】図１の処理部１１₁の一実施の形態の構成例を
示すブロック図である。

【図４】図３の処理部１１₁の処理を説明するためのフ
ローチャートである。

【図５】全体重心、上重心、下重心、分割重心を示す図
である。

【図６】図３の楕円近似部４８Ｕおよび４８Ｄの処理を
説明するための図である。

【図７】図３の口唇パラメータ出力部４９が出力する口
唇の特徴パラメータを説明するための図である。

【図８】図１のメディア間正規化部２１が用いる正規化
係数の学習を行う学習装置の一実施の形態の構成例を示
すブロック図である。

【図９】図８の学習装置の処理を説明するためのフロー
チャートである。

【図１０】図１の距離推移方式マッチング部３１の一実
施の形態の構成例を示すブロック図である。

【図１１】図１０の時間軸正規化部６１の処理を説明す
るための図である。

【図１２】図１０の距離推移モデル記憶部６５に記憶さ
れている距離推移モデルを説明するための図である。

【図１３】図１０の距離推移方式マッチング部３１の処
理を説明するためのフローチャートである。

【図１４】距離推移モデルを求める学習を行う学習装置
の一実施の形態の構成例を示すブロック図である。

【図１５】図１４の時間軸正規化部７１の処理を説明す
るための図である。

【図１６】図１４の距離計算部７２が出力する距離の推
移を示す図である。

【図１７】図１４の学習装置の処理を説明するためのフ
ローチャートである。

【図１８】図１の空間分布方式マッチング部３２の一実
施の形態の構成例を示すブロック図である。

【図１９】図１８の空間分布方式マッチング部３２の処
理を説明するためのフローチャートである。

【図２０】図１８の期待度数記憶部８４に記憶されてい
る期待度数を求める学習を行う学習装置の一実施の形態
の構成例を示すブロック図である。

【図２１】図２０の学習装置の処理を説明するためのフ
ローチャートである。

【図２２】図１の判定回路４の構成例を示すブロック図
である。

【図２３】図２２の判定回路４の処理を説明するための
フローチャートである。

【図２４】本発明を適用したコンピュータの一実施の形
態の構成例を示すブロック図である。

【符号の説明】

１パラメータ化回路，２統合パラメータ生成回
路，３マッチング回路，４判定回路，１１₁
乃至１１_N 処理部，２１メディア間正規化部，
２２統合パラメータ生成部，３１距離推移方式マ
ッチング部，３２空間分布方式マッチング部，４１
ＹＩＱ変換部，４２Ｑ成分抽出部，４３全体重
心算出部，４４上重心／下重心算出部，４５分
割重心算出部，４６分割部，４７Ｕ，４７Ｄミ
ラー領域生成部，４８Ｕ，４８Ｄ楕円近似部，４
９口唇パラメータ出力部，５１仮正規化部，５
２コードブック作成部，５３仮正規化部，５４
ベクトル量子化部，５５正規化係数制御部，６１
時間軸正規化部，６２ベクトル量子化部，６３
コードブック記憶部，６４距離計算部，６５距
離推移モデル記憶部，６６ソート部，７１時間
軸正規化部，７２距離計算部，７３コードブッ
ク記憶部，７４多項式表現化部，８１ベクトル
量子化部，８２コードブック記憶部，８３カイ
二乗検定部，８４期待度数記憶部，８５ソート
部，９１ベクトル量子化部，９２コードブック
記憶部，９３期待度数算出部，１０１，１０２
スコア算出部，１０３スコア加算部，１０４最大
スコア検出部，２０１バス，２０２ CPU，２
０３ ROM，２０４ RAM，２０５ハードディス
ク，２０６出力部，２０７入力部，２０８
通信部，２０９ドライブ，１２０入出力インタ
フェース，２１１リムーバブル記録媒体

フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｇ１０Ｌ 19/00 // Ｇ１０Ｌ 101:10

Claims

【特許請求の範囲】

【請求項１】複数の入力データについて、それぞれの
特徴を表す特徴パラメータの正規化に用いる正規化係数
を求めるための学習を行う学習装置であって、前記正規化係数に基づいて、複数の特徴パラメータそれ
ぞれを正規化する特徴パラメータ正規化手段と、正規化された前記複数の特徴パラメータそれぞれについ
て、所定の標準パラメータとの距離を算出する距離算出
手段と、前記複数の特徴パラメータのうちの任意の１つについて
の距離と、他の任意の１つについての距離とが等しくな
るように、前記正規化係数を変更する変更手段とを備え
ることを特徴とする学習装置。
【請求項２】ベクトル量子化に用いるコードブックを
生成するためのコードブック生成データを、前記正規化
係数に基づいて正規化するコードブック生成データ正規
化手段と、正規化された前記コードブック生成データを用いて、前
記コードブックを生成するコードブック生成手段とをさ
らに備え、前記距離算出手段は、前記コードブックにおけるコード
ベクトルのうち、前記特徴パラメータに最も近いもの
を、前記標準パラメータとして、その特徴パラメータと
の距離を算出することを特徴とする請求項１に記載の学
習装置。
【請求項３】前記複数の入力データは、少なくとも画
像と音声のデータを含むことを特徴とする請求項１に記
載の学習装置。
【請求項４】複数の入力データについて、それぞれの
特徴を表す特徴パラメータの正規化に用いる正規化係数
を求めるための学習を行う学習方法であって、前記正規化係数に基づいて、複数の特徴パラメータそれ
ぞれを正規化し、正規化された前記複数の特徴パラメータそれぞれについ
て、所定の標準パラメータとの距離を算出し、前記複数の特徴パラメータのうちの任意の１つについて
の距離と、他の任意の１つについての距離とが等しくな
るように、前記正規化係数を変更することを特徴とする
学習方法。
【請求項５】複数の入力データについて、それぞれの
特徴を表す特徴パラメータの正規化に用いる正規化係数
を求めるための学習を、コンピュータに行わせるプログ
ラムが記録されている記録媒体であって、前記正規化係数に基づいて、複数の特徴パラメータそれ
ぞれを正規化する特徴パラメータ正規化ステップと、正規化された前記複数の特徴パラメータそれぞれについ
て、所定の標準パラメータとの距離を算出する距離算出
ステップと、前記複数の特徴パラメータのうちの任意の１つについて
の距離と、他の任意の１つについての距離とが等しくな
るように、前記正規化係数を変更する変更ステップとを
備えるプログラムが記録されていることを特徴とする記
録媒体。
【請求項６】複数の入力データを処理することによ
り、その複数の入力データそれぞれについて、特徴パラ
メータを出力する処理手段と、前記複数の入力データそれぞれの特徴パラメータを正規
化する正規化手段と、正規化された複数の特徴パラメータを統合し、統合パラ
メータとする統合手段と、前記統合パラメータに基づいて、前記複数の入力データ
の１以上が所定の認識対象に対するものか否かを認識す
る認識手段とを備えることを特徴とする認識装置。
【請求項７】前記正規化手段は、前記特徴パラメータ
を、所定の正規化係数に基づいて正規化することを特徴
とする請求項６に記載の認識装置。
【請求項８】前記正規化係数は、前記正規化係数に基づいて、複数の特徴パラメータそれ
ぞれを正規化し、正規化された前記複数の特徴パラメータそれぞれについ
て、所定の標準パラメータとの距離を算出し、前記複数の特徴パラメータのうちの任意の１つについて
の距離と、他の任意の１つについての距離とが等しくな
るように、前記正規化係数を変更することにより得られ
たものであることを特徴とする請求項７に記載の認識装
置。
【請求項９】前記正規化係数は、ベクトル量子化に用いるコードブックを生成するための
コードブック生成データを、前記正規化係数に基づいて
正規化し、その正規化された前記コードブック生成データを用い
て、前記コードブックを生成し、前記コードブックにおけるコードベクトルのうち、前記
特徴パラメータに最も近いものを、前記標準パラメータ
として、その特徴パラメータとの距離を算出し、前記複数の特徴パラメータのうちの任意の１つについて
の距離と、他の任意の１つについての距離とが等しくな
るように、前記正規化係数を変更することにより得られ
たものであることを特徴とする請求項７に記載の認識装
置。
【請求項１０】前記複数の入力データは、少なくとも
画像と音声のデータを含むことを特徴とする請求項６に
記載の認識装置。
【請求項１１】前記認識手段は、前記音声を認識する
ことを特徴とする請求項１０に記載の認識装置。
【請求項１２】前記統合パラメータを時間軸方向に正
規化する時間軸正規化手段をさらに備えることを特徴と
する請求項６に記載の認識装置。
【請求項１３】複数の入力データを処理することによ
り、その複数の入力データそれぞれについて、特徴パラ
メータを出力し、前記複数の入力データそれぞれの特徴パラメータを正規
化し、正規化された複数の特徴パラメータを統合して統合パラ
メータとし、前記統合パラメータに基づいて、前記複数の入力データ
の１以上が所定の認識対象に対するものか否かを認識す
ることを特徴とする認識方法。
【請求項１４】コンピュータに実行させるプログラム
が記録されている記録媒体であって、複数の入力データを処理することにより、その複数の入
力データそれぞれについて、特徴パラメータを出力する
処理ステップと、前記複数の入力データそれぞれの特徴パラメータを正規
化する正規化ステップと、正規化された複数の特徴パラメータを統合し、統合パラ
メータとする統合ステップと、前記統合パラメータに基づいて、前記複数の入力データ
の１以上が所定の認識対象に対するものか否かを認識す
る認識ステップとを備えるプログラムが記録されている
ことを特徴とする記録媒体。