JP2000200098A - 学習装置および学習方法、並びに認識装置および認識方法 - Google Patents

学習装置および学習方法、並びに認識装置および認識方法

Info

Publication number
JP2000200098A
JP2000200098A JP11001789A JP178999A JP2000200098A JP 2000200098 A JP2000200098 A JP 2000200098A JP 11001789 A JP11001789 A JP 11001789A JP 178999 A JP178999 A JP 178999A JP 2000200098 A JP2000200098 A JP 2000200098A
Authority
JP
Japan
Prior art keywords
time
learning
parameter
distance
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11001789A
Other languages
English (en)
Inventor
Tetsujiro Kondo
哲二郎 近藤
Norifumi Yoshihara
典文 吉原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP11001789A priority Critical patent/JP2000200098A/ja
Priority to US09/478,061 priority patent/US6718299B1/en
Publication of JP2000200098A publication Critical patent/JP2000200098A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

(57)【要約】 【課題】 認識性能を向上させる。 【解決手段】 画像と音声の特徴パラメータを、固定の
正規化係数によって正規化して統合し、統合パラメータ
とした場合には、画像または音声の特徴パラメータそれ
ぞれが、図17(A)または図17(B)に示すよう
に、ある時刻において顕著な特徴を有する場合であって
も、図17(C)に示すように、画像と音声の特徴パラ
メータどうしが相殺しあって、それぞれの顕著な特徴が
失われることがある。そこで、図17(D)に示すよう
に、画像と音声の時系列の特徴パラメータを、それぞれ
の特徴が失われない形で(最適な形で)統合して統合パ
ラメータとすることができる時系列の正規化係数を用い
て、統合パラメータが構成される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、学習装置および学
習方法、並びに認識装置および認識方法に関し、特に、
例えば、音声の認識を、発話された音声と、その発話が
なされたときの口唇の画像とに基づいて行う場合に、音
声と画像の特徴パラメータを、最適な形で扱うことがで
きるようにすることにより、認識性能を向上させること
ができるようにする学習装置および学習方法、並びに認
識装置および認識方法に関する。
【0002】
【従来の技術】例えば、音声の認識は、その音声から、
特徴パラメータを抽出し、その特徴パラメータを、基準
となる標準パラメータ(標準パターン)と比較すること
で行われる。
【0003】
【発明が解決しようとする課題】ところで、音声の認識
を、その音声のみに基づいて行う場合には、その認識率
を向上させるのに、ある程度の限界がある。そこで、音
声の認識を、その音声の他、発話を行っている話者の口
唇を撮影した画像などをも用いて行うことにより、その
認識率を向上させる方法が考えられる。
【0004】そして、この場合、音声から抽出した特徴
パラメータと、口唇の画像から抽出した特徴パラメータ
とを統合(結合)して、いわば統合パラメータとし、こ
の統合パラメータを用いて、音声の認識を行うことが考
えられる。
【0005】しかしながら、音声の特徴パラメータと、
画像の特徴パラメータとを、単に並べて(つなぎ合わせ
て)統合パラメータとし、認識を行う場合には、音声ま
たは画像のうちのいずれか一方の影響を強く受け、即
ち、いずれか一方の特徴パラメータの重みが大きく、認
識率の向上の妨げになるおそれがある。
【0006】本発明は、このような状況に鑑みてなされ
たものであり、音声や画像などの異なる入力の特徴パラ
メータを、最適な形で扱うことができるようにし、これ
により、認識性能を向上させることができるようにする
ものである。
【0007】
【課題を解決するための手段】本発明の学習装置は、所
定の学習用の正規化係数に基づいて、複数の入力データ
の特徴パラメータそれぞれを正規化する正規化手段と、
正規化された複数の特徴パラメータそれぞれについて、
所定の標準パラメータとの距離を算出する算出手段と、
距離に基づき、時系列の特徴パラメータそれぞれについ
て、認識時に用いる時系列の正規化係数を決定する決定
手段とを備えることを特徴とする。
【0008】本発明の学習方法は、所定の学習用の正規
化係数に基づいて、複数の入力データの特徴パラメータ
それぞれを正規化し、正規化された複数の特徴パラメー
タそれぞれについて、所定の標準パラメータとの距離を
算出し、距離に基づき、時系列の特徴パラメータそれぞ
れについて、認識時に用いる時系列の正規化係数を決定
することを特徴とする。
【0009】本発明の認識装置は、複数の入力データそ
れぞれの時系列の特徴パラメータを正規化するための認
識用の時系列の正規化係数を記憶している記憶手段と、
複数の入力データそれぞれの時系列の特徴パラメータ
を、認識用の時系列の正規化係数に基づいて正規化する
正規化手段と、正規化された複数の特徴パラメータを統
合し、統合パラメータとする統合手段と、統合パラメー
タに基づいて、所定の認識対象を認識する認識手段とを
備えることを特徴とする。
【0010】本発明の認識方法は、複数の入力データそ
れぞれの時系列の特徴パラメータを、認識用の時系列の
正規化係数に基づいて正規化し、正規化された複数の特
徴パラメータを統合して、統合パラメータとし、統合パ
ラメータに基づいて、所定の認識対象を認識することを
特徴とする。
【0011】本発明の学習装置においては、正規化手段
は、所定の学習用の正規化係数に基づいて、複数の入力
データの特徴パラメータそれぞれを正規化し、算出手段
は、正規化された複数の特徴パラメータそれぞれについ
て、所定の標準パラメータとの距離を算出するようにな
されている。決定手段は、距離に基づき、時系列の特徴
パラメータそれぞれについて、認識時に用いる時系列の
正規化係数を決定するようになされている。
【0012】本発明の学習方法においては、所定の学習
用の正規化係数に基づいて、複数の入力データの特徴パ
ラメータそれぞれを正規化し、正規化された複数の特徴
パラメータそれぞれについて、所定の標準パラメータと
の距離を算出し、距離に基づき、時系列の特徴パラメー
タそれぞれについて、認識時に用いる時系列の正規化係
数を決定するようになされている。
【0013】本発明の認識装置においては、記憶手段
は、複数の入力データそれぞれの時系列の特徴パラメー
タを正規化するための認識用の時系列の正規化係数を記
憶しており、正規化手段は、複数の入力データそれぞれ
の時系列の特徴パラメータを、認識用の時系列の正規化
係数に基づいて正規化するようになされている。統合手
段は、正規化された複数の特徴パラメータを統合して、
統合パラメータとし、認識手段は、統合パラメータに基
づいて、所定の認識対象を認識するようになされてい
る。
【0014】本発明の認識方法においては、複数の入力
データそれぞれの時系列の特徴パラメータを、認識用の
時系列の正規化係数に基づいて正規化し、正規化された
複数の特徴パラメータを統合して、統合パラメータと
し、統合パラメータに基づいて、所定の認識対象を認識
するようになされている。
【0015】
【発明の実施の形態】以下に、本発明の実施の形態を説
明するが、その前に、特許請求の範囲に記載の発明の各
手段と以下の実施の形態との対応関係を明らかにするた
めに、各手段の後の括弧内に、対応する実施の形態(但
し、一例)を付加して、本発明の特徴を記述すると、次
のようになる。
【0016】即ち、請求項1に記載の学習装置は、複数
の入力データについて、それぞれの特徴を表す時系列の
特徴パラメータの正規化に用いる時系列の正規化係数を
求めるための学習を行う学習装置であって、所定の学習
用の正規化係数に基づいて、複数の入力データの特徴パ
ラメータそれぞれを正規化する正規化手段(例えば、図
18に示すメディア間正規化部121など)と、正規化
された複数の特徴パラメータそれぞれについて、所定の
標準パラメータとの距離を算出する算出手段(例えば、
図18に示すマッチング部131など)と、距離に基づ
き、時系列の特徴パラメータそれぞれについて、認識時
に用いる時系列の正規化係数を決定する決定手段(例え
ば、図18に示す最適正規化係数検出部104など)と
を備えることを特徴とする。
【0017】請求項6に記載の認識装置は、所定の認識
対象を、複数の入力データに基づいて認識する認識装置
であって、複数の入力データを処理することにより、そ
の複数の入力データそれぞれについて、時系列の特徴パ
ラメータを出力する処理手段(例えば、図23に示すパ
ラメータ化回路1など)と、複数の入力データそれぞれ
の時系列の特徴パラメータを正規化するための認識用の
時系列の正規化係数を記憶している記憶手段(例えば、
図24に示す距離推移モデル記憶部265など)と、複
数の入力データそれぞれの時系列の特徴パラメータを、
認識用の時系列の正規化係数に基づいて正規化する正規
化手段(例えば、図24に示すメディア間正規化部26
7など)と、正規化された複数の特徴パラメータを統合
し、統合パラメータとする統合手段(例えば、図24に
示す統合パラメータ生成部268など)と、統合パラメ
ータに基づいて、所定の認識対象を認識する認識手段
(例えば、図24に示す距離計算部64など)とを備え
ることを特徴とする。
【0018】なお、勿論この記載は、各手段を上記した
ものに限定することを意味するものではない。
【0019】図1は、複数の入力データそれぞれの特徴
パラメータを統合した統合パラメータに基づいて音声認
識を行う音声認識装置の構成例を示している。
【0020】この音声認識装置には、認識対象である、
ユーザが発話した音声である発話データの他、そのユー
ザが発話している口唇を撮影した画像のデータ(画像デ
ータ)、ユーザが発話した環境における雑音のデータ
(雑音データ)、その他のユーザの発話(音声)を認識
するのに役立ちうるデータ(例えば、ユーザが発話を行
っている場所を入力するボタンが装置に設けられている
場合において、そのボタンが操作されたときの、その操
作に対応する信号など)が、時系列に、順次入力される
ようになされており、これらのデータを必要に応じて考
慮して、発話データの認識が行われるようになされてい
る。
【0021】即ち、パラメータ化回路1には、上述した
発話データ、口唇の画像データ、雑音データ、その他の
データ(ここでは、例えば、いずれもディジタルデータ
とする)が入力されるようになされている。そして、パ
ラメータ化回路1は、そこに入力される各種のデータそ
れぞれを処理するための信号処理部111乃至11Nを有
しており、発話データ、口唇の画像データ、雑音デー
タ、その他のデータを、対応する信号処理部11n(n
=1,2,・・・,N:Nは、パラメータ化回路1に入
力可能な信号の数)において処理することにより、各デ
ータの特徴を表す特徴パラメータの抽出等を行うように
なされている。パラメータ化回路1で抽出された特徴パ
ラメータは、統合パラメータ生成回路2に供給されるよ
うになされている。
【0022】ここで、図1の実施の形態では、信号処理
部111,112、または11Nそれぞれにおいて、口唇
の画像データ、発話データ、または雑音データが処理さ
れるようになされている。なお、発話データや雑音デー
タなどの音声(音響)データの特徴パラメータとして
は、例えば、線形予測係数や、ケプストラム係数、パワ
ー、線スペクトル対、ゼロクロスなどがある。また、口
唇の画像データの特徴パラメータとしては、例えば、そ
の口唇の形状を近似する楕円を規定するパラメータ(例
えば、楕円の長径と短径など)がある。
【0023】統合パラメータ生成回路2は、メディア間
正規化部21および統合パラメータ生成部22で構成さ
れ、パラメータ化回路1からの各種の信号の特徴パラメ
ータを統合した統合パラメータを生成するようになされ
ている。
【0024】即ち、メディア間正規化部21は、パラメ
ータ化回路1からの各種の信号の特徴パラメータを、同
一の重み(スケール)で扱うことができるように正規化
し、統合パラメータ生成部22に出力するようになされ
ている。統合パラメータ生成部22は、メディア間正規
化部21から供給される、各種の信号の、正規化された
特徴パラメータを統合する(つなぎ合わせる)ことによ
り、統合パラメータを生成し、マッチング回路3に出力
するようになされている。
【0025】マッチング回路3は、統合パラメータと、
所定の標準パターン(認識対象のモデル)とのマッチン
グを行い、そのマッチング結果を、判定回路4に出力す
るようになされている。即ち、マッチング回路3は、こ
こでは、距離推移方式マッチング部31および空間分布
方式マッチング部32を有している。距離推移方式マッ
チング部31は、後述する距離推移モデルを用いて、後
述する距離推移方式による統合パラメータのマッチング
を行い、そのマッチング結果を、判定回路4に出力する
ようになされている。空間分布方式マッチング部32
は、後述する空間分布方式による統合パラメータのマッ
チングを行い、そのマッチング結果を、判定回路4に出
力するようになされている。
【0026】判定回路4は、マッチング回路3の出力、
即ち、ここでは、距離推移方式マッチング部31および
空間分布方式マッチング部32におけるマッチング結果
に基づいて、ユーザの発話(音声)を認識し、その認識
結果としての、例えば、単語を出力するようになされて
いる。従って、ここでは単語を音声認識の対象としてい
るが、その他、例えば、音素などを、音声認識の対象と
することも可能である。
【0027】次に、図2のフローチャートを参照して、
図1の音声認識装置の処理について説明する。
【0028】音声認識装置では、発話データ、口唇の画
像データ、雑音データ等が入力されると、それらのデー
タが、パラメータ化回路1に供給される。
【0029】パラメータ化回路1では、ステップS1に
おいて、発話データ、口唇の画像データ、雑音データ等
が処理され、それぞれのデータについて、特徴パラメー
タが抽出される。各データの特徴パラメータは、統合パ
ラメータ生成回路2に供給される。
【0030】統合パラメータ生成回路2のメディア間正
規化部21では、ステップS2において、パラメータ化
回路1からの各データの特徴パラメータが正規化され、
その正規化された特徴パラメータが、統合パラメータ生
成部22に供給される。統合パラメータ生成部22で
は、ステップS3において、メディア間正規化部21か
らの各データの正規化された特徴パラメータが統合さ
れ、統合パラメータとされる。この統合パラメータは、
マッチング回路3の距離推移方式マッチング部31およ
び空間分布方式マッチング部32に供給される。
【0031】距離推移方式マッチング部31または空間
分布方式マッチング部32では、ステップS4におい
て、統合パラメータ生成回路2からの統合パラメータの
マッチングが、距離推移方式または空間分布方式によっ
てそれぞれ行われ、それぞれのマッチング結果が、判定
回路4に供給される。判定回路4は、ステップS5にお
いて、マッチング回路3からのマッチング結果に基づ
き、発話データ(ユーザの発話)の認識を行い、その認
識結果(音声認識結果)を出力して、処理を終了する。
【0032】次に、図1のメディア間正規化部21にお
いては、上述したように、パラメータ化回路1からの各
種の信号の特徴パラメータが、同一の重みで扱うことが
できるように正規化されるが、この正規化は、各特徴パ
ラメータに、所定の正規化係数を乗算することで行われ
るようになされている。そして、その正規化係数は、所
定の学習(正規化係数学習処理)を行うことにより求め
られるようになされており、図3は、そのような学習を
行う学習装置の構成例を示している。
【0033】なお、ここでは、説明を簡単にするため
に、異なる2つのメディアである画像と音声の特徴パラ
メータ(例えば、発話された音声の特徴パラメータと、
その発話時の口唇の画像の特徴パラメータなど)の重み
を同一にするための正規化係数を求める学習について説
明する。
【0034】仮正規化部51には、ベクトル量子化に用
いるコードブックを生成するためのコードベクトル学習
用パラメータ(コードブック生成用データ)としての、
画像の特徴パラメータPi,jおよび音声の特徴パラメー
タVi,jが供給されるようになされており、仮正規化部
51は、正規化係数制御部55からの正規化係数によっ
て、特徴パラメータPi,jおよび音声の特徴パラメータ
i,jを、仮に正規化し、コードブック作成部52に供
給するようになされている。即ち、本実施の形態では、
例えば、画像の特徴パラメータPi,jの重みを基準と
し、その重みに、音声の特徴パラメータVi,jの重みを
一致させるために、音声の特徴パラメータVi,jに対し
て、正規化係数制御部55からの正規化係数αが乗算さ
れる(この場合、画像の特徴パラメータPi,jには、正
規化係数として1が乗算されると考えることができ
る)。
【0035】ここで、特徴パラメータPi,jおよびVi,j
の行を表すサフィックスiは、その特徴パラメータP
i,j,Vi,jが抽出された時刻(フレーム)を表し、列を
表すサフィックスjは、特徴パラメータPi,j,Vi,j
次数(次元)を表す(従って、(Pi,1,Pi,2,・・
・,Pi,L,Vi,1,Vi,2,・・・,Vi,M)が、ある時
刻iにおける特徴パラメータ(特徴ベクトル)であ
る)。また、図3では、特徴パラメータPi,jにカッコ
付きのサフィックス(k)を付して、P(k) i,jと示して
あるが、これは、kが異なれば、異なる学習用のデータ
から生成された特徴パラメータであることを表してい
る。V(k) i,jのサフィックス(k)についても、同様で
ある。
【0036】コードブック作成部52は、仮の正規化が
なされた特徴パラメータとしてのコードベクトル学習用
パラメータPi,jおよびVi,jを用いて、ベクトル量子化
部54におけるベクトル量子化に用いるコードブックを
生成(作成)し、ベクトル量子化部54に供給するよう
になされている。
【0037】ここで、コードブック作成部52は、例え
ば、LBG(Linde, Buzo, Gray)アルゴリズムにした
がって、コードブックを作成するようになされている
(但し、LBGアルゴリズム以外のアルゴリズムを採用
することも可能である)。
【0038】LBGアルゴリズムは、いわばバッチ型学
習アルゴリズムで、学習サンプル(学習用データ)とし
ての特徴パラメータと、コードブックを構成するコード
ベクトル(代表ベクトル)(最初は、適当な初期値が与
えられる)との距離に対応して、特徴パラメータ空間を
最適分割するボロノイス分割、およびボロノイス分割に
より得られる、特徴パラメータ空間の各部分領域の重心
への、コードベクトルの更新を繰り返し行うことによ
り、コードブックのコードベクトルを、局所的に最適な
位置に収束させるようになっている。
【0039】ここで、学習サンプルの集合をxj(j=
0,1,・・・,J−1)と、コードベクトルの集合を
Y={y0,y1,・・・,yN-1}と、それぞれすると
き、ボロノイス分割では、学習サンプルの集合xjが、
コードベクトルYの集合によって、N個の部分集合Si
(i=0,1,・・・,N−1)に分割される。即ち、
学習サンプルxjとコードベクトルyiとの間の距離をd
(xj,yi)と表した場合、iと等しくないt(t=
0,1,・・・,N−1)すべてについて、式 d(xj,yi)<d(xj,yt) ・・・(1) が成り立つとき、学習サンプルxjは、部分集合Siに属
する(xji)とされる。
【0040】また、ベクトルv0,v1,・・・,vM-1
についてのセントロイド(重心)C(v0,v1,・・
・,vM-1)を、式
【数1】 ・・・(2) で定義するとき、コードベクトルの更新では、コードベ
クトルyiが、式 yi=C({Si}) ・・・(3) にしたがって更新される。
【0041】なお、式(2)の右辺argmin{}
は、{}内の値を最小にするベクトルvを意味する。さ
らに、式(3)による、いわゆるクラスタリング手法
は、k平均クラスタリング法(k-means法)と呼ばれ
る。また、LBGアルゴリズムについては、例えば、
「音声・画像工学」、中田和男、南敏 著、昭晃堂、昭
和62年の第29ページ乃至第31ページなどに、その
詳細が記載されている。
【0042】ここで、図3の実施の形態において、コー
ドブック作成部52が出力するコードブックの要素S
i,jおよびTi,jの行を表すサフィックスi,jは、コー
ド#iに対応するコードベクトルのj番目の要素である
ことを表しており、従って、(Si,1,Si,2,・・・,
i,L,Ti,1,Ti,2,・・・,Ti,M)は、コード#i
に対応するコードベクトルを表す。また、コードベクト
ルの要素Si,jまたはTi,jは、画像または音声にそれぞ
れ対応している。
【0043】仮正規化部53には、正規化係数αの学習
のための正規化係数学習用パラメータとしての画像の特
徴パラメータPi,jおよび音声の特徴パラメータV
i,j(ここでは、コードベクトル学習用パラメータとは
異なる画像、音声から得られたものとする)が供給され
るようになされており、仮正規化部53は、仮正規化部
51と同様に、正規化係数制御部55からの正規化係数
によって、特徴パラメータPi,jおよび音声の特徴パラ
メータVi,jを、仮に正規化し、ベクトル量子化部54
に供給するようになされている。即ち、仮正規化部53
は、正規化係数学習用パラメータとしての画像の特徴パ
ラメータPi,jまたは音声の特徴パラメータVi,jのうち
の音声の特徴パラメータVi,jに対して、正規化係数制
御部55からの正規化係数αを乗算し、ベクトル量子化
部54に出力するようになされている。
【0044】なお、仮正規化部53には、正規化係数学
習用パラメータが複数セット供給されるようになされて
おり、仮正規化部53では、その複数の正規化係数学習
用パラメータそれぞれについて、正規化が行われるよう
になされている。
【0045】ベクトル量子化部54は、コードブック作
成部52からの最新のコードブックを用いて、仮正規化
部53から供給される正規化された正規化係数学習用パ
ラメータをベクトル量子化し、そのベクトル量子化によ
る量子化誤差を、正規化係数制御部55に供給するよう
になされている。
【0046】即ち、ベクトル量子化部54は、コードブ
ックのコードベクトルそれぞれ(標準パラメータ)と、
正規化された正規化係数学習用パラメータとの距離を、
画像と音声それぞれについて計算し、その距離のうちの
最も短いものを、量子化誤差として、正規化係数制御部
55に供給するようになされている。つまり、正規化さ
れた正規化係数学習用パラメータのうちの画像の特徴パ
ラメータPi,jと、コードベクトルのうちの画像に関す
る要素Si,jからなるベクトルとの距離が算出され、そ
の距離の最も短いものが、画像についての量子化誤差と
して、正規化係数制御部55に供給されるとともに、正
規化された正規化係数学習用パラメータのうちの音声の
特徴パラメータαVi,jと、コードベクトルのうちの音
声に関する要素Ti,jからなるベクトルとの距離が算出
され、その距離の最も短いものが、音声についての量子
化誤差として、正規化係数制御部55に供給されるよう
になされている。
【0047】正規化係数制御部55は、ベクトル量子化
部54からの画像または音声についての量子化誤差をそ
れぞれ累積(積算)し、その累積値が等しくなるよう
に、仮正規化部51および53に供給する正規化係数α
を変更するようになされている。
【0048】次に、図4のフローチャートを参照して、
図3の学習装置が行う処理(正規化係数学習処理)につ
いて説明する。
【0049】図3の学習装置においては、まず最初に、
コードベクトル学習用パラメータまたは正規化係数学習
用パラメータが仮正規化部51または53にそれぞれ供
給されるとともに、正規化係数制御部55から、正規化
係数αの所定の初期値が、仮正規化部51および53に
供給される。
【0050】そして、ステップS21において、仮正規
化部51は、コードベクトル学習用パラメータのうち
の、音声の特徴パラメータVi,jに対して、正規化係数
制御部55からの正規化係数αを乗算し、これにより、
コードベクトル学習用パラメータを仮に正規化して、コ
ードブック作成部52に供給する。
【0051】コードブック作成部52は、仮正規化部5
1から、正規化されたコードベクトル学習用パラメータ
を受信すると、ステップS22において、そのコードベ
クトル学習用パラメータを用い、LBGアルゴリズムに
より、ベクトル量子化部54がベクトル量子化を行うの
に用いるコードブックを作成し、ベクトル量子化部54
に供給する。
【0052】一方、仮正規化部53では、ステップS2
3において、正規化係数学習用パラメータのうちの音声
の特徴パラメータVi,jに対して、正規化係数制御部5
5からの正規化係数αを乗算し、これにより、正規化係
数学習用パラメータを仮に正規化して、ベクトル量子化
部54に供給する。
【0053】ベクトル量子化部54は、コードブック作
成部52から、最新のコードブックを受信するととも
に、仮正規化部53から、最新の正規化された正規化係
数学習用パラメータを受信すると、ステップS24にお
いて、仮正規化部53からの正規化係数学習用パラメー
タを、コードブック作成部52からのコードブックを用
いて、画像と音声それぞれについてベクトル量子化を行
い、それぞれの量子化誤差を、正規化係数制御部55に
供給する。
【0054】即ち、ステップS24では、ベクトル量子
化部54において、正規化された正規化係数学習用パラ
メータのうちの画像の特徴パラメータ(画像パラメー
タ)Pi,jと、コードベクトルのうちの画像に関する要
素Si,jからなるベクトルとの距離が算出され、その距
離の最も短いものが、画像についての量子化誤差とし
て、正規化係数制御部55に供給されるとともに、正規
化された正規化係数学習用パラメータのうちの音声の特
徴パラメータ(音声パラメータ)αVi,jと、コードベ
クトルのうちの音声に関する要素Ti,jからなるベクト
ルとの距離が算出され、その距離の最も短いものが、音
声についての量子化誤差として、正規化係数制御部55
に供給される。
【0055】ここで、仮正規化部53には、上述したよ
うに、複数の正規化係数学習用パラメータが供給される
ため、ベクトル量子化部54にも、正規化された正規化
係数学習用パラメータが複数セット供給されるが、ベク
トル量子化部54では、その複数の正規化された正規化
係数学習用パラメータそれぞれについて、順次、上述し
たような画像および音声についての量子化誤差が求めら
れ、正規化係数制御部55に供給されるようになされて
いる。
【0056】ステップS24では、さらに、正規化係数
制御部55において、ベクトル量子化部54から供給さ
れる画像または音声についての量子化誤差がそれぞれ累
積され、それぞれの量子化誤差の累積値DPまたはDV
求められる。
【0057】そして、ステップS25に進み、正規化係
数制御部55において、画像についての量子化誤差DP
と音声についての量子化誤差DVとの差分の絶対値|DP
−DV|が最小であるかどうかが判定される。ステップ
S25において、画像についての量子化誤差DPと音声
についての量子化誤差DVとの差分の絶対値|DP−DV
|が最小でないと判定された場合、ステップS26に進
み、正規化係数制御部55は、正規化係数αを変更し、
仮正規化部51および53に供給する。そして、ステッ
プS21に戻り、以下、変更後の正規化係数αを用い
て、同様の処理が繰り返される。
【0058】一方、ステップS25において、画像につ
いての量子化誤差DPと音声についての量子化誤差DV
の差分の絶対値|DP−DV|が最小であると判定された
場合、即ち、理想的には、画像についての量子化誤差D
Pと音声についての量子化誤差DVとが同一となった場
合、ステップS27に進み、正規化係数制御部55は、
その最小の絶対値|DP−DV|が得られたときの正規化
係数αを、画像と音声の特徴パラメータを、同一の重み
で扱うことができるように正規化することのできるもの
として出力し、処理を終了する。
【0059】以上のように、画像と音声の特徴パラメー
タからなる統合パラメータであるコードベクトル学習用
パラメータを正規化し、その正規化されたコードベクト
ル学習用パラメータを用いて、コードブックを生成する
一方、画像と音声の特徴パラメータからなる統合パラメ
ータである正規化係数学習用パラメータを仮に正規化
し、その正規化された正規化係数学習用パラメータのう
ちの画像または音声の特徴パラメータそれぞれについ
て、生成されたコードブックを用いてベクトル量子化を
行うことにより、量子化誤差(コードベクトルとの最小
の距離)の累積値を求め、その累積値どうしが等しくな
るように、正規化係数を変更するようにしたので、画像
と音声などといった異なるメディアの特徴パラメータ
を、同等の重みで扱うことができるように正規化を行う
ことができる正規化係数を求めることができる。
【0060】その結果、例えば、音声から抽出した特徴
パラメータと、口唇の画像から抽出した特徴パラメータ
とを、正規化係数によって正規化し、さらに、それらを
統合して、統合パラメータとし、この統合パラメータを
用いて、音声の認識を行う場合においては、音声または
画像のうちのいずれか一方の影響を強く受けることによ
り、認識率の向上の妨げられることを防止することが可
能となる。
【0061】さらに、統合パラメータを構成する各メデ
ィアの特徴パラメータが、認識率に与える影響の検証
を、容易に行うことが可能となる。
【0062】なお、上述した場合においては、画像の特
徴パラメータの重みを基準とし(1とし)、音声の特徴
パラメータについて、その重みを、画像の特徴パラメー
タの重みと同一にするための正規化係数αが求められる
ため、図1のメディア間正規化部21では、画像の特徴
パラメータについては、そのまま出力され、音声の特徴
パラメータについては、上述のようにして求められた正
規化係数αが乗算されることにより正規化されて出力さ
れる。
【0063】さらに、図3の実施の形態では、画像と音
声の2種類の特徴パラメータの重みを同一にするための
正規化係数αを求める学習について説明したが、3種類
以上の特徴パラメータ、あるいは、画像や音声の他のメ
ディアの特徴パラメータの重みを同一にするための正規
化係数を求める学習も、同様に行うことが可能である。
【0064】また、上述した正規化係数の学習方法は、
特徴パラメータの種類や次元に依存するものではないた
め、特徴パラメータの種類や次元に関係なく適用可能で
ある。
【0065】さらに、上述した場合においては、画像の
特徴パラメータの重みを基準とし、音声の特徴パラメー
タについて、その重みを、画像の特徴パラメータの重み
と同一にするための正規化係数αを求めるようにした
が、音声と画像の特徴パラメータそれぞれについて、両
者の重みを同一にする正規化係数を求めるようにするこ
とも可能である。
【0066】次に、図5は、図1の距離推移方式マッチ
ング部31の構成例を示している。
【0067】時間軸正規化部61には、統合パラメータ
生成回路2(図1)から、例えば、ある単語が発話され
たときの統合パラメータが時系列に供給されるようにな
されており、時間軸正規化部61は、その時系列の統合
パラメータの時間軸正規化を行うようになされている。
【0068】即ち、ある単語が発話されたときの発話時
間をtとすると、その単語の発話による統合パラメータ
のある要素の時間変化は、例えば、図6(A)に示すよ
うになるが、図6(A)における発話時間tは、同一人
による同一単語の発話であっても、発話ごとに変動す
る。そこで、時間軸正規化部61は、発話時間tが、図
6(B)に示すように、一律に、時間TCとなるよう
に、時間軸正規化を行うようになされている。なお、例
えば、いま、図1の音声認識装置において、単誤認識を
行うものとすると、時間TCは、認識対象の単語を発話
したときの一般的な発話時間よりも十分長い時間に設定
されている。従って、時間軸正規化部61では、図6
(A)に示した時系列の統合パラメータが、いわば時間
軸方向に間延びしたように変更される。なお、時間軸正
規化の手法は、これに限定されるものではない。
【0069】時間軸正規化後の統合パラメータは、時間
軸正規化部61からベクトル量子化部62に供給される
ようになされている。ベクトル量子化部62は、コード
ブック記憶部63に記憶されたコードブックを用いて、
時間軸正規化された時系列の統合パラメータを、順次、
ベクトル量子化し、そのベクトル量子化結果としてのコ
ード、即ち、統合パラメータとの距離が最も近いコード
ベクトルに対応するコードを、順次、距離計算部64に
供給するようになされている。
【0070】コードブック記憶部63は、ベクトル量子
化部62が統合パラメータのベクトル量子化に用いるコ
ードブックを記憶している。
【0071】距離計算部64は、距離推移モデル記憶部
65に記憶されている、認識対象の単語の距離推移モデ
ルから、ベクトル量子化部62が出力するコードの系列
が観測されるときの、コードベクトルとの距離を累積
し、その累積値を、ソート部66に供給するようになさ
れている。
【0072】距離推移モデル記憶部65は、例えば、図
7に示すような、認識対象の単語の時系列の統合パラメ
ータ(標準系列)と、コードブック記憶部63に記憶さ
れたコードブックの各コードベクトルとの間の距離の推
移を表す距離推移モデルを記憶している。即ち、距離推
移モデル記憶部65は、図7に示したような距離推移モ
デルを、認識対象とされている単語それぞれについて記
憶している。
【0073】なお、図7の実施の形態では、コードブッ
ク記憶部63に記憶されたコードブックが、J+1個の
コードベクトルC0乃至CJを有するものとしてある。
【0074】ソート部66は、距離計算部64から供給
される、認識対象の各単語の距離推移モデルについての
距離の累積値のうち、その値が小さいものから、上位N
個を選択し、統合パラメータと距離推移モデルとのマッ
チング結果として、判定回路4に出力するようになされ
ている。
【0075】以上のように構成される距離推移方式マッ
チング部31では、距離推移方式によるマッチングが行
われるようになされており、この距離推移方式によるマ
ッチング処理について、図8のフローチャートを参照し
て説明する。
【0076】時間軸正規化部61は、統合パラメータ生
成回路2から、ある単語の発話に対応する時系列の統合
パラメータを受信すると、ステップS31において、そ
の時系列の統合パラメータを時間軸正規化し、ベクトル
量子化部62に出力する。ベクトル量子化部62では、
ステップS32において、コードブック記憶部63に記
憶されたコードブックを参照することで、時間軸正規化
部61からの時系列の統合パラメータが、順次、ベクト
ル量子化され、そのベクトル量子化結果としての、統合
パラメータとの距離を最も短くするコードベクトルに対
応するコードの系列が、順次、距離計算部64に供給さ
れる。
【0077】距離計算部64では、ステップS33にお
いて、距離推移モデル記憶部65に記憶されている、認
識対象の単語の距離推移モデルから、ベクトル量子化部
62が出力するコードの系列が観測されるときの、各コ
ードに対応するコードベクトルとの距離が累積される。
【0078】即ち、ベクトル量子化部62が出力するコ
ードの系列のうち、時刻tのコードをst(t=0,
1,・・・,TC)と表すと、距離計算部64は、ベク
トル量子化部62が最初に出力するコードs0に対応す
るコードベクトルCj(j=0,1,・・・,J)と
の、時刻#0における距離を、距離推移モデルを参照す
ることで求める。具体的には、例えば、コードs0に対
応するコードベクトルがC0である場合には、図7にお
いて、コードベクトルC0からの距離の推移を表してい
る曲線上の、時刻#0における距離が求められる。
【0079】さらに、距離計算部64は、ベクトル量子
化部62が2番目に出力するコードs1に対応するコー
ドベクトルCjとの、時刻#1における距離を、距離推
移モデルを参照することで求める。以下、同様にして、
距離計算部64は、ベクトル量子化部62が最後に出力
するコードsTCに対応するコードベクトルCjとの、時
刻#TCにおける距離までを、距離推移モデルを参照す
ることで、順次求めていき、それらの距離の累積値を計
算する。
【0080】そして、距離計算部64は、距離推移モデ
ル記憶部65に記憶されたすべての距離推移モデルそれ
ぞれについて、距離の累積値を計算すると、それらの距
離の累積値を、ソート部66に出力し、ステップS34
に進む。
【0081】ステップS34では、ソート部66におい
て、距離計算部64からの、認識対象の各単語の距離推
移モデルについての距離の累積値のうち、その値が小さ
いものから、上位N個が選択され、ステップS35に進
み、統合パラメータと距離推移モデルとのマッチング結
果として、判定回路4に出力され、処理を終了する。
【0082】次に、図9は、図5の距離推移モデル記憶
部65に記憶させる距離推移モデルを求める学習を行う
学習装置の構成例を示している。
【0083】時間軸正規化部71には、距離推移モデル
を求める学習を行うのに用いる時系列の学習用統合パラ
メータが供給されるようになされており、時間軸正規化
部71は、図5の時間軸正規化部61と同様に、学習用
統合パラメータを時間軸正規化し、距離計算部72に供
給するようになされている。
【0084】ここで、時間軸正規化部71には、例え
ば、ある単語の距離推移モデルを求めるための時系列の
学習用統合パラメータが複数セット供給されるようにな
されており、時間軸正規化部71は、その複数セットの
学習用統合パラメータそれぞれについて時間軸正規化を
行い、それらを1の学習用統合パラメータにまとめて出
力するようになされている。即ち、時間軸正規化部71
には、例えば、図10(A)に示すように、ある単語に
ついて、継続時間が必ずしも同一でない複数(図10に
おいては、N個)の学習用統合パラメータが供給される
ようになされており、時間軸正規化部71は、その複数
の学習用統合パラメータの継続時間が、図10(B)に
示すように、いずれも時間TCとなるように時間軸正規
化を行う。そして、時間軸正規化部71は、図10
(C)に示すように、時間軸正規化を行った複数の学習
用統合パラメータの、同一時刻のサンプル値どうしの、
例えば、平均値を計算し、その平均値を、各時刻におけ
るサンプル値とする1つの学習用統合パラメータを生成
する。
【0085】なお、複数の学習用統合パラメータを、1
の学習用統合パラメータにまとめる方法は、これに限定
されるものではない。また、ある単語の距離推移モデル
を求めるための時系列の学習用統合パラメータが1セッ
トだけしか用意されていない場合には、時間軸正規化部
71は、その1の学習用統合パラメータを時間軸正規化
して、そのまま出力するようになされている。
【0086】距離計算部72は、図11に示すように、
コードブック記憶部73に記憶されたコードブックの各
コードベクトルと、時間軸正規化部71から供給される
時系列の学習用統合パラメータとの距離を、順次計算
し、その距離の推移、即ち、時間軸正規化された、時刻
#0乃至#TCまでの学習用統合パラメータと、各コー
ドベクトルとの距離の推移を、多項式表現化部74に供
給するようになされている。
【0087】コードブック記憶部73は、図5のコード
ブック記憶部63に記憶されているコードブックと同一
のコードブックを記憶している。
【0088】多項式表現化部74は、距離計算部72か
ら供給されるコードベクトルとの間の距離の推移を近似
する多項式を求め、距離推移モデルとして出力するよう
になされている。即ち、多項式表現化部74では、図1
1に示したような距離の推移が、図7に示したような多
項式で表される曲線で近似されるようになされている。
【0089】次に、図12のフローチャートを参照し
て、図9の学習装置の処理について説明する。
【0090】時間軸正規化部71に対しては、ある単語
の距離推移モデルを求めるための時系列の学習用統合パ
ラメータが複数セット供給され、時間軸正規化部71
は、ステップS41において、その複数セットの学習用
統合パラメータそれぞれについて時間軸正規化を行い、
それらを1の学習用統合パラメータにまとめて、距離計
算部72に出力する。距離計算部72は、ステップS4
2において、図11に示したような、コードブック記憶
部73に記憶されたコードブックの各コードベクトル
と、時間軸正規化部71から供給される時系列の学習用
統合パラメータとの距離を、順次計算し、その距離の推
移を、多項式表現化部74に供給する。
【0091】多項式表現化部74では、ステップS43
において、距離計算部72から供給される、学習用統合
パラメータ(標準系列)とコードベクトルとの間の距離
の推移を近似するN次の多項式が、例えば、最小二乗法
により求められる。
【0092】即ち、時刻tにおける学習用統合パラメー
タと、コードベクトルCjとの間の距離を近似するN次
の多項式fj(t)は、次のように表すことができる。
【0093】 fj(t)=aj0+aj11+aj22+・・・+ajNN ・・・(4)
【0094】従って、距離計算部72において求められ
た、時刻tにおける学習用統合パラメータと、コードベ
クトルCjとの間の距離fj(t)を用いて、次式を解く
ことで、最小二乗法により、式(4)を規定する係数a
j0,aj1,aj2,・・・,ajNを求めることができる。
【0095】
【数2】 ・・・(5)
【0096】多項式表現化部74は、式(5)を、コー
ドベクトルC0,C1,・・・,CJそれぞれについて解
くことで、次式に示すような、学習用統合パラメータ
と、コードベクトルC0,C1,・・・,CJそれぞれと
の間の距離の推移を近似するN次の多項式fj(t)を
規定する係数のセットAを求める。
【0097】
【数3】 ・・・(6)
【0098】その後、ステップS44に進み、多項式表
現化部74において、式(6)の係数のセットAで近似
される距離の推移と、図11に示したような実際の距離
の推移との二乗誤差の、各コードベクトルCjについて
の累積値が求められ、それが最小であるかどうかが判定
される。ステップS44において、距離の推移の二乗誤
差の累積値が最小でないと判定された場合、ステップS
45に進み、多項式表現化部74において、式(4)に
示した多項式fj(t)の次数Nが変更される。そし
て、ステップS43に戻り、変更後の次数Nについて、
以下、同様の処理が繰り返される。
【0099】また、ステップS44において、距離の推
移の二乗誤差の累積値が最小であると判定された場合、
ステップS46に進み、そのとき得られている多項式f
j(t)を規定する係数のセットAが、単語の距離推移
モデルとして出力され、処理を終了する。
【0100】なお、以上の処理は、認識対象の各単語に
ついてそれぞれ行われる。
【0101】以上のように、時系列の学習用統合パラメ
ータについて、時間軸の正規化を行い、その時間軸正規
化された学習用統合パラメータ(標準系列)と、コード
ベクトルとの間の距離を算出し、その距離の推移を表す
距離推移モデルを求めるようにしたので、認識対象が有
する本来の状態数や状態遷移の形態に沿うモデルを得る
ことができる。従って、そのような距離推移モデルによ
れば、認識対象の定常状態や過渡状態が正確に表現さ
れ、その結果、認識率を向上させることができる。
【0102】また、距離の推移を、多項式で近似するよ
うにしたので、その多項式を規定する係数だけで、即
ち、少ないデータ量で、距離の推移を表現することがで
きる。
【0103】さらに、距離の推移を近似する多項式の次
数Nを、二乗誤差の累積値が最小になるように決定する
ようにしたので、その多項式により、精度良く、距離の
推移を表現することができる。
【0104】なお、図9では、統合パラメータを、学習
用のデータとして用いるようにしたが、単一の特徴パラ
メータで認識を行う場合には、その単一の特徴パラメー
タを、学習用のデータとして用いて、学習を行えば良
い。
【0105】また、上述した距離推移モデルの学習方法
は、特徴パラメータの種類や次元に依存するものではな
いため、特徴パラメータの種類や次元に関係なく適用可
能である。
【0106】さらに、上述の場合には、図11に示した
ような実際の距離の推移を、図7に示したように多項式
で近似された距離推移モデルを用いてマッチングを行う
ようにしたが、マッチングは、図11に示したような実
際の距離の推移をそのまま距離推移モデルとして用いて
行うことも可能である。
【0107】次に、図13は、図1の空間分布方式マッ
チング部32の構成例を示している。
【0108】ベクトル量子化部81には、図1の統合パ
ラメータ生成回路2から統合パラメータが時系列に供給
されるようになされており、ベクトル量子化部81は、
その時系列の統合パラメータを、コードブック記憶部8
2に記憶されたコードブックを用いてベクトル量子化
し、そのベクトル量子化結果としてのコードの系列を、
順次、カイ二乗検定部83に供給するようになされてい
る。
【0109】コードブック記憶部82は、ベクトル量子
化部81におけるベクトル量子化に用いられるコードブ
ックを記憶している。なお、このコードブック記憶部8
2が記憶しているコードブックと、図5の距離推移方式
マッチング部31が有するコードブック記憶部63が記
憶しているコードブックとは、同一である必要はない。
【0110】カイ二乗検定部83は、期待度数記憶部8
4を参照し、ベクトル量子化部81からのコード系列の
空間分布が、認識対象の単語が発話されたときに得られ
るコード系列の空間分布に類似しているかどうか、即
ち、ベクトル量子化部81に供給された統合パラメータ
が、認識対象の単語に対応するものであるかどうかの適
正さを、カイ二乗検定を行うことにより求め、ソート部
85に供給するようになされている。
【0111】期待度数記憶部84は、コードブック記憶
部82に記憶されたコードブックのコードベクトルに対
応する各コードについて、認識対象の単語に対応する統
合パラメータが入力されたときに観測される(ベクトル
量子化部81に供給されたときに、そこから出力され
る)期待度数を記憶している。
【0112】ソート部85は、カイ二乗検定部83から
供給される、入力された統合パラメータが認識対象の単
語に対応するものであるかどうかの適正さのうちの上位
N個を選択し、空間分布方式によるマッチング結果とし
て、判定回路4(図1)に出力するようになされてい
る。
【0113】以上のように構成される空間分布マッチン
グ部32では、空間分布方式によるマッチングが行われ
るようになされており、この空間分布方式によるマッチ
ング処理について、図14のフローチャートを参照して
説明する。
【0114】認識すべき統合パラメータは、時系列に、
ベクトル量子化部81に供給され、ベクトル量子化部8
1は、ステップS51において、時系列の統合パラメー
タを、順次ベクトル量子化し、そのベクトル量子化結果
としてのコードの系列を、カイ二乗検定部83に供給す
る。
【0115】カイ二乗検定部83では、ステップS52
において、ベクトル量子化部81からのコード系列の空
間分布が求められる。即ち、カイ二乗検定部83は、ベ
クトル量子化部81からのコード系列において、各コー
ドが観測される回数(以下、適宜、観測度数という)を
カウントする。そして、ステップS53に進み、カイ二
乗検定部83は、各コードの観測度数と、期待度数記憶
部84に記憶された、認識対象の単語の発話がなされた
ときに観測されることが期待される各コードの回数であ
る期待度数とを用いてカイ二乗検定を行うことにより、
入力された統合パラメータについての各コードの観測度
数が、認識対象の単語についての各コードの期待度数に
類似している度合い(以下、適宜、類似度という)を求
め、ソート部85に供給する。
【0116】即ち、カイ二乗検定部83は、あるコード
#jの観測度数をFjと表すとともに、ある単語Wのあ
るコード#jの期待度数をfjと表すと、次式に示すχ2
(カイ二乗)を計算し、例えば、その逆数を、単語Wに
対する類似度として、ソート部85に供給する。
【0117】
【数4】 ・・・(7)
【0118】なお、式(7)に示したχ2は、入力され
た統合パラメータについての各コードの観測度数が、認
識対象の単語についての各コードの期待度数に類似して
いるほど小さくなる。従って、その逆数である類似度
は、入力された統合パラメータについての各コードの観
測度数が、認識対象の単語についての各コードの期待度
数に類似しているほど大きくなる。
【0119】ソート部85は、カイ二乗検定部83か
ら、認識対象の単語すべてについての類似度を受信する
と、ステップS54において、そのうちの類似度の高い
上位N個を選択し、ステップS55に進み、空間分布方
式によるマッチング結果として、判定回路4に出力し
て、処理を終了する。
【0120】以上のような空間分布方式によるマッチン
グによれば、統合パラメータ空間における、入力された
統合パラメータの分布状態と、認識対象の単語の統合パ
ラメータの分布状態との類似性が、カイ二乗検定により
求められるため、その類似性は、入力された音声の時間
的変動に影響を受けない(入力された音声の時間(音声
区間の長さ)は、カイ二乗検定に用いる観測度数に影響
するが、各コードの観測度数それぞれが、音声区間の長
さに比例した値だけ増減すると予測されるため、カイ二
乗検定結果は影響を受けない)。従って、音声が有する
時間成分を考慮せずに認識を行うことができ、その結
果、認識率を向上させることが可能となる。
【0121】次に、図15は、図13の期待度数記憶部
84に記憶されている認識対象の各単語についての各コ
ードの期待度数を求める学習を行う学習装置の構成例を
示している。
【0122】ベクトル量子化部91には、認識対象の単
語について、期待度数の学習を行うための時系列の学習
用統合パラメータが供給されるようになされており、ベ
クトル量子化部91は、時系列の学習用統合パラメータ
を、コードブック記憶部92に記憶されたコードブック
を用いてベクトル量子化し、そのベクトル量子化結果と
してのコードの系列を、期待度数算出部93に供給する
ようになされている。
【0123】コードブック記憶部92は、図13のコー
ドブック記憶部82が記憶しているコードブックと同一
のコードブックを記憶している。
【0124】期待度数算出部93は、ベクトル量子化部
91からのコードの系列において、各コードが観測され
る回数をカウントするようになされている。
【0125】次に、図16のフローチャートを参照し
て、図15の学習装置の処理について説明する。
【0126】ベクトル量子化部91には、認識対象の1
の単語について、例えば、複数の時系列の学習用統合パ
ラメータ(異なる話者が発話したり、同一の話者が複数
回発話して得られたもの)が供給されるようになされて
おり、ステップS61では、その統合パラメータの数を
カウントするための変数iが、例えば、1に初期化さ
れ、ステップS62に進む。
【0127】ステップS62では、複数の学習用統合パ
ラメータのうちの最初の学習用統合パラメータが、ベク
トル量子化部91に供給され、ベクトル量子化部91に
おいて、その学習用統合パラメータがベクトル量子化さ
れる。そのベクトル量子化の結果得られるコードの系列
は、期待度数算出部93に供給され、ステップS63に
進む。
【0128】ステップS63では、ベクトル量子化部9
1からのコードの系列において、各コードが観測される
回数が積算され、これにより各コードの観測度数が求め
られる。そして、ステップS64に進み、まだ、次に処
理すべき学習用統合パラメータがあるかどうかが判定さ
れ、あると判定された場合、ステップS65に進み、変
数iが1だけインクリメントされる。そして、ステップ
S62に進み、その次に処理すべき学習用統合パラメー
タを対象に、同様の処理が繰り返される。即ち、これに
より、ある単語についての複数の学習用統合パラメータ
から観測される各コードの観測度数が積算されていく。
【0129】一方、ステップS64において、次に処理
すべき学習用統合パラメータがないと判定された場合、
ステップS66に進み、各コードの観測度数の積算値
が、例えば、変数iで除算され、即ち、ある単語につい
ての複数の学習用統合パラメータから観測される各コー
ドの観測度数の平均値が求められ、その各コードの観測
度数の平均値が、その単語についての各コードの期待度
数として出力されて、処理を終了する。
【0130】なお、図16の処理は、認識対象の単語そ
れぞれについて行われる。
【0131】ところで、図1の音声認識装置では、上述
したように、画像と音声などといった異なるメディアの
特徴パラメータを、同等の重みで扱うことができるよう
に正規化を行うことができる正規化係数をあらかじめ求
めておき、その正規化係数によって正規化された特徴パ
ラメータを用いて統合パラメータを構成(生成)するよ
うにしたが、音声認識にあたって、そのような統合パラ
メータを用いることが、必ずしも適切でないこともあ
る。
【0132】即ち、図1の音声認識装置では、特徴パラ
メータが、固定の正規化係数によって正規化、さらには
統合されるため、例えば、画像または音声の特徴パラメ
ータそれぞれが、図17(A)または図17(B)に示
すように、ある時刻において顕著な特徴を有する場合で
あっても、固定の正規化係数による統合がなされると、
その統合パラメータにおいては、図17(C)に示すよ
うに、画像と音声の特徴パラメータどうしが、いわば相
殺しあって、それぞれの顕著な特徴が失われることがあ
る。なお、図17においては、横軸が、時間を表してお
り、縦軸が、各時刻における特徴パラメータとの距離を
最短にする標準パターン(例えば、図5におけるコード
ブック記憶部63に記憶されているコードブックのセン
トロイドベクトルなど)との距離の逆数を表している。
【0133】従って、認識率の向上のためには、図17
(D)に示すように、複数の時系列の特徴パラメータ
を、それぞれの特徴が失われない形で(最適な形で)統
合して統合パラメータとするのが好ましい。そして、そ
のような統合パラメータを構成するには、各時刻におい
て、統合パラメータに、複数の時系列の特徴パラメータ
それぞれの特徴が反映されるような時系列の正規化係数
を用いる必要がある。
【0134】そこで、図18は、そのような時系列の正
規化係数を求める学習を行う学習装置の一実施の形態の
構成例を示している。なお、以下では、説明を簡単にす
るために、画像(口唇の画像)と音声(発話データ)と
の2つの特徴パラメータから統合パラメータを構成する
ものとする。
【0135】パラメータ化回路101には、学習用の口
唇の画像データと、学習用の音声(発話)データとが入
力されるようになされており、そこでは、図1のパラメ
ータ化回路1と同様に、画像データおよび音声データの
特徴パラメータが抽出されるようになされている。即
ち、パラメータ化回路101は、口唇信号処理部111
1および音声信号処理部1112から構成されており、口
唇信号処理部1111または音声信号処理部1112は、
画像データまたは音声データを処理することにより、そ
れぞれの特徴パラメータを抽出し、メディア間正規化部
121に供給するようになされている。
【0136】メディア間正規化部121は、例えば、図
1のメディア間正規化部21と同様に、図3の学習装置
によって得られた(固定の)正規化係数αを、学習用の
正規化係数として、その正規化係数に基づいて、パラメ
ータ化回路101からの画像または音声の時系列の特徴
パラメータそれぞれを正規化し、その正規化後の特徴パ
ラメータを、パラメータ次元正規化部122に供給する
ようになされている。なお、図1の実施の形態において
は、画像の特徴パラメータの重みを基準とし、その重み
に、音声の特徴パラメータの重みを一致させるために、
音声の特徴パラメータに対して、正規化係数αを乗算す
るようにしたが、図18のメディア間正規化部121に
おいても、同様の正規化が行われるようになされてい
る。
【0137】パラメータ次元正規化部122は、メディ
ア間正規化部121からの画像および音声の特徴パラメ
ータの次元に関する正規化(以下、適宜、次元正規化と
いう)を行うようになされている。具体的には、パラメ
ータ次元正規化部122は、画像または音声の特徴パラ
メータの次元を、LまたはMとするとき、それぞれの特
徴パラメータを、例えば、L1/2またはM1/2で除算する
ようになされている。なお、次元正規化の必要性につい
ては、後述する。
【0138】メディア間正規化部121で正規化係数に
よる正規化が行われ、パラメータ次元正規化部122で
次元に関する正規化が行われた画像および音声の特徴パ
ラメータは、マッチング部131に供給されるようにな
されている。マッチング部131は、画像または音声の
特徴パラメータそれぞれについて、標準パターンとの距
離を計算することにより、マッチングを行うようになさ
れている。即ち、マッチング部131は、例えば、距離
推移方式によるマッチングを、画像または音声の特徴パ
ラメータそれぞれについて行い、そのマッチング結果
を、最適正規化係数検出部104に供給するようになさ
れている。
【0139】最適正規化係数決定部104は、マッチン
グ部131からの画像または音声の特徴パラメータそれ
ぞれについてのマッチング結果に基づいて、各時刻tに
おいて、画像または音声の特徴パラメータの顕著な特徴
が統合パラメータに反映されるような正規化係数、即
ち、時系列の最適正規化係数α(t)を求めるようにな
されている。
【0140】次に、図19のフローチャートを参照し
て、図18の学習装置の処理について説明する。
【0141】パラメータ化回路101には、ある学習対
象の単語(認識対象とする単語)についての学習用の口
唇の画像データおよび音声(発話)データが入力され
る。パラメータ化回路101では、ステップS71にお
いて、そこに入力される画像データと音声データそれぞ
れから、特徴パラメータが抽出され、メディア間正規化
部121に供給される。メディア間正規化部121で
は、ステップS72において、図3の学習装置によって
得られた(固定の)正規化係数αを、学習用の正規化係
数として、その正規化係数に基づいて、パラメータ化回
路101からの画像または音声の特徴パラメータそれぞ
れが、図1のメディア間正規化部21における場合と同
様に正規化され、パラメータ次元正規化部122に供給
される。
【0142】パラメータ次元正規化部122では、ステ
ップS74において、メディア間正規化部121からの
画像または音声の特徴パラメータそれぞれが次元正規化
され、マッチング部131に供給される。
【0143】そして、ステップS74に進み、ある学習
対象の単語についての学習用の画像データおよび音声デ
ータの入力が終了したかどうかが判定され、まだ終了し
ていないと判定された場合、次に、学習用の画像データ
および音声データが入力されるのを待って、ステップS
71に戻り、ステップS71以下の処理を繰り返す。即
ち、これにより、マッチング部131には、ある学習対
象の単語についての学習用の画像および音声の特徴パラ
メータ(固定の正規化係数αによる正規化が行われ、さ
らに次元正規化が行われたもの)が、時系列に供給され
る。
【0144】また、ステップS74において、ある学習
対象の単語についての学習用の画像データおよび音声デ
ータの入力が終了したと判定された場合、ステップS7
5に進み、マッチング部131において、時系列の画像
または音声の特徴パラメータそれぞれについて、各時刻
における標準パターンとの距離が、距離推移方式によっ
て計算され、その各時刻における距離の系列、即ち、時
系列の距離が、最適正規化係数検出部104に供給され
る。
【0145】最適正規化係数決定部104では、ステッ
プS76において、マッチング部131からの画像また
は音声それぞれについての時系列の距離に基づいて、各
時刻tにおいて、画像または音声の特徴パラメータの顕
著な特徴が統合パラメータに反映されるような正規化係
数、即ち、時系列の最適正規化係数α(t)が求めら
れ、処理を終了する。
【0146】なお、図19の処理は、学習対象の単語そ
れぞれについて行われる。
【0147】次に、図20は、図18のマッチング部1
31の構成例を示している。
【0148】パラメータ次元正規化部122からの、学
習対象の各単語についての学習用の画像および音声の時
系列の特徴パラメータは、テンポラルメモリ166に供
給されるようになされており、テンポラルメモリ166
では、その時系列の特徴パラメータが一時記憶される。
【0149】時間軸正規化部161では、テンポラルメ
モリ166に記憶された学習対象のある単語についての
画像および音声の時系列の特徴パラメータが読み出さ
れ、いずれも、図5の時間軸正規化部61における場合
と同様に、時刻tが、0乃至TCの間の時系列の特徴パ
ラメータに、時間軸正規化される。この時間軸正規化さ
れた画像および音声の時系列の特徴パラメータは、ベク
トル量子化部162に供給される。
【0150】ベクトル量子化部162では、時間軸正規
化部161からの画像または音声の時系列の特徴パラメ
ータそれぞれが、図5のベクトル量子化部62における
場合と同様にしてベクトル量子化される。即ち、コード
ブック記憶部163は、図5のコードブック記憶部63
と同一のコードブックを記憶しており、ベクトル量子化
部162では、このコードブックに基づいて、画像また
は音声の時系列の特徴パラメータそれぞれがベクトル量
子化され、その結果得られる画像または音声のコードの
系列それぞれが距離計算部64に供給される。
【0151】ここで、コードブック記憶部163は、図
5のコードブック記憶部63と同一のコードブックを記
憶しているから、画像および音声の特徴パラメータを統
合した統合パラメータの空間におけるコードベクトルを
有するコードブックを記憶しているが、ベクトル量子化
部162では、画像または音声の特徴パラメータそれぞ
れについてベクトル量子化が行われる。即ち、ベクトル
量子化部162においては、画像については、統合パラ
メータの空間におけるコードベクトルの画像の要素のみ
に注目し、音声については、音声の要素のみに注目し
て、ベクトル量子化を行うようになされている。
【0152】具体的には、例えば、いま、図21に示す
ように、横軸または縦軸に、それぞれ音声または画像の
特徴パラメータをとった統合パラメータの空間を考え、
このような統合パラメータの空間において、同図に示す
ようなコードベクトルC0,C1,C2によって規定され
るコードブックが、コードブック記憶部163に記憶さ
れているものとする。この場合、同図において、PV
たはPAでそれぞれ示す画像または音声の特徴パラメー
タが、ベクトル量子化部162に入力されると、ベクト
ル量子化部162は、画像の特徴パラメータPVについ
ては、コードベクトルの画像の要素のみに注目して、画
像の特徴パラメータPVと、コードベクトルC0,C1
2それぞれとの距離を計算し、その距離の最も近いコ
ードベクトルを求める。従って、図21の実施の形態で
は、縦軸方向の、画像の特徴パラメータPVとの距離を
最も短くするコードベクトルC1が求められ、そのコー
ドベクトルC1に対応するコードが、画像の特徴パラメ
ータPVのベクトル量子化結果として出力される。
【0153】また、ベクトル量子化部162は、音声の
特徴パラメータPAについては、コードベクトルの音声
の要素のみに注目して、音声の特徴パラメータPAと、
コードベクトルC0,C1,C2それぞれとの距離を計算
し、その距離の最も近いコードベクトルを求める。従っ
て、図21の実施の形態では、横軸方向の、音声の特徴
パラメータPAとの距離を最も短くするコードベクトル
0が求められ、そのコードベクトルC0に対応するコー
ドが、音声の特徴パラメータPAのベクトル量子化結果
として出力される。
【0154】ここで、ベクトル量子化部162では、上
述のように、画像または音声それぞれについて、統合パ
ラメータの空間におけるコードベクトルの画像または音
声の要素のみに注目して、ベクトル量子化を行うことか
ら、画像または音声の特徴パラメータの次元の違いを吸
収するために、図18のパラメータ次元正規化部122
において、画像または音声それぞれの特徴パラメータの
次元正規化を行うようにしている。なお、図18のパラ
メータ次元正規化部122では、上述のように、特徴パ
ラメータを、その次元数の平方根で除算することによ
り、その次元正規化を行うこととしているが、これは、
統合パラメータの空間における特徴パラメータ(特徴ベ
クトル)の長さ(ノルム)(統合パラメータの空間にお
ける原点と、その空間における、特徴パラメータが表す
点との距離)を1にすることに等しい。
【0155】図20に戻り、ベクトル量子化部162に
おいて得られる画像または音声それぞれの時系列の特徴
パラメータのベクトル量子化結果としてのコードの系列
は、距離計算部164に供給される。
【0156】距離計算部164では、距離推移モデル記
憶部165に記憶されている、学習対象の単語の距離推
移モデルから、ベクトル量子化部162が出力する各時
刻(時間軸正規化後の各時刻)におけるコードが観測さ
れるときの、そのコードに対応するコードベクトルとの
距離が求められる。
【0157】即ち、距離推移モデル記憶部165は、図
5の距離推移モデル記憶部65と同様に、図7に示した
ような距離推移モデルを記憶している。そして、いま、
ベクトル量子化部162が出力する画像または音声につ
いてのコードの系列のうち、時刻tのコードをs
V(t)またはsA(t)(t=0,1,・・・,TC
とそれぞれ表すと、距離計算部164は、ベクトル量子
化部162が最初に出力するコードsV(0)またはsA
(0)に対応するコードベクトルそれぞれとの、時刻#
0における距離を、学習対象の単語の距離推移モデルを
参照することで求める。具体的には、例えば、画像につ
いてのコードsV(0)に対応するコードベクトルがC0
である場合には、図7において、コードベクトルC0
らの距離の推移を表している曲線上の、時刻#0におけ
る距離が求められ、また、音声についてのコードs
A(0)に対応するコードベクトルがC1である場合に
は、図7において、コードベクトルC1からの距離の推
移を表している曲線上の、時刻#0における距離が求め
られる。
【0158】さらに、距離計算部164は、ベクトル量
子化部162が2番目に出力する画像または音声につい
てのコードsV(1)またはsA(1)に対応するコード
ベクトルそれぞれとの、時刻#1における距離を、距離
推移モデルを参照することで求める。即ち、例えば、画
像についてのコードsV(1)に対応するコードベクト
ルがC0である場合には、図7において、コードベクト
ルC0からの距離の推移を表している曲線上の、時刻#
1における距離が求められ、また、音声についてのコー
ドsA(1)に対応するコードベクトルがC1である場合
には、図7において、コードベクトルC1からの距離の
推移を表している曲線上の、時刻#1における距離が求
められる。
【0159】以下、同様にして、距離計算部164は、
ベクトル量子化部162が最後に出力する画像または音
声についてのコードsV(TC)またはsA(TC)に対応
するコードベクトルそれぞれとの、時刻#TCにおける
距離までを、距離推移モデルを参照することで、順次求
めていき、その結果得られる画像または音声それぞれに
ついての距離の系列、即ち、時刻#0乃至#TCの各時
刻における画像または音声それぞれについての距離を出
力する。
【0160】この画像または音声それぞれについての距
離の系列は、上述したように、最適正規化係数決定部1
04に供給される。
【0161】なお、マッチング部131では、テンポラ
ルメモリ166に記憶された学習対象の各単語について
の学習用の画像および音声の時系列の特徴パラメータの
すべてを対象に、上述の処理が行われ、これにより、学
習対象の各単語の、画像または音声それぞれについての
距離の系列が出力される。
【0162】次に、図22は、図18の最適正規化係数
決定部104の構成例を示している。
【0163】上述したようにして、マッチング部131
から出力される、ある学習対象の単語の、各時刻tにお
ける画像または音声それぞれについての距離dV(t)
またはdA(t)は、比較部201に供給される。比較
部201では、各時刻tにおける、画像についての距離
V(t)と、音声についての距離dA(t)とが比較さ
れ、その比較結果が、最適正規化係数出力部202に供
給される。
【0164】最適正規化係数出力部202は、比較部2
01から供給される、画像についての距離dV(t)と
音声についての距離dA(t)との比較結果に基づい
て、各時刻tにおいて、学習対象の単語を認識するのに
最適な正規化係数(最適正規化係数)α(t)が求めら
れる(決定される)。
【0165】即ち、最適正規化係数出力部202は、画
像についての距離dV(t)と音声についての距離d
A(t)との差の絶対値|dV(t)−dA(t)|が所
定の閾値εより大きい場合(従って、画像についての距
離dV(t)と音声についての距離dA(t)との間に大
きな差がある場合)、画像についての距離dV(t)と
音声についての距離dA(t)とのうち、画像について
の距離dV(t)の方が小さいときには0を、音声につ
いての距離dA(t)の方が小さいときには無限大を、
それぞれ最適正規化係数α(t)として出力する。
【0166】また、最適正規化係数出力部202は、画
像についての距離dV(t)と音声についての距離d
A(t)との差の絶対値|dV(t)−dA(t)|が所
定の閾値ε以下の場合(従って、画像についての距離d
V(t)と音声についての距離dA(t)とがほぼ等しい
場合)、学習用の正規化係数αを、最適正規化係数α
(t)として出力する。
【0167】ここで、画像についての距離dV(t)の
方が小さい場合には、画像の特徴パラメータに顕著な特
徴があり、従って、画像の特徴パラメータの重みを大き
くした方が、認識率を向上させることができる。同様
に、音声についての距離dA(t)の方が小さい場合に
は、音声の特徴パラメータに顕著な特徴があり、従っ
て、音声の特徴パラメータの重みを大ききした方が、認
識率を向上させることができる。そこで、画像について
の距離dV(t)、または音声についての距離dA(t)
の方が小さい場合には、最適正規化係数α(t)を、そ
れぞれ0または無限大とするようになされている。
【0168】即ち、本実施の形態では、画像および音声
の特徴パラメータの正規化は、上述したように、音声の
特徴パラメータについてのみ、正規化係数が乗算される
ことにより行われ、画像の特徴パラメータと、正規化係
数が乗算された音声の特徴パラメータとで統合パラメー
タが構成されるようになされている。従って、最適正規
化係数α(t)が0の場合(画像の特徴パラメータに顕
著な特徴がある場合)には、音声の特徴パラメータは0
となり、その結果、統合パラメータは、実質的に、顕著
な特徴がある画像の特徴パラメータのみから構成される
ことになる。また、最適正規化係数α(t)が無限大の
場合(音声の特徴パラメータに顕著な特徴がある場合)
には、音声の特徴パラメータは、画像の特徴パラメータ
に比較して莫大な値となり、その結果、統合パラメータ
は、実質的に、顕著な特徴がある音声の特徴パラメータ
のみから構成されることになる。なお、最適正規化係数
α(t)が無限大の場合の統合パラメータは、実際は、
その最適化係数α(t)が、音声の特徴パラメータに乗
算されるのではなく、画像の特徴パラメータが0とされ
ることにより構成される(最適正規化係数α(t)を無
限大にするとは、ここでは、このように、画像の特徴パ
ラメータを0とすることを意味している)。
【0169】一方、画像についての距離dV(t)と、
音声についての距離dA(t)とがほぼ等しい場合に
は、画像および音声の特徴パラメータのいずれにも、そ
れほど顕著な特徴がなく、従って、画像および音声の特
徴パラメータの重みを同一にした方が、認識率を向上さ
せることができる。そこで、この場合、最適正規化係数
α(t)を、学習用の正規化係数(図3の学習装置で求
められた正規化係数α)とするようになされている。
【0170】最適正規化係数出力部202では、以上の
ようにして、各時刻tにおいて、学習用の正規化係数、
0、または無限大のうちのいずれかが、学習対象の単語
を認識するのに最適な正規化係数(最適正規化係数)α
(t)として出力される。
【0171】次に、図23は、上述のような時系列の最
適正規化係数α(t)を用いて音声の認識を行う音声認
識装置の一実施の形態の構成例を示している。なお、図
中、図1における場合と対応する部分については、同一
の符号を付してあり、以下では、その説明は、適宜省略
する。また、図23の実施の形態においては、説明を簡
単にするため、上述したように、口唇の画像データと、
発話された音声データだけが入力されるようになされて
いるが、図1の実施の形態における場合と同様に、その
他の各種のデータを入力するようにすることも可能であ
る。
【0172】パラメータ化回路1には、図1で説明した
ように、ユーザがある単語を発話したときの音声データ
と口唇の画像データとが供給される。パラメータ化回路
1では、そこに入力される画像または音声データから、
それぞれの特徴パラメータが抽出され、マッチング回路
213に時系列に供給される。マッチング回路213で
は、画像または音声の時系列の特徴パラメータが、時系
列の最適正規化係数で正規化され、さらに統合されるこ
とにより、統合パラメータとされる。そして、マッチン
グ回路213は、統合パラメータに基づいて、図18の
マッチング部131と同様のマッチング、即ち、本実施
の形態では、距離推移方式によるマッチングを行い、そ
のマッチング結果を、判定回路4に出力する。判定回路
4では、マッチング回路213の出力に基づいて、ユー
ザの発話の音声認識結果が求められて出力される。
【0173】次に、図24は、図23のマッチング回路
213の構成例を示している。なお、図中、図5の距離
推移マッチング部31と対応する部分については、同一
の符号を付してあり、以下では、その説明は、適宜省略
する。即ち、マッチング回路213は、距離推移モデル
記憶部65に替えて、距離推移モデル記憶部265が設
けられ、時間軸正規化部61とベクトル量子化部62と
の間に、メディア間正規化部267および統合パラメー
タ生成部268が新たに設けられている他は、距離推移
方式マッチング部31と同様に構成されている。
【0174】距離推移モデル記憶部265は、距離推移
モデル記憶部65と同様に、認識対象とされている単語
それぞれについて、図7に示したような距離推移モデル
を記憶している他、図25に示すように、各単語につい
て、各時刻(時間軸正規化後の各時刻)tにおける最適
正規化係数α(t)(図18の学習装置で求められたも
の)も記憶している。
【0175】メディア間正規化部267は、時間軸正規
化部61が出力する画像および音声の各時刻における特
徴パラメータを、距離推移モデル記憶部265に記憶さ
れた対応する時刻の最適正規化係数α(t)によって正
規化し、統合パラメータ生成部268に供給するように
なされている。即ち、時間軸正規化部61には、図23
のパラメータ化回路1が出力する画像および音声の時系
列の特徴パラメータが供給されるようになされており、
そこでは、その画像および音声それぞれの時系列の特徴
パラメータについて、図6で説明したような時間軸正規
化が行われるようになされている。この時間軸正規化の
画像および音声の時系列の特徴パラメータは、いずれも
メディア間正規化部267に供給されるようになされて
おり、メディア間正規化部267は、このようにして時
間軸正規化部61が出力する画像および音声の各時刻に
おける特徴パラメータを、距離推移モデル記憶部265
に記憶された対応する時刻の最適正規化係数α(t)に
よって正規化し、統合パラメータ生成部268に供給す
るようになされている。
【0176】統合パラメータ生成部268は、図1の統
合パラメータ生成部22と同様に、メディア間正規化部
267が出力する画像および音声の特徴パラメータを統
合することにより、統合パラメータとし、ベクトル量子
化部62に出力するようになされている。
【0177】次に、図26のフローチャートを参照し
て、図24のマッチング回路213の処理について説明
する。
【0178】ユーザが、ある単語を発話することによっ
て、パラメータ化回路1(図23)が出力する画像およ
び音声の時系列の特徴パラメータは、時間軸正規化部6
1に供給される。時間軸正規化部61では、ステップS
81において、その画像および音声それぞれの時系列の
特徴パラメータが時間軸正規化され、メディア間正規化
部267に供給される。
【0179】その後、ステップS82において、時間軸
正規化後の時刻をカウントするための変数tが0に初期
化され、ステップS83に進み、メディア間正規化部2
67において、距離推移モデル記憶部265に記憶され
た各距離推移モデルについて、時刻tにおける最適正規
化係数を用いて、時刻tにおける画像および音声の特徴
パラメータが正規化される。即ち、メディア間正規化部
267では、距離推移モデル記憶部265に記憶された
各距離推移モデルについての時刻tにおける最適正規化
係数α(t)が、時刻tにおける音声の特徴パラメータ
に乗算され、時刻tにおける画像の特徴パラメータとと
もに、統合パラメータ生成部268に出力される。
【0180】統合パラメータ生成部268では、メディ
ア間正規化部267からの画像および音声の特徴パラメ
ータが統合されることにより統合パラメータとされ、ベ
クトル量子化部62に供給される。即ち、メディア間正
規化部267からは、各距離推移モデルについての時刻
tにおける最適正規化係数α(t)によって正規化され
た画像および音声の特徴パラメータが出力されるので、
統合パラメータ生成部268でも、各距離推移モデルに
ついての統合パラメータ(各距離推移モデルとともに記
憶されている最適正規化係数α(t)によって正規化さ
れた画像および音声の特徴パラメータから構成される統
合パラメータ)が構成され、ベクトル量子化部62に供
給される。
【0181】ベクトル量子化部62は、統合パラメータ
生成部268からの各距離推移モデルについての統合パ
ラメータを、コードブック記憶部63に記憶されたコー
ドブック63を用いてベクトル量子化し、そのベクトル
量子化結果としてのコードを出力する。この各距離推移
モデルについてのコードは、距離計算部64に供給され
る。
【0182】距離計算部64では、ベクトル量子化部6
2からの各距離推移モデルについてのコードが、各距離
推移モデルの時刻tにおいて観測されるときのコードベ
クトルとの距離が求められ、既に求められている各距離
推移モデルについての距離に累積加算される。
【0183】そして、ステップS85に進み、時刻t
が、時間軸正規化後の終わりの時刻TCに等しいかどう
かが判定され、等しくないと判定された場合、ステップ
S86に進み、時刻tが1だけインクリメントされる。
そして、ステップS83に戻り、そのインクリメント後
の時刻tについて、同様の処理が行われる。
【0184】また、ステップS85において、時刻tが
時刻TCに等しいと判定された場合、距離計算部64
は、距離推移モデル記憶部265に記憶された各距離推
移モデルについて得られた距離の累積値を、ソート部6
6に出力し、ステップS87に進む。
【0185】ステップS87では、ソート部66におい
て、距離計算部64からの、認識対象の各単語の距離推
移モデルについての距離の累積値のうち、その値が小さ
いものから、上位N個が選択され、ステップS88に進
み、統合パラメータと距離推移モデルとのマッチング結
果として、判定回路4(図23)に出力され、処理を終
了する。
【0186】以上のように、各時刻において、統合パラ
メータに、画像と音声の時系列の特徴パラメータそれぞ
れの特徴が反映されるような時系列の最適正規化係数α
(t)を用いて、画像および音声の特徴パラメータを正
規化して統合パラメータを構成するようにしたので、音
声の認識率を向上させることができる。
【0187】以上、本発明を適用した音声認識装置につ
いて説明したが、本発明は、その他、例えば、話者や、
画像その他を認識する装置などにも適用可能である。
【0188】なお、本実施の形態では、説明を簡単にす
るために、画像と音声の2種類の特徴パラメータについ
ての最適正規化係数α(t)を求めるようにしたが、3
種類以上の特徴パラメータ、あるいは、画像や音声の他
のメディアの特徴パラメータについての時系列の最適正
規化係数を求めることも可能である。ある。
【0189】また、時系列の最適正規化係数の学習方法
は、固定の正規化係数の学習と同様に、特徴パラメータ
の種類や次元に依存するものではないため、特徴パラメ
ータの種類や次元に関係なく適用可能である。
【0190】さらに、上述した場合においては、音声の
特徴パラメータに乗算する時系列の最適正規化係数α
(t)を求めるようにしたが、その他、画像または音声
の特徴パラメータそれぞれに乗算する形の時系列の最適
正規化係数を求めるようにすることも可能である。
【0191】また、時系列の最適正規化係数を学習する
図18の学習装置では、マッチング部131において距
離推移方式によるマッチングを行わせるようにしたが、
マッチングの手法は、これに限定されるものではない。
【0192】さらに、時系列の最適正規化係数を用いて
音声認識を行う図23の音声認識装置では、マッチング
回路213において距離推移方式のみによるマッチング
を行うようにしたが、マッチング回路213には、距離
推移方式によるマッチングとともに、例えば、図1にお
ける場合と同様に、空間分布方式によるマッチングを行
わせるようにすることも可能である。そして、この場
合、空間分布方式によるマッチングにおいても、時系列
の最適正規化係数を用いて得られる統合パラメータを用
いるようにすることが可能である。
【0193】また、本実施の形態では、図18の学習装
置において、各時刻tにおいて、0、無限大、学習用の
正規化係数αの3値のうちのいずれかを、最適正規化係
数α(t)として出力するようにしたが、最適正規化係
数α(t)のとり得る値は、このような3値に限定され
るものではない。即ち、学習用の正規化係数として、図
3の学習装置によって得られた固定の正規化係数αだけ
でなく、各値の正規化係数α0,α1,α2,・・・,αN
を用意しておき、メディア間正規化部121において、
その各値の正規化係数α0,α1,α2,・・・,αNによ
って、画像および音声の特徴パラメータを正規化して統
合パラメータを構成し、その中で、学習用の単語との距
離を最も短くする正規化係数を、最適正規化係数α
(t)とすることも可能である。この場合、最適正規化
係数α(t)の学習に時間を要することとなるが、認識
に要する時間には影響はない(従って、学習の時間のみ
長くなるが、学習の時間のみが長時間となることは、音
声認識にあたって特に問題にならない)。
【0194】
【発明の効果】以上の如く、本発明の学習装置および学
習方法によれば、所定の学習用の正規化係数に基づい
て、複数の入力データの特徴パラメータそれぞれが正規
化され、正規化された複数の特徴パラメータそれぞれに
ついて、所定の標準パラメータとの距離が算出される。
そして、その距離に基づき、時系列の特徴パラメータそ
れぞれについて、認識時に用いる時系列の正規化係数が
決定される。従って、時系列の特徴パラメータの各時刻
において認識に最適な正規化係数を得ることが可能とな
る。
【0195】本発明の認識装置および認識方法によれ
ば、複数の入力データそれぞれの時系列の特徴パラメー
タが、認識用の時系列の正規化係数に基づいて正規化さ
れ、その正規化された複数の特徴パラメータが統合され
て、統合パラメータとされる。そして、その統合パラメ
ータに基づいて、所定の認識対象が認識される。従っ
て、認識率を向上させることが可能となる。
【図面の簡単な説明】
【図1】統合パラメータを用いて音声認識を行う音声認
識装置の構成例を示すブロック図である。
【図2】図1の音声認識装置の処理を説明するためのフ
ローチャートである。
【図3】図1のメディア間正規化部21が用いる正規化
係数の学習を行う学習装置の構成例を示すブロック図で
ある。
【図4】図3の学習装置の処理を説明するためのフロー
チャートである。
【図5】図1の距離推移方式マッチング部31の構成例
を示すブロック図である。
【図6】図5の時間軸正規化部61の処理を説明するた
めの図である。
【図7】図5の距離推移モデル記憶部65に記憶されて
いる距離推移モデルを説明するための図である。
【図8】図5の距離推移方式マッチング部31の処理を
説明するためのフローチャートである。
【図9】距離推移モデルを求める学習を行う学習装置の
構成例を示すブロック図である。
【図10】図9の時間軸正規化部71の処理を説明する
ための図である。
【図11】図9の距離計算部72が出力する距離の推移
を示す図である。
【図12】図9の学習装置の処理を説明するためのフロ
ーチャートである。
【図13】図1の空間分布方式マッチング部32の構成
例を示すブロック図である。
【図14】図13の空間分布方式マッチング部32の処
理を説明するためのフローチャートである。
【図15】図13の期待度数記憶部84に記憶されてい
る期待度数を求める学習を行う学習装置の構成例を示す
ブロック図である。
【図16】図15の学習装置の処理を説明するためのフ
ローチャートである。
【図17】画像と音声の特徴パラメータを、それぞれの
特徴が失われない形で統合した統合パラメータを説明す
るための図である。
【図18】本発明を適用した学習装置の一実施の形態の
構成例を示すブロック図である。
【図19】図18の学習装置の処理を説明するためのフ
ローチャートである。
【図20】図18のマッチング部131の構成例を示す
ブロック図である。
【図21】図20のベクトル量子化部162の処理を説
明するための図である。
【図22】図18の最適正規化係数決定部104の構成
例を示すブロック図である。
【図23】本発明を適用した音声認識装置の一実施の形
態の構成例を示すブロック図である。
【図24】図23のマッチング回路213の構成例を示
すブロック図である。
【図25】図24の距離推移モデル記憶部265の記憶
内容を説明するための図である。
【図26】図24のマッチング回路213の処理を説明
するためのフローチャートである。
【符号の説明】
1 パラメータ化回路, 2 統合パラメータ生成回
路, 3 マッチング回路, 4 判定回路, 111
乃至11N 処理部, 21 メディア間正規化部,
22 統合パラメータ生成部, 31 距離推移方式マ
ッチング部, 32空間分布方式マッチング部, 51
仮正規化部, 52 コードブック作成部, 53
仮正規化部, 54 ベクトル量子化部, 55 正規
化係数制御部, 61 時間軸正規化部, 62 ベク
トル量子化部, 63 コードブック記憶部, 64
距離計算部, 65 距離推移モデル記憶部, 66
ソート部, 71 時間軸正規化部, 72 距離計算
部, 73 コードブック記憶部, 74 多項式表現
化部, 81 ベクトル量子化部, 82 コードブッ
ク記憶部, 83 カイ二乗検定部, 84 期待度数
記憶部, 85 ソート部, 91 ベクトル量子化
部, 92 コードブック記憶部, 93 期待度数算
出部, 101 パラメータ化回路, 104 最適正
規化係数決定部,1111 口唇信号処理部, 1112
音声信号処理部, 121 メディア間正規化部,
122 パラメータ次元正規化部, 131 マッチン
グ部,161 時間軸正規化部, 162 ベクトル量
子化部, 163 コードブック記憶部, 164 距
離計算部, 165 距離推移モデル記憶部, 166
テンポラルメモリ, 201 比較部, 202 最適
正規化係数出力部,213 マッチング回路, 265
距離推移モデル記憶部, 267 メディア間正規化
部, 268 統合パラメータ生成部
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5D015 EE01 FF05 GG05 LL07 9A001 BB02 BB03 BB04 EE05 EZ02 FF10 GZ05 HH07 HH16 HH17 HH23 KK37 KK46

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 複数の入力データについて、それぞれの
    特徴を表す時系列の特徴パラメータの正規化に用いる時
    系列の正規化係数を求めるための学習を行う学習装置で
    あって、 所定の学習用の正規化係数に基づいて、前記複数の入力
    データの特徴パラメータそれぞれを正規化する正規化手
    段と、 正規化された複数の前記特徴パラメータそれぞれについ
    て、所定の標準パラメータとの距離を算出する算出手段
    と、 前記距離に基づき、時系列の前記特徴パラメータそれぞ
    れについて、認識時に用いる時系列の前記正規化係数を
    決定する決定手段とを備えることを特徴とする学習装
    置。
  2. 【請求項2】 前記正規化手段は、複数の前記特徴パラ
    メータのうちの任意の1つについての前記標準パラメー
    タとの距離と、他の任意の1つについての前記標準パラ
    メータとの距離とを等しくする前記学習用の正規化係数
    に基づいて、複数の前記特徴パラメータそれぞれを正規
    化することを特徴とする請求項1に記載の学習装置。
  3. 【請求項3】 前記決定手段は、前記学習用の正規化係
    数、0、または無限大のうちのいずれかを、認識時に用
    いる前記正規化係数として決定することを特徴とする請
    求項2に記載の学習装置。
  4. 【請求項4】 前記複数の入力データは、少なくとも画
    像と音声のデータを含むことを特徴とする請求項1に記
    載の学習装置。
  5. 【請求項5】 複数の入力データについて、それぞれの
    特徴を表す時系列の特徴パラメータの正規化に用いる時
    系列の正規化係数を求めるための学習を行う学習方法で
    あって、 所定の学習用の正規化係数に基づいて、前記複数の入力
    データの特徴パラメータそれぞれを正規化し、 正規化された複数の前記特徴パラメータそれぞれについ
    て、所定の標準パラメータとの距離を算出し、 前記距離に基づき、時系列の前記特徴パラメータそれぞ
    れについて、認識時に用いる時系列の前記正規化係数を
    決定することを特徴とする学習方法。
  6. 【請求項6】 所定の認識対象を、複数の入力データに
    基づいて認識する認識装置であって、 前記複数の入力データを処理することにより、その複数
    の入力データそれぞれについて、時系列の特徴パラメー
    タを出力する処理手段と、 前記複数の入力データそれぞれの時系列の特徴パラメー
    タを正規化するための認識用の時系列の正規化係数を記
    憶している記憶手段と、 前記複数の入力データそれぞれの時系列の特徴パラメー
    タを、前記認識用の時系列の正規化係数に基づいて正規
    化する正規化手段と、 正規化された複数の特徴パラメータを統合し、統合パラ
    メータとする統合手段と、 前記統合パラメータに基づいて、前記所定の認識対象を
    認識する認識手段とを備えることを特徴とする認識装
    置。
  7. 【請求項7】 前記認識用の時系列の正規化係数は、 学習用の正規化係数に基づいて、学習用の複数の入力デ
    ータの特徴パラメータそれぞれを正規化し、 正規化された学習用の複数の前記特徴パラメータそれぞ
    れについて、所定の標準パラメータとの距離を算出し、 前記距離に基づき、学習用の時系列の前記特徴パラメー
    タそれぞれについて、認識用の時系列の前記正規化係数
    を決定することにより得られたものであることを特徴と
    する請求項6に記載の認識装置。
  8. 【請求項8】 前記学習用の正規化係数は、複数の前記
    特徴パラメータのうちの任意の1つについての前記標準
    パラメータとの距離と、他の任意の1つについての前記
    標準パラメータとの距離とを等しくするものであること
    を特徴とする請求項7に記載の認識装置。
  9. 【請求項9】 前記認識用の正規化係数は、前記学習用
    の正規化係数、0、または無限大のうちのいずれかであ
    ることを特徴とする請求項8に記載の認識装置。
  10. 【請求項10】 前記複数の入力データは、少なくとも
    画像と音声のデータを含むことを特徴とする請求項6に
    記載の認識装置。
  11. 【請求項11】 前記認識手段は、前記音声を認識する
    ことを特徴とする請求項10に記載の認識装置。
  12. 【請求項12】 所定の認識対象を、複数の入力データ
    に基づいて認識する認識方法であって、 前記複数の入力データを処理することにより、その複数
    の入力データそれぞれについて、時系列の特徴パラメー
    タを出力し、 前記複数の入力データそれぞれの時系列の特徴パラメー
    タを、認識用の時系列の正規化係数に基づいて正規化
    し、 正規化された複数の特徴パラメータを統合して、統合パ
    ラメータとし、 前記統合パラメータに基づいて、前記所定の認識対象を
    認識することを特徴とする認識方法。
JP11001789A 1999-01-07 1999-01-07 学習装置および学習方法、並びに認識装置および認識方法 Pending JP2000200098A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP11001789A JP2000200098A (ja) 1999-01-07 1999-01-07 学習装置および学習方法、並びに認識装置および認識方法
US09/478,061 US6718299B1 (en) 1999-01-07 2000-01-05 Information processing apparatus for integrating a plurality of feature parameters

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11001789A JP2000200098A (ja) 1999-01-07 1999-01-07 学習装置および学習方法、並びに認識装置および認識方法

Publications (1)

Publication Number Publication Date
JP2000200098A true JP2000200098A (ja) 2000-07-18

Family

ID=11511352

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11001789A Pending JP2000200098A (ja) 1999-01-07 1999-01-07 学習装置および学習方法、並びに認識装置および認識方法

Country Status (2)

Country Link
US (1) US6718299B1 (ja)
JP (1) JP2000200098A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287340A (ja) * 2007-05-15 2008-11-27 Tokai Univ 発話内容識別装置及び個人識別装置
JP2012039994A (ja) * 2010-07-21 2012-03-01 Akita Prefectural Univ 主成分算出方法、トランスクリプトーム解析方法、遺伝子、老化判定方法、コンピュータプログラム、記憶媒体、及び解析装置
EP3726372A1 (en) 2019-04-19 2020-10-21 Fujitsu Limited Information processing device, information processing method, and information processing program
KR20210103381A (ko) * 2020-02-13 2021-08-23 주식회사 루닛 데이터의 전향적 전처리 장치 및 그 방법

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003006643A (ja) * 2001-06-25 2003-01-10 Canon Inc 画像処理装置及びその方法、プログラム
US20050010413A1 (en) * 2003-05-23 2005-01-13 Norsworthy Jon Byron Voice emulation and synthesis process
WO2014018004A1 (en) * 2012-07-24 2014-01-30 Nuance Communications, Inc. Feature normalization inputs to front end processing for automatic speech recognition

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1257073B (it) * 1992-08-11 1996-01-05 Ist Trentino Di Cultura Sistema di riconoscimento, particolarmente per il riconoscimento di persone.
US5839103A (en) * 1995-06-07 1998-11-17 Rutgers, The State University Of New Jersey Speaker verification system using decision fusion logic
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6125345A (en) * 1997-09-19 2000-09-26 At&T Corporation Method and apparatus for discriminative utterance verification using multiple confidence measures

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008287340A (ja) * 2007-05-15 2008-11-27 Tokai Univ 発話内容識別装置及び個人識別装置
JP2012039994A (ja) * 2010-07-21 2012-03-01 Akita Prefectural Univ 主成分算出方法、トランスクリプトーム解析方法、遺伝子、老化判定方法、コンピュータプログラム、記憶媒体、及び解析装置
EP3726372A1 (en) 2019-04-19 2020-10-21 Fujitsu Limited Information processing device, information processing method, and information processing program
US11675567B2 (en) 2019-04-19 2023-06-13 Fujitsu Limited Quantization device, quantization method, and recording medium
KR20210103381A (ko) * 2020-02-13 2021-08-23 주식회사 루닛 데이터의 전향적 전처리 장치 및 그 방법
KR102395564B1 (ko) 2020-02-13 2022-05-10 주식회사 루닛 데이터의 전향적 전처리 장치 및 그 방법

Also Published As

Publication number Publication date
US6718299B1 (en) 2004-04-06

Similar Documents

Publication Publication Date Title
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
US8484023B2 (en) Sparse representation features for speech recognition
US7590537B2 (en) Speaker clustering and adaptation method based on the HMM model variation information and its apparatus for speech recognition
US5684925A (en) Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
EP0686965B1 (en) Speech recognition apparatus with speaker adaptation using acoustic category mean value calculus
AU2006343470B2 (en) Intersession variability compensation for automatic extraction of information from voice
WO2002101719A1 (fr) Procede et dispositif de reconnaissance vocale
US5734793A (en) System for recognizing spoken sounds from continuous speech and method of using same
EP1863014B1 (en) Apparatuses and methods for learning and using a distance transition model
US5832181A (en) Speech-recognition system utilizing neural networks and method of using same
JP2000200098A (ja) 学習装置および学習方法、並びに認識装置および認識方法
JP2912579B2 (ja) 声質変換音声合成装置
JPH08123469A (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JP4345156B2 (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
JP2000181481A (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
JP2000181484A (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
JPH11122114A (ja) コードブック作成装置およびコードブック作成方法、並びにベクトル量子化装置およびベクトル量子化方法
JP2000122677A (ja) パラメータ抽出装置およびパラメータ抽出方法
JP4678464B2 (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
Rao et al. Curvelet based speech recognition system in noisy environment: A statistical approach
JP2836968B2 (ja) 信号解析装置
Vasquez Feature space transformation for speech recognition
JP2003005784A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
JPH1049189A (ja) 音声認識装置
JPH05273994A (ja) 隠れマルコフモデルの学習方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20051208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080617

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081014