JP4345156B2 - 学習装置および学習方法、認識装置および認識方法、並びに記録媒体 - Google Patents

学習装置および学習方法、認識装置および認識方法、並びに記録媒体 Download PDF

Info

Publication number
JP4345156B2
JP4345156B2 JP28761999A JP28761999A JP4345156B2 JP 4345156 B2 JP4345156 B2 JP 4345156B2 JP 28761999 A JP28761999 A JP 28761999A JP 28761999 A JP28761999 A JP 28761999A JP 4345156 B2 JP4345156 B2 JP 4345156B2
Authority
JP
Japan
Prior art keywords
distance
vector
series
transition
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP28761999A
Other languages
English (en)
Other versions
JP2000181486A (ja
Inventor
典文 吉原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP28761999A priority Critical patent/JP4345156B2/ja
Publication of JP2000181486A publication Critical patent/JP2000181486A/ja
Application granted granted Critical
Publication of JP4345156B2 publication Critical patent/JP4345156B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、学習装置および学習方法、認識装置および認識方法、並びに記録媒体に関し、特に、例えば、状態の遷移等を、十分に表現可能なモデルを提供することにより、音声等の認識率を向上させることができるようにする学習装置および学習方法、認識装置および認識方法、並びに記録媒体に関する。
【0002】
【従来の技術】
例えば、音声を認識するアルゴリズムとしては、従来より、HMM(Hidden Markov Models)法などが知られている。離散HMM法では、あらかじめ学習を行うことにより、認識対象に対応するモデルが求められ、各モデルから、入力された音声に対応する入力系列が観測される確率(観測確率)が、そのモデルに与えられた状態遷移確率(ある状態から他の状態へ遷移(自分自身への遷移も含むのが一般的である)する確率)や出力確率(状態が遷移するときに、あるコード(ラベル)(シンボル)が出力される確率)に基づいて計算される。そして、その観測確率に基づいて、入力された音声の認識が行われる。
【0003】
【発明が解決しようとする課題】
ところで、HMM法における学習は、システムの製作者が、モデルの状態数や状態遷移の形態(例えば、ある状態からの状態の遷移は、自分自身と自分の右隣の状態のいずれか一方にのみ限られるなどといった状態遷移の制限)を決定し、そのようなモデルを用いて行われる。
【0004】
しかしながら、システムの製作者が、いわば勝手に決定した状態数や状態遷移の形態のモデルが、認識対象が有する本来の状態数や状態遷移の形態に沿うものとは限らない。そして、システムの製作者が決定したモデルが、認識対象が有する本来の状態数や状態遷移の形態に沿わないものである場合には、そのモデルによっては、認識対象の定常状態や過渡状態を正確に表現することができず、その結果、認識率が劣化するおそれがある。
【0005】
本発明は、このような状況に鑑みてなされたものであり、認識対象が有する本来の状態数等を、十分に表現可能なモデルを提供することにより、音声等の認識率を向上させることができるようにするものである。
【0006】
【課題を解決するための手段】
本発明の第1の側面の学習装置は、所定の標準系列と、ベクトル量子化に用いられるコードベクトルとの間の距離の推移を表す距離推移モデルを求めるための学習を行う学習装置であって、時系列の学習データについて、時間軸の正規化を行い、前記標準系列を出力する正規化手段と、前記標準系列と、前記コードベクトルとの間の距離を算出し、その距離の推移を出力する距離算出手段と、前記距離の推移を多項式で近似する近似手段とを備え、前記近似手段は、前記コードブックのコードベクトルのうち、前記標準系列との距離を最小にするものとの距離の累積値が最小となるように、前記多項式の次数を決定する学習装置である。
【0007】
本発明の第1の側面の学習方法は、所定の標準系列と、ベクトル量子化に用いられるコードベクトルとの間の距離の推移を表す距離推移モデルを求めるための学習を行う学習方法であって、時系列の学習データについて、時間軸の正規化を行い、前記標準系列を出力し、前記標準系列と、前記コードベクトルとの間の距離を算出し、その距離の推移を出力し、前記距離の推移を多項式で近似するステップを含み、前記コードブックのコードベクトルのうち、前記標準系列との距離を最小にするものとの距離の累積値が最小となるように、前記多項式の次数を決定する学習方法である。
【0008】
本発明の第1の側面の記録媒体は、所定の標準系列と、ベクトル量子化に用いられるコードベクトルとの間の距離の推移を表す距離推移モデルを求めるための学習を、コンピュータに行わせるプログラムが記録されている記録媒体であって、時系列の学習データについて、時間軸の正規化を行い、前記標準系列を出力する正規化手段と、前記標準系列と、前記コードベクトルとの間の距離を算出し、その距離の推移を出力する距離算出手段と、前記距離の推移を多項式で近似する近似手段として、コンピュータを機能させるためのプログラムであり、前記近似手段は、前記コードブックのコードベクトルのうち、前記標準系列との距離を最小にするものとの距離の累積値が最小となるように、前記多項式の次数を決定するプログラムが記録されている記録媒体である。
【0009】
本発明の第2の側面の認識装置は、時系列の入力データが所定の認識対象に一致するか否かを認識する認識装置であって、複数のコードベクトルと、各コードベクトルを示す識別子とからなるコードブックを記憶しているコードブック記憶手段と、所定の標準系列と、前記コードブックの各コードベクトルとの間の距離の推移を表す、少なくとも1つの認識対象に対応した距離推移モデルを記憶しているモデル記憶手段と、前記時系列の入力データを、前記コードブックを用いてベクトル量子化し、前記識別子の系列を出力するベクトル量子化手段と、前記距離推移モデルと、前記入力データについての識別子の系列とに基づいて、前記入力データが所定の認識対象に一致するか否かを認識する認識手段とを備え、前記認識手段は、前記識別子の系列と前記距離推移モデルとに基づいて、前記識別子ごとの距離を累積し、その累積された距離に基づいて、前記入力データが所定の認識対象に一致するか否かを認識する認識装置である。
【0010】
本発明の第2の側面の認識方法は、時系列の入力データが所定の認識対象に一致するか否かを認識する認識方法であって、前記時系列の入力データを、複数のコードベクトルと、各コードベクトルを示す識別子とからなるコードブックを用いてベクトル量子化し、前記識別子の系列を出力し、所定の標準系列と前記コードベクトルとの間の距離の推移を表す、少なくとも1つの認識対象に対応した距離推移モデルと、前記入力データについての識別子の系列とに基づいて、前記入力データが所定の認識対象に一致するか否かを認識するステップを含み、前記識別子の系列と前記距離推移モデルとに基づいて、前記識別子ごとの距離を累積し、その累積された距離に基づいて、前記入力データが所定の認識対象に一致するか否かを認識する認識方法である。
【0011】
本発明の第2の側面の記録媒体は、時系列の入力データが所定の認識対象に一致するか否かを認識する認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、前記時系列の入力データを、複数のコードベクトルと、各コードベクトルを示す識別子とからなるコードブックを用いてベクトル量子化し、前記識別子の系列を出力するベクトル量子化手段と、所定の標準系列と前記コードベクトルとの間の距離の推移を表す、少なくとも1つの認識対象に対応した距離推移モデルと、前記入力データについての識別子の系列とに基づいて、前記入力データが所定の認識対象に一致するか否かを認識する認識手段として、コンピュータを機能させるためのプログラムであり、前記認識手段は、前記識別子の系列と前記距離推移モデルとに基づいて、前記識別子ごとの距離を累積し、その累積された距離に基づいて、前記入力データが所定の認識対象に一致するか否かを認識するプログラムが記録されている記録媒体である。
【0012】
本発明の第3の側面の認識装置は、時系列の入力データが所定の認識対象に一致するか否かを認識する認識装置であって、時系列の第1および第2の入力データを統合し、時系列の統合データを出力する統合手段と、前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて、前記第1または第2の入力データが所定の認識対象に一致するか否かを認識する認識手段とを備え、前記認識手段は、前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて行われる第1のマッチング処理、および前記時系列の統合データに基づくベクトルから得られる空間分布に基づいて行われる第2のマッチング処理を行い、前記第1および第2のマッチング処理の結果に基づいて、前記第1または第2の入力データが所定の認識対象に一致するか否かを認識するか、又は、ベクトル量子化に用いられるコードブックのコードベクトルと、所定の標準系列との間の距離の推移を表す距離推移モデルから、前記統合データに基づくベクトルを、前記コードブックを用いてベクトル量子化したベクトル量子化結果が観測されるときの前記距離を累積し、その累積結果に基づいて、前記第1または第2のデータが所定の認識対象に一致するか否かを認識する認識装置である。
【0013】
本発明の第3の側面の認識方法は、時系列の入力データが所定の認識対象に一致するか否かを認識する認識方法であって、時系列の第1および第2の入力データを統合し、時系列の統合データを出力し、前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて、前記第1または第2の入力データが所定の認識対象に一致するか否かを認識するステップを含み、前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて行われる第1のマッチング処理、および前記時系列の統合データに基づくベクトルから得られる空間分布に基づいて行われる第2のマッチング処理を行い、前記第1および第2のマッチング処理の結果に基づいて、前記第1または第2の入力データが所定の認識対象に一致するか否かを認識するか、又は、ベクトル量子化に用いられるコードブックのコードベクトルと、所定の標準系列との間の距離の推移を表す距離推移モデルから、前記統合データに基づくベクトルを、前記コードブックを用いてベクトル量子化したベクトル量子化結果が観測されるときの前記距離を累積し、その累積結果に基づいて、前記第1または第2のデータが所定の認識対象に一致するか否かを認識する認識方法である。
【0014】
本発明の第3の側面の記録媒体は、時系列の入力データが所定の認識対象に一致するか否かを認識する認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、時系列の第1および第2の入力データを統合し、時系列の統合データを出力する統合手段と、前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて、前記第1または第2の入力データが所定の認識対象に一致するか否かを認識する認識手段として、コンピュータを機能させるためのプログラムであり、前記認識手段は、前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて行われる第1のマッチング処理、および前記時系列の統合データに基づくベクトルから得られる空間分布に基づいて行われる第2のマッチング処理を行い、前記第1および第2のマッチング処理の結果に基づいて、前記第1または第2の入力データが所定の認識対象に一致するか否かを認識するか、又は、ベクトル量子化に用いられるコードブックのコードベクトルと、所定の標準系列との間の距離の推移を表す距離推移モデルから、前記統合データに基づくベクトルを、前記コードブックを用いてベクトル量子化したベクトル量子化結果が観測されるときの前記距離を累積し、その累積結果に基づいて、前記第1または第2のデータが所定の認識対象に一致するか否かを認識するプログラムが記録されている記録媒体である。
【0015】
本発明の第1の側面においては、時系列の学習データについて、時間軸の正規化が行われ、前記標準系列が出力される。さらに、前記標準系列と、前記コードベクトルとの間の距離が算出され、その距離の推移が出力されて、前記距離の推移が多項式で近似される。前記多項式の次数は、前記コードブックのコードベクトルのうち、前記標準系列との距離を最小にするものとの距離の累積値が最小となるように決定される。
【0016】
本発明の第2の側面においては、前記時系列の入力データが、複数のコードベクトルと、各コードベクトルを示す識別子とからなるコードブックを用いてベクトル量子化され、前記識別子の系列が出力される。そして、所定の標準系列と前記コードベクトルとの間の距離の推移を表す、少なくとも1つの認識対象に対応した距離推移モデルと、前記入力データについての識別子の系列とに基づいて、前記入力データが所定の認識対象に一致するか否かが認識される。すなわち、前記識別子の系列と前記距離推移モデルとに基づいて、前記識別子ごとの距離が累積され、その累積された距離に基づいて、前記入力データが所定の認識対象に一致するか否かが認識される。
【0017】
本発明の第3の側面においては、時系列の第1および第2の入力データが統合され、時系列の統合データが出力される。さらに、前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて、前記第1または第2の入力データが所定の認識対象に一致するか否かが認識される。すなわち、前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて行われる第1のマッチング処理、および前記時系列の統合データに基づくベクトルから得られる空間分布に基づいて行われる第2のマッチング処理が行われ、前記第1および第2のマッチング処理の結果に基づいて、前記第1または第2の入力データが所定の認識対象に一致するか否かが認識される。又は、ベクトル量子化に用いられるコードブックのコードベクトルと、所定の標準系列との間の距離の推移を表す距離推移モデルから、前記統合データに基づくベクトルを、前記コードブックを用いてベクトル量子化したベクトル量子化結果が観測されるときの前記距離が累積され、その累積結果に基づいて、前記第1または第2のデータが所定の認識対象に一致するか否かが認識される。
【0018】
【発明の実施の形態】
図1は、本発明を適用した音声認識装置の一実施の形態の構成例を示している。
【0019】
この音声認識装置には、ユーザが発話した音声をマイクロフォンで集音した発話データの他、そのユーザが発話している口唇をビデオカメラで撮影した画像のデータ(画像データ)、ユーザが発話した環境における雑音のデータ(雑音データ)、その他のユーザの発話(音声)を認識するのに役立ちうるデータ(例えば、ユーザが発話を行っている場所を入力するボタンが装置に設けられている場合において、そのボタンが操作されたときの、その操作に対応する信号や、音声認識を行う環境の温度を計測する温度センサの出力など)が、時系列に、順次入力されるようになされており、これらのデータを必要に応じて考慮して、発話データの認識が行われるようになされている。
【0020】
即ち、パラメータ化回路1には、上述した発話データ、口唇の画像データ、雑音データ、その他のデータ(ここでは、いずれもディジタルデータとする)が入力されるようになされている。そして、パラメータ化回路1は、そこに入力される各種のデータそれぞれを処理するための信号処理部111乃至11Nを有しており、発話データ、口唇の画像データ、雑音データ、その他のデータを、対応する信号処理部11n(n=1,2,・・・,N:Nは、パラメータ化回路1に入力可能な信号の最大の種類数)において処理することにより、各データの特徴を表す特徴パラメータの抽出等を行うようになされている。パラメータ化回路1で抽出された特徴パラメータは、統合パラメータ生成回路2に供給されるようになされている。
【0021】
ここで、図1の実施の形態では、信号処理部111,112、または11Nそれぞれにおいて、口唇の画像データ、発話データ、または雑音データが処理されるようになされている。なお、発話データや雑音データなどの音声(音響)データの特徴パラメータとしては、例えば、線形予測係数や、ケプストラム(Cepstrum)係数、パワー、線スペクトル対(Line Spectrum Pair)、ゼロクロスなどがある。また、口唇の画像データの特徴パラメータについては、後述する。
【0022】
統合パラメータ生成回路2は、メディア間正規化部21および統合パラメータ生成部22で構成され、パラメータ化回路1からの各種の信号の特徴パラメータを統合した統合パラメータを生成するようになされている。
【0023】
即ち、メディア間正規化部21は、パラメータ化回路1からの各種の信号の特徴パラメータを、同一の重み(スケール)で扱うことができるように正規化し、統合パラメータ生成部22に出力するようになされている。統合パラメータ生成部22は、メディア間正規化部21から供給される、各種の信号の、正規化された特徴パラメータを統合する(つなぎ合わせる)ことにより、統合パラメータを生成し、マッチング回路3に出力するようになされている。
【0024】
マッチング回路3は、統合パラメータと、標準パターン(認識対象のモデル)とのマッチングを行い、そのマッチング結果を、判定回路4に出力するようになされている。マッチング回路3は、距離推移方式マッチング部31および空間分布方式マッチング部32を有している。距離推移方式マッチング部31は、後述する距離推移モデルを用いて、後述する距離推移方式による統合パラメータのマッチングを行い、そのマッチング結果を、判定回路4に出力するようになされている。空間分布方式マッチング部32は、後述する空間分布方式による統合パラメータのマッチングを行い、そのマッチング結果を、判定回路4に出力するようになされている。
【0025】
判定回路4は、マッチング回路3の出力、即ち、ここでは、距離推移方式マッチング部31および空間分布方式マッチング部32におけるマッチング結果に基づいて、ユーザの発話(音声)を認識し、その認識結果としての、例えば、単語を出力するようになされている。
【0026】
次に、図2のフローチャートを参照して、図1の音声認識装置の処理について説明する。
【0027】
音声認識装置では、発話データ、口唇の画像データ、雑音データ等が入力されると、それらのデータが、パラメータ化回路1に供給される。なお、パラメータ化回路1には、口唇の画像データとともに、あるいは口唇の画像データに替えて、発話者のジェスチャを撮影した画像データや、喉の(筋肉の)動きを撮影した画像データ(または喉の動きを計測するセンサの出力)等を入力するようにすることも可能である。
【0028】
パラメータ化回路1は、ステップS1において、発話データ、口唇の画像データ、雑音データ等を処理し、それぞれのデータについて、特徴パラメータを抽出する。各データの特徴パラメータは、統合パラメータ生成回路2に供給される。
【0029】
統合パラメータ生成回路2のメディア間正規化部21は、ステップS2において、パラメータ化回路1からの各データの特徴パラメータを正規化し、その正規化された特徴パラメータを、統合パラメータ生成部22に供給する。統合パラメータ生成部22は、ステップS3において、メディア間正規化部21からの各データの正規化された特徴パラメータを統合し、統合パラメータとする。この統合パラメータは、マッチング回路3の距離推移方式マッチング部31および空間分布方式マッチング部32に供給され、ステップS4に進む。
【0030】
ステップS4では、距離推移方式マッチング部31が、統合パラメータ生成回路2からの統合パラメータのマッチングを、距離推移方式によって行う。さらに、ステップS4では、空間分布方式マッチング部32が、統合パラメータ生成回路2からの統合パラメータのマッチングを、空間分布方式によって行う。そして、距離推移方式マッチング部31および空間分布マッチング部32によるマッチング結果は、判定回路4に供給される。判定回路4は、ステップS5において、マッチング回路3からのマッチング結果に基づき、発話データの認識を行い、その認識結果(音声認識結果)を出力して、処理を終了する。
【0031】
次に、図1におけるパラメータ化回路1の信号処理部111は、上述したように、口唇の画像データを処理し、その特徴パラメータを抽出するようになっているが、図3は、そのような信号処理部111の構成例を示している。
【0032】
口唇の画像データは、YIQ変換部41に供給されるようになされており、YIQ変換部41は、口唇の画像データを、YIQで表される信号に変換するようになされている。即ち、信号処理部111に入力される口唇の画像データは、例えば、RGB(Red, Green, Blue)で表現されており、YIQ変換部41は、そのようなRGBで表現された口唇の画像データを、YIQで表現されたものに変換し、Q成分抽出部42に供給するようになされている。
【0033】
Q成分抽出部42は、YIQ変換部41からのYIQで表現された口唇の画像データのうちの、Q成分の信号レベルが閾値以上となっている画素を抽出し、その画素を、口唇を構成する画素(以下、適宜、口唇画素という)として、全体重心算出部43、上重心/下重心算出部44、分割重心算出部45、および分割部46に出力するようになされている。
【0034】
全体重心算出部43は、Q成分抽出部42からの口唇画素全体の重心(以下、適宜、全体重心という)を求め、上重心/下重心算出部44および分割重心算出部45に供給するようになされている。
【0035】
上重心/下重心算出部44は、後述する上重心および下重心を求めるようになされている。即ち、上重心/下重心算出部44は、全体重心算出部43からの全体重心に基づいて、口唇画素を、上唇を構成する画素(以下、適宜、上唇画素という)と、下唇を構成する画素(以下、適宜、下唇画素という)とに仮に分割するようになされている。さらに、上重心/下重心算出部44は、上唇画素全体の重心(以下、適宜、上重心という)、および下唇画素全体の重心(以下、適宜、下重心という)を求め、分割重心算出部45に出力するようになされている。
【0036】
分割重心算出部45は、口唇画素を、上唇画素と下唇画素とに最終的に分割するための、その分割の基準となる点(以下、適宜、分割重心という)を、全体重心算出部43からの全体重心、並びに上重心/下重心算出部44からの上重心および下重心に基づいて求め、分割部46に出力するようになされている。
【0037】
分割部46は、Q成分抽出部42からの口唇画素を、分割重心算出部45からの分割重心に基づいて、上唇画素と下唇画素とに分割し、上唇画素はミラー領域生成部47Uに、下唇画素はミラー領域生成部47Dに、それぞれ出力するようになされている。
【0038】
ミラー領域生成部47Uは、上唇画素について、後述するミラー領域を構成し、上唇画素とともに、楕円近似部48Uに供給するようになされている。ミラー領域生成部47Dは、下唇画素について、ミラー領域を構成し、下唇画素とともに、楕円近似部48Dに供給するようになされている。
【0039】
楕円近似部48Uは、ミラー領域生成部47Uからの上唇画素とそのミラー領域を近似する楕円を求め、その楕円を規定するパラメータ(楕円パラメータ)を、口唇パラメータ出力部49に供給するようになされている。楕円近似部48Dは、ミラー領域生成部47Dからの下唇画素とそのミラー領域を近似する楕円を求め、その楕円を規定する楕円パラメータを、口唇パラメータ出力部49に供給するようになされている。
【0040】
口唇パラメータ出力部49は、楕円近似部48Uおよび48Dからの楕円パラメータのうち、重複するものを削除し、残りを、口唇の特徴を表す特徴パラメータである口唇パラメータとして出力するようになされている。
【0041】
次に、図4のフローチャートを参照して、図3の処理部111の処理について説明する。
【0042】
YIQ変換部41は、例えば、RGBで表現された口唇の画像データを受信すると、ステップS11において、YIQ変換行列を用いて、その画像データを、YIQで表現されたものに変換し、Q成分抽出部42に供給する。
【0043】
Q成分抽出部42は、ステップS12において、YIQ変換部41からのYIQで表現された口唇の画像データのうちの、Q成分が閾値以上となっている画素を抽出し、その画素を、口唇画素として、全体重心算出部43、上重心/下重心算出部44、分割重心算出部45、および分割部46に出力する。
【0044】
ここで、本件発明者が行った調査によれば、口唇を構成する画素(口唇画素)は、比較的、Q成分が大きくなり、Q成分の大きい画素を抽出することで、口唇画素を比較的精度良く抽出することができることが分かっている。なお、Q成分は、赤系統の色の成分であるが、RGBで表現された画像から、同じく赤系統の色の成分であるR成分が大きい画素を抽出するよりは、Q成分の大きい画素を抽出した方が口唇画素を比較的精度良く抽出することも、本件発明者が行った調査から分かっている。
【0045】
全体重心算出部43は、Q成分抽出部42から、口唇画素を受信すると、ステップS13において、図5に◎印で示すような、その口唇画素全体の重心(全体重心)を求め、上重心/下重心算出部44および分割重心算出部45に供給して、ステップS14に進む。ステップS14では、上重心/下重心算出部44において、上重心および下重心が算出される。
【0046】
即ち、上重心/下重心算出部44は、図5に示すような、全体重心を通る水平方向の直線によって、Q成分抽出部42からの口唇画素を、仮に上下に2分割する。ここで、本実施の形態では、口唇の画像データとして、発話を行っているユーザを正面から撮影して得られるものが供給されるものとしている。
【0047】
さらに、上重心/下重心算出部44は、口唇画素を、上述したようにして上下2分割したものの上側または下側の画素を、それぞれ上唇を構成する画素(上唇画素)または下唇を構成する画素(下唇画素)として、図5に×印で示すような上重心または下重心をそれぞれ求める。この上重心および下重心は、分割重心算出部45に供給される。
【0048】
分割重心算出部45は、ステップS15において、分割重心を求める。即ち、分割重心算出部45は、上重心/下重心算出部44における場合と同様に、全体重心を通る水平方向の直線によって、Q成分抽出部42からの口唇画素を、上下に2分割することで、上唇画素と下唇画素とに分け、それぞれの画素数をカウントする。さらに、分割重心算出部45は、上重心と下重心とを通る線分を、上唇画素の画素数と下唇画素の画素数との比にしたがって内分し、その内分点を、分割重心とする。この分割重心は、分割部46に供給される。
【0049】
分割部46は、ステップS16において、分割重心算出部45からの、図5において・印で示す分割重心を通る水平方向の直線によって、Q成分抽出部42からの口唇画素を、上下に2分割することにより、最終的な上唇画素と下唇画素とに分け、上唇画素はミラー領域生成部47Uに、下唇画素はミラー領域生成部47Dに、それぞれ出力する。
【0050】
そして、ステップS17において、ミラー領域生成部47Uは、上唇画素について、ミラー領域を構成し、ミラー領域生成部47Dは、下唇画素について、ミラー領域を構成する。即ち、ミラー領域生成部47Uは、図6(A)に示すように、上唇画素について、分割重心を通る水平方向の直線(以下、適宜、上下分割線という)に線対称な領域を、そのミラー領域として生成し、上唇画素とともに、楕円近似部48Uに供給する。また、ミラー領域生成部47Dは、図6(B)に示すように、下唇画素について、上下分割線に線対称な領域を、そのミラー領域として生成し、下唇画素とともに、楕円近似部48Dに供給する。
【0051】
その後、ステップS18において、楕円近似部48Uは、図6(A)に示すように、上唇画素とそのミラー領域を近似する、分割重心を中心とする楕円を、例えば、最小二乗法によって求める。楕円近似部48Dも、図6(B)に示すように、下唇画素とそのミラー領域を近似する、分割重心を中心とする楕円を、最小二乗法によって求める。
【0052】
即ち、いま、分割重心のxまたはy座標を、x0またはy0と表すと、横径(x軸方向(水平方向)の半径)または縦径(y軸方向(垂直方向)の半径)を、それぞれ1/a1/2または1/b1/2とする楕円は、次式で表すことができる。
【0053】
a(x−x02+b(y−y02=1
・・・(1)
【0054】
従って、上唇画素、およびそのミラー領域を構成する画素を近似する二乗誤差を最小にする楕円は、次式を解くことで求めることができる。
【0055】
【数1】
Figure 0004345156
・・・(2)
ここで、式(2)において、Σは、上唇画素、およびそのミラー領域を構成する画素すべてについてのサメーションを表す。
【0056】
楕円近似部48Uは、上唇画素とそのミラー領域を近似する、分割重心を中心とする楕円の横径および縦径を、式(2)を解くことにより求め、上唇を近似する楕円の楕円パラメータとして、口唇パラメータ出力部49に供給する。楕円近似部48Dも、楕円近似部48Uにおける場合と同様にして、下唇画素とそのミラー領域を近似する楕円の横径および縦径を求め、口唇パラメータ出力部49に供給する。
【0057】
口唇パラメータ出力部49は、ステップS19において、楕円近似部48Uまたは48Dからの楕円パラメータのうち、重複するものを削除する。即ち、上唇画素とそのミラー領域を近似する楕円の横径と、下唇画素とそのミラー領域を近似する楕円の横径は、理想的には、図7に示すように、一致するはずであり、口唇パラメータ出力部49は、その一致する横径の1つを削除し、残りの横径、並びに上唇画素とそのミラー領域を近似する楕円の縦径(以下、適宜、上縦径という)および下唇画素とそのミラー領域を近似する楕円の縦径(以下、適宜、下縦径という)の3つの楕円パラメータを、口唇の特徴パラメータとして出力し、処理を終了する。
【0058】
なお、処理部111は、以上の処理を、例えば、1フレームの口唇の画像データが供給されるごとに繰り返す。
【0059】
ここで、上唇画素とそのミラー領域を近似する楕円の横径と、下唇画素とそのミラー領域を近似する楕円の横径は、上述したように、理想的には、一致するはずであるが、楕円を、最小二乗法によって求める場合には、僅かな差ではあるが、一致しないことが多い。そこで、横径についてだけは、図3において点線で示すように、楕円近似部48Uと48Dとの間でデータをやりとりすることにより、上唇を近似する楕円の二乗誤差と、下唇を近似する楕円の二乗誤差との和を求め、その和を最小にする楕円の横径を求めるようにすることができる。
【0060】
なお、上唇画素とそのミラー領域を近似する楕円の横径と、下唇画素とそのミラー領域を近似する楕円の横径とを、それぞれ独立に、最小二乗法によって求めた後、そのうちのいずれか一方のみを選択したり、また、その2つの横径の平均値を計算することによっても、2つの横径を1つに、いわばまとめることが可能であるが、上唇または下唇を最も良く近似する楕円のうちのいずれか一方の横径を選択する場合には、選択されなかった方の楕円による近似の精度が悪化し、また、2つの横径の平均値を計算する場合には、その平均値を横径とする楕円が、上唇および下唇を精度良く近似するとは限らないため、楕円による上唇および下唇の近似の精度を、ある程度高く維持するためには、上述したように、上唇を近似する楕円の二乗誤差と、下唇を近似する楕円の二乗誤差との和を求め、その和を最小にする楕円の横径を求めるようにするのが望ましい。
【0061】
以上のように、口唇画素を、上唇画素と下唇画素とに2分割し、それぞれを近似する楕円を求め、その楕円を表す横径および縦径を、口唇の特徴を表す特徴パラメータとするようにしたので、この特徴パラメータによれば、口唇の動き等を、忠実に再現することができる。
【0062】
さらに、口唇を楕円で近似することにより、口唇の画像データが多少のノイズを有していても、そのノイズに対して、ロバスト性のある特徴パラメータを得ることができる。
【0063】
さらに、口唇を近似する楕円の横径、上縦径、および下縦径である特徴パラメータは、人が、他人または自身の口唇を見た場合に、視覚的に得る口唇の動きに連動するから、その特徴パラメータの検証を行う場合に、その検証効率を向上させることができる。
【0064】
また、特徴パラメータが、横径、上縦径、下縦径の3つで済むので、例えば、口唇の上下左右の4つの端点を特徴パラメータとする場合に比較して、少ない数の特徴パラメータで、口唇を、効率良く表現することができる。
【0065】
その結果、例えば、図1に示すように、処理部111が出力する口唇の特徴パラメータと、処理部112が出力する発話データの特徴パラメータとを、送信装置5から、例えば、電話回線や、CATV(Cable Television)、インターネット、衛星回線などの伝送媒体6を介して、受信装置7に伝送し、受信装置7において、口唇の特徴パラメータに基づいて、人の顔の画像を動かしながら、発話データの特徴パラメータに基づいて音声を再生するような場合において、送信装置5から受信装置7に送信する口唇の特徴パラメータのデータ量が少なくて済むようになる。
【0066】
さらに、図3の実施の形態においては、口唇画素全体の重心(全体重心)を求め、その全体重心に基づき、口唇画素を、上唇画素と下唇画素とに仮に分割し、上重心および下重心を求め、さらに、分割重心を求め、その分割重心に基づき、口唇画素を、最終的な上唇画素と下唇画素とに分割するようにしたので、実際には、上唇を構成する画素が、誤って下唇画素とされたり、逆に、下唇を構成する画素が、誤って上唇画素とされたりするケースを少なくすることができる。即ち、一般には、下唇の表面積が上唇の表面積より広いため、全体重心は、下唇寄りに位置する。その結果、全体重心に基づき、口唇画素を、上唇画素と下唇画素とに分割した場合には、実際には、下唇を構成する画素が、誤って上唇画素とされるケースが多くなる。これに対して、全体重心に基づき、口唇画素を、上唇画素と下唇画素とに仮に分割し、上重心および下重心を求め、さらに、分割重心を求めて、その分割重心に基づき、口唇画素を、最終的な上唇画素と下唇画素とに分割する場合には、分割重心が、上重心寄りに位置することとなるため、下唇を構成する画素が、誤って上唇画素とされるケースを少なくすることができる。
【0067】
なお、図3の実施の形態では、発話者(ユーザ)の口唇を楕円で近似するようにしたが、その他、例えば、目などの人の顔の、口唇以外の器官も、上述の場合と同様にして、楕円で近似することが可能である。
【0068】
また、図3の実施の形態では、口唇を、上唇と下唇とに2分割するようにしたが、その他、例えば、さらに、上唇のみを左右に2分割することにより、合計で3分割し、各分割部分を楕円近似したり、上唇および下唇の両方を左右に2分割することにより、合計で4分割し、各分割部分を楕円近似したりすることも可能である。
【0069】
次に、図1のメディア間正規化部21は、上述したように、パラメータ化回路1からの各種のデータの特徴パラメータを、同一の重みで扱うことができるように正規化するが、この正規化は、各特徴パラメータに、正規化係数を乗算することで行われるようになされている。そして、その正規化係数は、学習を行うことにより求められるようになされており、図8は、そのような学習を行う学習装置の一実施の形態の構成例を示している。
【0070】
なお、ここでは、説明を簡単にするために、異なる2つのメディアである画像と音声の特徴パラメータの重みを同一にするための正規化係数を求める学習について説明する。
【0071】
仮正規化部51には、ベクトル量子化に用いるコードブックを生成するためのコードベクトル学習パラメータ(コードブック生成データ)としての、画像の特徴パラメータPi,jおよび音声の特徴パラメータVi,j(認識対象とする各音韻について、複数セットの特徴パラメータPi,jおよび音声の特徴パラメータVi,j)が供給されるようになされており、仮正規化部51は、正規化係数制御部55からの正規化係数によって、特徴パラメータPi,jおよび音声の特徴パラメータVi,jを、仮に正規化し、コードブック作成部52に供給するようになされている。即ち、本実施の形態では、例えば、画像の特徴パラメータPi,jの重みを基準とし、その重みに、音声の特徴パラメータVi,jの重みを一致させるために、音声の特徴パラメータVi,jに対して、正規化係数制御部55からの正規化係数αが乗算される。従って、画像の特徴パラメータPi,jには、正規化係数として1が乗算されると考えることができる。
【0072】
ここで、特徴パラメータPi,jおよびVi,jの行を表すサフィックスiは、その特徴パラメータPi,j,Vi,jが抽出された時刻(時間)を表し、列を表すサフィックスjは、特徴パラメータPi,j,Vi,jの次数(次元)を表す(従って、(Pi,1,Pi,2,・・・,Pi,L,Vi,1,Vi,2,・・・,Vi,M)が、ある時刻iにおける特徴パラメータ(特徴ベクトル)である)。また、図8では、特徴パラメータPi,jにカッコ付きのサフィックス(k)を付して、P(k) i,jと示してあるが、これは、kが異なれば、異なる学習用のデータから生成された特徴パラメータであることを表している。V(k) i,jのサフィックス(k)についても、同様である。
【0073】
なお、本実施の形態においては、画像の特徴パラメータPi,jとしては、例えば、上述した口唇を近似する楕円の横径、上縦径、下縦径を用いることができ、この場合、特徴パラメータPi,jの次数Lは3次となる。また、音声の特徴パラメータVi,jとしては、例えば、8次の線スペクトル対を用いることができ、この場合、特徴パラメータVi,jの次数Mは8次となる。
【0074】
コードブック作成部52は、仮の正規化がなされた特徴パラメータとしてのコードベクトル学習パラメータPi,jおよびVi,jを用いて、ベクトル量子化部54におけるベクトル量子化に用いるコードブックを生成し、ベクトル量子化部54に供給するようになされている。
【0075】
ここで、コードブック作成部52は、例えば、LBG(Linde, Buzo, Gray)アルゴリズムにしたがって、コードブックを作成するようになされている。
【0076】
LBGアルゴリズムは、いわばバッチ型学習アルゴリズムで、学習サンプル(学習データ)としての特徴パラメータと、コードブックを構成するコードベクトル(代表ベクトル)(最初は、適当な初期値が与えられる)との距離に対応して、特徴パラメータ空間を最適分割するボロノイス(Voronois)分割、およびボロノイス分割により得られる、特徴パラメータ空間の各部分領域の重心への、コードベクトルの更新を繰り返し行うことにより、コードブックのコードベクトルを、局所的に最適な位置に収束させるようになっている。
【0077】
ここで、学習サンプルの集合をxj(j=0,1,・・・,J−1)と、コードベクトルの集合をY={y0,y1,・・・,yNa-1}と(Naはコードベクトルの数を表し、任意に設定される)、それぞれするとき、ボロノイス分割では、学習サンプルの集合xjが、コードベクトルYの集合によって、Na個の部分集合Si(i=0,1,・・・,Na−1)に分割される。即ち、学習サンプルxjとコードベクトルyiとの間の距離をd(xj,yi)と表した場合、iと等しくないt(t=0,1,・・・,Na−1)すべてについて、式
d(xj,yi)<d(xj,yt
・・・(3)
が成り立つとき、学習サンプルxjは、部分集合Siに属する(xj∈Si)とされる。
【0078】
また、ベクトルv0,v1,・・・,vM-1についてのセントロイド(重心)C(v0,v1,・・・,vM-1)を、式
【数2】
Figure 0004345156
・・・(4)
で定義するとき、コードベクトルの更新では、コードベクトルyiが、式
i=C({Si})
・・・(5)
にしたがって更新される。
【0079】
なお、式(4)の右辺argmin{}は、{}内の値を最小にするベクトルvを意味する。また、式(5)による、いわゆるクラスタリング手法は、k平均クラスタリング法(k-means法)と呼ばれる。
【0080】
また、LBGアルゴリズムについては、例えば、「音声・画像工学」、中田和男、南敏 著、昭晃堂、昭和62年の第29ページ乃至第31ページなどに、その詳細が記載されている。
【0081】
ここで、図8の実施の形態において、コードブック作成部52が出力するコードブックの要素Si,jおよびTi,jの行を表すサフィックスi,jは、コード#iに対応するコードベクトルのj番目の要素であることを表している。従って、(Si,1,Si,2,・・・,Si,L,Ti,1,Ti,2,・・・,Ti,M)は、コード#iに対応するコードベクトルを表す。また、コードベクトルの要素Si,jは、画像に対応しており、要素Ti,jは、音声に対応している。
【0082】
仮正規化部53には、正規化係数αの学習のための正規化係数学習パラメータとしての画像の特徴パラメータPi,jおよび音声の特徴パラメータVi,j(ここでは、コードベクトル学習パラメータとは異なる画像、音声から得られたものとする)が供給されるようになされており、仮正規化部53は、仮正規化部51と同様に、正規化係数制御部55からの正規化係数によって、特徴パラメータPi,jおよび音声の特徴パラメータVi,jを、仮に正規化し、ベクトル量子化部54に供給するようになされている。即ち、仮正規化部53は、正規化係数学習パラメータとしての画像の特徴パラメータPi,jと音声の特徴パラメータVi,jのうちの音声の特徴パラメータVi,jに対して、正規化係数制御部55からの正規化係数αを乗算し、ベクトル量子化部54に出力するようになされている。
【0083】
なお、仮正規化部53には、正規化係数学習パラメータが複数セット供給されるようになされており、仮正規化部53は、その複数セットの正規化係数学習パラメータそれぞれについて、正規化を行うようになっている。
【0084】
ベクトル量子化部54は、コードブック作成部52からの最新のコードブックを用いて、仮正規化部53から供給される正規化された正規化係数学習パラメータをベクトル量子化し、そのベクトル量子化による量子化誤差を、正規化係数制御部55に供給するようになされている。
【0085】
即ち、ベクトル量子化部54は、コードブックのコードベクトルそれぞれ(標準パラメータ)と、正規化された正規化係数学習パラメータとの距離(ユークリッド距離)(Euclidean distance)を、画像と音声それぞれについて計算し、その距離のうちの最も短いものを、量子化誤差として、正規化係数制御部55に供給するようになされている。つまり、正規化された正規化係数学習パラメータのうちの画像の特徴パラメータPi,jと、コードブックにおけるコードベクトルそれぞれの画像に関する要素Si,jからなるベクトルとの距離が算出され、その距離の最も短いものが、画像についての量子化誤差として、正規化係数制御部55に供給されるとともに、正規化された正規化係数学習パラメータのうちの音声の特徴パラメータαVi,jと、コードブックにおけるコードベクトルそれぞれの音声に関する要素Ti,jからなるベクトルとの距離が算出され、その距離の最も短いものが、音声についての量子化誤差として、正規化係数制御部55に供給されるようになされている。
【0086】
正規化係数制御部55は、ベクトル量子化部54からの画像と音声についての量子化誤差を、すべての正規化係数学習パラメータに関して、それぞれ累積(積算)し、その画像と音声についての累積値が等しくなるように、仮正規化部51および53に供給する正規化係数αを変更するようになされている。
【0087】
次に、図9のフローチャートを参照して、図8の学習装置が行う処理(正規化係数学習処理)について説明する。
【0088】
図8の学習装置においては、まず最初に、コードベクトル学習パラメータが仮正規化部51に供給されるとともに、正規化係数学習パラメータが仮正規化部53に供給され、正規化係数制御部55から、正規化係数αの初期値が、仮正規化部51および53に供給される。
【0089】
そして、ステップS21において、仮正規化部51は、コードベクトル学習パラメータのうちの、音声の特徴パラメータVi,jに対して、正規化係数制御部55からの正規化係数αを乗算し、これにより、コードベクトル学習パラメータを仮に正規化して、コードブック作成部52に供給する。
【0090】
コードブック作成部52は、仮正規化部51から、正規化されたコードベクトル学習パラメータを受信すると、ステップS22において、そのコードベクトル学習パラメータを用い、LBGアルゴリズムにより、ベクトル量子化部54がベクトル量子化を行うのに用いるコードブックを作成し、ベクトル量子化部54に供給する。
【0091】
一方、仮正規化部53は、ステップS23において、正規化係数学習パラメータのうちの音声の特徴パラメータVi,jに対して、正規化係数制御部55からの正規化係数αを乗算し、これにより、正規化係数学習パラメータを仮に正規化して、ベクトル量子化部54に供給する。
【0092】
ベクトル量子化部54は、コードブック作成部52から、最新のコードブックを受信するとともに、仮正規化部53から、最新の正規化された正規化係数学習パラメータを受信すると、ステップS24において、仮正規化部53からの正規化係数学習パラメータを、コードブック作成部52からのコードブックを用い、画像と音声それぞれについてベクトル量子化を行い、それぞれの量子化誤差を、正規化係数制御部55に供給する。
【0093】
即ち、ステップS24では、ベクトル量子化部54は、正規化された正規化係数学習パラメータのうちの画像の特徴パラメータ(画像パラメータ)Pi,jと、コードベクトルのうちの画像に関する要素Si,jからなるベクトルとの距離を算出し、その距離の最も短いものを、画像についての量子化誤差として、正規化係数制御部55に供給するとともに、正規化された正規化係数学習パラメータのうちの音声の特徴パラメータ(音声パラメータ)αVi,jと、コードベクトルのうちの音声に関する要素Ti,jからなるベクトルとの距離を算出し、その距離のうち、最も短いものを、音声についての量子化誤差として、正規化係数制御部55に供給する。
【0094】
ここで、仮正規化部53には、上述したように、複数の正規化係数学習パラメータが供給されるため、ベクトル量子化部54にも、仮正規化された正規化係数学習パラメータが複数セット供給されるが、ベクトル量子化部54は、その複数の正規化された正規化係数学習パラメータそれぞれについて、順次、上述したような画像および音声についての量子化誤差を求め、正規化係数制御部55に供給するようになっている。
【0095】
ステップS24では、さらに、正規化係数制御部55が、ベクトル量子化部54から供給される画像と音声についての量子化誤差を、すべての正規化係数学習パラメータについて、それぞれ累積し、それぞれの量子化誤差の累積値DPとDVを求める。この画像と音声についての量子化誤差の累積値DPとDVは、正規化係数制御部55に供給されて記憶される。
【0096】
そして、ステップS25に進み、正規化係数制御部55は、すべてのαに関して、画像と音声についての量子化誤差の累積値DPとDVを求めたかどうかを判定する。即ち、本実施の形態では、例えば、αを、その初期値を0.001として、0.001から2.000までの範囲を、0.001刻みに変更(ここでは、増加)して、累積値DPとDVを求めることとしており、正規化係数制御部55は、ステップS25において、そのような範囲のαに関して、画像と音声についての量子化誤差の累積値DPとDVを求めたかどうかを判定する。
【0097】
ステップS25において、すべてのαに関して、まだ、累積値DPとDVが求められていないと判定された場合、ステップS26に進み、正規化係数制御部55は、正規化係数αを上述したように変更し、仮正規化部51および53に供給する。そして、ステップS21に戻り、以下、変更後の正規化係数αを用いて、同様の処理が繰り返される。
【0098】
一方、ステップS25において、すべてのαに関して、累積値DPとDVが求められたと判定された場合、ステップS27に進み、正規化係数制御部55は、ステップS24で記憶した各値のαに関する画像についての量子化誤差DPと、音声についての量子化誤差DVとの差分の絶対値|DP−DV|を計算する。さらに、正規化係数制御部55は、各値のαに関する差分絶対値|DP−DV|の最小値を与えるα、即ち、理想的には、画像についての量子化誤差DPと、音声についての量子化誤差DVとが同一になる場合のαを検出する。そして、ステップS28に進み、正規化係数制御部55は、その最小の絶対値|DP−DV|を与える正規化係数αを、画像と音声の特徴パラメータを、同一の重みで扱うことができるように正規化することのできるものとして出力し、処理を終了する。
【0099】
以上のように、画像と音声の特徴パラメータからなる統合パラメータであるコードベクトル学習パラメータを正規化し、その正規化されたコードベクトル学習パラメータを用いて、コードブックを生成する一方、画像と音声の特徴パラメータからなる統合パラメータである正規化係数学習パラメータを仮に正規化し、その正規化された正規化係数学習パラメータのうちの画像または音声の特徴パラメータそれぞれについて、生成されたコードブックを用いてベクトル量子化を行うことにより、量子化誤差の累積値を求め、その累積値どうしが等しくなるように、正規化係数を変更するようにしたので、画像と音声などといった異なるメディアの特徴パラメータを、同等の重みで扱うことができるように正規化を行うことができる正規化係数を求めることができる。
【0100】
その結果、例えば、音声から抽出した特徴パラメータと、口唇の画像から抽出した特徴パラメータとを、正規化係数によって正規化し、さらに、それらを統合して、統合パラメータとし、この統合パラメータを用いて、音声の認識を行う場合においては、音声または画像のうちのいずれか一方の影響を強く受けることにより、認識率の向上の妨げられることを防止することが可能となる。
【0101】
さらに、統合パラメータを構成する各メディアの特徴パラメータが、認識率に与える影響の検証を、容易に行うことが可能となる。
【0102】
なお、図8の実施の形態では、画像と音声の2種類の特徴パラメータの重みを同一にするための正規化係数αを求める学習について説明したが、3種類以上の特徴パラメータ、あるいは、画像や音声の他のメディアの特徴パラメータの重みを同一にするための正規化係数を求める学習も、同様に行うことが可能である。
【0103】
また、上述した正規化係数の学習方法は、特徴パラメータの種類や次元に依存するものではないため、特徴パラメータの種類や次元に関係なく適用可能である。
【0104】
次に、図10は、図1の距離推移方式マッチング部31の構成例を示している。
【0105】
時間軸正規化部61には、統合パラメータ生成回路2(図1)から、例えば、ある単語が発話されたときの統合パラメータが時系列に供給されるようになされており、時間軸正規化部61は、その時系列の統合パラメータの時間軸正規化を行うようになされている。
【0106】
即ち、ある単語が発話されたときの発話時間をtとすると、その単語の発話による統合パラメータのある要素の時間変化は、例えば、図11(A)に示すようになるが、図11(A)における発話時間tは、同一人による同一単語の発話であっても、発話ごとに変動する。そこで、時間軸正規化部61は、発話時間tが、図11(B)に示すように、一律に、時間TCとなるように、時間軸正規化を行うようになされている。なお、例えば、いま、図1の音声認識装置において、単語認識を行うものとすると、時間TCは、認識対象の単語を発話したときの一般的な発話時間よりも十分長い時間に設定されている。従って、時間軸正規化部61では、図11(A)に示した時系列の統合パラメータが、いわば時間軸方向に間延びしたように変更される。なお、時間軸正規化の手法は、これに限定されるものではない。
【0107】
時間軸正規化後の統合パラメータは、時間軸正規化部61からベクトル量子化部62に供給されるようになされている。ベクトル量子化部62は、コードブック記憶部63に記憶されたコードブックを用いて、時間軸正規化された時系列の統合パラメータを、順次、ベクトル量子化し、そのベクトル量子化結果としてのコード、即ち、統合パラメータとの距離が最も近いコードベクトルに対応するコードを、順次、距離計算部64に供給するようになされている。
【0108】
コードブック記憶部63は、ベクトル量子化部62がベクトル量子化に用いるコードブックを記憶している。
【0109】
距離計算部64は、距離推移モデル記憶部65に記憶されている、認識対象の単語の距離推移モデルから、ベクトル量子化部62が出力するコードの系列が観測されるときの、コードベクトルとの距離を、時間ごとに累積し、その累積値を、ソート部66に供給するようになされている。
【0110】
距離推移モデル記憶部65は、例えば、図12に示すような、認識対象の単語の時系列の統合パラメータ(標準系列)と、コードブック記憶部63に記憶されたコードブックの各コードベクトルとの間の距離の推移を表す距離推移モデルを記憶している。即ち、距離推移モデル記憶部65は、後述する学習により得られる、図12に示したような距離推移モデルを、認識対象とされている単語それぞれについて記憶している。
【0111】
なお、図12の実施の形態では、コードブック記憶部63に記憶されたコードブックが、J+1個のコードベクトルC0乃至CJを有するものとしてある。また、図12(A)は、距離推移モデルをグラフで、図12(B)は、距離推移モデルを表で、それぞれ表している。ここで、図12(B)の表において、コードベクトルCjの行に注目すれば、その行に記載した各時刻t0,t1,t2,・・・における距離Dcjt0,Dcjt1,Dcjt2,・・・が図12(A)のグラフにおけるコードベクトルCjに対する距離の推移を表す。
【0112】
ソート部66は、距離計算部64から供給される、認識対象の各単語の距離推移モデルについての距離の累積値のうち、その値が小さいものから、上位Nb個を選択し(Nbは自然数)、統合パラメータと距離推移モデルとのマッチング結果として、判定回路4に出力するようになされている。
【0113】
以上のように構成される距離推移方式マッチング部31では、距離推移方式によるマッチングが行われるようになされており、この距離推移方式によるマッチング処理について、図13のフローチャートを参照して説明する。
【0114】
時間軸正規化部61は、統合パラメータ生成回路2から、ある単語の発話に対応する時系列の統合パラメータを受信すると、ステップS31において、その時系列の統合パラメータを時間軸正規化し、ベクトル量子化部62に出力する。ベクトル量子化部62は、ステップS32において、コードブック記憶部63に記憶されたコードブックを参照することで、時間軸正規化部61からの時系列の統合パラメータを、順次、ベクトル量子化し、そのベクトル量子化結果としての、統合パラメータとの距離を最も短くするコードベクトルに対応するコードの系列を、順次、距離計算部64に供給する。
【0115】
距離計算部64は、ステップS33において、距離推移モデル記憶部65に記憶されている、認識対象の単語の距離推移モデルから、ベクトル量子化部62が出力するコードの系列が観測されるときの、コードベクトルとの距離を累積する。
【0116】
即ち、ベクトル量子化部62が出力するコードの系列のうち、時刻tのコードをst(t=0,1,・・・,TC)と表すと、距離計算部64は、ベクトル量子化部62が最初に出力するコードs0に対応するコードベクトルCj(j=0,1,・・・,J)についての、時刻#0における距離を、距離推移モデルを参照することで求める。具体的には、例えば、コードs0に対応するコードベクトルがC0である場合には、図12において、コードベクトルC0からの距離の推移を表している曲線上の、時刻#0における距離が求められる。
【0117】
さらに、距離計算部64は、ベクトル量子化部62が2番目に出力するコードs1に対応するコードベクトルCjとの、時刻#1における距離を、距離推移モデルを参照することで求める。以下、同様にして、距離計算部64は、ベクトル量子化部62が最後に出力するコードsTCに対応するコードベクトルCjとの、時刻#TCにおける距離までを、距離推移モデルを参照することで、順次求めていき、それらの距離の累積値を計算する。
【0118】
従って、ベクトル量子化部62が、時刻#0,#1,#2,・・・において、例えば、コードS0,S0,S1,・・・を出力する場合には、コードS0に対応するコードベクトルC0との、時刻#0における距離Dc0t0、コードS0に対応するコードベクトルC0との、時刻#1における距離Dc0t1、コードS1に対応するコードベクトルC1との、時刻#2における距離Dc1T2,・・・の加算値が、累積値として求められる。
【0119】
そして、距離計算部64は、距離推移モデル記憶部65に記憶されたすべての距離推移モデルそれぞれについて、距離の累積値を計算すると、それらの距離の累積値を、ソート部66に出力し、ステップS34に進む。
【0120】
ステップS34では、ソート部66において、距離計算部64からの、認識対象の各単語の距離推移モデルについての距離の累積値のうち、その値が小さいものから、上位Nb個が選択され、ステップS35に進み、統合パラメータと距離推移モデルとのマッチング結果として、判定回路4に出力され、処理を終了する。
【0121】
次に、図14は、図10の距離推移モデル記憶部65に記憶させる距離推移モデルを求める学習を行う学習装置の一実施の形態の構成例を示している。
【0122】
時間軸正規化部71には、距離推移モデルを求める学習を行うのに用いる時系列の学習統合パラメータが供給されるようになされており、時間軸正規化部71は、図10の時間軸正規化部61と同様に、学習統合パラメータを時間軸正規化し、距離計算部72に供給するようになされている。
【0123】
ここで、時間軸正規化部71には、例えば、ある単語の距離推移モデルを求めるための時系列の学習統合パラメータが複数セット供給されるようになされており、時間軸正規化部71は、その複数セットの学習統合パラメータそれぞれについて時間軸正規化を行い、それらを1の学習統合パラメータにまとめて出力するようになされている。即ち、時間軸正規化部71には、例えば、図15(A)に示すように、ある単語について、継続時間が必ずしも同一でない複数(図15においては、Nc個)の学習統合パラメータが供給されるようになされており、時間軸正規化部71は、その複数の学習統合パラメータの継続時間が、図15(B)に示すように、いずれも時間TCとなるように時間軸正規化を行う。そして、時間軸正規化部71は、図15(C)に示すように、時間軸正規化を行った複数の学習統合パラメータの、同一時刻のサンプル値どうしの、例えば、平均値を計算し、その平均値を、各時刻におけるサンプル値とする1つの学習統合パラメータを生成する。
【0124】
なお、複数の学習統合パラメータを、1つの学習統合パラメータにまとめる方法は、これに限定されるものではない。また、ある単語の距離推移モデルを求めるための時系列の学習統合パラメータが1つだけしか用意されていない場合には、時間軸正規化部71は、その1つの学習統合パラメータを時間軸正規化して、そのまま出力するようになされている。
【0125】
距離計算部72は、図16に示すように、コードブック記憶部73に記憶されたコードブックの各コードベクトルと、時間軸正規化部71から供給される時系列の学習統合パラメータとの距離を、順次計算し、その距離の推移、即ち、時間軸正規化された、時刻#0乃至#TCまでの学習統合パラメータと、各コードベクトルとの距離の推移を、多項式表現化部74に供給するようになされている。
【0126】
コードブック記憶部73は、図10のコードブック記憶部63に記憶されているコードブックと同一のコードブックを記憶している。なお、コードブック記憶部63および73におけるコードブックは、コードブック作成部52(図8)が作成したものと同一のものであっても良いし、異なるものであっても良い。
【0127】
多項式表現化部74は、距離計算部72から供給されるコードベクトルとの間の距離の推移を近似する多項式を求め、距離推移モデルとして出力するようになされている。即ち、多項式表現化部74では、図16に示したような距離の推移が、図12に示したような多項式で表される曲線で近似されるようになされている。
【0128】
次に、図17のフローチャートを参照して、図14の学習装置の処理について説明する。
【0129】
時間軸正規化部71に対しては、ある単語の距離推移モデルを求めるための時系列の学習統合パラメータが複数セット供給され、時間軸正規化部71は、ステップS41において、その複数セットの学習統合パラメータそれぞれについて時間軸正規化を行い、それらを1の学習統合パラメータにまとめて、距離計算部72に出力する。距離計算部72は、ステップS42において、図16に示したような、コードブック記憶部73に記憶されたコードブックの各コードベクトルと、時間軸正規化部71から供給される時系列の学習統合パラメータとの距離を、順次計算し、その距離の推移を、多項式表現化部74に供給する。
【0130】
多項式表現化部74では、ステップS43において、距離計算部72から供給される、学習統合パラメータ(標準系列)とコードベクトルとの間の距離の推移を近似するNd次の多項式が、例えば、最小二乗法により求められる。
【0131】
即ち、時刻tにおける学習統合パラメータと、コードベクトルCjとの間の距離を近似するNd次の多項式fj(t)は、次のように表すことができる。
【0132】
j(t)=aj0+aj11+aj22+・・・+ajNdNd
・・・(6)
【0133】
従って、距離計算部72において求められた、時刻tにおける学習統合パラメータと、コードベクトルCjとの間の距離fj(t)を用いて、次式を解くことで、最小二乗法により、式(6)を規定する係数aj0,aj1,aj2,・・・,ajNdを求めることができる。
【0134】
【数3】
Figure 0004345156
・・・(7)
【0135】
多項式表現化部74は、式(7)を、コードベクトルC0,C1,・・・,CJそれぞれについて解くことで、次式に示すような、学習統合パラメータと、コードベクトルC0,C1,・・・,CJそれぞれとの間の距離の推移を近似するNd次の多項式fj(t)を規定する係数のセットAを求める。
【0136】
【数4】
Figure 0004345156
・・・(8)
【0137】
その後、ステップS44に進み、多項式表現化部74は、式(8)の係数のセットAで近似される距離の推移と、図16に示したような実際の距離の推移との二乗誤差の、各コードベクトルCjについての累積値を求め、係数のセットAとともに記憶して、ステップS45に進む。ステップS45では、多項式表現部74は、あらかじめ用意された範囲のすべての次数Ndについて、上述したような二乗誤差の累積値を求めたかどうかを判定する。ステップS45において、あらかじめ用意された範囲のすべての次数Ndについて、まだ、二乗誤差の累積値を求めていないと判定された場合、ステップS46に進み、多項式表現化部74は、式(6)に示した多項式fj(t)の次数Ndを、まだ二乗誤差の累積値を求めていない値に変更する。そして、ステップS43に戻り、変更後の次数Ndについて、以下、同様の処理が繰り返される。
【0138】
また、ステップS45において、あらかじめ用意された範囲のすべての次数Ndについて、二乗誤差の累積値を求めたと判定された場合、ステップS47に進み、多項式表現化部74は、ステップS44で記憶した、あらかじめ用意された範囲のすべての次数Ndについての距離の推移の二乗誤差の累積値のうちの最小値を検出し、その最小値とともに記憶している、多項式fj(t)を規定する係数のセットAを、単語の距離推移モデルとして出力して、処理を終了する。
【0139】
なお、以上の処理は、認識対象の各単語についてそれぞれ行われる。
【0140】
以上のように、時系列の学習統合パラメータについて、時間軸の正規化を行い、その時間軸正規化された学習統合パラメータ(標準系列)と、コードベクトルとの間の距離を算出し、その距離の推移を表す距離推移モデルを求めるようにしたので、認識対象が有する本来の状態数や状態遷移の形態に沿うモデルを得ることができる。従って、そのような距離推移モデルによれば、認識対象の定常状態や過渡状態が正確に表現され、その結果、認識率を向上させることができる。
【0141】
また、距離の推移を、多項式で近似するようにしたので、その多項式を規定する係数だけで、即ち、少ないデータ量で、距離の推移を表現することができる。
【0142】
さらに、距離の推移を近似する多項式の次数Ndを、二乗誤差の累積値が最小になるように決定するようにしたので、その多項式により、精度良く、距離の推移を表現することができる。
【0143】
なお、図14では、統合パラメータを、学習用のデータとして用いるようにしたが、単一の特徴パラメータで認識を行う場合には、その単一の特徴パラメータを、学習用のデータとして用いて、学習を行えば良い。
【0144】
また、上述した距離推移モデルの学習方法は、特徴パラメータの種類や次元に依存するものではないため、特徴パラメータの種類や次元に関係なく適用可能である。
【0145】
さらに、上述の場合には、図16に示したような実際の距離の推移を、図12に示したように多項式で近似された距離推移モデルを用いてマッチングを行うようにしたが、マッチングは、図16に示したような実際の距離の推移をそのまま距離推移モデルとして用いて行うことも可能である。
【0146】
次に、図18は、図1の空間分布方式マッチング部32の構成例を示している。
【0147】
ベクトル量子化部81には、図1の統合パラメータ生成回路2から統合パラメータが時系列に供給されるようになされており、ベクトル量子化部81は、その時系列の統合パラメータを、コードブック記憶部82に記憶されたコードブックを用いてベクトル量子化し、そのベクトル量子化結果としてのコードの系列を、順次、カイ二乗(χ2)検定部83に供給するようになされている。
【0148】
コードブック記憶部82は、ベクトル量子化部81におけるベクトル量子化に用いられるコードブックを記憶している。
【0149】
カイ二乗検定部83は、期待度数記憶部84を参照し、ベクトル量子化部81からのコード系列の空間分布が、認識対象の単語が発話されたときに得られるコード系列の空間分布に類似しているかどうか、即ち、ベクトル量子化部81に供給された統合パラメータが、認識対象の単語に対応するものであるかどうかの適正さを、カイ二乗検定(Hi Square Test)を行うことにより求め、ソート部85に供給するようになされている。
【0150】
期待度数記憶部84は、コードブック記憶部82に記憶されたコードブックのコードベクトルに対応する各コードについて、認識対象の単語に対応する統合パラメータが入力されたときに観測される(ベクトル量子化部81に供給されたときに、そこから出力される)期待度数を記憶している。
【0151】
ソート部85は、カイ二乗検定部83から供給される、入力された統合パラメータが認識対象の単語に対応するものであるかどうかの適正さに基づいて、適正さが上位Nb個となる単語を選択し、空間分布方式によるマッチング結果として、判定回路4(図1)に出力するようになされている。
【0152】
以上のように構成される空間分布マッチング部32では、空間分布方式によるマッチングが行われるようになされており、この空間分布方式によるマッチング処理について、図19のフローチャートを参照して説明する。
【0153】
認識すべき統合パラメータは、時系列に、ベクトル量子化部81に供給され、ベクトル量子化部81は、ステップS51において、時系列の統合パラメータを、順次ベクトル量子化し、そのベクトル量子化結果としてのコードの系列を、カイ二乗検定部83に供給する。
【0154】
カイ二乗検定部83は、ステップS52において、ベクトル量子化部81からのコード系列の空間分布を求める。即ち、カイ二乗検定部83は、ベクトル量子化部81からのコード系列において、各コードが観測される回数(以下、適宜、観測度数という)をカウントする。そして、ステップS53に進み、カイ二乗検定部83は、各コードの観測度数と、期待度数記憶部84に記憶された、認識対象の単語の発話がなされたときに観測されることが期待される各コードの回数である期待度数とを用いてカイ二乗検定を行うことにより、入力された統合パラメータについての各コードの観測度数が、認識対象の単語についての各コードの期待度数に類似している度合い(以下、適宜、類似度という)を求め、ソート部85に供給する。
【0155】
即ち、カイ二乗検定部83は、あるコード#jの観測度数をFjと表すとともに、ある単語Wのあるコード#jの期待度数をfjと表すと、次式に示すχ2(カイ二乗)を計算し、例えば、その逆数を、単語Wに対する類似度として、ソート部85に供給する。
【0156】
【数5】
Figure 0004345156
・・・(9)
【0157】
なお、式(9)に示したχ2は、入力された統合パラメータについての各コードの観測度数が、認識対象の単語についての各コードの期待度数に類似しているほど小さくなる。従って、その逆数である類似度は、入力された統合パラメータについての各コードの観測度数が、認識対象の単語についての各コードの期待度数に類似しているほど大きくなる。
【0158】
ソート部85は、カイ二乗検定部83から、認識対象の単語すべてについての類似度を受信すると、ステップS54において、そのうちの類似度の高い上位Nb個を選択し、ステップS55に進み、空間分布方式によるマッチング結果として、判定回路4に出力して、処理を終了する。
【0159】
以上のような空間分布方式によるマッチングによれば、統合パラメータ空間における、入力された統合パラメータの分布状態と、認識対象の単語の統合パラメータの分布状態との類似性が、カイ二乗検定により求められるため、その類似性は、入力された音声の時間的変動に影響を受けない。即ち、入力された音声の時間(音声区間の長さ)は、カイ二乗検定に用いる観測度数に影響するが、各コードの観測度数それぞれが、音声区間の長さに比例した値だけ増減すると予測されるため、カイ二乗検定結果は影響を受けない。従って、音声が有する時間成分を考慮せずに認識を行うことができ、その結果、認識率を向上させることが可能となる。
【0160】
次に、図20は、図18の期待度数記憶部84に記憶されている認識対象の各単語についての各コードの期待度数を求める学習を行う学習装置の一実施の形態の構成例を示している。
【0161】
ベクトル量子化部91には、認識対象の単語について、期待度数の学習を行うための時系列の学習統合パラメータが供給されるようになされており、ベクトル量子化部91は、時系列の学習統合パラメータを、コードブック記憶部92に記憶されたコードブックを用いてベクトル量子化し、そのベクトル量子化結果としてのコードの系列を、期待度数算出部93に供給するようになされている。
【0162】
コードブック記憶部92は、図18のコードブック記憶部82が記憶しているコードブックと同一のコードブックを記憶している。なお、コードブック記憶部82および92におけるコードブックは、コードブック作成部52(図8)が作成したものと同一のものであっても良いし、異なるものであっても良い。
【0163】
期待度数算出部93は、ベクトル量子化部91からのコードの系列において、各コードが観測される回数をカウントするようになされている。
【0164】
次に、図21のフローチャートを参照して、図20の学習装置の処理について説明する。
【0165】
ベクトル量子化部91には、認識対象の1の単語について、例えば、複数の時系列の学習統合パラメータ(異なる話者が発話したり、同一の話者が複数回発話して得られたもの)が供給されるようになされており、ステップS61では、その統合パラメータの数をカウントするための変数iが、例えば、1に初期化され、ステップS62に進む。
【0166】
ステップS62では、複数の学習統合パラメータのうちの最初の学習統合パラメータが、ベクトル量子化部91に供給され、ベクトル量子化部91は、その学習統合パラメータをベクトル量子化する。そのベクトル量子化の結果得られるコードの系列は、期待度数算出部93に供給され、ステップS63に進む。
【0167】
ステップS63では、ベクトル量子化部91からのコードの系列において、各コードが観測される回数が積算され、これにより各コードの観測度数が求められる。そして、ステップS64に進み、まだ、次に処理すべき学習統合パラメータがあるかどうかが判定され、あると判定された場合、ステップS65に進み、変数iが1だけインクリメントされる。そして、ステップS62に進み、その次に処理すべき学習統合パラメータを対象に、同様の処理が繰り返される。即ち、これにより、ある単語についての複数の学習統合パラメータから観測される各コードの観測度数が積算されていく。
【0168】
一方、ステップS64において、次に処理すべき学習統合パラメータがないと判定された場合、ステップS66に進み、各コードの観測度数の積算値が、例えば、変数iで除算され、即ち、ある単語についての複数の学習統合パラメータから観測される各コードの観測度数の平均値が求められ、その各コードの観測度数の平均値が、その単語についての各コードの期待度数として出力されて、処理を終了する。
【0169】
なお、図21の処理は、認識対象の単語それぞれについて行われる。
【0170】
次に、図22は、図1の判定回路4の構成例を示している。
【0171】
スコア算出部101には、距離推移方式マッチング部31が出力する、距離推移方式による上位Nb個のマッチング結果が供給されるようになっており、スコア算出部102には、空間分布方式マッチング部32が出力する、空間分布方式による上位Nb個のマッチング結果が供給されるようになっている。スコア算出部101は、距離推移方式による上位Nb個のマッチング結果に対して、その順位の高い順に、高いスコアを付し、スコア加算部103に出力するようになっている。スコア算出部102は、空間分布方式による上位Nb個のマッチング結果に対して、その順位の高い順に、高いスコアを付し、スコア加算部103に出力するようになっている。
【0172】
スコア加算部103は、スコア算出部101と102それぞれからの上位Nb個のマッチング結果の中から、同一単語のマッチング結果どうしのスコアを加算し、その加算値を、最大スコア検出部104に供給するようになっている。
【0173】
最大スコア検出部104は、スコア加算部103から供給されるスコアのうちの最大値を検出し、その最大のスコアを与える単語を、最終的な音声認識結果として出力するようになっている。
【0174】
次に、図23のフローチャートを参照して、図22の判定回路4の処理について説明する。
【0175】
スコア算出部101に対して、距離推移方式マッチング部31から、距離推移方式による上位Nb個のマッチング結果が供給されるとともに、スコア算出部102に対して、空間分布方式マッチング部32から、空間分布方式による上位Nb個のマッチング結果が供給されると、ステップS71において、スコア算出部101は、距離推移方式による上位Nb個のマッチング結果に対して、その順位の高い順に、高いスコアを付し、スコア加算部103に出力するとともに、スコア算出部102は、空間分布方式による上位Nb個のマッチング結果に対して、その順位の高い順に、高いスコアを付し、スコア加算部103に出力する。
【0176】
ここで、マッチング結果に対して付すスコアは、例えば、マッチング結果の順位に対して線形に変化する値であっても良いし、非線形に変化する値であっても良い。
【0177】
スコア加算部103は、ステップS72において、スコア算出部101と102それぞれからの上位Nb個のマッチング結果の中から、同一単語のマッチング結果どうしのスコアを加算し、その加算値を、最大スコア検出部104に出力する。なお、スコア加算部103は、スコア算出部101と102それぞれからの上位Nb個のマッチング結果のいずれか一方にしか含まれない単語については、その単語に付されたスコアを、そのまま最大スコア検出部104に供給する。
【0178】
最大スコア検出部104は、ステップS73において、スコア加算部103から供給されるスコアのうちの最大値を検出し、その最大のスコアを与える単語を、最終的な音声認識結果として出力して、処理を終了する。
【0179】
次に、上述した一連の処理を行う、各ブロック図で表される装置は、専用のハードウェアにより実現することもできるし、ソフトウェアにより実現することもできる。ソフトウェアによって実現する場合には(この場合、上述した各ブロック図は、機能ブロックを表している図であるということができる)、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
【0180】
そこで、図24は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
【0181】
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク205やROM203に予め記録しておくことができる。
【0182】
あるいはまた、プログラムは、フロッピーディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリなどのリムーバブル記録媒体211に、一時的あるいは永続的に格納(記録)しておくことができる。このようなリムーバブル記録媒体211は、いわゆるパッケージソフトウエアとして提供することができる。
【0183】
なお、プログラムは、上述したようなリムーバブル記録媒体211からコンピュータにインストールする他、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送し、コンピュータでは、そのようにして転送されてくるプログラムを、通信部208で受信し、内蔵するハードディスク205にインストールすることができる。
【0184】
コンピュータは、CPU(Central Processing Unit)202を内蔵している。CPU202には、バス201を介して、入出力インタフェース120が接続されており、CPU202は、入出力インタフェース120を介して、ユーザによって、キーボードやマウス等で構成される入力部207が操作されることにより指令が入力されると、それにしたがって、ROM(Read Only Memory)203に格納されているプログラムを実行する。あるいは、また、CPU202は、ハードディスク205に格納されているプログラム、衛星若しくはネットワークから転送され、通信部208で受信されてハードディスク205にインストールされたプログラム、またはドライブ209に装着されたリムーバブル記録媒体211から読み出されてハードディスク205にインストールされたプログラムを、RAM(Random Access Memory)204にロードして実行する。これにより、CPU202は、上述したフローチャートにしたがった各種の処理を実行する。そして、CPU202は、その処理結果を、必要に応じて、例えば、入出力インタフェース120を介して、LCD(Liquid CryStal Display)やスピーカ等で構成される出力部206から出力、あるいは、通信部208から送信、さらには、ハードディスク205に記録等させる。
【0185】
ここで、本明細書において、コンピュータに各種の処理を行わせるためのプログラムを記述する処理ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。
【0186】
また、プログラムは、1のコンピュータにより処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
【0187】
以上、本発明を適用した音声認識装置について説明したが、本発明は、その他、例えば、話者や、画像その他を認識する装置などにも適用可能である。
【0188】
【発明の効果】
本発明の第1の側面によれば、距離推移モデルにより、認識対象の定常状態や過渡状態が正確に表現されるようになる。
【0189】
本発明の第2の側面によれば、認識率を向上させることが可能となる。
【0190】
本発明の第3の側面によれば、認識率を向上させることが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した音声認識装置の一実施の形態の構成例を示すブロック図である。
【図2】図1の音声認識装置の処理を説明するためのフローチャートである。
【図3】図1の処理部111の一実施の形態の構成例を示すブロック図である。
【図4】図3の処理部111の処理を説明するためのフローチャートである。
【図5】全体重心、上重心、下重心、分割重心を示す図である。
【図6】図3の楕円近似部48Uおよび48Dの処理を説明するための図である。
【図7】図3の口唇パラメータ出力部49が出力する口唇の特徴パラメータを説明するための図である。
【図8】図1のメディア間正規化部21が用いる正規化係数の学習を行う学習装置の一実施の形態の構成例を示すブロック図である。
【図9】図8の学習装置の処理を説明するためのフローチャートである。
【図10】図1の距離推移方式マッチング部31の一実施の形態の構成例を示すブロック図である。
【図11】図10の時間軸正規化部61の処理を説明するための図である。
【図12】図10の距離推移モデル記憶部65に記憶されている距離推移モデルを説明するための図である。
【図13】図10の距離推移方式マッチング部31の処理を説明するためのフローチャートである。
【図14】距離推移モデルを求める学習を行う学習装置の一実施の形態の構成例を示すブロック図である。
【図15】図14の時間軸正規化部71の処理を説明するための図である。
【図16】図14の距離計算部72が出力する距離の推移を示す図である。
【図17】図14の学習装置の処理を説明するためのフローチャートである。
【図18】図1の空間分布方式マッチング部32の一実施の形態の構成例を示すブロック図である。
【図19】図18の空間分布方式マッチング部32の処理を説明するためのフローチャートである。
【図20】図18の期待度数記憶部84に記憶されている期待度数を求める学習を行う学習装置の一実施の形態の構成例を示すブロック図である。
【図21】図20の学習装置の処理を説明するためのフローチャートである。
【図22】図1の判定回路4の構成例を示すブロック図である。
【図23】図22の判定回路4の処理を説明するためのフローチャートである。
【図24】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
1 パラメータ化回路, 2 統合パラメータ生成回路, 3 マッチング回路, 4 判定回路, 111乃至11N 処理部, 21 メディア間正規化部, 22 統合パラメータ生成部, 31 距離推移方式マッチング部, 32空間分布方式マッチング部, 41 YIQ変換部, 42 Q成分抽出部,43 全体重心算出部, 44 上重心/下重心算出部, 45 分割重心算出部, 46 分割部, 47U,47D ミラー領域生成部, 48U,48D 楕円近似部, 49 口唇パラメータ出力部, 51 仮正規化部, 52コードブック作成部, 53 仮正規化部, 54 ベクトル量子化部, 55 正規化係数制御部, 61 時間軸正規化部, 62 ベクトル量子化部,63 コードブック記憶部, 64 距離計算部, 65 距離推移モデル記憶部, 66 ソート部, 71 時間軸正規化部, 72 距離計算部, 73 コードブック記憶部, 74 多項式表現化部, 81 ベクトル量子化部, 82 コードブック記憶部, 83 カイ二乗検定部, 84 期待度数記憶部, 85 ソート部, 91 ベクトル量子化部, 92 コードブック記憶部, 93 期待度数算出部, 101,102 スコア算出部, 103 スコア加算部, 104 最大スコア検出部, 201 バス, 202 CPU, 203 ROM, 204 RAM, 205 ハードディスク, 206 出力部, 207 入力部, 208 通信部, 209 ドライブ, 120 入出力インタフェース, 211 リムーバブル記録媒体

Claims (14)

  1. 所定の標準系列と、ベクトル量子化に用いられるコードベクトルとの間の距離の推移を表す距離推移モデルを求めるための学習を行う学習装置であって、
    時系列の学習データについて、時間軸の正規化を行い、前記標準系列を出力する正規化手段と、
    前記標準系列と、前記コードベクトルとの間の距離を算出し、その距離の推移を出力する距離算出手段と
    前記距離の推移を多項式で近似する近似手段と
    を備え
    前記近似手段は、前記コードブックのコードベクトルのうち、前記標準系列との距離を最小にするものとの距離の累積値が最小となるように、前記多項式の次数を決定する
    習装置。
  2. 所定の標準系列と、ベクトル量子化に用いられるコードベクトルとの間の距離の推移を表す距離推移モデルを求めるための学習を行う学習方法であって、
    時系列の学習データについて、時間軸の正規化を行い、前記標準系列を出力し、
    前記標準系列と、前記コードベクトルとの間の距離を算出し、その距離の推移を出力し、
    前記距離の推移を多項式で近似する
    ステップを含み、
    前記コードブックのコードベクトルのうち、前記標準系列との距離を最小にするものとの距離の累積値が最小となるように、前記多項式の次数を決定する
    習方法。
  3. 所定の標準系列と、ベクトル量子化に用いられるコードベクトルとの間の距離の推移を表す距離推移モデルを求めるための学習を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
    時系列の学習データについて、時間軸の正規化を行い、前記標準系列を出力する正規化手段と、
    前記標準系列と、前記コードベクトルとの間の距離を算出し、その距離の推移を出力する距離算出手段
    前記距離の推移を多項式で近似する近似手段と
    して、コンピュータを機能させるためのプログラムであり、
    前記近似手段は、前記コードブックのコードベクトルのうち、前記標準系列との距離を最小にするものとの距離の累積値が最小となるように、前記多項式の次数を決定する
    ログラムが記録されている録媒体。
  4. 時系列の入力データが所定の認識対象に一致するか否かを認識する認識装置であって、
    複数のコードベクトルと、各コードベクトルを示す識別子とからなるコードブックを記憶しているコードブック記憶手段と、
    所定の標準系列と、前記コードブックの各コードベクトルとの間の距離の推移を表す、少なくとも1つの認識対象に対応した距離推移モデルを記憶しているモデル記憶手段と、
    前記時系列の入力データを、前記コードブックを用いてベクトル量子化し、前記識別子の系列を出力するベクトル量子化手段と、
    前記距離推移モデルと、前記入力データについての識別子の系列とに基づいて、前記入力データが所定の認識対象に一致するか否かを認識する認識手段と
    を備え
    前記認識手段は、前記識別子の系列と前記距離推移モデルとに基づいて、前記識別子ごとの距離を累積し、その累積された距離に基づいて、前記入力データが所定の認識対象に一致するか否かを認識する
    識装置。
  5. 前記記憶手段は、前記標準系列とコードベクトルとの間の距離の推移を多項式で近似したものを、前記距離推移モデルとして記憶している
    請求項4に記載の認識装置。
  6. 前記時系列の入力データについて、時間軸の正規化を行う正規化手段をさらに備え、
    前記ベクトル量子化手段は、正規化された前記入力データをベクトル量子化する
    請求項4に記載の認識装置。
  7. 前記時系列の入力データは、音声の特徴パラメータと、その音声の発話がなされているときの口唇の画像の特徴パラメータとを統合した統合パラメータである
    請求項4に記載の認識装置。
  8. 前記ベクトル量子化手段は、前記入力データとの間の距離が最も近い前記コードベクトルの識別子を出力する
    請求項4に記載の認識装置。
  9. 前記モデル記憶手段は、複数の前記距離推移モデルを記憶している
    請求項に記載の認識装置。
  10. 時系列の入力データが所定の認識対象に一致するか否かを認識する認識方法であって、
    前記時系列の入力データを、複数のコードベクトルと、各コードベクトルを示す識別子とからなるコードブックを用いてベクトル量子化し、前記識別子の系列を出力し、
    所定の標準系列と前記コードベクトルとの間の距離の推移を表す、少なくとも1つの認識対象に対応した距離推移モデルと、前記入力データについての識別子の系列とに基づいて、前記入力データが所定の認識対象に一致するか否かを認識する
    ステップを含み、
    前記識別子の系列と前記距離推移モデルとに基づいて、前記識別子ごとの距離を累積し、その累積された距離に基づいて、前記入力データが所定の認識対象に一致するか否かを認識する
    識方法。
  11. 時系列の入力データが所定の認識対象に一致するか否かを認識する認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
    前記時系列の入力データを、複数のコードベクトルと、各コードベクトルを示す識別子とからなるコードブックを用いてベクトル量子化し、前記識別子の系列を出力するベクトル量子化手段と、
    所定の標準系列と前記コードベクトルとの間の距離の推移を表す、少なくとも1つの認識対象に対応した距離推移モデルと、前記入力データについての識別子の系列とに基づいて、前記入力データが所定の認識対象に一致するか否かを認識する認識手段
    して、コンピュータを機能させるためのプログラムであり、
    前記認識手段は、前記識別子の系列と前記距離推移モデルとに基づいて、前記識別子ごとの距離を累積し、その累積された距離に基づいて、前記入力データが所定の認識対象に一致するか否かを認識する
    ログラムが記録されている録媒体。
  12. 時系列の入力データが所定の認識対象に一致するか否かを認識する認識装置であって、
    時系列の第1および第2の入力データを統合し、時系列の統合データを出力する統合手段と、
    前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて、前記第1または第2の入力データが所定の認識対象に一致するか否かを認識する認識手段と
    を備え
    前記認識手段は、
    前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて行われる第1のマッチング処理、および前記時系列の統合データに基づくベクトルから得られる空間分布に基づいて行われる第2のマッチング処理を行い、前記第1および第2のマッチング処理の結果に基づいて、前記第1または第2の入力データが所定の認識対象に一致するか否かを認識する
    か、又は、
    ベクトル量子化に用いられるコードブックのコードベクトルと、所定の標準系列との間の距離の推移を表す距離推移モデルから、前記統合データに基づくベクトルを、前記コードブックを用いてベクトル量子化したベクトル量子化結果が観測されるときの前記距離を累積し、その累積結果に基づいて、前記第1または第2のデータが所定の認識対象に一致するか否かを認識する
    識装置。
  13. 時系列の入力データが所定の認識対象に一致するか否かを認識する認識方法であって、
    時系列の第1および第2の入力データを統合し、時系列の統合データを出力し、
    前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて、前記第1または第2の入力データが所定の認識対象に一致するか否かを認識する
    ステップを含み、
    前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて行われる第1のマッチング処理、および前記時系列の統合データに基づくベクトルから得られる空間分布に基づいて行われる第2のマッチング処理を行い、前記第1および第2のマッチング処理の結果に基づいて、前記第1または第2の入力データが所定の認識対象に一致するか否かを認識する
    か、又は、
    ベクトル量子化に用いられるコードブックのコードベクトルと、所定の標準系列との間の距離の推移を表す距離推移モデルから、前記統合データに基づくベクトルを、前記コードブックを用いてベクトル量子化したベクトル量子化結果が観測されるときの前記距離を累積し、その累積結果に基づいて、前記第1または第2のデータが所定の認識対象に一致するか否かを認識する
    識方法。
  14. 時系列の入力データが所定の認識対象に一致するか否かを認識する認識処理を、コンピュータに行わせるプログラムが記録されている記録媒体であって、
    時系列の第1および第2の入力データを統合し、時系列の統合データを出力する統合手段と、
    前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて、前記第1または第2の入力データが所定の認識対象に一致するか否かを認識する認識手段
    して、コンピュータを機能させるためのプログラムであり、
    前記認識手段は、
    前記時系列の統合データに基づくベクトルから得られる距離の推移に基づいて行われる第1のマッチング処理、および前記時系列の統合データに基づくベクトルから得られる空間分布に基づいて行われる第2のマッチング処理を行い、前記第1および第2のマッチング処理の結果に基づいて、前記第1または第2の入力データが所定の認識対象に一致するか否かを認識する
    か、又は、
    ベクトル量子化に用いられるコードブックのコードベクトルと、所定の標準系列との間の距離の推移を表す距離推移モデルから、前記統合データに基づくベクトルを、前記コードブックを用いてベクトル量子化したベクトル量子化結果が観測されるときの前記距離を累積し、その累積結果に基づいて、前記第1または第2のデータが所定の認識対象に一致するか否かを認識する
    ログラムが記録されている録媒体。
JP28761999A 1998-10-09 1999-10-08 学習装置および学習方法、認識装置および認識方法、並びに記録媒体 Expired - Fee Related JP4345156B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP28761999A JP4345156B2 (ja) 1998-10-09 1999-10-08 学習装置および学習方法、認識装置および認識方法、並びに記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP28803698 1998-10-09
JP10-288036 1998-10-09
JP28761999A JP4345156B2 (ja) 1998-10-09 1999-10-08 学習装置および学習方法、認識装置および認識方法、並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2000181486A JP2000181486A (ja) 2000-06-30
JP4345156B2 true JP4345156B2 (ja) 2009-10-14

Family

ID=26556805

Family Applications (1)

Application Number Title Priority Date Filing Date
JP28761999A Expired - Fee Related JP4345156B2 (ja) 1998-10-09 1999-10-08 学習装置および学習方法、認識装置および認識方法、並びに記録媒体

Country Status (1)

Country Link
JP (1) JP4345156B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69941499D1 (de) * 1998-10-09 2009-11-12 Sony Corp Vorrichtungen und Verfahren zum Lernen und Anwenden eines Abstand-Transition-Modelles
US7792314B2 (en) * 2005-04-20 2010-09-07 Mitsubishi Electric Research Laboratories, Inc. System and method for acquiring acoustic signals using doppler techniques
CN102438301B (zh) * 2012-01-11 2014-06-04 深圳市华奥通通信技术有限公司 一种无线通信系统及方法
JP6349841B2 (ja) 2014-03-25 2018-07-04 富士通株式会社 暗号文処理装置、暗号文処理方法、暗号文処理プログラムおよび情報処理装置

Also Published As

Publication number Publication date
JP2000181486A (ja) 2000-06-30

Similar Documents

Publication Publication Date Title
CN111292764B (zh) 辨识系统及辨识方法
KR100729316B1 (ko) 학습 장치 및 학습 방법, 인식 장치 및 인식 방법, 및기록 매체
JP2020525817A (ja) 声紋認識方法、装置、端末機器および記憶媒体
JP5356527B2 (ja) 信号分類装置
EP1394770A1 (en) Voice recognition apparatus and voice recognition method
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
JPH0934486A (ja) 音声認識方法、情報形成方法、音声認識装置および記録媒体
Egas López et al. Assessing Parkinson’s disease from speech using fisher vectors
US20070055530A1 (en) Update data generating apparatus, update data generating method, update data generating program, method for updating speaker verifying apparatus and speaker identifier, and program for updating speaker identifier
US20180285643A1 (en) Object recognition device and object recognition method
JP4345156B2 (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
CN108847251A (zh) 一种语音去重方法、装置、服务器及存储介质
JP4340939B2 (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
US6718299B1 (en) Information processing apparatus for integrating a plurality of feature parameters
Benkhellat et al. Genetic algorithms in speech recognition systems
KR20230120790A (ko) 가변적 언어모델을 이용한 음성인식 헬스케어 서비스
JP2000181481A (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
CN112951270B (zh) 语音流利度检测的方法、装置和电子设备
JP2021189402A (ja) 音声処理プログラム、音声処理装置及び音声処理方法
JP2000122677A (ja) パラメータ抽出装置およびパラメータ抽出方法
Rijal et al. DCT-based Visual Feature Extraction for Indonesian Audiovisual Speech Recognition
JP6565084B2 (ja) 物体認証装置および物体認証方法
JPH11122114A (ja) コードブック作成装置およびコードブック作成方法、並びにベクトル量子化装置およびベクトル量子化方法
JPH09114483A (ja) Hmmの学習装置
JPH02220099A (ja) 単語音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080812

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20081218

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090623

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090706

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120724

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130724

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees