JP3710205B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP3710205B2
JP3710205B2 JP14255196A JP14255196A JP3710205B2 JP 3710205 B2 JP3710205 B2 JP 3710205B2 JP 14255196 A JP14255196 A JP 14255196A JP 14255196 A JP14255196 A JP 14255196A JP 3710205 B2 JP3710205 B2 JP 3710205B2
Authority
JP
Japan
Prior art keywords
syllable
word
mouth
mouth shape
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP14255196A
Other languages
English (en)
Other versions
JPH09325793A (ja
Inventor
明宏 藤井
敏彦 宮崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP14255196A priority Critical patent/JP3710205B2/ja
Publication of JPH09325793A publication Critical patent/JPH09325793A/ja
Application granted granted Critical
Publication of JP3710205B2 publication Critical patent/JP3710205B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、例えば、コンピュータとの対話的な音声インターフェースを実現するのに用いて好適な音声認識装置に関するものである。
【0002】
【従来の技術】
近年、計算機の演算処理によって、入力音声が意味する単語や文章を自動認識させようとする技術の研究及び開発が盛んに行われている。図2に、かかる自動認識に用いられる音声認識装置の基本構成を示す。なお、図2は、音声認識装置の中でも、特に単語の認識処理までを分担する音声認識部108を表している。
【0003】
音声認識部108に入力された音声は、まず、音素特徴量抽出部108Aに入力され、一定の短い時間間隔ごとの特徴量を表した特徴ベクトルに変換される。この特徴ベクトルは、時系列順に音素特徴記憶部108Bに記憶される。このように記憶された特徴ベクトルの時系列の連なりを特徴ベクトル系列と呼ぶことにする。
【0004】
次に、この特徴ベクトル系列は、尤度算出部l08Cにおいて、単語辞書から読み出された単語モデルと比較される。ここで、単語辞書には、予め単語毎に求められておいた全ての単語モデルが記憶されているので、当該単語モデルとの比較により、入力音声がその単語と仮定した場合における信憑性(尤度)が求められる。
【0005】
このように単語辞書に収容されている全ての単語について求めた信憑性(尤度)が最も高いものが、入力音声に対応する単語として認識されるのである。
【0006】
なお、このような尤度の算出方法として、代表的なものに、DP(Dynamic Programming )マッチング法やHMM(Hidden Markov Model:隠れマルコフモデル)法等がある。
【0007】
また、これら従来技術に関する文献としては、「北脇信彦:マルチモーダル環境に向けた音声認識の実現を目指して:NTT R&D Vol.44 No.111995」等がある。
【0008】
【発明が解決しようとする課題】
ところが、従来の音声認識装置では、参照する単語数が多ければ、その分、尤度算出に必要な計算量(計算回数)が多く、計算機にかかる負荷が大きいという問題があった。
【0009】
また、正解単語よりも高い尤度の単語が出現する可能性、つまり、誤った単語が認識結果として出力される可能性もあった。
【0010】
【課題を解決するための手段】
かかる課題を解決するため、第1の本発明の音声認識装置は、登録する単語の音節情報及び音素モデルを有する単語辞書と、話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、口形動作情報に含まれる特定の音節と単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、口形音節マッチング手段から得た類似度に基づいて、単語辞書に登録されている単語の絞り込みを行う単語候補絞り込手段と、入力音声と単語候補絞り込手段で絞り込まれた候補単語の音素モデルとの尤度を求め、入力音声について最も高い尤度が得られた候補単語を、入力音声についての認識結果とする音声認識手段とを備え、口形音節マッチング手段が、口形動作情報から検出した特定の音節の個数と、単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、口形動作情報から検出した特定の音節の位置と、単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、口形動作情報から検出した特定の音節に前後する口形状態と、単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部の3つ全て又は一部を有し、これらの比較結果より口形動作情報と単語辞書の単語とのマッチング程度を求めることを特徴とする。
【0011】
また、第2の本発明の音声認識装置は、登録する単語の音節情報及び音素モデルを有する単語辞書と、入力音声と単語辞書に登録されている単語の音素モデルとの尤度を求め、高い尤度が得られた複数又は全ての単語を、候補単語としてその尤度と共に出力する音声認識手段と、話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、口形動作情報に含まれる特定の音節と、音声認識手段により選出された単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、音声認識手段で選ばれた候補単語について、音声認識手段から得られた尤度と口形音節マッチング手段から得た類似度から総合的な類似度を調べ、最も高い総合類似度を持つ候補単語を、入力音声についての認識結果とする総合類似度算出部とを備え、口形音節マッチング手段が、口形動作情報から検出した特定の音節の個数と、単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、口形動作情報から検出した特定の音節の位置と、単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、口形動作情報から検出した特定の音節に前後する口形状態と、単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部の3つ全て又は一部を有し、これらの比較結果より口形動作情報と単語辞書の単語とのマッチング程度を求めることを特徴とする。
【0012】
さらに、第3の本発明の音声認識装置は、登録する単語の音節情報及び音素モデルを有する単語辞書と、話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、口形動作情報に含まれる特定の音節と単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、口形音節マッチング手段から得た類似度から単語辞書に登録されている単語を絞り込む単語候補絞り込手段と、入力音声と単語候補絞り込手段で絞り込まれた候補単語の音素モデルとの尤度を求め、高い尤度が得られた複数又は全ての候補単語を、その尤度と共に出力する音声認識手段と、音声認識手段で選ばれた候補単語について、音声認識手段から得られた尤度と口形音節マッチング手段から得た類似度から総合的な類似度を調べ、最も高い総合類似度を持つ候補単語を、入力音声についての認識結果とする総合類似度算出手段とを備え、口形音節マッチング手段が、口形動作情報から検出した特定の音節の個数と、単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、口形動作情報から検出した特定の音節の位置と、単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、口形動作情報から検出した特定の音節に前後する口形状態と、単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部の3つ全て又は一部を有し、これらの比較結果より口形動作情報と上記単語辞書の単語とのマッチング程度を求めることを特徴とする。
【0019】
【発明の実施の形態】
(A)第1の実施形態
以下、本発明による音声認識装置の第1の実施形態を図面を参照しながら詳述する。
【0020】
(A−1)音声認識装置の構成
図3は、本実施形態に係る音声認識装置100によって構成される音声認識システムを表すブロック図である。この音声認識装置100は、ビデオカメラ1が撮像した話者(ユーザ)の唇周辺画像を画像信号S100として入力し、また、マイクロフォン2で取り込んだ話者(ユーザ)の音声を音声信号S106として入力し、処理している。
【0021】
図1は、かかる音声認識装置100の構成を機能ブロックで表した図である。
【0022】
すなわち、音声認識装置100は、実際上、ディスプレイやプリンタ等の出力装置、ハードディスク等の周辺装置を備えたコンピュータ等の情報処理装置で構成されるものであるが、音声認識機能から構成をブロック化すると、図1に示すようになる。
【0023】
音声認識装置100は、以下に示す機能ブロック101〜108により構成されている。
【0024】
画像フレームバッファ101は、入力された画像信号S100を1画面(フレーム)分記憶する記憶部である。
【0025】
口形認識部102は、画像フレームバッファ101から読み出した顔画像信号S101(撮像され画像)から発音時の口の形や動きを認識する認識部であり、図4に示す機能ブロックにより構成されている。すなわち、1フレーム分の顔画像信号S101から口形部分の特徴ベクトル(口形特徴ペクトル)を出力する口形特徴抽出部102Aと、口形特徴ペクトルを時系列順に記憶保持する口形特徴記憶部102Bと、口形特徴ペクトルの系列から口形の動作(口形動作情報)を抽出する口形動作抽出部102Cとで構成されている。
【0026】
単語辞書104は、認識する単語候補について予め求めておいた音節情報と音素モデルとを記憶する記憶部である。
【0027】
口形音節マッチング部103は、単語辞書104から入力された音節情報と口形の動作から得られた音節とのマッチング程度を調ベ、その結果(口形音節マッチングスコア)を出力するマッチング部である。
【0028】
単語候補絞り込部105は、口形音節マッチングスコアに応じて単語候補を絞り込み、音声認識部108における認識処理の際に参照させる単語数を減らす部分である。
【0029】
音声フレーム分割部106は、入力される音声信号を、一定の短い時間間隔の音声データ列(以下、音声フレームと呼ぶ)に区切り、出力する部分である。
【0030】
有音検出部107は、入力された音声フレームS107が有音かそれとも無音かを判定する部分である。ここで、有音であることが判定された場合には、入力された音声フレーム108がそのまま音声フレームS108として音声認識部108に与えられる。また、この判定結果(現在有音か無音か)は、判定信号S109として口形認識部102に与えられる。
【0031】
音声認識部108は、入力された有音区間の音声フレームS108の列と単語侯補絞り込部105で紋り込まれた単語の音素モデルS111とを比較し、最も尤度の高い単語を認識結果として出力するブロックである。この内部構成は、先に説明した図2と同様である。
【0032】
(A−2)第1の実施形態の動作
以下、第1の実施形態に係る音声認識装置100の動作を説明する。図5は、かかる音声認識装置100の動作を示すフローチャートである。
【0033】
音声認識装置100の動作は、プロセス(以下、Pで表す)100から開始される。
【0034】
(A−2−1)処理動作の概要
P101に進むと、音声認識装置100の初期化が行なわれ、フラグ(flag)変数(有音区間が入力されたか否かを識別する変数)にオフ(OFF) が代入される。このP101が終わると、次はP102に進む。
【0035】
P102では、ビデオカメラ1で撮像された話者(ユーザ)の唇周辺部の画像である画像信号S100と、マイクロフォン2で取り込まれた話者(ユーザ)の音声信号S106が音声認識装置100に入力される。この画像信号S100は、図1に示すように、音声認識装置100内の画像フレームバッファ101に入力される。
【0036】
一方、音声信号S106は、同じく、音声認識装置100内の音声フレーム分割部106に順次入力される。ここで、音声フレーム分割部106は、入力された音声信号S106を、例えぱ8[msec ]毎シフトしながら32[msec ]分の音声フレームに区切り、互いに前後の音声フレームと一部が重複した32[msec ]長の音声フレームを出力する。このP102では音声フレームが一つ完成すると、次のP103に進む。以上がP102の動作である。
【0037】
P103では、音声フレーム分割部106から有音検出部107に入力された音声フレームS107が有音か無音かが判定される。この判定結果は判定信号S109として出力される。なお、音声フレームS107が有音であった場合、入力された音声フレームS107はそのまま音声認識部108に出力される。
【0038】
この有音検出部107の有音判別方法としては、例えぱ、入力された音声フレームS107の内部サンプル値について求めた絶対値平均Qが閾値Uより大きいか否かで判定する方法がある。この有音検出部107での判定が有音であれぱP104に進み、無音であれぱP106に進む。以上がP103の説明である。
【0039】
P104では、画像フレームS101及ぴ音声フレームS107の各々から口形特徴情報および音素特徴ペクトルが抽出される。このP104で実行される処理の詳細は、後述することにする。P104の処理を終えるとP105に進む。
【0040】
P105では、フラグ(flag)変数にオン(ON)が代入される。P105を終えるとP102に戻る。
【0041】
次に、P103からP106に進んだ場合を説明する。
【0042】
P106では、フラグ(flag)変数の値がオン(ON)であれぱ、P107に進み、フラグ(flag)変数の値がオフ(OFF )であればP102に進む。つまり、音声認識装置100の処理が開始された後、有音区間が入力されるまではP102→P103→P106→P102の処理ループを繰り返す。
【0043】
P106からP107に進んだ場合、P107では、口形特徴記憶部102Bに記憶されている口形特徴情報の系列S102Bが口形動作抽出部102Cに入力され、有音区間に口がどのように動いたかが調べられる。これには、前後の画像フレーム中の唇の縦・横の長さが比較され、口が開いたピークや口が閉じたピークのフレームとその時の唇の縦・横の長さを調べることにより行われる。この口形動作抽出部102Cの詳細については、後で詳しく述べることにする。こうして口形動作情報S103を得る。P107を終えるとP108に進む。
【0044】
P108では、口形動作抽出部102Cで得られた口形動作情報S103が口形音節マッチング部103に入力され、口形動作情報S103から特定の音節部分を検出し、この口形から得られた音節と単語辞書104に記憶されている単語の音節とのマッチングを調ベ、そのマッチングの程度を口形音節マッチングスコアS105として出力する。
【0045】
このマッチングを調べる処理を単語辞書104に登録されている全ての単語に対して行なった後、P110に進む。このP108の詳細についても後で述べることにする。
【0046】
P110では、単語候補絞り込部105に入力された各単語の口形音節マッチン7スコアS105が閾値以上の単語のみ絞り込み、その絞り込まれた単語の音素モデルS111を単語辞書104から受けとり音声認識部108にその音素モデルS111を送る。P109を終えるとP110に進む。
【0047】
P110では、尤度算出部108Cにおいて、単語侯補絞り込部105から送られてきた音素モデルS111と音声認識部108内部の音素特徴記憶部108Bに記憶されている音声信号の音素特徴ベクトルの系列との間でDPマッチング法やHMM法による尤度が算出される。P110を終えるとP111に進む。
【0048】
P111では、尤度算出部108Cで求まった各単語に対する尤度の中から最大のものを入力音声に対する認識単語として出力する。P111を終えるとPl12に進み、音声認識装置100の処理を終了する。
【0049】
(A−2−2)P104の処理内容
P104で実行される動作の詳細を図6に示す。このP104では、図6に示す通り、画像フレームS101から口形特徴情報を抽出して記憶保持する処理(Pl04A〜P104C)と、音声フレームS107から音素特徴ベクトルを抽出して記憶保持する処理(P104D〜P104E)との2つの処理が並列に行なわれる。
【0050】
(A−2−2−1)P104A〜P104Cの処理
まず、P104A〜P104Cの処理を、図4に示す口形認識部102の構成図を用いて説明する。
【0051】
Pl04Aでは、既に画像フレームバッファ101に画像データが1画面分溜ったか調べられる。P104Aで画像フレームバッファ101に画像データが1画面分あれぱP104Bに進み、そうでなければP104Cの次の処理(すなわち、P105)に進む。
【0052】
P104Bでは、口形特徴抽出部102Aにおいて、入力された1画面分の画像データから唇領域の抽出が行われ、唇の縦と横の長さ等が収まった口形特徴情報S101Aが出カされる。この口形特徴抽出部102Aで行われる詳細なフローチャートを図7に示す。
【0053】
まず、P104B1で、入力画像に対する色変換(RGB→HSV[H:色相,S:色彩,V:明度]が行なわれる。このP104B1が終わると、P104B2に進む。
【0054】
P104B2では、予め求めておいた色情報HSVで表された閾値の範囲(以下、閾値ベクトルと呼ぶ)を満たす画素を1とし、それ以外の画素を0として2値化する。この閾値ベクトルは、唇領域の色を満たす範囲であり、2値化された画素の値が1の部分がこの画像フレームの唇領域になる。P104B2が終わると、P104B3に進む。
【0055】
P104B3では、2値化によって画素の値が1となった部分の縦と横の長さ(hs,ws)が求められる。P104B3が終わると、P104B4に進む。
P104B4では、P104B3で求めた唇の縦と横の長さ(hs,ws)の各々を、予め計測しておいた口を閉じた状態の唇の縦と横の長さ(Hc,Wc)で引いて割り、次の(1) 式で表される正規化した値を求める。
【0056】
【数1】
Figure 0003710205
以上がP104Bの処理の説明である。P104Bが終わるとP104Cに進む。
【0057】
P104Cでは、口形特徴情報S101Aを時系列順に口形特徴記憶部102Bに記憶させる。この口形特徴記憶部102Bでは、有音区間の最初からの口形特徴情報が時系列順に記憶される。
【0058】
(A−2−2−2)P104D〜P104Eの処理
次に、P104D〜P104Eまでの処理について、図2に示す音声認識部108の構成図を用いて説明する。
【0059】
P104Dでは、音素特徴抽出部108Aにおいて、入力された音声フレームS108から例えぱ周知の「ケプストラム」などの音素特徴ベクトルを抽出する。P104Dを終えるとP104Eに進む。
【0060】
P104Eでは、音素特徴ベクトルを音素特徴記憶部108Bに記憶させる。以上の処理によって、この音素特徴記憶部108Bでは有音区間の最初からの音素特徴ベクトルが時系列順に記憶される。
【0061】
以上がP104(P104A〜P104E)の処理の説明である。
【0062】
(A−2−3)P107の処理内容
次に、口形動作抽出部102Cで行われるP107の詳細動作を説明する。口形動作抽出部102Cでは、唇の縦の動きの極点(口の開くピークや口の閉じるピーク)のフレームが検索され、その時の唇の縦・横の大きさを抽出した口形動作情報が出力される。図8に、口形動作抽出部102Cで実行される処理動作のフローチャートを示す。
【0063】
なお、図8で使われる変数の内訳は、以下の通りとする。n及びiはカウンタのカウント値を表し、h(n)はn番目の画像フレームの唇の縦の長さを表し、w(n)はn番目の画像フレームの唇の横の長さを表し、dhは現フレームと前フレームの唇の縦の長さの差分値を表し、pdhは一つ前のdhの値を表す。
【0064】
まず、P107Aで、口形動作抽出部102Cの初期化が行なわれる。ここで、n=1,dph=0,i=0とそれぞれ代入される。P107Aを終えると、P107Bに進む。
【0065】
P107Bでは、唇の縦方向に関する現フレームの唇の縦の長さh(n)と、前フレームの唇の縦の長さh(n−1)についての差分値(=h(n)−h(n−1))が求められる。P107Bを終えるとP107Cに進む。
【0066】
P107Cでは、dhとpdhの符号が調べられる。ここで、符号とは、dh>0であれば「プラス(+)」、dh<0であれぱ「マイナス(−)」、dh=0であれば「ゼロ(0)」の三通りの符号であり、もしdhとpdhの符号が異なっていれば、P107Dに進み、dhとpdhの符号が一致していれぱP107Fに進む。
【0067】
P107Dでは、n−1番目の画像フレームについての以下の情報を、口形動作情報のi番目の記憶素子[mlip(i) ]に記憶する。ここで、口形動作情報の記憶素子[mlip(i) ]は、mlip(i).frame (フレーム番号n‐1格納用)、mlip(i).h (唇の縦の長さh(n‐1)格納用)、mlip(i).w(唇の横の長さw(n‐1)格納用)、mlip(i).pdh(pdhの符号格納用)、mlip(i).dh(dhの符号格納用)の5つでなる。
【0068】
P107Dを終えると、P107Eに進む。
【0069】
P107Eでは、iの値に1が加えられる。P107Eを終えるとP107Fに進む。
【0070】
P107Fでは、pdhにdhを代入し、nの値に1を加える。P107Fを終えると、P107Gに進む。
【0071】
P107Gでは、nの値がこの有音区間の最終フレーム番号より小さいか否かを調べる。もし小さければP107Bに戻り、そうでなけれぱP107Hに進む。
【0072】
P107Hでは、口形音節マッチング部103にこれまで得られた口形動作情報が出力される。以上が、口形動作抽出部102Cで実行されるP107の詳細動作である。
【0073】
(A−2−4)P108の処理内容
続いて、口形音節マッチング部103で実行されるP108の詳細動作を説明する。
【0074】
口形音節マッチング部103は、口形動作情報から、/m/,/p/,/b/などのように発声に唇を一瞬閉じる動作を伴う音(以下、両唇音という)の発生箇所を見つけ、次の(i) 〜(iii) に示す3つの事項を比較する。
【0075】
(i) 口形動作情報に含まれる両唇音の個数と、参照する単語内部に含まれる両唇音の個数
(ii) 有音区間中に現れた両唇音の位置と、参照する単語内部の両唇音の位置
(iii)動作情報から得られる両唇音の前後の母音について発声時の口形と、参照する単語内の両唇音の前後の母音から導かれるモデル口形
これらの比較処理を行う口形音節マッチング部103の処理動作を、図9に示すフローチャート(P108)で説明する。
【0076】
(A−2−4−1)P108Aの処理
まず、P108Aでは、口形動作情報から両唇音を発声している箇所(フレーム番号)と、その前後の唇の動きの極点の口形およぴ両唇音の総個数(ln)が調べられる。このP108Aで行われる詳細動作を、図10を用いて説明する。まず、図10のP108A1では、両唇音の個数をカウントする変数nに0が代入され、口形動作情報の各アドレスを示すiに1が代入される。
【0077】
次に、P108A2で、口形動作情報のi番目の記憶素子に記憶されている各情報の中からmlip(i).pdh とmlip(i).dhの符号が調ベられ、mlip(i).pdh の符号が[−]であり、かつ、mlip(i).dhの符号が[+]であるとき、P108A3に進む。それ以外は、P108A6に進む。
【0078】
P108A3では、この時の唇の縦横の長さmlip(i).h 及びmlip(i).w が、口を閉じたときの長さを中心に任意の閾値の範囲内にあるか、つまり、両唇音を発話する瞬間の口の形になっているかを調べる。このP108A3の条件を満たせばP108A4に進み、そうでなければP108A6に進む。
【0079】
P108A4では、nに1が加えられ、P108A5に進む。
【0080】
P108A5では、以下の3つの情報を記憶する。すなわち、フレーム番号(mlip(i).frame)、一つ前の極点の口形(mlip(i-1).hとmlip(i-1).w )、一つ後の極点の口形(mlip(i+1).hとmlip(i+1).w)の3つの情報が記憶される。このP108A5を終えると、P108A6に進む。
【0081】
P108A6では、iに1が加えられ、P108A7に進む。
【0082】
P108A7では、口形動作情報の最後まで調べたかがチェックされ、最後まで調べた場合は、P108A8に進み、そうでなけれぱP108A2に戻る。
【0083】
P108A8では、この口形動作情報から検出された両唇音の総個数(ln)にnが代入され、P108Bに進む。以上がP108Aの説明である。
【0084】
(A−2−4−2)P108B〜Eの処理
再ぴ図9に戻り、P108の説明を続ける。
【0085】
P108Bでは、単語辞書104に記憶されている侯補単語の番号に対応する変数iを0に初期北する。P108Bを終えると、P108Cに進む。
【0086】
P108Cでは、第i番目の侯補単語であるword(i) に含まれる両唇音の位置と、その前後の母音と、両唇音の総個数(wn)とが調べられる。これは、例えば候補単語word(i) が「くるまえび(kurmaebi)」であれぱ、両唇音の総個数(wn)は2で、最初の両唇音/m/の前後の母音は/u/,/a/であり、2番目の両唇音/b/の前後の母音は/e/,/i/である。
【0087】
ただし、「パイナップル(painappuru)」の最初の/p/のように単語の先頭にある両唇音については、これをカウントしないことにする。従って、この場合、単語の中間に位置する/p/が両唇音となり、この/p/の前後の母音は/a/,/u/となる。P108Cが終わると、P108Dに進む。
【0088】
P108Dでは、口形動作情報から得た両唇音の総個数lnと参照単語word(i) に含まれる両唇音の総個数wnが等しいかを調べ、等しければP108Eに進み、等しくなけれぱP108Mで口形音節マッチングスコアSC(i) の値を0にしてからP108Kに進む。
【0089】
P108Eでは、両唇音の総個数が0より大きいかを調ベ、大きけれぱP108Fに進み、両唇音の総個数が0であれぱP108Nで口形音節マッチングスコアSC(i) の値を1にしてからP108Kに進む。
【0090】
(A−2−4−3)P108Fの処理
P108Fでは、両唇音が単語中のどの位置にあるかのマッチングを調べる。
図11に、P108Fの詳細なフローチャートを示す。
【0091】
図11において、まずP108F1では、両唇音をカウントする変数jを0に初期化し、位置スコアAの初期値を1にする。P108F1を終えると、P108F2に進む。
【0092】
次に、P108F2では、口形動作情報から得た第j番目の両唇音の画像フレームの相対位置sv(j) を算出する。sv(j) の算出式は、次の(2) 式で与えられる。
【0093】
【数2】
Figure 0003710205
このP108F2を終えると、次は、P108F3に進む。
【0094】
次のP108F3では、候補単語中の第j番目の両唇音の相対位置sw(j) を算出する。sw(j) の算出式は、次の(3) 式のようになる。
【0095】
【数3】
Figure 0003710205
例えぱ、候補単語が「くるまえび」の場合、最初(第0番目)の両唇音/m/の相対位置sw(j) は、候補単語中の音節数5に対して両唇音がある音節位置は2であるので(位置0が「く」、位置1が「る」)、(3) 式より2/5=0.4 である。なお、相対位置sw(j) はその都度算出するのではなく、予め全て求めておいても良く、また、予め実際の音声から両唇音の位置を求めるようにしても良い。P108F3を終えると、P108F4に進む。
【0096】
P108F4では、sv(j) とsw(j) のマッチング度s(j) を算出する。このマッチング度s(j) は、x=|sv(j) −sw(j) |として、図12に示す非線形関数f(x)についての出力値で与えられる。P108F4を終えると、P108F5に進む。
【0097】
P108F5では、位置スコアAにマッチング度s(j) を掛け合わせる。Pl08F5を終えると、P108F6に進む。
【0098】
P108F6では、jに1を加算する。P108F6を終えると、P108F7に進む。
【0099】
P108F7では、j<ln(両唇音の個数)を満たすか否かが判定され、条件を満たしていればP108F2に戻り、それ以外はP108Fの処理を終了して位置スコアAを出力し。P108Gに進む。以上がP108Fの説明である。
【0100】
(A−2−4−4)P108G、Hの処理
再び図9に戻り、P108G以降の処理を説明をする。
【0101】
P108Gでは、位置スコアAが閾値LAより大きいか否かを調ベ、大きければP108Hに進み、そうでなければP108Oで口形音節マッチングスコアSC(i) の値を0にしてからP108Kに進む。
【0102】
P108Hでは、両唇音の前後の口形と候補単語の両唇音の前後の母音を発声している場合のモデル口形との類似度を調べ、前後母音スコアBを算出する。なお、予め複数の口形情報から各母音(/a/,/i/,/u/,/e/,/o/)毎に発声時の唇の縦と横の長さの平均値と、分散値と、唇の縦と横の長さの相関係数を求めておく。
【0103】
まずここで、P108Hの処理に用いる各種変数の定義をしておく。母音v(=/a/,/i/,/u/,/e/,/o/)を発声している場合の口形の平均値、分散値、相関係数を、それぞれ次のように定義する。
【0104】
すなわち、母音vにおける唇の縦およぴ横の長さの平均値をμh(v) ,μw(v) とし、母音vにおける唇の縦および横の長さの分散の平方根をσh(v),σw(v)とし、母音vにおける唇の縦と横の長さの相関係数をρ(v)とする。
【0105】
また、口形動作情報から得られた第j番目の両唇音の前後の口形を、それぞれ次のように定義する。
【0106】
すなわち、両唇音の一つ前の極点の縦およぴ横の長さをh0(j),w0(j) とし、両唇音の一つ後の極点の縦およぴ横の長さをh1(j) ,w1(j) とする。
【0107】
前後母音スコアBを算出するステップは、検出されたln個の各両唇音について、前母音と後母音の類似度(スコア)を求め、前母音と後母音のスコアを線形結合させた値の掛け合わせから求める。
【0108】
さて、第j番目の両唇音についての前後母音スコアB(j) を求める方法を述べる。
【0109】
このときまず、第j番目の両唇音の前の母音v0に対する類似度B0(j) は、次の(4) 式で与えられる。
【0110】
【数4】
Figure 0003710205
また、第j番目の両唇音の後の母音v1に対する類似度B1(j) は、次の(5) 式のようになる。
【0111】
【数5】
Figure 0003710205
そして、第0番目の両唇音から第ln‐1番目の両唇音までの前後母音スコアBは、次の(6) 式で与えられる。
【0112】
【数6】
Figure 0003710205
以上が前後母音スコアBの算出方法である。なお、βは0≦β≦1を満たす任意の定数である。P108Hを終えると、P108Iに進む。
【0113】
(A−2−4−5)P108I〜108Pの処理
P108Iでは、前後母音スコアBが閾値LBより大きいかを調べる。閾値LBより大きい場合はP108Jに進み、小さい場合はP108Pで口形音節マッチングスコアSC(i) の値を0にしてからP108Kに進む。
【0114】
P108Jでは、P108Fで得られた位置スコアAと、P108Hで得られた前後母音スコアBとで最終的な候補単語word(i) に対する口形音節マッチングスコアSC(i) を算出する。この単語に対する口形音節マッチングスコアSC(i) の算出式は、次の(7) 式のようになる。
【0115】
【数7】
Figure 0003710205
なお、αは0≦α≦1を満たす任意の定数である。P108Jを終えると、P108Kに進む。
【0116】
P108Kでは、iに1を加算する。P108Kを終えると、P108Lに進む。
【0117】
P108Lでは、iが候補単語数を越えていないか、つまりまだ参照していない候補単語があれば、P108Cに戻り、次の候補単語を参照する。もし全ての候補単語を参照し終っていれぱP108の処理は終りであり、次のP109に進む。
【0118】
こうして得られた各単語に対する口形音節マッチングスコアSC(i) が、閾値以上の単語のみが音声認識装置によって認識されるのである。
【0119】
(A−3)第1の実施形態の効果
以上のように第1の実施例によれば、口形情報から予め音声認識で参照する候補単語の絞り込みを行なうので、従来の音声認識装置の中で最も処理負荷の大きい尤度計算の回数を減らすことができる。
【0120】
また、特に、両唇音は他の音に比べ発声時の口形がはっきりしており、口形からの両唇音の検出は極めて容易であるので、両唇音の個数や位置には高い信頼性があり、不特定話者に適応可能である。
【0121】
また、取り扱う音声が日本語であれば、単語の先頭に両唇音がある場合を除いて、両唇音の前後は母音である。そして、その母音発声時の口形は、それぞれ両唇音の前後の口形動作の極点になる。そこで、前後母音の類似性を求めることによって、更に精度の高い候補単語の絞り込みを行なうことができる。
【0122】
以上のように、両唇音の個数と位置と前後母音の類似性から精度の高い候補単語の絞り込みを行なうことができる。
【0123】
(B)第2の実施形態
次に、本発明による音声認識装置の第2の実施形態を図面を参照しながら説明する。
【0124】
第1の実施形態は、口形情報から単語辞書に登録されている候補単語の絞り込みを行なった上で、音素モデルと入力音声の尤度の最も高い単語を認識結果として出力していたが、第2の実施形態では、第1の実施形態と逆の処理順序で認識結果を求めていることが異なる。
【0125】
すなわち、第2の実施形態では、まず、単語辞書に登録されている候補単語の音素モデルと入力音声の尤度の計算を行ない、その中から尤度の高いものを複数絞り込み、その絞り込まれた単語の音節と口形情報から得られた音節情報とのマッチングに基づいて最も相応しい単語を認識結果として出力するようにする。
【0126】
この相違点の説明を中心に、第2の実施形態を説明する。
【0127】
(B−1)第2の実施形態の構成
第2の実施形態で説明する音声認識装置は、機能ブロック図で表すと、第1の実施形態に係る図1と同様に表すことができる。本実施形態に係る音声認識装置200の構成を表したが図13である。この図13では、図1との同一、対応部分に同一、対応符号を付して示している。
【0128】
図13が図1と異なる点は、単語候補絞り込部105がなくなった点、本実施形態ようの音声認識部202を用いる点、総合マッチングスコア算出部203が新たに設けられた点である。ここでは、相違点の構成についてのみ説明する。
【0129】
まず、音声認識部202について説明する。この音声認識部202の基本構成は、第1の実施形態の音声認識部108と同様であり、その詳細構成は図2に示したものと同じである。ただし、この実施形態に係る音声認識装置202の場合、入力された音声フレーム列と単語辞書104から入力された候補単語の音素モデルとを比較し、類似度の高い単語を複数個出力するだけで、最終的な認識結果を得るものではない。
【0130】
一方、総合マッチングスコア算出部203は、口形音節マッチング部103のスコアと音声認識部202の尤度とから総合的なマッチングスコアを算出し、最も高い総合マッチングスコアが得られた単語を出力するようになされている。
【0131】
(B−2)第2の実施形態の動作
以下、第2の実施形態に係る音声認識装置200の動作を説明する。図14は、かかる音声認識装置200の動作を示すフローチャートである。なお、図14において、P100からP106までの処理は、第1の実施形態で説明した内容と同じであるので説明を省略し、相違点のみについて説明する。従って、以下の説明では、P201以降から説明を始める。
【0132】
まず、P201では、入力音声から得られた音素ベクトル系列と単語辞書104に登録されている候補単語の各音素モデルとの間の尤度を求める。この尤度を求める方法は、第1の実施形態の場合と同様、HMM等から求める。P201を終えると、P202に進む。
【0133】
P202では、P201で求められた尤度が高かった単語を複数選ぶ。これは尤度の高い順に上位n個までの単語を選ぶようにしても良いし、ある閾値以上の尤度を持つ単語を選ぶようにしても良い。P202を終えると、P203に進む。
【0134】
P203では、第1の実施形態で説明したP107と同様の処理を行なう。つまり、口形特徴情報から口形動作情報を得る。P203を終えると、P204に進む。
【0135】
P204では、P202で選ぱれた候補単語について、その音節情報と口形動作情報から得られた両唇音を中心とした音節情報とのマッチングを行なう。このP204で行なうマッチングは、第1の実施形態のP108で行なったように両唇音の個数と位置と前後の母音についてマッチングを行ない、口形音節マッチングスコアSC(i) を出力する。P204を終えると、P205に進む。
【0136】
P205では、総合マッチングスコア算出部203において、P201で得られた尤度Nと、P204で得られた口形音節マッチングスコアSC(i) とから、最終的なマッチングスコアLSCを算出し、最も高いマッチングスコアLSCを得た単語を認識結果として出力する。
【0137】
このマッチングスコア(LSC)の算出方法の例を、次の(8) 式に示す。
【0138】
LSC=λN+(1−λ)SC ……(8)
ただし、0≦λ≦1であり、λは任意の定数とする。
【0139】
(B−3)第2の実施形態の効果
以上のように、第2の実施形態によれば、入力音声と候補単語の音素モデルとの尤度計算から即座に認識単語を求めるのではなく、複数の候補を絞り込み、当該絞り込まれた候補について口形情報を併用して認識単語を決定することにしたので、従来の音声認識装置に比べて認識精度を高めることができる。
【0140】
また、両唇音は他の音に比べ発声時の口形がはっきりしており、口形からの両唇音の検出は極めて容易であるので、両唇音の個数や位置には高い信頼性があり、不特定話者に適応可能である。特に背景雑音が大きい環境の中で音声の自動認識を行なう際に有効である。
【0141】
(C)第3の実施形態
続いて、本発明による音声認識装置の第3の実施形態を図面を参照しながら説明する。
【0142】
この第3の実施形態は、前述した第1の実施形態と、第2の実施形態とを組み合わせたものであり、全体の流れは、おおよそ次の3段階に分けることができる。
【0143】
すなわち、(1) 口形情報から単語辞書に登録されている候補単語の絞り込みを行なう段階と、(2) 絞り込まれた候補単語の音素モデルと入力音声の尤度を計算し、特に尤度の高かった単語を複数選ぶ段階と、(3) 先に説明した(2) で選ぱれた単語に対し、その尤度と(1) で求めた口形音節マッチングスコアから最終的な認識単語を出力する段階の3つである。以下、この点を中心に説明する。
【0144】
(C−1)第3の実施形態の構成
第3の実施形態で説明する音声認識装置は、機能ブロック図で表すと、第1及び第2の実施形態に係る図1及び図13と同様に表すことができる。本実施形態に係る音声認識装置300の構成を表したが図15である。この図15では、図1及び図13との同一、対応部分に同一、対応符号を付して示している。
【0145】
図15が図1及び図13と異なる点は、新たに口形マッチングスコア記憶部301が設けられた点である。
【0146】
ここで、口形音節マッチングスコア記憶部301は、口形音節マッチング部103で得られた口形音節マッチングスコアを一時記憶するのに用いられる記憶部であり、総合マッチングスコア算出部203の処理が開始されるまで保持する役割を有している。
【0147】
なお、この実施形態の音声認識部202は、入力された音声フレーム列と、予め単語候補絞り込部105で絞り込まれた候補単語の音素モデルとを比較するようになされ、当該比較結果から類似度の高い単語を複数個出力するようになっている。
【0148】
また、この実施形態の総合マッチングスコア算出部203は、口形音節マッチングスコア301に保持されている口形音節マッチングスコアと、音声認識部202から得られた尤度から総合的なマッチングスコアを算出し、総合的なマッチングスコアの一番高かった単語を認識結果として出力するようになっている。
【0149】
(C−2)第3の実施形態の動作
以下、第3の実施形態にかかる音声認識装置300の動作の詳細を述べる。図16に、本発明の第3の実施例の音声認識装置300の動作のフローチャートを示す。なお、図16において、P100からP110までの処理は、第1の実施形態の動作を説明した図5の場合と同じであるので、その説明は省略する。以下、P301以降から説明を始める。
【0150】
まず、P301では、P110で求められたモデル音素との尤度が高かった単語を複数選ぶことにする。これは尤度の高い順に上位n個までの単語を選ぶようにしても良いし、ある関値以上の尤度の持つ単語を選ぶようにしても良い。いずれにしても、P301を終えると、P302に進む。
【0151】
P302では、P110で得られた尤度Nと、P108で得られた口形音節マッチングスコアSC(i) とから、総合的なマッチングスコアLSCを算出する。この総合マッチングスコアLSCの算出方法は、第2の実施形態のP205の処理と同様であり、(8) 式を用いることができる。P302を終えると、P303に進む。
【0152】
P303では、P302で求めた総合マッチングスコアLSCの最も高かった単語を認識結果として出カする。P303を終えると、P304に進み一連の処理を終える。
【0153】
以上が、第3の実施形態に特有な動作部分の説明である。
【0154】
(C−3)第3の実施形態の効果
以上のように、第3の実施形態によれば、まず、口形情報から予め候補単語を絞り込み、絞り込まれた単語について音声認識を行なうので、音声認識に費やす処理の軽減を実現できる。
【0155】
更に、音声認識部202で認識結果を一つに絞り込むのではなく、更に再ぴ口形情報から求まった口形音節マッチングスコアLSCも用いて最終的に出力する認識結果を一つに絞り込むので、音声認識の精度を高めることが可能になる。
【0156】
このように、両唇音という他の音に比べ発声時の口形がはっきりしている口形の情報を用いて認識処理するため、背景雑音が大きい環境の中で話者の音声を高い精度で自動認識することが可能となる。
【0157】
(D)第4の実施形態
さらに、本発明による音声認識装置の第4の実施形態を図面を参照しながら説明する。
【0158】
この第4の実施形態は、第1の実施形態の変形例とも言うべきものであり、口形音節マッチング部103が口形音節マッチングスコアを求める際に用いる処理方法のみを異にするものである。
【0159】
すなわち、第1の実施形態は、口形音節マッチングスコアを求める際、両唇音の前後に位置する波形のピーク位置を母音位置と決定する手法を用いていたが、第4の実施形態においては、発話速度が一定であるとの仮定の下に、両唇音から時間的距離がある範囲内であり、かつ、唇の開き具合が閾値以上であるような位置を母音位置として決定する。
【0160】
以下、この部分を中心に、第4の実施形態を説明する。
【0161】
(D−1)第4実施形態の構成
第4の実施形態に係る音声認識装置400の機能ブロック構成を図17に示す。この図17には、図1との同一、対応部分に同一、対応符号を付して示している。図17から分かるように、音声認識装置400の機能ブロック構成は、第1の実施形態で説明した音声認識装置100の機能ブロック構成と同じである。異なるのは、入力された音節情報と、口形の動作から得られた音節とのマッチング程度を調べ、結果を口形音節マッチングスコアとして出力する口形音節マッチング部103で行われる処理内容のみである。
【0162】
(D−2)第4実施形態の動作
以下、第4の実施形態にかかる音声認識装置400の動作の詳細を述べる。参考までに音声認識装置400の動作のフローチャートを図18に示す。図18からも分かるように、その内容は第1の実施形態の説明に用いた図5と同じである。異なるのは、この一連の処理のうち、P108’に係る部分である。従って、P108’の詳細のみを説明する。
【0163】
(D−2−1)P108’の処理内容
続いて、口形音節マッチング部103で実行されるP108’の詳細動作を、図19を用いて説明する。
【0164】
口形音節マッチング部103は、このP108’により、口形動作情報から/m/,/p/,/b/などの両唇音の発生箇所を見つけ、次の(1) 〜(3) に示す3つの事項を比較する。なお、第1の実施形態の場合とは、(2) の内容が異なる。
【0165】
(1) 口形動作情報に含まれる両唇音の個数と、参照する単語内部に含まれる両唇音の個数
(2) 有音区間中に現れた両唇音の始端・終端位置と、参照する単語内の両唇音の始端・終端位置
(3) 動作情報から得られる両唇音の前後の母音について発声時の口形と、参照する単内の両唇音の前後の母音から導かれるモデル口形
次に、P108’を構成する各処理の内容を説明する。
【0166】
(D−2−1−1)P108A’の処理
まず、P108’の最初の処理として行われるP108A’の処理を説明する。
【0167】
P108A’では、口形動作情報から両唇音を発声している始端およぴ終端位置(フレーム番号)と、両唇音の前後の唇の動きの極点の口形との抽出がなされ、両唇音の総個数lnが調べられる。このPl08A’の詳細を表したのが図20のフローチャートである。
【0168】
(D−2−1−1−1)P108A1’〜P108A2’の処理
まず、P108A1’で、両唇音の個数をカウントする変数lnを0とし、口形動作情報の番号を示すiに1を代入する。
【0169】
次に、P108A2’で、口形動作情報のi番目の口形動作情報 mlip(i)が両唇音の始端のフレームのものであるかを調べる。この判別には、次の(1) 〜(3) の3つの条件が用いられる。
【0170】
(1) mlip(i).pdh が[−]
(2) mlip(i).dh が[+]又は[0]
(3) 唇の縦横の長さである mlip(i).hと、mlip(i).w とが、閾値L0=(Lh0,Lw0)〜L1=(Lh1,Lw1)の範囲に収まっている
ここで、口形動作情報 mlip(i)が上記3つの条件を同時に満たせば、mlip(i).frame は両唇音の始端フレームとなり、以後、この両唇音の終端、両唇音の直前・直後の母音の位置検出を行なう。なお、この両唇音の始端のiを、以下、siとする。このP108A2’で、始端であることが確認されれば、P108A3’に進み、そうでなければ、P108A8’に進む。
【0171】
(D−2−1−1−2)P108A3’〜P108A4’の処理
P108A3’では、第ln番目の両唇音の始端情報lvs(ln)に mlip(i)を代入する。P108A3’を終えると、P108A4’に進む。
【0172】
P108A4’では、この両唇音の直前の母音を発話した時の口形動作情報を捜す処理と、見つかった口形動作情報を両唇音の直前母音情報lvh(ln)に代入する処理を行う。図21に、両唇音の直前の母音位置を検出手順を示す詳細なフローチャートを示す。
【0173】
まず、P108A41’でiにsi−1を代入する。次に、P108A42’で、mlip(i) が次の(1) 、(2) の2つの条件を同時に満たすか調べる。
【0174】
(1) mlip(i).dhが[−]
(2) 唇の縦横の長さであるmlip(i).h と、mlip(i).w が共に閾値の範囲外にあるここで、mlip(i) が上記の2つの条件を同時に満たせば、P108A45’に進み、条件を満たさなければ、P108A43’に進む。
【0175】
P108A45’では、ln番目の両唇音の直前の母音情報1vh(ln)にmlip(i) を代入し、P108A5’に進む。
【0176】
一方、P108A42’からP108A43’に進んだ場合、P108A43’でiから1を減算し、次のP108A44’でiが閾値MLVHより小さいか否か調べる。小さければ、P108A8’に進み、小さくなければP108A42’に戻る。
【0177】
すなわち、このP104A4’で両唇音の直前母音が見つからない場合はP108A8’に進み、見つかった場合はP108A5’に進む。
【0178】
(D−2−1−1−3)P108A5’の処理
Pl08A5’では、両唇音の終端のフレームの捜索が行われ、その時の口形動作情報を終端情報lve(ln)に代入する処理がなされる。図22に、両唇音の終端の位置検出の詳細なフローチャートを示す。
【0179】
まず、P108A51’で、iにsi+lを代入する。次に、P108A52’で、mlip(i).h とmlip(i).w が共に閾値L0〜Llの範囲にあるかを調べる。ここで、閾値の範囲外であれば、P108A55’に進み、閾値の範囲内であればP108A53’に進む。
【0180】
P108A55’では、ln番目の両唇音の終端情報lve(ln)にmlip(i-1) を代入し、P108A6’に進む。
【0181】
一方、Pl08A52’からP108A53’に進んだ場合、Pl08A53’では、iに1を加算する。
【0182】
次に、iが閾値MLVEより大きいか調べ、大きければP108A8’に進み、大きくなければP108A52’に戻る。なお、P108A55’のときのiを、以下、eiとする。
【0183】
すなわち、このP108A5’で両唇音の終端が見つからない場合はP108A8’に進み、見つからない場合はP108A6’に進む。
【0184】
(D−2−1−1−4)P108A6’の処理
P108A6’では、この両唇音の直後の母音を発話した時の口形動作情報の探索が行われ、この口形動作情報を両唇音の直後の母音情報lvt(ln)に代入する処理を行う。図23に、両唇音の直後の母音位置検出処理の詳細なフローチャートを示す。
【0185】
まず、P108A61’で、iにei+1を代入する。次に、P108A62’で、mlip(i) が次の(1) 、(2) の2つの条件を同時に満たすか調べる。
【0186】
(1) mlip(i).dhが[+]
(2) 唇の縦横の長さであるmlip(i).h と、mlip(i).w が共に閾値の範囲外にある
ここで、mlip(i) が上記の2つの条件を同時に満たせば、P108A65’に進み、条件を満たさなければ、P108A63’に進む。
【0187】
P108A65’では、ln番目の両唇音の直後の母音情報lvh(ln)にmlip(i) を代入し、P108A7’に進む。
【0188】
一方、P108A62’からP108A63’に進んだ場合、P108A63’では、iに1を加算する。次に、iが閾値MLVTより大きいかを調べ、大きければP108A8’に進み、大きくなければP108A62’に戻る。
【0189】
すなわち、このP108A6’で両唇音の直後の母音が見つからない場合はPl08A8’に進み、見つかった場合はP108A7’に進む。
【0190】
(D−2−1−1−5)P108A7’〜P108A9’の処理
P108A7’では、lnに1を加える。P108A7’を終えると、P108A8’に進む。
【0191】
Pl08A8’では、iに1を加える。Pl08A8’を終えると、P108A9’に進む。
【0192】
P108A9’では、口形動作情報の最後まで調べたかをチェックし、最後まで調べた場合には、P108Bに進み、そうでなければP108A2’に戻る。
以上がP108A’の説明である。
【0193】
(D−2−1−2)P108B〜P108C’の処理
P108Bでは、単語辞書104に記憶されている候補単語の番号に対応する変数iの初期化が行われる。初期化により、変数iは0になる。P108Bを終えると、P108C’に進む。
【0194】
P108C’では、第i番目の候補単語であるword(i) に含まれる両唇音の個数wnと、各々の両唇音の始端と終端の位置と、前後の母音を調べる。
【0195】
両唇音の始端と終端の位置は、両唇音の単語中における音節位置によって決まる。通常は、第n番目の音節に両唇音があれば、両唇音の位置は、始端がn−1、終端がn−1である。
【0196】
例えば、入力音声が「にまいがい」の場合、両唇音「ま」は第二音節にあるので始端位置は1、終端位置は1である。但し、「みかん」のように両唇音「み」が単語の第一音節にある両唇音については、これをカウントしない。
【0197】
更に例外として、両唇音の前の音節が「つまる音」(例えば、パイナップルの場合の「ッ」)や「はねる音」(例えば、さんまの場合の「ん」)の場合は、両唇音の始端はこれらの音節の位置になる。つまり、「パイナップル」の両唇音「ップ」の始端位置は3、終端位置は4となる。
【0198】
また、前後の母音とは、両唇音の前の音節が「つまる音」や「はねる音」の場合は、これを含めた両唇音の直前直後の母音をいう。例えば、「さんま」の場合、「んま」の前の母音は/a/、後の母音は/a/である。このP108C’を終えると、P108Dに進む。
【0199】
(D−2−1−3)P108D〜P108F’の処理
P108Dでは、口形動作情報から得た両唇音の総個数lnと、参照単語Word(i) に含まれる両唇音の総個数Wnとが等しいかを調ベ、等しければP108Eに進み、等しくなければP108Mで口形音節マッチングスコアSC(i) の値を0にしてからP108Kに進む。
【0200】
Pl08Eでは、両唇音の総個数lnが0より大きいかを調べ、大きければPl08F’に進み、両唇音の総個数が0であればP108Nで口形音節マッチングスコアSC(i) の値を1にしてからP108Kに進む。
【0201】
P108F’では、word(i)に対する両唇音の位置のマッチングを調べる。図24に、P108F’の詳細なフローチャートを示す。
【0202】
まず、P108F1’で、両唇音をカウントする変数jを0に初期化し、位置スコアAの初期値を1にする。P108F1’を終えると、P108F2’に進む。
【0203】
次に、P108F2’では、口形動作情報から得た第j番目の両唇音の始端・終端の相対位置sv(j) (=[sv(j).s,sv(j).e])を算出する。このとき、sv(j) の算出式は、次の(9) 、(10)式で与えられる。
【0204】
【数8】
Figure 0003710205
【数9】
Figure 0003710205
以上、両唇音の始端の画像フレーム番号P108F2’を終えると、P108F3’に進む。
【0205】
次に、P108F3’では、P108A’の処理で得られた候補単語中の第j番目の始端・終端の両唇音の位置sw(j) (=[sw(j).s,sw(j).e])に代入する。P108F3’を終えると、P108F4’に進む。
【0206】
P108F4’では、sv(j) とsw(j) についてのマッチング度s(j) の算出が行われる。ここで、マッチング度s(j) は、両唇音の始端相対位置の差分xs(=|sv(j).s−sw(j).s|)と、両唇音の終端相対位置の差分xe(=|sv(j).e −sw(j).e| )とを、図12のような非線形関数f(x) で変換した出力値f(xs)、f(xe) の積(=f(xs)×f(xe))で与えられる。マッチング度s(j) は、xs又はxeが小さい、つまり、位置のマッチングが合っているほど大きく、位置のマッチングがずれているほど小さい値になる。このP108F4’を終えると、P108F5’に進む。
【0207】
P108F5’では、位置スコアAにマッチング度s(j) を掛け合わせる。P108F5’を終えると、P108F6’に進む。
【0208】
P108F6’では、jに1を加算する。P108F6’を終えると、P108F7’に進む。
【0209】
P108F7’では、j<ln(両唇音の個数)を満たしていればP108F2’に戻り、それ以外はP108F’の処理を終了し、位置スコアAを出力してP108Gに進む。以上がP108F’の説明である。
【0210】
(D−2−1−4)P108G〜P108Pの処理
次のP108Gでは、位置スコアAが閾値LAより大きいかを調べる。ここで大きければP108H’に進み、小さければP108Oで口形音節マッチングスコアSC(i) の値を0にしてからP108Kに進む。
【0211】
P108H’では、word(i) 内の各両唇音について、その前後の口形と候補単語の両唇音の前後の母音を発声している場合のモデルロ形との類似度を調べ、前後母音スコアBを算出する。なお、予め、複数の口形情報から各母音(/a/,/i/,/u/,/e/,/o/)毎に、発声時の唇の縦と横の大きさの平均値と、分散値とを求めておく。
【0212】
まずここで、P108H’の処理で用いる各種変数の定義をしておく。母音v(=/a/,/i/,/u/,/e/,/o/)を発声している場合の口形の平均値と分散値を、それぞれ次のように定義する。
【0213】
すなわち、母音vにおける唇の縦およぴ横の長さの平均値をHμ(v) ,Wμ(v) とし、母音vにおける唇の縦および横の長さの分散の平方根をHσ(v),Wσ(v)とする。
【0214】
また、口形動作情報から得られた第j番目の両唇音の前後の口形を、それぞれ次のように定義する。
【0215】
すなわち、両唇音の一つ前の極点の縦およぴ横の長さをsh0(j) ,sw0(j) とし、両唇音の一つ後の極点の縦およぴ横の長さをsh1(j) ,sw1(j) とする。
【0216】
前後母音スコアBを算出するステップは、検出されたln個の各両唇音について、前母音と後母音の類似度(スコア)を求め、前母音と後母音のスコアを加重加算させた値より両唇音の前後母音のマッチング程度を調べる。
【0217】
続いて、第j番目の両唇音についての前後母音スコアB(j) を求める方法を述べる。まず、第j番目の両唇音の前にある母音v0に対する類似度B0(j) を、次の(11)式で求める。
【0218】
【数10】
Figure 0003710205
同様に、第j番目の両唇音の後にある母音v1に対する類似度B1(j) を、次の(12)式で求める。
【0219】
【数11】
Figure 0003710205
そして、word(i) に対する第0番目の両唇音から第ln−1番目の両唇音までの前後母音スコアBは、次の(13)式となる。
【0220】
【数12】
Figure 0003710205
以上が前後母音スコアBの算出方法である。なお、βは例えば 0.5等の任意の定数である。P108H’を終えると、P108Iに進む。
【0221】
P108Iでは、前後母音スコアBが閾値LBより大きいかを調べる。ここで閾値LBより大きい場合はP108Jに進み、小さい場合はP108Pで口形音節マッチングスコアSC(i) の値を0にしてからP108Kに進む。。
【0222】
P108Jでは、P108F’で得られた位置スコアAと、P108H’で得られた前後母音スコアBとで最終的な候補単語word(i) に対する口形音節マッチングスコアSC(i) を算出する。この単語に対する口形音節マッチングスコアSC(i) の算出式は、次の(14)式となる。
【0223】
SC(i) =αA+(1−α)B ……(14)
ただし、0≦α≦1であり、αは任意の定数である。P108Jを終えると、P108Kに進む。
【0224】
P108Kでは、iに1を加算する。P108Kを終えると、P108Lに進む。
【0225】
P108Lでは、iが候補単語数を越えていないかを調べる。まだマッチングを行なっていない候補単語があれば、P108Bに戻り、次の候補単語とのマッチング処理を行なう。もし全ての候補単語とのマッチング処理を終了していればP108’の処理は終りであり、次のP109に進む。
【0226】
なお、これ以降の処理は、第1の実施形態の場合と同様である。
【0227】
(D−3)第4実施形態の効果
以上のように、第4の実施形態によれば、音声認識で参照する候補単語を予め口形情報で絞り込んでから尤度計算を実行するので、第1の実施形態の場合と同様、尤度計算の回数の低減と信頼性の向上を実現することができる。
【0228】
また、発話速度が一定であるという仮定が成り立つ環境下では、第4の実施形態の方が高い精度で両唇音の前後に位置する母音の位置を決定できるので、第1の実施形態よりも高い認識精度が得られる。
【0229】
(E)第5の実施形態
次に、本発明による音声認識装置の第5の実施形態を図面を参照しながら説明する。
【0230】
図25は、第5の実施形態に係る音声認識装置500の機能ブロック図である。なお、図25では、図13との同一、対応部分に同一、対応符号を付して示している。図25から分かるように、第5の実施形態は、第1の実施形態に対する第2の実施形態と同じ関係にある実施形態である。
【0231】
すなわち、第4の実施形態では、口形情報から単語辞書に登録されている候補単語の絞り込みを行なった後、音素モデルと入力音声の尤度計算を実行していたが、第5の実施形態では、単語辞書に登録されている候補単語の音素モデルと入力音声との尤度計算を行なった後、その中から尤度の高いものを複数絞り込み、その絞り込まれた単語の音節と口形情報から得られた音節情報とのマッチング処理を行う。
【0232】
このことからも分かるように、音声認識装置500の音声認識処理手順は、第2の実施形態で説明した図14と同じである。
【0233】
ただし、口形特徴情報から特定の音節部分を検出し口形から得られた音節と選ばれた単語の音節情報との間でマッチングをとるP204の処理において、両唇音の前後の母音位置の決定する際、第4の実施形態で説明した方法を用いるようにする。
【0234】
すなわち、発話速度が一定であるという仮定の下、両唇音からの時間的な距離がある範囲内であり、かつ唇の開き具合が閾値以上であるような音を両唇音の前後にある母音の位置と決定する。
【0235】
以上のように、この第5の実施形態のように構成しても、従来の音声認識装置に比して認識精度の高い音声認識装置を実現することができる。しかも、発話速度が一定であるという仮定が成り立つ環境下では、第5の実施形態の方が高い精度で両唇音の前後に位置する母音の位置を決定できるので、第2の実施形態よりも高い認識精度を得ることが可能である。
【0236】
(F)第6の実施形態
次に、本発明による音声認識装置の第6の実施形態を図面を参照しながら説明する。
【0237】
図26は、第6の実施形態に係る音声認識装置500の機能ブロック図である。なお、図26では、図15との同一、対応部分に同一、対応符号を付して示している。図26から分かるように、第6の実施形態は、第1及び第2の実施形態に対する第3の実施形態と同じ関係にある実施形態である。
【0238】
すなわち、第6の実施形態は、前述した第4の実施形態と、第5の実施形態とを組み合わせたものであり、(1) 口形情報から単語辞書に登録されている候補単語の絞り込み処理と、(2) 絞り込まれた候補単語の音素モデルと入力音声の尤度を計算し、特に尤度の高かった単語を複数選ぶ処理と、(3) (2) で選ばれた単語に対し、その尤度と(1) で求めた口形音節マッチングスコアから最終的な認識単語を出力する処理の3段階からなるものである。
【0239】
このことからも分かるように、音声認識装置600の音声認識処理手順は、第3の実施形態で説明した図16と同じである。
【0240】
ただし、図16のフローチャートのうち、口形特徴情報から特定の音節部分を検出し口形から得られた音節と単語辞書104に記憶されている音節情報との間でマッチングをとるP108の処理と、口形音節マッチングスコアと音素モデルの尤度から総合的なマッチングスコアを算出するP302の処理とにおいて、両唇音の前後の母音位置の決定する際、第4の実施形態で説明した手法を用いるようにする。
【0241】
すなわち、発話速度が一定であるという仮定の下、両唇音からの時間的な距離がある範囲内であり、かつ唇の開き具合が閾値以上であるような音を両唇音の前後にある母音の位置と決定する。
【0242】
このようにしても、従来の音声認識装置に比して認識精度の高い音声認識装置を実現することができる。しかも、発話速度が一定であるという仮定が成り立つ環境下では、第6の実施形態の方が高い精度で両唇音の前後に位置する母音の位置を決定できるので、第3の実施形態よりも高い認識精度を得ることが可能である。
【0243】
(G)第7の実施形態
次に、本発明による音声認識装置の第7の実施形態を図面を参照しながら説明する。
【0244】
この実施形態は、第4〜第6の実施形態においてマッチング精度が低下したときの補完手法ともいうべきものである。すなわち、第4〜第6の実施形態においては、口形音節マッチング部103内で両唇音の前後にある母音のマッチング処理(P108H’)する際、口形動作情報内の口の縦横の大きさと、予め求めてある各母音(/a/、/i/,/u/,/e/,/o/)毎の発声時の唇の縦と横の長さの平均値と分散値と、口の縦横の長さの相関係数から両唇音の前後の音を決定した。
【0245】
この方法は、各母音毎のとのマッチング精度が高い反面、通常より発話時の声が小さく口の開きが小さい場合や、逆に、通常より発話時の声が大きく口の開きが大きい場合、うまくマッチングできないおそれがある。
【0246】
そこで、第7の実施形態に係る音声認識装置700では、単に両唇音の直前母音を発声した時の口の開きと両唇音の直後母音を発声した時の口の開きの大きさを比較し、どちらが大きいかだけに基づいてマッチングを行なうようにする。
【0247】
なお、第7の実施形態の構成は、第4〜第6の実施形態の各構成と基本的に同じであるので、ここでは省略する。異なる点は、口形音節マッチング部103(103’)内の処理のうち、両唇音前後の母音マッチング処理(P108H(108H’))以降である。
【0248】
(G−1)第7の実施形態の動作
図27に、第7の実施形態における口形音節マッチング部103のフローチャートを示す。なお、図27において、P108A’〜P108Gまでの処理については第4〜第6の実施形態の場合と同様であるので説明を省略する。従って、P108Gで肯定結果が得られた場合に実行されるP108Q以降について説明する。
【0249】
(G−1−1)P108Qの処理
P108Qでは、参照単語中の第i番目の両唇音について、両唇音の直前母音を発声したときの口の開きと、両唇音の直後母音を発声した時の口の開きの大きさを比較し、どちらが大きいかのマッチングを行なう。
【0250】
ここで、P108Qの処理で用いる各種変数の定義をする。
【0251】
すなわち、参照単語word(i) 中の第j番目の両唇音の直前の母音をvtとし、直後の母音をvcとする。また、VtとVcの縦およぴ横の大小関係をvch及びvcwとする。さらに、口形動作情報から得られた第j番目の両唇音の前後の口形については、両唇音の直前の縦およぴ横の大きさを、それぞれh0(j) およびw0(j) とし、両唇音の直後の縦およぴ横の大きさを、h1(j) およびw1(j) とする。
【0252】
この定義の下、P108Qの具体的な処理手順を図28に示す。
【0253】
まず、P108Q1で、jを0に初期化する。
【0254】
次に、Pl08Q2で、参照単語中にある第j番目の両唇音の直前の母音vtと直後の母音vcの縦方向の大小関係vch(+,−,×の3種類)を図29に示す図表(a)から検索する。ここで、'+'は、前の母音の方が大きいことを意味する。また、'−'は、後の母音の方が大きいことを意味する。そして、'×'は、前と後とどちらが大きいかは分からないことを意味する。
【0255】
例えば、前母音vtが/a/で、後母音veが/o/であれば、縦方向の大小関係vchは'+'となる。大小関係を表から検索したら、P108Q3に進む。P108Q3では、縦方向の大小関係vchが'×'であるか否かを判定し、縦方向の大小関係vchが'×'であればP108Q5に進む。これに対して、'×'でなければ、P108Q4に進む。
【0256】
Pl08Q4では、以下の2つの条件(1) 及び(2) のうちいづれかが満たされるかを調べる。
【0257】
(1) h0(i) −h1(i) の符号が+で、vchが'+'
(2) h0(i) −h1(i) の符号が−で、vchが'−'
もし、上記の条件を満たせば、P108Q5に進む。上記の条件を満たさない場合はP108Pに進む。
【0258】
さて、P108Q4からP108Q5に進んだ場合、P108Q3では、参照単語中の第i番目の両唇音の直前の母音vtと、直後の母音veの横方向の大小関係vcwを、図29の図表(b)から検索する。
【0259】
例えば、両唇音の直前の母音vtが/a/で、直後の母音veが/o/であれは、vcwは'+'である。検索したら、P108Q6に進む。
【0260】
P108Q6では、もし、vcwが'×'であれば、P108Q7に進み、それ以外は、P108Q8に進む。
【0261】
P108Q7では、以下の2つの条件(1) 及び(2) のうちいづれかが満たされるかを調べる。
【0262】
(1) w0(i) −w1(i) の符号が+で、vcwが'+'
(2) w0(i) −w1(i) の符号が−で、vcwが'−'
もし、上記条件を満たせば、P108Q8に進む。上記の条件を満たさない場合は、P108Pに進む。
【0263】
P108Q7からP108Q8に進んだ場合、P108Q8で、jに1が加算される。
【0264】
次にP108Q9で、jがword(i) の両唇音数lnを越えているかを調べ、j<lnならP108Rに進み、それ以外はP108Q2に戻る。以上がP108Qで行われる処理の説明である。
【0265】
(G−1−1)P108K、P108L、P108P、P108Rの処理
続いて、Pl08Q以後の処理を説明する。
【0266】
P108QからP108Rに進んだ場合、候補単語word(i) のマッチングスコアSC(i) の値を0にしてP108Kに進む。
【0267】
一方、P108QからPl08Rに進んだ場合、マッチングスコアSC(i) の候補単語word(i) に位置スコアAを代入する。以後の処理は第4〜6の実施形態の場合と同じである。
【0268】
(G−2)第7の実施形態の効果
以上のように、第7の実施形態によれば、発話時の口の開きが通常より全体的に大きい場合や小さい場合における音声認識のように、前後母音のマッチング精度が十分得られないような環境下では、両唇音の前後の母音の口形の大小関係の一致具合を考慮し、当該大小関係が一致している場合には、両唇音の位置マッチングにより得られた位置スコアを候補単語word(i) についての口形音節マッチングスコアSC(i) として用いるようにしたことにより、その分、候補単語の絞り込み精度を向上させることができる。
【0269】
(H)他の実施形態
(H-1) なお、上述の第1〜第7の実施形態においては、音声認識の対象を単語とする場合について述べたが、本発明はこれに限らず、音声認識の対象を文章とする場合にも適用し得る。
【0270】
(H-2) また、上述の第1〜第7の実施形態においては、口形音節マッチングの際、両唇音の位置と、その前後に位置する母音のそれぞれについてマッチング処理を行なったが、いずれか一方の母音についてマッチング処理を行うようにしても良い。
【0271】
(H-3) さらに、第1〜第7の実施形態においては、口形音節マッチングにおいて、口形特徴情報から両唇音を検出したが、他にも英語の'v’,'f’のように発声時の口形が一定の音節があればこれを用いても良い。更に、同時に複数の音節を用いても良い。
【0272】
(H-4) さらにまた、第1〜第7の実施形態においては、口形特徴抽出部102Aにおける唇領域の抽出の方法として、画像フレーム中の色成分を2値化する方法を採用したが、これに限定するものではない。例えば、前フレームとの動きベクトルなどから唇特徴を抽出しても良い。
【0273】
(H-5) また、第2、第3、第5及び第6の実施形態においては、音声認識部202で尤度の高い単語を複数個選び、当該選択された単語を出力する場合について述べたが、全ての単語を尤度と共に出力するようにしても良い。
【0274】
(H-6) さらに、第1〜第7の実施形態においては、口形音節マッチングの際、口の縦と横の2つの大きさを用いる場合について述べたが、口の縦又は横だけを用いるようにしても良い。
【0275】
(H-7) また、第1〜第7の実施形態においては、口形音節マッチング部103において、候補単語の両唇音の位置を音節位置から求めたが、音声認識装置108(202)から音節の位置が分かれば、これを用いても良い。
【0276】
(H-8) さらに、第7の実施形態においては、両唇音を挟む前後母音の口の大小関係を表す図表として図29を用いたが、本発明はこれに限らず、他の関係表を用いても良い。
【0277】
【発明の効果】
上述のように、本発明によれば、登録する単語の音節情報及び音素モデルを有する単語辞書と、話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、口形動作情報に含まれる特定の音節と単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、口形音節マッチング手段から得た類似度に基づいて、単語辞書に登録されている単語の絞り込みを行う単語候補絞り込手段と、入力音声と単語候補絞り込手段で絞り込まれた候補単語の音素モデルとの尤度を求め、入力音声について最も高い尤度が得られた候補単語を、入力音声についての認識結果とする音声認識手段とを備え、口形音節マッチング手段が、口形動作情報から検出した特定の音節の個数と、単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、口形動作情報から検出した特定の音節の位置と、単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、口形動作情報から検出した特定の音節に前後する口形状態と、単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部の3つ全て又は一部を有し、これらの比較結果より口形動作情報と単語辞書の単語とのマッチング程度を求めることにより、尤度の算出にかかる回数を減らすことができ、従来に比して、計算機にかかる負荷を小さくできる。また、話者が実際に発話したときの口の形を情報に使用するため、高い精度を実現できる。
【0278】
また、本発明によれば、登録する単語の音節情報及び音素モデルを有する単語辞書と、入力音声と単語辞書に登録されている単語の音素モデルとの尤度を求め、高い尤度が得られた複数又は全ての単語を、候補単語としてその尤度と共に出力する音声認識手段と、話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、口形動作情報に含まれる特定の音節と、音声認識手段により選出された単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、音声認識手段で選ばれた候補単語について、音声認識手段から得られた尤度と口形音節マッチング手段から得た類似度から総合的な類似度を調べ、最も高い総合類似度を持つ候補単語を、入力音声についての認識結果とする総合類似度算出部とを備え、口形音節マッチング手段が、口形動作情報から検出した特定の音節の個数と、単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、口形動作情報から検出した特定の音節の位置と、単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、口形動作情報から検出した特定の音節に前後する口形状態と、単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部の3つ全て又は一部を有し、これらの比較結果より口形動作情報と単語辞書の単語とのマッチング程度を求めることにより、従来に比して、背景雑音が大きい環境下での音声認識精度を高めることができる。
【0279】
さらに、本発明によれば、登録する単語の音節情報及び音素モデルを有する単語辞書と、話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、口形動作情報に含まれる特定の音節と単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、口形音節マッチング手段から得た類似度から単語辞書に登録されている単語を絞り込む単語候補絞り込手段と、入力音声と単語候補絞り込手段で絞り込まれた候補単語の音素モデルとの尤度を求め、高い尤度が得られた複数又は全ての候補単語を、その尤度と共に出力する音声認識手段と、音声認識手段で選ばれた候補単語について、音声認識手段から得られた尤度と口形音節マッチング手段から得た類似度から総合的な類似度を調べ、最も高い総合類似度を持つ候補単語を、入力音声についての認識結果とする総合類似度算出手段とを備え、口形音節マッチング手段が、口形動作情報から検出した特定の音節の個数と、単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、口形動作情報から検出した特定の音節の位置と、単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、口形動作情報から検出した特定の音節に前後する口形状態と、単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部の3つ全て又は一部を有し、これらの比較結果より口形動作情報と上記単語辞書の単語とのマッチング程度を求めることにより、処理に要する負荷を低減することができる。また、尤度の計算の際に認識結果を一つに絞り込むのではなく、複数の候補への絞り込みにとどめ、再び、口形動作情報に基づく類似度を含めた総合的な類似度で最終的な認識結果を絞り込むので、精度をさらに高めることができる。
【図面の簡単な説明】
【図1】第1の実施形態の全体構成を表すブロック図である。
【図2】音声認識部の構成を示すブロック図である。
【図3】音声認識装置の利用形態を示すブロック図である。
【図4】口形認識部の構成を示すブロック図である。
【図5】第1の実施形態による音声認識手順を示すフローチャートである。
【図6】P104の詳細な処理内容を示すフローチャートである。
【図7】P104Bの詳細な処理内容を示すフローチャートである。
【図8】P107の詳細な処理内容を示すフローチャートである。
【図9】P108の詳細な処理内容を示すフローチャートである。
【図10】P108Aの詳細な処理内容を示すフローチャートである。
【図11】P108Fの詳細な処理内容を示すフローチャートである。
【図12】マッチング度の算出の際使用する非線形関数を示す説明図である。
【図13】第2の実施形態の全体構成を表すブロック図である。
【図14】第2の実施形態による音声認識手順を示すフローチャートである。
【図15】第3の実施形態の全体構成を表すブロック図である。
【図16】第3の実施形態による音声認識手順を示すフローチャートである。
【図17】第4の実施形態の全体構成を表すブロック図である。
【図18】第4の実施形態による音声認識手順を示すフローチャートである。
【図19】P108’の詳細な処理内容を示すフローチャートである。
【図20】P108A’の詳細な処理内容を示すフローチャートである。
【図21】両唇音の直前の母音位置検出手順を示すフローチャートである。
【図22】両唇音の終端位置検出手順を示すフローチャートである。
【図23】両唇音の直後の母音位置検出手順を示すフローチャートである。
【図24】P108F’の詳細な処理内容を示すフローチャートである。
【図25】第5の実施形態の全体構成を表すブロック図である。
【図26】第6の実施形態の全体構成を表すブロック図である。
【図27】第7の実施形態におけるP108の詳細な処理内容を示すフローチャートである。
【図28】P108Qの詳細な処理内容を示すフローチャートである。
【図29】両唇音の直後の口形大小マッチング表の説明図である。
【符号の説明】
1……ビデオカメラ、2……マイクロフォン、100、200、300、400、500、600、700……音声認識装置、101……画像フレームバッファ、102……口形認識部、102A……口形特徴抽出部、102B……口形特徴記憶部、102C……口形動作抽出部、103……口形音節マッチング部、104……単語辞書、105……単語候補絞り込部、106……音声フレーム分割部、107……有音検出部、108……音声認識部、108A……音素特徴量抽出部、108B……音素特徴記憶部、108C……尤度算出部、202……音声認識部、203……総合マッチングスコア算出部。

Claims (6)

  1. 登録する単語の音節情報及び音素モデルを有する単語辞書と、
    話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、
    上記口形動作情報に含まれる特定の音節と上記単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、
    上記口形音節マッチング手段から得た類似度に基づいて、上記単語辞書に登録されている単語の絞り込みを行う単語候補絞り込手段と、
    入力音声と上記単語候補絞り込手段で絞り込まれた候補単語の音素モデルとの尤度を求め、上記入力音声について最も高い尤度が得られた候補単語を、上記入力音声についての認識結果とする音声認識手段
    を備え
    上記口形音節マッチング手段が、
    上記口形動作情報から検出した特定の音節の個数と、上記単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、
    上記口形動作情報から検出した特定の音節の位置と、上記単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、
    上記口形動作情報から検出した特定の音節に前後する口形状態と、上記単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部
    の3つ全て又は一部を有し、これらの比較結果より上記口形動作情報と上記単語辞書の単語とのマッチング程度を求める
    ことを特徴とする音声認識装置。
  2. 登録する単語の音節情報及び音素モデルを有する単語辞書と、
    入力音声と上記単語辞書に登録されている単語の音素モデルとの尤度を求め、高い尤度が得られた複数又は全ての単語を、候補単語としてその尤度と共に出力する音声認識手段と、
    話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、
    上記口形動作情報に含まれる特定の音節と、上記音声認識手段により選出された上記単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、
    上記音声認識手段で選ばれた候補単語について、上記音声認識手段から得られた尤度と上記口形音節マッチング手段から得た類似度から総合的な類似度を調べ、最も高い総合類似度を持つ候補単語を、入力音声についての認識結果とする総合類似度算出部と
    を備え
    上記口形音節マッチング手段が、
    上記口形動作情報から検出した特定の音節の個数と、上記単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、
    上記口形動作情報から検出した特定の音節の位置と、上記単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、
    上記口形動作情報から検出した特定の音節に前後する口形状態と、上記単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部
    の3つ全て又は一部を有し、これらの比較結果より上記口形動作情報と上記単語辞書の単語とのマッチング程度を求める
    ことを特徴とする音声認識装置。
  3. 登録する単語の音節情報及び音素モデルを有する単語辞書と、
    話者の口許を撮像した撮像画像から発話区間中の口の動きや口の開き具合を検出し、これらを収めた口形動作情報を出力する口形認識手段と、
    上記口形動作情報に含まれる特定の音節と上記単語辞書の単語の音節情報との類似度をマッチングする口形音節マッチング手段と、
    口形音節マッチング手段から得た類似度から上記単語辞書に登録されている単語を絞り込む単語候補絞り込手段と、
    入力音声と上記単語候補絞り込手段で絞り込まれた候補単語音素モデルの尤度を求め、高い尤度が得られた複数又は全ての候補単語を、その尤度と共に出力する音声認識手段と、
    上記音声認識手段で選ばれた候補単語について、上記音声認識手段から得られた尤度と上記口形音節マッチング手段から得た類似度から総合的な類似度を調べ、最も高い総合類似度を持つ候補単語を、入力音声についての認識結果とする総合類似度算出手段
    を備え
    上記口形音節マッチング手段が、
    上記口形動作情報から検出した特定の音節の個数と、上記単語辞書の単語内の特定の音節の個数とを比較する音節個数比較部、
    上記口形動作情報から検出した特定の音節の位置と、上記単語辞書の単語内の特定の音節の位置とを比較する音節位置比較部、
    上記口形動作情報から検出した特定の音節に前後する口形状態と、上記単語辞書の単語内の特定の音節に前後する口形状態とを比較する音節前後比較部
    の3つ全て又は一部を有し、これらの比較結果より上記口形動作情報と上記単語辞書の単語とのマッチング程度を求める
    ことを特徴とする音声認識装置。
  4. 上記音節位置比較は、それぞれの特定音節の始端と終端の位置について比較する
    ことを特徴とする請求項1〜3のいずれかに記載の音声認識装置。
  5. 上記音節前後比較は、それぞれの特定音節の前及び後の口形状態の大きさについて各々類似度を求める
    ことを特徴とする請求項1〜3のいずれかに記載の音声認識装置。
  6. 上記音節前後比較は、それぞれの特定音節の前及び後口形状態のどちらが大きいかの大小関係について各々比較する
    ことを特徴とする請求項1〜3のいずれかに記載の音声認識装置。
JP14255196A 1996-06-05 1996-06-05 音声認識装置 Expired - Fee Related JP3710205B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP14255196A JP3710205B2 (ja) 1996-06-05 1996-06-05 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP14255196A JP3710205B2 (ja) 1996-06-05 1996-06-05 音声認識装置

Publications (2)

Publication Number Publication Date
JPH09325793A JPH09325793A (ja) 1997-12-16
JP3710205B2 true JP3710205B2 (ja) 2005-10-26

Family

ID=15317986

Family Applications (1)

Application Number Title Priority Date Filing Date
JP14255196A Expired - Fee Related JP3710205B2 (ja) 1996-06-05 1996-06-05 音声認識装置

Country Status (1)

Country Link
JP (1) JP3710205B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11386900B2 (en) * 2018-05-18 2022-07-12 Deepmind Technologies Limited Visual speech recognition by phoneme prediction

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272293A (ja) * 1998-03-24 1999-10-08 Sanyo Electric Co Ltd 遠隔制御装置
JP3893763B2 (ja) 1998-08-17 2007-03-14 富士ゼロックス株式会社 音声検出装置
JP4286860B2 (ja) 2004-05-21 2009-07-01 旭化成株式会社 動作内容判定装置
JP4553667B2 (ja) * 2004-09-10 2010-09-29 日本信号株式会社 発話識別方法及びこれを用いたパスワード照合装置
WO2007114346A1 (ja) * 2006-03-30 2007-10-11 Honda Moter Co., Ltd. 音声認識装置
US8532989B2 (en) * 2009-09-03 2013-09-10 Honda Motor Co., Ltd. Command recognition device, command recognition method, and command recognition robot
JP2012118679A (ja) * 2010-11-30 2012-06-21 Nec Commun Syst Ltd 情報処理装置、単語判別装置、画面表示操作装置、単語登録装置およびこれらに関する方法ならびにプログラム
JP5902632B2 (ja) * 2013-01-07 2016-04-13 日立マクセル株式会社 携帯端末装置及び情報処理システム
JP6730636B2 (ja) * 2018-01-15 2020-07-29 富士通クライアントコンピューティング株式会社 情報処理装置,制御プログラムおよび制御方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11386900B2 (en) * 2018-05-18 2022-07-12 Deepmind Technologies Limited Visual speech recognition by phoneme prediction

Also Published As

Publication number Publication date
JPH09325793A (ja) 1997-12-16

Similar Documents

Publication Publication Date Title
US5404422A (en) Speech recognition system with neural network
US5621857A (en) Method and system for identifying and recognizing speech
US6633844B1 (en) Late integration in audio-visual continuous speech recognition
US5806036A (en) Speechreading using facial feature parameters from a non-direct frontal view of the speaker
Palaskar et al. End-to-end multimodal speech recognition
US6801892B2 (en) Method and system for the reduction of processing time in a speech recognition system using the hidden markov model
JPS62239231A (ja) 口唇画像入力による音声認識方法
JP3710205B2 (ja) 音声認識装置
CN114530141A (zh) 一种特定场景下的中英文混合的离线语音关键词识别方法及其系统实现
JPH04369696A (ja) 音声認識方法
Wöllmer et al. A novel bottleneck-BLSTM front-end for feature-level context modeling in conversational speech recognition
JPH09198082A (ja) 音声認識装置
JP3039399B2 (ja) 非母国語音声認識装置
JP3265864B2 (ja) 音声認識装置
JPH07230294A (ja) 言語識別装置
Brahme et al. Marathi digit recognition using lip geometric shape features and dynamic time warping
JP5476760B2 (ja) コマンド認識装置
Chaloupka et al. Optical character recognition for audio-visual broadcast transcription system
Matsui et al. Speech enhancement system using lip-reading
JP2968792B1 (ja) 統計的言語モデル生成装置及び音声認識装置
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP3240691B2 (ja) 音声認識方法
Dupont et al. Context independent and context dependent hybrid HMM/ANN systems for vocabulary independent tasks.
Rijal et al. DCT-based Visual Feature Extraction for Indonesian Audiovisual Speech Recognition
БАРКОВСЬКА et al. NEURAL NETWORK ARCHITECTURE FOR TEXT DECODING BASED ON SPEAKER'S LIP MOVEMENTS

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20041126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20041207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050809

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090819

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090819

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100819

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100819

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110819

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110819

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120819

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees