JP4725884B2 - 口画像に対する任意変形に関するパラメータを推定する方法 - Google Patents

口画像に対する任意変形に関するパラメータを推定する方法 Download PDF

Info

Publication number
JP4725884B2
JP4725884B2 JP2005091690A JP2005091690A JP4725884B2 JP 4725884 B2 JP4725884 B2 JP 4725884B2 JP 2005091690 A JP2005091690 A JP 2005091690A JP 2005091690 A JP2005091690 A JP 2005091690A JP 4725884 B2 JP4725884 B2 JP 4725884B2
Authority
JP
Japan
Prior art keywords
image
mouth
user
estimating
rotation amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2005091690A
Other languages
English (en)
Other versions
JP2006277022A5 (ja
JP2006277022A (ja
Inventor
サブリ・グルブズ
慎二郎 川戸
敬介 木下
澄男 矢野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005091690A priority Critical patent/JP4725884B2/ja
Publication of JP2006277022A publication Critical patent/JP2006277022A/ja
Publication of JP2006277022A5 publication Critical patent/JP2006277022A5/ja
Application granted granted Critical
Publication of JP4725884B2 publication Critical patent/JP4725884B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Description

この発明は、自然な発声条件下で一貫した視覚的な音声特徴量の抽出を行なうことに関する。より正確には、この発明は頭部の画像の平行移動、回転およびスケールの微妙な違い(similarity)をすぐさま修正することによって、話者が自身の頭を自由に動かしても差し支えないようにする、視覚的音声特徴量の抽出に関する。
視覚的音声処理は、マン−マシンインターフェイスの研究において重要な課題の1つである。例えば、聴覚的情報に視覚的情報を加えることは少なくとも2つの実用的な基準に合致する。すなわち、これは音声認識における人の視覚的知覚を模倣し、さらに、これは音響信号に常に存在するとは限らない情報を含み得るからである[非特許文献2、8、15を参照]。
この統合手法は主に、非特許文献9及び非特許文献13に示される初期段階での統合と最終段階での統合とに分類され、視覚的音声特徴量抽出アルゴリズムは主に、モデル(輪郭、スネーク等)を用いる方法と、外観(画素)を用いる方法とに分類される。詳細は非特許文献11、12、及び16を参照されたい。
モデルを用いるアプローチでも外観を用いるアプローチでも、自然な発声条件下にあっては、一貫した視覚的音声特徴量を抽出することは、制御された条件下におけるよりも困難である。報告されたさまざまな視覚的特徴量抽出方法及び2つの統合手法では、実験作業は制御された環境で行なわれるものとされ(例えば非特許文献9、12及び16を参照)、話者には頭部を自然に動かしながら話すことが許されない。
これに対して、自然な条件下では、話者は自然に動く。従って、口の画像の微妙な違いを修正することは、視覚的音声処理のために一貫した視覚的特徴量を抽出するには決定的に重要な課題である。
S.グルブズ、K.キノシタ及びS.ヤノ、「トレーニング可能な多変量ガウス分類器を用いたビデオシーケンスからの口トラッキング」、PRMU2003、仙台、日本、2003年12月(S. Gurbuz, K. Kinoshita and S. Yano. Mouth Tracking from Video Sequences using Trainable Multivariate Gaussian Classifiers. PRMU 2003, Sendai, Japan, December 2003.) A.アジャウダーニ及びC.ベノイト.「hmmベースのasrにおける聴覚及び視覚パラメータの統合について」、人と機械による音声読取:モデル、システム及び応用、NATO ASIシリーズ、シリーズF、コンピュータ及びシステムサイエンス、150号、461−471ページ、1996年(A. Adjoudani and C. Benoit. On the integration of auditory and visual parameters in an hmm-based asr. In Speechreading by Humans and Machines: models, systems, and applications, NATO ASI Series. Series F, Computer and Systems Sciences, number 150, pages 461-471, 1996.) C.ブレグラー、H.ヒルド、S.マンケ、及びA.ワイベル、「唇の読取による、連続文字認識の改良」、音響音声及び信号処理国際会議予稿集、1993年(C. Bregler, H. Hild, S. Manke, and A. Waibel. Improving connected letter recognition by lipreading. In Proceedings of International Conference on Acoustics Speech and Signal Processing, 1993.) G.イェンガー、G.ポタミアノス、C.ネティ、T.ファリク、及びA.ヴァーマ、「自動音声読取のための頑健な視覚的roi検出」、IEEEマルチメディア信号処理第4回ワークショップ、79−84ページ、2001年(G. Iyengar, G. Potamianos, C. Neti, T. Faruquie, and A. Verma. Robust detection of visual roi for automatic speechreading. In IEEE Fourth Workshop on Multimedia Signal Processing, pages 79-84, 2001.) A.J.ジェイン、「ディジタル画像処理の基礎」、プレンティスホール、1997年(A. K. Jain. Fundamentals of Digital Image Processing. Prentice-Hall, 1997.) M.カス、A.ウィトキン及びD.ターゾプーロス、「スネークス:活性輪郭モデル」、コンピュータヴィジョンに関する第1回国際会議予稿集、259−268ページ、1987年(M. Kass, A. Witkin, and D. Terzopoulos. Snakes: Active contour models. In Proceedings of 1st International Conference on Computer Vision, pages 259-268, 1987.) S.カワト、N.テツタニ、「SSRフィルタ及びサポートベクトルマシンを用いたリアルタイムのスケール適応顔検出及びトラッキング」、コンピュータヴィジョンに関するアジア会議、2004年(S. Kawato, N. Tetsutani. Scale adaptive face detection and tracking in real time with SSR filter and support vector machine. In Asian Conference on Computer Vision, 2004.) H.マクガーク及びJ.マクドナルド、「唇を聴き声を見る」、ネイチャー、264:746−748、1976年(H. McGurk and J. MacDonald. Hearing lips and seeing voices. Nature, 264:746-748, 1976.) S.ナカムラ、「聴覚的-視覚的音声処理のための統計的マルチモーダル統合」、IEEE神経回路網トランザクション、13(4)、2002年(S. Nakamura. Statistical multimodal integration for audio-visual speech processing. IEEE Transactions on Neural Networks, 13(4), 2002.) E.パターソン、S.グルブズ、Z.チュフェキ、及びJ.ガウディ、「移動する話し手、話者独立の特徴量研究とCuaveマルチモーダル音声コーパスを用いたベースライン結果」、EURASIP応用信号処理ジャーナル、2002(11)、2002年(E. Patterson, S. Gurbuz, Z. Tufekci, and J. Gowdy. Moving-talker, speaker-independent feature study and baseline results using the cuave multimodal speech corpus. EURASIP Journal on Applied Signal Processing, 2002(11), 2002.) E.パタジャン、B.ビショフ、D.ボドフ及びN.ブルック、「音声認識を向上するための改良された自動唇読取システム」、コンピュータシステムにおけるヒューマンファクタに関する会議、19−25ページ、1988年(E. Petajan, B. Bischoff, D. Bodoff, and N. Brooke. An improved automatic lipreading system to enhance speech recognition. In Conference on Human Factors in Computing Systems, pages 19-25, 1988.) G.ポタミアノス、J.ルティン、及びC.ネティ、「聴覚的−視覚的lvcsrのための階層的判別特徴量」、音響音声及び信号処理国際会議予稿集、2001年。(G. Potamianos, J. Luettin, and C. Neti. Hierarchical discriminant features for audio-visual lvcsr. In Proceedings of International Conference on Acoustics Speech and Signal Processing, 2001.) D.ロイ、「相互情報を用いた音声と視覚の統合」、音響音声及び信号処理国際会議予稿集、2000年(D. Roy. Integration of speech and vision using mutual information. In Proceedings of International Conference on Acoustics Speech and Signal Processing, 2000) A.W.シニア、「顔認識システムのための顔と特徴量の検出」、聴覚及び視覚ベースのバイオメトリック人物認証(AVBPA)予稿集、154−159ページ、1999年(A. W. Senior. Face and feature finding for face recognition system. In Proceedings of Audio-and Video-Based Biometric Person Authentication (AVBPA), pages 154-159, 1999.) E.バティキオティス−ベイツィン、K.G.ムンハル、M.ヒラヤマ、Y.V.リー、及びD.ターゾポーラス、「音声におけるオーディオビジュアルな挙動の力学」、人と機械による音声読取:データ、モデル及びシステム、D.G.ストーク及びM.E.ヘンケ編、NATOスプリンガーフェアラーク、ニューヨーク、NY(1996)、150巻、1996年(E. Vatikiotis-Bateson, K. G. Munhall, M. Hirayama, Y. V. Lee, and D. Terzopoulos. The dynamics of audiovisual behavior in speech. In Speechreading by Man and Machine: Data, Models and Systems, D. G. Stork and M. E. Hennecke Eds. NATOSpringer-Verlag, New York, NY (1996), volume 150, 1996.) X.ツァン、R.M.マーセロー、M.クレメンツ、及びC.C.ブラウン、「改良された音声認識のための視覚的音声特徴量の抽出」、音響音声及び信号処理国際会議、2002年(X. Zhang, R. M. Mersereau, M. Clements, and C. C. Brown. Visual speech feature extraction for improved speech recognition. In International Conference on Acoustics Speech and Signal Processing, 2002.)
発明者らが知る限りでは、視覚的音声処理のために口画像の微妙な違いを修正することに関する研究はこれまでなされていない。
この発明は、一貫した視覚的な音声特徴量の抽出を容易にすることにより、聴覚と視覚とを統合して自然な音声のための音声認識装置の性能を改良するためになされた。この目的のためには、口画像への平行移動の影響、スケーリングの影響及び回転の影響をなくして、視覚的音声処理用に一貫した視覚的特徴を抽出可能な技術が必要である。
従って、この発明の目的の1つは、自然な条件下で話している話者の口画像に対する微妙な違いの影響を、すぐさまなくすためのコンピュータプログラムを提供することである。
この発明の別の目的は、口の境界を検出し、口画像領域の歪のパラメータを推定して逆の歪を適用することにより、自然な条件下で話している話者の口画像に対する微妙な違いの影響を、すぐさまなくすためのコンピュータプログラムを提供することである。
この発明の第一の局面は、ユーザのビデオ画像に視覚的音声前処理を行なうシステムにおいて、ユーザの口画像に対する任意変形に関するパラメータを推定する方法に関する。この方法は、ビデオ画像の各々に対し、ユーザの画像中の目印となる位置2箇所を決定するステップと、ビデオ画像中のユーザの口の輪郭を決定するステップと、目印の位置と口の輪郭の位置とをあわせて利用することにより、任意変形と逆の変形がビデオ画像に対し適用可能となるように、ユーザの口画像に関する変形パラメータを推定するステップとを含む。
好ましくは、推定するステップは、画像中の目印の位置を利用して、ユーザの画像の回転量を推定するステップを含む。
より好ましくは、推定するステップは、ユーザの口画像の、主成分分析に基づく回転量の推定を利用して、ユーザの画像の回転量を推定するステップと、目印の位置を利用して推定した画像の回転量と、主成分分析を利用して推定された画像の回転量とを組み合わせることにより、ユーザの画像の回転角を推定するステップとを含む。
さらに好ましくは、推定するステップが、ユーザの口画像の、主成分分析に基づく回転量の推定を利用して、ユーザの画像の回転量を推定するステップを含む。
主成分分析に基づく回転量の推定を利用してユーザ画像の回転量を推定するステップは、画像中の口唇の外側輪郭を決定するステップと、唇の外側輪郭のサンプル点の平均と共分散行列とを計算するステップと、共分散行列の第一の固有ベクトルeを求めるステップと、角度α=atan(e/e)を計算するステップとを含んでもよく、ここでeおよびeは第一の固有ベクトルのx軸成分およびy軸成分である。
好ましくは、推定するステップが、画像中の目印間の距離を、画像中の目印の位置と推定された変形とを利用して計算するステップと、口区域を含みさらに目印間の計算された距離と同じ幅となるような距離で選択された幅を有する、口領域を選択するステップと、所定の定数の、計算された目印間の距離に対する比率によって、口画像のスケーリング係数を推定するステップと、をさらに含む。
より好ましくは、方法は、口画像のスケーリング係数によって、選択された口領域をスケーリングするステップをさらに含む。
さらに好ましくは、目印となる位置2箇所を決定するステップは、ユーザの画像中の瞳の位置を決定するステップを含む。
この方法はさらに、口領域を所定の場所にシフトすることにより、口に対する平行移動の影響を除去するステップを含んでもよい。
この発明の第2の局面に従えば、視覚的前処理に用いるプログラム製品は、プロセッサを用いたシステムに、上述の方法のいずれかに記載のステップのすべてを行なわせる命令を記憶したコンピュータ読取可能媒体を含む。
<第一の実施例>
視覚的前処理を行なう動機は、視覚的音声処理のための一貫した視覚的特徴量の抽出を容易にすることである。すなわち、この前処理によって、話者の頭の回転、平行移動及びカメラスケールのパラメータを口画像から除去する。図1はこの発明の視覚的前処理アルゴリズムの概要を示すブロック図である。
[一般的構造]
図1を参照して、この実施例の口画像修正装置30は、画像フレーム32の各々から口画像を抽出し、話者の頭部の回転、平行移動、及びカメラスケールパラメータによって引起こされる歪のパラメータを推定し、微妙な違いを修正した口画像34を出力する。
口画像修正装置30は、画像フレーム32中の口画像をトラッキングする口トラッキングモジュール40と、画像フレーム32の各々において、話者の口エッジを検出する口輪郭線検出モジュール42と、検出された口画像へのPCA(Principal Component Analysis:主成分分析)に基づき、口画像の回転量を推定するPCAによる回転量推定モジュール44と、各画像フレーム32において目の画像をトラッキングし、各画像フレーム32について話者の瞳画像の座標を出力する両眼トラッキングモジュール46と、両眼トラッキングモジュール46から与えられる両眼の位置に基づいて、顔の回転量を推定する両眼位置による回転量推定モジュール47と、モジュール44及び47で推定された回転量を組合わせるための回転量推定組合せモジュール48とを含む。
口画像修正装置30はさらに、瞳間の距離を修正して回転による歪を除去するための両眼距離修正モジュール49と、回転量推定組合せモジュール48によって推定された回転量に基づき、話者の頭部の回転によって引起される口画像の歪を修正するための、口領域回転量修正モジュール50と、口画像を含む顔画像の予め定められた領域を選択するための口ROI(Region of Interest:関心領域)選択モジュール52と、口画像を予め定められた基準サイズ(N×M画素)に正規化するためのスケール修正モジュール54と、正規化された口画像のサイズ(N及びM)を記憶するためのメモリ56と、ROI中の口画像の平行移動の影響をなくし、微妙な違いを修正した口画像34を出力するための平行移動修正モジュール58とを含む。
[A.修正ステップ]
一般に、観察された口画像xと基準となる口画像x°との関係は、以下のように表せる。
x=sR(α)x°+t (1)
ここで、sはスケーリングパラメータであり、R(α)は2D回転行列(αは回転角)であり、tは平行移動ベクトルである。画像フレームは全て、任意のs、R(α)及びtの影響を除去するために以下のように前処理される。
1.モジュール44及び47で推定されたPCAの結果と標準座標系に対する目の角度とを組合わせることにより、モジュール48でR(α)の推定と修正とを行なう。
2.両眼の間の距離と上唇の輪郭とを基準として用いて、モジュール50及び52で口境界を選択する。
3.両眼の間の距離に基づいて、スケール修正モジュール54でスケールsを修正する。
4.固定された座標位置へ口の中心を移動することにより、平行移動修正モジュール58において平行移動の影響を除去する。
[B.口境界の選択]
口境界は、口トラッキングアルゴリズムと目のトラッキングアルゴリズムとを合わせて利用することによって選択される。この実施例で用いるアルゴリズムは、本件発明者らによって開発されたものであるが、ここでは入手可能などのようなアルゴリズムを用いてもよい。
口境界の選択は、特にスケール修正のため、この微妙な違いを修正する処理において重要な手順である。発声の間に口の形状はしばしば変形するので、セグメント化した唇の外輪郭又は口角にもとづいた口境界の選択は不正確なスケール修正につながる。このため、顔上で(少なくとも2点の)変形しない目印を測定基準として選択し、セグメント化された口領域が存在する口境界を選択する必要がある。
発明者らは、両眼が好ましい目印となることを見出し、モジュール47及び49でそれぞれ推定し修正した瞳間の距離を、口境界選択時の基準距離として利用した。すなわち、口境界の幅は、話者の瞳間の距離と距離方向に同じ幅となるように選択され、セグメント化された口がその中の水平方向中心に位置する。同様に、高さも同じ距離で設定されるが、口の上方境界は上唇の外輪郭の先端で始まる。なぜなら、上顎は目の位置に対し移動しないからである。こうして、L×Lの口画像が得られる。ここで、Lは時間tにおける、時間依存の瞳間の画素距離である。
この実施例のモジュール40で用いられる口トラッキングアルゴリズムはベイズのフレームワークに基づくものである(非特許文献1を参照)。ここでは予めラベリングする必要のないカラー画像を利用する。これは現在のフレーム中の口領域をセグメント化し、対象となる領域を選択することによって、次のフレームでの検索空間を限定する。両眼トラッキングモジュール46で用いられる目トラッキングアルゴリズムは両眼の中点を検出することに基づく。ここで用いられるアルゴリズムの詳細は非特許文献7に見られる。これらのアルゴリズムはともに、通常のパブリックドメインのオペレーティングシステムで1.9GHzで動作する最新のコンピュータ上でリアルタイムに動作する。
[C.微妙な違いのパラメータ除去]
一方で、口の外観の歪は一般に任意の3D回転によって引起される。他方で、人とコンピュータのインタフェイスの応用を考えれば、話者にはカメラに向き合うことが要求される。話者はカメラに向き合うが、頭部を自由に動かすことはできる。
カメラの光軸に平行な話者の頭部の動きは、画像のスケーリングを引起す。カメラの光軸に垂直な話者の頭部の動きは、平行移動を引起す(この場合投影的な歪は避ける)。光軸に対して回るような頭部の動きは、口画像の2D回転を引起す。一般に、頭部の動きは上述の動きのいずれか、またはその組合せである。もし話者がカメラの光軸から目をそらせば、それはその時点で話者がコンピュータと意思の疎通をはかる意図がない、という意味である。
自然な発声の場合、このような歪の大きさはカメラの光軸に対する話者の頭部の角度に依存する。このような動きは図2に見られるような遠近感(奥行き方向)の歪を生じさせる(3Dの頭部回転による)。この実施例で用いるアルゴリズムは、顔がこのように部分的にしか見えない場合、話者がコンピュータと意思の疎通をはかる意図がないものと考え、このような遠近感(奥行き方向)の歪を除くことはしない。
人とコンピュータのインタフェイスの応用設計では、セグメント化された口画像は全てのフレームについて、視覚的特徴量抽出処理に先立って、特に外観に基づく視覚的特徴量抽出処理に先立っては、前処理を行なって正準変形を施しておく必要がある。ユーザに求められるのは、発声の間、カメラの焦点にほぼ顔を向けていることなので、剪断変形の効果はなしと見ることができ、x方向及びy方向のスケーリングを同一とみなすことができる。こうして、セグメント化された口画像データに生じうる微妙な違いは、平行移動、スケーリングまたは回転のみか、これらを組合わせたものとなる。
上述の仮定に基づき、観察された口画像データxと基準口画像データx°との関係は次のように表される。
x=sR(α)x°+t (2)
ここでsはスケーリングパラメータであり、R(α)はαの2D回転行列であり、αは2D回転角であり、tは平行移動ベクトルである。
固定された座標位置に口画像の中心を移動することにより、セグメント化された口画像から平行移動ベクトルtを容易になくすことができる。以下のサブセクションでは、回転角αとスケーリングパラメータsとをそれぞれどのように推定し除去するかを説明する。
[D.唇の回転の問題]
口角または鼻や目等の他の顔の特徴のみを利用する場合、自然な発声の間にそのような顔の目印の位置を定めることに画素上の正確さが必要なため、回転を正確に修正するには問題がある[非特許文献4、7及び10を参照]。目印を使用する口回転修正では、トラッキングした瞳を用いることが合理的であって、PCAベースの回転量推定及び修正方法と組合わせて上述の問題を克服できることがわかっている。
D.1. PCAを用いた回転量修正
PCAは、多変量データを分析して主成分として知られる新たな直交軸の組を特定する方法である[画像処理におけるPCAの詳細については非特許文献5を参照]。これはPCAによる回転量推定モジュール44で行なわれる。第一の主成分は、データの最も主要な分散を示す軸であり、第二の主成分はデータの2番目に主要な分散を示す直交軸であり、以下同様である。
図3に示すように、有向エッジ検出フィルタを適用して、唇の外輪郭を抽出した。輪郭70上のi番目の点の座標をxとし、μとCとをそれぞれN個のサンプル点に対する平均と共分散とする。
Figure 0004725884
ここで、Tは転置を表す。ここでの課題は、新たな直交軸(u−及びv−軸)の組を見出し、標準座標系(x−及びy−軸)に対する回転角αを推定し、口画素座標データの回転をなくすことである。
図4(A)を参照して、x−軸80とu−軸82との間の回転角α84を推定するために、唇の外輪郭端の共分散行列Cの固有値{λ,λ}を求め、最大固有値に対応する固有ベクトルeを見出す。この処理は以下のとおりである。
det(C−λ)=0 (5)
次に、固有ベクトル(特性ベクトルともいう。)を次の式に従って求める。
Ce=λ, i=1,2 (6)
回転角αは以下のように計算される。
α=atan(e/e) (7)
ここでe及びeはeの2成分である。
次に、口領域回転量修正モジュール50において、口画像データxにR−1=R(−α)を乗ずることにより、回転修正された口画像が得られる。図4(B)は回転修正後の口画像を示す。
D.2. スケーリングの問題
スケーリングの問題は、話者のカメラからの距離、カメラのズーム係数、及び話者の実際の口の寸法から生じる。この場合、唇画像の周波数内容を利用するDCT(Discrete Cosine Transformation:離散的コサイン変換)またはウェーブレット変換法等の、画素に基づく視覚的特徴量抽出法は、上述の要因の1つまたは2つ以上によって引起されるスケールパラメータを除去することなく口画像を処理した場合、一貫性を欠く観察ベクトルを生じさせることになる。
図5に示すような回転した画像でスケーリングファクタを除去するためには、まず、セクションCで計算したR−1を用いてモジュール50で回転を修正する。次に、両眼距離L(100)を測定し、図5(B)に示すようにモジュール49で修正する。この画像をM/Lでスケーリングすることにより図5(C)に示すように瞳間の距離110はMとなる。ここでMは予め規定した正規化のための画素長である。N×Mサイズの正規化された口画像112がこのスケールの正規化された画像から切取られる。ここで、上方向の境界は上唇の輪郭(図5(C))である。これを、微妙な違いを修正した口画像34と呼ぶ。
[コンピュータによる実現]
この実施例に従う口画像修正装置30は、コンピュータハードウェアとその上で実行されるコンピュータプログラムで実現され得る。例えば、口トラッキングモジュール40は発明者らが開発したプログラムで実現できる。しかしながら、これは公に入手可能な目トラッキングプログラムでも実現可能である。同様に、モジュール42から58もコンピュータプログラムで実現可能である。
図6は上述の適当なコンピュータプログラムとともに、この実施例の口画像修正装置30を実現するコンピュータシステム330の斜視図である。図6を参照して、このコンピュータシステム330は、CD−ROM(コンパクトディスク読出専用メモリ)ドライブ350及びFD(フレキシブルディスク)ドライブ352を有するコンピュータ340と、いずれもコンピュータ340に接続されたキーボード346と、マウス348と、モニタ342とを含む。システム330はさらに、コンピュータ340に接続されて話者の頭部画像のフレームをキャプチャするビデオカメラ374を含む。システム330はさらに、図示しないマイクロフォンを含む。
図7はコンピュータ340のハードウェアブロック図である。図7を参照して、CD−ROMドライブ350及びFDドライブ352に加えて、コンピュータ340はCPU(中央処理装置)356と、CPU356に接続されたバス366と、バス366に接続された読出専用メモリ(ROM)358と、バス366に接続されたランダムアクセスメモリ(RAM)360と、バス366に接続されたハードディスクドライブ354と、バス366に接続され、ビデオカメラ374の出力の各フレームをキャプチャするためのビデオキャプチャボード368とを含む。
CD−ROMドライブ350は挿入されるCD−ROM362からデータを読出し、FDドライブ352はFD364からデータを読出し、ここにデータを書込む。
上述の口画像修正装置30を実現するプログラムはCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。プログラムがCPU356によって実行される時に、プログラムはハードディスクドライブ354から読出されてRAM360にロードされる。CPUは、RAM360のプログラムカウンタ(図示せず)という名前のレジスタによって指定されるアドレスから命令をフェッチし、命令中のオペランドによって指定されるRAM360またはハードディスクドライブ354等の記憶装置からデータをフェッチし、結果を命令オペランドによって指定されるアドレスに書込む。
コンピュータ340の動作は周知であるので、ここでは詳細は説明しない。
[動作]
口画像修正装置30は以下のように動作する。カラーの画像フレーム32の各々について、口トラッキングモジュール40が口領域をセグメント化し、ROIを選択して次のフレームの探索領域を制限する。口輪郭線検出モジュール42は図3に示すような口の輪郭70を検出する。PCAによる回転量推定モジュール44は口輪郭線検出モジュール42から出力される輪郭70で、PCAを利用した画像で予め規定されたx−及びy−軸を基準に、回転角を推定する。推定された角度が回転量推定組合せモジュール48に与えられる。
両眼トラッキングモジュール46は、各画像フレーム32の両眼の画像をトラッキングして、x−座標及びy−座標を基準とする話者の瞳画像の座標を、両眼位置による回転量推定モジュール47と両眼距離修正モジュール49とに出力する。
回転量推定組合せモジュール48はPCAによる回転量推定モジュール44からの角度と両眼位置による回転量推定モジュール47からの角度とを組合わせ、両眼距離修正モジュール49と口領域回転量修正モジュール50とに推定された角度αを出力する。
両眼距離修正モジュール49は話者の瞳間の距離Lを修正し、この距離Lを口ROI選択モジュール52とスケール修正モジュール54とに与える。
口領域回転量修正モジュール50はR−1(α)を利用し、回転量推定組合せモジュール48からのαを利用して、口領域周囲の話者の顔画像を修正する。口領域回転量修正モジュール50は修正された口領域の画像を口ROI選択モジュール52に出力する。
口ROI選択モジュール52は話者の瞳間の距離と同じ幅の距離となるように選択され、セグメント化された口が水平方向の中央に位置するようなROIを選択する。同様に、ROIの高さも同じ距離に設定される。ROIの上方境界は上唇の外輪郭の先端で始まる。従って、L×Lの口画像が得られる。ここで、Lは時間tにおける、時間に依存する瞳間の画素距離である。
スケール修正モジュール54はROIの画像をM/Lでスケーリングし、この結果、瞳間の距離は図5(C)に示すようにM110となる。ここでMは予め規定した正規化のための画素長である。N×Mサイズの正規化された口画像がこのスケールの正規化された画像からスケール修正モジュール54によって切取られる。
最後に、画像の口の中心を画像の幅方向中央の固定された座標点に移動することにより、平行移動の歪を除去する。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
この発明の一実施例に従った口画像修正装置30を示すブロック図である。 話者の頭部の回転により引起される口画像の奥行き方向の歪を示す図である。 口の輪郭70を示す図である。 口画像の回転角αのPCAによる推定を示す図である。 この発明の一実施例による口画像のスケール修正を示す図である。 この発明の第一の実施例を実現するコンピュータシステム330の斜視図である。 図6に示すコンピュータ340のブロック図である。
符号の説明
30 口画像修正装置
32 画像フレーム
34 微妙な違いを修正した口画像
40 口トラッキングモジュール
42 口輪郭線検出モジュール
44 PCAによる回転量推定モジュール
46 両眼トラッキングモジュール
48 回転量推定組合せモジュール
50 口領域回転量修正モジュール
52 口ROI選択モジュール
54 スケール修正モジュール
56 メモリ
58 平行移動修正モジュール

Claims (9)

  1. ユーザのビデオ画像に視覚的音声前処理を行なうシステムにおいて、ユーザの口画像に対する任意変形に関するパラメータを推定する方法であって、
    前記ビデオ画像の各々に対し、
    前記ユーザの前記画像中の目印となる位置2箇所を決定するステップと、
    前記ビデオ画像中のユーザの口の輪郭を決定するステップと、
    記口の輪郭の位置を利用することにより、前記任意変形と逆の変形が前記ビデオ画像に対し適用可能となるように、前記ユーザの口画像に関する変形パラメータを推定するパラメータ推定ステップとを含み、
    前記パラメータ推定ステップは、前記画像中の前記ユーザの前記口画像に対する主成分分析の結果を利用して、前記ユーザの前記画像の回転量を推定する第1の回転量推定ステップを含む、方法。
  2. 前記推定するステップは、さらに、
    前記ユーザの画像中の、前記目印を利用して、ユーザの画像の回転量を推定する第2の回転量推定ステップと、
    前記第1の回転量推定ステップで推定された回転量と、前記第2のステップで推定された回転量とを組合せることにより、前記ユーザの画像の回転角を推定するステップとを含む、請求項1に記載の方法。
  3. 前記第1の回転量推定ステップが、
    前記目印の位置を基準として前記ユーザの画像中の口画像の領域を推定する口領域推定ステップと、
    推定された前記画像中のエッジを検出することにより前記口唇の外側輪郭の座標位置を決定するステップと、
    前記唇の外側輪郭のサンプル点の平均と共分散行列とを計算するステップと、
    前記共分散行列の第一の固有ベクトルeを求めるステップと、
    角度α=atan(e/e)を計算するステップとを含み、
    ここでeおよびeは前記第一の固有ベクトルのx軸成分およびy軸成分であり、前記x軸及び前記y軸はそれぞれ、前記画像中の標準座標系を規定する、請求項1または請求項2に記載の方法。
  4. 前記口領域推定ステップが、
    前記画像中の前記目印間の距離を、前記画像中の前記目印の前記位置と、推定された変形とを利用して計算するステップと、
    前記目印を基準として定められる領域であって、さらに計算で求められた前記目印間の距離と同じ幅となるような距離で選択された幅を有する、口領域を選択するステップとを含む、請求項3に記載の方法。
  5. 前記口領域推定ステップがさらに、所定の定数前記計算で求められた前記目印間の距離との比率によって、前記口画像のスケーリング係数を推定するスケーリング係数推定ステップとを含む、請求項に記載の方法。
  6. 前記スケーリング係数推定ステップにおいて推定された前記口画像のスケーリング係数によって、前記選択された口領域をスケーリングするステップをさらに含む、請求項に記載の方法。
  7. 目印となる位置2箇所を決定する前記ステップは、前記ユーザの前記画像中の瞳の位置を決定するステップを含む、請求項1〜請求項のいずれかに記載の方法。
  8. 前記ユーザの画像中における、前記口領域に対する平行移動の影響を除去するために、前記口領域の画像の移動量を計算するステップをさらに含む、請求項1〜請求項のいずれかに記載の方法。
  9. 視覚的前処理に用いるプログラム製品であって、
    プロセッサを用いたシステムに、請求項1〜請求項のいずれかに記載のステップのすべてを行なわせる命令を記憶したコンピュータ読取可能媒体を含む、プログラム製品。
JP2005091690A 2005-03-28 2005-03-28 口画像に対する任意変形に関するパラメータを推定する方法 Active JP4725884B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005091690A JP4725884B2 (ja) 2005-03-28 2005-03-28 口画像に対する任意変形に関するパラメータを推定する方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005091690A JP4725884B2 (ja) 2005-03-28 2005-03-28 口画像に対する任意変形に関するパラメータを推定する方法

Publications (3)

Publication Number Publication Date
JP2006277022A JP2006277022A (ja) 2006-10-12
JP2006277022A5 JP2006277022A5 (ja) 2008-04-17
JP4725884B2 true JP4725884B2 (ja) 2011-07-13

Family

ID=37211762

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005091690A Active JP4725884B2 (ja) 2005-03-28 2005-03-28 口画像に対する任意変形に関するパラメータを推定する方法

Country Status (1)

Country Link
JP (1) JP4725884B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6433166B2 (ja) * 2013-06-13 2018-12-05 国立大学法人 鹿児島大学 認証処理装置及び認証処理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09171560A (ja) * 1995-12-20 1997-06-30 Oki Electric Ind Co Ltd 顔の傾き検出装置
JP2003281539A (ja) * 2002-03-25 2003-10-03 Oki Electric Ind Co Ltd 顔部品探索装置および顔部品探索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09171560A (ja) * 1995-12-20 1997-06-30 Oki Electric Ind Co Ltd 顔の傾き検出装置
JP2003281539A (ja) * 2002-03-25 2003-10-03 Oki Electric Ind Co Ltd 顔部品探索装置および顔部品探索方法

Also Published As

Publication number Publication date
JP2006277022A (ja) 2006-10-12

Similar Documents

Publication Publication Date Title
Matthews et al. Extraction of visual features for lipreading
Cetingul et al. Discriminative analysis of lip motion features for speaker identification and speech-reading
JP4739355B2 (ja) 統計的テンプレートマッチングによる高速な物体検出方法
US20150302240A1 (en) Method and device for locating feature points on human face and storage medium
JP2005327076A (ja) パラメタ推定方法、パラメタ推定装置および照合方法
JP2005339288A (ja) 画像処理装置及びその方法
Ibrahim et al. Geometrical-based lip-reading using template probabilistic multi-dimension dynamic time warping
Dalka et al. Visual lip contour detection for the purpose of speech recognition
JP2008015848A (ja) 物体領域探索方法,物体領域探索プログラムおよび物体領域探索装置
JP4092059B2 (ja) 画像認識装置
Paleček et al. Audio-visual speech recognition in noisy audio environments
JP2005208850A (ja) 顔画像認識装置及び顔画像認識プログラム
Saitoh et al. Analysis of efficient lip reading method for various languages
JP7370050B2 (ja) 読唇装置及び読唇方法
JP4725884B2 (ja) 口画像に対する任意変形に関するパラメータを推定する方法
Radha et al. A survey on visual speech recognition approaches
Jang Lip contour extraction based on active shape model and snakes
JP6916130B2 (ja) 話者推定方法および話者推定装置
CN100377164C (zh) 用于检测图像中的人脸肤色区域的方法、装置和存储介质
KR101621304B1 (ko) 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템
Shiraishi et al. Optical flow based lip reading using non rectangular ROI and head motion reduction
JP2019049829A (ja) 目的区間判別装置、モデル学習装置、及びプログラム
Mok et al. Lip features selection with application to person authentication
Sui et al. Discrimination comparison between audio and visual features
KR101430342B1 (ko) 발화자의 거리 추정을 이용한 음성인식방법 및 음성인식장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080228

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101006

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101012

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101209

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110401

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140422

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250