JP4725884B2

JP4725884B2 - 口画像に対する任意変形に関するパラメータを推定する方法

Info

Publication number: JP4725884B2
Application number: JP2005091690A
Authority: JP
Inventors: サブリ・グルブズ; 慎二郎川戸; 敬介木下; 澄男矢野
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-03-28
Filing date: 2005-03-28
Publication date: 2011-07-13
Anticipated expiration: 2025-03-28
Also published as: JP2006277022A

Description

この発明は、自然な発声条件下で一貫した視覚的な音声特徴量の抽出を行なうことに関する。より正確には、この発明は頭部の画像の平行移動、回転およびスケールの微妙な違い(similarity)をすぐさま修正することによって、話者が自身の頭を自由に動かしても差し支えないようにする、視覚的音声特徴量の抽出に関する。

視覚的音声処理は、マン−マシンインターフェイスの研究において重要な課題の１つである。例えば、聴覚的情報に視覚的情報を加えることは少なくとも２つの実用的な基準に合致する。すなわち、これは音声認識における人の視覚的知覚を模倣し、さらに、これは音響信号に常に存在するとは限らない情報を含み得るからである［非特許文献２、８、１５を参照］。

この統合手法は主に、非特許文献９及び非特許文献１３に示される初期段階での統合と最終段階での統合とに分類され、視覚的音声特徴量抽出アルゴリズムは主に、モデル（輪郭、スネーク等）を用いる方法と、外観（画素）を用いる方法とに分類される。詳細は非特許文献１１、１２、及び１６を参照されたい。

モデルを用いるアプローチでも外観を用いるアプローチでも、自然な発声条件下にあっては、一貫した視覚的音声特徴量を抽出することは、制御された条件下におけるよりも困難である。報告されたさまざまな視覚的特徴量抽出方法及び２つの統合手法では、実験作業は制御された環境で行なわれるものとされ（例えば非特許文献９、１２及び１６を参照）、話者には頭部を自然に動かしながら話すことが許されない。

これに対して、自然な条件下では、話者は自然に動く。従って、口の画像の微妙な違いを修正することは、視覚的音声処理のために一貫した視覚的特徴量を抽出するには決定的に重要な課題である。
Ｓ．グルブズ、Ｋ．キノシタ及びＳ．ヤノ、「トレーニング可能な多変量ガウス分類器を用いたビデオシーケンスからの口トラッキング」、ＰＲＭＵ２００３、仙台、日本、２００３年１２月（S. Gurbuz, K. Kinoshita and S. Yano. Mouth Tracking from Video Sequences using Trainable Multivariate Gaussian Classifiers. PRMU 2003, Sendai, Japan, December 2003.）Ａ．アジャウダーニ及びＣ．ベノイト．「ｈｍｍベースのａｓｒにおける聴覚及び視覚パラメータの統合について」、人と機械による音声読取：モデル、システム及び応用、ＮＡＴＯＡＳＩシリーズ、シリーズＦ、コンピュータ及びシステムサイエンス、１５０号、４６１−４７１ページ、１９９６年（A. Adjoudani and C. Benoit. On the integration of auditory and visual parameters in an hmm-based asr. In Speechreading by Humans and Machines: models, systems, and applications, NATO ASI Series. Series F, Computer and Systems Sciences, number 150, pages 461-471, 1996.）Ｃ．ブレグラー、Ｈ．ヒルド、Ｓ．マンケ、及びＡ．ワイベル、「唇の読取による、連続文字認識の改良」、音響音声及び信号処理国際会議予稿集、１９９３年（C. Bregler, H. Hild, S. Manke, and A. Waibel. Improving connected letter recognition by lipreading. In Proceedings of International Conference on Acoustics Speech and Signal Processing, 1993.）Ｇ．イェンガー、Ｇ．ポタミアノス、Ｃ．ネティ、Ｔ．ファリク、及びＡ．ヴァーマ、「自動音声読取のための頑健な視覚的ｒｏｉ検出」、ＩＥＥＥマルチメディア信号処理第４回ワークショップ、７９−８４ページ、２００１年（G. Iyengar, G. Potamianos, C. Neti, T. Faruquie, and A. Verma. Robust detection of visual roi for automatic speechreading. In IEEE Fourth Workshop on Multimedia Signal Processing, pages 79-84, 2001.）Ａ．Ｊ．ジェイン、「ディジタル画像処理の基礎」、プレンティスホール、１９９７年（A. K. Jain. Fundamentals of Digital Image Processing. Prentice-Hall, 1997.）Ｍ．カス、Ａ．ウィトキン及びＤ．ターゾプーロス、「スネークス：活性輪郭モデル」、コンピュータヴィジョンに関する第１回国際会議予稿集、２５９−２６８ページ、１９８７年（M. Kass, A. Witkin, and D. Terzopoulos. Snakes: Active contour models. In Proceedings of 1st International Conference on Computer Vision, pages 259-268, 1987.）Ｓ．カワト、Ｎ．テツタニ、「ＳＳＲフィルタ及びサポートベクトルマシンを用いたリアルタイムのスケール適応顔検出及びトラッキング」、コンピュータヴィジョンに関するアジア会議、２００４年（S. Kawato, N. Tetsutani. Scale adaptive face detection and tracking in real time with SSR filter and support vector machine. In Asian Conference on Computer Vision, 2004.）Ｈ．マクガーク及びＪ．マクドナルド、「唇を聴き声を見る」、ネイチャー、２６４：７４６−７４８、１９７６年（H. McGurk and J. MacDonald. Hearing lips and seeing voices. Nature, 264:746-748, 1976.）Ｓ．ナカムラ、「聴覚的-視覚的音声処理のための統計的マルチモーダル統合」、ＩＥＥＥ神経回路網トランザクション、１３（４）、２００２年（S. Nakamura. Statistical multimodal integration for audio-visual speech processing. IEEE Transactions on Neural Networks, 13(4), 2002.）Ｅ．パターソン、Ｓ．グルブズ、Ｚ．チュフェキ、及びＪ．ガウディ、「移動する話し手、話者独立の特徴量研究とＣｕａｖｅマルチモーダル音声コーパスを用いたベースライン結果」、ＥＵＲＡＳＩＰ応用信号処理ジャーナル、２００２（１１）、２００２年（E. Patterson, S. Gurbuz, Z. Tufekci, and J. Gowdy. Moving-talker, speaker-independent feature study and baseline results using the cuave multimodal speech corpus. EURASIP Journal on Applied Signal Processing, 2002(11), 2002.）Ｅ．パタジャン、Ｂ．ビショフ、Ｄ．ボドフ及びＮ．ブルック、「音声認識を向上するための改良された自動唇読取システム」、コンピュータシステムにおけるヒューマンファクタに関する会議、１９−２５ページ、１９８８年（E. Petajan, B. Bischoff, D. Bodoff, and N. Brooke. An improved automatic lipreading system to enhance speech recognition. In Conference on Human Factors in Computing Systems, pages 19-25, 1988.）Ｇ．ポタミアノス、Ｊ．ルティン、及びＣ．ネティ、「聴覚的−視覚的ｌｖｃｓｒのための階層的判別特徴量」、音響音声及び信号処理国際会議予稿集、２００１年。（G. Potamianos, J. Luettin, and C. Neti. Hierarchical discriminant features for audio-visual lvcsr. In Proceedings of International Conference on Acoustics Speech and Signal Processing, 2001.）Ｄ．ロイ、「相互情報を用いた音声と視覚の統合」、音響音声及び信号処理国際会議予稿集、２０００年（D. Roy. Integration of speech and vision using mutual information. In Proceedings of International Conference on Acoustics Speech and Signal Processing, 2000）Ａ．Ｗ．シニア、「顔認識システムのための顔と特徴量の検出」、聴覚及び視覚ベースのバイオメトリック人物認証（ＡＶＢＰＡ）予稿集、１５４−１５９ページ、１９９９年（A. W. Senior. Face and feature finding for face recognition system. In Proceedings of Audio-and Video-Based Biometric Person Authentication (AVBPA), pages 154-159, 1999.）Ｅ．バティキオティス−ベイツィン、Ｋ．Ｇ．ムンハル、Ｍ．ヒラヤマ、Ｙ.Ｖ．リー、及びＤ．ターゾポーラス、「音声におけるオーディオビジュアルな挙動の力学」、人と機械による音声読取：データ、モデル及びシステム、Ｄ．Ｇ．ストーク及びＭ．Ｅ．ヘンケ編、ＮＡＴＯスプリンガーフェアラーク、ニューヨーク、ＮＹ（１９９６）、１５０巻、１９９６年（E. Vatikiotis-Bateson, K. G. Munhall, M. Hirayama, Y. V. Lee, and D. Terzopoulos. The dynamics of audiovisual behavior in speech. In Speechreading by Man and Machine: Data, Models and Systems, D. G. Stork and M. E. Hennecke Eds. NATOSpringer-Verlag, New York, NY (1996), volume 150, 1996.）Ｘ．ツァン、Ｒ．Ｍ．マーセロー、Ｍ．クレメンツ、及びＣ．Ｃ．ブラウン、「改良された音声認識のための視覚的音声特徴量の抽出」、音響音声及び信号処理国際会議、２００２年（X. Zhang, R. M. Mersereau, M. Clements, and C. C. Brown. Visual speech feature extraction for improved speech recognition. In International Conference on Acoustics Speech and Signal Processing, 2002.）

発明者らが知る限りでは、視覚的音声処理のために口画像の微妙な違いを修正することに関する研究はこれまでなされていない。

この発明は、一貫した視覚的な音声特徴量の抽出を容易にすることにより、聴覚と視覚とを統合して自然な音声のための音声認識装置の性能を改良するためになされた。この目的のためには、口画像への平行移動の影響、スケーリングの影響及び回転の影響をなくして、視覚的音声処理用に一貫した視覚的特徴を抽出可能な技術が必要である。

従って、この発明の目的の１つは、自然な条件下で話している話者の口画像に対する微妙な違いの影響を、すぐさまなくすためのコンピュータプログラムを提供することである。

この発明の別の目的は、口の境界を検出し、口画像領域の歪のパラメータを推定して逆の歪を適用することにより、自然な条件下で話している話者の口画像に対する微妙な違いの影響を、すぐさまなくすためのコンピュータプログラムを提供することである。

この発明の第一の局面は、ユーザのビデオ画像に視覚的音声前処理を行なうシステムにおいて、ユーザの口画像に対する任意変形に関するパラメータを推定する方法に関する。この方法は、ビデオ画像の各々に対し、ユーザの画像中の目印となる位置２箇所を決定するステップと、ビデオ画像中のユーザの口の輪郭を決定するステップと、目印の位置と口の輪郭の位置とをあわせて利用することにより、任意変形と逆の変形がビデオ画像に対し適用可能となるように、ユーザの口画像に関する変形パラメータを推定するステップとを含む。

好ましくは、推定するステップは、画像中の目印の位置を利用して、ユーザの画像の回転量を推定するステップを含む。

より好ましくは、推定するステップは、ユーザの口画像の、主成分分析に基づく回転量の推定を利用して、ユーザの画像の回転量を推定するステップと、目印の位置を利用して推定した画像の回転量と、主成分分析を利用して推定された画像の回転量とを組み合わせることにより、ユーザの画像の回転角を推定するステップとを含む。

さらに好ましくは、推定するステップが、ユーザの口画像の、主成分分析に基づく回転量の推定を利用して、ユーザの画像の回転量を推定するステップを含む。

主成分分析に基づく回転量の推定を利用してユーザ画像の回転量を推定するステップは、画像中の口唇の外側輪郭を決定するステップと、唇の外側輪郭のサンプル点の平均と共分散行列とを計算するステップと、共分散行列の第一の固有ベクトルｅ_１を求めるステップと、角度α＝ａｔａｎ（ｅ_ｙ／ｅ_ｘ）を計算するステップとを含んでもよく、ここでｅ_ｘおよびｅ_ｙは第一の固有ベクトルのｘ軸成分およびｙ軸成分である。

好ましくは、推定するステップが、画像中の目印間の距離を、画像中の目印の位置と推定された変形とを利用して計算するステップと、口区域を含みさらに目印間の計算された距離と同じ幅となるような距離で選択された幅を有する、口領域を選択するステップと、所定の定数の、計算された目印間の距離に対する比率によって、口画像のスケーリング係数を推定するステップと、をさらに含む。

より好ましくは、方法は、口画像のスケーリング係数によって、選択された口領域をスケーリングするステップをさらに含む。

さらに好ましくは、目印となる位置２箇所を決定するステップは、ユーザの画像中の瞳の位置を決定するステップを含む。

この方法はさらに、口領域を所定の場所にシフトすることにより、口に対する平行移動の影響を除去するステップを含んでもよい。

この発明の第２の局面に従えば、視覚的前処理に用いるプログラム製品は、プロセッサを用いたシステムに、上述の方法のいずれかに記載のステップのすべてを行なわせる命令を記憶したコンピュータ読取可能媒体を含む。

＜第一の実施例＞
視覚的前処理を行なう動機は、視覚的音声処理のための一貫した視覚的特徴量の抽出を容易にすることである。すなわち、この前処理によって、話者の頭の回転、平行移動及びカメラスケールのパラメータを口画像から除去する。図１はこの発明の視覚的前処理アルゴリズムの概要を示すブロック図である。

［一般的構造］
図１を参照して、この実施例の口画像修正装置３０は、画像フレーム３２の各々から口画像を抽出し、話者の頭部の回転、平行移動、及びカメラスケールパラメータによって引起こされる歪のパラメータを推定し、微妙な違いを修正した口画像３４を出力する。

口画像修正装置３０は、画像フレーム３２中の口画像をトラッキングする口トラッキングモジュール４０と、画像フレーム３２の各々において、話者の口エッジを検出する口輪郭線検出モジュール４２と、検出された口画像へのＰＣＡ（ＰｒｉｎｃｉｐａｌＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ：主成分分析）に基づき、口画像の回転量を推定するＰＣＡによる回転量推定モジュール４４と、各画像フレーム３２において目の画像をトラッキングし、各画像フレーム３２について話者の瞳画像の座標を出力する両眼トラッキングモジュール４６と、両眼トラッキングモジュール４６から与えられる両眼の位置に基づいて、顔の回転量を推定する両眼位置による回転量推定モジュール４７と、モジュール４４及び４７で推定された回転量を組合わせるための回転量推定組合せモジュール４８とを含む。

口画像修正装置３０はさらに、瞳間の距離を修正して回転による歪を除去するための両眼距離修正モジュール４９と、回転量推定組合せモジュール４８によって推定された回転量に基づき、話者の頭部の回転によって引起される口画像の歪を修正するための、口領域回転量修正モジュール５０と、口画像を含む顔画像の予め定められた領域を選択するための口ＲＯＩ（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ：関心領域）選択モジュール５２と、口画像を予め定められた基準サイズ（Ｎ×Ｍ画素）に正規化するためのスケール修正モジュール５４と、正規化された口画像のサイズ（Ｎ及びＭ）を記憶するためのメモリ５６と、ＲＯＩ中の口画像の平行移動の影響をなくし、微妙な違いを修正した口画像３４を出力するための平行移動修正モジュール５８とを含む。

［Ａ．修正ステップ］
一般に、観察された口画像ｘと基準となる口画像ｘ°との関係は、以下のように表せる。

ｘ＝ｓＲ（α）ｘ°＋ｔ（１）
ここで、ｓはスケーリングパラメータであり、Ｒ（α）は２Ｄ回転行列（αは回転角）であり、ｔは平行移動ベクトルである。画像フレームは全て、任意のｓ、Ｒ（α）及びｔの影響を除去するために以下のように前処理される。

１．モジュール４４及び４７で推定されたＰＣＡの結果と標準座標系に対する目の角度とを組合わせることにより、モジュール４８でＲ（α）の推定と修正とを行なう。

２．両眼の間の距離と上唇の輪郭とを基準として用いて、モジュール５０及び５２で口境界を選択する。

３．両眼の間の距離に基づいて、スケール修正モジュール５４でスケールｓを修正する。

４．固定された座標位置へ口の中心を移動することにより、平行移動修正モジュール５８において平行移動の影響を除去する。

［Ｂ．口境界の選択］
口境界は、口トラッキングアルゴリズムと目のトラッキングアルゴリズムとを合わせて利用することによって選択される。この実施例で用いるアルゴリズムは、本件発明者らによって開発されたものであるが、ここでは入手可能などのようなアルゴリズムを用いてもよい。

口境界の選択は、特にスケール修正のため、この微妙な違いを修正する処理において重要な手順である。発声の間に口の形状はしばしば変形するので、セグメント化した唇の外輪郭又は口角にもとづいた口境界の選択は不正確なスケール修正につながる。このため、顔上で（少なくとも２点の）変形しない目印を測定基準として選択し、セグメント化された口領域が存在する口境界を選択する必要がある。

発明者らは、両眼が好ましい目印となることを見出し、モジュール４７及び４９でそれぞれ推定し修正した瞳間の距離を、口境界選択時の基準距離として利用した。すなわち、口境界の幅は、話者の瞳間の距離と距離方向に同じ幅となるように選択され、セグメント化された口がその中の水平方向中心に位置する。同様に、高さも同じ距離で設定されるが、口の上方境界は上唇の外輪郭の先端で始まる。なぜなら、上顎は目の位置に対し移動しないからである。こうして、Ｌ_ｔ×Ｌ_ｔの口画像が得られる。ここで、Ｌ_ｔは時間ｔにおける、時間依存の瞳間の画素距離である。

この実施例のモジュール４０で用いられる口トラッキングアルゴリズムはベイズのフレームワークに基づくものである（非特許文献１を参照）。ここでは予めラベリングする必要のないカラー画像を利用する。これは現在のフレーム中の口領域をセグメント化し、対象となる領域を選択することによって、次のフレームでの検索空間を限定する。両眼トラッキングモジュール４６で用いられる目トラッキングアルゴリズムは両眼の中点を検出することに基づく。ここで用いられるアルゴリズムの詳細は非特許文献７に見られる。これらのアルゴリズムはともに、通常のパブリックドメインのオペレーティングシステムで１．９ＧＨｚで動作する最新のコンピュータ上でリアルタイムに動作する。

［Ｃ．微妙な違いのパラメータ除去］
一方で、口の外観の歪は一般に任意の３Ｄ回転によって引起される。他方で、人とコンピュータのインタフェイスの応用を考えれば、話者にはカメラに向き合うことが要求される。話者はカメラに向き合うが、頭部を自由に動かすことはできる。

カメラの光軸に平行な話者の頭部の動きは、画像のスケーリングを引起す。カメラの光軸に垂直な話者の頭部の動きは、平行移動を引起す（この場合投影的な歪は避ける）。光軸に対して回るような頭部の動きは、口画像の２Ｄ回転を引起す。一般に、頭部の動きは上述の動きのいずれか、またはその組合せである。もし話者がカメラの光軸から目をそらせば、それはその時点で話者がコンピュータと意思の疎通をはかる意図がない、という意味である。

自然な発声の場合、このような歪の大きさはカメラの光軸に対する話者の頭部の角度に依存する。このような動きは図２に見られるような遠近感（奥行き方向）の歪を生じさせる（３Ｄの頭部回転による）。この実施例で用いるアルゴリズムは、顔がこのように部分的にしか見えない場合、話者がコンピュータと意思の疎通をはかる意図がないものと考え、このような遠近感（奥行き方向）の歪を除くことはしない。

人とコンピュータのインタフェイスの応用設計では、セグメント化された口画像は全てのフレームについて、視覚的特徴量抽出処理に先立って、特に外観に基づく視覚的特徴量抽出処理に先立っては、前処理を行なって正準変形を施しておく必要がある。ユーザに求められるのは、発声の間、カメラの焦点にほぼ顔を向けていることなので、剪断変形の効果はなしと見ることができ、ｘ方向及びｙ方向のスケーリングを同一とみなすことができる。こうして、セグメント化された口画像データに生じうる微妙な違いは、平行移動、スケーリングまたは回転のみか、これらを組合わせたものとなる。

上述の仮定に基づき、観察された口画像データｘと基準口画像データｘ°との関係は次のように表される。

ｘ＝ｓＲ（α）ｘ°＋ｔ（２）
ここでｓはスケーリングパラメータであり、Ｒ（α）はαの２Ｄ回転行列であり、αは２Ｄ回転角であり、ｔは平行移動ベクトルである。

固定された座標位置に口画像の中心を移動することにより、セグメント化された口画像から平行移動ベクトルｔを容易になくすことができる。以下のサブセクションでは、回転角αとスケーリングパラメータｓとをそれぞれどのように推定し除去するかを説明する。

［Ｄ．唇の回転の問題］
口角または鼻や目等の他の顔の特徴のみを利用する場合、自然な発声の間にそのような顔の目印の位置を定めることに画素上の正確さが必要なため、回転を正確に修正するには問題がある［非特許文献４、７及び１０を参照］。目印を使用する口回転修正では、トラッキングした瞳を用いることが合理的であって、ＰＣＡベースの回転量推定及び修正方法と組合わせて上述の問題を克服できることがわかっている。

Ｄ．１．ＰＣＡを用いた回転量修正
ＰＣＡは、多変量データを分析して主成分として知られる新たな直交軸の組を特定する方法である［画像処理におけるＰＣＡの詳細については非特許文献５を参照］。これはＰＣＡによる回転量推定モジュール４４で行なわれる。第一の主成分は、データの最も主要な分散を示す軸であり、第二の主成分はデータの２番目に主要な分散を示す直交軸であり、以下同様である。

図３に示すように、有向エッジ検出フィルタを適用して、唇の外輪郭を抽出した。輪郭７０上のｉ番目の点の座標をｘ_ｉとし、μとＣとをそれぞれＮ個のサンプル点に対する平均と共分散とする。

ここで、Ｔは転置を表す。ここでの課題は、新たな直交軸（ｕ−及びｖ−軸）の組を見出し、標準座標系（ｘ−及びｙ−軸）に対する回転角αを推定し、口画素座標データの回転をなくすことである。

図４（Ａ）を参照して、ｘ−軸８０とｕ−軸８２との間の回転角α８４を推定するために、唇の外輪郭端の共分散行列Ｃの固有値｛λ_１，λ_２｝を求め、最大固有値に対応する固有ベクトルｅ_１を見出す。この処理は以下のとおりである。

ｄｅｔ（Ｃ−λ_１)＝０（５）
次に、固有ベクトル（特性ベクトルともいう。）を次の式に従って求める。

Ｃｅ_ｉ＝λ_ｉｅ_ｉ，ｉ＝１，２（６）
回転角αは以下のように計算される。

α＝ａｔａｎ（ｅ_ｙ／ｅ_ｘ）（７）
ここでｅ_ｘ及びｅ_ｙはｅ_１の２成分である。

次に、口領域回転量修正モジュール５０において、口画像データｘにＲ^−１＝Ｒ（−α）を乗ずることにより、回転修正された口画像が得られる。図４（Ｂ）は回転修正後の口画像を示す。

Ｄ．２．スケーリングの問題
スケーリングの問題は、話者のカメラからの距離、カメラのズーム係数、及び話者の実際の口の寸法から生じる。この場合、唇画像の周波数内容を利用するＤＣＴ（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍａｔｉｏｎ：離散的コサイン変換）またはウェーブレット変換法等の、画素に基づく視覚的特徴量抽出法は、上述の要因の１つまたは２つ以上によって引起されるスケールパラメータを除去することなく口画像を処理した場合、一貫性を欠く観察ベクトルを生じさせることになる。

図５に示すような回転した画像でスケーリングファクタを除去するためには、まず、セクションＣで計算したＲ^−１を用いてモジュール５０で回転を修正する。次に、両眼距離Ｌ_ｔ（１００）を測定し、図５（Ｂ）に示すようにモジュール４９で修正する。この画像をＭ／Ｌ_ｔでスケーリングすることにより図５（Ｃ）に示すように瞳間の距離１１０はＭとなる。ここでＭは予め規定した正規化のための画素長である。Ｎ×Ｍサイズの正規化された口画像１１２がこのスケールの正規化された画像から切取られる。ここで、上方向の境界は上唇の輪郭(図５（Ｃ））である。これを、微妙な違いを修正した口画像３４と呼ぶ。

［コンピュータによる実現］
この実施例に従う口画像修正装置３０は、コンピュータハードウェアとその上で実行されるコンピュータプログラムで実現され得る。例えば、口トラッキングモジュール４０は発明者らが開発したプログラムで実現できる。しかしながら、これは公に入手可能な目トラッキングプログラムでも実現可能である。同様に、モジュール４２から５８もコンピュータプログラムで実現可能である。

図６は上述の適当なコンピュータプログラムとともに、この実施例の口画像修正装置３０を実現するコンピュータシステム３３０の斜視図である。図６を参照して、このコンピュータシステム３３０は、ＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ３５０及びＦＤ（フレキシブルディスク）ドライブ３５２を有するコンピュータ３４０と、いずれもコンピュータ３４０に接続されたキーボード３４６と、マウス３４８と、モニタ３４２とを含む。システム３３０はさらに、コンピュータ３４０に接続されて話者の頭部画像のフレームをキャプチャするビデオカメラ３７４を含む。システム３３０はさらに、図示しないマイクロフォンを含む。

図７はコンピュータ３４０のハードウェアブロック図である。図７を参照して、ＣＤ−ＲＯＭドライブ３５０及びＦＤドライブ３５２に加えて、コンピュータ３４０はＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６に接続されたバス３６６と、バス３６６に接続された読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続されたランダムアクセスメモリ（ＲＡＭ）３６０と、バス３６６に接続されたハードディスクドライブ３５４と、バス３６６に接続され、ビデオカメラ３７４の出力の各フレームをキャプチャするためのビデオキャプチャボード３６８とを含む。

ＣＤ−ＲＯＭドライブ３５０は挿入されるＣＤ−ＲＯＭ３６２からデータを読出し、ＦＤドライブ３５２はＦＤ３６４からデータを読出し、ここにデータを書込む。

上述の口画像修正装置３０を実現するプログラムはＣＤ−ＲＯＭ３６２またはＦＤ３６４に記憶され、さらにハードディスク３５４に転送される。プログラムがＣＰＵ３５６によって実行される時に、プログラムはハードディスクドライブ３５４から読出されてＲＡＭ３６０にロードされる。ＣＰＵは、ＲＡＭ３６０のプログラムカウンタ（図示せず）という名前のレジスタによって指定されるアドレスから命令をフェッチし、命令中のオペランドによって指定されるＲＡＭ３６０またはハードディスクドライブ３５４等の記憶装置からデータをフェッチし、結果を命令オペランドによって指定されるアドレスに書込む。

コンピュータ３４０の動作は周知であるので、ここでは詳細は説明しない。

［動作］
口画像修正装置３０は以下のように動作する。カラーの画像フレーム３２の各々について、口トラッキングモジュール４０が口領域をセグメント化し、ＲＯＩを選択して次のフレームの探索領域を制限する。口輪郭線検出モジュール４２は図３に示すような口の輪郭７０を検出する。ＰＣＡによる回転量推定モジュール４４は口輪郭線検出モジュール４２から出力される輪郭７０で、ＰＣＡを利用した画像で予め規定されたｘ−及びｙ−軸を基準に、回転角を推定する。推定された角度が回転量推定組合せモジュール４８に与えられる。

両眼トラッキングモジュール４６は、各画像フレーム３２の両眼の画像をトラッキングして、ｘ−座標及びｙ−座標を基準とする話者の瞳画像の座標を、両眼位置による回転量推定モジュール４７と両眼距離修正モジュール４９とに出力する。

回転量推定組合せモジュール４８はＰＣＡによる回転量推定モジュール４４からの角度と両眼位置による回転量推定モジュール４７からの角度とを組合わせ、両眼距離修正モジュール４９と口領域回転量修正モジュール５０とに推定された角度αを出力する。

両眼距離修正モジュール４９は話者の瞳間の距離Ｌ_ｔを修正し、この距離Ｌ_ｔを口ＲＯＩ選択モジュール５２とスケール修正モジュール５４とに与える。

口領域回転量修正モジュール５０はＲ^−１(α)を利用し、回転量推定組合せモジュール４８からのαを利用して、口領域周囲の話者の顔画像を修正する。口領域回転量修正モジュール５０は修正された口領域の画像を口ＲＯＩ選択モジュール５２に出力する。

口ＲＯＩ選択モジュール５２は話者の瞳間の距離と同じ幅の距離となるように選択され、セグメント化された口が水平方向の中央に位置するようなＲＯＩを選択する。同様に、ＲＯＩの高さも同じ距離に設定される。ＲＯＩの上方境界は上唇の外輪郭の先端で始まる。従って、Ｌ_ｔ×Ｌ_ｔの口画像が得られる。ここで、Ｌ_ｔは時間ｔにおける、時間に依存する瞳間の画素距離である。

スケール修正モジュール５４はＲＯＩの画像をＭ／Ｌ_ｔでスケーリングし、この結果、瞳間の距離は図５（Ｃ）に示すようにＭ１１０となる。ここでＭは予め規定した正規化のための画素長である。Ｎ×Ｍサイズの正規化された口画像がこのスケールの正規化された画像からスケール修正モジュール５４によって切取られる。

最後に、画像の口の中心を画像の幅方向中央の固定された座標点に移動することにより、平行移動の歪を除去する。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

この発明の一実施例に従った口画像修正装置３０を示すブロック図である。話者の頭部の回転により引起される口画像の奥行き方向の歪を示す図である。口の輪郭７０を示す図である。口画像の回転角αのＰＣＡによる推定を示す図である。この発明の一実施例による口画像のスケール修正を示す図である。この発明の第一の実施例を実現するコンピュータシステム３３０の斜視図である。図６に示すコンピュータ３４０のブロック図である。

符号の説明

３０口画像修正装置
３２画像フレーム
３４微妙な違いを修正した口画像
４０口トラッキングモジュール
４２口輪郭線検出モジュール
４４ＰＣＡによる回転量推定モジュール
４６両眼トラッキングモジュール
４８回転量推定組合せモジュール
５０口領域回転量修正モジュール
５２口ＲＯＩ選択モジュール
５４スケール修正モジュール
５６メモリ
５８平行移動修正モジュール

Claims

ユーザのビデオ画像に視覚的音声前処理を行なうシステムにおいて、ユーザの口画像に対する任意変形に関するパラメータを推定する方法であって、
前記ビデオ画像の各々に対し、
前記ユーザの前記画像中の目印となる位置２箇所を決定するステップと、
前記ビデオ画像中のユーザの口の輪郭を決定するステップと、
前記口の輪郭の位置を利用することにより、前記任意変形と逆の変形が前記ビデオ画像に対し適用可能となるように、前記ユーザの口画像に関する変形パラメータを推定するパラメータ推定ステップとを含み、
前記パラメータ推定ステップは、前記画像中の前記ユーザの前記口画像に対する主成分分析の結果を利用して、前記ユーザの前記画像の回転量を推定する第１の回転量推定ステップを含む、方法。
前記推定するステップは、さらに、
前記ユーザの画像中の、前記目印を利用して、ユーザの画像の回転量を推定する第２の回転量推定ステップと、
前記第１の回転量推定ステップで推定された回転量と、前記第２のステップで推定された回転量とを組合せることにより、前記ユーザの画像の回転角を推定するステップとを含む、請求項１に記載の方法。
前記第１の回転量推定ステップが、
前記目印の位置を基準として前記ユーザの画像中の口画像の領域を推定する口領域推定ステップと、
推定された前記口画像中のエッジを検出することにより前記口唇の外側輪郭の座標位置を決定するステップと、
前記唇の外側輪郭のサンプル点の平均と共分散行列とを計算するステップと、
前記共分散行列の第一の固有ベクトルｅ_１を求めるステップと、
角度α＝ａｔａｎ（ｅ_ｙ／ｅ_ｘ）を計算するステップとを含み、
ここでｅ_ｘおよびｅ_ｙは前記第一の固有ベクトルのｘ軸成分およびｙ軸成分であり、前記ｘ軸及び前記ｙ軸はそれぞれ、前記画像中の標準座標系を規定する、請求項１または請求項２に記載の方法。
前記口領域推定ステップが、
前記画像中の前記目印間の距離を、前記画像中の前記目印の前記位置と、推定された変形とを利用して計算するステップと、
前記目印を基準として定められる領域であって、さらに計算で求められた前記目印間の距離と同じ幅となるような距離で選択された幅を有する、口領域を選択するステップとを含む、請求項３に記載の方法。
前記口領域推定ステップがさらに、所定の定数と、前記計算で求められた前記目印間の距離との比率によって、前記口画像のスケーリング係数を推定するスケーリング係数推定ステップとを含む、請求項４に記載の方法。
前記スケーリング係数推定ステップにおいて推定された前記口画像のスケーリング係数によって、前記選択された口領域をスケーリングするステップをさらに含む、請求項５に記載の方法。
目印となる位置２箇所を決定する前記ステップは、前記ユーザの前記画像中の瞳の位置を決定するステップを含む、請求項１〜請求項６のいずれかに記載の方法。
前記ユーザの画像中における、前記口領域に対する平行移動の影響を除去するために、前記口領域の画像の移動量を計算するステップをさらに含む、請求項１〜請求項７のいずれかに記載の方法。
視覚的前処理に用いるプログラム製品であって、
プロセッサを用いたシステムに、請求項１〜請求項８のいずれかに記載のステップのすべてを行なわせる命令を記憶したコンピュータ読取可能媒体を含む、プログラム製品。