JP4725884B2 - 口画像に対する任意変形に関するパラメータを推定する方法 - Google Patents
口画像に対する任意変形に関するパラメータを推定する方法 Download PDFInfo
- Publication number
- JP4725884B2 JP4725884B2 JP2005091690A JP2005091690A JP4725884B2 JP 4725884 B2 JP4725884 B2 JP 4725884B2 JP 2005091690 A JP2005091690 A JP 2005091690A JP 2005091690 A JP2005091690 A JP 2005091690A JP 4725884 B2 JP4725884 B2 JP 4725884B2
- Authority
- JP
- Japan
- Prior art keywords
- image
- mouth
- user
- estimating
- rotation amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Processing (AREA)
- Image Analysis (AREA)
Description
S.グルブズ、K.キノシタ及びS.ヤノ、「トレーニング可能な多変量ガウス分類器を用いたビデオシーケンスからの口トラッキング」、PRMU2003、仙台、日本、2003年12月(S. Gurbuz, K. Kinoshita and S. Yano. Mouth Tracking from Video Sequences using Trainable Multivariate Gaussian Classifiers. PRMU 2003, Sendai, Japan, December 2003.) A.アジャウダーニ及びC.ベノイト.「hmmベースのasrにおける聴覚及び視覚パラメータの統合について」、人と機械による音声読取:モデル、システム及び応用、NATO ASIシリーズ、シリーズF、コンピュータ及びシステムサイエンス、150号、461−471ページ、1996年(A. Adjoudani and C. Benoit. On the integration of auditory and visual parameters in an hmm-based asr. In Speechreading by Humans and Machines: models, systems, and applications, NATO ASI Series. Series F, Computer and Systems Sciences, number 150, pages 461-471, 1996.) C.ブレグラー、H.ヒルド、S.マンケ、及びA.ワイベル、「唇の読取による、連続文字認識の改良」、音響音声及び信号処理国際会議予稿集、1993年(C. Bregler, H. Hild, S. Manke, and A. Waibel. Improving connected letter recognition by lipreading. In Proceedings of International Conference on Acoustics Speech and Signal Processing, 1993.) G.イェンガー、G.ポタミアノス、C.ネティ、T.ファリク、及びA.ヴァーマ、「自動音声読取のための頑健な視覚的roi検出」、IEEEマルチメディア信号処理第4回ワークショップ、79−84ページ、2001年(G. Iyengar, G. Potamianos, C. Neti, T. Faruquie, and A. Verma. Robust detection of visual roi for automatic speechreading. In IEEE Fourth Workshop on Multimedia Signal Processing, pages 79-84, 2001.) A.J.ジェイン、「ディジタル画像処理の基礎」、プレンティスホール、1997年(A. K. Jain. Fundamentals of Digital Image Processing. Prentice-Hall, 1997.) M.カス、A.ウィトキン及びD.ターゾプーロス、「スネークス:活性輪郭モデル」、コンピュータヴィジョンに関する第1回国際会議予稿集、259−268ページ、1987年(M. Kass, A. Witkin, and D. Terzopoulos. Snakes: Active contour models. In Proceedings of 1st International Conference on Computer Vision, pages 259-268, 1987.) S.カワト、N.テツタニ、「SSRフィルタ及びサポートベクトルマシンを用いたリアルタイムのスケール適応顔検出及びトラッキング」、コンピュータヴィジョンに関するアジア会議、2004年(S. Kawato, N. Tetsutani. Scale adaptive face detection and tracking in real time with SSR filter and support vector machine. In Asian Conference on Computer Vision, 2004.) H.マクガーク及びJ.マクドナルド、「唇を聴き声を見る」、ネイチャー、264:746−748、1976年(H. McGurk and J. MacDonald. Hearing lips and seeing voices. Nature, 264:746-748, 1976.) S.ナカムラ、「聴覚的-視覚的音声処理のための統計的マルチモーダル統合」、IEEE神経回路網トランザクション、13(4)、2002年(S. Nakamura. Statistical multimodal integration for audio-visual speech processing. IEEE Transactions on Neural Networks, 13(4), 2002.) E.パターソン、S.グルブズ、Z.チュフェキ、及びJ.ガウディ、「移動する話し手、話者独立の特徴量研究とCuaveマルチモーダル音声コーパスを用いたベースライン結果」、EURASIP応用信号処理ジャーナル、2002(11)、2002年(E. Patterson, S. Gurbuz, Z. Tufekci, and J. Gowdy. Moving-talker, speaker-independent feature study and baseline results using the cuave multimodal speech corpus. EURASIP Journal on Applied Signal Processing, 2002(11), 2002.) E.パタジャン、B.ビショフ、D.ボドフ及びN.ブルック、「音声認識を向上するための改良された自動唇読取システム」、コンピュータシステムにおけるヒューマンファクタに関する会議、19−25ページ、1988年(E. Petajan, B. Bischoff, D. Bodoff, and N. Brooke. An improved automatic lipreading system to enhance speech recognition. In Conference on Human Factors in Computing Systems, pages 19-25, 1988.) G.ポタミアノス、J.ルティン、及びC.ネティ、「聴覚的−視覚的lvcsrのための階層的判別特徴量」、音響音声及び信号処理国際会議予稿集、2001年。(G. Potamianos, J. Luettin, and C. Neti. Hierarchical discriminant features for audio-visual lvcsr. In Proceedings of International Conference on Acoustics Speech and Signal Processing, 2001.) D.ロイ、「相互情報を用いた音声と視覚の統合」、音響音声及び信号処理国際会議予稿集、2000年(D. Roy. Integration of speech and vision using mutual information. In Proceedings of International Conference on Acoustics Speech and Signal Processing, 2000) A.W.シニア、「顔認識システムのための顔と特徴量の検出」、聴覚及び視覚ベースのバイオメトリック人物認証(AVBPA)予稿集、154−159ページ、1999年(A. W. Senior. Face and feature finding for face recognition system. In Proceedings of Audio-and Video-Based Biometric Person Authentication (AVBPA), pages 154-159, 1999.) E.バティキオティス−ベイツィン、K.G.ムンハル、M.ヒラヤマ、Y.V.リー、及びD.ターゾポーラス、「音声におけるオーディオビジュアルな挙動の力学」、人と機械による音声読取:データ、モデル及びシステム、D.G.ストーク及びM.E.ヘンケ編、NATOスプリンガーフェアラーク、ニューヨーク、NY(1996)、150巻、1996年(E. Vatikiotis-Bateson, K. G. Munhall, M. Hirayama, Y. V. Lee, and D. Terzopoulos. The dynamics of audiovisual behavior in speech. In Speechreading by Man and Machine: Data, Models and Systems, D. G. Stork and M. E. Hennecke Eds. NATOSpringer-Verlag, New York, NY (1996), volume 150, 1996.) X.ツァン、R.M.マーセロー、M.クレメンツ、及びC.C.ブラウン、「改良された音声認識のための視覚的音声特徴量の抽出」、音響音声及び信号処理国際会議、2002年(X. Zhang, R. M. Mersereau, M. Clements, and C. C. Brown. Visual speech feature extraction for improved speech recognition. In International Conference on Acoustics Speech and Signal Processing, 2002.)
視覚的前処理を行なう動機は、視覚的音声処理のための一貫した視覚的特徴量の抽出を容易にすることである。すなわち、この前処理によって、話者の頭の回転、平行移動及びカメラスケールのパラメータを口画像から除去する。図1はこの発明の視覚的前処理アルゴリズムの概要を示すブロック図である。
図1を参照して、この実施例の口画像修正装置30は、画像フレーム32の各々から口画像を抽出し、話者の頭部の回転、平行移動、及びカメラスケールパラメータによって引起こされる歪のパラメータを推定し、微妙な違いを修正した口画像34を出力する。
一般に、観察された口画像xと基準となる口画像x°との関係は、以下のように表せる。
ここで、sはスケーリングパラメータであり、R(α)は2D回転行列(αは回転角)であり、tは平行移動ベクトルである。画像フレームは全て、任意のs、R(α)及びtの影響を除去するために以下のように前処理される。
口境界は、口トラッキングアルゴリズムと目のトラッキングアルゴリズムとを合わせて利用することによって選択される。この実施例で用いるアルゴリズムは、本件発明者らによって開発されたものであるが、ここでは入手可能などのようなアルゴリズムを用いてもよい。
一方で、口の外観の歪は一般に任意の3D回転によって引起される。他方で、人とコンピュータのインタフェイスの応用を考えれば、話者にはカメラに向き合うことが要求される。話者はカメラに向き合うが、頭部を自由に動かすことはできる。
ここでsはスケーリングパラメータであり、R(α)はαの2D回転行列であり、αは2D回転角であり、tは平行移動ベクトルである。
口角または鼻や目等の他の顔の特徴のみを利用する場合、自然な発声の間にそのような顔の目印の位置を定めることに画素上の正確さが必要なため、回転を正確に修正するには問題がある[非特許文献4、7及び10を参照]。目印を使用する口回転修正では、トラッキングした瞳を用いることが合理的であって、PCAベースの回転量推定及び修正方法と組合わせて上述の問題を克服できることがわかっている。
PCAは、多変量データを分析して主成分として知られる新たな直交軸の組を特定する方法である[画像処理におけるPCAの詳細については非特許文献5を参照]。これはPCAによる回転量推定モジュール44で行なわれる。第一の主成分は、データの最も主要な分散を示す軸であり、第二の主成分はデータの2番目に主要な分散を示す直交軸であり、以下同様である。
次に、固有ベクトル(特性ベクトルともいう。)を次の式に従って求める。
回転角αは以下のように計算される。
ここでex及びeyはe1の2成分である。
スケーリングの問題は、話者のカメラからの距離、カメラのズーム係数、及び話者の実際の口の寸法から生じる。この場合、唇画像の周波数内容を利用するDCT(Discrete Cosine Transformation:離散的コサイン変換)またはウェーブレット変換法等の、画素に基づく視覚的特徴量抽出法は、上述の要因の1つまたは2つ以上によって引起されるスケールパラメータを除去することなく口画像を処理した場合、一貫性を欠く観察ベクトルを生じさせることになる。
この実施例に従う口画像修正装置30は、コンピュータハードウェアとその上で実行されるコンピュータプログラムで実現され得る。例えば、口トラッキングモジュール40は発明者らが開発したプログラムで実現できる。しかしながら、これは公に入手可能な目トラッキングプログラムでも実現可能である。同様に、モジュール42から58もコンピュータプログラムで実現可能である。
口画像修正装置30は以下のように動作する。カラーの画像フレーム32の各々について、口トラッキングモジュール40が口領域をセグメント化し、ROIを選択して次のフレームの探索領域を制限する。口輪郭線検出モジュール42は図3に示すような口の輪郭70を検出する。PCAによる回転量推定モジュール44は口輪郭線検出モジュール42から出力される輪郭70で、PCAを利用した画像で予め規定されたx−及びy−軸を基準に、回転角を推定する。推定された角度が回転量推定組合せモジュール48に与えられる。
32 画像フレーム
34 微妙な違いを修正した口画像
40 口トラッキングモジュール
42 口輪郭線検出モジュール
44 PCAによる回転量推定モジュール
46 両眼トラッキングモジュール
48 回転量推定組合せモジュール
50 口領域回転量修正モジュール
52 口ROI選択モジュール
54 スケール修正モジュール
56 メモリ
58 平行移動修正モジュール
Claims (9)
- ユーザのビデオ画像に視覚的音声前処理を行なうシステムにおいて、ユーザの口画像に対する任意変形に関するパラメータを推定する方法であって、
前記ビデオ画像の各々に対し、
前記ユーザの前記画像中の目印となる位置2箇所を決定するステップと、
前記ビデオ画像中のユーザの口の輪郭を決定するステップと、
前記口の輪郭の位置を利用することにより、前記任意変形と逆の変形が前記ビデオ画像に対し適用可能となるように、前記ユーザの口画像に関する変形パラメータを推定するパラメータ推定ステップとを含み、
前記パラメータ推定ステップは、前記画像中の前記ユーザの前記口画像に対する主成分分析の結果を利用して、前記ユーザの前記画像の回転量を推定する第1の回転量推定ステップを含む、方法。 - 前記推定するステップは、さらに、
前記ユーザの画像中の、前記目印を利用して、ユーザの画像の回転量を推定する第2の回転量推定ステップと、
前記第1の回転量推定ステップで推定された回転量と、前記第2のステップで推定された回転量とを組合せることにより、前記ユーザの画像の回転角を推定するステップとを含む、請求項1に記載の方法。 - 前記第1の回転量推定ステップが、
前記目印の位置を基準として前記ユーザの画像中の口画像の領域を推定する口領域推定ステップと、
推定された前記口画像中のエッジを検出することにより前記口唇の外側輪郭の座標位置を決定するステップと、
前記唇の外側輪郭のサンプル点の平均と共分散行列とを計算するステップと、
前記共分散行列の第一の固有ベクトルe1を求めるステップと、
角度α=atan(ey/ex)を計算するステップとを含み、
ここでexおよびeyは前記第一の固有ベクトルのx軸成分およびy軸成分であり、前記x軸及び前記y軸はそれぞれ、前記画像中の標準座標系を規定する、請求項1または請求項2に記載の方法。 - 前記口領域推定ステップが、
前記画像中の前記目印間の距離を、前記画像中の前記目印の前記位置と、推定された変形とを利用して計算するステップと、
前記目印を基準として定められる領域であって、さらに計算で求められた前記目印間の距離と同じ幅となるような距離で選択された幅を有する、口領域を選択するステップとを含む、請求項3に記載の方法。 - 前記口領域推定ステップがさらに、所定の定数と、前記計算で求められた前記目印間の距離との比率によって、前記口画像のスケーリング係数を推定するスケーリング係数推定ステップとを含む、請求項4に記載の方法。
- 前記スケーリング係数推定ステップにおいて推定された前記口画像のスケーリング係数によって、前記選択された口領域をスケーリングするステップをさらに含む、請求項5に記載の方法。
- 目印となる位置2箇所を決定する前記ステップは、前記ユーザの前記画像中の瞳の位置を決定するステップを含む、請求項1〜請求項6のいずれかに記載の方法。
- 前記ユーザの画像中における、前記口領域に対する平行移動の影響を除去するために、前記口領域の画像の移動量を計算するステップをさらに含む、請求項1〜請求項7のいずれかに記載の方法。
- 視覚的前処理に用いるプログラム製品であって、
プロセッサを用いたシステムに、請求項1〜請求項8のいずれかに記載のステップのすべてを行なわせる命令を記憶したコンピュータ読取可能媒体を含む、プログラム製品。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005091690A JP4725884B2 (ja) | 2005-03-28 | 2005-03-28 | 口画像に対する任意変形に関するパラメータを推定する方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005091690A JP4725884B2 (ja) | 2005-03-28 | 2005-03-28 | 口画像に対する任意変形に関するパラメータを推定する方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2006277022A JP2006277022A (ja) | 2006-10-12 |
JP2006277022A5 JP2006277022A5 (ja) | 2008-04-17 |
JP4725884B2 true JP4725884B2 (ja) | 2011-07-13 |
Family
ID=37211762
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005091690A Active JP4725884B2 (ja) | 2005-03-28 | 2005-03-28 | 口画像に対する任意変形に関するパラメータを推定する方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4725884B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6433166B2 (ja) * | 2013-06-13 | 2018-12-05 | 国立大学法人 鹿児島大学 | 認証処理装置及び認証処理方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09171560A (ja) * | 1995-12-20 | 1997-06-30 | Oki Electric Ind Co Ltd | 顔の傾き検出装置 |
JP2003281539A (ja) * | 2002-03-25 | 2003-10-03 | Oki Electric Ind Co Ltd | 顔部品探索装置および顔部品探索方法 |
-
2005
- 2005-03-28 JP JP2005091690A patent/JP4725884B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09171560A (ja) * | 1995-12-20 | 1997-06-30 | Oki Electric Ind Co Ltd | 顔の傾き検出装置 |
JP2003281539A (ja) * | 2002-03-25 | 2003-10-03 | Oki Electric Ind Co Ltd | 顔部品探索装置および顔部品探索方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2006277022A (ja) | 2006-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Matthews et al. | Extraction of visual features for lipreading | |
Cetingul et al. | Discriminative analysis of lip motion features for speaker identification and speech-reading | |
JP4739355B2 (ja) | 統計的テンプレートマッチングによる高速な物体検出方法 | |
US20150302240A1 (en) | Method and device for locating feature points on human face and storage medium | |
JP2005327076A (ja) | パラメタ推定方法、パラメタ推定装置および照合方法 | |
JP2005339288A (ja) | 画像処理装置及びその方法 | |
Ibrahim et al. | Geometrical-based lip-reading using template probabilistic multi-dimension dynamic time warping | |
Dalka et al. | Visual lip contour detection for the purpose of speech recognition | |
JP2008015848A (ja) | 物体領域探索方法,物体領域探索プログラムおよび物体領域探索装置 | |
JP4092059B2 (ja) | 画像認識装置 | |
Paleček et al. | Audio-visual speech recognition in noisy audio environments | |
JP2005208850A (ja) | 顔画像認識装置及び顔画像認識プログラム | |
Saitoh et al. | Analysis of efficient lip reading method for various languages | |
JP7370050B2 (ja) | 読唇装置及び読唇方法 | |
JP4725884B2 (ja) | 口画像に対する任意変形に関するパラメータを推定する方法 | |
Radha et al. | A survey on visual speech recognition approaches | |
Jang | Lip contour extraction based on active shape model and snakes | |
JP6916130B2 (ja) | 話者推定方法および話者推定装置 | |
CN100377164C (zh) | 用于检测图像中的人脸肤色区域的方法、装置和存储介质 | |
KR101621304B1 (ko) | 마우스맵을 이용한 능동형태모델 기반 입술 형태 추정 방법 및 시스템 | |
Shiraishi et al. | Optical flow based lip reading using non rectangular ROI and head motion reduction | |
JP2019049829A (ja) | 目的区間判別装置、モデル学習装置、及びプログラム | |
Mok et al. | Lip features selection with application to person authentication | |
Sui et al. | Discrimination comparison between audio and visual features | |
KR101430342B1 (ko) | 발화자의 거리 추정을 이용한 음성인식방법 및 음성인식장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080228 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080228 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101006 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101012 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101209 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110308 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110401 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140422 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |