JP2006012093A - 画像内特定領域抽出方法及びこの方法を実行するためのプログラム及び記録媒体 - Google Patents
画像内特定領域抽出方法及びこの方法を実行するためのプログラム及び記録媒体 Download PDFInfo
- Publication number
- JP2006012093A JP2006012093A JP2004192241A JP2004192241A JP2006012093A JP 2006012093 A JP2006012093 A JP 2006012093A JP 2004192241 A JP2004192241 A JP 2004192241A JP 2004192241 A JP2004192241 A JP 2004192241A JP 2006012093 A JP2006012093 A JP 2006012093A
- Authority
- JP
- Japan
- Prior art keywords
- search
- region
- generation
- image
- search area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】 動画像からでも高速且つ高精度で口唇領域等の特定領域を抽出できる方法を提供すること。
【解決手段】 遺伝的アルゴリズムを用いた画像内の特定領域の抽出方法であって、ターゲット画像内における探索領域を制御する探索領域制御段階を有し、探索領域制御段階は、新たな探索領域の位置を設定する探索領域位置設定段階と、新たな探索領域のサイズを設定する探索領域サイズ設定段階と、新たな探索領域に基づいて全ての個体の遺伝子を再生成する遺伝子再生成段階とからなり、探索領域位置設定段階は、適応度の評価結果に基づいて集団中の個体からエリート個体を検出するエリート個体検出段階と、エリート個体の座標と世代数に基づいて探索領域を移動させる探索領域移動段階とからなり、探索領域サイズ設定段階は、世代数の増加に伴って探索領域を段階的に縮小する探索領域サイズ変更段階からなる。
【選択図】 図5
【解決手段】 遺伝的アルゴリズムを用いた画像内の特定領域の抽出方法であって、ターゲット画像内における探索領域を制御する探索領域制御段階を有し、探索領域制御段階は、新たな探索領域の位置を設定する探索領域位置設定段階と、新たな探索領域のサイズを設定する探索領域サイズ設定段階と、新たな探索領域に基づいて全ての個体の遺伝子を再生成する遺伝子再生成段階とからなり、探索領域位置設定段階は、適応度の評価結果に基づいて集団中の個体からエリート個体を検出するエリート個体検出段階と、エリート個体の座標と世代数に基づいて探索領域を移動させる探索領域移動段階とからなり、探索領域サイズ設定段階は、世代数の増加に伴って探索領域を段階的に縮小する探索領域サイズ変更段階からなる。
【選択図】 図5
Description
本発明は画像内特定領域抽出方法及びこの方法を実行するためのプログラム及び記録媒体に関し、より詳しくは遺伝的アルゴリズムを用いてターゲット画像から高速且つ高精度に口唇領域等の特定領域を抽出するための方法及びこの方法を実行するためのプログラム及び記録媒体に関する。
音声認識は、インテリジェントビルディングのようなユビキタス環境、携帯電話やPDA等のモバイル機器、ペット型や人間型のロボット等における有用なユーザーインターフェイスの一つである。
しかしながら、音声データのみを使用した認識は、人物名などの固有名詞を含む文章について限界があり、雑音の問題があるため、発話者の口唇形状の変化に関する情報を取得し、この口唇形状に関する情報を音声データに加えて利用することにより音声認識の認識精度を向上させる方法が試みられている。
しかしながら、音声データのみを使用した認識は、人物名などの固有名詞を含む文章について限界があり、雑音の問題があるため、発話者の口唇形状の変化に関する情報を取得し、この口唇形状に関する情報を音声データに加えて利用することにより音声認識の認識精度を向上させる方法が試みられている。
発話者の口唇形状の変化を読み取る方法についての研究は従来より種々行われている。
例えば、個人照合するための特徴量として、発話に伴う口唇の変化からマハラノビス距離を算出することによる口唇画像を用いた個人照合についての研究(非特許文献1参照)や、口唇の形状に注目したEigentemplate法を用いた読唇術に関する研究(非特許文献2参照)が開示されている。
しかしながら、これらの研究は、カメラや被験者の頭が動かないことを前提とするものであるため、カメラの手ぶれや顔の揺れ等による画像の激しい動きには対応できず、また発話による口唇形状の変化にも対応できないという問題がある。
例えば、個人照合するための特徴量として、発話に伴う口唇の変化からマハラノビス距離を算出することによる口唇画像を用いた個人照合についての研究(非特許文献1参照)や、口唇の形状に注目したEigentemplate法を用いた読唇術に関する研究(非特許文献2参照)が開示されている。
しかしながら、これらの研究は、カメラや被験者の頭が動かないことを前提とするものであるため、カメラの手ぶれや顔の揺れ等による画像の激しい動きには対応できず、また発話による口唇形状の変化にも対応できないという問題がある。
一方、遺伝的アルゴリズムを利用するテンプレートマッチングを用いる方法について、従来数多くの研究がなされており(例えば、非特許文献3参照)、この方法を発話者の口唇形状の認識に応用することが考えられる。
しかしながら、従来の遺伝的アルゴリズムを利用したテンプレートマッチングによる方法は、処理速度が遅いために、動画像へと適用することは現実的には非常に困難であり、リアルタイム且つ高精度で口唇領域を抽出することは不可能であった。
しかしながら、従来の遺伝的アルゴリズムを利用したテンプレートマッチングによる方法は、処理速度が遅いために、動画像へと適用することは現実的には非常に困難であり、リアルタイム且つ高精度で口唇領域を抽出することは不可能であった。
根田雅稔、外3名「口唇の動き特徴の個人識別法への適用」、電学論C、120,5、p765−766(2000−5)
中田、安藤「色抽出とEigentemplate法を併用した口の位置検出と読唇処理への適用」、信学技法、PRMU2001−09,101,303、p7−12(2001−9)
桝永、長尾「遺伝的アルゴリズムを用いた静止画像中の人物の顔領域の抽出」、信学技法、PRU95−160,95,365、p13−18(1995−11)
本発明は、上記した従来技術の問題点を解決すべくなされたものであって、カメラの手ぶれや、ロボットの動きなどによるカメラのぶれ、顔の揺れ等による画像の激しい動きや、発話による口唇形状の変化に対応することができ、動画像からでも高速且つ高精度で口唇領域を抽出することが可能であるとともに、口唇領域に限らず他の特定領域の抽出処理に対しても幅広く応用することが可能な非常に汎用性の高い画像内特定領域抽出方法及びこの方法を実行するためのプログラム及び記録媒体を提供せんとするものである。
請求項1に係る発明は、遺伝的アルゴリズムを用いた画像内の特定領域の抽出方法であって、抽出対象となる特定領域を含むターゲット画像から特定領域を抽出するために用いられる色情報と形状情報からなるテンプレートを入力するテンプレート入力段階と、複数の個体から構成される初期集団をランダムに生成する初期集団生成段階と、集団内の個体に対して遺伝的アルゴリズムを実行する遺伝的アルゴリズム実行段階とからなり、前記遺伝的アルゴリズム実行段階は、前記テンプレートを射影変換するテンプレート変換段階と、テンプレートマッチングを実行するマッチング段階と、前記個体の世代数が一定数に達するまで、各世代において、次世代の新たな個体集団を生成する新個体集団生成段階と、前記テンプレート変換段階と、前記マッチング段階とを順に繰り返す段階とからなり、前記マッチング段階は、ターゲット画像フレームを入力するターゲットフレーム入力段階と、前記集団内における各個体の適応度を評価する適応度評価段階とからなり、前記新個体集団生成段階は、前記ターゲット画像内における探索領域を制御する探索領域制御段階と、前記新個体集団内における個体が有する遺伝子に対して選択、交差、突然変異からなる遺伝的オペレータを実行する遺伝的オペレータ実行段階とからなり、前記探索領域制御段階は、新たな探索領域の位置を設定する探索領域位置設定段階と、新たな探索領域のサイズを設定する探索領域サイズ設定段階と、前記新たな探索領域に基づいて全ての前記個体の遺伝子を再生成する遺伝子再生成段階とからなり、前記探索領域位置設定段階は、前記適応度の評価結果に基づいて集団中の個体からエリート個体を検出するエリート個体検出段階と、前記エリート個体の座標と世代数に基づいて探索領域を移動させる探索領域移動段階とからなり、前記探索領域サイズ設定段階は、世代数の増加に伴って探索領域を段階的に縮小する探索領域サイズ変更段階からなることを特徴とする画像内特定領域抽出方法に関する。
請求項2に係る発明は、前記遺伝子再生成段階における遺伝子の再生成が、位置を表す遺伝子のみについて実行されることを特徴とする請求項1記載の画像内特定領域抽出方法に関する。
請求項3に係る発明は、前記探索領域サイズ設定段階における探索領域の縮小が、複数世代毎に段階的に実行されることを特徴とする請求項1又は2記載の画像内特定領域抽出方法に関する。
請求項3に係る発明は、前記探索領域サイズ設定段階における探索領域の縮小が、複数世代毎に段階的に実行されることを特徴とする請求項1又は2記載の画像内特定領域抽出方法に関する。
請求項4に係る発明は、前記ターゲット画像が複数の動画像フレームから構成されてなる動画像であって、前記初期集団生成段階と、フレームを更新し、最終フレームに達するまで各フレームにおいて、前記新個体集団生成段階と、前記遺伝的アルゴリズム実行段階を繰り返し、遺伝的な情報を継承する段階を有してなることを特徴とする請求項1乃至3いずれかに記載の画像内特定領域抽出方法に関する。
請求項5に係る発明は、前フレームにおける最終世代の探索領域を、次フレームの最初の世代において拡大することを特徴とする請求項4記載の画像内特定領域抽出方法に関する。
請求項6に係る発明は、第2フレーム以降における最初の世代の探索領域を、第1フレームの最初の世代の探索領域よりも縮小することを特徴とする請求項5記載の画像内特定領域抽出方法に関する。
請求項5に係る発明は、前フレームにおける最終世代の探索領域を、次フレームの最初の世代において拡大することを特徴とする請求項4記載の画像内特定領域抽出方法に関する。
請求項6に係る発明は、第2フレーム以降における最初の世代の探索領域を、第1フレームの最初の世代の探索領域よりも縮小することを特徴とする請求項5記載の画像内特定領域抽出方法に関する。
請求項7に係る発明は、前記特定領域が人物の口唇領域であって、前記テンプレートの形状情報が矩形を示す形状情報からなり、色情報が赤み成分を示す色情報からなるとともに、該テンプレートは前記人物の閉じた状態における口唇周辺の矩形領域画像からなり、前記テンプレート入力段階が、テンプレート形状を矩形から四角環状へと変形する段階を含むことを特徴とする請求項1乃至6いずれかに記載の画像内特定領域抽出方法に関する。
請求項8に係る発明は、請求項1乃至7のいずれかに記載された方法をコンピュータに実行させるためのプログラムに関する。
請求項9に係る発明は、請求項8記載のプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
請求項8に係る発明は、請求項1乃至7のいずれかに記載された方法をコンピュータに実行させるためのプログラムに関する。
請求項9に係る発明は、請求項8記載のプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
請求項1に係る発明によれば、世代数の増加に伴って探索領域を段階的に縮小する探索領域サイズ変更段階を含む探索領域サイズ設定段階を有することによって、効率の低い無駄な処理を減らして処理時間を大幅に短縮することが可能となるとともに、個体の適応度の評価結果に基づいて集団中の個体からエリート個体を検出するエリート個体検出段階と、エリート個体の座標と世代数に基づいて探索領域を移動させる探索領域移動段階からなる探索領域位置設定段階を有することによって、探索領域の縮小に伴う探索の失敗を防止して抽出精度を高めることが可能となる。
請求項2に係る発明によれば、遺伝子再生成段階における遺伝子の再生成が、位置を表す遺伝子のみについて実行されることにより、それまでの個体集団全体の進化の破壊や、拡大縮小や回転を表す遺伝子が正解に近い場合にそれらの破壊を引き起こすことを防止しながら、新たに設定された探索領域外に位置する個体を探索領域内に移動することが可能となる。
請求項3に係る発明によれば、探索領域サイズ設定段階における探索領域の縮小が複数世代毎に段階的に実行されることにより、1世代毎に縮小する場合に比べて処理時間の短縮が可能となるともに、数世代に亘って同じサイズで探索をすることで前世代において探索に失敗しても次世代で修復することが可能となり、更には数世代に亘って同じサイズで徹底的に最良個体を探索して確実に見つけ出すことが可能となる。
請求項3に係る発明によれば、探索領域サイズ設定段階における探索領域の縮小が複数世代毎に段階的に実行されることにより、1世代毎に縮小する場合に比べて処理時間の短縮が可能となるともに、数世代に亘って同じサイズで探索をすることで前世代において探索に失敗しても次世代で修復することが可能となり、更には数世代に亘って同じサイズで徹底的に最良個体を探索して確実に見つけ出すことが可能となる。
請求項4に係る発明によれば、ターゲット画像が複数の動画像フレームから構成される動画像である場合において、探索領域サイズ設定段階と探索領域移動段階を有することによって、動画像から特定領域を高速且つ高精度に探索・抽出することが可能となる。
請求項5に係る発明によれば、前フレームにおける最終世代の探索領域を、次フレームの最初の世代において拡大することによって、前フレームの処理で探索に失敗しても、前フレームの失敗をひきずることなく次フレームで修復することが可能となる。また、前フレームの処理で探索に成功しても、次フレームで前フレームから探索対象が急激に移動した場合、探索領域を狭めたままでは失敗する可能性があるが、次フレームで探索領域を拡大することで、このような激しい変化もカバー可能となる。
請求項5に係る発明によれば、前フレームにおける最終世代の探索領域を、次フレームの最初の世代において拡大することによって、前フレームの処理で探索に失敗しても、前フレームの失敗をひきずることなく次フレームで修復することが可能となる。また、前フレームの処理で探索に成功しても、次フレームで前フレームから探索対象が急激に移動した場合、探索領域を狭めたままでは失敗する可能性があるが、次フレームで探索領域を拡大することで、このような激しい変化もカバー可能となる。
請求項6に係る発明によれば、第2フレーム以降における最初の世代の探索領域を、第1フレームの最初の世代の探索領域よりも縮小するので、前フレームの結果から探索対象の位置がある程度絞られている第2フレーム以降において、探索領域をターゲットフレーム全体とする無駄な処理が省かれ、処理時間を大幅に短縮することができる。
請求項7に係る発明によれば、テンプレート入力段階が、テンプレート形状を矩形から四角環状へと変形する段階を含むことによって、発話に伴う口唇形状の変化があっても、高速且つ高精度に口唇領域を抽出することが可能となる。
請求項8及び9に係る発明によれば、プログラムをコンピュータに直接組み込んで或いは記録媒体を介してコンピュータに組み込むことにより、画像内からの特定領域の抽出処理をコンピュータを用いて簡単に実行することができる。
請求項7に係る発明によれば、テンプレート入力段階が、テンプレート形状を矩形から四角環状へと変形する段階を含むことによって、発話に伴う口唇形状の変化があっても、高速且つ高精度に口唇領域を抽出することが可能となる。
請求項8及び9に係る発明によれば、プログラムをコンピュータに直接組み込んで或いは記録媒体を介してコンピュータに組み込むことにより、画像内からの特定領域の抽出処理をコンピュータを用いて簡単に実行することができる。
以下、本発明に係る画像内特定領域抽出方法及びこの方法を実行するためのプログラム及び記録媒体の好適な実施形態について、図面を参照しつつ説明する。
本発明に係る方法は、遺伝的アルゴリズムを用いたテンプレートマッチングによって、ターゲット画像の特定領域を探索して抽出する方法、及びこの方法を実行するためのプログラム並びにこのプログラムを記録した記録媒体である。
以下、本発明に係る方法について、探索され抽出される特定領域が人物の口唇領域である場合を例に挙げて具体的に説明する。
本発明に係る方法は、遺伝的アルゴリズムを用いたテンプレートマッチングによって、ターゲット画像の特定領域を探索して抽出する方法、及びこの方法を実行するためのプログラム並びにこのプログラムを記録した記録媒体である。
以下、本発明に係る方法について、探索され抽出される特定領域が人物の口唇領域である場合を例に挙げて具体的に説明する。
図1は本発明に係る方法の第一実施形態の全体の流れを示すフローチャートである。
第一実施形態の方法は、ターゲット画像が静止画像である場合であり、静止画像から特定領域(本例では口唇領域)を抽出するために用いられる方法である。
以下、この方法をフローチャートに沿って説明する。
本発明に係る方法では、先ず抽出対象(探索対象)となる特定領域(口唇領域)を含むターゲット画像から特定領域を抽出するために用いられるテンプレートを入力する。
尚、本明細書において入力とは、コンピュータへの入力処理、換言すればコンピュータが入力情報を受け取る処理を意味し、本発明に係る方法における各段階の処理は、コンピュータの記憶装置に直接或いは記録媒体を介して組み込まれるプログラムによって実行される。プログラムを実行するコンピュータは、バスを介して相互に接続されたCPU、メモリやハードディスク等の記憶装置、キーボードやマウス等の入力装置、ディスプレイ等の表示装置、プリンタ等の出力装置等を具備する一般的な形式のものでもよいし、マイクロチップ形式の処理装置でもよい。
第一実施形態の方法は、ターゲット画像が静止画像である場合であり、静止画像から特定領域(本例では口唇領域)を抽出するために用いられる方法である。
以下、この方法をフローチャートに沿って説明する。
本発明に係る方法では、先ず抽出対象(探索対象)となる特定領域(口唇領域)を含むターゲット画像から特定領域を抽出するために用いられるテンプレートを入力する。
尚、本明細書において入力とは、コンピュータへの入力処理、換言すればコンピュータが入力情報を受け取る処理を意味し、本発明に係る方法における各段階の処理は、コンピュータの記憶装置に直接或いは記録媒体を介して組み込まれるプログラムによって実行される。プログラムを実行するコンピュータは、バスを介して相互に接続されたCPU、メモリやハードディスク等の記憶装置、キーボードやマウス等の入力装置、ディスプレイ等の表示装置、プリンタ等の出力装置等を具備する一般的な形式のものでもよいし、マイクロチップ形式の処理装置でもよい。
入力されるテンプレートは色情報と形状情報を有しており、これらの情報は抽出対象に応じて適宜変更することができる。
口唇領域を抽出する場合、色情報としては、Yxy色空間の赤みを示すx成分を用いる。
Yxy色空間は、XYZ色空間を正規化することで得られ、XYZ色空間はリニアRGB色空間から得ることができる。Yxy色空間のx成分は赤味成分、y成分は緑味成分、z成分は青味成分を持ち、本発明においては口唇の色が赤みを帯びていることを考慮して、画像データの画素値としてx成分値が用いられる。
口唇領域を抽出する場合、色情報としては、Yxy色空間の赤みを示すx成分を用いる。
Yxy色空間は、XYZ色空間を正規化することで得られ、XYZ色空間はリニアRGB色空間から得ることができる。Yxy色空間のx成分は赤味成分、y成分は緑味成分、z成分は青味成分を持ち、本発明においては口唇の色が赤みを帯びていることを考慮して、画像データの画素値としてx成分値が用いられる。
テンプレートの形状情報は、矩形を表す情報(縦幅値と横幅値)とされ、口唇領域を抽出する場合のテンプレートとしては、人物の閉じた状態における口唇周辺の矩形領域画像が用いられる(例えば図14参照)。このような矩形領域画像は、ビデオカメラ等の公知の画像撮影装置によって取得された抽出対象人物の顔の画像をコンピュータに入力して、口唇周辺の矩形領域の画像のみを切り出すことにより取得することができる。
本発明において、このテンプレート画像は、対象となる人物が口唇を閉じた状態を正面から撮影した1枚でもよく、従来のテンプレートマッチングのように多数のテンプレート画像を必要としない。
本発明において、このテンプレート画像は、対象となる人物が口唇を閉じた状態を正面から撮影した1枚でもよく、従来のテンプレートマッチングのように多数のテンプレート画像を必要としない。
テンプレートの形状は、入力された矩形テンプレートをそのままマッチングに用いるのが一般的であるが、口唇領域を抽出する場合には、発話に伴う歯の見え隠れ等の口唇内部の変化に対して不変性をもたせるために、図8に示すように、入力されたテンプレートの形状を矩形から四角環状へと変形する。
図8中のwとhは口唇領域の横幅と縦幅、w’とh’は考慮しない内部矩形領域の横幅と縦幅である。これらは経験的に決定されるパラメータであり、例えば、w’/w=0.8、h’/h=0.5とされる。
このように、テンプレートの形状を矩形から四角環状へと変形することにより、口唇内部の変化に対応することができて抽出率が向上すると同時に、考慮しない部分をつくることで計算量を減少させることで抽出速度の高速化にもつながる。
尚、上記した考慮しない内部矩形領域を決定するパラメータ(w’とh’)については、固定値とせずに個体の遺伝子の染色体として組み込むこともできる。この場合、発話状態を知ることができるので、音声認識において非常に有効となる。
図8中のwとhは口唇領域の横幅と縦幅、w’とh’は考慮しない内部矩形領域の横幅と縦幅である。これらは経験的に決定されるパラメータであり、例えば、w’/w=0.8、h’/h=0.5とされる。
このように、テンプレートの形状を矩形から四角環状へと変形することにより、口唇内部の変化に対応することができて抽出率が向上すると同時に、考慮しない部分をつくることで計算量を減少させることで抽出速度の高速化にもつながる。
尚、上記した考慮しない内部矩形領域を決定するパラメータ(w’とh’)については、固定値とせずに個体の遺伝子の染色体として組み込むこともできる。この場合、発話状態を知ることができるので、音声認識において非常に有効となる。
上記した如く、テンプレートの入力が終了した後、複数の個体から構成される初期集団をランダムに生成する。
各個体は、0と1からなる記号列(各記号は遺伝子と呼ばれる)によって記述される染色体をもち、後述する適応度と呼ばれる評価値によって評価される。適応度が高い個体ほど次世代に生き残り易く、適応度の低い個体は淘汰され易い。
各個体は、0と1からなる記号列(各記号は遺伝子と呼ばれる)によって記述される染色体をもち、後述する適応度と呼ばれる評価値によって評価される。適応度が高い個体ほど次世代に生き残り易く、適応度の低い個体は淘汰され易い。
遺伝的アルゴリズムを用いたテンプレートマッチングでは、テンプレートを座標変換によりターゲットにマッチングさせるが、染色体がその際の座標変換パラメータとなる。
図9は、遺伝子の染色体構造を示す図である。
図中、(tx,ty)はターゲットの口唇の位置座標(中心座標)、(mx,my)は拡大縮小倍率、angleは回転角度である。これらは、最終的に求める解であり、探索対象のターゲット画像上での位置、サイズ、回転角度を表わすパラメータである。
従来の染色体構造では、拡大縮小を表すパラメータが1つであり、テンプレートと探索対象の幾何学的変形が相似関係にある場合にしか扱うことができなが、発話に伴う口唇の形状変化は必ずしも相似関係ではない。そこで、x軸方向とy軸方向の拡大縮小倍率を表すパラメータを別々に設定し、染色体が5つのパラメータを持つようにする。
図示例では、それぞれ8ビットづつで染色体の合計長さは40ビットとされている。
図9は、遺伝子の染色体構造を示す図である。
図中、(tx,ty)はターゲットの口唇の位置座標(中心座標)、(mx,my)は拡大縮小倍率、angleは回転角度である。これらは、最終的に求める解であり、探索対象のターゲット画像上での位置、サイズ、回転角度を表わすパラメータである。
従来の染色体構造では、拡大縮小を表すパラメータが1つであり、テンプレートと探索対象の幾何学的変形が相似関係にある場合にしか扱うことができなが、発話に伴う口唇の形状変化は必ずしも相似関係ではない。そこで、x軸方向とy軸方向の拡大縮小倍率を表すパラメータを別々に設定し、染色体が5つのパラメータを持つようにする。
図示例では、それぞれ8ビットづつで染色体の合計長さは40ビットとされている。
これらのパラメータは、口唇領域の幾何学的変化の起こり得る範囲を考慮して範囲が定められる。
例えば、座標は0からターゲット画像の領域内、拡大縮小倍率は0.8〜3.0の範囲内、回転角度は−35〜35°の範囲内で指定(コーディング)することができる。
例えば、座標は0からターゲット画像の領域内、拡大縮小倍率は0.8〜3.0の範囲内、回転角度は−35〜35°の範囲内で指定(コーディング)することができる。
上記した如く、初期集団(第0世代の集団)の生成が終了した後、該集団内の個体がもつ遺伝子に対して遺伝的アルゴリズムを実行する。
図2は、遺伝的アルゴリズムの実行の流れを示すフローチャートである。尚、図1及び図2中のgは個体の世代数を表す。
遺伝的アルゴリズムの実行は、以下に述べる手順で行われる。
先ず、上記入力されたテンプレートに対して同次座標による射影変換が行われる。
同次座標により表わされるテンプレート画像上の点A=[X,Y,Z,1]とし、変換後の点A*=[X*,Y*,Z*,1]とすると、点A*=AMRxRyRzPTと表すことができる。
図2は、遺伝的アルゴリズムの実行の流れを示すフローチャートである。尚、図1及び図2中のgは個体の世代数を表す。
遺伝的アルゴリズムの実行は、以下に述べる手順で行われる。
先ず、上記入力されたテンプレートに対して同次座標による射影変換が行われる。
同次座標により表わされるテンプレート画像上の点A=[X,Y,Z,1]とし、変換後の点A*=[X*,Y*,Z*,1]とすると、点A*=AMRxRyRzPTと表すことができる。
ここで、P,M,T,Rx,Ry,Rzは、夫々射影を表す行列、スケーリング(拡大縮小)を表す行列、平行移動を表す行列、回転を表す行列(添え字は回転軸)であり、夫々下式(式1)、(式2)、(式3)、(式4)、(式5)、(式6)で表わされる。また、C(xc,yc,zc)は射影の中心点である。
すなわち、抽出対象の平面内(2次元)の回転に対応する場合には、上記射影変換行列において、angle x及びangle yをプログラム上で常に0に設定しておくとよい。
そして、抽出対象のあらゆる方向の回転(3次元回転)に対応する場合には、上記した個体の遺伝子構造の設定において、遺伝子内の回転角度を表わすパラメータ(angle)を、3方向(x軸周り、y軸周り、z軸周り)の回転角度を表わすパラメータ(angle x、angle y、angle z)から構成し、これらのパラメータを上記射影変換行列の設定に用いればよい。3次元回転に対応可能とした場合には、顔の向きが変化しても口唇領域の抽出が可能となる。
射影変換によるテンプレートの変換が行われた後、テンプレートマッチングが行われる。
図3は、テンプレートマッチングの流れを示すフローチャートである。
先ず、ターゲット画像フレームを入力する。
ターゲット画像は、抽出対象となる特定領域(本例の場合には口唇領域)を備えた人物の顔を含む画像であり(例えば図15参照)、デジタルカメラやビデオカメラ等の公知の画像撮影装置によって取得される。
ターゲット画像フレームは、取得画像が静止画像である場合にはそのまま、取得画像が動画像の場合には静画像として切り出された後にコンピュータに入力される。尚、この画像には背景が含まれていても構わない。
図3は、テンプレートマッチングの流れを示すフローチャートである。
先ず、ターゲット画像フレームを入力する。
ターゲット画像は、抽出対象となる特定領域(本例の場合には口唇領域)を備えた人物の顔を含む画像であり(例えば図15参照)、デジタルカメラやビデオカメラ等の公知の画像撮影装置によって取得される。
ターゲット画像フレームは、取得画像が静止画像である場合にはそのまま、取得画像が動画像の場合には静画像として切り出された後にコンピュータに入力される。尚、この画像には背景が含まれていても構わない。
ターゲット画像の入力後に、前記集団内における各個体の適応度が評価される。
適応度の評価は、先ず上記した射影変換後のテンプレートが探索範囲内、即ちターゲット画像の範囲内に存在するか否かが判断され、範囲内に存在していない場合には当該個体の適応度が0と評価されてマッチング処理は終了し、次世代の個体の処理へと移行する。
範囲内に存在していた場合には、続いて画素差の計算、目的関数の計算、適応度関数の計算の処理が順に実行される。
適応度の評価は、先ず上記した射影変換後のテンプレートが探索範囲内、即ちターゲット画像の範囲内に存在するか否かが判断され、範囲内に存在していない場合には当該個体の適応度が0と評価されてマッチング処理は終了し、次世代の個体の処理へと移行する。
範囲内に存在していた場合には、続いて画素差の計算、目的関数の計算、適応度関数の計算の処理が順に実行される。
画素差の計算は下式(式7)を用いて計算される。
目的関数値は下式(式8)で計算され、適応度関数は以下の(式9)で計算される。
式9に示された適応度関数は、画素差により動的に変化する動的適応度関数(Dynamic Fitness function with Pixel Difference)である。
式9に示された適応度関数は、画素差により動的に変化する動的適応度関数(Dynamic Fitness function with Pixel Difference)である。
適応度関数は、n+1世代の間、最悪の目的関数値に従って動的に変化する。この処理によって淘汰圧が適切に制御され、探索効率が向上する。
初期集団(第0世代)の個体について上記したマッチング処理の実行が終了すると、個体の世代数を1つ更新し、更新された世代数が一定数に達したか否かが判断される。図2では一定数として200(世代)を設定した例を示しているが、この数値(世代数)の設定は適宜変更することができる。
個体の世代数が一定数に達していないと判断された場合、次世代の新たな個体集団(新個体集団と称す)が生成される。
個体の世代数が一定数に達していないと判断された場合、次世代の新たな個体集団(新個体集団と称す)が生成される。
図4は、新個体集団の生成処理の流れを示すフローチャートである。
生成された新個体集団(第1世代集団)に対して、先ずターゲット画像内における探索領域の制御(図5参照)が行われ、次いで新個体集団内の個体が有する遺伝子に対して選択、交差、突然変異からなる遺伝的オペレータが実行される。
生成された新個体集団(第1世代集団)に対して、先ずターゲット画像内における探索領域の制御(図5参照)が行われ、次いで新個体集団内の個体が有する遺伝子に対して選択、交差、突然変異からなる遺伝的オペレータが実行される。
図5は、探索領域の制御処理の流れを示すフローチャートである。
この探索領域の制御処理は、具体的には、ターゲット画像内における探索領域を最初に定められた領域に固定せずに探索領域を拡大縮小する制御、即ちフレキシブルな探索領域の制御(Flexible Search Domain Control)を行う処理であり、探索領域は集団に含まれるエリート個体と世代数に依存して制御される。
探索領域の制御処理においては、新たな探索領域の位置の設定(図6参照)と、新たな探索領域のサイズの設定(図7参照)とが行われた後、新たに設定された探索領域に基づいて全ての個体の遺伝子の再生成(再コーディング)が行われる。
この探索領域の制御処理は、具体的には、ターゲット画像内における探索領域を最初に定められた領域に固定せずに探索領域を拡大縮小する制御、即ちフレキシブルな探索領域の制御(Flexible Search Domain Control)を行う処理であり、探索領域は集団に含まれるエリート個体と世代数に依存して制御される。
探索領域の制御処理においては、新たな探索領域の位置の設定(図6参照)と、新たな探索領域のサイズの設定(図7参照)とが行われた後、新たに設定された探索領域に基づいて全ての個体の遺伝子の再生成(再コーディング)が行われる。
図6は、新たな探索領域の位置設定処理の流れを示すフローチャートである。
探索領域の位置設定処理は、以下の手順で行われる。
先ず、前記適応度の評価結果に基づいて集団中の個体からエリート個体(最良個体)を検出する。
尚、エリート個体とは、集団内の個体のうち最も適応度が高い個体であり、集団内の全ての個体の目的関数値を比較することにより見い出すことができる。
次に、見い出されたエリート個体の座標を中心座標とするように、探索領域をエリート個体の位置へと移動する。
このように、本発明に係る方法では、探索領域の中心は、最初の世代(第0世代)ではターゲット画像(ターゲットフレーム)の中心と一致するが、第1世代以降ではエリート個体の位置と一致するようになる。
探索領域の位置設定処理は、以下の手順で行われる。
先ず、前記適応度の評価結果に基づいて集団中の個体からエリート個体(最良個体)を検出する。
尚、エリート個体とは、集団内の個体のうち最も適応度が高い個体であり、集団内の全ての個体の目的関数値を比較することにより見い出すことができる。
次に、見い出されたエリート個体の座標を中心座標とするように、探索領域をエリート個体の位置へと移動する。
このように、本発明に係る方法では、探索領域の中心は、最初の世代(第0世代)ではターゲット画像(ターゲットフレーム)の中心と一致するが、第1世代以降ではエリート個体の位置と一致するようになる。
新たな探索領域の位置設定処理が終了した後、当該新たな探索領域のサイズ設定処理が行われる。
図7は、新たな探索領域の位置設定処理の流れを示すフローチャートであり、探索領域のサイズは世代数により決定される。
新たな探索領域の大きさは、下式(式10)による変換により決定される。
図7は、新たな探索領域の位置設定処理の流れを示すフローチャートであり、探索領域のサイズは世代数により決定される。
新たな探索領域の大きさは、下式(式10)による変換により決定される。
遺伝的アルゴリズムの探索は、世代数に伴って徐々にグローバル最適化に近づくため、(式10)中のαは世代数により変化する。具体的には、世代数が少ない場合にはα=1、即ち探索領域を全範囲とし、世代数の経過に伴って多段階でαの値を小さくしていき、探索領域を狭くしていく。
図7示の例では、世代数(g)が10未満のときはα=1、世代数(g)が10以上50未満のときはα=0.5、世代数(g)が50以上75未満のときはα=0.375、世代数(g)が75以上のときはα=0.25とされており、これら世代数に応じたαの値によって探索領域のサイズが変更される。尚、各段階のαの値及び段階数については、探索対象等に応じて適宜変更可能である。
図7示の例では、世代数(g)が10未満のときはα=1、世代数(g)が10以上50未満のときはα=0.5、世代数(g)が50以上75未満のときはα=0.375、世代数(g)が75以上のときはα=0.25とされており、これら世代数に応じたαの値によって探索領域のサイズが変更される。尚、各段階のαの値及び段階数については、探索対象等に応じて適宜変更可能である。
このように、世代を経るにつれて探索領域を縮小する方法を採用するのは、前世代の探索結果から探索対象の位置がある程度絞られるので、探索領域を全世代にわたって全領域(α=1)とするのは無駄な処理であると考えられるためであり、探索領域を段階的に縮小することによって、処理時間を短縮することが可能となる。尚、初期段階(g<10)において全領域を探索するのは、初期段階では探索対象がどこにあるかが全く不明であるためである。
また、探索領域の縮小を1世代毎ではなく数世代毎に段階的に行うのは、処理時間の短縮が可能となること、前世代において探索に失敗しても次世代で修復が可能となること、数世代に亘って同じサイズで探索をすることにより密で重点的な探索が可能となることによる。尚、重点的な探索とは、高い適応度をもつ個体が競合する場合に、同じサイズで探索を行うことにより、徹底的に最良個体を探すことを意味している。
また、探索領域の縮小を1世代毎ではなく数世代毎に段階的に行うのは、処理時間の短縮が可能となること、前世代において探索に失敗しても次世代で修復が可能となること、数世代に亘って同じサイズで探索をすることにより密で重点的な探索が可能となることによる。尚、重点的な探索とは、高い適応度をもつ個体が競合する場合に、同じサイズで探索を行うことにより、徹底的に最良個体を探すことを意味している。
新たな探索領域の位置とサイズの設定が行われた後、新たに設定された探索領域に基づいて全ての個体の遺伝子の再生成(再コーディング)が行われる
この遺伝子の再生成では、染色体の遺伝子のうち位置を表す遺伝子(tx,ty)のみが新たな探索領域のサイズに従って再生成される。
本発明においては、このように位置を表す遺伝子のみを再生成することによって、それまでの個体集団全体の進化の破壊や、拡大縮小(スケーリング)や回転を表す遺伝子が正解に近い場合にそれらの破壊を引き起こすことを防止しながら、新たに設定された探索領域外に位置する個体を探索領域内に移動することが可能となる。
この遺伝子の再生成では、染色体の遺伝子のうち位置を表す遺伝子(tx,ty)のみが新たな探索領域のサイズに従って再生成される。
本発明においては、このように位置を表す遺伝子のみを再生成することによって、それまでの個体集団全体の進化の破壊や、拡大縮小(スケーリング)や回転を表す遺伝子が正解に近い場合にそれらの破壊を引き起こすことを防止しながら、新たに設定された探索領域外に位置する個体を探索領域内に移動することが可能となる。
上記した探索領域の制御処理(図5、図6及び図7参照)の後、新個体集団内の個体が有する遺伝子に対して遺伝的オペレータが実行される(図4参照)。
遺伝的オペレータは、選択、交差、突然変異の操作からなる。
選択(selection)とは、各個体の適応度に比例して個体の生存の可能性を決定する操作であり、ルーレットルールに基づいて行われ、適応度に基づく淘汰が行われる。
具体的には、今の世代の個体I1〜INから、重複を許してN個の個体をランダムに選択することによって、次の世代のN個の個体を決定する操作であり、ある個体Iiが次の世代の個体として選択される確率P(Ii)を下式(式11)によって決定する。
遺伝的オペレータは、選択、交差、突然変異の操作からなる。
選択(selection)とは、各個体の適応度に比例して個体の生存の可能性を決定する操作であり、ルーレットルールに基づいて行われ、適応度に基づく淘汰が行われる。
具体的には、今の世代の個体I1〜INから、重複を許してN個の個体をランダムに選択することによって、次の世代のN個の個体を決定する操作であり、ある個体Iiが次の世代の個体として選択される確率P(Ii)を下式(式11)によって決定する。
交差(crossover)とは、生成されたN個の個体をランダムに2つずつ選択してペアをつくり、交差率と呼ばれる生起確率(通常60〜90%程度)に基づいて、そのペアを交差させるかどうかを決定し、交差させることが決定したペアについては、それらの染色体を交差させて新たな2つの染色体をつくり、それらによって元の染色体を置き換える処理である。
図10は交差の一例を示す図であり、最も典型的な交差である一点交差を示している。
1点交差では、染色体の任意に選択された位置に交差点を設定し、その点で染色体を2つに切断し、後半部分を入れ替える。これにより、今の世代の個体の染色体とは異なった染色体を有する次世代の個体が生成される。
尚、交差方法には、外にも多点交差、セグメント交差、一様交差、シャッフル交差、ブレンド交差などがあり、これらの交差方法を用いることも可能である。
図10は交差の一例を示す図であり、最も典型的な交差である一点交差を示している。
1点交差では、染色体の任意に選択された位置に交差点を設定し、その点で染色体を2つに切断し、後半部分を入れ替える。これにより、今の世代の個体の染色体とは異なった染色体を有する次世代の個体が生成される。
尚、交差方法には、外にも多点交差、セグメント交差、一様交差、シャッフル交差、ブレンド交差などがあり、これらの交差方法を用いることも可能である。
突然変異(mutation)とは、全個体の染色体の全遺伝子に対して低い生起確率(突然変異率、通常は0.1〜5%程度)に基づいて、その遺伝子をランダムに変更する操作である。
図11は突然変異の一例を示す図であり、この例では、8ビットからなる染色体の1つのビット(遺伝子)が反転(1→0)されている。
図11は突然変異の一例を示す図であり、この例では、8ビットからなる染色体の1つのビット(遺伝子)が反転(1→0)されている。
このように、遺伝的オペレータの実行処理では、新個体集団(第1世代)の個体に対して上記した選択、交差、突然変異の各操作が順次実行されることにより、更に次世代(第2世代)の新たな個体集団が生成される。
そして、新たに生成された次世代(第2世代)の集団の各個体に対して、上述したテンプレートの変換処理、マッチング処理、新個体集団の生成処理(探索領域の制御処理、遺伝的オペレータの実行を含む)の各処理が順次行われることにより、次世代(第3世代)の新たな個体集団が生成される。
そして、新たに生成された次世代(第2世代)の集団の各個体に対して、上述したテンプレートの変換処理、マッチング処理、新個体集団の生成処理(探索領域の制御処理、遺伝的オペレータの実行を含む)の各処理が順次行われることにより、次世代(第3世代)の新たな個体集団が生成される。
このような方法で、第0世代から第1世代、第2世代、第3世代、第4世代、第5世代・・・と集団の世代数を更新していき、終了条件を満たした段階で特定領域(本例では口唇領域)の抽出が完了したと判断し、結果を出力して全ての処理が終了する。
終了条件としては、個体の世代数が一定数に達したときとするのが一般的であるが(フローチャートでは200世代に達したときに終了)、他の条件、例えば「同じエリート適応度(エリート個体の適応度値)が続いた世代数」が或る一定数となるという条件を用いてもよい。
このような他の条件を用いる場合、終了条件を100世代に設定すると、100世代に亘って同じエリート適応度が続いた場合に終了することになる。
終了条件としては、個体の世代数が一定数に達したときとするのが一般的であるが(フローチャートでは200世代に達したときに終了)、他の条件、例えば「同じエリート適応度(エリート個体の適応度値)が続いた世代数」が或る一定数となるという条件を用いてもよい。
このような他の条件を用いる場合、終了条件を100世代に設定すると、100世代に亘って同じエリート適応度が続いた場合に終了することになる。
図12は本発明に係る方法の第二実施形態の全体の流れを示すフローチャートである。
第二実施形態の方法は、ターゲット画像が動画像である場合であり、動画像から特定領域(本例では口唇領域)を抽出するために用いられる方法である。
以下、この方法をフローチャートに沿って説明する。
第二実施形態の方法では、前述の第一実施形態の方法と同様に、先ず抽出対象となる特定領域(口唇領域)を含むターゲット画像から特定領域を抽出するために用いられるテンプレートを入力した後、初期集団を生成し、遺伝的アルゴリズムを実行する。
このテンプレートの入力処理および初期集団の生成処理については、前述の第一実施形態において説明した処理方法と全く同じであるため説明を省略する。
第二実施形態の方法は、ターゲット画像が動画像である場合であり、動画像から特定領域(本例では口唇領域)を抽出するために用いられる方法である。
以下、この方法をフローチャートに沿って説明する。
第二実施形態の方法では、前述の第一実施形態の方法と同様に、先ず抽出対象となる特定領域(口唇領域)を含むターゲット画像から特定領域を抽出するために用いられるテンプレートを入力した後、初期集団を生成し、遺伝的アルゴリズムを実行する。
このテンプレートの入力処理および初期集団の生成処理については、前述の第一実施形態において説明した処理方法と全く同じであるため説明を省略する。
遺伝的アルゴリズムの実行処理は図2に示した流れに沿って実行される。
また、遺伝的アルゴリズムの実行処理内で行われるマッチング処理は図3に示した流れに沿って実行され(但し、ターゲットフレームとしては動画像フレームが入力される)、新個体集団の生成処理は図4に示した流れに沿って実行される。
そして、新個体集団の生成処理内で行われる探索領域の制御処理は図5に示した流れに沿って実行され、探索領域の制御処理内で行われる探索領域の位置設定処理は図6に示した流れに沿って行われる。
このように、第二実施形態の方法における遺伝的アルゴリズムの実行処理の大部分は、上述した第一実施形態の方法における処理と同じ方法により実行されるが、探索領域の制御処理内で行われる探索領域のサイズ設定処理が第一実施形態の処理方法(図7参照)と若干異なっている。
また、遺伝的アルゴリズムの実行処理内で行われるマッチング処理は図3に示した流れに沿って実行され(但し、ターゲットフレームとしては動画像フレームが入力される)、新個体集団の生成処理は図4に示した流れに沿って実行される。
そして、新個体集団の生成処理内で行われる探索領域の制御処理は図5に示した流れに沿って実行され、探索領域の制御処理内で行われる探索領域の位置設定処理は図6に示した流れに沿って行われる。
このように、第二実施形態の方法における遺伝的アルゴリズムの実行処理の大部分は、上述した第一実施形態の方法における処理と同じ方法により実行されるが、探索領域の制御処理内で行われる探索領域のサイズ設定処理が第一実施形態の処理方法(図7参照)と若干異なっている。
図13は、第二実施形態に係る方法における探索領域のサイズ設定処理の流れを示すフローチャートである。
第二実施形態に係る方法では、探索領域のサイズ設定処理において、最初にフレーム数(f)が0であるか否かの判断が行われる点のみにおいて、第一実施形態のフローと異なっている。
f=0である場合、即ち最初のフレーム(第1フレーム)については、第一実施形態の場合と同じく、(式10)中のαの値は、世代数(g)が10未満のときはα=1、世代数(g)が10以上50未満のときはα=0.5、世代数(g)が50以上75未満のときはα=0.375、世代数(g)が75以上のときはα=0.25とするが、次のフレーム(第2フレーム)からは、世代数(g)が50未満のときはα=0.5、世代数(g)が50以上75未満のときはα=0.375、世代数(g)が75以上のときはα=0.25とする。
第二実施形態に係る方法では、探索領域のサイズ設定処理において、最初にフレーム数(f)が0であるか否かの判断が行われる点のみにおいて、第一実施形態のフローと異なっている。
f=0である場合、即ち最初のフレーム(第1フレーム)については、第一実施形態の場合と同じく、(式10)中のαの値は、世代数(g)が10未満のときはα=1、世代数(g)が10以上50未満のときはα=0.5、世代数(g)が50以上75未満のときはα=0.375、世代数(g)が75以上のときはα=0.25とするが、次のフレーム(第2フレーム)からは、世代数(g)が50未満のときはα=0.5、世代数(g)が50以上75未満のときはα=0.375、世代数(g)が75以上のときはα=0.25とする。
このように、第1フレームの初期段階(g<10)において全領域を探索するのは、初期段階では探索対象がどこにあるかが全く不明であることと、本実施形態の方法では前フレームの遺伝的な情報を次フレームに継承して探索を行うので第1フレームが重要であるという理由によるものである。
また、第1フレーム以外は、初期状態(第0世代)において、探索領域を全領域(α=1)とせずに縮小された探索領域(α=0.5)とするのは、第2フレーム以降は前フレームの結果から探索対象の位置がある程度絞られているので、探索領域をターゲットフレーム全体(α=1)とするのは無駄な処理であると考えられるためであり、これによって処理時間を大幅に短縮することができる。
また、第1フレーム以外は、初期状態(第0世代)において、探索領域を全領域(α=1)とせずに縮小された探索領域(α=0.5)とするのは、第2フレーム以降は前フレームの結果から探索対象の位置がある程度絞られているので、探索領域をターゲットフレーム全体(α=1)とするのは無駄な処理であると考えられるためであり、これによって処理時間を大幅に短縮することができる。
このような探索領域の制御処理(図5、図6及び図13参照)の後、新個体集団内の個体が有する遺伝子に対して上述したような遺伝的オペレータが実行され(図4参照)、新個体集団(第0世代)の個体に対して上記した選択、交差、突然変異の各操作が順次実行されることにより、更に次世代(第1世代)の新たな個体集団が生成される。
そして、新たに生成された次世代(第1世代)の集団の各個体に対して、上述したテンプレートの変換処理、マッチング処理、新個体集団の生成処理(探索領域の制御処理、遺伝的オペレータの実行を含む)の各処理が順次行われることにより、次世代(第2世代)の新たな個体集団が生成される。
そして、新たに生成された次世代(第1世代)の集団の各個体に対して、上述したテンプレートの変換処理、マッチング処理、新個体集団の生成処理(探索領域の制御処理、遺伝的オペレータの実行を含む)の各処理が順次行われることにより、次世代(第2世代)の新たな個体集団が生成される。
このような方法で、第0世代から第1世代、第2世代、第3世代、第4世代、第5世代・・・と集団の世代数を更新していき、終了条件を満たした段階で特定領域(本例では口唇領域)の抽出が完了したと判断し、結果を出力して第1フレームについての処理が終了する。尚、終了条件については、第一実施形態で述べた通りである。
上記したように第1フレームについての処理が全て終了すると、動画フレームの終端であるか否か(最終フレームに達したか否か)についての判断が行われ、終端ではないと判断された場合(動画像の場合、第1フレームの処理終了時点では終了にはならない)には、次のフレーム(第2フレーム)についての処理が開始される。
第2フレームでは、先ず新個体集団の生成処理が図4に示した流れに沿って実行され、次いで新個体集団の生成処理内で行われる探索領域の制御処理が図5に示した流れに沿って実行され、更に探索領域の制御処理内で行われる探索領域の位置設定処理が図6に示した流れに沿って行われる。尚、これら図4〜図6の処理の流れは既に説明した通りであるため、説明を省略する。
探索領域の制御処理内で行われる探索領域のサイズ設定処理は、図13に示すフローチャートに沿って行われる。
第2フレームではf=1であるため、(式10)中のαの値は、世代数(g)が50未満のときはα=0.5、世代数(g)が50以上75未満のときはα=0.375、世代数(g)が75以上のときはα=0.25とする。
前述したように、第2フレームからは、最初の世代(第0世代)から縮小された探索領域(α=0.5)にて探索を開始することによって、処理速度を向上させることが可能となる。
第2フレームではf=1であるため、(式10)中のαの値は、世代数(g)が50未満のときはα=0.5、世代数(g)が50以上75未満のときはα=0.375、世代数(g)が75以上のときはα=0.25とする。
前述したように、第2フレームからは、最初の世代(第0世代)から縮小された探索領域(α=0.5)にて探索を開始することによって、処理速度を向上させることが可能となる。
第1フレーム(前フレーム)の最終世代において最小領域にまで縮小された探索領域(α=0.25)を、第2フレーム(次フレーム)の最初の世代において拡大する(α=0.5)のは、以下の理由によるものである。
第1には、前フレームの処理で探索に失敗しても、探索領域をある程度まで拡大することで、前フレームの失敗を次フレームへとひきずることなく、次フレームで修復することが可能であるためである。(自己修復機能)
第2には、前フレームの処理で探索に成功しても、次フレームで探索対象やカメラが激しく移動し、前フレームから探索対象が急激に移動した場合、探索領域を狭めたままでは失敗する可能性があり、探索領域をある程度まで拡大することで、このような激しい変化もカバー可能となるためである。(安全装置機能)
第1には、前フレームの処理で探索に失敗しても、探索領域をある程度まで拡大することで、前フレームの失敗を次フレームへとひきずることなく、次フレームで修復することが可能であるためである。(自己修復機能)
第2には、前フレームの処理で探索に成功しても、次フレームで探索対象やカメラが激しく移動し、前フレームから探索対象が急激に移動した場合、探索領域を狭めたままでは失敗する可能性があり、探索領域をある程度まで拡大することで、このような激しい変化もカバー可能となるためである。(安全装置機能)
探索領域のサイズ設定処理では、第1フレームにおいては、前述の第一実施形態と同様に、探索領域の中心は最初の世代(第0世代)ではターゲット画像(ターゲットフレーム)との中心と一致し、第1世代以降ではエリート個体の位置と一致する。
そして、第2フレーム以降では、探索領域の中心は、第0世代では前フレームの最終的な(最終世代の)エリート個体の位置と一致し、第1世代以降ではエリート個体の位置と一致する。
そして、第2フレーム以降では、探索領域の中心は、第0世代では前フレームの最終的な(最終世代の)エリート個体の位置と一致し、第1世代以降ではエリート個体の位置と一致する。
そして、第2フレームについても第1フレームと同様に、このような探索領域のサイズ設定処理(図13参照)の後、新個体集団内の個体が有する遺伝子に対して上述したような遺伝的オペレータが実行され(図4参照)、新個体集団(第0世代)の個体に対して上記した選択、交差、突然変異の各操作が順次実行されることにより、更に次世代(第1世代)の新たな個体集団が生成される。
そして、新たに生成された次世代(第1世代)の集団の各個体に対して、遺伝的アルゴリズムが実行され、即ち上述したテンプレートの変換処理、マッチング処理、新個体集団の生成処理(探索領域の制御処理、遺伝的オペレータの実行を含む)の各処理が順次行われることにより、次世代(第2世代)の新たな個体集団が生成される。
そして、新たに生成された次世代(第1世代)の集団の各個体に対して、遺伝的アルゴリズムが実行され、即ち上述したテンプレートの変換処理、マッチング処理、新個体集団の生成処理(探索領域の制御処理、遺伝的オペレータの実行を含む)の各処理が順次行われることにより、次世代(第2世代)の新たな個体集団が生成される。
このような方法で、第0世代から第1世代、第2世代、第3世代、第4世代、第5世代・・・と集団の世代数を更新していき、前述した終了条件を満たした段階で特定領域(本例では口唇領域)の抽出が完了したと判断し、結果を出力して第2フレームについての処理が終了する。
第2フレームについての処理が終了すると、動画フレームの終端であるか否かについての判断が行われ、終端ではないと判断された場合には、次のフレーム(第3フレーム)についての処理が開始され、上述した第2フレームと同様の手順で各処理が実行される。
このように、第2フレーム、第3フレーム、第4フレーム、第5フレーム・・・とフレーム数を更新していき、フレーム終端(最終フレーム)に達したと判断された場合には、全ての処理を終了する。
このように、第2フレーム、第3フレーム、第4フレーム、第5フレーム・・・とフレーム数を更新していき、フレーム終端(最終フレーム)に達したと判断された場合には、全ての処理を終了する。
以上、本発明に係る画像内特定領域抽出方法の代表的な実施形態として、抽出対象(探索対象)となる特定領域が人物の口唇領域である場合を例に挙げて説明したが、本発明は口唇領域以外の他の特定領域の抽出に用いることも勿論可能である。
すなわち、上記説明した全体の処理フローにおいて、特定の処理段階(処理工程)について、探索対象となる特定領域に応じて設定を変えることにより、様々な特定領域の探索・抽出が可能となる。
すなわち、上記説明した全体の処理フローにおいて、特定の処理段階(処理工程)について、探索対象となる特定領域に応じて設定を変えることにより、様々な特定領域の探索・抽出が可能となる。
探索対象に応じて設定を変える処理段階は以下の通りである。
先ず、テンプレートの入力段階において、入力されるテンプレートの色情報と形状情報の設定が、探索対象となる特定領域に応じて変えられる。
色情報については、探索対象の色に応じて設定を変えればよい。
すなわち、上記実施形態では、探索対象が赤みを帯びている口唇領域であったため、色情報としてYxy色空間の赤みを示すx成分を用いたが、探索対象に適した色情報を設定すればよく、例えば、探索対象が緑みを帯びた領域であれば、Yxy色空間の緑みを示すy成分を用いればよい。
形状情報については、上記実施形態では、発話に伴って考慮すべきでない内部領域(歯や口腔)が変化する口唇領域であったために、矩形を変化させた四角環状テンプレートを用いたが、形状変化がない物体を探索・抽出する場合には基本的には矩形テンプレートを用いればよい。
先ず、テンプレートの入力段階において、入力されるテンプレートの色情報と形状情報の設定が、探索対象となる特定領域に応じて変えられる。
色情報については、探索対象の色に応じて設定を変えればよい。
すなわち、上記実施形態では、探索対象が赤みを帯びている口唇領域であったため、色情報としてYxy色空間の赤みを示すx成分を用いたが、探索対象に適した色情報を設定すればよく、例えば、探索対象が緑みを帯びた領域であれば、Yxy色空間の緑みを示すy成分を用いればよい。
形状情報については、上記実施形態では、発話に伴って考慮すべきでない内部領域(歯や口腔)が変化する口唇領域であったために、矩形を変化させた四角環状テンプレートを用いたが、形状変化がない物体を探索・抽出する場合には基本的には矩形テンプレートを用いればよい。
次に、遺伝的アルゴリズムが実行される個体集団の生成段階(初期集団生成段階及び新個体集団生成段階)において、個体の遺伝子構造の設定が、探索対象となる特定領域に応じて変えられる。
例えば、探索対象とテンプレートとの幾何学的変形が常に相似関係にある場合には、拡大縮小倍率を表すパラメータは1つでよいし、探索対象が回転対称形である場合には、回転角度を表わすパラメータは不要となる。
また、各パラメータの範囲についても、探索対象の幾何学的変化の起こり得る範囲を考慮して適宜設定すればよい。
例えば、探索対象とテンプレートとの幾何学的変形が常に相似関係にある場合には、拡大縮小倍率を表すパラメータは1つでよいし、探索対象が回転対称形である場合には、回転角度を表わすパラメータは不要となる。
また、各パラメータの範囲についても、探索対象の幾何学的変化の起こり得る範囲を考慮して適宜設定すればよい。
更に、遺伝的アルゴリズムを用いたテンプレートマッチングでは、テンプレートを座標変換によりターゲットにマッチングさせるが、遺伝子の染色体(パラメータ)がその際の座標変換パラメータとなるので、上記した個体の遺伝子構造の設定に応じてテンプレートの変換段階の設定(射影変換に用いる変換行列)が変えられる。
以下、本発明に係る画像内特定領域抽出方法についての実施例を挙げることによって、本発明の効果をより明確なものとする。但し、本発明は以下の実施例により何ら限定されるものではない。
(実施例1)
抽出対象となる特定領域を人物の口唇領域とし、3人の人物を被験者として動画像からの口唇領域の抽出を試みた。
1.実験方法
テンプレート画像として、図14に示す3人の被験者(subject1〜3)の口唇周辺の矩形領域画像を入力した。各テンプレート画像の大きさは、被験者1が20×11ピクセル、被験者2が24×10ピクセル、被験者3が22×11ピクセルである。色情報としては、Yxy色空間の赤みを示すx成分を用いた。
ターゲット画像フレームとして、動画像フレーム(subject1〜3の各左欄)を入力した(図15にその一部を示している)。これらのターゲット画像フレームは、デジタルビデオにより撮られた動画像シーケンスから得た。全てのターゲット動画像フレームは240×180ピクセルであり、1秒当たり30フレームをもつ5秒の動画像(150フレーム)を用いて実験を行った。
撮影では、各被験者は、自然な光(蛍光灯光又は太陽光)の下で母音の発音を繰り返し、人工的に手ぶれを生じさせた。
(実施例1)
抽出対象となる特定領域を人物の口唇領域とし、3人の人物を被験者として動画像からの口唇領域の抽出を試みた。
1.実験方法
テンプレート画像として、図14に示す3人の被験者(subject1〜3)の口唇周辺の矩形領域画像を入力した。各テンプレート画像の大きさは、被験者1が20×11ピクセル、被験者2が24×10ピクセル、被験者3が22×11ピクセルである。色情報としては、Yxy色空間の赤みを示すx成分を用いた。
ターゲット画像フレームとして、動画像フレーム(subject1〜3の各左欄)を入力した(図15にその一部を示している)。これらのターゲット画像フレームは、デジタルビデオにより撮られた動画像シーケンスから得た。全てのターゲット動画像フレームは240×180ピクセルであり、1秒当たり30フレームをもつ5秒の動画像(150フレーム)を用いて実験を行った。
撮影では、各被験者は、自然な光(蛍光灯光又は太陽光)の下で母音の発音を繰り返し、人工的に手ぶれを生じさせた。
口唇領域の抽出処理は、上記第二実施形態の方法を用いて、コンピュータ装置でのプログラム処理により行なわれた。
遺伝的アルゴリズムのパラメータは、集団の大きさが10、交差の可能性が0.7、突然変異の可能性が0.15に設定され、四角環状に変形されたテンプレートの無視される内領域のパラメータは、w’/w=0.8、h’/h=0.5に設定された。
また、動的適応度関数を表す(式9)においてn=1を使用し、遺伝的アルゴリズムは200世代で終了させた。
実験で用いたコンピュータ装置のスペックは、Pentium4(登録商標)(256MB、2GHz)であった。
遺伝的アルゴリズムのパラメータは、集団の大きさが10、交差の可能性が0.7、突然変異の可能性が0.15に設定され、四角環状に変形されたテンプレートの無視される内領域のパラメータは、w’/w=0.8、h’/h=0.5に設定された。
また、動的適応度関数を表す(式9)においてn=1を使用し、遺伝的アルゴリズムは200世代で終了させた。
実験で用いたコンピュータ装置のスペックは、Pentium4(登録商標)(256MB、2GHz)であった。
2.実験結果
図15の各被験者についての右欄に処理結果が示されている。処理結果において、外の枠が探索領域、内の矩形が特定領域(口唇領域)である。
被験者2について、第2フレームで口唇領域の一部がフレームアウトしたことにより探索が失敗したが、次のフレームでは修復されて探索が成功している。これは、上記説明した自己修復機能が働いたことによるものである。
5秒の動画像フレーム(150フレーム)を用いて3人の被験者について各6回の処理を行った。フレームの数は、各被験者について6×150フレームであり、フレーム総数は2700である。
図15の各被験者についての右欄に処理結果が示されている。処理結果において、外の枠が探索領域、内の矩形が特定領域(口唇領域)である。
被験者2について、第2フレームで口唇領域の一部がフレームアウトしたことにより探索が失敗したが、次のフレームでは修復されて探索が成功している。これは、上記説明した自己修復機能が働いたことによるものである。
5秒の動画像フレーム(150フレーム)を用いて3人の被験者について各6回の処理を行った。フレームの数は、各被験者について6×150フレームであり、フレーム総数は2700である。
表1に抽出精度(accuracy)及び処理時間(processing time)を示す。
抽出精度は抽出が成功した割合であり、抽出が成功したか否かの判定は、実験結果が以下の条件を満たすか否かで行った。
T−3≦t≦T+3、M≦m≦1.3×M、angle−5°≦angle≦angle+5°
これらの条件式において、大文字は手動でテンプレートマッチングを行うことにより獲得される真の解であり、小文字は実験により得られた解である。尚、tは位置座標(x又はy座標)、mは拡大倍率、angleは回転角度を表わす。
抽出精度は抽出が成功した割合であり、抽出が成功したか否かの判定は、実験結果が以下の条件を満たすか否かで行った。
T−3≦t≦T+3、M≦m≦1.3×M、angle−5°≦angle≦angle+5°
これらの条件式において、大文字は手動でテンプレートマッチングを行うことにより獲得される真の解であり、小文字は実験により得られた解である。尚、tは位置座標(x又はy座標)、mは拡大倍率、angleは回転角度を表わす。
manualは、手動でテンプレートマッチングを行うことにより獲得される真の解であり、GAsは実験により得られた解(結果)である。
マニュアル解と実験により得られた解はほぼ一致しており、口唇領域の抽出が高精度で行われたことが分かる。
(実施例2)
抽出対象となる特定領域を赤いオートバイがある領域とし、動画像からのオートバイの領域の抽出を試みた。
1.実験方法
テンプレート画像として、図16に示すオートバイの周辺の矩形領域画像を入力した。色情報としては、オートバイが赤いことから、Yxy色空間の赤みを示すx成分を用いた。
ターゲット画像フレームとして、背景にオートバイを含む人物の動画像フレームを入力した(図17左側2列にその一部を示している)。これらのターゲット画像フレームは、デジタルビデオにより撮られた動画像シーケンスから得た。
オートバイ領域の抽出処理は、上記第二実施形態の方法を用いて、テンプレート形状を四角環状に変形させず矩形領域をそのまま用いたこと以外は実施例1と同じ方法でコンピュータ装置でのプログラム処理により行なわれた。
抽出対象となる特定領域を赤いオートバイがある領域とし、動画像からのオートバイの領域の抽出を試みた。
1.実験方法
テンプレート画像として、図16に示すオートバイの周辺の矩形領域画像を入力した。色情報としては、オートバイが赤いことから、Yxy色空間の赤みを示すx成分を用いた。
ターゲット画像フレームとして、背景にオートバイを含む人物の動画像フレームを入力した(図17左側2列にその一部を示している)。これらのターゲット画像フレームは、デジタルビデオにより撮られた動画像シーケンスから得た。
オートバイ領域の抽出処理は、上記第二実施形態の方法を用いて、テンプレート形状を四角環状に変形させず矩形領域をそのまま用いたこと以外は実施例1と同じ方法でコンピュータ装置でのプログラム処理により行なわれた。
2.実験結果
図17右側2列に処理結果が示されている。処理結果において、外の枠が探索領域、内の矩形が特定領域(オートバイ領域)である。
探索対象(オートバイ)が人物に遮られて探索が失敗しても、次のフレームでは修復されて探索が成功している。これは、上記説明した自己修復機能が働いたことによるものである。
また、処理時間は、5秒の動画像フレーム(150フレーム)につき4.670秒であった。
この結果から、本発明に係る方法によれば、口唇領域以外の対象領域についても高速且つ高精度な抽出処理が可能であることが確認された。
図17右側2列に処理結果が示されている。処理結果において、外の枠が探索領域、内の矩形が特定領域(オートバイ領域)である。
探索対象(オートバイ)が人物に遮られて探索が失敗しても、次のフレームでは修復されて探索が成功している。これは、上記説明した自己修復機能が働いたことによるものである。
また、処理時間は、5秒の動画像フレーム(150フレーム)につき4.670秒であった。
この結果から、本発明に係る方法によれば、口唇領域以外の対象領域についても高速且つ高精度な抽出処理が可能であることが確認された。
本発明によれば、一様な口唇領域の取得が可能となるため、視聴覚音声認識(携帯電話等のモバイル機器での文字入力)、テレビ電話等でのデータ圧縮(口唇領域の変化データを重点的に転送)といった用途への適用が可能であり、また対象物の位置や状態の推定が可能となることで、ロボットビジョン(ロボットによる人間や自動車等の認識・監視)、飛行機・鉄道・自動車等の運転手の監視(わき見や意識喪失の検出等)といった用途への適用も可能である。
Claims (9)
- 遺伝的アルゴリズムを用いた画像内の特定領域の抽出方法であって、
抽出対象となる特定領域を含むターゲット画像から特定領域を抽出するために用いられる色情報と形状情報からなるテンプレートを入力するテンプレート入力段階と、
複数の個体から構成される初期集団をランダムに生成する初期集団生成段階と、
集団内の個体に対して遺伝的アルゴリズムを実行する遺伝的アルゴリズム実行段階とからなり、
前記遺伝的アルゴリズム実行段階は、
前記テンプレートを射影変換するテンプレート変換段階と、
テンプレートマッチングを実行するマッチング段階と、
前記個体の世代数が一定数に達するまで、各世代において、次世代の新たな個体集団を生成する新個体集団生成段階と、前記テンプレート変換段階と、前記マッチング段階とを順に繰り返す段階とからなり、
前記マッチング段階は、
ターゲット画像フレームを入力するターゲットフレーム入力段階と、
前記集団内における各個体の適応度を評価する適応度評価段階とからなり、
前記新個体集団生成段階は、
前記ターゲット画像内における探索領域を制御する探索領域制御段階と、
前記新個体集団内における個体が有する遺伝子に対して選択、交差、突然変異からなる遺伝的オペレータを実行する遺伝的オペレータ実行段階とからなり、
前記探索領域制御段階は、
新たな探索領域の位置を設定する探索領域位置設定段階と、
新たな探索領域のサイズを設定する探索領域サイズ設定段階と、
前記新たな探索領域に基づいて全ての前記個体の遺伝子を再生成する遺伝子再生成段階とからなり、
前記探索領域位置設定段階は、
前記適応度の評価結果に基づいて集団中の個体からエリート個体を検出するエリート個体検出段階と、
前記エリート個体の座標と世代数に基づいて探索領域を移動させる探索領域移動段階とからなり、
前記探索領域サイズ設定段階は、
世代数の増加に伴って探索領域を段階的に縮小する探索領域サイズ変更段階からなる
ことを特徴とする画像内特定領域抽出方法。 - 前記遺伝子再生成段階における遺伝子の再生成が、位置を表す遺伝子のみについて実行されることを特徴とする請求項1記載の画像内特定領域抽出方法。
- 前記探索領域サイズ設定段階における探索領域の縮小が、複数世代毎に段階的に実行されることを特徴とする請求項1又は2記載の画像内特定領域抽出方法。
- 前記ターゲット画像が複数の動画像フレームから構成されてなる動画像であって、
前記初期集団生成段階と、
フレームを更新し、最終フレームに達するまで各フレームにおいて、前記新個体集団生成段階と、前記遺伝的アルゴリズム実行段階を繰り返し、遺伝的な情報を継承する段階を有してなる
ことを特徴とする請求項1乃至3いずれかに記載の画像内特定領域抽出方法。 - 前フレームにおける最終世代の探索領域を、次フレームの最初の世代において拡大することを特徴とする請求項4記載の画像内特定領域抽出方法。
- 第2フレーム以降における最初の世代の探索領域を、第1フレームの最初の世代の探索領域よりも縮小することを特徴とする請求項5記載の画像内特定領域抽出方法。
- 前記特定領域が人物の口唇領域であって、
前記テンプレートの形状情報が矩形を示す形状情報からなり、色情報が赤み成分を示す色情報からなるとともに、
該テンプレートは前記人物の閉じた状態における口唇周辺の矩形領域画像からなり、
前記テンプレート入力段階が、
テンプレート形状を矩形から四角環状へと変形する段階を含む
ことを特徴とする請求項1乃至6いずれかに記載の画像内特定領域抽出方法。 - 請求項1乃至7のいずれかに記載された方法をコンピュータに実行させるためのプログラム。
- 請求項8記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004192241A JP2006012093A (ja) | 2004-06-29 | 2004-06-29 | 画像内特定領域抽出方法及びこの方法を実行するためのプログラム及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004192241A JP2006012093A (ja) | 2004-06-29 | 2004-06-29 | 画像内特定領域抽出方法及びこの方法を実行するためのプログラム及び記録媒体 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006012093A true JP2006012093A (ja) | 2006-01-12 |
Family
ID=35779250
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004192241A Pending JP2006012093A (ja) | 2004-06-29 | 2004-06-29 | 画像内特定領域抽出方法及びこの方法を実行するためのプログラム及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006012093A (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008090792A (ja) * | 2006-10-05 | 2008-04-17 | Yamaguchi Univ | 遺伝的アルゴリズムを用いた眼球検出法 |
JP2009175925A (ja) * | 2008-01-23 | 2009-08-06 | Nec Software Chubu Ltd | 照合パラメータ最適化装置、最適化方法および最適化制御プログラム |
JP2010140425A (ja) * | 2008-12-15 | 2010-06-24 | Hitachi Kokusai Electric Inc | 画像処理システム |
CN106295793A (zh) * | 2016-08-30 | 2017-01-04 | 吉林大学 | 基于生物觅食行为的群机器人混合搜索方法 |
KR20190135176A (ko) * | 2018-05-28 | 2019-12-06 | 삼성에스디에스 주식회사 | 템플릿 매칭 방법 및 그 장치 |
-
2004
- 2004-06-29 JP JP2004192241A patent/JP2006012093A/ja active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008090792A (ja) * | 2006-10-05 | 2008-04-17 | Yamaguchi Univ | 遺伝的アルゴリズムを用いた眼球検出法 |
JP2009175925A (ja) * | 2008-01-23 | 2009-08-06 | Nec Software Chubu Ltd | 照合パラメータ最適化装置、最適化方法および最適化制御プログラム |
JP2010140425A (ja) * | 2008-12-15 | 2010-06-24 | Hitachi Kokusai Electric Inc | 画像処理システム |
CN106295793A (zh) * | 2016-08-30 | 2017-01-04 | 吉林大学 | 基于生物觅食行为的群机器人混合搜索方法 |
KR20190135176A (ko) * | 2018-05-28 | 2019-12-06 | 삼성에스디에스 주식회사 | 템플릿 매칭 방법 및 그 장치 |
KR102548722B1 (ko) | 2018-05-28 | 2023-06-27 | 삼성에스디에스 주식회사 | 템플릿 매칭 방법 및 그 장치 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871781B (zh) | 基于多模态3d卷积神经网络的动态手势识别方法及系统 | |
CN109409222B (zh) | 一种基于移动端的多视角人脸表情识别方法 | |
KR101558202B1 (ko) | 아바타를 이용한 애니메이션 생성 장치 및 방법 | |
CN103729120B (zh) | 用于产生缩略图的方法及其电子设备 | |
JP4483334B2 (ja) | 画像処理装置 | |
CN110910479B (zh) | 视频处理方法、装置、电子设备及可读存储介质 | |
CN113961736B (zh) | 文本生成图像的方法、装置、计算机设备和存储介质 | |
CN112001215B (zh) | 一种基于三维唇动的文本无关说话人身份识别方法 | |
CN114359517A (zh) | 虚拟形象生成方法、虚拟形象生成系统和计算设备 | |
CN108229432A (zh) | 人脸标定方法及装置 | |
CN111680550A (zh) | 情感信息识别方法、装置、存储介质及计算机设备 | |
Song et al. | A design for integrated face and facial expression recognition | |
JP2006012093A (ja) | 画像内特定領域抽出方法及びこの方法を実行するためのプログラム及び記録媒体 | |
Websdale et al. | Speaker-independent speech animation using perceptual loss functions and synthetic data | |
Abid et al. | Dynamic sign language and voice recognition for smart home interactive application | |
CN111950592A (zh) | 一种基于监督最小二乘多类核典型相关分析的多模态情感特征融合方法 | |
Vakhshiteh et al. | Lip-reading via deep neural networks using hybrid visual features | |
CN111199199A (zh) | 一种基于自适应上下文区域选取的动作识别方法 | |
CN116152926A (zh) | 基于视觉和骨架信息融合的手语识别方法、装置及系统 | |
Cheng et al. | Fractal dimension pattern-based multiresolution analysis for rough estimator of speaker-dependent audio emotion recognition | |
CN112906527B (zh) | 一种基于深度神经网络编码的指静脉生物密钥生成方法 | |
Khalil et al. | A multi-layer capsule-based forensics model for fake detection of digital visual media | |
Haidar et al. | Glove Based American Sign Language Interpretation Using Convolutional Neural Network and Data Glass | |
JP2007272398A (ja) | 分類装置、プログラム、及び方法 | |
Brahme et al. | Marathi digit recognition using lip geometric shape features and dynamic time warping |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070528 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20070530 |