JP5077956B2

JP5077956B2 - 情報端末装置

Info

Publication number: JP5077956B2
Application number: JP2008112416A
Authority: JP
Inventors: 晴久加藤; 暁夫米山
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2008-04-23
Filing date: 2008-04-23
Publication date: 2012-11-21
Anticipated expiration: 2028-04-23
Also published as: US20090267893A1; JP2009265809A; US8259064B2

Description

本発明は、撮影画像を取り込む機能を備えた情報端末装置に係り、特に、撮影画像内で被写体の動きを検出し、各動作に割り当てられた固有の制御を実行する情報端末装置に関する。

電子機器回路の高集積化に伴って情報端末装置の小型・軽量化が進み、キーボードやマウスなどの入力操作部の設置スペースを十分に確保することができなった結果、利用者が煩雑な入力操作を強いられることがある。キーボードやマウスなどの従来の入力操作部に代わる直感的な入力操作部として、手や指の動きを検知するインターフェースが開発されている。

特許文献１には、カメラで撮像された画像から手のエッジラインを抽出し、これをHough変換することによって指の向きを検出する技術が開示されている。

特許文献２には、手の色の範囲に入っている領域の外接矩形を求め、その全体に対してHough変換を施すことで指の候補となる直線を検出する技術が開示されている。

特許文献３には、赤外線カメラによる画像から体温に基づいて手領域を抽出し、抽出された手領域から、予め用意したパターンとのパターン・マッチングにより指先を特定する技術が開示されている。

特許文献４には、赤、青、黄の３色のマーカを備えた指サックをユーザの指に装着してカメラで撮影し、この撮影画像からマーカを検出することで指の動きを識別する技術が開示されている。
特開平６−２００５５号公報特開平９−３５０６６号公報特開２００１−２８２４５６号公報特開２００２−２６９５６７号公報

特許文献１、２に開示された技術では、直線検出に計算量の多いHough 変換を利用するため、携帯電話のように処理能力の低い情報端末では、操作するアプリケーションの実行速度を低下させてしまうという問題がある。また、指の画像は必ずしも直線のみで構成されておらず、特に関節やしわの部分は曲線を多く含むので、直線を検出するだけでは指を精度良く検出できない。さらに、背景に存在する直線と指の直線との区別については何ら触れられていない。

特許文献３では、撮影に赤外線カメラが用いられる。しかしながら、赤外線カメラは情報端末装置に内蔵されるカメラとしては普及していないので当該赤外線カメラを新たに組み込まなければならず、その追加に伴う消費電力の増加も問題となる。

特許文献４では、特別なセンサを必要とせずに、一般的なカメラだけを用いて直感的な操作を実現できる。しかしながら、操作のたびに指サックをはめる必要があるために煩わしいという問題がある。

本発明の目的は、上記した従来技術の課題を解決し、赤外線カメラのような付加的なハードウェアや指サックなどの附属品を必要とせず、少ない計算量で指先の動作を正確に識別し、各動作に割り当てられた制御を実行する情報端末装置を提供することにある。

上記の目的を達成するために、本発明は、被写体を連続的に撮影する撮影部および表示部を備えた情報端末装置において、以下のような手段を講じた点に特徴がある。
(1)撮影画像から特徴量を抽出する第１特徴量抽出手段と、前記抽出された特徴量を第１の学習モデルに適用して第１領域を抽出する第１領域抽出手段と、前記第１領域の特徴量を第２の学習モデルに適用して、当該第１領域の一部である第２領域を抽出する第２領域抽出手段と、前記第２領域の動きを検出する動き検出手段と、前記動きの検出結果に基づいて情報端末装置を制御する制御手段とを含む特徴とする。
(2)前記動き検出手段が、第２領域の個数を検出する個数検出手段、第２領域の拡大縮小を検出する拡縮検出手段、第２領域の移動を検出する移動検出手段、および第２領域の向きを検出する向き検出手段の少なくとも一つを含むことを特徴とする。

本発明によれば、以下のような効果が達成される。
(1)動き検出の対象となる第２領域を撮影画像からいきなり検出するのではなく、初めに第２領域を含む第１領域を抽出し、次いで、この第１領域のみを対象として第２領域を抽出するので、例えば、爪領域の動きを検出する場合、指や手などの肌領域を第１領域として初めに抽出し、この肌領域のみを対象に爪領域を抽出すれば、爪領域を少ない計算量で精度良く検出できるようになる。
(2)第２領域の移動、向きおよび拡縮といった動きのみならず個数も検出し、この個数をパラメータに加えて制御が実行されるので、第２領域の動きだけでは難しい複雑な制御を行えるようになる。

以下、図面を参照して本発明の最良の実施の形態について詳細に説明する。図１は、本発明を適用した携帯電話の主要部の構成を示した機能ブロック図であり、ここでは、本発明の説明に不用な構成は図示が省略されている。

撮像部１は、所定のサンプリング周期で被写体を連続的に撮影して、その撮影画像を出力する。この撮像部１としては携帯電話に標準装備されるデジタルカメラを用いることができる。本実施形態では被写体が手の甲側であり、特に指の爪が写るように撮影される。操作推定部２は、撮影された爪や指の動き、向き、個数等に基づいて入力操作を推定する。制御部３は、前記入力操作の推定結果に基づいて、表示部４の表示内容や実行中のアプリケーションを制御する。

前記操作推定部２は、撮影画像から爪領域（第２領域）を含む肌領域（第１領域）を抽出する肌領域抽出部２１と、抽出された肌領域から爪領域を抽出する爪領域抽出部２２と、抽出された爪領域の時間的な変化を追跡して当該爪領域の動きを検出する動き検出部２３とを含み、当該動き検出部２３の検出結果に基づいて入力操作を推定する。

このように、本実施形態では動き検出の対象となる爪領域を撮影画像からいきなり検出するのではなく、初めに爪領域を含む肌領域を抽出し、次いで、この肌領域のみを対象として爪領域を抽出するようにしている。これにより、指や手の甲と同様の色調である爪領域を、少ない計算量で精度良く検出できるようになる。

図２は、前記肌領域（第１領域）抽出部２１の構成を示した機能ブロック図であり、撮影画像の特徴量を学習モデルに適用して肌領域を抽出する。したがって、本実施形態では当該肌領域抽出部２１による肌領域抽出に先立って辞書データベース(DB)５５が予め構築される。

本実施形態では、肌領域を含む学習用画像を正例５１として用意すると共に、肌領域を含まない非肌の学習用画像を負例５２として用意し、これら学習用画像から肌領域および非肌領域を手動で抽出し、抽出された各領域から特徴量抽出部５３により肌および非肌の特徴量を抽出する。学習部５４は、抽出された肌および非肌の各特徴量を用いて、肌領域と非肌領域とを区別する尺度をそれぞれモデル化して辞書DB５５に登録しておく。このモデル化にはGMM(Gaussian Mixture Model) やSVM(Support Vector Machine)など任意の識別器を用いることができる。

前記正例および負例の各学習用画像５１，５２、特徴量抽出部５３および学習部５４は携帯電話に実装する必要はなく、学習結果としての辞書DB５５のみを実装すれば良い。前記学習部５４がGMM （Gaussian Mixture Model）を利用する場合、肌および非肌の分布確率P(x)は次式(1)で与えられる複数のガウス分布の和として求められる。

ここで、xおよびDは、それぞれ特徴量抽出部５３で抽出された特徴量およびその次数を表し、Nはガウス分布の数を表す。各ガウス分布には重み係数wｉが設定され、μiおよびΣiは、それぞれ平均値および共分散行列を表す。ガウス分布のパラメータは、EMアルゴリズムなどの最尤推定法を利用して決定できる。

前記学習部５４は、手動で肌領域が抽出された一般的な学習用画像について、肌であって特徴量xが発生する確率P(x|skin)を上式(1)に基づいて算出する。同様に、非肌であって特徴量xが発生する確率P(x|¬skin)を上式(1)に基づいて算出する。そして、それぞれの確率算出関数のパラメータ、すなわちガウス分布の数Nおよびそれぞれの平均値μi、共分散行列Σi、および重み係数wi が学習モデルの情報として辞書DB５５に登録される。

なお、利用者の肌を利用して学習する場合は、前記学習データとは別に利用者の肌領域から抽出した特徴量で確率を算出する。そして、前記学習データで学習した肌確率をPg(x|skin)、非肌確率をPg(x|¬skin) とし、利用者の肌で学習した肌確率をPu(x|skin)、非肌確率をPu(x|¬skin)とすれば、利用者の肌情報を反映した肌確率および非肌確率は、それぞれ次式(2)，(3)で与えられる。

本実施形態では、後に詳述するように、撮影画像から抽出された特徴量を前記学習モデルに適用して肌確率P(x|skin)および非肌確率P(x|¬ skin)を算出し、別途に与えられた閾値TH1を用いて、前記肌確率P(x|skin)と非肌確率P(x|¬ skin)との比率Lが次式(4)を満足する画素が肌領域とされる。

なお、肌確率の比率Lに関しては、画素値すべてに対する値を予め算出できるので、算出結果をモデル情報とすることもできる。この場合、モデル情報をテーブル、画素値を索引として参照するだけで高速な処理を実行できる。

一方、前記学習部５４がSVMを利用する場合は、予め用意された学習用データセットからMPEG-7 で規定された特徴量を抽出し、学習用肌領域の特徴量と学習用非肌領域の特徴量とを分離するマージンを最大化するような写像および超平面を構築し、これをモデル情報として出力する。

本実施形態では、後に詳述するように、撮影画像から抽出された特徴量をSVM上に写像し、これがSVMの超平面に対してどこに位置するかによって当該入力画像が正例コンテンツであるか負例コンテンツであるかを識別できる。すなわち、撮影画像から抽出された肌特徴量が、モデル情報の分離超平面に対して学習用肌領域の特徴量が多数存在する領域に位置する画素が肌領域とされる。

なお、利用者の肌を利用して学習する場合は、利用者の肌領域から抽出した特徴量を前記学習データに追加し、利用者の肌特徴量に予め設定した重みを付けて学習する。このようなSVMについては、V.N.Vapnik,「Statistical Learning Theory」, John Wiley & Sons(1998)などに記載されている。

図２へ戻り、前記肌領域抽出部２１において、第１画像補正部２１ａは、撮影画像の露光条件やホワイトバランスが適切に設定されおらず、肌が肌色として撮影されていない場合などに当該画像の色調を補正する。本実施形態では、コントラスト調整やホワイトバランス調整といった周知の技術を用いて色調が調整される。ホワイトバランス調整では、一般的な画像にはRGBが均等に存在するという仮定や最大値が白であるという仮定を利用できる。前者の場合、RGBの成分毎に平均値を求め、さらに平均値の平均に対する比を各成分に乗算することでホワイトバランスが調整される。すなわち、画素のRGB 成分を(ri, gi, bi) とし、それぞれの平均値を(Rave,Gave,Bave) とすれば、ホワイトバランス調整後の画素(r'i , g'i , b'i) は次式(5)で算出できる。

後者の場合は、各成分の最大値(rmax, gmax, bmax)を白と仮定し、ホワイトバランス調整後の画素(r''i , g''i , b''i)は次式(6)で算出される。

第１特徴量算出部２１ｂは、撮影画像から所定の単位領域（例えば、画素単位）ごとに画像特徴量を算出する。この特徴量算出には、MPEG-7 で規定されたColor Layout 、Color Histogram、Scalable Color、Dominant ColorおよびEdge Histogram などを利用できる。あるいは、HSV など各種色空間に変換した色情報そのものを利用しても良い。

第１領域特定部２１ｃは、撮像画像の特徴量と前記辞書DB５５に登録されている学習モデル情報とに基づいて撮影画像から肌領域を抽出すると共に、この肌領域の重心位置および平均画素値を算出する。重心位置の座標(xp, yp) は肌領域の各画素の位置情報(xi, yi) を用いて次式(7)で求められる。このようにして算出された肌領域の位置情報、重心位置および平均色は、肌領域情報として後段の爪領域抽出部２２へ出力される。

図３は、前記爪領域（第２領域）抽出部２２の構成を示した機能ブロック図であり、前記肌領域抽出部２１で抽出された肌領域の画像およびその特徴量、ならびに学習モデルに基づいて、当該肌領域から爪領域を抽出する。したがって、本実施形態でも爪領域抽出に先立って辞書データベース(DB)６５が予め構築される。

すなわち、爪領域を含む学習用画像を正例６１として用意すると共に、爪領域を含まない非肌の学習用画像を負例６２として用意し、これら学習用画像から爪領域および非爪領域を手動で抽出し、特徴量抽出部６３において爪および非爪の特徴量を抽出する。学習部６４は、抽出された爪および非爪の各特徴量を用いて、爪領域と非爪領域とを区別する尺度をそれぞれモデル化して辞書DB６５に登録しておく。

なお、学習モデルの構築方法は前記肌領域と非肌領域とを区別する学習モデルの構築方法と同一なので、ここでは説明を省略する。また、前記正例および負例の各学習用画像６１，６２、特徴量抽出部６３および学習部６４も携帯電話に実装する必要はなく、学習結果としての辞書DB６５のみを実装すれば良い。

第２画像補正部２２ａは、後段の処理において識別対象を検出しやすくするために、前記肌領域抽出部２１で抽出された肌領域情報を用いて撮影画像を補正する。前記第１画像補正部２１ａでは、一般的な画像の特性を利用して補正が行われるのに対して、この第２画像補正部２２ａでは、前記肌領域抽出部２１で抽出された肌領域情報の特性を利用して画像を補正する。特に、適切なホワイトバランスが設定されていない場合は色相がずれているため、第２画像補正部２２ａは、HSV色空間において前記肌領域の平均色の色相と前記正例５１の色相との差を補正情報として算出し、これを第２特徴量算出部２２ｂへ出力する。

第２特徴量算出部２２ｂは、前記肌領域抽出部２１で抽出された肌領域内部およびその近傍領域の各画素値に、前記第２画像補正部２２ａで算出された補正情報を加算する。さらに、補正後の各画素値を対象にして、前記第１特徴量算出部２１ｂと同様に、MPEG-7 で規定されたColor Layout、Color Histogram、Scalable Color、Dominant ColorあるいはEdge Histogramを適用して爪特徴量を算出する。あるいは、前記第１特徴量算出部２１ｂで算出された肌特徴量に前記第２画像補正部２２ａで算出された補正情報を加算し、これを爪特徴量として良く、このようにすれば特徴量算出の処理を簡略化できる。

なお、爪領域には肌領域には無い固有の特徴として光沢があるので、この光沢を爪領域の特徴量として利用しても良い。すなわち、爪は肌と比較して光の反射率が高いため、肌領域近傍の最大画素値は爪である可能性が高い。また、爪は適度に丸みを帯びているために光源から撮像部に対して直接反射する面を持つ場合が多い。そこで、肌領域抽出部２１で抽出された肌領域内部およびその近傍領域から画素の最大値を選択し、この最大値に対して所定の閾値（＜１）倍以上の画素値を有する画素を爪領域の画素としても良い。

第２領域特定部２２ｃは、前記第２特徴量算出部２２ｂで算出された特徴量を、前記辞書DB６５に登録されている学習モデル情報に適用して爪領域を抽出する。本実施形態では、図４に一例を示したように、爪領域（斜線のハッチング部分）の重心位置(xp,yp)および爪領域と判断された画素を含む外接矩形の位置(x1,y1)，(x2,y2)が算出され、これらが爪領域情報として前記動き検出部２３へ通知される。複数の爪領域が抽出された場合には、爪領域ごとに重心位置および外接矩形位置が算出される。

なお、複数の爪領域が隣接していると各爪領域が結合することが多い。このような場合には、各爪領域を分離するために爪領域の重心位置と肌領域の重心位置とを結ぶ方向へ爪領域を射影し、射影の最大値に予め設定した定数α（０＜α＜１）を乗じた値以下の極小値をとる軸で分離できる。

図５は、前記動き検出部２３の構成を示したブロック図であり、個数検出部２３ａは、撮影画像内の爪領域の個数を検出する。拡縮検出部２３ｂは、時刻t-1における爪領域の大きさと時刻tにおける爪領域の大きさとを比較して、爪領域の拡大または縮小を検知する。本実施形態では、爪領域の外接矩形の面積が変化した比率に基づいて拡縮の有無およびその割合が検出される。

移動検出部２３ｃは、爪領域の動きを検出する。本実施形態では、時刻tにおける爪領域iの重心位置pi および時刻t-1における爪領域jの重心位置pjに基づいて爪領域の動きが検出される。

なお、複数の爪領域が存在する場合には、時刻tにおける爪領域iおよび時刻t-1における爪領域jに関して、次式(8)，(9)に示したように、それぞれの重心位置pi ，pjの差、平均色ci，cjの差、および大きさsi，sjの差に、予め設定した重みwp，wc，wsをそれぞれ乗じた和を距離dij とし、その合計Σdijを最小化する組み合わせを両者の対応関係として求め、この対応関係に基づいて爪の動きを検出する。

すなわち、時刻t-1で２つの爪領域j1，j2が検出され、時刻tでも２つの爪領域i1，i2が検出されており、爪領域j1，i1間の距離dj1i1および爪領域j2，i2間の距離dj2i2の総和が最小値を示せば、爪領域j1がi1へ移動し、爪領域j2がi2へ移動したと推定される。そして、各爪領域の対応関係を推定できれば、各爪領域の座標位置は既知なので、その軌跡に基づいて各爪領域の動きを検出できる。

向き検出部２３ｄは、爪領域の重心位置と肌領域の重心位置とに基づいて爪の方向を算出する。本実施形態では、爪領域の重心位置から肌領域の重心位置を減算することで爪が指し示す方向ベクトルが算出される。なお、複数の爪領域が検出されている場合には、各爪領域の重心位置の平均値で爪の重心位置が代表される。

追跡データベース(DB)２３ｅでは、爪情報の個数や拡縮に対して所定の入力操作が対応付けられている。また、爪領域の上下左右方向への連続した動きや○印、△印、□印などの一筆書きの動きに対しても所定の入力操作が対応付けられている。さらに、爪領域の向きについても、上下左右方向に対して所定の入力操作が対応付けられている。

操作推定部２３ｆは、前記各検出部２３ａ，２３ｂ，２３ｃ，２３ｄで検出された爪領域の個数、拡縮、動きおよび向きをパラメータとして追跡DB２３ｅを検索し、これらの検出結果と対応付けられた入力操作を読み出して前記制御部３へ出力する。制御部３は、前記入力操作の推定結果に基づいて携帯電話を制御する。

図６は、撮影画像内での爪領域の上下左右方向への移動[同図(a)]に応じて表示部４の表示内容が制御される実施形態の一例[同図(b)]を示した図であり、本実施形態では、爪領域の動きが表示部４に表示されている物体６０の移動に割り当てられており、撮影画像内で爪領域を上下左右方向へ動かすと、これに同期して表示部４に表示されている物体６０が同様に上下左右方向へ移動する。

図７は、撮影画像内での爪領域の面積変化[同図(a)]に応じて表示部４の表示内容が制御される実施形態の一例[同図(b)]を示した図であり、本実施形態では、爪領域の面積が表示部４に表示されている物体６０の拡大縮小に割り当てられており、爪領域を撮影部１に接近させると、これに同期して表示部４に表示されている物体６０の表示が拡大される。同様に、爪領域を撮影部１から離間させると、これに同期して表示部４に表示されている物体６０の表示が縮小される。

図８は、爪領域の回動[同図(a)]に応じて表示部４の表示内容が制御される実施形態の一例[同図(b)]を示した図であり、本実施形態では、爪領域の回動が仮想的な視線移動に割り当てられており、撮影画像内で爪領域を回動させると、これに同期して表示部４に表示されている物体６０を見込む視線が移動する。

なお、前記図６，７，８を参照して説明した実施形態では爪領域が一つであったが、いずれのタイミングにおいても、２つ目の爪領域が検出されると、これをクリック操作と認識して所定の制御へ移行するようにしても良い。

図９，１０，１１は、表示部４に表示されている物体を、そのx軸，y軸およびz軸のいずれかを中心に回転させる操作の入力方法を示した図であり、爪領域の動きが物体の動きに割り当てられ、爪領域の個数が回転軸に割り当てられている。

本実施形態では、爪領域を円形に移動させることで物体の回転が指示され、爪領域が１個であればx軸、２個であればy軸、３個であればz軸が、回転の基準となる軸として指示される。したがって、図９に示したように、１つの爪領域G1を円形に移動させると、図１２に一例を示したように、表示部４の物体６０が基準姿勢[同図(a)]から、３次元空間をx軸中心で回転（ピッチ）する。このとき、物体６０の回転角度は爪領域G1の移動量に依存し、例えば爪領域G1を１周させれば４５°[同図(b)]だけ回転し、２周させれば９０°[同図(c)]だけ回転する。

また、図１０に示したように、２つの爪領域G1，G2を円形に移動させると、図１３に一例を示したように、物体６０が基準姿勢[同図(a)]からy軸中心で回転（ヨー）する。このときも、物体６０の回転角度は爪領域G1，G2の移動量に依存し、例えば爪領域G1，G2を４５°回転させれば４５°[同図(b)]だけ回転し、９０°回転させれば９０°[同図(c)]だけ回転する。

さらに、図１１に示したように、３つの爪領域G1，G2，G3を円形に移動させると、図１４に一例を示したように、物体６０が基準姿勢[同図(a)]からz軸中心で回転（ロール）する。このときも、物体６０の回転角度は爪領域G1，G2，G3の移動量に依存し、例えば爪領域G1，G2，G3を１０°回転させれば４５°[同図(b)]だけ回転し、２０°回転させれば９０°[同図(c)]だけ回転する。

図１５，１６，１７は、他の入力方法を示した図であり、ここでは、爪領域を回転させることで物体の回転角が指示され、爪領域が１個でx軸、２個でy軸、３個でz軸が指示される。したがって、図１５に示したように、１つの爪領域G1を回転させると、前記図１２に関して説明したように、表示部上の物体６０がx軸中心で回転（ピッチ）する。このときも、物体６０の回転角度は爪領域G1の回転量に依存し、例えば爪領域を１０°回転させれば４５°[同図(b)]だけ回転し、２０°回転させれば９０°[同図(c)]だけ回転する。

同様に、図１６に示したように、２つの爪領域G1，G2を回転させると、前記図１３に関して説明したように、物体６０がy軸中心で回転（ヨー）する。また、図１７に示したように、３つの爪領域G1，G2，G3を回転させると、前記図１４に関して説明したように、物体６０がz軸中心で回転（ロール）する。

なお、上記の実施形態では、爪領域の個数を回転軸に割り当て、爪領域の移動量や回転角度を物体の回転角度に割り当てるものとして説明したが、本発明はこれのみに限定されるものではなく、例えば爪領域の個数を色の成分に割り当て、表示部４に表示されている画像の色調を爪領域の動きで制御できるようにしても良い。すなわち、１つの爪領域G1を回転させると、その回転角度に応じてR成分が制御され、２つの爪領域G1，G2を回転させると、その回転角度に応じてG成分が制御され、３つの爪領域G1，G2，G3を回転させると、その回転角度に応じてB成分が制御されるようにすれば、爪領域を移動させるだけで表示部４の色調を簡単に調整できるようになる。

さらには、表示部４の色調はR，G，B等の色成分のみならず、コントラストや明るさにも依存するので、これらのパラメータ選択用に第２領域の個数を割り当てても良い。

あるいは、爪領域の個数を音の周波数帯域に割り当て、情報端末のスピーカから出力される音の音質を爪領域の動きで制御できるようにしても良い。すなわち、１つの爪領域G1を回転させると、その回転角度に応じて低周波数成分の増幅率が制御され、２つの爪領域G1，G2を回転させると、その回転角度に応じて低周波数成分の増幅率が制御され、３つの爪領域G1，G2，G3を回転させると、その回転角度に応じて音量が制御されるようにすれば、爪領域を移動させるだけで音質や音量を簡単に調整できるようになる。

また、上記の実施形態では、本発明の情報端末装置を携帯電話への適用を例にして説明したが、本発明はこれのみに限定されるものではなく、撮影機能を備えたPDAやコンピュータにも同様に適用できる。また、撮影機能は情報端末装置に一体化されている必要はなく、撮影機能を備えた装置と情報端末装置とが有線または無線で接続されているシステムにも同様に適用できる。

本発明を適用した携帯電話の主要部の構成を示した機能ブロック図である。肌領域（第１領域）抽出部の構成を示した機能ブロック図である。爪領域（第２領域）抽出部の構成を示した機能ブロック図である。爪領域を特定する爪領域情報を説明するための図である。動き検出部の構成を示したブロック図である。撮影画像内での爪領域の上下左右方向への移動に応じて表示部の表示内容が制御される実施形態の一例を示した図である。撮影画像内での爪領域の面積変化に応じて表示部の表示内容が制御される実施形態の一例を示した図である。爪領域の回動に応じて表示部の表示内容が制御される実施形態の一例を示した図である。１つの爪領域を円形に移動させたときに表示部の表示内容が制御される実施形態の一例を示した図である。２つの爪領域を円形に移動させたときに表示部の表示内容が制御される実施形態の一例を示した図である。３つの爪領域を円形に移動させたときに表示部の表示内容が制御される実施形態の一例を示した図である。１つの爪領域を移動させたときの表示部における物体の動きの一例を示した図である。２つの爪領域を移動させたときの表示部における物体の動きの一例を示した図である。３つの爪領域を移動させたときの表示部における物体の動きの一例を示した図である。１つの爪領域を回動させたときに表示部の表示内容が制御される実施形態の一例を示した図である。２つの爪領域を回動させたときに表示部の表示内容が制御される実施形態の一例を示した図である。３つの爪領域を回動させたときに表示部の表示内容が制御される実施形態の一例を示した図である。

符号の説明

１…撮像部，２…操作推定部，３…制御部，４…表示部，２１…肌領域抽出部，２２…爪領域抽出部，２３…動き検出部

Claims

被写体を連続的に撮影する撮影部および表示部を備えた情報端末装置において、
撮影画像から特徴量を抽出する第１特徴量抽出手段と、
前記抽出された特徴量を第１の学習モデルに適用して肌領域を抽出する第１領域抽出手段と、
前記肌領域の特徴量を第２の学習モデルに適用して、当該肌領域の一部である全ての爪領域を抽出する第２領域抽出手段と、
前記爪領域の個数を検出する個数検出手段と、
前記各爪領域の動きを検出する動き検出手段と、
前記爪領域の個数およびその動きの検出結果に基づいて情報端末装置を制御する制御手段とを具備し、
前記第２の学習モデルは、爪領域を含む学習用画像を正例、爪領域を含まない学習用画像を負例として抽出された爪および非爪の特徴量を用いて、爪領域と非爪領域とを区別する尺度をそれぞれモデル化して構築されることを特徴とする情報端末装置。
前記動き検出手段が、爪領域の拡大縮小を検出する拡縮検出手段、爪領域の移動を検出する移動検出手段、および爪領域の向きを検出する向き検出手段の少なくとも一つを含むことを特徴とする請求項１に記載の情報端末装置。
前記制御手段は、前記爪領域の動きに応じて、前記表示部に表示されている物体を移動させることを特徴とする請求項１または２に記載の情報端末装置。
前記爪領域の個数が、前記物体を移動させる際の基準となる軸に割り当てられていることを特徴とする請求項３に記載の情報端末装置。
前記爪領域の第１の個数がx軸に割り当てられ、第２の個数がy軸に割り当てられ、第３の個数がz軸に割り当てられていることを特徴とする請求項４に記載の情報端末装置。
前記制御手段は、前記爪領域の動きに応じて、前記表示部の色調を制御することを特徴とする請求項１または２に記載の情報端末装置。
前記爪領域の個数が、制御対象の色成分に割り当てられていることを特徴とする請求項６に記載の情報端末装置。
情報端末装置がスピーカを具備し、
前記制御手段は、前記爪領域の動きに基づいて、前記スピーカから出力される音を制御することを特徴とする請求項１または２に記載の情報端末装置。
前記爪領域の個数が、制御対象の周波数帯域に割り当てられていることを特徴とする請求項８に記載の情報端末装置。
前記爪領域の第１の個数が音量に割り当てられていることを特徴とする請求項９に記載の情報端末装置。