JP2018517984A

JP2018517984A - 画像領域を選択して追跡することによるビデオ・ズームのための装置および方法

Info

Publication number: JP2018517984A
Application number: JP2017563943A
Authority: JP
Inventors: ヴェルディエ，アラン; カゼット，クリストフ; ガンドン，シリル; ガルニエ，ブルーノ
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2015-06-15
Filing date: 2016-06-14
Publication date: 2018-07-05
Also published as: KR20180018561A; EP3308258A1; TW201712524A; CN107771314A; WO2016202764A1; US20180173393A1

Abstract

本願の原理は、装置（１００）上でビデオ信号を再生または捕捉しつつビデオ・ズーム機能を可能にする方法を開示する。本方法を実装する装置の典型例は、タブレットまたはスマートフォンのようなハンドヘルド装置である。ズーム機能がアクティブ化されているとき、ユーザーはダブルタップして、ズームインしたい領域を示す。このアクションは以下のアクションを立ち上げる：第一に、ユーザー・タップの位置のまわりに探索窓（４２０）が定義され、次いで、この探索窓において人間の顔が検出され、タップ位置に最も近い顔（４３０）が選択され、選択された顔およびいくつかのパラメータに基づいて身体窓（４４０）および閲覧窓（４５０）が決定される。閲覧窓（４５０）は、ビデオの部分的領域のみを示すよう、スケーリングされる。閲覧窓が以前に選択された関心対象人物にフォーカスされたままとなるよう、身体窓（４４０）は、ビデオ・ストリームにいて追跡され、ビデオ内でのこの領域の動きが閲覧窓（４５０）に適用される。さらに、選択された顔がまだ閲覧窓（４５０）において存在していることが連続的に検査される。最後の検査に関するエラーの場合、閲覧窓位置が、検出された顔の位置を含むよう調整される。閲覧窓のスケーリング因子は、好ましくは画面上に表示されるスライダーを通じてユーザーの制御下にある。

Description

本開示は概括的には、ビデオをその再生または捕捉中に表示できる装置に、特に、そのような装置で実装される画像の部分的領域の選択および追跡のための方法を含むビデオ・ズーム機能に関する。タブレットまたはスマートフォンのようなタッチスクリーンを備えたハンドヘルド装置がそのような装置の代表例である。

本節は、下記で記述されるおよび／または特許請求される本開示のさまざまな側面に関係しうる、技術のさまざまな側面を読者に紹介するために意図されている。この議論は、本開示のさまざまな側面のよりよい理解を容易にするために読者に背景情報を提供する助けとなると思われる。よって、これらの陳述はこの観点で読まれるものであって、従来技術の自認として読まれるものではないことは理解しておくべきである。

画面上に表示される画像の部分的領域の選択は、今日のコンピュータ・システムでは、たとえばAdobe Photoshop、GimpまたはMicrosoft Paintのような画像編集ツールにおいてなど、どこでも見られるものである。従来技術は、画像の部分的領域の選択を許容するいくつかの異なる解決策を含む。

非常に一般的な解決策は、長方形の第一のコーナーとなる第一の点をクリックして、ファインダーをマウスで押したままにしつつポインターを長方形の第二のコーナーとなる第二の点まで動かすことに基づく、長方形選択である。ポインター移動の間、選択長方形が画面上に描かれて、ユーザーが画像の選択された領域を視認することができる。長方形の代わりに、選択は、正方形、円、楕円またはより複雑な形など、いかなる幾何学的な形状を使うこともできることを注意しておく。この方法の大きな欠点は、第一のコーナーについての精度の欠如である。この問題を例解する最もよい例は、ボールのような円形のオブジェクトを長方形を用いて選択することである。どこから始めるべきかを知ることにおいて、ユーザーを助ける基準はない。この問題を助けるために、いくつかの実装は、長方形上のいわゆるハンドルを提案している。これらのハンドルをクリックして新しい位置に動かすことによって、長方形のサイズを変更し、より精密に調整することができる。だが、これは選択領域を調整するためにユーザーからの複数の相互作用を必要とする。

他の技法は、より画像内容に近い、非幾何学的な形の選択を提供する。これは時に、画像に写っているオブジェクトに追随するために輪郭検出アルゴリズムを使う。そのような解決策では、一般に、ユーザーは選択したい領域の輪郭をたどろうとする。これは選択領域を画定するトレースを形成する。だが、この解決策の欠点は、選択が終了したことを示すために、ユーザーが、最初の点まで戻ってきてトレースを閉じる必要があるということである。これは時として難しい。

これらの技法のいくつかは、スマートフォンおよびタブレットのようなタッチスクリーンを備えた装置の具体的構成に合わせて適応されている。実際、そのような装置では、ユーザーは画面上に表示される画像に対して指を用いて直接相互作用する。特許文献１は、選択領域を調整するために複数指タッチを組み合わせることを提案しているが、操作性が比較的複雑で、ユーザーにとって追加的な学習フェーズがあるという欠点がある。特許文献２は、画像を指で隠してしまう問題を、選択されるべき領域とユーザーが画面を押す点との間のシフトを導入することによって解決する。この技法は、前の解決策と同じ欠点がある：操作性が貧弱で、学習上の複雑さをいくらか加える。

いくつかのスマートフォンおよびタブレットは、ビデオを再生中または内蔵カメラを使ってビデオを記録中にユーザーが画像の選択された部分的領域にフォーカスできるようにするビデオ・ズーム機能を提案している。このビデオ・ズーム機能は、画像の部分的領域の選択を必要とする。この選択のためにパンおよびズームの伝統的な手法を使うことや上記で紹介した解決策のいずれかを使うことは、特にユーザーが人間の行為者（actor）にフォーカスしたいときには、効率的ではない。実際、画面上の行為者の位置は時間とともに変化し、ズームアウトして再び画像の正しい領域にズームインすることによって連続的に手動でズーム領域を調整することは難しくなる。

したがって、行為者にフォーカスし、従来技術の問題の少なくとも一部に対処するライブ・ズーム機能を許容する解決策が必要とされていることが理解できる。本開示はそのような解決策を提供する。

CN101458586 US20130234964

第一の側面では、本開示は、ビデオの部分的領域にズームインするためのデータ処理装置であって、一連の画像を含むビデオを表示し、該ビデオを表示している画面上でなされるタッチの座標を取得するよう構成された画面と；あるサイズおよび位置をもつ人間の顔であって、タッチの座標までの最小の幾何学的距離をもつものを選択し、選択された人間の顔のサイズおよび位置に対して部分閲覧領域のサイズおよび位置を決定し、該部分閲覧領域をあるスケール因子に従って表示するよう構成されたプロセッサを有する、装置に向けられる。第一の実施形態は、前記部分閲覧領域のサイズおよび位置を、選択された顔に関連する弁別要素（distinctive element）のピクセルの集合を検出することによって決定することを含み、該弁別要素は、前記選択された人間の顔のサイズおよび位置に対する幾何学的関数によって決定されるサイズおよび位置をもつ。第二の実施形態は、当該画像とビデオ中の前の画像との間で検出された前記弁別要素に関係したピクセルの前記集合の動きに従って、当該画像の前記部分閲覧領域の位置を調整することを含む。第三の実施形態は、前記スケール因子を決定するスライダーの値に従って当該画像の前記部分閲覧領域のサイズを調整することを含む。第四の実施形態は、前記スケール因子を決定するために画面の端部のタッチに従って当該画像の前記部分閲覧領域のサイズを調整することを含み、画面の端部の異なる領域は異なるスケール因子に対応する。第五の実施形態は、選択された顔が前記部分閲覧領域に含まれていることを確認し、含まれていない場合には前記部分閲覧領域の位置を前記選択された顔を含むよう調整することを含む。第六の実施形態は、当該画像の一部であって、画面サイズのある比率であるサイズをもち、前記タッチの座標を中心とする位置をもつ部分にのみ、人間の顔の前記検出を実行することを含む。第七の実施形態は、ダブルタップを検出して、前記画面上に前記タッチの座標を与えることを含む。

第二の側面では、本開示は、一連の画像を含むビデオの部分閲覧領域にズームインするための方法であって、前記ビデオを表示している画面上でなされるタッチの座標を取得し、あるサイズおよび位置をもつ人間の顔であって、タッチの座標までの最小の幾何学的距離をもつものを選択し、選択された人間の顔のサイズおよび位置に対して部分閲覧領域のサイズおよび位置を決定し、該部分閲覧領域を決定されたスケール因子に従って表示することを含む、方法に向けられる。第一の実施形態は、前記部分閲覧領域のサイズおよび位置を、選択された顔に関連する弁別要素のピクセルの集合を検出することによって決定することを含み、該弁別要素は、前記選択された人間の顔のサイズおよび位置に対する幾何学的関数によって決定されるサイズおよび位置をもつ。第二の実施形態は、当該画像とビデオ中の前の画像との間で検出された前記弁別要素に関係したピクセルの前記集合の動きに従って、当該画像の前記部分閲覧領域の位置を調整することを含む。第三の実施形態は、前記選択された顔に関連するある弁別要素のピクセルの前記集合が前記部分閲覧領域に含まれていない場合に前記部分閲覧領域の位置を、ピクセルの該集合を含むよう調整することを含む。

第三の側面では、本開示は、第一の側面の方法のいずれかの実施形態を実装するためにプロセッサによって実行可能なプログラム・コード命令を含むコンピュータ・プログラムに向けられる。

第三の側面では、本開示は、第一の側面の方法のいずれかの実施形態を実装するためにプロセッサによって実行可能なプログラム・コード命令を含む、非一時的なコンピュータ可読媒体上に記憶されているコンピュータ・プログラム・プロダクトに向けられる。

本開示の好ましい特徴はこれから限定しない例として付属の図面を参照して記述される。
本開示が実装されうる例示的システムを示す図である。本開示の好ましい実施形態に基づいて実行される動作の結果を描く図の一つである。本開示の好ましい実施形態に基づいて実行される動作の結果を描く図の一つである。本開示の好ましい実施形態に基づいて実行される動作の結果を描く図の一つである。本開示の好ましい実施形態に基づいて実行される動作の結果を描く図の一つである。本開示の好ましい実施形態に基づく方法の流れ図の例を示す図である。ＡおよびＢは、図３の流れ図において定義された種々の要素を示す図である。ＡおよびＢは、装置の画面上に表示されるスライダーを通じたズームイン制御の実装例を示す図である。

本願の原理は、装置上でビデオ信号を再生または捕捉しつつビデオ・ズーム機能を可能にする方法を開示する。本方法を実装する装置の典型例は、タブレットまたはスマートフォンのようなハンドヘルド装置である。ズーム機能がアクティブ化されているとき、ユーザーはダブルタップして、ズームインしたい領域を示す。このアクションは以下のアクションを立ち上げる：第一に、ユーザー・タップの位置のまわりに探索窓が定義され、次いで、この探索窓において人間の顔が検出され、タップ位置に最も近い顔が選択され、選択された顔およびいくつかのパラメータに基づいて身体窓および閲覧窓が決定される。閲覧窓は、ビデオの部分的領域のみを示すよう、スケーリングされる。閲覧窓が以前に選択された関心対象人物にフォーカスされたままとなるよう、身体窓は、ビデオ・ストリームにいて追跡され、ビデオ内でのこの領域の動きが閲覧窓に適用される。さらに、選択された顔がまだ閲覧窓において存在していることが連続的に検査される。最後の検査に関するエラーの場合、閲覧窓位置が、検出された顔の位置を含むよう調整される。閲覧窓のスケーリング因子は、好ましくは画面上に表示されるスライダーを通じてユーザーの制御下にある。

図１は、本開示が実装されうる例示的な装置を示している。タブレットは装置の一例であり、スマートフォンがもう一つの例である。装置１００は好ましくは、本開示の少なくとも一つの実施形態の方法を実行するよう構成された少なくとも一つのハードウェア・プロセッサ１１０と、メモリ１２０と、ユーザーのためにタッチスクリーン１４０上に表示されるべき画像を生成する表示コントローラ１３０と、ユーザーのタッチスクリーン１４０との相互作用を読むタッチ入力コントローラ１５０とを有している。装置１００は好ましくは、ユーザーおよび他の装置と相互作用するための他のインターフェース１６０ならびに電源システム１７０をも有している。コンピュータ可読記憶媒体１８０は、プロセッサ１１０によって実行可能なコンピュータ可読プログラム・コードを記憶する。当業者は、図示した装置が明確のために非常に簡略化されていることを理解するであろう。

本稿において、すべての座標は第一象限のコンテキストにおいて与えられる。つまり、画像の原点（座標0,0をもつ点）は図２Ａにおける要素２９９によって描かれるような左下コーナーに取られる。

図２Ａ、２Ｂ、２Ｃ、２Ｄは、本開示の好ましい実施形態に従って実行される動作の結果を描いている。図２Ａは、3人のダンサー２００、２０２および２０４のシーンを表わすビデオ信号を表示している画面１４０を有する装置１００を示している。ビデオは再生または捕捉される。ユーザーはダンサー２００に関心がある。ユーザーの目的は、図２Ｂに示されるように、ダンサー２００および周囲の詳細が画面の大半を占めて、他のダンサーの動きに煩わされることなく、このダンサーのアクションの、より多くの詳細が見えるようにすることである。この目的に向け、ユーザーはズーム機能をアクティブ化し、図２Ｃにおける円２１０によって示されるような好ましいダンサー２００の身体上をダブルタップする。この結果、ダンサー２００の周囲に、図２Ｄの閲覧窓２２０の定義が生じる。装置は、図２Ｄに示されるようにこの閲覧窓に対してズームし、このダンサーの身体を連続的に追跡して、ズーム機能が停止されるまでその動きを追う。これについては後に詳細に説明する。追跡中、装置は、ダンサーの頭部が閲覧窓２２０内に示されていることを連続的に検証することもする。顔が探索窓内に検出されたがその位置が閲覧窓の外側であるときは、これはエラーと考えられる。この場合、再同期機構が閲覧窓の位置および追跡アルゴリズムを更新し、それにより再び頭部を捕捉し、しかるべく閲覧窓を更新することができる。このエラーがあまりに頻繁に、たとえば決まった閾値より多く生じるときは、顔検出が画像全体にわたって拡大される。図３は、本開示の好ましい実施形態に基づく方法の流れ図の例を示している。プロセスは、ビデオが装置１００によって再生または捕捉されている間に、ユーザーがズーム機能をアクティブ化するときに始まる。ユーザーは所望される位置において、たとえば図４Ａにおいて要素４１０によって表わされるダンサー２００のところで画面１４０をダブルタップする。ダブルタップの位置は、タッチ入力コントローラ１５０によって取得され、たとえば指タッチとして捕捉された領域の重心として計算され、一対の座標TAP.XおよびTAP.Yによって定義される画面上の位置に対応する。これらの座標が段階３００において、図４Ａにおいて要素４２０によって表わされる探索窓（SW）を決定するために使われる。探索窓は好ましくは、顔検出アルゴリズムがよく知られた画像処理技法を使って人間の顔を検出するために作用する対象とする長方形領域である。探索を画像全体の一部のみに制約することは、顔検出アルゴリズムの応答時間を改善することを許容する。探索窓の位置はタップ位置を中心としている。探索窓の大きさは画面サイズの割合αとして定義される。典型的な例は各次元方向においてα＝25%であり、完全な画像のたった16分の1の探索領域につながり、検出期間を約16倍高速化する。探索窓は長方形の二つのコーナーによって、たとえば次のように、座標SW.X_Min、SW.Y_MinおよびSW.X_Max、SW.Y_Maxをもって定義され、SCR.WおよびSCR.Hは画面幅および高さである。

SW.X_Min＝TAP.X−（α/2×SCR.W）； SW.Y_Min＝TAP.Y−（α/2×SCR.H）；
SW.X_Max＝TAP.X＋（α/2×SCR.W）； SW.Y_Max＝TAP.Y＋（α/2×SCR.H）；
。

顔検出は、段階３０１において、探索窓に含まれる画像に対して起動される。このアルゴリズムは、図４Ｂにおいて要素４３０および４３１によって表わされる検出された顔の集合を返し、それぞれについて、その顔を表わす画像、その画像のサイズおよび探索窓におけるその画像の位置がある。段階３０２では、図４Ｂにおいて要素４３０によって表わされる、ユーザー・タップの位置に最も近い顔が選ばれる。たとえば、タップ位置と検出された顔の画像のそれぞれの中心との間の距離が次のように計算される。

D[i]＝SQRT（（SW.X_Min＋DF[i].X＋DF[i].W/2−TAP.X）²＋（SW.Y_Min＋DF[i].Y＋DF[i].H/2−TAP.Y）²）
。

上記公式において、DF[ ]は検出された顔のテーブルであり、それぞれの顔について、その水平位置DF[i].X、垂直位置DF[i].X、幅DF[i].X、高さDF[i].Xがあり、D[ ]は結果として得られる距離のテーブルである。テーブルD[ ]において最小距離値をもつ顔が選択され、それが追跡顔（track face）（TF）となる。次いで段階３０３において追跡顔の位置（TF.XおよびTF.Y）およびそのサイズ（TF.WおよびTF.H）が、図４Ｂにおける要素４４０によって表わされる身体窓（body window）（BW）を決定するために使われる。身体窓は、たとえば特徴ベースの追跡アルゴリズムを使っての追跡目的のために、使われる。一般的な場合、画像解析の観点からは、特徴ベースの追跡器に関する限り、身体要素は、画像の背景およびシーンに存在する可能性のある他の人間の両方に関して、頭部よりも弁別的である。追跡顔からの身体窓の定義は任意の仕方でなされる。それは、追跡顔の下に位置し、水平方向にはα_w、垂直方向にはα_hのパラメータをもって追跡顔寸法に比例する寸法をもつ窓である。たとえば、身体窓は次のように定義される。

BW.W＝α_w×TF.W； BW.H＝α_h×TF.H；
BW.X＝TF.X＋TF.W/2−BW.W/2； BW.Y＝TF.Y−BW.H；
。

画像の代表的な集合からの統計により、ヒューリスティックスを定義することができた。それは、α_w＝3、α_h＝4の値で追跡フェーズのためにうまくいくと判明した。追跡顔から身体窓を決定するために、他のいかなる幾何学的関数が使われることもできる。

同様に、段階３０４において、図４Ｂにおいて要素４５０によって表わされる閲覧窓（VW）が任意の仕方で決定される。その位置は追跡顔の位置によって定義され、そのサイズは追跡顔サイズ、ズーム因子α'および画面寸法（SD: screen dimensions）の関数である。好ましくは、閲覧窓のアスペクト比は画面のアスペクト比を尊重する。閲覧窓の定義の一例は
VW.H＝α'×TF.H； VW.W＝TF.H×SD.W/SD.H；
VW.X＝min(0,TF.X＋TF.W/2−VW.W/2)；
VW.Y＝min(0,TF.Y＋TF.H/2−VW.H/2)；
によって与えられる。

α'＝10の実験的な値がデフォルト値として満足のいく結果を与えた。しかしながら、このパラメータは、ユーザーの制御下にあり、その値はプロセスの間に変更されることがありうる。

段階３０５では、身体窓が追跡アルゴリズムに与えられる。段階３０６では、追跡アルゴリズムは、よく知られた画像処理技法を使って、ビデオ・ストリーム内の身体窓画像をなすピクセルの位置を追跡する。これは、ビデオ・ストリームの相続く画像を解析して、ビデオ・ストリームの第一の画像およびさらなる画像における身体窓の相続く位置の間に検出された動きの推定（MX,MY）を提供することによって行なわれる。検出された動きは、閲覧窓の内容に影響する。もとの画像におけるダンサー２００の位置が右に動き、ダンサーが今や画像の中央にいるとき、ダンサーの左に新たな要素、たとえば新たなダンサーが現われることがある。したがって、閲覧窓の内容はこの新たな内容、選択されたズーム因子α'に従って、かつ検出された動きに従って更新される。この更新は、段階３０６において連続的に保存される更新された位置に位置する完全な画像の部分的領域を抽出し（extracting）、それをズーム因子α'に従ってスケーリングし（scaling）、それを表示することを含む。ここで、image[ ]はビデオをなす一連の画像のテーブルであり、VW[i−1].XおよびVW[i−1].Yは前の画像における閲覧窓の保存された座標である：
VW.image＝extract(image[i], VW[i−1].X＋MX, VW[i−1].Y＋MY, VW.W/α', VW.H/α')；
VW.image＝scale(VW.image, α')；
。

前の画像抽出は、閲覧窓がビデオ・ストリームにおいて検出された動きに追随することを可能にする。追跡アルゴリズムに関するよくある問題は、追跡される領域の隠蔽およびアルゴリズムのドリフトに関係する。そのような問題を防ぐために、段階３０７において追加的な検証が実行される。それは、閲覧窓において追跡顔がまだ見えることを検証することにある。そうでない場合には、分枝３５０において、それは、追跡がドリフトしてもはや正しい要素を追跡していないこと、あるいはたとえば新しい要素が前景にあるため新しい要素が追跡される要素をたとえば隠蔽（occlusion）によりマスクしていることを意味する。これは効果としては、段階３１７において、閲覧窓の位置を、追跡顔の最後に検出された位置と再同期することをもつ。次いで、段階３０８において、エラー・カウンタがインクリメントされる。次いで、段階３０９において、エラー・カウントが所定の閾値より高い場合かどうかが検査される。これが成り立つときは、分枝３５３において、完全なプロセスが改めて開始される。ただし、探索窓は完全な画像に拡大され、開始位置はもはやユーザーによって与えられたタップ位置ではなく、段階３０７において検証され段階３１０において前に保存されたところの、追跡顔の最後に検出された位置である。エラー・カウントが閾値より低い限り、分枝３５４において、プロセスは通常どおりに続けられる。実際、一時的な隠蔽の場合、追跡顔は数画像後に再び現われることがあり、よって追跡アルゴリズムは、いかなる追加的施策もなしに簡単に回復できるであろう。段階３０７における検査が真であるとき、分枝３５２において、それは、追跡顔が閲覧窓内で認識されたことを意味する。この場合、段階３１０において追跡顔の位置が保存され、段階３１１においてエラー・カウントがリセットされる。次いで、段階３１２において、ズーム機能がまだアクティブ化されているかどうかが検査される。もしそうであれば、プロセスは段階３０６の追跡および更新にループで戻る。もしそうでなければ、プロセスは停止され、ディスプレイは、ズームされた画像の代わりに通常の画像を再び示すことができるであろう。

好ましくは、追跡顔の認識および身体窓の追跡は、段階３０６において実行される追跡および検出動作に際して、逐次反復式に顔および身体のモデルを向上させ、両方の要素のさらなる認識を改善することを許容する。

図４のＡおよびＢは、図３の流れ図において定義された種々の要素を示している。図４Ａでは、円４１０はタップ位置に対応し、長方形４２０は探索窓に対応する。図４Ｂでは、円４３０および４３１は段階３０１において検出された顔に対応する。円４３０は段階３０２において選択された追跡顔を現わす。長方形４４０は、段階３０３において定義された身体窓を表わし、長方形４５０は段階３０４において決定された閲覧窓に対応する。

図５のＡおよびＢは、装置の画面上に表示されるスライダーを通じたズーム因子制御の実装の例を示している。好ましくは、閲覧窓を構築し更新するために段階３０４および３０６において使われるズーム因子α'は、ズーム動作の間に、ユーザーによって構成設定可能である。構成設定はたとえば、画像の右側に位置し、ズーム因子の値を設定するために使われる垂直方向のスライダー５１０を通じて行なわれる。図５のＡでは、スライダー５１０は画面の下のほうの小さな値に設定されており、よって小さなズーム効果を誘起する。図５のＢでは、スライダー５１０は画面の上のほうの大きな値に設定されており、よって重要なズーム効果を誘起する。さらに、ズーム機能を停止させるために、グラフィック要素５２０がユーザーによって作動されることができる。ビデオに割かれる領域を減らすのを避けるために、このスライダーは画面上に表示されないこともできる。たとえば、画面の右端は、下をタッチされたときは限られたズームのために、上をタッチされたときは最大ズームのためにズーム因子を制御することができる。その結果、図２Ｄの図のように見える画面になる。代替的に、スライダーは、短時間表示されて、ズーム因子の変更が実行されたらすぐに消えてもよい。

好ましい実施形態では、ビデオ・ズーム機能はユーザー要求に際してアクティブ化される。この要求を確立するためには、画面上に表示されるアイコンを確認する、装置上の物理的なボタンを押すことによる、あるいは音声コマンドを通じてなど、種々の手段が使用できる。

ある変形では、関心のフォーカスは人間ではなく動物、自動車、建物または他の任意の種類のオブジェクトのようなオブジェクトである。この場合、段階３０１および３０６で使われた認識および追跡アルゴリズムならびにヒューリスティックは、認識および追跡されるべき要素の具体的な特性に合わせて適応されるが、方法の他の要素はいまだ有効である。たとえば木の場合、顔検出は木の幹の検出によって置き換えられ、幹に対する追跡領域を定義する異なるヒューリスティックスが、追跡されるべき領域を決定するために使われる。この変形では、ユーザーは好ましくは、機能をアクティブ化する前に、ビデオ・ズームの型を選び、よって、最も適切なアルゴリズムを使うことを許容する。

別の変形では、段階３０１における具体的な要素の検出に先立って、この領域に存在する要素の型を、人間、動物、自動車、建物などといった所定の型の集合の間で判別するために、探索窓に対して第一の解析が行なわれる。要素の型は重要度の降順にリストされる。重要度のための一つの基準は、探索窓内でのオブジェクトのサイズである。別の基準は、オブジェクトのそれぞれの型についての要素の数である。装置は、リストのいちばん上にある要素の型に従って認識および追跡アルゴリズムを選択する。この変形は、ズーム機能の、複数の型の要素への自動的な適応を提供する。

ある変形では、部分的閲覧窓４５０が全画面で表示され、これは、画面解像度よりも高い解像度でビデオを表示しているときに特に有益である。ある代替的な変形では、部分的閲覧窓は画面の一部のみ、たとえばピクチャー・イン・ピクチャー式にコーナーを占め、完全なシーンのグローバルなビューおよび選択された人物または要素の詳細の両方をもつことを許容する。

好ましい実施形態では、身体窓は顔追跡パラメータに従って決定される。より精密には、人間検出の場合について、具体的なヒューリスティックが与えられる。他の任意の幾何学的関数がその目的のために、好ましくは検出された第一の要素、すなわち人間の検出の場合には追跡顔のサイズに基づいて、使用できる。たとえば、垂直方向スケーリング値、水平方向スケーリング値、水平方向オフセットおよび垂直方向オフセットが、幾何学的関数を決定するために使用されることができる。これらの値は好ましくは、検出された第一の要素のパラメータに依存する。

図面で使われている画像はpixabay.comを通じて得られたもので、パブリックドメインである。

当業者には理解されるように、本願の原理の諸側面は完全にハードウェアの実施形態、完全にソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）または本稿でみな一般に「回路」「モジュール」または「システム」として定義されうるソフトウェアおよびハードウェア側面を組み合わせた実施形態の形を取ることができる。さらに、本願の原理の諸側面は、コンピュータ可読記憶媒体の形を取ることができる。一つまたは複数のコンピュータ可読媒体の任意の組み合わせが利用できる。こうして、たとえば、当業者は、本願で呈示された図は、本開示の原理を具現する例示的なシステム・コンポーネントおよび／または回路の概念図を表わすことを理解するであろう。同様に、フローチャート、流れ図、状態遷移図、擬似コードなどがある場合、それはコンピュータ可読記憶媒体において実質的に表現され、よってコンピュータまたはプロセッサによって実行されうるさまざまなプロセスを表わすことが理解されるであろう。これはそのようなコンピュータまたはプロセッサが明示的に示されるかどうかによらない。コンピュータ可読記憶媒体は、一つまたは複数のコンピュータ可読媒体において具現された、コンピュータによって実行可能なコンピュータ可読プログラム・コードがその上に具現されている、コンピュータ可読プログラム・プロダクトの形を取ることができる。本稿で用いられるところのコンピュータ可読記憶媒体はそこに情報を記憶する本来的機能およびそこからの情報の取り出しを提供する本来的機能を与えられ、非一時的記憶媒体と考えられる。コンピュータ可読記憶媒体は、たとえば電子的、磁気的、光学式、電磁式、赤外線または半導体システム、装置もしくはデバイスまたは上記の任意の好適な組み合わせであることができるがそれに限定されない。次のものは、当業者は容易に理解するであろうように、本願の原理が適用されうるコンピュータ可読記憶媒体のさらなる具体例を提供しているものの、単に例示するものであって、網羅的なリストではないことを理解しておくべきである：ポータブルコンピュータディスケット；ハードディスク；読み出し専用メモリ（ROM）；消去可能なプログラム可能型読み出し専用メモリ（EPROMまたはフラッシュメモリ）；ポータブルコンパクトディスク読み出し専用メモリ（CD-ROM）；光記憶デバイス；磁気記憶デバイス；または上記の任意の好適な組み合わせ。

本稿ならびに（適切な場合には）請求項および図面において開示される各特徴は、独立して、または任意の適切な組み合わせにおいて提供されてもよい。ハードウェアで実装されると記述されている特徴がソフトウェアで実装されてもよく、逆に、ソフトウェアで実装されると記述されている特徴がハードウェアで実装されてもよい。請求項に現われる参照符号は単に例示であって、請求項の範囲に対して何ら限定する効果をもたない。

本稿ならびに（適切な場合には）請求項および図面において開示される各特徴は、独立して、または任意の適切な組み合わせにおいて提供されてもよい。ハードウェアで実装されると記述されている特徴がソフトウェアで実装されてもよく、逆に、ソフトウェアで実装されると記述されている特徴がハードウェアで実装されてもよい。請求項に現われる参照符号は単に例示であって、請求項の範囲に対して何ら限定する効果をもたない。
いくつかの付記を記載しておく。
〔付記１〕
ビデオの部分閲覧領域にズームインするためのデータ処理装置であって：
・一連の画像を含む前記ビデオを表示し；
前記ビデオを表示している画面上でなされるタッチの座標を取得するよう構成された
画面と；
・あるサイズおよび位置をもつ人間の顔であって、タッチ（４１０）の座標までの最小の幾何学的距離をもつものを選択し；
選択された人間の顔のサイズおよび位置に対して部分閲覧領域のサイズおよび位置を決定し；
前記該部分閲覧領域をあるスケール因子に従って表示するよう構成された
プロセッサとを有する、
装置。
〔付記２〕
前記プロセッサが、前記部分閲覧領域（４５０）のサイズおよび位置を、選択された顔（４３０）に関連する弁別要素（４４０）のピクセルの集合を検出することによって決定するよう構成されており、前記弁別要素は、前記選択された人間の顔のサイズおよび位置に対する幾何学的関数によって決定されるサイズおよび位置をもつ、付記１記載の装置。
〔付記３〕
前記プロセッサが、前記画像と前記ビデオにおける前の画像との間で検出された前記弁別要素に関係したピクセルの前記集合の動きに従って、前記画像の前記部分閲覧領域の位置を調整するよう構成されている、付記１または２記載の装置。
〔付記４〕
前記プロセッサが、前記スケール因子を決定するスライダーの値に従って前記画像の前記部分閲覧領域のサイズを調整するよう構成されている、付記１ないし３のうちいずれか一項記載の装置。
〔付記５〕
前記プロセッサが、前記スケール因子を決定するために画面の端部のタッチに従って前記画像の前記部分閲覧領域のサイズを調整するよう構成されており、前記画面の端部の異なる領域は異なるスケール因子に対応する、付記１ないし３のうちいずれか一項記載の装置。
〔付記６〕
前記プロセッサが、前記選択された顔が前記部分閲覧領域に含まれていることを確認し、含まれていない場合には、前記部分閲覧領域の位置を、前記選択された顔を含むよう調整するよう構成されている、付記１ないし５のうちいずれか一項記載の装置。
〔付記７〕
前記プロセッサが、前記画像の一部であって、画面サイズのある比率であるサイズをもち、前記タッチの座標を中心とする位置をもつ部分にのみ、人間の顔の前記検出を実行するよう構成されている、付記１ないし６のうちいずれか一項記載の装置。
〔付記８〕
前記プロセッサが、ダブルタップを検出して、前記画面上での前記タッチの座標を提供するよう構成されている、付記１ないし７のうちいずれか一項記載の装置。
〔付記９〕
一連の画像を含むビデオの部分閲覧領域にズームインするための方法であって、当該方法は：
・前記ビデオを表示している画面上でなされるタッチの座標を取得し；
・あるサイズおよび位置をもつ人間の顔であって、前記タッチの座標までの最小の幾何学的距離をもつものを選択し；
・選択された人間の顔のサイズおよび位置に対して部分閲覧領域のサイズおよび位置を決定し；
・前記部分閲覧領域を決定されたスケール因子に従って表示することを含む、
方法。
〔付記１０〕
前記部分閲覧領域のサイズおよび位置が、選択された顔に関連する弁別要素のピクセルの集合を検出することによって決定され、該弁別要素は、前記選択された人間の顔のサイズおよび位置に対する幾何学的関数によって決定されるサイズおよび位置をもつ、付記９記載の方法。
〔付記１１〕
前記画像と前記ビデオにおける前の画像との間で検出された前記弁別要素に関係したピクセルの前記集合の動きが、前記画像の前記部分閲覧領域の位置を調整するために使われる、付記９または１０記載の方法。
〔付記１２〕
前記選択された顔に関連するある弁別要素のピクセルの前記集合が前記部分閲覧領域に含まれていない場合に前記部分閲覧領域の位置が、ピクセルの該集合を含むよう調整される、付記９ないし１１のうちいずれか一項記載の方法。
〔付記１３〕
検出される前記タッチがダブルタップである、付記９ないし１２のうちいずれか一項記載の方法。
〔付記１４〕
付記９ないし１３のうちいずれか一項記載の方法の段階を実装するためにプロセッサによって実行可能なプログラム・コード命令を含むコンピュータ・プログラム。
〔付記１５〕
付記９ないし１３のうちいずれか一項記載の方法の段階を実装するためにプロセッサによって実行可能なプログラム・コード命令を含む、非一時的なコンピュータ可読媒体上に記憶されているコンピュータ・プログラム・プロダクト。

Claims

ビデオの部分閲覧領域にズームインするためのデータ処理装置であって：
・一連の画像を含む前記ビデオを表示し；
前記ビデオを表示している画面上でなされるタッチの座標を取得するよう構成された
画面と；
・あるサイズおよび位置をもつ人間の顔であって、タッチ（４１０）の座標までの最小の幾何学的距離をもつものを選択し；
選択された人間の顔のサイズおよび位置に対して部分閲覧領域のサイズおよび位置を決定し；
前記該部分閲覧領域をあるスケール因子に従って表示するよう構成された
プロセッサとを有する、
装置。
前記プロセッサが、前記部分閲覧領域（４５０）のサイズおよび位置を、選択された顔（４３０）に関連する弁別要素（４４０）のピクセルの集合を検出することによって決定するよう構成されており、前記弁別要素は、前記選択された人間の顔のサイズおよび位置に対する幾何学的関数によって決定されるサイズおよび位置をもつ、請求項１記載の装置。
前記プロセッサが、前記画像と前記ビデオにおける前の画像との間で検出された前記弁別要素に関係したピクセルの前記集合の動きに従って、前記画像の前記部分閲覧領域の位置を調整するよう構成されている、請求項１または２記載の装置。
前記プロセッサが、前記スケール因子を決定するスライダーの値に従って前記画像の前記部分閲覧領域のサイズを調整するよう構成されている、請求項１ないし３のうちいずれか一項記載の装置。
前記プロセッサが、前記スケール因子を決定するために画面の端部のタッチに従って前記画像の前記部分閲覧領域のサイズを調整するよう構成されており、前記画面の端部の異なる領域は異なるスケール因子に対応する、請求項１ないし３のうちいずれか一項記載の装置。
前記プロセッサが、前記選択された顔が前記部分閲覧領域に含まれていることを確認し、含まれていない場合には、前記部分閲覧領域の位置を、前記選択された顔を含むよう調整するよう構成されている、請求項１ないし５のうちいずれか一項記載の装置。
前記プロセッサが、前記画像の一部であって、画面サイズのある比率であるサイズをもち、前記タッチの座標を中心とする位置をもつ部分にのみ、人間の顔の前記検出を実行するよう構成されている、請求項１ないし６のうちいずれか一項記載の装置。
前記プロセッサが、ダブルタップを検出して、前記画面上での前記タッチの座標を提供するよう構成されている、請求項１ないし７のうちいずれか一項記載の装置。
一連の画像を含むビデオの部分閲覧領域にズームインするための方法であって、当該方法は：
・前記ビデオを表示している画面上でなされるタッチの座標を取得し；
・あるサイズおよび位置をもつ人間の顔であって、前記タッチの座標までの最小の幾何学的距離をもつものを選択し；
・選択された人間の顔のサイズおよび位置に対して部分閲覧領域のサイズおよび位置を決定し；
・前記部分閲覧領域を決定されたスケール因子に従って表示することを含む、
方法。
前記部分閲覧領域のサイズおよび位置が、選択された顔に関連する弁別要素のピクセルの集合を検出することによって決定され、該弁別要素は、前記選択された人間の顔のサイズおよび位置に対する幾何学的関数によって決定されるサイズおよび位置をもつ、請求項９記載の方法。
前記画像と前記ビデオにおける前の画像との間で検出された前記弁別要素に関係したピクセルの前記集合の動きが、前記画像の前記部分閲覧領域の位置を調整するために使われる、請求項９または１０記載の方法。
前記選択された顔に関連するある弁別要素のピクセルの前記集合が前記部分閲覧領域に含まれていない場合に前記部分閲覧領域の位置が、ピクセルの該集合を含むよう調整される、請求項９ないし１１のうちいずれか一項記載の方法。
検出される前記タッチがダブルタップである、請求項９ないし１２のうちいずれか一項記載の方法。
請求項９ないし１３のうちいずれか一項記載の方法の段階を実装するためにプロセッサによって実行可能なプログラム・コード命令を含むコンピュータ・プログラム。
請求項９ないし１３のうちいずれか一項記載の方法の段階を実装するためにプロセッサによって実行可能なプログラム・コード命令を含む、非一時的なコンピュータ可読媒体上に記憶されているコンピュータ・プログラム・プロダクト。