JP2018517984A - 画像領域を選択して追跡することによるビデオ・ズームのための装置および方法 - Google Patents
画像領域を選択して追跡することによるビデオ・ズームのための装置および方法 Download PDFInfo
- Publication number
- JP2018517984A JP2018517984A JP2017563943A JP2017563943A JP2018517984A JP 2018517984 A JP2018517984 A JP 2018517984A JP 2017563943 A JP2017563943 A JP 2017563943A JP 2017563943 A JP2017563943 A JP 2017563943A JP 2018517984 A JP2018517984 A JP 2018517984A
- Authority
- JP
- Japan
- Prior art keywords
- size
- video
- viewing area
- face
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0487—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
- G06F3/0488—Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
- G06V10/17—Image acquisition using hand-held instruments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/048—Indexing scheme relating to G06F3/048
- G06F2203/04806—Zoom, i.e. interaction techniques or interactors for controlling the zooming operation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/62—Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本願の原理は、装置(100)上でビデオ信号を再生または捕捉しつつビデオ・ズーム機能を可能にする方法を開示する。本方法を実装する装置の典型例は、タブレットまたはスマートフォンのようなハンドヘルド装置である。ズーム機能がアクティブ化されているとき、ユーザーはダブルタップして、ズームインしたい領域を示す。このアクションは以下のアクションを立ち上げる:第一に、ユーザー・タップの位置のまわりに探索窓(420)が定義され、次いで、この探索窓において人間の顔が検出され、タップ位置に最も近い顔(430)が選択され、選択された顔およびいくつかのパラメータに基づいて身体窓(440)および閲覧窓(450)が決定される。閲覧窓(450)は、ビデオの部分的領域のみを示すよう、スケーリングされる。閲覧窓が以前に選択された関心対象人物にフォーカスされたままとなるよう、身体窓(440)は、ビデオ・ストリームにいて追跡され、ビデオ内でのこの領域の動きが閲覧窓(450)に適用される。さらに、選択された顔がまだ閲覧窓(450)において存在していることが連続的に検査される。最後の検査に関するエラーの場合、閲覧窓位置が、検出された顔の位置を含むよう調整される。閲覧窓のスケーリング因子は、好ましくは画面上に表示されるスライダーを通じてユーザーの制御下にある。
Description
本開示は概括的には、ビデオをその再生または捕捉中に表示できる装置に、特に、そのような装置で実装される画像の部分的領域の選択および追跡のための方法を含むビデオ・ズーム機能に関する。タブレットまたはスマートフォンのようなタッチスクリーンを備えたハンドヘルド装置がそのような装置の代表例である。
本節は、下記で記述されるおよび/または特許請求される本開示のさまざまな側面に関係しうる、技術のさまざまな側面を読者に紹介するために意図されている。この議論は、本開示のさまざまな側面のよりよい理解を容易にするために読者に背景情報を提供する助けとなると思われる。よって、これらの陳述はこの観点で読まれるものであって、従来技術の自認として読まれるものではないことは理解しておくべきである。
画面上に表示される画像の部分的領域の選択は、今日のコンピュータ・システムでは、たとえばAdobe Photoshop、GimpまたはMicrosoft Paintのような画像編集ツールにおいてなど、どこでも見られるものである。従来技術は、画像の部分的領域の選択を許容するいくつかの異なる解決策を含む。
非常に一般的な解決策は、長方形の第一のコーナーとなる第一の点をクリックして、ファインダーをマウスで押したままにしつつポインターを長方形の第二のコーナーとなる第二の点まで動かすことに基づく、長方形選択である。ポインター移動の間、選択長方形が画面上に描かれて、ユーザーが画像の選択された領域を視認することができる。長方形の代わりに、選択は、正方形、円、楕円またはより複雑な形など、いかなる幾何学的な形状を使うこともできることを注意しておく。この方法の大きな欠点は、第一のコーナーについての精度の欠如である。この問題を例解する最もよい例は、ボールのような円形のオブジェクトを長方形を用いて選択することである。どこから始めるべきかを知ることにおいて、ユーザーを助ける基準はない。この問題を助けるために、いくつかの実装は、長方形上のいわゆるハンドルを提案している。これらのハンドルをクリックして新しい位置に動かすことによって、長方形のサイズを変更し、より精密に調整することができる。だが、これは選択領域を調整するためにユーザーからの複数の相互作用を必要とする。
他の技法は、より画像内容に近い、非幾何学的な形の選択を提供する。これは時に、画像に写っているオブジェクトに追随するために輪郭検出アルゴリズムを使う。そのような解決策では、一般に、ユーザーは選択したい領域の輪郭をたどろうとする。これは選択領域を画定するトレースを形成する。だが、この解決策の欠点は、選択が終了したことを示すために、ユーザーが、最初の点まで戻ってきてトレースを閉じる必要があるということである。これは時として難しい。
これらの技法のいくつかは、スマートフォンおよびタブレットのようなタッチスクリーンを備えた装置の具体的構成に合わせて適応されている。実際、そのような装置では、ユーザーは画面上に表示される画像に対して指を用いて直接相互作用する。特許文献1は、選択領域を調整するために複数指タッチを組み合わせることを提案しているが、操作性が比較的複雑で、ユーザーにとって追加的な学習フェーズがあるという欠点がある。特許文献2は、画像を指で隠してしまう問題を、選択されるべき領域とユーザーが画面を押す点との間のシフトを導入することによって解決する。この技法は、前の解決策と同じ欠点がある:操作性が貧弱で、学習上の複雑さをいくらか加える。
いくつかのスマートフォンおよびタブレットは、ビデオを再生中または内蔵カメラを使ってビデオを記録中にユーザーが画像の選択された部分的領域にフォーカスできるようにするビデオ・ズーム機能を提案している。このビデオ・ズーム機能は、画像の部分的領域の選択を必要とする。この選択のためにパンおよびズームの伝統的な手法を使うことや上記で紹介した解決策のいずれかを使うことは、特にユーザーが人間の行為者(actor)にフォーカスしたいときには、効率的ではない。実際、画面上の行為者の位置は時間とともに変化し、ズームアウトして再び画像の正しい領域にズームインすることによって連続的に手動でズーム領域を調整することは難しくなる。
したがって、行為者にフォーカスし、従来技術の問題の少なくとも一部に対処するライブ・ズーム機能を許容する解決策が必要とされていることが理解できる。本開示はそのような解決策を提供する。
第一の側面では、本開示は、ビデオの部分的領域にズームインするためのデータ処理装置であって、一連の画像を含むビデオを表示し、該ビデオを表示している画面上でなされるタッチの座標を取得するよう構成された画面と;あるサイズおよび位置をもつ人間の顔であって、タッチの座標までの最小の幾何学的距離をもつものを選択し、選択された人間の顔のサイズおよび位置に対して部分閲覧領域のサイズおよび位置を決定し、該部分閲覧領域をあるスケール因子に従って表示するよう構成されたプロセッサを有する、装置に向けられる。第一の実施形態は、前記部分閲覧領域のサイズおよび位置を、選択された顔に関連する弁別要素(distinctive element)のピクセルの集合を検出することによって決定することを含み、該弁別要素は、前記選択された人間の顔のサイズおよび位置に対する幾何学的関数によって決定されるサイズおよび位置をもつ。第二の実施形態は、当該画像とビデオ中の前の画像との間で検出された前記弁別要素に関係したピクセルの前記集合の動きに従って、当該画像の前記部分閲覧領域の位置を調整することを含む。第三の実施形態は、前記スケール因子を決定するスライダーの値に従って当該画像の前記部分閲覧領域のサイズを調整することを含む。第四の実施形態は、前記スケール因子を決定するために画面の端部のタッチに従って当該画像の前記部分閲覧領域のサイズを調整することを含み、画面の端部の異なる領域は異なるスケール因子に対応する。第五の実施形態は、選択された顔が前記部分閲覧領域に含まれていることを確認し、含まれていない場合には前記部分閲覧領域の位置を前記選択された顔を含むよう調整することを含む。第六の実施形態は、当該画像の一部であって、画面サイズのある比率であるサイズをもち、前記タッチの座標を中心とする位置をもつ部分にのみ、人間の顔の前記検出を実行することを含む。第七の実施形態は、ダブルタップを検出して、前記画面上に前記タッチの座標を与えることを含む。
第二の側面では、本開示は、一連の画像を含むビデオの部分閲覧領域にズームインするための方法であって、前記ビデオを表示している画面上でなされるタッチの座標を取得し、あるサイズおよび位置をもつ人間の顔であって、タッチの座標までの最小の幾何学的距離をもつものを選択し、選択された人間の顔のサイズおよび位置に対して部分閲覧領域のサイズおよび位置を決定し、該部分閲覧領域を決定されたスケール因子に従って表示することを含む、方法に向けられる。第一の実施形態は、前記部分閲覧領域のサイズおよび位置を、選択された顔に関連する弁別要素のピクセルの集合を検出することによって決定することを含み、該弁別要素は、前記選択された人間の顔のサイズおよび位置に対する幾何学的関数によって決定されるサイズおよび位置をもつ。第二の実施形態は、当該画像とビデオ中の前の画像との間で検出された前記弁別要素に関係したピクセルの前記集合の動きに従って、当該画像の前記部分閲覧領域の位置を調整することを含む。第三の実施形態は、前記選択された顔に関連するある弁別要素のピクセルの前記集合が前記部分閲覧領域に含まれていない場合に前記部分閲覧領域の位置を、ピクセルの該集合を含むよう調整することを含む。
第三の側面では、本開示は、第一の側面の方法のいずれかの実施形態を実装するためにプロセッサによって実行可能なプログラム・コード命令を含むコンピュータ・プログラムに向けられる。
第三の側面では、本開示は、第一の側面の方法のいずれかの実施形態を実装するためにプロセッサによって実行可能なプログラム・コード命令を含む、非一時的なコンピュータ可読媒体上に記憶されているコンピュータ・プログラム・プロダクトに向けられる。
本開示の好ましい特徴はこれから限定しない例として付属の図面を参照して記述される。
本開示が実装されうる例示的システムを示す図である。
本開示の好ましい実施形態に基づいて実行される動作の結果を描く図の一つである。
本開示の好ましい実施形態に基づいて実行される動作の結果を描く図の一つである。
本開示の好ましい実施形態に基づいて実行される動作の結果を描く図の一つである。
本開示の好ましい実施形態に基づいて実行される動作の結果を描く図の一つである。
本開示の好ましい実施形態に基づく方法の流れ図の例を示す図である。
AおよびBは、図3の流れ図において定義された種々の要素を示す図である。
AおよびBは、装置の画面上に表示されるスライダーを通じたズームイン制御の実装例を示す図である。
本願の原理は、装置上でビデオ信号を再生または捕捉しつつビデオ・ズーム機能を可能にする方法を開示する。本方法を実装する装置の典型例は、タブレットまたはスマートフォンのようなハンドヘルド装置である。ズーム機能がアクティブ化されているとき、ユーザーはダブルタップして、ズームインしたい領域を示す。このアクションは以下のアクションを立ち上げる:第一に、ユーザー・タップの位置のまわりに探索窓が定義され、次いで、この探索窓において人間の顔が検出され、タップ位置に最も近い顔が選択され、選択された顔およびいくつかのパラメータに基づいて身体窓および閲覧窓が決定される。閲覧窓は、ビデオの部分的領域のみを示すよう、スケーリングされる。閲覧窓が以前に選択された関心対象人物にフォーカスされたままとなるよう、身体窓は、ビデオ・ストリームにいて追跡され、ビデオ内でのこの領域の動きが閲覧窓に適用される。さらに、選択された顔がまだ閲覧窓において存在していることが連続的に検査される。最後の検査に関するエラーの場合、閲覧窓位置が、検出された顔の位置を含むよう調整される。閲覧窓のスケーリング因子は、好ましくは画面上に表示されるスライダーを通じてユーザーの制御下にある。
図1は、本開示が実装されうる例示的な装置を示している。タブレットは装置の一例であり、スマートフォンがもう一つの例である。装置100は好ましくは、本開示の少なくとも一つの実施形態の方法を実行するよう構成された少なくとも一つのハードウェア・プロセッサ110と、メモリ120と、ユーザーのためにタッチスクリーン140上に表示されるべき画像を生成する表示コントローラ130と、ユーザーのタッチスクリーン140との相互作用を読むタッチ入力コントローラ150とを有している。装置100は好ましくは、ユーザーおよび他の装置と相互作用するための他のインターフェース160ならびに電源システム170をも有している。コンピュータ可読記憶媒体180は、プロセッサ110によって実行可能なコンピュータ可読プログラム・コードを記憶する。当業者は、図示した装置が明確のために非常に簡略化されていることを理解するであろう。
本稿において、すべての座標は第一象限のコンテキストにおいて与えられる。つまり、画像の原点(座標0,0をもつ点)は図2Aにおける要素299によって描かれるような左下コーナーに取られる。
図2A、2B、2C、2Dは、本開示の好ましい実施形態に従って実行される動作の結果を描いている。図2Aは、3人のダンサー200、202および204のシーンを表わすビデオ信号を表示している画面140を有する装置100を示している。ビデオは再生または捕捉される。ユーザーはダンサー200に関心がある。ユーザーの目的は、図2Bに示されるように、ダンサー200および周囲の詳細が画面の大半を占めて、他のダンサーの動きに煩わされることなく、このダンサーのアクションの、より多くの詳細が見えるようにすることである。この目的に向け、ユーザーはズーム機能をアクティブ化し、図2Cにおける円210によって示されるような好ましいダンサー200の身体上をダブルタップする。この結果、ダンサー200の周囲に、図2Dの閲覧窓220の定義が生じる。装置は、図2Dに示されるようにこの閲覧窓に対してズームし、このダンサーの身体を連続的に追跡して、ズーム機能が停止されるまでその動きを追う。これについては後に詳細に説明する。追跡中、装置は、ダンサーの頭部が閲覧窓220内に示されていることを連続的に検証することもする。顔が探索窓内に検出されたがその位置が閲覧窓の外側であるときは、これはエラーと考えられる。この場合、再同期機構が閲覧窓の位置および追跡アルゴリズムを更新し、それにより再び頭部を捕捉し、しかるべく閲覧窓を更新することができる。このエラーがあまりに頻繁に、たとえば決まった閾値より多く生じるときは、顔検出が画像全体にわたって拡大される。図3は、本開示の好ましい実施形態に基づく方法の流れ図の例を示している。プロセスは、ビデオが装置100によって再生または捕捉されている間に、ユーザーがズーム機能をアクティブ化するときに始まる。ユーザーは所望される位置において、たとえば図4Aにおいて要素410によって表わされるダンサー200のところで画面140をダブルタップする。ダブルタップの位置は、タッチ入力コントローラ150によって取得され、たとえば指タッチとして捕捉された領域の重心として計算され、一対の座標TAP.XおよびTAP.Yによって定義される画面上の位置に対応する。これらの座標が段階300において、図4Aにおいて要素420によって表わされる探索窓(SW)を決定するために使われる。探索窓は好ましくは、顔検出アルゴリズムがよく知られた画像処理技法を使って人間の顔を検出するために作用する対象とする長方形領域である。探索を画像全体の一部のみに制約することは、顔検出アルゴリズムの応答時間を改善することを許容する。探索窓の位置はタップ位置を中心としている。探索窓の大きさは画面サイズの割合αとして定義される。典型的な例は各次元方向においてα=25%であり、完全な画像のたった16分の1の探索領域につながり、検出期間を約16倍高速化する。探索窓は長方形の二つのコーナーによって、たとえば次のように、座標SW.XMin、SW.YMinおよびSW.XMax、SW.YMaxをもって定義され、SCR.WおよびSCR.Hは画面幅および高さである。
SW.XMin=TAP.X−(α/2×SCR.W); SW.YMin=TAP.Y−(α/2×SCR.H);
SW.XMax=TAP.X+(α/2×SCR.W); SW.YMax=TAP.Y+(α/2×SCR.H);
。
SW.XMax=TAP.X+(α/2×SCR.W); SW.YMax=TAP.Y+(α/2×SCR.H);
。
顔検出は、段階301において、探索窓に含まれる画像に対して起動される。このアルゴリズムは、図4Bにおいて要素430および431によって表わされる検出された顔の集合を返し、それぞれについて、その顔を表わす画像、その画像のサイズおよび探索窓におけるその画像の位置がある。段階302では、図4Bにおいて要素430によって表わされる、ユーザー・タップの位置に最も近い顔が選ばれる。たとえば、タップ位置と検出された顔の画像のそれぞれの中心との間の距離が次のように計算される。
D[i]=SQRT((SW.XMin+DF[i].X+DF[i].W/2−TAP.X)2+(SW.YMin+DF[i].Y+DF[i].H/2−TAP.Y)2)
。
。
上記公式において、DF[ ]は検出された顔のテーブルであり、それぞれの顔について、その水平位置DF[i].X、垂直位置DF[i].X、幅DF[i].X、高さDF[i].Xがあり、D[ ]は結果として得られる距離のテーブルである。テーブルD[ ]において最小距離値をもつ顔が選択され、それが追跡顔(track face)(TF)となる。次いで段階303において追跡顔の位置(TF.XおよびTF.Y)およびそのサイズ(TF.WおよびTF.H)が、図4Bにおける要素440によって表わされる身体窓(body window)(BW)を決定するために使われる。身体窓は、たとえば特徴ベースの追跡アルゴリズムを使っての追跡目的のために、使われる。一般的な場合、画像解析の観点からは、特徴ベースの追跡器に関する限り、身体要素は、画像の背景およびシーンに存在する可能性のある他の人間の両方に関して、頭部よりも弁別的である。追跡顔からの身体窓の定義は任意の仕方でなされる。それは、追跡顔の下に位置し、水平方向にはαw、垂直方向にはαhのパラメータをもって追跡顔寸法に比例する寸法をもつ窓である。たとえば、身体窓は次のように定義される。
BW.W=αw×TF.W; BW.H=αh×TF.H;
BW.X=TF.X+TF.W/2−BW.W/2; BW.Y=TF.Y−BW.H;
。
BW.X=TF.X+TF.W/2−BW.W/2; BW.Y=TF.Y−BW.H;
。
画像の代表的な集合からの統計により、ヒューリスティックスを定義することができた。それは、αw=3、αh=4の値で追跡フェーズのためにうまくいくと判明した。追跡顔から身体窓を決定するために、他のいかなる幾何学的関数が使われることもできる。
同様に、段階304において、図4Bにおいて要素450によって表わされる閲覧窓(VW)が任意の仕方で決定される。その位置は追跡顔の位置によって定義され、そのサイズは追跡顔サイズ、ズーム因子α'および画面寸法(SD: screen dimensions)の関数である。好ましくは、閲覧窓のアスペクト比は画面のアスペクト比を尊重する。閲覧窓の定義の一例は
VW.H=α'×TF.H; VW.W=TF.H×SD.W/SD.H;
VW.X=min(0,TF.X+TF.W/2−VW.W/2);
VW.Y=min(0,TF.Y+TF.H/2−VW.H/2);
によって与えられる。
VW.H=α'×TF.H; VW.W=TF.H×SD.W/SD.H;
VW.X=min(0,TF.X+TF.W/2−VW.W/2);
VW.Y=min(0,TF.Y+TF.H/2−VW.H/2);
によって与えられる。
α'=10の実験的な値がデフォルト値として満足のいく結果を与えた。しかしながら、このパラメータは、ユーザーの制御下にあり、その値はプロセスの間に変更されることがありうる。
段階305では、身体窓が追跡アルゴリズムに与えられる。段階306では、追跡アルゴリズムは、よく知られた画像処理技法を使って、ビデオ・ストリーム内の身体窓画像をなすピクセルの位置を追跡する。これは、ビデオ・ストリームの相続く画像を解析して、ビデオ・ストリームの第一の画像およびさらなる画像における身体窓の相続く位置の間に検出された動きの推定(MX,MY)を提供することによって行なわれる。検出された動きは、閲覧窓の内容に影響する。もとの画像におけるダンサー200の位置が右に動き、ダンサーが今や画像の中央にいるとき、ダンサーの左に新たな要素、たとえば新たなダンサーが現われることがある。したがって、閲覧窓の内容はこの新たな内容、選択されたズーム因子α'に従って、かつ検出された動きに従って更新される。この更新は、段階306において連続的に保存される更新された位置に位置する完全な画像の部分的領域を抽出し(extracting)、それをズーム因子α'に従ってスケーリングし(scaling)、それを表示することを含む。ここで、image[ ]はビデオをなす一連の画像のテーブルであり、VW[i−1].XおよびVW[i−1].Yは前の画像における閲覧窓の保存された座標である:
VW.image=extract(image[i], VW[i−1].X+MX, VW[i−1].Y+MY, VW.W/α', VW.H/α');
VW.image=scale(VW.image, α');
。
VW.image=extract(image[i], VW[i−1].X+MX, VW[i−1].Y+MY, VW.W/α', VW.H/α');
VW.image=scale(VW.image, α');
。
前の画像抽出は、閲覧窓がビデオ・ストリームにおいて検出された動きに追随することを可能にする。追跡アルゴリズムに関するよくある問題は、追跡される領域の隠蔽およびアルゴリズムのドリフトに関係する。そのような問題を防ぐために、段階307において追加的な検証が実行される。それは、閲覧窓において追跡顔がまだ見えることを検証することにある。そうでない場合には、分枝350において、それは、追跡がドリフトしてもはや正しい要素を追跡していないこと、あるいはたとえば新しい要素が前景にあるため新しい要素が追跡される要素をたとえば隠蔽(occlusion)によりマスクしていることを意味する。これは効果としては、段階317において、閲覧窓の位置を、追跡顔の最後に検出された位置と再同期することをもつ。次いで、段階308において、エラー・カウンタがインクリメントされる。次いで、段階309において、エラー・カウントが所定の閾値より高い場合かどうかが検査される。これが成り立つときは、分枝353において、完全なプロセスが改めて開始される。ただし、探索窓は完全な画像に拡大され、開始位置はもはやユーザーによって与えられたタップ位置ではなく、段階307において検証され段階310において前に保存されたところの、追跡顔の最後に検出された位置である。エラー・カウントが閾値より低い限り、分枝354において、プロセスは通常どおりに続けられる。実際、一時的な隠蔽の場合、追跡顔は数画像後に再び現われることがあり、よって追跡アルゴリズムは、いかなる追加的施策もなしに簡単に回復できるであろう。段階307における検査が真であるとき、分枝352において、それは、追跡顔が閲覧窓内で認識されたことを意味する。この場合、段階310において追跡顔の位置が保存され、段階311においてエラー・カウントがリセットされる。次いで、段階312において、ズーム機能がまだアクティブ化されているかどうかが検査される。もしそうであれば、プロセスは段階306の追跡および更新にループで戻る。もしそうでなければ、プロセスは停止され、ディスプレイは、ズームされた画像の代わりに通常の画像を再び示すことができるであろう。
好ましくは、追跡顔の認識および身体窓の追跡は、段階306において実行される追跡および検出動作に際して、逐次反復式に顔および身体のモデルを向上させ、両方の要素のさらなる認識を改善することを許容する。
図4のAおよびBは、図3の流れ図において定義された種々の要素を示している。図4Aでは、円410はタップ位置に対応し、長方形420は探索窓に対応する。図4Bでは、円430および431は段階301において検出された顔に対応する。円430は段階302において選択された追跡顔を現わす。長方形440は、段階303において定義された身体窓を表わし、長方形450は段階304において決定された閲覧窓に対応する。
図5のAおよびBは、装置の画面上に表示されるスライダーを通じたズーム因子制御の実装の例を示している。好ましくは、閲覧窓を構築し更新するために段階304および306において使われるズーム因子α'は、ズーム動作の間に、ユーザーによって構成設定可能である。構成設定はたとえば、画像の右側に位置し、ズーム因子の値を設定するために使われる垂直方向のスライダー510を通じて行なわれる。図5のAでは、スライダー510は画面の下のほうの小さな値に設定されており、よって小さなズーム効果を誘起する。図5のBでは、スライダー510は画面の上のほうの大きな値に設定されており、よって重要なズーム効果を誘起する。さらに、ズーム機能を停止させるために、グラフィック要素520がユーザーによって作動されることができる。ビデオに割かれる領域を減らすのを避けるために、このスライダーは画面上に表示されないこともできる。たとえば、画面の右端は、下をタッチされたときは限られたズームのために、上をタッチされたときは最大ズームのためにズーム因子を制御することができる。その結果、図2Dの図のように見える画面になる。代替的に、スライダーは、短時間表示されて、ズーム因子の変更が実行されたらすぐに消えてもよい。
好ましい実施形態では、ビデオ・ズーム機能はユーザー要求に際してアクティブ化される。この要求を確立するためには、画面上に表示されるアイコンを確認する、装置上の物理的なボタンを押すことによる、あるいは音声コマンドを通じてなど、種々の手段が使用できる。
ある変形では、関心のフォーカスは人間ではなく動物、自動車、建物または他の任意の種類のオブジェクトのようなオブジェクトである。この場合、段階301および306で使われた認識および追跡アルゴリズムならびにヒューリスティックは、認識および追跡されるべき要素の具体的な特性に合わせて適応されるが、方法の他の要素はいまだ有効である。たとえば木の場合、顔検出は木の幹の検出によって置き換えられ、幹に対する追跡領域を定義する異なるヒューリスティックスが、追跡されるべき領域を決定するために使われる。この変形では、ユーザーは好ましくは、機能をアクティブ化する前に、ビデオ・ズームの型を選び、よって、最も適切なアルゴリズムを使うことを許容する。
別の変形では、段階301における具体的な要素の検出に先立って、この領域に存在する要素の型を、人間、動物、自動車、建物などといった所定の型の集合の間で判別するために、探索窓に対して第一の解析が行なわれる。要素の型は重要度の降順にリストされる。重要度のための一つの基準は、探索窓内でのオブジェクトのサイズである。別の基準は、オブジェクトのそれぞれの型についての要素の数である。装置は、リストのいちばん上にある要素の型に従って認識および追跡アルゴリズムを選択する。この変形は、ズーム機能の、複数の型の要素への自動的な適応を提供する。
ある変形では、部分的閲覧窓450が全画面で表示され、これは、画面解像度よりも高い解像度でビデオを表示しているときに特に有益である。ある代替的な変形では、部分的閲覧窓は画面の一部のみ、たとえばピクチャー・イン・ピクチャー式にコーナーを占め、完全なシーンのグローバルなビューおよび選択された人物または要素の詳細の両方をもつことを許容する。
好ましい実施形態では、身体窓は顔追跡パラメータに従って決定される。より精密には、人間検出の場合について、具体的なヒューリスティックが与えられる。他の任意の幾何学的関数がその目的のために、好ましくは検出された第一の要素、すなわち人間の検出の場合には追跡顔のサイズに基づいて、使用できる。たとえば、垂直方向スケーリング値、水平方向スケーリング値、水平方向オフセットおよび垂直方向オフセットが、幾何学的関数を決定するために使用されることができる。これらの値は好ましくは、検出された第一の要素のパラメータに依存する。
図面で使われている画像はpixabay.comを通じて得られたもので、パブリックドメインである。
当業者には理解されるように、本願の原理の諸側面は完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコードなどを含む)または本稿でみな一般に「回路」「モジュール」または「システム」として定義されうるソフトウェアおよびハードウェア側面を組み合わせた実施形態の形を取ることができる。さらに、本願の原理の諸側面は、コンピュータ可読記憶媒体の形を取ることができる。一つまたは複数のコンピュータ可読媒体の任意の組み合わせが利用できる。こうして、たとえば、当業者は、本願で呈示された図は、本開示の原理を具現する例示的なシステム・コンポーネントおよび/または回路の概念図を表わすことを理解するであろう。同様に、フローチャート、流れ図、状態遷移図、擬似コードなどがある場合、それはコンピュータ可読記憶媒体において実質的に表現され、よってコンピュータまたはプロセッサによって実行されうるさまざまなプロセスを表わすことが理解されるであろう。これはそのようなコンピュータまたはプロセッサが明示的に示されるかどうかによらない。コンピュータ可読記憶媒体は、一つまたは複数のコンピュータ可読媒体において具現された、コンピュータによって実行可能なコンピュータ可読プログラム・コードがその上に具現されている、コンピュータ可読プログラム・プロダクトの形を取ることができる。本稿で用いられるところのコンピュータ可読記憶媒体はそこに情報を記憶する本来的機能およびそこからの情報の取り出しを提供する本来的機能を与えられ、非一時的記憶媒体と考えられる。コンピュータ可読記憶媒体は、たとえば電子的、磁気的、光学式、電磁式、赤外線または半導体システム、装置もしくはデバイスまたは上記の任意の好適な組み合わせであることができるがそれに限定されない。次のものは、当業者は容易に理解するであろうように、本願の原理が適用されうるコンピュータ可読記憶媒体のさらなる具体例を提供しているものの、単に例示するものであって、網羅的なリストではないことを理解しておくべきである:ポータブルコンピュータディスケット;ハードディスク;読み出し専用メモリ(ROM);消去可能なプログラム可能型読み出し専用メモリ(EPROMまたはフラッシュメモリ);ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM);光記憶デバイス;磁気記憶デバイス;または上記の任意の好適な組み合わせ。
本稿ならびに(適切な場合には)請求項および図面において開示される各特徴は、独立して、または任意の適切な組み合わせにおいて提供されてもよい。ハードウェアで実装されると記述されている特徴がソフトウェアで実装されてもよく、逆に、ソフトウェアで実装されると記述されている特徴がハードウェアで実装されてもよい。請求項に現われる参照符号は単に例示であって、請求項の範囲に対して何ら限定する効果をもたない。
本稿ならびに(適切な場合には)請求項および図面において開示される各特徴は、独立して、または任意の適切な組み合わせにおいて提供されてもよい。ハードウェアで実装されると記述されている特徴がソフトウェアで実装されてもよく、逆に、ソフトウェアで実装されると記述されている特徴がハードウェアで実装されてもよい。請求項に現われる参照符号は単に例示であって、請求項の範囲に対して何ら限定する効果をもたない。
いくつかの付記を記載しておく。
〔付記1〕
ビデオの部分閲覧領域にズームインするためのデータ処理装置であって:
・一連の画像を含む前記ビデオを表示し;
前記ビデオを表示している画面上でなされるタッチの座標を取得するよう構成された
画面と;
・あるサイズおよび位置をもつ人間の顔であって、タッチ(410)の座標までの最小の幾何学的距離をもつものを選択し;
選択された人間の顔のサイズおよび位置に対して部分閲覧領域のサイズおよび位置を決定し;
前記該部分閲覧領域をあるスケール因子に従って表示するよう構成された
プロセッサとを有する、
装置。
〔付記2〕
前記プロセッサが、前記部分閲覧領域(450)のサイズおよび位置を、選択された顔(430)に関連する弁別要素(440)のピクセルの集合を検出することによって決定するよう構成されており、前記弁別要素は、前記選択された人間の顔のサイズおよび位置に対する幾何学的関数によって決定されるサイズおよび位置をもつ、付記1記載の装置。
〔付記3〕
前記プロセッサが、前記画像と前記ビデオにおける前の画像との間で検出された前記弁別要素に関係したピクセルの前記集合の動きに従って、前記画像の前記部分閲覧領域の位置を調整するよう構成されている、付記1または2記載の装置。
〔付記4〕
前記プロセッサが、前記スケール因子を決定するスライダーの値に従って前記画像の前記部分閲覧領域のサイズを調整するよう構成されている、付記1ないし3のうちいずれか一項記載の装置。
〔付記5〕
前記プロセッサが、前記スケール因子を決定するために画面の端部のタッチに従って前記画像の前記部分閲覧領域のサイズを調整するよう構成されており、前記画面の端部の異なる領域は異なるスケール因子に対応する、付記1ないし3のうちいずれか一項記載の装置。
〔付記6〕
前記プロセッサが、前記選択された顔が前記部分閲覧領域に含まれていることを確認し、含まれていない場合には、前記部分閲覧領域の位置を、前記選択された顔を含むよう調整するよう構成されている、付記1ないし5のうちいずれか一項記載の装置。
〔付記7〕
前記プロセッサが、前記画像の一部であって、画面サイズのある比率であるサイズをもち、前記タッチの座標を中心とする位置をもつ部分にのみ、人間の顔の前記検出を実行するよう構成されている、付記1ないし6のうちいずれか一項記載の装置。
〔付記8〕
前記プロセッサが、ダブルタップを検出して、前記画面上での前記タッチの座標を提供するよう構成されている、付記1ないし7のうちいずれか一項記載の装置。
〔付記9〕
一連の画像を含むビデオの部分閲覧領域にズームインするための方法であって、当該方法は:
・前記ビデオを表示している画面上でなされるタッチの座標を取得し;
・あるサイズおよび位置をもつ人間の顔であって、前記タッチの座標までの最小の幾何学的距離をもつものを選択し;
・選択された人間の顔のサイズおよび位置に対して部分閲覧領域のサイズおよび位置を決定し;
・前記部分閲覧領域を決定されたスケール因子に従って表示することを含む、
方法。
〔付記10〕
前記部分閲覧領域のサイズおよび位置が、選択された顔に関連する弁別要素のピクセルの集合を検出することによって決定され、該弁別要素は、前記選択された人間の顔のサイズおよび位置に対する幾何学的関数によって決定されるサイズおよび位置をもつ、付記9記載の方法。
〔付記11〕
前記画像と前記ビデオにおける前の画像との間で検出された前記弁別要素に関係したピクセルの前記集合の動きが、前記画像の前記部分閲覧領域の位置を調整するために使われる、付記9または10記載の方法。
〔付記12〕
前記選択された顔に関連するある弁別要素のピクセルの前記集合が前記部分閲覧領域に含まれていない場合に前記部分閲覧領域の位置が、ピクセルの該集合を含むよう調整される、付記9ないし11のうちいずれか一項記載の方法。
〔付記13〕
検出される前記タッチがダブルタップである、付記9ないし12のうちいずれか一項記載の方法。
〔付記14〕
付記9ないし13のうちいずれか一項記載の方法の段階を実装するためにプロセッサによって実行可能なプログラム・コード命令を含むコンピュータ・プログラム。
〔付記15〕
付記9ないし13のうちいずれか一項記載の方法の段階を実装するためにプロセッサによって実行可能なプログラム・コード命令を含む、非一時的なコンピュータ可読媒体上に記憶されているコンピュータ・プログラム・プロダクト。
いくつかの付記を記載しておく。
〔付記1〕
ビデオの部分閲覧領域にズームインするためのデータ処理装置であって:
・一連の画像を含む前記ビデオを表示し;
前記ビデオを表示している画面上でなされるタッチの座標を取得するよう構成された
画面と;
・あるサイズおよび位置をもつ人間の顔であって、タッチ(410)の座標までの最小の幾何学的距離をもつものを選択し;
選択された人間の顔のサイズおよび位置に対して部分閲覧領域のサイズおよび位置を決定し;
前記該部分閲覧領域をあるスケール因子に従って表示するよう構成された
プロセッサとを有する、
装置。
〔付記2〕
前記プロセッサが、前記部分閲覧領域(450)のサイズおよび位置を、選択された顔(430)に関連する弁別要素(440)のピクセルの集合を検出することによって決定するよう構成されており、前記弁別要素は、前記選択された人間の顔のサイズおよび位置に対する幾何学的関数によって決定されるサイズおよび位置をもつ、付記1記載の装置。
〔付記3〕
前記プロセッサが、前記画像と前記ビデオにおける前の画像との間で検出された前記弁別要素に関係したピクセルの前記集合の動きに従って、前記画像の前記部分閲覧領域の位置を調整するよう構成されている、付記1または2記載の装置。
〔付記4〕
前記プロセッサが、前記スケール因子を決定するスライダーの値に従って前記画像の前記部分閲覧領域のサイズを調整するよう構成されている、付記1ないし3のうちいずれか一項記載の装置。
〔付記5〕
前記プロセッサが、前記スケール因子を決定するために画面の端部のタッチに従って前記画像の前記部分閲覧領域のサイズを調整するよう構成されており、前記画面の端部の異なる領域は異なるスケール因子に対応する、付記1ないし3のうちいずれか一項記載の装置。
〔付記6〕
前記プロセッサが、前記選択された顔が前記部分閲覧領域に含まれていることを確認し、含まれていない場合には、前記部分閲覧領域の位置を、前記選択された顔を含むよう調整するよう構成されている、付記1ないし5のうちいずれか一項記載の装置。
〔付記7〕
前記プロセッサが、前記画像の一部であって、画面サイズのある比率であるサイズをもち、前記タッチの座標を中心とする位置をもつ部分にのみ、人間の顔の前記検出を実行するよう構成されている、付記1ないし6のうちいずれか一項記載の装置。
〔付記8〕
前記プロセッサが、ダブルタップを検出して、前記画面上での前記タッチの座標を提供するよう構成されている、付記1ないし7のうちいずれか一項記載の装置。
〔付記9〕
一連の画像を含むビデオの部分閲覧領域にズームインするための方法であって、当該方法は:
・前記ビデオを表示している画面上でなされるタッチの座標を取得し;
・あるサイズおよび位置をもつ人間の顔であって、前記タッチの座標までの最小の幾何学的距離をもつものを選択し;
・選択された人間の顔のサイズおよび位置に対して部分閲覧領域のサイズおよび位置を決定し;
・前記部分閲覧領域を決定されたスケール因子に従って表示することを含む、
方法。
〔付記10〕
前記部分閲覧領域のサイズおよび位置が、選択された顔に関連する弁別要素のピクセルの集合を検出することによって決定され、該弁別要素は、前記選択された人間の顔のサイズおよび位置に対する幾何学的関数によって決定されるサイズおよび位置をもつ、付記9記載の方法。
〔付記11〕
前記画像と前記ビデオにおける前の画像との間で検出された前記弁別要素に関係したピクセルの前記集合の動きが、前記画像の前記部分閲覧領域の位置を調整するために使われる、付記9または10記載の方法。
〔付記12〕
前記選択された顔に関連するある弁別要素のピクセルの前記集合が前記部分閲覧領域に含まれていない場合に前記部分閲覧領域の位置が、ピクセルの該集合を含むよう調整される、付記9ないし11のうちいずれか一項記載の方法。
〔付記13〕
検出される前記タッチがダブルタップである、付記9ないし12のうちいずれか一項記載の方法。
〔付記14〕
付記9ないし13のうちいずれか一項記載の方法の段階を実装するためにプロセッサによって実行可能なプログラム・コード命令を含むコンピュータ・プログラム。
〔付記15〕
付記9ないし13のうちいずれか一項記載の方法の段階を実装するためにプロセッサによって実行可能なプログラム・コード命令を含む、非一時的なコンピュータ可読媒体上に記憶されているコンピュータ・プログラム・プロダクト。
Claims (15)
- ビデオの部分閲覧領域にズームインするためのデータ処理装置であって:
・一連の画像を含む前記ビデオを表示し;
前記ビデオを表示している画面上でなされるタッチの座標を取得するよう構成された
画面と;
・あるサイズおよび位置をもつ人間の顔であって、タッチ(410)の座標までの最小の幾何学的距離をもつものを選択し;
選択された人間の顔のサイズおよび位置に対して部分閲覧領域のサイズおよび位置を決定し;
前記該部分閲覧領域をあるスケール因子に従って表示するよう構成された
プロセッサとを有する、
装置。 - 前記プロセッサが、前記部分閲覧領域(450)のサイズおよび位置を、選択された顔(430)に関連する弁別要素(440)のピクセルの集合を検出することによって決定するよう構成されており、前記弁別要素は、前記選択された人間の顔のサイズおよび位置に対する幾何学的関数によって決定されるサイズおよび位置をもつ、請求項1記載の装置。
- 前記プロセッサが、前記画像と前記ビデオにおける前の画像との間で検出された前記弁別要素に関係したピクセルの前記集合の動きに従って、前記画像の前記部分閲覧領域の位置を調整するよう構成されている、請求項1または2記載の装置。
- 前記プロセッサが、前記スケール因子を決定するスライダーの値に従って前記画像の前記部分閲覧領域のサイズを調整するよう構成されている、請求項1ないし3のうちいずれか一項記載の装置。
- 前記プロセッサが、前記スケール因子を決定するために画面の端部のタッチに従って前記画像の前記部分閲覧領域のサイズを調整するよう構成されており、前記画面の端部の異なる領域は異なるスケール因子に対応する、請求項1ないし3のうちいずれか一項記載の装置。
- 前記プロセッサが、前記選択された顔が前記部分閲覧領域に含まれていることを確認し、含まれていない場合には、前記部分閲覧領域の位置を、前記選択された顔を含むよう調整するよう構成されている、請求項1ないし5のうちいずれか一項記載の装置。
- 前記プロセッサが、前記画像の一部であって、画面サイズのある比率であるサイズをもち、前記タッチの座標を中心とする位置をもつ部分にのみ、人間の顔の前記検出を実行するよう構成されている、請求項1ないし6のうちいずれか一項記載の装置。
- 前記プロセッサが、ダブルタップを検出して、前記画面上での前記タッチの座標を提供するよう構成されている、請求項1ないし7のうちいずれか一項記載の装置。
- 一連の画像を含むビデオの部分閲覧領域にズームインするための方法であって、当該方法は:
・前記ビデオを表示している画面上でなされるタッチの座標を取得し;
・あるサイズおよび位置をもつ人間の顔であって、前記タッチの座標までの最小の幾何学的距離をもつものを選択し;
・選択された人間の顔のサイズおよび位置に対して部分閲覧領域のサイズおよび位置を決定し;
・前記部分閲覧領域を決定されたスケール因子に従って表示することを含む、
方法。 - 前記部分閲覧領域のサイズおよび位置が、選択された顔に関連する弁別要素のピクセルの集合を検出することによって決定され、該弁別要素は、前記選択された人間の顔のサイズおよび位置に対する幾何学的関数によって決定されるサイズおよび位置をもつ、請求項9記載の方法。
- 前記画像と前記ビデオにおける前の画像との間で検出された前記弁別要素に関係したピクセルの前記集合の動きが、前記画像の前記部分閲覧領域の位置を調整するために使われる、請求項9または10記載の方法。
- 前記選択された顔に関連するある弁別要素のピクセルの前記集合が前記部分閲覧領域に含まれていない場合に前記部分閲覧領域の位置が、ピクセルの該集合を含むよう調整される、請求項9ないし11のうちいずれか一項記載の方法。
- 検出される前記タッチがダブルタップである、請求項9ないし12のうちいずれか一項記載の方法。
- 請求項9ないし13のうちいずれか一項記載の方法の段階を実装するためにプロセッサによって実行可能なプログラム・コード命令を含むコンピュータ・プログラム。
- 請求項9ないし13のうちいずれか一項記載の方法の段階を実装するためにプロセッサによって実行可能なプログラム・コード命令を含む、非一時的なコンピュータ可読媒体上に記憶されているコンピュータ・プログラム・プロダクト。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP15305928 | 2015-06-15 | ||
EP15305928.2 | 2015-06-15 | ||
PCT/EP2016/063559 WO2016202764A1 (en) | 2015-06-15 | 2016-06-14 | Apparatus and method for video zooming by selecting and tracking an image area |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018517984A true JP2018517984A (ja) | 2018-07-05 |
Family
ID=53758138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017563943A Pending JP2018517984A (ja) | 2015-06-15 | 2016-06-14 | 画像領域を選択して追跡することによるビデオ・ズームのための装置および方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US20180173393A1 (ja) |
EP (1) | EP3308258A1 (ja) |
JP (1) | JP2018517984A (ja) |
KR (1) | KR20180018561A (ja) |
CN (1) | CN107771314A (ja) |
TW (1) | TW201712524A (ja) |
WO (1) | WO2016202764A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021245747A1 (ja) * | 2020-06-01 | 2021-12-09 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4220444A1 (en) * | 2014-09-09 | 2023-08-02 | Liveperson Inc. | Dynamic code management |
CN106293444B (zh) * | 2015-06-25 | 2020-07-03 | 小米科技有限责任公司 | 移动终端、显示控制方法及装置 |
CN107368253B (zh) * | 2017-07-06 | 2020-12-29 | 努比亚技术有限公司 | 图片缩放显示方法、移动终端及存储介质 |
CN108733280A (zh) * | 2018-03-21 | 2018-11-02 | 北京猎户星空科技有限公司 | 智能设备的焦点跟随方法、装置、智能设备及存储介质 |
US10863097B2 (en) * | 2018-08-21 | 2020-12-08 | Gopro, Inc. | Field of view adjustment |
CN109121000A (zh) * | 2018-08-27 | 2019-01-01 | 北京优酷科技有限公司 | 一种视频处理方法及客户端 |
CN109816700B (zh) * | 2019-01-11 | 2023-02-24 | 佰路得信息技术(上海)有限公司 | 一种基于目标识别的信息统计方法 |
CN112055168B (zh) * | 2019-06-05 | 2022-09-09 | 杭州萤石软件有限公司 | 视频监控方法、系统及监控服务器 |
EP3800872A4 (en) * | 2019-08-02 | 2022-01-05 | Beijing Xiaomi Mobile Software Co., Ltd. Nanjing Branch | TERMINAL DEVICE |
CN111093027B (zh) * | 2019-12-31 | 2021-04-13 | 联想(北京)有限公司 | 一种显示方法及电子设备 |
CN111770380A (zh) * | 2020-01-16 | 2020-10-13 | 北京沃东天骏信息技术有限公司 | 一种视频处理方法和装置 |
JP7536462B2 (ja) * | 2020-02-12 | 2024-08-20 | シャープ株式会社 | 電子機器、表示制御装置、表示制御方法、および、プログラム |
CN111722775A (zh) * | 2020-06-24 | 2020-09-29 | 维沃移动通信(杭州)有限公司 | 图像处理方法、装置、设备及可读存储介质 |
CN112347924A (zh) * | 2020-11-06 | 2021-02-09 | 杭州当虹科技股份有限公司 | 一种基于人脸跟踪的虚拟导播改进方法 |
EP4240004A4 (en) * | 2021-05-12 | 2024-06-05 | Samsung Electronics Co., Ltd. | ELECTRONIC DEVICE AND METHOD FOR CAPTURING AN IMAGE BY AN ELECTRONIC DEVICE |
KR20230083101A (ko) * | 2021-12-02 | 2023-06-09 | 삼성전자주식회사 | 디스플레이 장치에서 재생 중인 콘텐트를 편집하는 방법 및 이를 위한 전자 장치 |
CN117177064A (zh) * | 2022-05-30 | 2023-12-05 | 荣耀终端有限公司 | 一种拍摄方法及相关设备 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101458586B (zh) | 2007-12-11 | 2010-10-13 | 义隆电子股份有限公司 | 以多根手指在触控屏幕上操作对象的方法 |
KR101709935B1 (ko) * | 2009-06-23 | 2017-02-24 | 삼성전자주식회사 | 영상촬영장치 및 그 제어방법 |
US8379098B2 (en) * | 2010-04-21 | 2013-02-19 | Apple Inc. | Real time video process control using gestures |
KR102030754B1 (ko) | 2012-03-08 | 2019-10-10 | 삼성전자주식회사 | 관심 영역을 선택하기 위한 이미지 편집 장치 및 방법 |
EP2801919A1 (en) * | 2013-05-10 | 2014-11-12 | LG Electronics, Inc. | Mobile terminal and controlling method thereof |
-
2016
- 2016-06-14 US US15/737,273 patent/US20180173393A1/en not_active Abandoned
- 2016-06-14 CN CN201680034928.9A patent/CN107771314A/zh not_active Withdrawn
- 2016-06-14 WO PCT/EP2016/063559 patent/WO2016202764A1/en active Application Filing
- 2016-06-14 EP EP16730792.5A patent/EP3308258A1/en not_active Withdrawn
- 2016-06-14 JP JP2017563943A patent/JP2018517984A/ja active Pending
- 2016-06-14 KR KR1020177035946A patent/KR20180018561A/ko unknown
- 2016-06-15 TW TW105118662A patent/TW201712524A/zh unknown
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2021245747A1 (ja) * | 2020-06-01 | 2021-12-09 | ||
WO2021245747A1 (ja) * | 2020-06-01 | 2021-12-09 | 日本電気株式会社 | 追跡装置、追跡方法、および記録媒体 |
JP7332047B2 (ja) | 2020-06-01 | 2023-08-23 | 日本電気株式会社 | 追跡装置、追跡システム、追跡方法、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
KR20180018561A (ko) | 2018-02-21 |
EP3308258A1 (en) | 2018-04-18 |
TW201712524A (zh) | 2017-04-01 |
CN107771314A (zh) | 2018-03-06 |
WO2016202764A1 (en) | 2016-12-22 |
US20180173393A1 (en) | 2018-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2018517984A (ja) | 画像領域を選択して追跡することによるビデオ・ズームのための装置および方法 | |
US9360965B2 (en) | Combined touch input and offset non-touch gesture | |
JP6036807B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
US20140118252A1 (en) | Method of displaying cursor and system performing cursor display method | |
JP7497458B2 (ja) | ジェスチャ制御電子装置の制御表示ゲインを調整するための方法および装置 | |
JP5769277B2 (ja) | 入力装置、入力方法及びプログラム | |
JP2009278623A (ja) | 撮像デバイス内でタッチ式調節を実行する方法及び装置 | |
CN111475059A (zh) | 基于近距离传感器和图像传感器的手势检测 | |
TW200847772A (en) | Providing area zoom functionality for a camera | |
WO2015159548A1 (ja) | 投影制御装置、投影制御方法及び投影制御プログラムを記録した記録媒体 | |
KR20150106823A (ko) | 제스처 인식 장치 및 제스처 인식 장치의 제어 방법 | |
JP2012238293A (ja) | 入力装置 | |
TW201413641A (zh) | 具有圖片切換功能的裝置及圖片切換方法 | |
CN105912101B (zh) | 一种投影控制方法和电子设备 | |
US20200106967A1 (en) | System and method of configuring a virtual camera | |
WO2012121405A1 (en) | A user interface, a device having a user interface and a method of providing a user interface | |
JP6495451B2 (ja) | 方向認識オートフォーカス | |
WO2019218622A1 (zh) | 元素控制方法、装置、设备及存储介质 | |
US20160171297A1 (en) | Method and device for character input | |
EP3974949A1 (en) | Head-mounted display | |
JP7080711B2 (ja) | 電子機器、電子機器の制御方法、プログラム、及び、記憶媒体 | |
KR101743888B1 (ko) | 터치 유저 인터페이스를 이용한 카메라의 이동경로와 이동시간의 동기화를 위한 사용자 단말장치 및 컴퓨터 구현 방법 | |
JP5676959B2 (ja) | 情報処理装置及びその制御方法 | |
US11010045B2 (en) | Control apparatus, control method, and non-transitory computer readable medium | |
KR102705094B1 (ko) | 터치 유저 인터페이스를 이용한 카메라의 이동경로와 이동시간의 동기화를 위한 사용자 단말장치 및 컴퓨터 구현 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171220 |