JP6767516B2 - 手検出及び追跡方法並びに装置 - Google Patents

手検出及び追跡方法並びに装置 Download PDF

Info

Publication number
JP6767516B2
JP6767516B2 JP2018567694A JP2018567694A JP6767516B2 JP 6767516 B2 JP6767516 B2 JP 6767516B2 JP 2018567694 A JP2018567694 A JP 2018567694A JP 2018567694 A JP2018567694 A JP 2018567694A JP 6767516 B2 JP6767516 B2 JP 6767516B2
Authority
JP
Japan
Prior art keywords
hand
tracking
block
frame
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018567694A
Other languages
English (en)
Other versions
JP2019519049A (ja
Inventor
ドゥ,ヂージュン
ワン,ナン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Publication of JP2019519049A publication Critical patent/JP2019519049A/ja
Application granted granted Critical
Publication of JP6767516B2 publication Critical patent/JP6767516B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching
    • G06T7/231Analysis of motion using block-matching using full search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20072Graph-based image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Description

本願は、2016年6月23日出願の「手検出及び追跡方法並びに装置」と題する中国特許出願第201610461515.0号に対する優先権を主張し、その全体を参照により本明細書に組み込む。
本願は視覚的ターゲットの検出及び追跡(トラッキング)技術及びヒューマン−コンピュータインタラクション(対話、相互利用)技術に関し、特に、手検出及び追跡方法並びに装置に関する。
手は、ヒューマン−コンピュータインタラクションのツールとして用いることができる。実際には、ヒューマン−コンピュータインタラクションプロセスを通して、ビデオの各フレームの手の位置を取得するために、手をリアルタイムで検出して追跡する必要がある。具体的には、各フレームで検出を実行することはできるが、検出には時間を要し、リアルタイムで実行することができない。さらに、時折誤検出が生じ、手の位置のジター(jitter、震え)につながり、その後に続くユーザインタラクションに影響を及ぼす。
上述の問題を解決するために、従来の技術では追跡メカニズムが導入され、リアルタイムエフェクトを達成している。しかし、追跡中に対象が失われる(ロストする)ことがある。追跡対象が失われるという問題を軽減するために、従来の技術において一般的に用いられる方法は、肌の色情報を導入することである。肌の色を用いることでいくらかの誤追跡を回避することはできるが、背景の色と肌の色が類似している場合には、依然として追跡エラーが発生する可能性がある。
本願の実施は、手検出及び追跡方法を提供し、この方法は:画像の各フレームで手検出を実行するステップと;画像のフレーム内で手が検出された場合に、追跡結果を取得するために検出された手の位置追跡を実行するステップと;次のフレームで手を追跡する、又は前記追跡結果に基づいて現在のフレームで局所的な手検出を実行するために、前記追跡結果が有効であるか否かを検証するステップと;を含む。
本願の実施は、手検出及び追跡装置を提供し、この装置は:画像の各フレームで手検出を実行するよう構成された手検出ユニットと;画像のフレーム内で手が検出された場合に、追跡結果を取得するために検出された手の位置追跡を実行するよう構成された位置追跡ユニットと;次のフレームで手を追跡する、又は前記追跡結果に基づいて現在のフレームで局所的な手検出を実行するために、前記追跡結果が有効であるか否かを検証するよう構成された追跡結果処理ユニットと;を含む。
本願の実施では、追跡中に検証ステップが追加されるため、追跡結果をリアルタイムで補正することができ、それによって迅速かつ正確な手検出が保証される。
勿論、本願を実施する任意の物又は方法は、上述のすべての利点でなく一部のみを達成することもできる。
本願の実施又は従来技術における技術的解決策をより明確に説明するために、以下に、実施又は従来技術の説明に必要な添付図面について簡単に説明する。以下の説明における添付図面は本願のいくつかの実施のみを示し、当業者が依然として創意工夫を要することなくこれらの添付図面から他の図面を導出できることは明らかである。
図1は、本願の一実施に係る、手検出及び追跡方法の実施を示す方法のフローチャートである。
図2は、本願の一実施に係る、異なるスケールにおける手検出を示す概略図である。
図3は、本願の一実施に係る、追跡結果検証方法を示すフローチャートである。
図4は、本願の一実施に係る、追跡結果検証処理を示す概略図である。
図5は、本願の一実施に係る、追跡結果に基づいて現在のフレームで局所的な手検出を実行するための方法を示すフローチャートである。
図6は、本願の一実施に係る、ブロック結合を示す概略図である。
図7は、本願の他の実施に係る、ブロック結合を示す概略図である。
図8は、本願の実施に係る、手検出及び追跡装置を示す概略構成図である。
図9は、本願の一実施に係る、追跡結果処理ユニットを示す概略構成図である。
図10は、本願の他の実施に係る、追跡結果処理ユニットを示す概略構成図である。
図11は、本願のさらに他の実施に係る、追跡結果処理ユニットを示す概略構成図である。
以下に、本願の実施の添付図面を参照して、本願の実施における技術的解決策を明確かつ包括的に説明する。本明細書に記載された実施は、本願の実施の一部に過ぎず、それらの全てでないことは明らかである。本願の実施に基づいて、当業者によって創意工夫を要することなく得られる全ての他の実施は、本願の保護範囲に入るものである。
以下に、本願における手検出及び追跡方法及び装置について、添付図面を参照して詳細に説明する。図1は、本願の一実施に係る手検出及び追跡方法の実施を示す方法のフローチャートである。本願は、以下の実施又は添付図面に示すように、方法の操作ステップ又は装置(デバイス)の構成を提供するが、既存技術により又は創意工夫を要することなく、前記方法はより多いか又はより少ないステップを含むことができ、前記装置はより多いか又はより少ないモジュール構成を含むことができる。論理的な因果関係に必ずしも拘束されないステップ又は構成において、これらのステップの実行順序、又は装置のモジュール構成は、本願の実施で提供される実行順序又はモジュール構成に限定されない。実際の装置又は端末製品に適用する場合、実施又は添付図面で示される方法又はモジュール構成のつながりに基づいて、前記方法又はモジュール構成を順次に又は(例えば、並列処理装置又はマルチスレッド処理装置の環境で)並列に実行することができる。
検出された手が追跡中に普通に検出し損なうという従来技術における問題に基づいて、本願では追跡検証メカニズムを導入し、それによって追跡結果をリアルタイムで補正することができるため、迅速かつ正確な手検出を保証する。具体的には、図1に示すように、本願における手検出及び追跡方法は、以下のステップを含むことができる。
S101.画像の各フレームで手検出を実行する。
S102.画像のフレーム内で手が検出された場合に、追跡結果を取得するために検出された手の位置追跡を実行する。
S103.次のフレームで手を追跡する、又は追跡結果に基づいて現在のフレームで局所的な(ローカライズされた)手検出を実行するために、追跡結果が有効であるか否かを検証する。
図1に示す手順から分かるように、本願においては、先ず手検出を行い、手が検出された場合には位置追跡を行い、追跡結果の有効性を検証することで、無効な追跡結果を補正して誤判断が生じることを回避できる。したがって、手検出を迅速かつ正確に実行することができ、演算量を減少させることができる。
S101において、通常、手検出は画像の第1フレームから実行する必要がある。具体的な検出方法としては、画像の各フレームを全体的にスキャンし、HOG+SVM法を用いて手検出を実行することが挙げられる。HOG+SVM法は、従来技術において一般的に用いられている人体検出方法であり、説明を簡略にするため詳細は省略する。さらに、本願において手検出は、画像のフレームの手と良好なマッチングが得られ、そして正確かつ迅速に手を検出するために、異なるスケールで実行される必要がある。異なるスケールについては、図2を参照することができる。
手検出に成功した(すなわち、画像のフレームで手が検出された)後、検出された手に対して位置追跡を実行することができる。一実施において、テンプレートマッチング法を用いて検出された手の位置追跡を行って追跡結果を取得することができる。
この追跡結果は予備的追跡結果であり、予備的追跡結果に基づいて追跡が有効であるか否かを特定することはできない。したがって、追跡結果を検証する必要がある。
通常、追跡結果は、画像のフレームのポジショニング(配置、位置決め)ブロックに対応する。追跡結果が有効であるか否かを検証することは、ブロックが手であるか否かを特定することである。図3に示すように、追跡結果が有効であるか否かを検証する方法は、以下のステップを含む。
S301.ポジショニングブロックを、手のトレーニング(学習、訓練)時に特定されたサイズに調整する。分類器(クラシファイア)は、分類を実行する前にトレーニングされている必要がある。分類器はトレーニング時に固定サイズを有するので、分類を実行する前に、ビデオ内の手のブロックを手のトレーニング時に特定されたサイズに調整する必要がある。
S302.ポジショニングブロックが手であるか否かを特定するために、調整されたポジショニングブロックを分類器に送信する。ここで、ポジショニングブロックが手である場合は、追跡結果は有効であり、そうでない場合は、追跡結果は無効である。
図4は、本願の実施に係る追跡結果検証処理を示す概略図である。図4に示すように、ブロックS2を取得するために先ずビデオ内の手のブロック(ポジショニングブロックS1)を最初に手のトレーニング時に特定されたサイズに調整する必要があり、次にブロックS2を分類器に送信する。分類器は特定結果を出力することができ、特定結果に基づいてブロックS2が手であるか否かを特定することができる。ブロックS2が手である場合は、追跡結果は有効であり、そうでない場合は、追跡結果は無効である。分類器としては、SVM分類器、ANN分類器、ブースト分類器などが挙げられる。本願は、これに限定されない。
追跡結果が有効である場合、次のフレームで追跡を実行することができる。具体的には、S101の手検出を行わずに、図1のS102及びS103を繰り返して実行する。したがって、この方法では、画像の各フレームで手検出を実行する従来の技術と比べて作業負荷が軽減される。
しかし、追跡結果が有効である場合に、画像内の手の位置やサイズから追跡結果がずれている可能性がある。S101の手検出を直接行った場合には、誤判断が生じる可能性がある。この問題を解決するために、図5に示すように、追跡結果に基づいて現在のフレームで局所的な手検出を実行することができる。具体的には、以下のステップを含む。
S501.ポジショニングブロックの中心を特定し、かつ所定のステップ及び所定のブロックサイズを用いて複数の近隣ブロックを定義する。
S502.複数の近隣ブロックのそれぞれを、手のトレーニング時に特定されたサイズに調整する。分類器は、分類を実行する前にトレーニングされている必要がある。分類器はトレーニング時に固定サイズを有するので、分類を実行する前に、ビデオ内の手のブロックを手のトレーニング時に特定されたサイズに調整する必要がある。
S503.調整された複数の近隣ブロックを分類器に別々に送信し、複数の近隣ブロックのうちの手である近隣ブロックの量を特定する。
具体的には、現在の追跡結果におけるブロックの中心を(x,y)と定義し、ブロックの高さを(w,h)とすることができる。上述の説明によれば、ブロックが手でないと特定された原因は、追跡結果が実際の位置からわずかにずれているか、又は撮影距離により手の撮像時にズームされたためである可能性がある。したがって、本願においては、この問題を解決するために以下の方法を採用している。説明を明確にするために、以下の方法では、所定のステップを2と設定し、近隣ブロックの量は8と設定し、所定のブロックサイズは、(0.8w,0.8h)、(w,h)、(1.2w,1.2h)の3つのサイズを含む。これらの設定は、限定するためのものではない。
先ず、(x,y)におけるステップが2である8個の近隣ブロックで手検出を実行する。具体的には、特定される8個の近隣ブロックの中心は、それぞれ(x−2,y−2)、(x,y−2)、(x+2,y−2)、(x,y−2)、(x,y+2)、(x+2,y−2)、(x+2,y)、(x+2,y+2)である。(0.8w,0.8h)、(w,h)及び(1.2w,1.2h)の3つのサイズを設定した後、近隣ブロックの量は、3×8=24である。異なるブロックサイズは、ズームの影響をカバーするためのものである。
前の操作が完了した後、24個の近隣ブロックに対して別々に手特定を実行することができる。先ず、各近隣ブロックを手のトレーニング時に特定されたサイズに調整する。次いで、調整された近隣ブロックを分類器に別々に送信して各近隣ブロックが手であるか否かを特定する。最後に、手である近隣ブロックの量を計算する。この方法では、分類器の調整操作及び特定操作を3×8回実行する必要がある。したがって、この方法においては、画像の各フレームで検出操作を実行する従来の技術と比べて、演算量を大きく減少させることができる。
手である近隣ブロックの計算された量に基づいて、さらなる動作を実行することができる。詳細は、以下の通りである。
24個の近隣ブロックのうちの手である近隣ブロックの量が2以上である場合、全ての手である近隣ブロックを結合して最終追跡結果を出力することができ、それから次のフレームで追跡を実行する。具体的には、S101の手検出を行わずに、図1のS102及びS103を繰り返して実行する。
24個の近隣ブロックのうちの手である近隣ブロックの量が2であると仮定する。図6に示すように、2個の破線ブロック(ブロック601及びブロック602)が検出ブロックである。ブロック601に対する結果は、(left1,top1,right1,bottom1)であり、ここで(left1,top1)はブロック601の左上の頂点の座標を識別し、(right1,bottom1)はブロック601の右下の頂点の座標を識別する。ブロック602に対する結果は、(left2,top2,right2,bottom2)であり、ここで(left2,top2)はブロック602の左上の頂点の座標を識別し、(right2,bottom2)はブロック602の右下の頂点の座標を識別する。ブロック601とブロック602を結合してブロック603が得られ、ブロック603の結果は、((left1+left2)/2,(top1+top2)/2,(right1+right2)/2,(bottom1+bottom2)/2)であり、結合後に得られた結果(ブロック603)を、最終追跡結果として出力する。
24個の近隣ブロックのうちの手である近隣ブロックの量が2以上である場合は、限られた領域内で手検出操作を行い、検出結果を出力する。
24個の近隣ブロックのうちの1個のみが手である場合、手である近隣ブロックをS102で得られたポジショニングブロックと結合し、結合後に得られた結果を最終追跡結果として用い、それから次のフレームで追跡を実行する。具体的には、S101の手検出を行わずに、図1のS102及びS103を繰り返して実行する。
分類器が24個の近隣ブロックのうちの1個のみが手であると特定したとする。図7に示すように、ブロック701は検出ブロックであり、ブロック701に対する結果は、(left3,top3,right3,bottom3)であり、ここで(left3,top3)はブロック701の左上の頂点の座標を識別し、(right3,bottom3)はブロック701の右下の頂点の座標を識別する。ブロック702はS102で得られたブロックであり、ブロック702に対する結果は、(left4,top4,right4,bottom4)であり、ここで(left4,top4)はブロック702の左上の頂点の座標を識別し、(right4,bottom4)はブロック702の右下の頂点の座標を識別する。ブロック701とブロック702を結合してブロック703が得られ、ブロック703の結果は、((left3+left4)/2,(top3+top4)/2,(right3+right4)/2,(bottom3+bottom4)/2)であり、結合後に得られた結果(ブロック703)を、最終追跡結果として出力する。
24個の近隣ブロックのうちの1個のみが手である上述のケースにおいては、追跡及び検出の両方が有効であるが、追跡結果が実際の位置から僅かだけずれており、この問題は結合することによって解決できると理解することができる。
24個の近隣ブロックに手であるブロックが存在しない場合は、手が既に存在しないか、又は手のパターンがトレーニング時に定義されたパターンとは大きく異なる可能性がある。この場合、手検出は画像の各フレームにおいて再び実行される。
本願のこの実施における手検出及び追跡方法によれば、追跡結果の有効性を検証し、無効な追跡結果を補正して誤判断が生じることを回避できる。したがって、手検出を迅速かつ正確に実行することができる。追跡結果に基づいて現在のフレームにおける局所的な手検出を実行するため、演算量を大きく減少させることができる。
本願は、上述の手検出及び追跡方法と同様の発明思想に基づいて、以下の実施で説明するように手検出及び追跡装置(デバイス)を提供する。手検出及び追跡装置の問題解決の原理は、手検出及び追跡方法の問題解決の原理と類似しているので、手検出及び追跡装置の実施に関しては、手検出及び追跡方法の実施を参照することができ、説明を簡略にするため重複部分は省略する。
図8は、本願の実施に係る手検出及び追跡装置を示す概略構成図である。図8に示すように、手検出及び追跡装置は、手検出ユニット801と、位置追跡ユニット802と、追跡結果処理ユニット803とを含む。
手検出ユニット801は、画像の各フレームで手検出を実行するように構成される。
位置追跡ユニット802は、画像のフレームで手が検出された場合、追跡結果を取得するよう検出された手の位置追跡を実行するように構成される。
追跡結果処理ユニット803は、次のフレームで手を追跡する、又は追跡結果に基づいて現在のフレームで局所的な手検出を実行するために、追跡結果が有効であるか否かを検証するように構成される。
一実施において、手検出ユニット801は、特に、画像のフレームを全体的にスキャンし、かつHOG+SVM法を用いて異なるスケールで手検出を実行するように構成される。さらに、本願において手検出は、画像のフレームの手と良好なマッチングが得られ、正確かつ迅速に手を検出するように、異なるスケールで実行する必要がある。
一実施において、位置追跡ユニット802は、テンプレートマッチング法を用いて検出された手の位置追跡を行って追跡結果を取得するように構成される。
一実施において、図9に示すように、追跡結果処理ユニットは、調整モジュール901と手特定モジュール902とを含む。
調整モジュール901は、ポジショニングブロックを、手のトレーニング時に特定されたサイズに調整するように構成される。分類器は、分類を実行する前にトレーニングされている必要がある。分類器はトレーニング時に固定サイズを有するので、分類を実行する前に、ビデオ内の手のブロックを手のトレーニング時に特定されたサイズに調整する必要がある。
手特定モジュール902は、調整されたポジショニングブロックを分類器に送信してポジショニングブロックが手であるか否かを特定するように構成され、ここで、ポジショニングブロックが手である場合、追跡結果は有効であり、そうでない場合、追跡結果は無効である。
一実施において、手特定モジュール902が追跡結果が有効であると特定すると、位置追跡ユニット802は次のフレームで手を追跡する。
一実施において、図10に示すように、追跡結果処理ユニット803は、ポジショニングブロックの中心を特定し、かつ所定のステップ及び所定のブロックサイズを用いて複数の近隣ブロックを定義するように構成される情報特定モジュール1001をさらに含む。調整モジュール901は、複数の近隣ブロックのそれぞれを、手のトレーニング時に特定されたサイズに調整するように構成される。手特定モジュール902は、調整された複数の近隣ブロックを分類器に別々に送信し、複数の近隣ブロックのうちの手である近隣ブロックの量を特定するように構成される。
一実施において、図11に示すように、追跡結果処理ユニット803は、複数の近隣ブロックのうちの手である近隣ブロックの量が2以上である場合、全ての手である近隣ブロックを結合して最終追跡結果を出力してから、次のフレームで追跡を実行するように構成される結合モジュール1101をさらに含む。
一実施において、複数の近隣ブロックのうちの手である近隣ブロックの量が1である場合、結合モジュール1101は、さらに、手である近隣ブロックをポジショニングブロックと結合して最終追跡結果を出力してから、次のフレームで追跡を実行するように構成される。
一実施において、複数の近隣ブロックに手である近隣ブロックが存在しない場合、手検出ユニット801は、画像の各フレームで再び手検出を実行するように構成される。
本願のこの実施における手検出及び追跡装置によれば、追跡結果の有効性を検証し、無効な追跡結果を補正して誤判断が生じることを回避できる。したがって、手検出を迅速かつ正確に実行することができる。追跡結果に基づいて現在のフレームにおける局所的な手検出を実行するため、演算量を大きく減少させることができる。
当業者は、本願の実施は、方法、システム、又はコンピュータプログラム製品として提供できることを理解するはずである。そのため、本願は、ハードウェアのみの実施、ソフトウェアのみの実施、又は、ソフトウェアとハードウェアとの組み合わせによる実施の形式を用いることができる。さらに、本願は、コンピュータで使用可能なプログラムコードを含んだ1台以上のコンピュータで使用可能な記憶媒体(磁気ディスクストレージ、CD−ROM、光学メモリ等を非限定的に含む)上で実施されるコンピュータプログラム製品の形式で使用できる。
本願は、本願の実施に係る方法、デバイス(システム)、コンピュータプログラム製品のフローチャート及び/又はブロック図を参照して説明されている。コンピュータプログラム命令は、フローチャート及び/又はブロック図内の、各工程及び/又は各ブロックを実施するために用いることができ、さらに、フローチャート及び/又はブロック図内の、1つの工程及び/又は1つのブロックの組み合わせを実施するために用いることができる点が理解されるはずである。これらのコンピュータプログラム命令は、汎用コンピュータ、専用コンピュータ、組み込みプロセッサ、又はあらゆるその他のプログラム可能なデータ処理デバイスに、マシンを生成するために提供されることができ、これにより、コンピュータ、又は、あらゆるその他のプログラム可能なデータ処理デバイスのプロセッサが、フローチャートの1つ以上の工程における、及び/又は、ブロック図の1つ以上のブロックにおける、特定の機能を実施するデバイスを生成できるようになる。
これらのコンピュータプログラム命令を、コンピュータ又はあらゆるその他のプログラム可能なデータ処理デバイスに特定の態様で機能するように命令することができるコンピュータ読み取り可能なメモリに記憶して、これらのコンピュータ読み取り可能なメモリに記憶された命令が、命令デバイスを含むアーチファクトを作り出すようにすることができる。この命令デバイスは、フローチャート内の1つ以上の工程における、及び/又は、ブロック図内の1つ以上のブロックにおける特定の機能を実施する。
これらのコンピュータプログラム命令をコンピュータ又はその他のプログラム可能なデータ処理デバイスにロードして、コンピュータ又はその他のプログラム可能なデバイス上で一連の操作及びステップが実行されるようにし、コンピュータで実施される処理を生成することができる。これにより、コンピュータ又はその他のプログラム可能なデバイス上で実行される命令が、フローチャート内の1つ以上のステップ及び/又はブロック図内の1つ以上のブロックにおける特定の機能を実施するデバイスを提供することを可能とする。
本願の原理及び実施を説明するため、本願においては具体的な実施を用いている。前述の実施は、単に本願の方法及びその核心となる概念を理解するためのものである。さらに、当業者であれば、本願の概念に基づいて具体的な実施及び適用範囲に変更を加えることができる。上述したように、本願の内容は、本願に対する制限として理解されてはならない。
以下、本発明の実施の態様の例を列挙する。
[第1の局面]
手検出及び追跡方法であって:
画像の各フレームで手検出を実行するステップと;
画像のフレーム内で手が検出された場合に、追跡結果を取得するために検出された手の位置追跡を実行するステップと;
次のフレームで手を追跡する、又は前記追跡結果に基づいて現在のフレームで局所的な手検出を実行するために、前記追跡結果が有効であるか否かを検証するステップと;を備える、
手検出及び追跡方法。
[第2の局面]
前記画像の各フレームで手検出を実行する前記ステップは:画像のフレームを全体的にスキャンするステップ、及びHOG+SVM法を用いて異なるスケールで手検出を実行するステップ、を備える、
第1の局面に記載の手検出及び追跡方法。
[第3の局面]
追跡結果を取得するために検出された手の位置追跡を実行する前記ステップは:
前記追跡結果を取得するためにテンプレートマッチング法を用いて前記検出された手の位置追跡を実行するステップを備える、
第1の局面に記載の手検出及び追跡方法。
[第4の局面]
前記追跡結果は、前記画像のフレーム内の手の位置を識別するために用いられるポジショニングブロックの座標であり、前記追跡結果が有効であるか否かを検証する前記ステップは:
前記ポジショニングブロックを、手のトレーニング時に特定されたサイズに調整するステップと;
前記ポジショニングブロックが手であるか否かを特定するために前記調整されたポジショニングブロックを分類器に送信するステップであって、前記ポジショニングブロックが手である場合は、前記追跡結果は有効であり、そうでない場合は、前記追跡結果は無効である、ステップと;を備える、
第1の局面に記載の手検出及び追跡方法。
[第5の局面]
前記追跡結果が有効である場合に前記次のフレームで前記手を追跡する、
第4の局面に記載の手検出及び追跡方法。
[第6の局面]
前記追跡結果が無効である場合に前記追跡結果に基づいて現在のフレームで局所的な手検出を実行することは:
前記ポジショニングブロックの中心を特定し、所定のステップ及び所定のブロックサイズを用いて複数の近隣ブロックを定義するステップと;
前記複数の近隣ブロックのそれぞれを、手のトレーニング時に特定されたサイズに調整するステップと;
前記複数の近隣ブロックのうちの手である近隣ブロックの量を特定するために、調整された前記複数の近隣ブロックを前記分類器に別々に送信するステップと;を備える、
第4の局面に記載の手検出及び追跡方法。
[第7の局面]
前記複数の近隣ブロックのうちの前記手である近隣ブロックの量が2以上である場合、全ての手である近隣ブロックを結合して最終追跡結果を出力し、その後前記次のフレームでの追跡が実行される、
第6の局面に記載の手検出及び追跡方法。
[第8の局面]
前記複数の近隣ブロックのうちの前記手である近隣ブロックの量が1である場合、手である近隣ブロックを前記ポジショニングブロックと結合して最終追跡結果を出力し、その後前記次のフレームでの追跡が実行される、
第6の局面に記載の手検出及び追跡方法。
[第9の局面]
前記複数の近隣ブロックに前記手である近隣ブロックが存在しない場合、画像の各フレームで再び手検出を実行する、
第6の局面に記載の手検出及び追跡方法。
[第10の局面]
手検出及び追跡装置であって:
画像の各フレームで手検出を実行するよう構成された手検出ユニットと;
画像のフレーム内で手が検出された場合に、追跡結果を取得するために検出された手の位置追跡を実行するよう構成された位置追跡ユニットと;
次のフレームで手を追跡する、又は前記追跡結果に基づいて現在のフレームで局所的な手検出を実行するために、前記追跡結果が有効であるか否かを検証するよう構成された追跡結果処理ユニットと;を備える、
手検出及び追跡装置。
[第11の局面]
前記手検出ユニットは、具体的に、画像のフレームを全体的にスキャンし、HOG+SVM法を用いて異なるスケールで手検出を実行するように構成される、
第10の局面に記載の手検出及び追跡装置。
[第12の局面]
前記位置追跡ユニットは:具体的に、前記追跡結果を取得するために、テンプレートマッチング法を用いて前記検出された手の位置追跡を実行するように構成される、
第10の局面に記載の手検出及び追跡装置。
[第13の局面]
前記追跡結果は、前記画像のフレームにおける手の位置を識別するために用いられるポジショニングブロックの座標であり、前記追跡結果処理ユニットは:
前記ポジショニングブロックを、手のトレーニング時に特定されたサイズに調整するように構成された調整モジュールと;
前記ポジショニングブロックが手であるか否かを特定するために、前記調整されたポジショニングブロックを分類器に送信するように構成された手特定モジュールであって、前記ポジショニングブロックが手である場合は、前記追跡結果は有効であり、そうでない場合は、前記追跡結果は無効である、前記手特定モジュールと;を備える、
第10の局面に記載の手検出及び追跡装置。
[第14の局面]
前記位置追跡ユニットは、前記追跡結果が有効である場合に前記次のフレームで前記手を追跡するように構成される、
第13の局面に記載の手検出及び追跡装置。
[第15の局面]
前記追跡結果処理ユニットは、前記ポジショニングブロックの中心を特定し、所定のステップ及び所定のブロックサイズを用いて複数の近隣ブロックを定義するように構成された情報特定モジュールを更に備え;
前記調整モジュールは、前記複数の近隣ブロックのそれぞれを、手のトレーニング時に特定されたサイズに調整するように構成され;
前記手特定モジュールは、前記複数の近隣ブロックのうちの手である近隣ブロックの量を特定するために、調整された前記複数の近隣ブロックを前記分類器に別々に送信するように構成される、
第13の局面に記載の手検出及び追跡装置。
[第16の局面]
前記追跡結果処理ユニットは、前記複数の近隣ブロックのうちの前記手である近隣ブロックの量が2以上である場合、全ての手である近隣ブロックを結合して最終追跡結果を出力し、その後前記次のフレームで追跡を実行するよう構成された結合モジュールをさら備える、
第15の局面に記載の手検出及び追跡装置。
[第17の局面]
前記複数の近隣ブロックのうちの前記手である近隣ブロックの量が1である場合、前記結合モジュールは、手である近隣ブロックを前記ポジショニングブロックと結合して最終追跡結果を出力し、その後前記次のフレームで追跡を実行するよう更に構成される、
第16の局面に記載の手検出及び追跡装置。
[第18の局面]
前記複数の近隣ブロックに前記手である近隣ブロックが存在しない場合、前記手検出ユニットは、画像の各フレームで再び手検出を実行するように構成される、
第15の局面に記載の手検出及び追跡装置。
601−603、701−703 ブロック
801 手検出ユニット
802 位置追跡ユニット
803 追跡結果処理ユニット
901 調整モジュール
902 手特定モジュール
1001 情報特定モジュール
1101 結合モジュール

Claims (9)

  1. 手検出及び追跡の方法であって:
    1つの画像の各フレームで手検出を実行するステップ(S101)と;
    画像のフレーム内で手が検出された場合に、追跡結果を取得するために検出された手の位置追跡を実行するステップであって、前記追跡結果は、前記画像の各フレーム内の手の位置を識別するために用いられるポジショニングブロックの座標を備える、ステップ(S102)と;
    前記ポジショニングブロックを、分類器の手のトレーニング時に特定されたサイズに調整するステップと;
    前記ポジショニングブロックが手ではないことを特定するために前記調整されたポジショニングブロックを前記分類器に送信することで、前記追跡結果が前記画像の現在のフレームにおいて無効であることを検証するステップ(S302)と
    前記追跡結果が無効であると判断したことに応答して前記追跡結果に基づいて前記現在のフレームで局所的な手検出を実行するステップ(S103)であって、
    前記ポジショニングブロックの中心を特定し、所定のステップ及び所定のブロックサイズを用いて複数の近隣ブロックを定義するステップ(S501)と;
    前記複数の近隣ブロックのそれぞれを、前記分類器の手のトレーニング時に特定されたサイズに調整するステップ(S502)と;
    前記複数の近隣ブロックのうちの手である近隣ブロックの量を特定するために、調整された前記複数の近隣ブロックを前記分類器に別々に送信するステップ(S503)であって、前記複数の近隣ブロックのうちの前記手である近隣ブロックの量が1である場合、手である近隣ブロックを前記ポジショニングブロックと結合して最終追跡結果を出力し、その後前記次のフレームでの追跡が実行される、ステップと;
    により行われる、ステップと;を備える、
    手検出及び追跡の方法。
  2. 前記画像の各フレームで手検出を実行する前記ステップは:画像のフレームを全体的にスキャンするステップ、及びHOG+SVM法を用いて異なるスケールで手検出を実行するステップ、を備える、
    請求項1に記載の方法。
  3. 前記追跡結果を取得するために検出された手の位置追跡を実行するステップは:
    前記追跡結果を取得するためにテンプレートマッチング法を用いて前記検出された手の位置追跡を実行するステップを備える、
    請求項1に記載の方法。
  4. 前記分類器は、SVM分類器、ANN分類器、又はブースト分類器を備える、
    請求項1に記載の方法。
  5. 前記追跡結果が有効である場合に前記次のフレームで前記手を追跡する、
    請求項1に記載の方法。
  6. 前記複数の近隣ブロックのうちの前記手である近隣ブロックの量が2以上である場合、全ての手である近隣ブロックを結合して最終追跡結果を出力し、その後前記次のフレームでの追跡が実行される、
    請求項に記載の方法。
  7. 前記複数の近隣ブロックのうちの前記手である近隣ブロックの量が1である場合、手である近隣ブロックを前記ポジショニングブロックと結合して最終追跡結果を出力し、その後前記次のフレームでの追跡が実行される、
    請求項に記載の方法。
  8. 前記複数の近隣ブロックに前記手である近隣ブロックが存在しない場合、画像の各フレームで再び手検出を実行する、
    請求項に記載の方法。
  9. 請求項1乃至請求項のいずれか1項に記載の方法を実行するように構成された複数のモジュールを備える、
    手検出及び追跡のための装置。
JP2018567694A 2016-06-23 2017-06-09 手検出及び追跡方法並びに装置 Active JP6767516B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610461515.0 2016-06-23
CN201610461515.0A CN106920251A (zh) 2016-06-23 2016-06-23 人手检测跟踪方法及装置
PCT/CN2017/087658 WO2017219875A1 (zh) 2016-06-23 2017-06-09 人手检测跟踪方法及装置

Publications (2)

Publication Number Publication Date
JP2019519049A JP2019519049A (ja) 2019-07-04
JP6767516B2 true JP6767516B2 (ja) 2020-10-14

Family

ID=59453270

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018567694A Active JP6767516B2 (ja) 2016-06-23 2017-06-09 手検出及び追跡方法並びに装置

Country Status (9)

Country Link
US (2) US10885638B2 (ja)
EP (1) EP3477593B1 (ja)
JP (1) JP6767516B2 (ja)
KR (1) KR102227083B1 (ja)
CN (1) CN106920251A (ja)
ES (1) ES2865403T3 (ja)
PL (1) PL3477593T3 (ja)
TW (1) TWI703507B (ja)
WO (1) WO2017219875A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106920251A (zh) 2016-06-23 2017-07-04 阿里巴巴集团控股有限公司 人手检测跟踪方法及装置
WO2018223295A1 (en) * 2017-06-06 2018-12-13 Midea Group Co., Ltd. Coarse-to-fine hand detection method using deep neural network
CN108121971B (zh) * 2017-12-25 2018-10-26 哈尔滨拓讯科技有限公司 一种基于动作时序特征的人手检测方法及装置
CN108229360B (zh) * 2017-12-26 2021-03-19 美的集团股份有限公司 一种图像处理的方法、设备及存储介质
CN108717522A (zh) * 2018-04-18 2018-10-30 上海交通大学 一种基于深度学习和相关滤波的人体目标跟踪方法
TWI719591B (zh) * 2019-08-16 2021-02-21 緯創資通股份有限公司 物件追蹤方法及其電腦系統
CN111046844B (zh) * 2019-12-27 2020-11-27 中国地质大学(北京) 一种基于邻域选取约束的高光谱图像分类方法
CN111568197A (zh) * 2020-02-28 2020-08-25 佛山市云米电器科技有限公司 智能检测方法、系统及存储介质
JP2023161209A (ja) 2022-04-25 2023-11-07 シャープ株式会社 入力装置、入力方法、及び入力プログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4267648B2 (ja) * 2006-08-25 2009-05-27 株式会社東芝 インターフェース装置及びその方法
JP2010039788A (ja) * 2008-08-05 2010-02-18 Toshiba Corp 画像処理装置及びその方法並びに画像処理プログラム
TWI397840B (zh) * 2009-07-23 2013-06-01 Ind Tech Res Inst 基於軌跡之控制方法及裝置
TW201201090A (en) * 2010-06-30 2012-01-01 Chunghwa Telecom Co Ltd Virtual keyboard input system
JP2012098771A (ja) * 2010-10-29 2012-05-24 Sony Corp 画像処理装置および方法、並びに、プログラム
JP2012203439A (ja) * 2011-03-23 2012-10-22 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びにプログラム
US9141196B2 (en) * 2012-04-16 2015-09-22 Qualcomm Incorporated Robust and efficient learning object tracker
CN103376890B (zh) * 2012-04-16 2016-08-31 富士通株式会社 基于视觉的手势遥控系统
CN102831439B (zh) * 2012-08-15 2015-09-23 深圳先进技术研究院 手势跟踪方法及系统
JP6030430B2 (ja) * 2012-12-14 2016-11-24 クラリオン株式会社 制御装置、車両及び携帯端末
KR101436050B1 (ko) * 2013-06-07 2014-09-02 한국과학기술연구원 손모양 깊이영상 데이터베이스 구축방법, 손모양 인식방법 및 손모양 인식 장치
US10474921B2 (en) * 2013-06-14 2019-11-12 Qualcomm Incorporated Tracker assisted image capture
TWI499966B (zh) * 2013-10-08 2015-09-11 Univ Nat Taiwan Science Tech 互動式操作方法
JP6235414B2 (ja) * 2014-06-06 2017-11-22 株式会社デンソーアイティーラボラトリ 特徴量演算装置、特徴量演算方法、及び特徴量演算プログラム
JP6471934B2 (ja) * 2014-06-12 2019-02-20 パナソニックIpマネジメント株式会社 画像認識方法、カメラシステム
JP6487642B2 (ja) * 2014-07-01 2019-03-20 国立大学法人 筑波大学 手指形状の検出方法、そのプログラム、そのプログラムの記憶媒体、及び、手指の形状を検出するシステム。
US9665804B2 (en) * 2014-11-12 2017-05-30 Qualcomm Incorporated Systems and methods for tracking an object
CN104731323B (zh) * 2015-02-13 2017-07-04 北京航空航天大学 一种基于hog特征的多旋转方向svm模型的手势跟踪方法
CN104821010A (zh) * 2015-05-04 2015-08-05 清华大学深圳研究生院 基于双目视觉的人手三维信息实时提取方法及系统
US9922244B2 (en) * 2015-09-03 2018-03-20 Gestigon Gmbh Fast and robust identification of extremities of an object within a scene
CN106920251A (zh) 2016-06-23 2017-07-04 阿里巴巴集团控股有限公司 人手检测跟踪方法及装置

Also Published As

Publication number Publication date
EP3477593A4 (en) 2019-06-12
JP2019519049A (ja) 2019-07-04
US10885638B2 (en) 2021-01-05
PL3477593T3 (pl) 2021-07-12
US20190188865A1 (en) 2019-06-20
US10885639B2 (en) 2021-01-05
KR20190020783A (ko) 2019-03-04
WO2017219875A1 (zh) 2017-12-28
TWI703507B (zh) 2020-09-01
EP3477593A1 (en) 2019-05-01
US20200134838A1 (en) 2020-04-30
TW201800975A (zh) 2018-01-01
KR102227083B1 (ko) 2021-03-16
EP3477593B1 (en) 2021-02-17
CN106920251A (zh) 2017-07-04
ES2865403T3 (es) 2021-10-15

Similar Documents

Publication Publication Date Title
JP6767516B2 (ja) 手検出及び追跡方法並びに装置
JP6939111B2 (ja) 画像認識装置および画像認識方法
JP5959951B2 (ja) 映像処理装置、映像処理方法、及びプログラム
JP2019028843A (ja) 人物の視線方向を推定するための情報処理装置及び推定方法、並びに学習装置及び学習方法
CN108839016B (zh) 机器人巡检方法、存储介质、计算机设备及巡检机器人
TWI405143B (zh) 用於辨識的物件影像校正裝置與其方法
JP2016103230A (ja) 画像処理装置、画像処理方法、及びプログラム
JP2008009849A (ja) 人物追跡装置
WO2019196099A1 (zh) 医学图像内目标对象的边界定位方法、存储介质及终端
JP2020184250A (ja) 作業分析装置、作業分析方法およびプログラム
JP2012226645A (ja) 画像処理装置および方法、記録媒体並びにプログラム
US11941498B2 (en) Facial motion detection and image correction method and apparatus
JP6977337B2 (ja) 部位認識方法、装置、プログラム、及び撮像制御システム
KR20200068709A (ko) 인체 식별 방법, 장치 및 저장 매체
US20210042576A1 (en) Image processing system
JP2003256850A (ja) 動き認識装置および画像処理装置並びにプログラム
CN114074321A (zh) 机器人标定方法及装置
KR20200067465A (ko) 영상 처리 방법 및 장치
JP7406878B2 (ja) 情報処理装置、情報処理方法、およびプログラム
CN111401240B (zh) 一种课堂注意力检测方法、装置、设备及存储介质
US20160275373A1 (en) Evaluation of models generated from objects in video
CN112766239A (zh) 一种人脸识别方法、系统、电子设备及存储介质
CN112749664A (zh) 一种手势识别方法、装置、设备、系统及存储介质
US20150063631A1 (en) Dynamic image analyzing system and operating method thereof
KR20190076202A (ko) 3차원 손 자세 인식 장치 및 방법

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190225

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190225

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200414

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20200601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200917

R150 Certificate of patent or registration of utility model

Ref document number: 6767516

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250