JP6026007B2 - ビデオモーション推定モジュールを用いた加速対象検出フィルタ - Google Patents

ビデオモーション推定モジュールを用いた加速対象検出フィルタ Download PDF

Info

Publication number
JP6026007B2
JP6026007B2 JP2015545630A JP2015545630A JP6026007B2 JP 6026007 B2 JP6026007 B2 JP 6026007B2 JP 2015545630 A JP2015545630 A JP 2015545630A JP 2015545630 A JP2015545630 A JP 2015545630A JP 6026007 B2 JP6026007 B2 JP 6026007B2
Authority
JP
Japan
Prior art keywords
region
vector
target candidate
processing unit
stage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015545630A
Other languages
English (en)
Other versions
JP2015536517A (ja
Inventor
スー、リン
ドゥ、ヤンチョウ
リ、ジャングォ
リ、チアン
ペン、ヤ−ティ
チウ、イ−ジェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2015536517A publication Critical patent/JP2015536517A/ja
Application granted granted Critical
Publication of JP6026007B2 publication Critical patent/JP6026007B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/955Hardware or software architectures specially adapted for image or video understanding using specific electronic processors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • G06F2218/16Classification; Matching by matching signal segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Geometry (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Description

対象検出は、広範なアプリケーションを有する。例えば、顔検出は、人間とコンピュータの相互伝達、フォトアルバム管理、生体認証、ビデオ監視、自動焦点イメージング、およびその他の様々な視覚システムにおいて用いられてよい。人間検出は、ビデオ監視、高度運転支援システムなどにおいて用いられてよい。他の対象検出の例は、トラフィック監視、自動車両駐車、文字認識、製造品質制御、対象計数、および品質監視を含む。
幾つかの既存の対象検出システムでは、Viola−Jonesカスケード検出フレームワークが用いられる。Viola−Jonesカスケード検出フレームワークでは、カスケード分類器を用いてウィンドウ内にターケッドが存在するか否かを調べるために、入力画像がスライドウィンドウを用いてスキャンされる。そのような方法は、実装するのに複雑な特徴ベースの分類器を採用してよい。さらに、そのような方法は、計算量が多い。様々なソフトウェアおよびハードウェア実装が提案されるが、提案された複数の実装は、特に、画像およびビデオ解像度が増大するにつれて制限を有する。
対象検出は、そのような多種多様なアプリケーションにおいて用いられてよいので、対象検出を効率良く実行するのが望ましい。
ここに記載される材料は、添付図面において、限定のためでなく例として示される。説明の簡潔かつ明確のため、複数の図面に示される複数の要素は、必ずしも縮尺どおりに描かれてはいない。例えば、幾つかの要素の複数の寸法は、明確さのために、他の複数の要素に対して誇張されてよい。さらに、適切であると判断する場合、複数の参照符号は、複数の対応するまたは類似の要素を示すために、複数の図の中で繰り返されている。
例示的な対象検出および/または認識システムの説明図である。
例示的な対象検出および/または認識過程を示すフローチャートである。
動作中の例示的な対象検出および/または認識過程の説明図である。
例示的な線形分類器の結果を示す一組のチャートである。
例示的な線形分類ステージの結果を示す一組のチャートである。
例示的な対象検出および/または認識システムの説明図である。
例示的なシステムの説明図である。
例示的なシステムの説明図であり、すべてが本開示の少なくとも幾つかの実装に従って構成される。
ここで、添付の図面に関して1または複数の実施形態または実装が記載される。特定の構成および配置が議論されるが、これは例示の目的のみに行われることが理解されるべきである。記載の趣旨および範囲を逸脱することなく他の構成および配置が使用されてよいことは当業者なら認識するであろう。ここに記載される複数の技術および/または構成が、ここに記載されるもの以外の他の様々なシステムおよびアプリケーションにおいて使用されてもよいことは当業者にとって明らかであろう。
以下の説明は、例えば、システムオンチップ(SoC)アーキテクチャのようなアーキテクチャにおいて顕在化されてよい様々な実装を記載するが、ここに記載される技術および/または構成の実装は、特定のアーキテクチャおよび/またはコンピューティングシステムに制限されるものではなく、同様の目的の任意のアーキテクチャおよび/またはコンピューティングシステムによって実装されてよい。例えば、複数の集積回路(IC)チップおよび/またはパッケージを採用する様々のアーキテクチャ、および/または、様々なコンピューティングデバイスおよび/または、セットトップボックス、スマートフォンなどのような家電(CE)デバイスは、例えば、ここに記載される技術および/または構成を実装してよい。さらに、以下の記載は、ロジックの実装、システムコンポーネントのタイプおよび相互関係、ロジック分割/統合選択などのような多数の具体的な詳細を説明してよいが、クレームされた主題はそのような特定の詳細を含まずに実施されてよい。他の例では、例えば、制御構造および全ソフトウェア命令シーケンスのような幾つかの材料は、ここに開示される材料を不明瞭にしないようにするため、詳細に示されなくてよい。
ここに開示される材料は、ハードウェア、ファームウェア、ソフトウェア、またはそれらの任意の組み合わせで実装されてよい。ここに開示される材料は、1または複数のプロセッサにより読み取られて実行されてよい機械可読媒体に格納された複数の命令として実装されてもよい。機械可読媒体は、機械(例えば、コンピューティングデバイス)により可読な形で情報を格納または送信する任意のメディアおよび/またはメカニズムを含んでよい。例えば、機械可読媒体は、リードオンリメモリ(ROM)、ランダムアクセスメモリ(RAM)、磁気ディスク記憶媒体、光学記憶媒体、フラッシュメモリデバイス、電気、光、音、または他の形の伝搬信号(例えば、搬送波、赤外線信号、デジタル信号など)、およびその他を含んでよい。
明細書において「一実装」、「実装」、「例示的な実装」などと参照するとき、これは、記載される実装が、特定の特徴、構造、または特性を含んでよいが、すべての実装が、その特定の特徴、構造、または特性を必ずしも含まなくてよいことを示す。さらに、そのような文言は、必ずしも同一の実装を指さない。さらに、特定の特徴、構造、または特性が実装に関連して記載される場合、ここに明示的に記載されるか否かに関わらず、他の実装に関連して、そのような特徴、構造、または特性をもたらすことが当業者の知識の範囲内であることが提示される。
ビデオ推定モジュールを用いる加速対象検出フィルタに関するシステム、装置、物品、および方法が記載される。
上記のように、対象検出は、広範なアプリケーションを有する。しかし、対象検出の現在の実装は、計算量が多く、リアルタイム対象検出および/または認識を実現しない、利用可能な計算リソースの大部分またはすべてを消費する、および電力が集中するような制限を有する。
以下でより詳細に記載されるように、ビデオモーション推定モジュールが、対象検出を加速する線形分類器を実装するために再利用されて、より高い効率を提供してよく、それにより、リアルタイム対象検出および/または認識が達成され、計算リソースおよび電力がセーブされてよい。例えば、グラフィクス処理ユニットは、一般的に、モーションベクトル推定およびビデオエンコーディングの同様の計算を提供してよいビデオ推定モジュールを含んでよい。ここで用いられるように、ビデオ推定モジュールは、モーションベクトル推定およびビデオコーディングアプリケーションにおける同様の計算を提供するように構成された任意のモジュールを含んでよい。例えば、ビデオ推定モジュールは、重みベクトルと、現在のブロックのベクトルと参照ブロックのベクトルとの絶対値の差のベクトルと、のドット積を合計する計算を提供してよい。動きベクトルおよびビデオコーディングのコンテキストにおいて、そのような計算は、例えば、現在のブロックと参照ブロックとの間の(重み付けられた)差の測定値を提供してよい。
以下でより詳細に記載されるように、そのような計算は、対象検出プレフィルタリングのために再利用される。例えば、入力画像の個々の領域は、選択または決定されてよい。上記の計算は、再利用されて、重みベクトルと、領域を表すベクトルおよび基準ベクトルの絶対値の差のベクトルと、のドット積を合計する計算を決定してよい。これに関連して、基準ベクトルは、選択されて、目的の対象または対象の一部をおそらく含む(すなわち、線形分類器のプレフィルタリングを通る)、または目的の対象または対象の一部を含みそうにない(すなわち、線形分類器のプレフィルタリングに失敗し、リジェクトされる)領域の分類を高めてよい。例えば、顔認識アプリケーションにおいて、基準ベクトルは、ランダムな代表的な顔または顔の統計平均を表す顔を表してよい、または基準ベクトルは、ゼロ値の基準ベクトルであってよい。同様に、これに関連して、重みベクトルは、事前訓練されて対象認識プレフィルタリングを高めてよい。例えば、顔認識アプリケーションでは、重みベクトルは、複数の顔を含む多くの画像および顔を含まない多くの画像により事前訓練されてよい。
上記の計算は、閾値と比較される、そうでなければ評価されて、領域がプレフィルタを通るかどうか判断してよい。そのようなプレフィルタステージは、ビデオモーション推定モジュールを介して実装される線形分類器として記載されてよい。議論されるように、失敗領域は、リジェクトされてよい。合格領域は、対象認識処理のために転送されてよく、合格領域は、任意の数の追加の線形分類器のプレフィルタステージにてテストされてよい。そのような追加のステージは、例えば、ますます通り難くなってよい。ビデオモーション推定モジュールを介して実装されるそのようなステージは、それらが線形分類器であるという共通性を共有してよい。他の例では、合格領域(例えば、ビデオモーション推定モジュールを介して実装される単一のステージまたは複数の線形分類ステージを通る領域)は、追加のテストのためにカスケードフィルタに転送されてよい。カスケードフィルタは、以下でさらに議論されるように、例えばViola−Jonesカスケードフィルタまたはフレームワーク、またはスピードアップロバストフューチャ(SURF)カスケードフィルタまたはフレームワークのようないずれの適切なタイプのカスケードフィルタを含んでよい。幾つかの例では、カスケードフィルタは、特徴ベースの分類ステージ(複数可)を実装してよい。
理解されるように、画像の他の領域は、同様に評価され、プレフィルタ処理されてよく、それにより、画像の一部(すなわち、プレフィルタ処理されない画像の部分)のみが対象認識モジュールにより処理されてよいそのようなプレフィルタリングは、貴重な計算リソースをセーブしてよい。
概して、ここで議論されるような対象検出は、対象(すなわち、目的のカテゴリの対象)が入力画像内にあってよいかどうか、および/または入力画像内のどこにあってよいか、を検出することを含んでよい。例えば、顔検出では、検出は、顔を検出することを含でよい。さらに、ここで議論されるような対象認識は、特定の対象(すなわち、個々の目的のカテゴリ)を認識することを含んでよい。例えば、顔認識では、認識は、どの人が検出された顔に関連付けられるかを識別することを含んでよい。記載されたハードウェア型の畳み込みプレフィルタは、対象検出および/または認識の実装のために、高速で、信頼性が高く、および低い計算および電力コストの処理を提供してよい。
図1は、本開示の少なくとも幾つかの実装に従って構成された、対象検出および/または認識の例示的なシステム100の説明図である。示されるように、システム100は、グラフィクス処理ユニット120およびカスケードフィルタモジュール140を介して実装されるビデオモーション推定モジュール130を含んでよい。様々な実装では、システム100は、対象検出プレフィルタリングを実行することを含む、対象検出および/または認識を実行するよう構成されてよい。以下でさらに議論されるように、システム100は、ビデオモーション推定モジュール130はグラフィクス処理ユニット120を介して実装されてよいという共通性を有する様々なハードウェア実装を介して使用されてよい。例えば、グラフィクス処理ユニット120は、ビデオモーション推定に関する計算および、特に、ここで議論されるそれらの計算を実行する専用の、または少なくとも部分的に専用のハードウェアまたはハードウェアの一部を含んでよい。幾つかの例では、ビデオモーション推定モジュール130は、複数のモーション推定サービスを提供してよい共有された機能またはリソースであってよい。様々な実装では、カスケードフィルタモジュール140は、グラフィクス処理ユニット120または以下でさらに議論される、しかし明確の目的のため図1に示されていない中央処理ユニット(複数可)のようなシステム100の他の構成要素を介して実装されてよい。
以下でさらに議論されるように、システム100は、明確の目的のために図1に示されない対象認識モジュールまたは追加のモジュールまたは構成要素を含んでもよい。例えば、システム100は、無線周波数タイプ(RF)トランシーバ、ディスプレイ、アンテナ、スピーカ、マイク、加速度計、メモリ、ルータ、ネットワークインターフェースロジックなどを含んでよい。
議論されるように、幾つかの例では、システム100は、複数の対象検出オペレーションまたは複数の対象検出プレフィルタオペレーションを実行してよい。例えば、システム100は、1または複数の目的の対象112を含んでよい入力画像110を受信してよい。概して、入力画像110は、例えば、画像ファイルまたはビデオフレームなどのようないずれの適切な画像またはビデオデータであってよい。目的の対象112は、概して、例えば、顔、目、ランドマーク、書き込まれた文字、人間、または自動車などのように、対象検出および/または認識が所望されてよいいずれの対象を含んでよい。図1では、顔認識が、例示的な例として用いられる。理解されるように、幾つかの例では、入力画像110は、目的の対象を含まなくてよい。
示されるように、入力画像110の領域114は、選択または決定されてよい。領域114は、例えば、ビデオモーション推定モジュール130、グラフィクス処理ユニット120の別のモジュール、またはシステム100の中央処理ユニット(複数可)のようないずれの適切なモジュールまたは構成要素により決定されてよい。理解されるように、入力画像110は、多くの領域に分割されてよく、個々の領域または複数の領域は、記載されるように決定され、処理されてよい。幾つかの例では、入力画像110の全体は、その領域のそれぞれが順に評価されるにつれて、処理されてよい。様々な実装では、複数の処理された領域は重なってよく、または複数の処理された領域は入力画像110の全体をカバーしなくてよい。
図1に示されるように、グラフィクス処理ユニット120のビデオモーション推定モジュール130は、線形分類カスケードフィルタ131を領域114に適用してよく、カスケードフィルタモジュール140は、カスケードフィルタ141を適用して、領域114が対象候補領域150であるかどうかを判断してよい。対象候補領域150は、合格領域(すなわち、線形分類カスケードフィルタ131および/またはカスケードフィルタ141のすべてのステージを通った領域)に関してよい。示されるように、線形分類カスケードフィルタ131は、線形分類ステージ1 132、線形分類ステージ2 134、および線形分類ステージN 136のように示される任意の数のステージを含んでよい。同様に、カスケードフィルタ141は、カスケードフィルタステージ1 142、カスケードフィルタステージ2 144、およびカスケードフィルタステージN 146として示された任意の数のステージを含んでよい。
概して、入力画像110の個々の領域は、ビデオモーション推定モジュール130により実装されるような線形分類カスケードフィルタ131を通じて処理されてよい。線形分類カスケードフィルタ131の複数のステージ132−136にて、領域114は、テストされて、それがステージを通るかどうか判断してよい。概して、ステージは、真偽テストを含んでよい。領域114が、図1に「T」と示されるステージを通る(例えば、領域についてのテストが真であると判断される)と、領域114は、次のステージに転送されてよい。そのような複数の例では、領域114は、対象候補領域として分類され、またはラベルされてよい。領域114が、図1に「F」と示されるステージを失敗する(例えば、ピクセルについてのテストが偽であると判断される)と、領域114は、リジェクト、破棄、および/またはリジェクト190としてラベルされてよい。線形分類カスケードフィルタ131は、例えば3つのステージのような任意の数のステージ132−136を含んでよい。幾つかの実装では、単一のステージが用いられてよい。議論されるように、領域がステージを通ると、領域は、対象候補領域として分類されてよい。領域が第2ステージを通ると、領域は、第2ステージ対象候補領域などとして分類されてよい。理解されるように、線形分類カスケードフィルタ131のすべてのステージを通る領域に対して、領域は、単に、対象候補領域、合格領域、線形分類合格領域などとして分類されてよい。
同様に、入力画像110の複数の領域は、カスケードフィルタ141を通じて処理されてよい。カスケードフィルタ141のステージ142−146にて、例えば、領域114は、テストされて、それがステージを通るかどうか判断してよい。示されるように、ステージは、真偽テストを含んでよい。領域114が、図1に「T」と示されるステージを通る(例えば、領域についてのテストが真であると判断される)と、領域114は、次のステージに転送されてよい。領域114が、図1に「F」と示されるステージを失敗する(例えば、ピクセルについてのテストが偽であると判断される)と、領域114は、リジェクト、破棄、および/またはリジェクト148としてラベルされてよい。幾つかの例では、カスケードフィルタ141は、複数のステージ142−146が複数の非線形分類器を含んでよい線形分類カスケードフィルタ141と異なってよい。例えば、複数のステージ142−146のいずれかは、分類(複数可)に基づく特徴を実装してよい。領域がカスケードフィルタ141の第2ステージの各ステージを通ると、領域は、カスケードフィルタステージ対象候補領域、合格領域、カスケードフィルタ合格領域などとして分類されてよい。
議論されるように、カスケードフィルタ141は、例えば、Viola−Jonesカスケードフィルタまたはフレームワーク(例えば、Paul Viola, "Michael Jones, Rapid Object Detection using a Boosted Cascade of Simple Features", CVPR 2001および/またはPCT/CN2010/000997, Yangzhou Du, Qiang Li, "TECHNIQUES FOR FACE DETECTION AND TRACKING", 2010年12月10日出願参照)のようないずれの適切なタイプのカスケードフィルタを含んでよい。そのような複数の対象検出技術は、対象検出および/または認識が、顔検出、ランドマーク検出、顔アラインメント、スマイル/まばたき/性別/年齢検出、顔認識、2またはそれより多い顔を検出することなどを含むことができるようにしてよい。幾つかの例では、カスケードフィルタ141は、ブーストカスケードフィルタを含んでよい。
複数の他の例では、カスケードフィルタは、スピードアップロバストフューチャ(SURF)カスケードフィルタまたはフレームワーク(例えば、Bay et al, " Surf: Speeded up robust features," Computer Vision and Image Understanding (CVIU), 110(3), 346-359ページ, 2008年および/またはPCT/CN2011/081642, Jianguo Li, Yimin Zhang, "OBJECT DETECTION USING EXTENDED SURF FEATURES", 2011年11月1日出願を参照)を含んでよい。そのような複数の対象検出技術は、対象検出および/または認識が、顔検出、ランドマーク検出、顔アラインメント、スマイル/まばたき/性別/年齢検出、顔認識、2またはそれより多い顔を検出することなどを含むことができるようにしてよい。
線形分類カスケードフィルタ131に関する議論に戻ると、概して、線形分類カスケードフィルタ131の様々なステージにて実装されるテストは、領域が目的の対象または目的の対象の部分を含む可能性が高いと考えられてよいかどうかの判断を含んでよい。
上で議論されたように、ビデオ推定モジュール130は、ビデオの動きベクトルの推定を提供するように構成されてよい。また、議論されるように、ビデオ推定モジュール130は、重みベクトルと、現在のブロックのベクトルと参照ブロックのベクトルとの絶対値の差のベクトルと、のドット積を合計する計算を提供するよう構成されてよい。そのような計算は、次のように方程式(1)に示されてよい。
Y = SUM { weight(i) × ABS [ curr block(i) - ref block(i) ] } (1)
ただし、Yは計算結果であってよく、SUMはiについての総和関数であってよく、iはカウンタ変数(例えば、カウンタ変数iは、評価されるピクセルの総数であるnを用いて、1からnまで走ってよい)であってよく、ABSは絶対値関数であってよく、weightは加重項であってよく、curr blockは現在のブロックであってよく、ref blockは参照ブロックであってよい。理解されるように、動きベクトルおよび複数のビデオコーディングコンテキストにおいて、そのような計算は、現在のブロックと参照ブロックとの間の加重差の程度を提供してよい。加重項が用いられない場合(すなわち、1の値が与えられる場合)、計算は、複数のブロックの類似の程度(すなわち、curr blockがref blockにどれだけ類似するかの程度)を提供する。加重項は、これに関連して、異なる重要性(複数可)を、画像またはビデオの複数のフレームの異なるエリアまたは複数の領域に導入してよい。
対象検出および/または認識との関連で、ビデオ推定モジュール130は、線形分類ステージ1−N 132、134、および/または136を適用するよう構成されてよい。線形分類ステージのそのようなアプリケーションは、領域を対象候補領域として分類する(すなわち、領域を通す)、または領域をリジェクトしてよい。例えば、方程式(1)は、方程式(2)に示されるように再利用されてよい。
Figure 0006026007
ただし、yは計算結果であってよく、Wは重みベクトルであってよく、Xは領域114を表わすベクトルであってよく、Mは基準ベクトルであってよい。対象検出との関連で、方程式(2)は、領域114を表すベクトル(すなわちX)と基準ベクトル(すなわち、M)との間の絶対値の差に基づく絶対値の差ベクトルの判断を提供してよい。結果値(すなわち、y)の判断は、絶対値の差ベクトルと重みベクトル(すなわち、W)とのドット積に基づく。判断された結果値(すなわち、y)は、閾値と比較されてよく、比較に基づいて、領域114は、線形分類ステージを通った、または失敗したことを判断されてよい。
そのような複数の技術を用いて、例えば、ビデオ推定モジュール130は、領域を表すベクトルと基準ベクトルとの間の絶対値の差に基づく絶対値の差ベクトルを決定すること、絶対値の差ベクトルと重みベクトルとのドット積に基づく結果値を決定すること、および結果値を閾値と比較することにより、線形分類器(例えば、複数の分類ステージ1−N 132、134、および/または136のうちの1つの線形分類器)を適用してよい。
そのような複数の実装では、方程式(2)は、例えば、基準ベクトルMがデータの中心を記述してよく、Wが各ディメンジョンの分散を反映してよいように分布関数として扱われてよい。概して、基準ベクトルMは、線形フォームで選択されてよい。概して、基準ベクトルMは、複数のステージ132−136にて、正確な分類を提供するその有効性のために選択されてもよい。例えば、基準ベクトルMは、ゼロ値パッチ(すなわち、M=0)、対象の平均(すなわち、統計平均対象)、またはランダムな代表対象を表すよう選択されてよい。さらに、重みベクトルWは、複数のステージ132−136にて正確な分類を提供することにおけるその有効性に基づいて選択および/または算出されてよい。例えば、重みベクトルWは、線形判別分析(LDA)を用いて、またはサポートベクタマシン(SVM)などを用いて、対象を有する領域内の各ピクセルに対する標準偏差(STD)の逆数として決定または算出されてよい。複数の顔検出アプリケーションにおけるそのような基準ベクトルMの選択に関する複数の結果および重みベクトルWを決定することに関する複数の方法論は、さらに以下で、特に図4について議論される。
結果値または計算結果yは、領域114が該当ステージを通るかどうかを判断するのに使用されてよい。例えば、結果値は、閾値(例えば、判断は、適宜、結果値が閾値より大きいまたはより小さいか否かについてされてよい)と比較されて、領域114が該当ステージを通るかどうか判断してよい。適用される閾値は、例えば、既定の閾値、事前訓練された閾値などを含んでよい。閾値は、例えば、複数のステージ132−136にて正確な分類を提供することにおけるその有効性に基づいて選択されてよく、時間をかけて訓練されてよい。
そのような複数の技術を用いて、例えば、ビデオ推定モジュール130は、領域を表すベクトルと基準ベクトルとの間の絶対値の差に基づく絶対値の差ベクトルを決定すること、絶対値の差ベクトルと重みベクトルとのドット積に基づく結果値を決定すること、および結果値を閾値と比較することにより、線形分類器(例えば、複数の分類ステージ1−N 132、134、および/または136のうちの1つの線形分類器)を適用してよい。
さらに、幾つかの実装では、リジェクトされた領域(複数可)190は、重みベクトルWまたは適用される閾値を訓練するような訓練に用いられてよい、またはリジェクトされた領域(複数可)190は、基準ベクトルMを選択することにおいて用いられてよい。そのような訓練は、ここで議論されるグラフィクス処理ユニット120または中央処理ユニット(複数可)を介して適用されてよい。
理解されるように、図1について議論される複数のプロセスおよび複数の構成要素は、様々な方法において実装されてよい。幾つかの実装では、単一の線形分類器は、カスケードフィルタを用いないで用いられてよい。そのような例では、単一の線形分類器は、領域が目的の対象または目的の対象の一部を含む可能性が高いと考えられるかどうか判断するのに用いられてよい。幾つかの実装では、単一の線形分類器は、カスケードフィルタを用いて用いられてよい。同様に、マルチステージ線形分類カスケードは、カスケードフィルタを用いてまたは用いないで用いられてよい。いずれにしても、対象候補領域(複数可)(すなわち、使用された実装を通る複数の領域)は、目的の対象または目的の対象の一部を含む可能性が高いと考えられてよい。そのような複数の領域は、任意選択的に、(例えば、グラフィクス処理ユニット120により、または1または複数の処理ユニットにより)マージされてよい。同様に、マージされたまたはマージされなかったいずれの複数の領域は、対象認識のために処理されてよい。対象認識は、例えば、グラフィクス処理ユニット120の対象認識モジュールまたは1または複数の処理ユニットにより、実行されてよい。上で議論されたように、対象検出は、入力画像が目的の対象を含むかどうか、またはどこに含むか判断することを含んでよく(例えば、入力画像は書き込まれた文字を含む)、対象認識は、対象がどのような特定の対象であってよいか識別することを含んでよい(例えば、書き込まれた文字は「S」である)。
以下により詳細に議論されるように、システム100は、図2および/または図3に関連して以下に議論される様々な機能の幾つかまたはすべて、または図1について先に議論された複数の機能を実行するのに用いられてよい。
図2は、本開示の少なくとも幾つかの実装に従って構成された、例示的な対象検出および/または認識過程200を示すフローチャートである。示された実装では、プロセス200は、1または複数のブロック202、204、および/または206により示されるような1または複数オペレーション、機能、またはアクションを含んでよい。非限定的な例として、プロセス200は、図1の例示のシステム100に関してここに記載される。
プロセス200は、対象検出および/または認識のコンピュータ実装方法として使用されてよい。プロセス200は、ブロック202「入力画像を受信」にて開始してよい。ブロック202では、入力画像が受信されてよい。例えば、入力画像は、例えば、画像ファイルまたはビデオフレームなどのようないずれの適切な画像データを含んでよい。入力画像は、例えば、グラフィクス処理ユニット120および/またはビデオモーション推定モジュール130にて受信されてよい。入力画像は、いずれの適切な技術を用いて受信されてよく、別のデバイスからシステム100により受信されてよく、システム100にて内部で生成され、システム100の別のモジュールからグラフィクス処理ユニット120に転送されてよく、またはグラフィクス処理ユニット120の別のモジュールにて内部で生成され、ビデオモーション推定モジュール130に転送されてよい。
処理は、オペレーション202からオペレーション204「入力画像の領域を決定」に継続してよい。オペレーション204では、入力画像の個々の領域が決定されてよい。領域は、例えば、グラフィクス処理ユニット120のビデオモーション推定モジュール130、グラフィクス処理ユニット120の別のモジュールにより、または中央処理ユニット(複数可)などにより、判断されてよい。領域は、例えば、入力画像の複数の領域のうちの個々の領域であってよい。
処理は、オペレーション204からオペレーション206「グラフィクス処理ユニットのビデオモーション推定モジュールを介して、線形分類器を領域に適用して、領域を対象候補領域として分類する、または領域をリジェクトする」に継続してよい。オペレーション206では、線形分類器は、領域に適用されて、領域が対象候補領域(すなわち、線形分類器を通り、目的の対象または目的の対象の一部である可能性が高いと考えられる)であるかどうかを判断する、または領域をリジェクトしてよい。線形分類器は、例えば、グラフィクス処理ユニット120のビデオモーション推定モジュール130を介して実装されてよい。グラフィクス処理ユニット120のビデオモーション推定モジュール130は、例えば、ビデオコーディングの動きベクトルを推定し、同様のビデオコーディングの複数の計算を提供するように構成されてもよい。
プロセス200は、入力画像の他の領域(複数可)に対して繰り返されてよい。さらに、線形分類器を通る領域(複数可)は、例えば、いずれの追加の数の線形分類ステージを通じて、カスケードされてよい。任意選択的に、線形分類器を通る領域(複数可)は、単一または複数ステージカスケードフィルタにより処理されてよい。結果として生じる対象候補領域(複数可)(たとえあるとしても)は、任意選択的にマージされてよい。対象候補領域(複数可)またはマージされた対象候補領域(複数可)のいずれは、さらに、複数の領域上で対象認識を実行することにより処理されて、複数の領域内の目的の対象または目的の対象の一部を識別してよい。例えば、対象認識は、例えば、顔、目、ランドマーク、書き込まれた文字、人間、自動車などを含んでよいいずれの対象を識別してよい。
プロセス200に関する幾つかの追加のおよび/または代わりの詳細が、図3に関して以下により詳細に議論される複数の実装のうちの1または複数の例において示されてよい。
図3は、本開示の少なくとも幾つかの実装に従って構成された、動作中の対象検出および/または認識の例示的なシステム100およびプロセス300の説明図である。示された実装では、プロセス300は、アクション311、312、313、314、315、316、322、324、332および/または334のうちの1または複数により示されるような1または複数のオペレーション、機能、またはアクションを含んでよい。非限定的な例として、プロセス300は、図1の例示のシステム100に関してここに記載される。
示される実装では、システム100は、複数のモジュール302など、および/または複数のそれらの組み合わせを含んでよい。例えば、複数のモジュール302は、ビデオモーション推定モジュール130、カスケードフィルタモジュール140、対象認識モジュール160など、および/またはそれらの複数の組み合わせを含んでよい。ビデオモーション推定モジュール130は、グラフィクス処理ユニット120を介して実装されてよく、入力画像の領域を決定し、線形分類器を領域に適用して、領域を対象認識モジュールとして分類するまたは領域をリジェクトするよう構成されてよい。 ビデオモーション推定モジュール130は、例えば、領域を表すベクトルと基準ベクトルとの間の絶対値の差に基づく絶対値の差ベクトルを決定すること、絶対値の差ベクトルと重みベクトルとのドット積に基づく結果値を決定すること、および結果値を閾値と比較することにより、線形分類器を適用するよう構成されてよい。ビデオモーション推定モジュール130は、複数の追加の線形分類器(複数可)を、初期の分類を通るいずれの領域に適用するよう構成されてよい。カスケードフィルタモジュール140は、線形分類器(複数可)を通る領域をカスケードフィルタステージ対象候補領域として分類する、または領域をリジェクトするよう構成されてよい。対象認識モジュール160は、カスケードフィルタモジュール140を通る複数の領域上で対象認識を実行するよう構成されてよい。対象認識モジュール160は、対象認識を実行する前に、合格領域を任意選択的にマージするよう構成されてもよい。
プロセス300は、対象検出および/または認識のコンピュータ実装方法として使用されてよい。プロセス300、ブロック311「入力画像を受信」にて開始してよい。ここでは、入力画像が受信されてよい。例えば、入力画像は、グラフィクス処理ユニット120および/またはビデオモーション推定モジュール130にて受信されてよい。入力画像は、システム100により、別のデバイスから受信されてよく、またはシステム100にて内部で生成されてよい。
処理は、オペレーション311からオペレーション312「領域を決定」に継続してよい。ここでは、入力画像の個々の領域が決定されてよい。領域は、入力画像の複数の領域のうちの個々の領域であってよく、対象検出および/または認識処理のために選択または決定されてよい。
処理は、オペレーション312からオペレーション313「線形分類ステージを適用」に継続してよい。オペレーション313では、線形分類ステージが、領域に適用されてよい。線形分類ステージは、グラフィクス処理ユニット120を介して実装されるビデオモーション推定モジュール130により適用されてよく、領域が対象候補領域(すなわち、線形分類器を通り、目的の対象または目的の対象の一部である可能性が高いと考えられる)またはリジェクトされた領域であるかどうかを判断してよい。線形分類ステージを適用することは、例えば、絶対値の差ベクトル(すなわち、領域を表すベクトルおよび基準ベクトルに絶対値の差を適用することにより決定されるベクトル)および重みベクトルのドット積に基づく計算を提供するビデオモーション推定モジュール130を再利用することを含んでよい。結果として生じる計算値は、閾値と比較されて、領域が線形分類ステージを通るかどうか判断してよい。
処理は、オペレーション313からオペレーション314「線形分類ステージ2−Nを適用」に継続してよい。ここでは、追加の複数の線形分類ステージが任意選択的に合格領域に適用されてよい。任意の数の追加のステージは、例えば、追加の2つのステージを含んで適用されてよい。いずれの追加のステージは、ビデオ推定モジュール130により適用されてよい。領域が追加の複数のステージを通るにつれて、領域はそれとして分類されてよい。例えば、領域が第2線形分類ステージを通ると、領域は、第2ステージ対象候補領域として分類されてよく、領域が第3線形分類ステージを通ると、領域は第3ステージ対象候補領域などとして分類されてよい。
処理は、オペレーション314から両方が「領域(複数可)を転送」とラベルされるオペレーション315または316に継続してよい。ここでは、1または複数の対象候補領域がカスケードフィルタモジュール140および/または対象認識モジュール160に転送されてよい。議論されるように、幾つかの例では、決定された複数の対象候補領域は、さらに、カスケードフィルタを適用することにより処理されてよい。複数の他の例では、いずれの決定された対象候補領域は、対象認識モジュール160に直接送信されてよい。
処理は、オペレーション322「カスケードフィルタを適用」にて継続してよい。ここでは、カスケードフィルタは、いずれの受信された領域に適用されて、それがカスケードフィルタステージ対象候補領域(すなわち、カスケードフィルタを通る領域)であってよいかどうかを判断してよい。適用されたカスケードフィルタは、例えば、7ステージのような任意の数のステージを含んでよい。適用されたカスケードフィルタは、例えば、ブーストカスケードフィルタ、Viola−Jonesカスケードフィルタ、特徴型分類を実装するViola−Jonesカスケードフィルタ、またはSURFカスケードフィルタのようないずれの適切なカスケードフィルタを含んでよい。
処理は、オペレーション322からオペレーション324「領域(複数可)を転送」に継続してよい。ここでは、カスケードフィルタステージ対象候補領域(複数可)として分類されたいずれの領域(複数可)は、カスケードフィルタモジュール140から対象認識モジュール160に転送されてよい。
処理は、オペレーション332「マージ」にて継続してよい。ここでは、前の処理を通ったいずれの受信された領域(複数可)は、任意選択的にマージされて、1または複数のマージされた対象候補領域を形成してよい。マージは、例えば、グラフィクス処理ユニット120または1または複数の中央処理ユニット(複数可)を介して実装されてよい。
処理は、オペレーション332からオペレーション334「目的の対象を識別」に継続してよい。ここでは、対象認識モジュール160は、受信された複数の対象候補領域および/または複数のマージされた対象候補領域上で対象認識を実行してよい。対象認識モジュール160は、例えば、顔、目、ランドマーク、書き込まれた文字、人間、自動車などを含んでよいいずれの対象を識別してよい。対象認識モジュール160は、例えば、グラフィクス処理ユニット120または1または複数の中央処理ユニット(複数可)を介して実装されてよい。
図2および図3に示されるように、例示的プロセス200および300および図1について議論された複数のプロセスの実装は、示された順序で示されるすべてのブロックの実行を含んでよいが、本開示はこれに関して限定されず、様々な例において、プロセス200および300の実装は、示されるおよび/または示されるものと異なる順序において複数のブロックのうちのサブセットのみの実行を含んでよい。
加えて、図2および図3の複数のブロックおよび図1について議論された複数のプロセスのうちの1つまたは複数は、1または複数のコンピュータプログラム製品により提供される複数の命令に応じて実行されてよい。そのような複数のプログラム製品は、例えばプロセッサにより実行されると、ここに記載される機能をもたらしてよい複数の命令を提供する信号担持媒体を含んでよい。複数のコンピュータプログラム製品は、コンピュータ可読媒体の任意の形式で提供されてよい。従って、例えば、1または複数のプロセッサコアを含むプロセッサ(複数可)は、コンピュータ可読媒体によりプロセッサへ伝達される複数の命令に応じて、図2および3に示される複数のブロックのうちの1または複数を実行してよい。
ここに記載されるいずれの実装において用いられるように、用語「モジュール」は、ここに記載される機能を提供するように構成されたソフトウェア、ファームウェア、および/またはハードウェアの任意の組み合わせを指す。ソフトウェアは、ソフトウェアパッケージ、コード、および/または、命令セットもしくは複数の命令として具現されてよく、「ハードウェア」という用語は、ここに記載される任意の実装で用いられるように、例えば、ハードワイヤード回路、プログラマブル回路、ステートマシン回路、および/または、プログラマブル回路により実行される複数の命令を格納するファームウェアを単独または任意の組み合わせで含んでよい。複数のモジュールは、集合的または個別に、より大きなシステムの一部を形成する回路、例えば、集積回路(IC),システムオンチップ(SoC)などとして具現されてよい。
議論されるように、動作中、プロセス200および/またはプロセス300は、対象認識プレフィルタリングの線形分類器および/または線形分類カスケード(すなわち、複数の線形分類ステージは連結されて、線形分類カスケードを形成してよい)として動作してよい。また、議論されるように、ビデオモーション推定モジュールは、使用されて、方程式(1)および方程式(2)について議論された計算を再利用することを介して1または複数の線形分類ステージを適用してよい。さらに、計算では、基準ベクトルMは選択されてよく、重みベクトルWは決定されてよい。理解されるように、基準ベクトルMおよび重みベクトルWは、適用される線形分類ステージの有効性に影響してよい。
図4は、本開示の少なくとも幾つかの実装に従って構成された、例示的な線形分類器の結果を示す一組のチャートである。 図5は、本開示の少なくとも幾つかの実装に従って構成された、例示的な複数の線形分類ステージの結果を示す一組のチャートである。
図4および図5に示される複数のチャートは、x軸に偽陽性(FP)率(FPR)およびy軸に真陽性(TP)率(TPR)を示す。複数のチャートに示される複数の曲線は、複数の線形分類器の複数の受信者操作特性(ROC)曲線として記載されてよい。そのような表現において、1−TPRは、検出失敗率であってよく、1−FPRは、検出アルゴリズムにおけるスキャンエリアの節約であってよい。理解されるように、より高い1−FPR及びより低い1−TPRは概して望ましくてよく、それにより、チャートの左上に向かう傾向にある複数のROC曲線は概して望ましくてよい。
ここで、図4を参照すると、3つのチャート(4A、4B、および4C)が、例示的な顔検出実装に対して示される。チャート4Aは、複数の顔の統計平均(すなわち、バイアス:平均)を表す基準ベクトルが用いられる実装に対する複数のROC曲線を示す。チャート4Bは、ランダムな顔(すなわち、バイアス:X(1))を表す基準ベクトルが用いられる実装に対する複数のROC曲線を示す。チャート4Cは、ゼロ値パッチ(すなわち、バイアス:ゼロ)を表す基準ベクトルが用いられる実装に対する複数のROC曲線を示す。各チャートの基準ベクトルのタイプは、便宜上、各チャートの上にラベルされる。
示されるように、チャート4Aは、3つのROC曲線を含む。ROC曲線401は、対象を有する領域内の各ピクセルに対する標準偏差(STD)の逆数を用いて決定された重みベクトルに対するROCを示す。ROC曲線402は、線形判別分析(LDA)を用いて決定された重みベクトルに対するROCを示す。ROC曲線403は、サポートベクタマシン(SVM)を用いて決定された重みベクトルに対するROCを示す。さらに、チャート4Aは、それぞれSTD,LDA,およびSVMに対してTPR=0.99になるFPRを示す3つの垂線404、405および406を含む。
同様に、チャート4Bは、3つのROC曲線を含む。ROC曲線411は、対象を有する領域内の各ピクセルに対する標準偏差(STD)の逆数を用いて決定された重みベクトルに対するROCを示し、ROC曲線412は、線形判別分析(LDA)を用いて決定された重みベクトルに対するROCを示し、ROC曲線413は、サポートベクタマシン(SVM)を用いて決定された重みベクトルに対するROCを示す。また、チャート4Bは、それぞれSTD,LDA,およびSVMに対してTPR=0.99になるFPRを示す3つの垂線414、415および416を示す。
さらに、チャート4Cは、3つの曲線を示す。ROC曲線421は、対象を有する領域内の各ピクセルに対する標準偏差(STD)の逆数を用いて決定された重みベクトルに対するROCを示し、ROC曲線422は、線形判別分析(LDA)を用いて決定された重みベクトルに対するROCを示し、ROC曲線423は、サポートベクタマシン(SVM)を用いて決定された重みベクトルに対するROCを示す。また、チャート4Cは、それぞれSTD,LDA,およびSVMに対してTPR=0.99になるFPRを示す3つの垂線424、425および426を示す。
チャート4A、4B、および/または4Cを用いて判断されてよいように、複数の顔検出アプリケーションにおいて、LDAは、概して、重みベクトルを決定するのに好適であってよい。また、図4の複数のチャートを用いて決定されてよいように、ゼロ値パッチ(すなわち、バイアス:ゼロ)を表す基準ベクトルは、概して、顔検出実装において好適であってよい。同様の複数のチャート技術および/または複数の解析を用いて、複数の重みベクトルを決定するのに適切な複数の基準ベクトルおよび/または複数の技術が、(例えば、目、ランドマーク、書き込まれた文字、人間、自動車などのような)他の複数の対象に対する複数の実装に対して決定されてよい。
ここで、図5を参照すると、3つのチャートが、顔検出実装における線形分類の複数ステージに対して示される。各ステージは、ゼロ値パッチ(すなわち、バイアス:ゼロ)を表す基準ベクトルを用いる実装を示す。チャート5Aは、処理のステージ1にてLDA実装に対するROCを示すROC曲線501を示す。さらに、チャート5Aは、TPR=0.99になるFPRを示す垂線502を示す。同様に、チャート5Bは、処理のステージ2にてLDA実装に対するROCを示すROC曲線511を示す。また、チャート5Bは、TPR=0.99になるFPRを示す垂線512を示す。さらに、チャート5Cは、処理のステージ3にてLDA実装に対するROCを示すROC曲線521を示す。また、チャート5Cは、TPR=0.99になるFPRを示す垂線522を含む。
チャート5A、5B、および/または5Cを見ることにより理解されるように、各ステージの性能は、この実装における後の複数のステージに対して減少する。この3ステージ線形分類カスケードに対して、最終的なFPRは、FPR(3ステージ)=0.067×0.517×0.713=0.025のように決定されてよい。ただし、TPR(3ステージ)=0.99=0.970である。従って、そのような実装は、3%(1−TPR)の精度損失でスキャンエリアの(例えば、入力画像の)約97.5%(1−FPR)をフィルタ除去してよい。そのような性能は、リアルタイム対象検出および/または認識を提供してよい。さらに、議論されるように、そのような複数の線形分類ステージは、より低い電力消費を提供してよいハードウェア(すなわち、グラフィクスプロセッサユニット)において実装されてよい。そのような複数の利点は、特に、バッテリ動作および/または複数のモバイルデバイスにおいて重要であってよい。
図6は、本開示の少なくとも幾つかの実装に従って構成された、対象検出および/または認識の例示的なシステム100の説明図である。示される実装では、システム100は、1または複数の中央処理ユニット602、1または複数のメモリ記憶装置604、グラフィクス処理ユニット(複数可)120、および/またはシステムエージェント/メモリコントローラ606を含んでよい。中央処理ユニット602、メモリ記憶装置604、グラフィクス処理ユニット(複数可)120、および/またはシステムエージェント/メモリコントローラ606は、例えばバスまたは他のアクセスを介して、互いに通信可能であってよい。
図6に示され、上で議論されたように、ビデオ推定モジュール130は、グラフィクス処理ユニット(複数可)120を介して実装されてよい。さらに、様々な例において、カスケードフィルタモジュール140は、グラフィクス処理ユニット(複数可)120または複数の中央処理ユニット602を介して実装されてよい。また、様々な例において、対象認識モジュール160は、グラフィクス処理ユニット(複数可)120または複数の中央処理ユニット602を介して実装されてよい。
グラフィクス処理ユニット(複数可)120は、複数のプロセッサ、複数のマルチコアプロセッサ、複数の特定用途向け集積回路、プログラマブル論理デバイス、グラフィクスカード、集中画像表示、汎用グラフィクス処理ユニット(複数可)などを含んでよい。中央処理ユニット(複数可)602は、例えば、マイクロプロセッサ(複数可)、複数のマルチコアプロセッサ、複数の特定用途向け集積回路、チップ(複数可)、複数のチップセットなどを含むいずれの適切な実装を含んでよい。加えて、複数のメモリ記憶装置508は、揮発性メモリ(例えばスタティックランダムアクセスメモリ(SRAM),ダイナミックランダムアクセスメモリ(DRAM)など)、または不揮発性メモリ(例えばフラッシュメモリなど)などのような、任意のタイプのメモリであってよい。非限定的な例において、複数のメモリ記憶装置508は、キャッシュメモリによって実装されてよい。システムエージェント/メモリコントローラは、システム100を管理し、メモリ記憶装置604を制御するよう構成されるいずれの適切な実装を含んでよい。様々な例において、システム100は、チップセットとしてまたはシステムオンチップとして実装されてよい。ある例において、システム100は、グラフィクスプロセッサ、クアッドコア中央処理ユニット、オンボードキャッシュ、メモリコントローラ入力/出力(I/O)モジュール(不図示)、およびディスプレイ機能、I/O機能、およびダイレクトメディアインターフェース(DMI)機能を管理するよう構成されるシステムエージェントおよびメモリコントローラを有する単一チップまたはデバイスとして実装されてよい。
図7は、本開示に従う例示的なシステム700を示す。様々な実装では、システム700はこのコンテキストに限定されないものの、システム700はメディアシステムであってよい。例えば、システム700は、パーソナルコンピュータ(PC)、ラップトップコンピュータ、ウルトララップトップコンピュータ、タブレット、タッチパッド、ポータブルコンピュータ、ハンドヘルドコンピュータ、パームトップコンピュータ、携帯用情報端末(PDA)、携帯電話、携帯電話/PDAの組み合わせ、テレビ、スマートデバイス(例えば、スマートフォン、スマートタブレット、またはスマートテレビ)、モバイルインターネットデバイス(MID)、メッセージングデバイス、データ通信デバイスなどに組み込まれてよい。
様々な実装では、システム700は、ディスプレイ720に結合されるプラットフォーム702を含む。プラットフォーム702は、コンテンツサービスデバイス(複数可)730またはコンテンツ配信デバイス(複数可)740または他の同様な複数のコンテンツソースのようなコンテンツデバイスから、コンテンツを受信してよい。1または複数のナビゲーション機能を含むナビゲーションコントローラ750は、例えばプラットフォーム702および/またはディスプレイ720と相互伝達するために用いられてよい。これらの構成要素のそれぞれは、以下でより詳細に記載される。
様々な実装では、プラットフォーム702は、チップセット705、プロセッサ710、メモリ712、ストレージ714、グラフィクスサブシステム715、複数のアプリケーション716、および/または無線718のいずれの組み合わせを含んでよい。チップセット705は、プロセッサ710、メモリ712、ストレージ714、グラフィクスサブシステム715、複数のアプリケーション716、および/または無線718の間で相互通信を提供してよい。例えば、チップセット705は、相互通信にストレージ714を提供可能なストレージアダプタ(不図示)を含んでよい。
プロセッサ710は、複合命令セットコンピュータ(CISC)または縮小命令セットコンピュータ(RISC)プロセッサ、複数のx86命令セット互換プロセッサ、マルチコア、または任意の他のマイクロプロセッサまたは中央処理ユニット(CPU)として実装されてよい。様々な実装では、プロセッサ710は、デュアルコアプロセッサ(複数可)、デュアルコアモバイルプロセッサ(複数可)などであってよい。
メモリ712は、これに限定されないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、またはスタティックRAM(SRAM)のような揮発性メモリデバイスとして実装されてよい。
ストレージ714は、これに限定されないが、磁気ディスクドライブ、光ディスクドライブ、テープドライブ、内蔵ストレージデバイス、外付けストレージデバイス、フラッシュメモリ、バッテリバックアップSDRAM(シンクロナスDRAM)、および/またはネットワークアクセス可能ストレージデバイスのような不揮発性ストレージデバイスとして実装されてよい。様々な実装では、ストレージ714は、例えば複数のハードドライブが含まれる場合には、貴重なデジタルメディアの、保護強化された記憶性能を向上する技術を含んでよい。
グラフィクスサブシステム715は、表示のための静止画または動画のような複数の画像の処理を実行してよい。グラフィクスサブシステム715は、例えば、グラフィクス処理ユニット(GPU)またはビジュアルプロセッシングユニット(VPU)であってよい。アナログまたはデジタルインターフェースは、グラフィクスサブシステム715とディスプレイ720とを通信可能に結合するのに用いられてよい。例えば、インターフェースは、High−Definition Multimedia Interface、Display Port、無線HDMI(登録商標)、および/または無線HD準拠技術のうちのいずれかであってよい。グラフィクスサブシステム715は、プロセッサ710またはチップセット705に一体化されてよい。幾つかの実装では、グラフィクスサブシステム715は、チップセット705に通信可能に結合されるスタンドアロンカードであってよい。
ここに記載されるグラフィクスおよび/またはビデオ処理技術は、様々のハードウェアアーキテクチャにより実装されてよい。例えば、グラフィクスおよび/またはビデオ機能は、チップセット内に一体化されてよい。あるいは、別個のグラフィクスおよび/またはビデオプロセッサが用いられてよい。さらに別の実装として、複数のグラフィクスおよび/またはビデオ機能は、マルチコアプロセッサを含む汎用プロセッサにより提供されてよい。複数のさらなる実施形態において、複数の機能は家電機器において実装されてよい。
無線718は、信号を、様々な適切な無線通信技術を用いて送受信可能な1または複数の無線を含んでよい。そのような技術は、1または複数の無線ネットワークを介する通信を包含してよい。例示的な無線ネットワークは、無線ローカルエリアネットワーク(WLAN)、無線パーソナルエリアネットワーク(WPAN)、ワイヤレス大都市圏ネットワーク(WMAN)、セルラーネットワーク、及び衛星ネットワークを含む(但し、これに限定されない)。そのような複数のネットワークを介する通信では、無線718は、任意のバージョンの1または複数の適用可能な規格に従って動作してよい。
様々な実装では、ディスプレイ720は、いずれのテレビ型モニタまたはディスプレイを含んでよい。ディスプレイ720は、例えば、コンピュータディスプレイスクリーン、タッチスクリーンディスプレイ、ビデオモニタ、テレビ様のデバイス、および/またはテレビを含んでよい。ディスプレイ720は、デジタルおよび/またはアナログであってよい。様々な実装では、ディスプレイ720は、ホログラフィクスディスプレイでもあってよい。また、ディスプレイ720は、視覚投影を受信してよい透明な面であってよい。複数のそのような投影は、様々な形式の情報、画像、および/または対象を伝達してよい。例えば、複数のそのような投影は、移動拡張現実(MAR)アプリケーションの視覚的オーバレイであってよい。1または複数のソフトウェアアプリケーション716の制御の下で、プラットフォーム702は、ディスプレイ720上のユーザインターフェース722を表示してよい。
様々な実装では、コンテンツサービスデバイス(複数可)730は、いずれの国内、国際、および/または独立サービスによりホストされてよく、従って、例えば、インターネットを介してプラットフォーム702にアクセス可能であってよい。コンテンツサービスデバイス(複数可)730は、プラットフォーム702および/またはディスプレイ720に結合されてよい。プラットフォーム702および/またはコンテンツサービスデバイス(複数可)730は、ネットワーク760に結合されて、ネットワーク760におよびからメディア情報を通信(例えば、送信および/または受信)してよい。また、コンテンツ配信デバイス(複数可)740は、プラットフォーム702および/またはディスプレイ720に結合されてよい。
様々な実装では、コンテンツサービスデバイス(複数可)730は、ケーブルテレビボックス、パーソナルコンピュータ、ネットワーク、電話、インターネット対応デバイスまたはデジタル情報および/またはコンテンツを配信可能なアプライアンス、およびコンテンツプロバイダとプラットフォーム702/ディスプレイ720との間で、ネットワーク760を介してまたは直接、一方向にまたは双方向にコンテンツを通信可能な任意の他の同様なデバイスを含んでよい。システム700内の複数の構成要素のいずれか1つとコンテンツプロバイダとに、および、から、一方向および/または双方向に、コンテンツがネットワーク760を介して通信されてよいことが理解されよう。コンテンツの複数の例として、例えば、ビデオ、音楽、医療、ゲーム情報などを含む任意のメディア情報を含んでよい。
コンテンツサービスデバイス(複数可)730は、メディア情報、デジタル情報、および/または他のコンテンツを含むケーブルテレビプログラムのようなコンテンツを受信してよい。複数のコンテンツプロバイダの複数の例として、任意のケーブルまたは衛星テレビあるいは無線またはインターネットコンテンツプロバイダを含んでよい。提供される複数の例は、本開示に従う実装を決して限定するものではない。
様々な実装では、プラットフォーム702は、1または複数のナビゲーション機能を有するナビゲーションコントローラ750から複数の制御信号を受信してよい。コントローラ750の複数のナビゲーション機能は、例えば、ユーザインターフェース722との相互伝達に用いられよい。複数の実施形態において、ナビゲーションコントローラ750は、ユーザが空間(例えば、連続かつ多次元の)データをコンピュータに入力することを可能にするコンピュータハードウェアコンポーネント(具体的には、ヒューマンインターフェースデバイス)であってよいポインティングデバイスであってよい。複数のグラフィカルユーザインターフェース(GUI)、ならびに複数のテレビおよび複数のモニタのような多くのシステムは、ユーザが、複数の身体的なジェスチャにより、コンピュータまたはテレビを制御およびそれにデータを提供することができるようにする。
コントローラ750の複数のナビゲーション機能の動きは、ディスプレイ上に表示されるポインタ、カーソル、フォーカスリング、または他の複数の視覚インジケータの動きにより、ディスプレイ(例えば、ディスプレイ720)上に複製されてよい。例えば、複数のソフトウェアアプリケーション716の制御下で、ナビゲーションコントローラ750上に位置される複数のナビゲーション機能は、例えば、ユーザインターフェース722上に表示される複数の仮想ナビゲーション機能に対してマッピングされてよい。複数の実施形態において、コントローラ750は別個の構成要素でなくてよいが、プラットフォーム702および/またはディスプレイ720に一体化されてよい。しかし、本開示は、ここに示されるまたは記載される要素にまたはコンテキストに限定されない。
様々な実装では、複数のドライバ(不図示)は、例えば、イネーブルされると、初期ブートアップ後にボタンのタッチを用いるテレビのように、複数のユーザが瞬時にプラットフォーム702をオンオフできるようにする技術を含んでよい。プログラムロジックは、プラットフォームがオフされても、プラットフォーム702がコンテンツを複数のメディアアダプタまたは他のコンテンツサービスデバイス(複数可)730またはコンテンツ配信デバイス(複数可)740にストリームできるようにしてよい。加えて、チップセット705は、例えば、8.1サラウンドサウンドオーディオおよび/または高解像度(7.1)サラウンドサウンドオーディオに対するハードウェアおよび/またはソフトウェアサポートを含んでよい。複数のドライバは、複数の一体化グラフィクスプラットフォームに対するグラフィクスドライバを含んでよい。複数の実施形態において、グラフィクスドライバは、ペリフェラルコンポーネントインターコネクト(PCI)エクスプレスグラフィクスカードを備えてよい。
様々な実装では、システム700に示される複数の構成要素のうちのいずれの1つまたは複数は一体化されてよい。例えば、プラットフォーム702およびコンテンツサービスデバイス(複数可)730は一体化されてよい、またはプラットフォーム702およびコンテンツ配信デバイス(複数可)740は一体化されてよい、または、例えば、プラットフォーム702、コンテンツサービスデバイス(複数可)730、およびコンテンツ配信デバイス(複数可)740は一体化されてよい。様々な実施形態において、プラットフォーム702およびディスプレイ720は、一体化されたユニットであってよい。例えば、ディスプレイ720およびコンテンツサービスデバイス(複数可)730は一体化されてよく、またはディスプレイ720およびコンテンツ配信デバイス740(複数可)は一体化されてよい。これらの例は、本開示を限定することを意味しない。
様々な実施形態において、システム700は、無線システム、有線システム、または両方の組み合わせとして実装されてよい。無線システムとして実装される場合、システム700は、1または複数のアンテナ、複数の送信機、複数のレシーバ、複数のトランシーバ、複数の増幅器、複数のフィルタ、制御ロジックなどのような無線共有媒体上での通信に適切な複数の構成要素および複数のインターフェースを含んでよい。無線共有媒体の一例として、RFスペクトルなどのような無線スペクトルの複数の部分を含んでよい。有線システムとして実装される場合、システム700は、複数の入力/出力(I/O)アダプタ、I/Oアダプタを対応する有線通信媒体に接続する複数の物理コネクタ、ネットワークインターフェースカード(NIC)、ディスクコントローラ、ビデオコントローラ、オーディオコントローラなどのような、有線通信媒体を介した通信に適した複数の構成要素および複数のインターフェースを含んでよい。有線通信媒体の例として、導線、ケーブル、金属鉛、プリント回路基板(PCB)、バックプレーン、スイッチファブリック、半導体材料、ツイストペア線、同軸ケーブル、光ファイバなどを含んでよい。
プラットフォーム702は、情報を通信する1または複数の論理または物理チャネルを確立してよい。情報は、メディア情報および制御情報を含んでよい。メディア情報は、ユーザ向けのコンテンツを表す任意のデータを意味してよい。コンテンツの例として、例えば、音声会話、ビデオ会議、ストリーミングビデオ、電子メール(「eメール」)メッセージ、音声メールメッセージ、英数字記号、グラフィクス、画像、ビデオ、テキストなどからのデータを含んでよい。音声会話からのデータは、例えば、音声情報、沈黙時間、バックグラウンドノイズ、快適ノイズ、トーンなどであってよい。制御情報は、自動化システム向けの、複数のコマンド、複数の命令、または複数の制御ワードを表す任意のデータを指してよい。例えば、制御情報は、システムを通じてメディア情報をルーティングするために、または、所定のやり方でメディア情報を処理するようにノードに指示するために、用いられてよい。しかし、複数の実施形態は、図7に示すまたは記載される要素またはコンテキストに限定されるものではない。
上記のように、システム700は、物理スタイルまたはフォームファクタの変化において具現されてよい。図8は、システム700が具現されてよい小型フォームファクタデバイス800の実装を示す。複数の実施形態において、例えば、デバイス800は、複数の無線機能を有するモバイルコンピューティングデバイスとして実装されてよい。例えば、モバイルコンピューティングデバイスは、プロセッシングシステムおよび1または複数のバッテリのような移動式の電源または電力供給装置を有する任意のデバイスを指してよい。
上記のように、モバイルコンピューティングデバイスの複数の例は、パーソナルコンピュータ(PC)、ラップトップコンピュータ、ウルトララップトップコンピュータ、タブレット、タッチパッド、ポータブルコンピュータ、ハンドヘルドコンピュータ、パームトップコンピュータ、携帯用情報端末(PDA)、携帯電話、携帯電話/PDAの組み合わせ、テレビ、スマートデバイス(例えば、スマートフォン、スマートタブレット、またはスマートテレビ)、モバイルインターネットデバイス(MID)、メッセージングデバイス、データ通信デバイスなどを含んでよい。
また、モバイルコンピューティングデバイスの複数の例は、リストコンピュータ、フィンガコンピュータ、リングコンピュータ、メガネコンピュータ、ベルトクリップコンピュータ、アームバンドコンピュータ、シューズコンピュータ、衣服コンピュータ、および他のウェアラブルコンピュータのような、人により着用されるように配置されるコンピュータを含んでよい。様々な実施形態において、例えば、モバイルコンピューティングデバイスは、複数の音声通信および/または複数のデータ通信だけでなく、複数のコンピュータアプリケーションを実行可能なスマートフォンとして実装されてよい。幾つかの実施形態が、例として、スマートフォンとして実装されるモバイルコンピューティングデバイスを用いて記載されてよいが、他の実施形態が同様に複数の他の無線モバイルコンピューティングデバイスを使用して実装されてよいことが理解されてよい。実施形態は、これに関連して、限定されない。
図8に示されるように、デバイス800は、ハウジング802、ディスプレイ804、入力/出力(I/O)デバイス806、およびアンテナ808を含んでよい。デバイス800も、複数のナビゲーション機能812を含んでよい。ディスプレイ804は、モバイルコンピューティングデバイスに適した情報を表示するための、任意の適切なディスプレイユニットを含んでよい。I/Oデバイス806は、モバイルコンピューティングデバイスに情報を入力するための、任意の適切なI/Oデバイスを含んでよい。I/Oデバイス806の複数の例として、英数字キーボード、テンキーパッド、タッチパッド、複数の入力キー、複数のボタン、複数のスイッチ、複数のロッカースイッチ、複数のマイクロホン、複数のスピーカ、音声認識デバイスおよびソフトウェアなどを含んでよい。情報も、マイク(不図示)を用いてデバイス800に入力されてよい。そのような情報は、音声認識デバイス(不図示)によりデジタル化されてよい。実施形態は、これに関連して、限定されない。
様々な実施形態は、ハードウェア要素、ソフトウェア要素、または両方の組み合わせを用いて実装されてよい。ハードウェア要素の複数の例として、複数のプロセッサ、複数のマイクロプロセッサ、複数の回路、複数の回路素子(例えば、複数のトランジスタ、複数の抵抗器、複数のコンデンサ、複数の誘導子など)、複数の集積回路、複数の特定用途向け集積回路(ASIC)、複数のプログラマブル論理デバイス(PLD)、複数のデジタルシグナルプロセッサ(DSP)、フィールドプログラマブルゲートアレイ(FPGA)、複数の論理ゲート、複数のレジスタ、半導体デバイス、複数のチップ、複数のマイクロチップ、複数のチップセットなどを含んでよい。ソフトウェアの複数の例として、複数のソフトウェアコンポーネント、複数のプログラム、複数のアプリケーション、複数のコンピュータプログラム、複数のアプリケーションプログラム、複数のシステムプログラム、複数の機械プログラム、オペレーティングシステムソフトウェア、ミドルウェア、ファームウェア、複数のソフトウェアモジュール、複数のルーチン、複数のサブルーチン、複数の関数、複数の方法、複数のプロシージャ、複数のソフトウェアインターフェース、複数のアプリケーションプログラムインターフェース(API)、複数の命令セット、コンピューティングコード、コンピュータコード、複数のコードセグメント、複数のコンピュータコードセグメント、複数のワード、複数の値、複数の記号、またはそれらの任意の組み合わせを含んでよい。実施形態が複数のハードウェア要素および/またはソフトウェア要素を用いて実装されるかどうかについて決定することは、任意の数の要因に従って変化してよく、そのような要因として、例えば、所望の計算レート、電力レベル、耐熱性、処理サイクル予算、入力データレート、出力データレート、メモリリソース、データバススピード、および他の設計または性能制約条件がある。
少なくとも1つの実施形態の1または複数の態様は、機械により読み取られると、機械にここに記載の複数の技術を実行するロジックを組み立てさせるプロセッサ内に様々なロジックを表す機械可読媒体上に格納される複数の代表的命令により実装されてよい。「IPコア」として知られるそのような表現は、有形の機械可読媒体に格納され、ロジックまたはプロセッサを実際に作成する製造機械にロードする様々な顧客または製造設備に提供されてよい。
ここに説明された或る特定の特徴が様々な実装に関して記載されたが、この記載は、限定的な意味に解釈されることを意図するものではない。よって、ここに記載された複数の実装の多様な変更であって、本開示に関連する当業者にとって明らかな変更は、他の実装と同様に、本開示の趣旨および範囲内であると考えられる。
以下の複数の例は、さらなる実施形態に関する。
一例において、対象検出のコンピュータ実装方法は、入力画像を受信することを含んでよい。入力画像の領域は決定されてよい。線形分類器は、領域を対象候補領域として分類する、または領域をリジェクトするために、グラフィクス処理ユニットのビデオモーション推定モジュールを介して、入力画像の領域に適用されてよい。
一例において、対象検出のコンピュータ実装方法は、入力画像を受信することを含んでよい。入力画像の領域は決定されてよい。線形分類器は、領域を対象候補領域として分類する、または領域をリジェクトするために、グラフィクス処理ユニットのビデオモーション推定モジュールを介して、入力画像の領域に適用されてよい。領域が対象候補領域として分類されると、第2線形分類器は、領域を第2ステージ対象候補領域として分類する、または領域をリジェクトするために、グラフィクス処理ユニットのビデオモーション推定モジュールを介して、領域に適用されてよい。領域が第2ステージ対象候補領域として分類されると、第3線形分類器は、領域を第3ステージ対象候補領域として分類する、または領域をリジェクトするために、グラフィクス処理ユニットのビデオモーション推定モジュールを介して、領域に適用されてよい。領域が第3ステージ対象候補領域として分類されると、領域をカスケードフィルタステージ対象候補領域として分類する、または領域をリジェクトするために、領域は、カスケードフィルタモジュールに転送されてよく、領域は、カスケードフィルタモジュールを介して処理されてよい。カスケードフィルタモジュールは、7ステージカスケードフィルタ、ブーストカスケードフィルタ、Viola−Jonesカスケードフィルタ、または特徴型分類を実装するViola−Jonesカスケードフィルタを含んでよい。さらに、ビデオの動きベクトルの推定は、グラフィクス処理ユニットのビデオモーション推定モジュールを介して、決定されてよい。領域がカスケードフィルタステージ対象候補領域として分類されると、マージされた領域を形成するために、領域は、カスケードフィルタステージ対象候補領域としても分類される第2の領域とマージされてよい。対象認識は、マージされた領域上で実行されてよい。線形分類器を適用することは、基準ベクトルがゼロ値パッチ、対象の平均、またはランダムな代表対象を表すように、領域を表すベクトルと基準ベクトルとの間の絶対値の差に基づく絶対値の差ベクトルを決定すること、重みベクトルが、事前訓練された重みベクトル、標準偏差の逆数で事前訓練された重みベクトル、線形判別で事前訓練された重みベクトル、またはサポートベクトルマシンで事前訓練された重みベクトルであってよいように、絶対値の差ベクトルと重みベクトルとのドット積に基づいて結果値を決定すること、および結果値を閾値と比較すること、を含んでよい。入力画像は、画像ファイルまたはビデオフレームを含んでよい。カスケードフィルタモジュールは、グラフィクス処理ユニットまたは中央処理ユニットを介して実装されてよい。対象認識候補領域上の対象認識は、グラフィクス処理ユニットまたは中央処理ユニットを介して実装されてよい。
他の例では、コンピュータ上の対象検出のシステムは、入力画像の領域を決定し、入力画像の領域に線形分類器を適用して、領域を対象候補領域として分類する、または領域をリジェクトするように構成されたビデオモーション推定モジュールを含むグラフィクス処理ユニット、グラフィクス処理ユニットに通信可能に結合される1または複数のプロセッサ、および1または複数のプロセッサに通信可能に結合される1または複数のメモリ記憶装置を含んでよい。
別の例において、システムは、さらに、領域上で対象認識を実行して領域内の対象を識別するよう構成された対象認識モジュールを含んでよい。対象は、顔、目、ランドマーク、書き込まれた文字、人間、または自動車を含んでよい。ビデオ推定モジュールは、線形分類器を領域に適用して、基準ベクトルがゼロ値パッチ、対象の平均、またはランダムな代表対象を表すように、領域を表すベクトルと基準ベクトルとの間の絶対値の差に基づく絶対値の差ベクトルを決定すること、重みベクトルが、事前訓練された重みベクトル、標準偏差の逆数で事前訓練された重みベクトル、線形判別で事前訓練された重みベクトル、またはサポートベクトルマシンで事前訓練された重みベクトルであってよいように、絶対値の差ベクトルと重みベクトルとのドット積に基づいて結果値を決定すること、および結果値を閾値と比較すること、により、領域を対象候補領域として分類する、または領域をリジェクトするように構成されてよい。ビデオモーション推定モジュールは、さらに、領域が対象候補領域として分類されると、第2線形分類器を領域に適用して、領域を第2ステージ対象候補領域として分類する、または領域をリジェクトするように構成されてよい。ビデオモーション推定モジュールは、さらに、領域が第2ステージ対象候補領域として分類されると、第3線形分類器を領域に適用して、領域を第3ステージ対象候補領域として分類する、または領域をリジェクトするように構成されてよい。ビデオモーション推定モジュールは、さらに、ビデオの動きベクトルを推定するよう構成されてよい。カスケードフィルタモジュールは、グラフィクス処理ユニットまたは1または複数のプロセッサを介して実装されてよい。対象認識モジュールは、グラフィクス処理ユニットまたは1または複数のプロセッサを介して実装されてよい。グラフィクス処理ユニット、1または複数のプロセッサ、および1または複数のメモリ記憶装置は、システムオンチップであってよい。入力画像は、画像ファイルまたはビデオフレームであってよい。
さらなる例では、少なくとも1つの機械可読媒体は、コンピューティングデバイス上で実行されることに応じて、コンピューティングデバイスに、上記の複数の例のうちのいずれか1つに係る方法を実行させる複数の命令を含んでよい。
さらに別の例では、装置は、上記の複数の例のうちのいずれか1つに係る方法を実行する手段を含んでよい。
上記の複数の例は、複数の特徴の特定の組み合わせを含んでよい。しかし、そのような上記の複数の例は、これに関して限定されず、様々な実装では、上記の複数の例は、そのような複数の特徴のサブセットのみを扱うこと、そのような複数の特徴の異なる順序を扱うこと、そのような複数の特徴の異なる組み合わせを扱うこと、および/または、明示的にリストされたそれらの特徴に対して追加の特徴を扱うこと、を含んでよい。例えば、例示的な方法について記載されたすべての特徴は、例示的な装置、例示的なシステム、および/または、例示的な物品について実装されてよいし、その逆もまた同様である。

Claims (28)

  1. 対象検出のコンピュータ実装方法であって、
    入力画像を受信する段階と、
    前記入力画像の領域を決定する段階と、
    前記領域を対象候補領域として分類する、または前記領域をリジェクトするために、グラフィクス処理ユニットのビデオモーション推定モジュールを介して、線形分類器を前記入力画像の前記領域に適用する段階と、
    前記領域が対象候補領域として分類されると、前記領域をカスケードフィルタステージ対象候補領域として分類する、または前記領域をリジェクトするために、前記領域をカスケードフィルタモジュールに転送し、前記領域を前記カスケードフィルタモジュールを介して処理する段階と、
    前記領域がカスケードフィルタステージ対象候補領域として分類されると、マージされた領域を形成するために、前記領域を、カスケードフィルタステージ対象候補領域として分類される第2の領域とマージする段階と、
    前記マージされた領域上で対象認識を実行する段階と、
    を備える方法。
  2. 前記グラフィクス処理ユニットの前記ビデオモーション推定モジュールを介して前記線形分類器を前記領域に適用する段階は、
    前記領域を表わすベクトルと基準ベクトルとの間の絶対値の差に基づいて、絶対値の差ベクトルを決定する段階と、
    前記絶対値の差ベクトルと重みベクトルとのドット積に基づいて結果値を決定する段階と、
    前記結果値を閾値と比較する段階と、
    を含む、請求項1に記載の方法。
  3. 前記グラフィクス処理ユニットの前記ビデオモーション推定モジュールを介して前記線形分類器を前記領域に適用する段階は、
    前記領域を表わすベクトルと基準ベクトルとの間の絶対値の差に基づいて、絶対値の差ベクトルを決定する段階であり、前記基準ベクトルは、ゼロ値パッチ、対象の平均、またはランダムな代表対象のうちの少なくとも1つを表す、段階と、
    前記絶対値の差ベクトルと重みベクトルとのドット積に基づいて結果値を決定する段階と、
    前記結果値を閾値と比較する段階と、
    を含む、請求項1に記載の方法。
  4. 前記グラフィクス処理ユニットの前記ビデオモーション推定モジュールを介して前記線形分類器を前記領域に適用する段階は、
    前記領域を表わすベクトルと基準ベクトルとの間の絶対値の差に基づいて、絶対値の差ベクトルを決定する段階と、
    前記絶対値の差ベクトルと重みベクトルとのドット積に基づいて結果値を決定する段階であり、前記重みベクトルは、事前訓練された重みベクトル、標準偏差の逆数で事前訓練された重みベクトル、線形判別で事前訓練された重みベクトル、またはサポートベクトルマシンで事前訓練された重みベクトルのうちの少なくとも1つを含む、段階と、
    前記結果値を閾値と比較する段階と、
    を含む、請求項1に記載の方法。
  5. 記カスケードフィルタモジュールは、7ステージカスケードフィルタを有し、前記カスケードフィルタは、ブーストカスケードフィルタ、Viola−Jonesカスケードフィルタ、または特徴型分類を実装するViola−Jonesカスケードフィルタのうちの少なくとも1つを有する、請求項1に記載の方法。
  6. 記対象認識を実行する段階は、前記領域内の対象を識別する段階を含む、請求項1に記載の方法。
  7. 記対象認識を実行する段階は、前記領域内の対象を識別する段階を含み、前記対象は、顔、目、ランドマーク、書き込まれた文字、人間、または自動車のうちの少なくとも1つを有する、請求項1に記載の方法。
  8. 対象検出のコンピュータ実装方法であって、
    入力画像を受信する段階と、
    前記入力画像の領域を決定する段階と、
    前記領域を対象候補領域として分類する、または前記領域をリジェクトするために、グラフィクス処理ユニットのビデオモーション推定モジュールを介して、線形分類器を前記入力画像の前記領域に適用する段階と、
    前記領域が対象候補領域として分類されると、前記領域を第2ステージ対象候補領域として分類する、または前記領域をリジェクトするために、前記グラフィクス処理ユニットの前記ビデオモーション推定モジュールを介して、第2線形分類器を前記領域に適用する段階と、
    前記領域が第2ステージ対象候補領域として分類されると、前記領域を第3ステージ対象候補領域として分類する、または前記領域をリジェクトするために、前記グラフィクス処理ユニットの前記ビデオモーション推定モジュールを介して、第3線形分類器を前記領域に適用する段階と、
    前記領域が第3ステージ対象候補領域として分類されると、前記領域をカスケードフィルタステージ対象候補領域として分類する、または前記領域をリジェクトするために、前記領域をカスケードフィルタモジュールに転送し、前記領域を前記カスケードフィルタモジュールを介して処理する段階と、
    前記領域がカスケードフィルタステージ対象候補領域として分類されると、マージされた領域を形成するために、前記領域を、カスケードフィルタステージ対象候補領域として分類される第2の領域とマージする段階と、
    前記マージされた領域が形成されると、前記マージされた領域上で対象認識を実行する段階と、
    をさらに備える方法。
  9. 前記グラフィクス処理ユニットの前記ビデオモーション推定モジュールを介して前記線形分類器を前記領域に適用する段階は、
    前記領域を表わすベクトルと基準ベクトルとの間の絶対値の差に基づいて、絶対値の差ベクトルを決定する段階であり、前記基準ベクトルは、ゼロ値パッチ、対象の平均、またはランダムな代表対象のうちの少なくとも1つを表す、段階と、
    前記絶対値の差ベクトルと重みベクトルとのドット積に基づいて結果値を決定する段階であり、前記重みベクトルは、事前訓練された重みベクトル、標準偏差の逆数で事前訓練された重みベクトル、線形判別で事前訓練された重みベクトル、またはサポートベクトルマシンで事前訓練された重みベクトルのうちの少なくとも1つを含む、段階と、
    前記結果値を閾値と比較する段階と、
    を含む、請求項8に記載の方法。
  10. 前記グラフィクス処理ユニットの前記ビデオモーション推定モジュールを介して、ビデオの動きベクトルの推定を決定する段階をさらに備える、請求項1又は8に記載の方法。
  11. 前記入力画像は、画像ファイルまたはビデオフレームのうちの少なくとも一方を含む、請求項1又は8に記載の方法。
  12. 対象検出のコンピュータ実装方法であって、
    入力画像を受信する段階と、
    前記入力画像の領域を決定する段階と、
    前記領域を対象候補領域として分類する、または前記領域をリジェクトするために、グラフィクス処理ユニットのビデオモーション推定モジュールを介して、線形分類器を前記入力画像の前記領域に適用する段階と、
    前記領域が対象候補領域として分類されると、前記領域を第2ステージ対象候補領域として分類する、または前記領域をリジェクトするために、前記グラフィクス処理ユニットの前記ビデオモーション推定モジュールを介して、第2線形分類器を前記領域に適用する段階と、
    前記領域が第2ステージ対象候補領域として分類されると、前記領域を第3ステージ対象候補領域として分類する、または前記領域をリジェクトするために、前記グラフィクス処理ユニットの前記ビデオモーション推定モジュールを介して、第3線形分類器を前記領域に適用する段階と、
    前記領域が第3ステージ対象候補領域として分類されると、前記領域をカスケードフィルタステージ対象候補領域として分類する、または前記領域をリジェクトするために、前記領域をカスケードフィルタモジュールに転送し、前記領域を前記カスケードフィルタモジュールを介して処理する段階であり、前記カスケードフィルタモジュールは、7ステージカスケードフィルタを有し、前記カスケードフィルタは、ブーストカスケードフィルタ、Viola−Jonesカスケードフィルタ、または特徴型分類を実装するViola−Jonesカスケードフィルタのうちの少なくとも1つを有する、段階と、
    前記グラフィクス処理ユニットの前記ビデオモーション推定モジュールを介して、ビデオの動きベクトルの推定を決定する段階と、
    前記領域がカスケードフィルタステージ対象候補領域として分類されると、マージされた領域を形成するために、前記領域を、カスケードフィルタステージ対象候補領域として分類される第2の領域とマージする段階と、
    前記領域がカスケードフィルタ対象候補領域として分類されると、前記領域上で対象認識を実行する段階であり、前記対象認識を実行する段階は、前記領域内の対象を識別する段階を含み、前記対象は、顔、目、ランドマーク、書き込まれた文字、人間、または自動車のうちの少なくとも1つを有する、段階と、
    前記マージされた領域が形成されると、前記マージされた領域上で対象認識を実行する段階と、をさらに備え、
    前記グラフィクス処理ユニットの前記ビデオモーション推定モジュールを介して前記線形分類器を前記領域に適用する段階は、
    前記領域を表わすベクトルと基準ベクトルとの間の絶対値の差に基づいて、絶対値の差ベクトルを決定する段階であり、前記基準ベクトルは、ゼロ値パッチ、対象の平均、またはランダムな代表対象のうちの少なくとも1つを表す、段階と、
    前記絶対値の差ベクトルと重みベクトルとのドット積に基づいて結果値を決定する段階であり、前記重みベクトルは、事前訓練された重みベクトル、標準偏差の逆数で事前訓練された重みベクトル、線形判別で事前訓練された重みベクトル、またはサポートベクトルマシンで事前訓練された重みベクトルのうちの少なくとも1つを含む、段階と、
    前記結果値を閾値と比較する段階と、を含み、
    前記入力画像は、画像ファイルまたはビデオフレームのうちの少なくとも一方を含み、
    前記カスケードフィルタモジュールは、前記グラフィクス処理ユニットまたは中央処理ユニットのうちの少なくとも一方を介して実装され、
    前記1または複数の対象認識候補領域上で前記対象認識を実行する段階は、前記グラフィクス処理ユニットまたは前記中央処理ユニットのうちの少なくとも一方を介して前記対象認識を実行する段階を含む方法。
  13. コンピュータ上の対象検出のシステムであって、
    入力画像の領域を決定し、前記入力画像の前記領域に線形分類器を適用して、前記領域を対象候補領域として分類する、または前記領域をリジェクトするビデオモーション推定モジュールを含むグラフィクス処理ユニットと、
    前記グラフィクス処理ユニットに通信可能に結合される1または複数のプロセッサと、
    前記1または複数のプロセッサに通信可能に結合される1または複数のメモリ記憶装置と、
    前記領域をカスケードフィルタステージ対象候補領域として分類する、または前記領域をリジェクトするカスケードフィルタモジュールと、
    前記領域を、カスケードフィルタステージ対象候補領域として分類される第2の領域とマージし、前記マージされた領域上で対象認識を実行する対象認識モジュールと、
    を備えるシステム。
  14. 前記ビデオモーション推定モジュールは、前記線形分類器を前記領域に適用して、
    前記領域を表わすベクトルと基準ベクトルとの間の絶対値の差に基づいて、絶対値の差ベクトルを決定し、
    前記絶対値の差ベクトルと重みベクトルとのドット積に基づいて結果値を決定し、
    前記結果値を閾値と比較することにより、前記領域を対象候補領域として分類する、または前記領域をリジェクトする、請求項13に記載のシステム。
  15. 前記ビデオモーション推定モジュールは、前記線形分類器を前記領域に適用して、
    前記領域を表わすベクトルと基準ベクトルとの間の絶対値の差に基づいて、絶対値の差ベクトルを決定し、前記基準ベクトルは、ゼロ値パッチ、対象の平均、またはランダムな代表対象のうちの少なくとも1つを表し、
    前記絶対値の差ベクトルと重みベクトルとのドット積に基づいて結果値を決定し、前記重みベクトルは、事前訓練された重みベクトル、標準偏差の逆数で事前訓練された重みベクトル、線形判別で事前訓練された重みベクトル、またはサポートベクトルマシンで事前訓練された重みベクトルのうちの少なくとも1つを含み、
    前記結果値を閾値と比較することにより、前記領域を対象候補領域として分類する、または前記領域をリジェクトする、請求項13に記載のシステム。
  16. 前記ビデオモーション推定モジュールは、さらに、
    前記領域が対象候補領域として分類されると、第2線形分類器を前記領域に適用して、前記領域を第2ステージ対象候補領域として分類する、または前記領域をリジェクトし、
    前記領域が第2ステージ対象候補領域として分類されると、第3線形分類器を前記領域に適用して、前記領域を第3ステージ対象候補領域として分類する、または前記領域をリジェクトする、
    請求項13に記載のシステム。
  17. 前記ビデオモーション推定モジュールは、さらに、
    前記領域が対象候補領域として分類されると、第2線形分類器を前記領域に適用して、前記領域を第2ステージ対象候補領域として分類する、または前記領域をリジェクトし、
    前記領域が第2ステージ対象候補領域として分類されると、第3線形分類器を前記領域に適用して、前記領域を第3ステージ対象候補領域として分類する、または前記領域をリジェクトし、
    前記ビデオモーション推定モジュールは、前記線形分類器を前記領域に適用して、
    前記領域を表わすベクトルと基準ベクトルとの間の絶対値の差に基づいて、絶対値の差ベクトルを決定し、
    前記絶対値の差ベクトルと重みベクトルとのドット積に基づいて結果値を決定し、
    前記結果値を閾値と比較することにより、前記領域を対象候補領域として分類する、または前記領域をリジェクトする、請求項13に記載のシステム。
  18. 記カスケードフィルタモジュールは、7ステージカスケードフィルタを有し、前記カスケードフィルタは、ブーストカスケードフィルタ、Viola−Jonesカスケードフィルタ、または特徴型分類を実装するViola−Jonesカスケードフィルタのうちの少なくとも1つを有する、請求項13に記載のシステム。
  19. 記対象認識モジュールは、前記領域内の対象を識別、前記対象は、顔、目、ランドマーク、書き込まれた文字、人間、または自動車のうちの少なくとも1つを有する請求項13に記載のシステム。
  20. 前記ビデオモーション推定モジュールは、さらに、
    前記領域が対象候補領域として分類されると、第2線形分類器を前記領域に適用して、前記領域を第2ステージ対象候補領域として分類する、または前記領域をリジェクトし、
    前記領域が第2ステージ対象候補領域として分類されると、第3線形分類器を前記領域に適用して、前記領域を第3ステージ対象候補領域として分類する、または前記領域をリジェクトする、
    請求項13に記載のシステム。
  21. 前記対象認識モジュールは、前記領域内の対象を識別、前記対象は、顔、目、ランドマーク、書き込まれた文字、人間、または自動車のうちの少なくとも1つを有し、
    前記ビデオモーション推定モジュールは、さらに、
    前記領域が対象候補領域として分類されると、第2線形分類器を前記領域に適用して、前記領域を第2ステージ対象候補領域として分類する、または前記領域をリジェクトし、
    前記領域が第2ステージ対象候補領域として分類されると、第3線形分類器を前記領域に適用して、前記領域を第3ステージ対象候補領域として分類する、または前記領域をリジェクトする、
    請求項13に記載のシステム。
  22. 前記ビデオモーション推定モジュールは、さらに、ビデオの動きベクトルを推定する、請求項13に記載のシステム。
  23. 前記カスケードフィルタモジュールは、前記グラフィクス処理ユニットまたは前記1または複数のプロセッサのうちの少なくとも一方を介して実装される、請求項13に記載のシステム。
  24. 前記カスケードフィルタモジュールは、前記グラフィクス処理ユニットまたは前記1または複数のプロセッサのうちの少なくとも一方を介して実装され、前記対象認識モジュールは、前記グラフィクス処理ユニットまたは前記1または複数のプロセッサのうちの少なくとも一方を介して実装される、
    請求項13に記載のシステム。
  25. 前記グラフィクス処理ユニット、前記1または複数のプロセッサ、および前記1または複数のメモリ記憶装置は、システムオンチップを有する、請求項13に記載のシステム。
  26. 記カスケードフィルタモジュールは、7ステージカスケードフィルタを有し、前記カスケードフィルタは、ブーストカスケードフィルタ、Viola−Jonesカスケードフィルタ、または特徴型分類を実装するViola−Jonesカスケードフィルタのうちの少なくとも1つを有
    記対象認識モジュールは、前記領域内の対象を識別し、前記対象は、顔、目、ランドマーク、書き込まれた文字、人間、または自動車のうちの少なくとも1つを有し
    前記ビデオモーション推定モジュールは、前記線形分類器を前記領域に適用して、
    前記領域を表わすベクトルと基準ベクトルとの間の絶対値の差に基づいて、絶対値の差ベクトルを決定し、前記基準ベクトルは、ゼロ値パッチ、対象の平均、またはランダムな代表対象のうちの少なくとも1つを表し、
    前記絶対値の差ベクトルと重みベクトルとのドット積に基づいて結果値を決定し、前記重みベクトルは、事前訓練された重みベクトル、標準偏差の逆数で事前訓練された重みベクトル、線形判別で事前訓練された重みベクトル、またはサポートベクトルマシンで事前訓練された重みベクトルのうちの少なくとも1つを含み、
    前記結果値を閾値と比較することにより、前記領域を対象候補領域として分類し、または前記領域をリジェクトし、
    前記ビデオモーション推定モジュールは、さらに、
    前記領域が対象候補領域として分類されると、第2線形分類器を前記領域に適用して、前記領域を第2ステージ対象候補領域として分類する、または前記領域をリジェクトし、
    前記領域が第2ステージ対象候補領域として分類されると、第3線形分類器を前記領域に適用して、前記領域を第3ステージ対象候補領域として分類する、または前記領域をリジェクトし、
    前記ビデオモーション推定モジュールは、さらに、ビデオの動きベクトルを推定し、
    前記カスケードフィルタモジュールは、前記グラフィクス処理ユニットまたは前記1または複数のプロセッサのうちの少なくとも一方を介して実装され、
    前記対象認識モジュールは、前記グラフィクス処理ユニットまたは前記1または複数のプロセッサのうちの少なくとも一方を介して実装され、
    前記グラフィクス処理ユニット、前記1または複数のプロセッサ、および前記1または複数のメモリ記憶装置は、システムオンチップを有し、
    前記入力画像は、画像ファイルまたはビデオフレームのうちの少なくとも一方を含む、
    請求項13に記載のシステム。
  27. コンピュータに、請求項1から12のいずれか一項に記載の方法を実行させるプログラム。
  28. 請求項1から12のいずれか一項に記載の方法を実行する手段を備える装置。
JP2015545630A 2012-12-20 2012-12-20 ビデオモーション推定モジュールを用いた加速対象検出フィルタ Expired - Fee Related JP6026007B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2012/087017 WO2014094275A1 (en) 2012-12-20 2012-12-20 Accelerated object detection filter using a video motion estimation module

Publications (2)

Publication Number Publication Date
JP2015536517A JP2015536517A (ja) 2015-12-21
JP6026007B2 true JP6026007B2 (ja) 2016-11-16

Family

ID=50977564

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015545630A Expired - Fee Related JP6026007B2 (ja) 2012-12-20 2012-12-20 ビデオモーション推定モジュールを用いた加速対象検出フィルタ

Country Status (6)

Country Link
US (1) US9141855B2 (ja)
EP (1) EP2936383A4 (ja)
JP (1) JP6026007B2 (ja)
CN (1) CN104781828B (ja)
TW (1) TWI541762B (ja)
WO (1) WO2014094275A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5981023B2 (ja) * 2013-01-06 2016-08-31 インテル コーポレイション タッチ・データの分散前処理及びディスプレイ領域制御のための方法、装置、及びシステム
CN105303163B (zh) * 2015-09-22 2019-03-01 深圳市华尊科技股份有限公司 一种目标检测的方法及检测装置
US10275684B2 (en) * 2015-11-04 2019-04-30 Samsung Electronics Co., Ltd. Authentication method and apparatus, and method and apparatus for training a recognizer
US10152630B2 (en) 2016-08-09 2018-12-11 Qualcomm Incorporated Methods and systems of performing blob filtering in video analytics
US11190335B2 (en) * 2018-01-23 2021-11-30 Intel Corporation Method and apparatus for performing non-unique data pattern detection and alignment in a receiver implemented on a field programmable gate array
JP6977624B2 (ja) * 2018-03-07 2021-12-08 オムロン株式会社 物体検出装置、物体検出方法、およびプログラム
US10796157B2 (en) * 2018-03-13 2020-10-06 Mediatek Inc. Hierarchical object detection and selection
CN108958474A (zh) * 2018-05-29 2018-12-07 西北工业大学 一种基于误差权重的动作识别多传感信息融合方法
US11373063B2 (en) * 2018-12-10 2022-06-28 International Business Machines Corporation System and method for staged ensemble classification

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61145599A (ja) * 1984-12-19 1986-07-03 日本電気株式会社 連続音声認識装置
US6167390A (en) * 1993-12-08 2000-12-26 3M Innovative Properties Company Facet classification neural network
US7508990B2 (en) * 2004-07-30 2009-03-24 Euclid Discoveries, Llc Apparatus and method for processing video data
US7555149B2 (en) * 2005-10-25 2009-06-30 Mitsubishi Electric Research Laboratories, Inc. Method and system for segmenting videos using face detection
US9319708B2 (en) * 2006-06-16 2016-04-19 Via Technologies, Inc. Systems and methods of improved motion estimation using a graphics processing unit
JP4933186B2 (ja) * 2006-07-26 2012-05-16 キヤノン株式会社 画像処理装置、画像処理方法、プログラム及び記憶媒体
US7899253B2 (en) * 2006-09-08 2011-03-01 Mitsubishi Electric Research Laboratories, Inc. Detecting moving objects in video by classifying on riemannian manifolds
US7908233B2 (en) * 2007-06-29 2011-03-15 International Business Machines Corporation Method and apparatus for implementing digital video modeling to generate an expected behavior model
CN101340578A (zh) * 2007-07-03 2009-01-07 株式会社日立制作所 运动矢量估计装置、编码器及摄像机
JP2010204947A (ja) * 2009-03-03 2010-09-16 Toshiba Corp オブジェクト検出装置、オブジェクト検出方法、及び、プログラム
US8559672B2 (en) * 2009-06-01 2013-10-15 Hewlett-Packard Development Company, L.P. Determining detection certainty in a cascade classifier
CN101877058B (zh) * 2010-02-10 2012-07-25 杭州海康威视软件有限公司 人流量统计的方法及系统
CN102375993A (zh) * 2010-08-23 2012-03-14 索尼公司 目标检测方法和设备
US8737747B2 (en) * 2011-02-14 2014-05-27 Xerox Corporation Method for automated tire detection and recognition
CN102819751A (zh) * 2012-08-21 2012-12-12 长沙纳特微视网络科技有限公司 一种基于动作识别的人机互动方法及装置

Also Published As

Publication number Publication date
US9141855B2 (en) 2015-09-22
US20140348434A1 (en) 2014-11-27
TW201432623A (zh) 2014-08-16
CN104781828A (zh) 2015-07-15
EP2936383A1 (en) 2015-10-28
WO2014094275A1 (en) 2014-06-26
JP2015536517A (ja) 2015-12-21
TWI541762B (zh) 2016-07-11
EP2936383A4 (en) 2016-08-24
CN104781828B (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
JP6026007B2 (ja) ビデオモーション推定モジュールを用いた加速対象検出フィルタ
US9342749B2 (en) Hardware convolution pre-filter to accelerate object detection
US11538164B2 (en) Coupled multi-task fully convolutional networks using multi-scale contextual information and hierarchical hyper-features for semantic image segmentation
US9972322B2 (en) Speaker recognition using adaptive thresholding
US9860553B2 (en) Local change detection in video
US10685262B2 (en) Object recognition based on boosting binary convolutional neural network features
US20240112035A1 (en) 3d object recognition using 3d convolutional neural network with depth based multi-scale filters
US10430694B2 (en) Fast and accurate skin detection using online discriminative modeling
TWI617996B (zh) 使用方向性濾波之物件檢測技術
US9292927B2 (en) Adaptive support windows for stereoscopic image correlation
JP2015507219A (ja) 搭乗者の聴覚視覚入力の乗り物ベースの決定
CN108701355B (zh) Gpu优化和在线基于单高斯的皮肤似然估计
WO2020124360A1 (en) Bidirectional pairing architecture for object detection in video
US20140226865A1 (en) Object detection using motion estimation
WO2013147756A1 (en) Content aware selective adjusting of motion estimation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150605

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160913

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161011

R150 Certificate of patent or registration of utility model

Ref document number: 6026007

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees