JP2019075156A

JP2019075156A - 多因子画像特徴登録及び追尾のための方法、回路、装置、システム、及び、関連するコンピュータで実行可能なコード

Info

Publication number: JP2019075156A
Application number: JP2018243231A
Authority: JP
Inventors: ドールギボン，; Givon Dor; ヨラムエリハイ，; Elichai Yoram; ギルデイヴィッドマン，; Davidman Gil
Original assignee: Getalert Ltd
Current assignee: Getalert Ltd
Priority date: 2015-06-26
Filing date: 2018-12-26
Publication date: 2019-05-16
Anticipated expiration: 2036-06-21
Also published as: CN107924461B; AU2019201269A1; AU2016284943A1; CN110263614A; WO2016207786A2; JP6622894B2; US11004210B2; US20180012366A1; HK1249952A1; AU2021202451A1; CA2990758C; US10115203B2; CN107924461A; JP2018520595A; EP3314528A2; US9721350B2; US20160379373A1; US20190130581A1; WO2016207786A3; JP6471387B2

Abstract

【課題】画像やビデオ解析、シーンのキャプチャや登録などにおいて、ビデオ画像内の静的及び動的パラメータを含む多因子の画像の特徴を利用可能とする。【解決手段】ビデオ画像処理システムは、シーンビデオ画像内に表れる、動いている要素を追尾して特徴付けし、静的要素又は被写体を識別して特徴付けし、シーンビデオ画像内の３Ｄ座標を定義し、ビデオ画像のソース（例えば、カメラ）の座標と向きを抽出し、静的要素に関連付けられた特徴情報を、新たに抽出された特徴情報と既に存在する特徴情報の改訂との何れか応じて更新し、シーンビデオ画像内の動的要素の中から一人以上の人を検出し、検出された人に関連付けられたイベントを特徴づけて記録する。また、ビデオ画像処理システムは、ビデオ画像のソースの近くに設けられた、一つ以上の音響発生器と一つ以上の音響検出器を含む音響測距部を更に備える。【選択図】図１Ａ

Description

本発明は一般に、コンピュータ映像、画像、ビデオの解析や、シーンのキャプチャ及び登録に関する。より具体的には、いくつかの実施形態は、多因子画像特徴登録及び追尾のための方法、回路、装置、システム、及び、関連する実行可能なコードに関する。

ビデオ内容分析（または、ビデオ内容分析方法、ＶＣＡ）は、時間的及び空間的イベントを検知及び判定するため、ビデオを自動で解析する機能である。これは、人体の視覚野をコンピュータ化したものと同等であると捉えることができる。

この技術的機能は、エンターテインメント、ヘルスケア、小売業、自動車、物流、ホームオートメーション、セーフティ、セキュリティを含む広い範囲で使用される。このアルゴリズムは、汎用マシーンや、ビデオ処理に特化したハードウェア上で実行可能である。

多くの様々な機能がＶＣＡにおいて実行される。ビデオモーション検出は、固定された背景シーンに対する動きが検出される、より単純な形態の一つである。更に進んだ機能は、ビデオの追尾や自身の動きの推測を含む。

マシーン内でＶＣＡが生成した内部画像に基づいて、識別、動作解析、又は状況を検知する他の形態のような、他の機能を実現可能である。

ＶＣＡは、高品質の入力ビデオに依存しているため、しばしば、映像のノイズ除去、画像安定、アンシャープマスク、及び超解像などの映像強調技術と組み合わせられる。

現在、このコンピュータ映像分野では、ビデオ画像内の静的と動的の両方のパラメータと、更には音響的に取得されたシーン情報を含む多因子画像特徴登録及び追尾を利用する技術のため、画像やビデオ解析、シーンのキャプチャや登録などが必要である。

本発明は、多因子画像特徴登録及び追尾のための方法、回路、機器、システム、及び、関連する実行可能なコードを含み、ここで使用される因子は、ビデオ画像内の静的と動的の両方のパラメータを含む。いくつかの実施形態によれば、評価される因子は、ビデオとオーディオの両方のセンサを含む異なるセンサのセットから得られるものであってもよい。更に他の実施形態によれば、音響的に取得されたシーン情報は、光学的に取得された情報を補助してもよい。

本発明の実施形態によれば、「ビデオ画像」は、ライブ又はリアルタイムのビデオストリーミング、予め録画されたビデオ画像、及び／又は、連続した静止画像のセットに関連してもよい。

本発明のいくつかの実施形態によれば、多因子画像特徴登録及び追尾のためのシステムは、（１）受け取ったビデオ画像のソースが、固定された又は動いているカメラの何れであるかを識別するためのカメラタイプ識別モジュール、（２）ビデオ画像の画像歪みをデジタル補正するためのレンズ歪み補償モジュール、（３）シーン内におけるカメラの位置及び向きを識別するためのカメラ位置モジュール、（４）シーン及び／又はシーンカメラにおける動的要素に方向ベクトルを割り当てるための３次元（以下、「３Ｄ」と記す）軌跡追尾モジュール、（５）シーン内における動的要素の識別と追尾を行うための動的要素解析モジュール、（６）追尾された動的要素の動きに基づき、及び／又は、シーン内の動的要素と静的要素の間の相互作用に基づきシーン内の静的要素を登録するための、及び／又は、シーン内の画像の登録に基づく相対的な奥行きを確立するための静的シーン特徴登録モジュール、（７）検出／測定／抽出されたシーン内の動的要素の動きを特徴的な動きに対応させるための、及び／又は、その人の動きの特性のデータ／特徴／記録に基づき特定の個人を認識するための動作対応付けモジュール、を含む。

いくつかの実施形態によれば、このシステムは、更に（８）シーンを描くために散乱した反射音を利用するための音響シーンマッピングモジュールを含んでもよい。

本発明とみなされる主題は、本明細書の結びの部分において具体的に規定され、明確にクレームされている。しかしながら、本発明は、構成および動作方法の両方に関して、その目的、特徴および利点と共に、添付の図面と以下の詳細な説明を参照して最も理解することができる。
図１Ａは、本発明のいくつかの実施形態における、シーンキャプチャ及び特徴づけシステムの一例の上位図を示している。図１Ｂは、本発明のいくつかの実施形態における、シーンキャプチャ及び特徴づけシステムの一例において実行される主要なステップのフローチャートを示している。図２Ａは、本発明のいくつかの実施形態における、ビデオ画像／ストリームの特徴付け、更にはメタタグ付けを行うビデオ画像又はビデオストリームの処理エンジンの一例の機能ブロック図を示している。図２Ｂ〜２Ｇは、本発明の実施形態における、ビデオ画像／ストリームの特徴付け、更にはメタタグ付けを行うよう構成された処理エンジンによって実行されるビデオ画像又はビデオストリームの一例について、主要なステップを説明する図を示している。図２Ｂ〜２Ｇは、本発明の実施形態における、ビデオ画像／ストリームの特徴付け、更にはメタタグ付けを行うよう構成された処理エンジンによって実行されるビデオ画像又はビデオストリームの一例について、主要なステップを説明する図を示している。図２Ｂ〜２Ｇは、本発明の実施形態における、ビデオ画像／ストリームの特徴付け、更にはメタタグ付けを行うよう構成された処理エンジンによって実行されるビデオ画像又はビデオストリームの一例について、主要なステップを説明する図を示している。図２Ｂ〜２Ｇは、本発明の実施形態における、ビデオ画像／ストリームの特徴付け、更にはメタタグ付けを行うよう構成された処理エンジンによって実行されるビデオ画像又はビデオストリームの一例について、主要なステップを説明する図を示している。図２Ｂ〜２Ｇは、本発明の実施形態における、ビデオ画像／ストリームの特徴付け、更にはメタタグ付けを行うよう構成された処理エンジンによって実行されるビデオ画像又はビデオストリームの一例について、主要なステップを説明する図を示している。図２Ｂ〜２Ｇは、本発明の実施形態における、ビデオ画像／ストリームの特徴付け、更にはメタタグ付けを行うよう構成された処理エンジンによって実行されるビデオ画像又はビデオストリームの一例について、主要なステップを説明する図を示している。図３Ａは、本発明の実施形態における、画像パス（レンズ又は他の光学要素）の歪み補償方法の一例について、主要なステップのフローチャートを示している。図３Ｂは、本発明の実施形態における、歪み補償方法の効果の一例を示しており、この図は、ＲＡＷ画像、異なる各領域について歪曲方向ベクトルを示すラインが表示された画像、歪みを補償する計算された逆歪曲ベクトル、及び、正しく補償された画像を含む。図４は、本発明の実施形態における、静的シーン要素の登録方法の一例について、主要なステップのフローチャートを示しており、このフローチャートは、直線に沿って進み、動的要素の相互作用をチェックし、異なる視点から見た複数の画像から３Ｄマップを繰り返し作成することを含む。図５は、本発明の実施形態における、シーンのビデオ画像内の動的要素の検知と追尾、及び、動的要素が属する物体タイプと個体の識別の一例について、主要なステップのフローチャートを示している。図６は、本発明の実施形態における動きの特徴付け方法の一例について、主要なステップのフローチャートを示しており、このフローチャートは、物体固有の動き−動作テーブルを選ぶ／選択することを含む。図７Ａは、本発明の実施形態における反射音処理の一例について、主要なステップのフローチャートを示している。図７Ｂは、本発明の実施形態における、反射音処理の一例の一部として実行される主要なステップを説明する図を示しており、この図は、音が出力されるシーン、音が反射しているシーン、検出された反射音、推定された距離がタグ付けされたシーンを含む。図８は、本発明の実施形態におけるイベント距離の検知方法の一例について、主要なステップのフローチャートを示しており、このフローチャートは、音の発生の検出、対応するビデオの確認、再生、見たイベントと聞いたイベントの間の差分のカウントを含む。

図面を簡素かつ明瞭にするために、図中に示される部材は必ずしも縮尺通りではないことを理解されたい。例えば、図面を明瞭にするために、いくつかの部材の寸法は他の部材よりも誇張して描かれていてもよい。さらに、適切と判断される場合には、対応の又は類似の要素を示す図の間では、参照番号は繰り返し使用されてもよい。

以下の詳細な説明では、いくつかの実施形態に対する理解を深めるために、詳細を具体的に多数示している。しかしながら、いくつのかの実施形態はこれらの具体的な詳細が無くても当該技術分野における当業者によって実施されうることを理解されたい。一方、既知の方法、手順、構成要素、及び／又は、回路については、説明を不明瞭にしないために、その詳細は記載していない。

特に述べられていない限り、以下の説明から明らかなように、本明細書を通じて、「処理する（processing）」、「コンピュータで計算する（computing）」、「計算する（calculating）」、「決定する（determining）」などの用語を用いた説明は、コンピュータシステムのレジスタやメモリ内の物理量、たとえば電子的な量として表されたデータを操作し、かつ／あるいは、前記コンピュータシステムのメモリ、レジスタ、あるいは他の情報記憶装置、送信機器または表示機器内における物理量として同様に表される他のデータに変換するコンピュータまたはコンピュータシステム、または、同様の電子コンピュータ装置の動作やプロセスを参照している。

加えて、本明細書を通じて用いられている用語「記録する（storing）」、「ホスティングする（hosting）」、「キャッシュする（caching）」、「保存する（saving）」などの用語を用いた説明は、コンピュータまたはコンピュータシステム、または、同様の電子コンピュータ装置におけるデジタル情報の「書き込む（writing）」と「保持する（keeping）」という動作やプロセスを参照しており、交換可能に使用される。本明細書を通じて使用される「複数の（plurality）」という用語は、２つ以上の部品、装置、要素、パラメータなどを表すために使用される。

本発明のいくつの実施形態は、例えば、ハードウェアの実施形態全体、ソフトウェアの実施形態全体、または、ハードウェアとソフトウェアの両方を含む実施形態という形を取ってもよい。いくつかの実施形態は、ソフトウェアに組み込まれ、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むが、これらに限定されない。

更に、本発明のいくつかの実施形態は、コンピュータで読み取り可能なコンピュータプログラム、或いは、コンピュータや他の指示実行システムによって使用される、又は関連するプログラムコードを提供するコンピュータで読み取り可能なメディアの形を取ってもよい。例えば、コンピュータで使用可能または読み取り可能なメディアは、指示実行システム、装置、又は機器によって使用される、又は、関連するプログラムを、含み、記録し、通信し、伝え、或いは、運ぶことが可能なあらゆる装置を含んでもよい。

いくつかの実施形態において、メディアは、電気的、磁気的、光学的、電磁的、赤外の、又は、半導体のシステム（または装置、機器）、或いは、通信メディアであってもよい。コンピュータで読み取り可能なメディアのいくつかの例は、半導体又は固体メモリ、磁気テープ、着脱可能なコンピュータディスケット、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、剛体磁気ディスク、及び、光学ディスクを含んでもよい。光学ディスクのいくつかの例は、読み取り専用のコンパクトディスク（ＣＤ−ＲＯＭ）、読み書き可能なコンパクトディスク（ＣＤ−Ｒ／Ｗ）、及び、ＤＶＤを含む。

いくつかの実施形態において、プログラムコードの記録及び／又は実行に適したデータ処理システムは、メモリ要素と直接的または間接的に接続された少なくとも一つのプロセッサを含んでもよい。このメモリ要素は、実行中にバルクストレージからコードを読み出す回数を減らすために、例えば、プログラムコードの実行中に使用されるローカルメモリ、バルクストレージ、及び、少なくともいくつかの一時的なストレージを提供するプログラムのキャッシュメモリを含んでもよい。

いくつかの実施形態において、入力／出力、又は、Ｉ／Ｏデバイス（キーボード、ディスプレイ、ポインティングデバイスなどを含むが、これらに限定されない）は、システムに対し、直接的又はＩＯコントローラを介して接続されていてもよい。いくつかの実施形態において、データ処理システムが他のデータ処理システムやリモートプリンタ、ストレージと、例えば、プライベート又は公共ネットワークを介して接続できるように、ネットワークアダプタがシステムに接続されていてもよい。いくつかの実施形態において、モデム、ケーブルモデム及びイーサネットカードが、ネットワークアダプタの種類の例である。他の適切なコンポーネントが使用されてもよい。

ここで１つ又は複数の実施形態を参照して記載されている機能、操作、コンポーネント及び／又は特徴は、１つ又は複数の他の実施形態を参照して記載されている１つ又は複数の他の機能、操作、コンポーネント及び／又は特徴と組み合わせられ、又は組み合わせて使用されてもよく、その逆も可能である。

本発明は、多因子画像特徴登録及び追尾のための方法、回路、機器、システム、及び、関連する実行可能なプログラムを含み、ここで使用される因子は、ビデオ画像内の静的と動的の両方のパラメータを含む。いくつかの実施形態によれば、評価される因子は、ビデオとオーディオの両方のセンサを含む異なるセンサのセットから得られるものであってもよい。更に他の実施形態によれば、音響的に取得されたシーン情報は、光学的に取得された情報を補助してもよい。

本発明のいくつかの実施形態によれば、多因子画像特徴登録及び追尾のためのシステムは、（１）受け取ったビデオ画像のソースが、固定された又は動いているカメラの何れであるかを識別するカメラタイプ識別モジュールと；（２）ビデオ画像の画像歪みをデジタル的に補償するレンズ歪み補償モジュールと；（３）シーン内におけるカメラの位置及び向きを識別するためのカメラ位置モジュールと；（４）シーン内の動的要素、及び／又は、シーンカメラに対し、方向ベクトルを割り当てる３次元（以下、「３Ｄ」と記す）軌跡追尾モジュールと；（５）シーン内における動的要素の識別及び追尾を行う動的要素解析モジュールと；（６）追尾された動的要素の動きに基づいて及び／又はシーン内の動的要素と静的要素の間の相互作用に基づいてシーン内の静的要素を登録する、及び／又は、シーン内の画像の登録に基づいて相対的な奥行きを確立する静的シーン特徴登録モジュールと；（７）検出／測定／抽出されたシーン内の動的要素の動きを特徴的な動きに対応づける、及び／又は、その人の動きの特徴のデータ／特徴／記録に基づいて特定の個人を認識する動作対応付けモジュールと、を含んでもよい。いくつかの実施形態によれば、このシステムは、（８）シーンのマッピングのために散乱した反射音を利用する音響シーンマッピングモジュールを更に含んでもよい。

本発明のいくつかの実施形態によれば、カメラタイプ識別モジュールは、（１）ビデオ画像の２つ以上のフレームに沿って動画及び静止画のエッジを抽出し；（２）いくつかの連続するフレームにおいて繰り返し識別された（生き残った）シーンにおける静止したエッジのグループを登録し、静止したエッジの相対的な位置は、いくつかの時間／フレームの期間において変化せず；及び／又は（３）抽出されたエッジのグループが実質的に連続するフレームに亘って配置されている場合にカメラが静止していると判定する、又は、抽出されたエッジが、実質的に連続するフレームに亘った配置と整合していないことを示している場合にカメラが動いていると判定してもよい。

本発明のいくつかの実施形態によれば、レンズ歪み補償モジュールは、レンズ歪みパラメータが既知である場合、（１）カメラのレンズ及び／又は光路上の他の光学的特徴（例えば、鏡）の、既知の又は見積もられた歪み特性／モデル／機能を参照し、且つ／又は、（２）その歪みを補償するために、画像ピクセル又はピクセルグループ毎に逆歪みの関数／変換をデジタル的に導入してもよい。

いくつかの実施形態によれば、レンズ歪み補償モジュールは、レンズ歪みパラメータが不明である場合に、画像に沿った既知の背景エッジを、歪みを計算するため利用してもよい。静止カメラの場合、レンズ歪み補償モジュールは、（１）フレームを横切る動的要素の変形を利用し；且つ／又は、（２）推定歪み特性を生成するために、シーン背景の形状を識別し、それらを画像内における位置（中心部／周辺部）に基づいて推定された形状と比較してもよい。動的カメラの場合、レンズ歪み補償モジュールは、推定歪み特性を生成するために、カメラの３次元的な移動によって変形するシーン内のエッジを使用してもよい。

本発明のいくつかの実施形態によれば、カメラ位置モジュールは、既知の背景の形状の外観及び／又は向きを、推定された「シーンのフロア」及び／又は他の背景面の３Ｄ映像に対応付けることによって、カメラの位置／向きを識別してもよい。いくつかの実施形態によれば、動的な被写体及び／又は要素のために、カメラ位置モジュールは、移動（例えば、所定の方向への動き）の関数として現れる見かけ（例えば、大きさ及び位置）上の変化を、ビデオ画像の複数のフレーム間で比較することにより、動的な被写体／要素の軌跡を計算して追尾してもよい。

静的なカメラのいくつかの実施形態によれば、想定されるシーンのフロアが、真っ直ぐな背景シーンのエッジに基づいて登録され、動的な被写体／要素の計算された移動軌跡に沿って配置されてもよい。静的なカメラのいくつかの実施形態によれば、シーン内の画像の登録に基づいて、シーンの相対的な奥行き、又は相対的なカメラの視野（ＦＯＶ）の３Ｄモデルを確立することは：（１）背景シーンの真っ直ぐなエッジに基づいて、シーンのフロア、及び／又は平面を登録すること；（２）既知の形状及び／又は向きを有する物体の外観を、既知の形状の２次元（２Ｄ）映像に対応付けること；（３）ＦＯＶフレーム内の相対的なサイズを、シーン内の既知の形状の被写体、動的な要素／被写体／物体と、例えば、それらの移動（例えば、フロア上の所定の向きにおける動き／移動）の関数として比較すること；及び／又は、（４）少なくともいくつかの続くフレームに対して上記１〜３を繰り返すこと、及び／又は、例えば、先行するフレームに対する結果と比較し、それに応じて調整（例えば、平均化）すること、を含んでもよい。

動的／動いているカメラのいくつかの実施形態によれば、カメラ位置モジュールは、フロアの３次元的な方向を識別するために、Ｘ、Ｙ及びＺにおいて見つかったシーン背景内の真っ直ぐなエッジの２Ｄ映像を計算してもよい。動的／動いているカメラのいくつかの実施形態によれば、シーン内の画像の登録に基づくシーンの相対的な奥行き、又は相対的なカメラ視野（ＦＯＶ）の３Ｄシーンモデルを確立することは：（１）シーン背景の真っ直ぐなエッジに基づき、シーンのフロア及び／又は他の平面を登録すること；（２）既知の形状の外観及び／又は向きを有する物体の外観を、既知の形状の２次元（２Ｄ）映像へ対応付けること；（３）ＦＯＶフレーム内の相対的なサイズを、シーン内の既知の形状の被写体、動的な要素／被写体／物体と、例えば、それらの移動（例えば、フロア上の所定の向きにおける動き／移動）の関数として比較すること；及び／又は、（４）少なくともいくつかの続くフレームに対して上記１〜３を繰り返して、先行するフレームの位置及び動的カメラの現在の既知の位置及び／向きに基づいて、静的／背景シーンの要素／特徴或いは領域の位置を推定／判定するために、複数の続く／連続するビデオ画像のフレームの間で三角測量を実行すること、及び／又は、おそらくは先行するフレームに対する結果と比較し、それに応じて調整（例えば、平均化）すること、を含んでもよい。

いくつかの実施形態によれば、シーン背景の３Ｄエッジの変形は、所定数の連続するフレームを含む各フレームセットの中のシングルフレームに対して計算されてもよい。より少数のフレーム（例えば、１０フレームよりも５フレーム）を含むセット、又は、各シングルフレームに対するシーン背景の３Ｄエッジの変形の計算は、変形結果を向上するために利用されてもよい。

本発明のいくつかの実施形態によれば、３Ｄ軌跡追尾モジュールは、ビデオ画像内の動的要素の３次元的な軌跡を利用し、それらを方向ベクトルに割り当ててもよい。いくつかの実施形態によれば、割り当てられた方向ベクトルは、動的要素の識別の一部として後で行う動的要素の解析を補助してもよい。３Ｄシーンにおける所定の動的要素の配置は、各フレームにおけるその動的要素の３次元的な位置及び移動方向を示すものであってもよい。

いくつかの実施形態によれば、動的要素の移動／前進の方向に基づき、動的要素の一部及び／又はそれが「所有している」物（例えば、人や犬）が、フレーム内に表れる（例えば、カメラに向かう）ことが予測されてもよく、これにより、動的要素及び／又は「所有している」物の追尾処理と識別処理が向上されてもよい（例えば、人体の顔が予測されると、これに応じて、顔方向認識アルゴリズム／システムが開始／実行されてもよく、或いは、通常の処理及び／又は他の人を解析／認証するアルゴリズム／機能の処理が変更されてもよい。）。

本発明のいくつかの実施形態によれば、動的要素解析モジュールは：（１）シーン内の識別された背景エッジに関連付けられていない動的エッジを検出し；（２）動的エッジベクトル（例えば、一緒に移動する複数のエッジベクトル）をグループ化し；（３）動的エッジベクトルの（リンクされた）グループ間で、エッジベクトルの相対的な動きを測定し；（４）動的エッジベクトルの（リンクされた）グループの動的エッジベクトルを、ユニット及び／又は連なりとして、動的要素参照テーブルと比較し；（５）動的エッジベクトルの（リンクされた）グループの動的要素を識別し（例えば、人の腕、人の足、犬の足）；（６）物体参照テーブル（例えば、人、犬、車、馬）を参照して、動的要素が属する物体を識別し、且つ／又は、もし物体が、人または他の認識可能な物体タイプと識別された場合に、個体参照テーブルを参照し、その動的要素が属する特定の個体／見本を認識し；（７）ビデオ画像フレーム内における物体／個体の向きを識別し；且つ／又は、（８）識別された物体の識別された向きに基づいて、追尾最適化パラメータを生成してもよい。

本発明のいくつかの実施形態によれば、静的シーン特徴登録モジュールは、静的シーン要素のパラメータの特徴付けの一部として、（１）シーン内の動的要素の動きを追尾し；（２）シーン内の追尾された動的要素のそれぞれの動きに関連付けられた、幾何学的な形状／形態／経路が再現していることを識別し；（３）シーン内の静的要素の一般的な形状及び位置を推測してもよい。いくつかの実施形態によれば、静的要素の推測された形状と位置は、静的シーンの３Ｄモデルに登録されてもよく、動的シーンマップの一部として登録されてもよい。

いくつかの実施形態によれば、静的シーン特徴登録モジュールは、静的シーンの要素の境界識別の一部として、（１）シーン内の動的要素の動きを追尾し；（２）シーン内で追尾されている動的要素と、（例えば、既知の形／位置の、或いは、静的シーン要素のパラメータの特徴付けの一部として推測された）静的要素との相互作用や交差が再現していることを識別し；（３）シーン内の静的要素の境界／境目を推測してもよい。いくつかの実施形態によれば、静的要素の推測された境界／境目は、静的シーンの３Ｄモデルに登録されてもよく、及び／又は、動的シーンのマップの一部として登録されてもよい。

いくつかの実施形態によれば、静的シーン特徴登録モジュールは、静的シーン要素の大きさの推測の一部として、（１）シーン内の動的要素の動きを追尾し；（２）（例えば、既知の形／位置／境界の、或いは、静的シーンのパラメータの特徴付け及び／又は静的シーン要素の境界識別の一部として推測された）静的要素との関連で、追尾された動的要素の相対的な位置を識別し；（３）追尾された動的要素の大きさ／サイズとの関連で、シーン内の静的要素の大きさ／サイズを推測する。いくつかの実施形態によれば、（例えば、後述するように、動的要素が属する動的物体の個体識別に基づいて得られた）シーン内の一つ以上の動的要素のうち、一つ以上の既知の／計算された／見積もられた実際の大きさは、少なくとも一部については推測された大きさ／サイズの比に基づき、シーン内の静的要素の大きさを計算／推測するために用いられてもよい。また、その逆も可能である（既知の静的要素の大きさが、動的要素のサイズを見積もるために使用される）。いくつかの実施形態によれば、静的要素の推測された大きさ／サイズは、静的シーンの３Ｄモデルへ登録、及び／又は、動的シーンのマップの一部として登録されてもよい。

いくつかの実施形態によれば、シーン内で追尾された動的な要素の、静的な要素との相互作用及び／又は交差は、シーン内の動的要素と静的な要素と考えられるものとの間における、視認可能／識別可能な接触又は接触したように見えるもの、複数回の視認可能な接触又は接触したように見えるもの、及び／又は、遅延した又は長時間の接触又は接触したように見えるものなど、様々なタイプを含んでもよい。

例えば、動的要素のエッジ及び／又は一部のエッジのうち、同じ直線上の二箇所以上において停止／静止している箇所は、静的要素のエッジ又は境界を示している。また、動的要素のエッジ及び／又は一部のエッジのうち、同じ平面上における三箇所以上において停止／静止している箇所は、静的要素の境界面を示している。また、動的要素のエッジ及び／又は一部のエッジのうち、同じ平面上における複数の停止／静止している箇所は、静的要素（例えば、シーン内の被写体）の平面を、動的要素の「接触」箇所によって「特徴付け」してもよく、これによりその形状（例えば、接触箇所によってカバーされるエリア）及びエッジ（例えば、接触箇所がカバーするエリアと、関連付けられた平面の静止箇所との間の境界）を定義する。

いくつかの実施形態によれば、静的シーン特徴登録モジュールは、「既知の形状の被写体」のテーブル又はデータベースを参照し、形状データを抽出してもよい。この形状データは、シーン内で部分的に識別された（例えば、参照可能な）静的要素のパラメータの特徴付け、境界の識別、及び／又は、大きさの推測に関連付けられていてもよい。

本発明のいくつかの実施形態によれば、動作対応付けモジュールは、識別された物体タイプの認識の一部として、（１）追尾された要素の物体のタイプ／個別の動きと、その生体的な特徴（例えば、サイズ、大きさ）との統合に基づき、少なくともいくつかの動的要素に対するプロファイルを確立してもよく；且つ／又は、（２）追尾されたエッジベクトルの動きのプロファイル、及びその生体的な特徴を、システムデータベースに予め定義された個体参照テーブル（他のプロファイル）と比較してもよく、或いは、新たな識別参照テーブル（新しいプロファイル）を割り当ててもよい。

いくつかの実施形態によれば、動作対応付けモジュールは、特定の動作の認識の一部として、識別された物体タイプ（例えば、犬、人）に基づき、（１）測定された動きを、特徴づけられた動き（例えば、人の歩き、人の落下、犬のジャンプ）に対応付けるためのテーブルを選択し；（２）追尾された動的要素の測定された動きを、選択されたテーブル内の項目に対応付けてもよい。この選択されたテーブルは、測定された動きを、識別された物体の特徴付けられた動きに対応付けている。

本発明のいくつかの実施形態によれば、音響シーンマッピングモジュールは、静的シーンのマッピング／特徴付け、及びシーン内の静的要素へ３次元的な奥行きの値を割り当ての一部として、シーンのそれぞれの３Ｄマップに実際の奥行きを割り当てながら、取得したシーン内の散乱要素の推定距離及び大きさを割り当てるために、カメラのスピーカによって生成され、マイクによって検知された反射音を利用してもよい。いくつかの実施形態によれば、反射音に基づくシーン要素のカメラからの距離は、ビデオ画像のシーン画像内の視認可能な要素に割り当てられてもよい。

いくつかの実施形態によれば、音響シーンマッピング処理は、特定のカメラについて事前にキャリブレーションを行う段階で、スピーカとマイクとの間で音を通しておくことを要求してもよい。いくつかの実施形態によれば、ステレオスピーカが、シーン内の要素の位置を十分に割り出すことが可能な三角測量に使用されてもよい。

いくつかの実施形態によれば、シーンを通り過ぎる動的被写体／要素／物体が、シーンの再マッピングのトリガーとなってもよい。ここで、再マップされたシーンから静的シーンの奥行きマップが差し引かれることで、動的被写体／要素／物体の奥行き値が抽出され、画像平面上の動的被写体に割り当てられる。

いくつかの実施形態によれば、音響シーンマッピングモジュールは、受動イベントの検知処理の一部として、（１）イベントを示すシーンの音の発生をモニターし；（２）イベントの発生源を視覚的に示すために、ビデオ画像の対応する箇所を解析し；且つ／又は、（３）視覚的なイベントの表示とマイクによるイベントの検知との間の時間差を計算してもよい。この時間差は、シーン内のイベント位置からカメラのマイクまでの、音が伝搬する距離を示す。

本発明のいくつかの実施形態によれば、ビデオ画像（例えば、色、テクスチャ、既知の形状、ロゴ、既知のシーン）の連続するフレームに沿って抽出されたデータセットを有する既知の３Ｄシーンの特徴は、シーンの状況の推測や、システムの状態やビデオ画像からの特徴の抽出機能の最適化に使用されてもよい。例えば、静的及び動的なデータセットの相関に基づいて、シーンの状況が推測されてもよい。このような相関の例には、水の動き＋砂＝砂浜；芝生＋木々＝公園；自由の女神＝ニューヨーク；などがあるが、これらに限定されない。

図１Ａには、本発明のいくつかの実施形態における、シーンキャプチャの例及び特徴付けシステムの上位図が示されている。シーンからのビデオカメラの映像は、レンズ歪み特性（例えば、歪みマトリクス）の参照、及び／又は、複数のビデオ画像／フレームを通して歪みが生じた形状が既知の被写体の識別に基づき、レンズや光学要素の歪みが補償される。ビデオ画像は、動的要素の識別及び追尾のために解析される。識別された動的要素は、既知の動的な要素、物体、個体、動きを参照することで特徴付けられる。動的要素の識別は、静的なシーンの特徴、例えば既知の被写体の形状、によって補助され、シーン内の動的要素と登録されている静的要素との相互作用に基づく動的要素の追尾をアシストする。補償されたデータ、解析データ、補助された「静的な」データは、動的シーンのマップを形成するために使用される。

図１Ｂには、本発明のいくつかの実施形態における、シーンキャプチャの例及び特徴付けシステムによって実行される主要なステップのフローチャートが示されている。

図２Ａには、本発明のいくつかの実施形態における、ビデオ画像／ストリームの特徴付け、更にはメタタグ付けを行うビデオ画像又はビデオストリームの処理エンジンの一例について、機能ブロック図が示されている。ライブ又は事前に記録されたビデオ画像／ストリームは、処理エンジンによって受信される。動的エッジ検出器は、ビデオ画像内の動的エッジの識別と追尾を行う。エッジベクトルグループ化ロジックは、識別されたエッジベクトルをグループ化する。ベクトルグループの向き及び軌跡の識別子は、シーン内のエッジベクトルグループの軌跡と向きを識別する。内部ベクトルグループの相対移動アナライザは、エッジベクトルグループの動的データを抽出する。動的要素の比較及び識別ロジックは、シーン内で識別された動的要素の種類を見つけるため、動的要素参照テーブルを参照する。動的要素物体識別ロジックは、シーン内で識別された動的物体の種類を見つけるため、動的物体参照テーブルを参照する。動的要素の固有個体識別ロジックは、シーン内で識別された類似する複数の物体の各個体の詳細を見つけるため、固有個体参照テーブルを参照する。識別された物体の外観特徴割り当てロジックは、シーン内で生じた動きの種類を見つけるために、動きと動作の対応テーブルを参照する。そして、識別された物体と動作の特徴付けロジックは、動きと動作の対応テーブルを参照し、シーン内で発生した動作のタイプを識別する。

図２Ｂ〜２Ｇには、本発明の実施形態における、ビデオ画像／ストリームの特徴付けを行い、更にメタタグ付けを行うことも可能な処理エンジンによって実行されるビデオ画像又はビデオストリームの一例の、主要なステップを説明する図が示されている。例示されたステップは、静的／動的カメラタイプ決定処理（２Ｂ）；レンズ歪み補償処理（２Ｃ）；シーン内におけるカメラ位置決め処理（２Ｄ）；動的物体の3次元的な方向及び軌跡ベクトル推定処理（２Ｅ）；動的要素の識別及び追尾処理（２Ｆ）；及び、動的要素の認識及び動作解析処理（２Ｇ）を含む。

図３Ａには、本発明の実施形態における画像パス（レンズ又は他の光学要素）の歪み補償方法の一例について、主要なステップのフローチャートが示されている。

図３Ｂには、本発明の実施形態における歪み補償方法の効果の一例が示されており、この概略図は、ＲＡＷ画像；異なる各領域について歪曲方向ベクトルを示すラインが表示された画像；歪みを補償する計算された逆歪曲ベクトルのセット；クリーン且つ補償された画像を含む。

図４には、本発明の実施形態における静的シーン要素の登録方法の一例について、主要なステップのフローチャートが示されており、このフローチャートは、直線に沿って進み、動的要素の交差をチェックし、異なる視点から見た複数の画像から３Ｄマップを繰り返し作成することを含む。

図５には、本発明の実施形態における、シーンのビデオ画像内の動的要素の検知と追尾、及び、動的要素が属する物体タイプと個体の識別の一例について、主要なステップのフローチャートが示されている。

図６には、本発明の実施形態における動きの特徴付け方法の一例について、主要なステップのフローチャートが示されており、このフローチャートは、物体固有の動き−動作テーブルを選択することを含む。

図７Ａには、本発明の実施形態における音の反射方法の一例について、主要なステップのフローチャートが示されている。

図７Ｂには、本発明の実施形態における、音の反射方法の一例の一部として実行される主要なステップを説明する図が示されており、この図は、音が出力されるシーン；音が反射しているシーン；検出された反射音；及び、推定された距離によって項目がタグ付けされたシーンを含む。

図８には、本発明の実施形態におけるイベント距離の検知方法の一例について、主要なステップのフローチャートが示されおり、このフローチャートは、音の発生の検出、対応するビデオの確認、再生、見たイベントと聞いたイベントの間の差分のカウントを含む。

本発明のいくつかの実施形態によれば、ビデオ画像の画像フレーム内の一つ以上の特徴の登録方法は、連続する一連の画像フレームに亘る一つ以上の動的エッジを検出するため、連続する一連の画像フレームの実質的にそれぞれについてエッジ検知アルゴリズムを実行し；動的パラメータのセットを生成するため、連続する一連の画像フレームに亘って検出されたエッジの動きを追尾してパラメータ化し；動的パラメータを被写体タイプに関連付けて、被写体タイプを有する一つ以上の動的エッジ近傍の画素グループを指定する、ことを含んでもよい。

本発明のいくつかの実施形態によれば、この方法は：被写体タイプに固有の動作データストアにアクセスし、動的パラメータをデータストアの記録に関連付け、この記録が固有の動作タイプを示し；個体を認識する特定の個体データストアにアクセスして動的パラメータをデータストアの記録に関連付け、この記録が特定の個体を示し；ビデオストレームの画像フレーム内の背景要素を識別し；ビデオ画像を取得する撮像装置の動きに起因する光学的な歪みをデジタル的に補正し、既知のレンズ歪みを有する撮像レンズに起因する光学的な歪みをデジタル的に補正し；未知のレンズ歪みを有する撮像レンズに起因する光学的な歪みをデジタル的に補正し；連続する一連の画像フレームに亘る一つ以上の静的エッジを検出するために、連続する一連の画像フレームの実質的にそれぞれについてエッジ検出アルゴリズムを実行し、ビデオ画像のソースが静的カメラである場合に、静的要素のうち特定の静的要素を有する一つ以上の静的エッジ近傍の一つ以上の静的画素グループを指定し；及び／又は、連続する一連の画像フレームに亘る一つ以上の静的エッジを検出するために、連続する一連の画像フレームの実質的にそれぞれについてエッジ検出アルゴリズムを実行し、ビデオ画像のソースが動的カメラである場合に、静的要素のうち特定の静的要素を有する一つ以上の静的エッジ近傍の一つ以上の登録された静的画素グループを指定する、ことを更に含んでもよい。

本発明のいくつかの実施形態によれば、ライブビデオ画像の画像フレーム内の一つ以上の特徴の距離の推定方法は：画像フレーム内の２つ以上の被写体を識別し；識別された被写体の並びの相対距離を推定し；ビデオ画像のソース又はその近傍から音を発し；反射音のパターンを検出して音の伝搬時間に基づき各パターンの距離を見積り；且つ、距離が見積もられた少なくとも一つの反射音のパターンを画像フレーム内の識別された被写体に関連付ける、ことを含んでもよい。

本発明のいくつかの実施形態によれば、オーディオ−ビデオ画像の画像フレーム内の一つ以上の特徴の距離の推定方法は：オーディオ−ビデオ画像のオーディオチャンネルで音の発生源を検出し、音の発生の立ち上がりエッジが、オーディオ−ビデオ画像の第１タイムスタンプであり；オーディオ−ビデオ画像内において、第１タイムスタンプの前に取得された、音の発生源の被写体−動作を含むビデオフレームを識別し、「被写体−動作」が、音と映像の特徴を有する一つ以上の固有シーンの被写体に関連付けられた動作であり；被写体−動作を有するフレームと第１タイムスタンプの間の時間的距離を計算し；計算された時間的距離を推定された音速に乗算することにより、オーディオ−ビデオ画像のソースから被写体−動作までの物理的な距離を見積もる、ことを含んでもよい。

本発明のいくつかの実施形態によれば、ビデオストリームの画像フレーム内の一つ以上の特徴を登録するシステムは：連続する一連の画像フレームに亘る一つ以上の動的エッジを検出するため、連続する一連の画像フレームの実質的にそれぞれについてエッジ検知アルゴリズムを実行する動的エッジ検出器；動的パラメータのセットを生成するため、連続する一連の画像フレームに亘る検出されたエッジの動きを追尾してパラメータ化する動的エッジベクトルの動きアナライザ；動的パラメータを被写体タイプに関連付ける動的物体識別ロジック；及び、被写体タイプを有する一つ以上の動的エッジ近傍の画素グループを指定する動的物体の特徴割り当てロジック、を備えてもよい。

本発明のいくつかの実施形態によれば、システムは：被写体タイプに固有の動作データストアにアクセスし、動的パラメータをデータストアの記録に関連付ける動作特徴づけロジックであって、この記録が固有の動作タイプを示すもの；個体を認識する特定の個体データストアにアクセスし、動作パラメータをデータストアの記録に関連付ける個体認証の特定個体ロジックであって、この記録が特定の個体を示すもの；ビデオストリームの画像フレーム内の背景要素を識別する静的特徴登録モジュール；撮像装置の動きに起因する光学的な歪みをデジタル的に補正するカメラタイプ及びレンズ歪み補償モジュール；既知のレンズ歪みを有する撮像レンズに起因する光学的な歪みをデジタル的に補正するカメラタイプ及びレンズ歪み補償モジュール；未知のレンズ歪みを有する撮像レンズに起因する光学的な歪みをデジタル的に補正するカメラタイプ及びレンズ歪み補償モジュール；連続する一連の画像フレームに亘る一つ以上の静的エッジを検出するために、連続する一連の画像フレームの実質的にそれぞれについてエッジ検出アルゴリズムを実行する静的エッジ検出器、及び、ビデオ画像のソースが静的なカメラである場合に、静的要素のうち特定の静的要素を有する一つ以上の静的エッジ近傍の一つ以上の静的画素グループを指定する静的要素特徴割り当てロジック；及び／又は、連続する一連の画像フレームに亘る一つ以上の静的エッジを検出するために、連続する一連の画像フレームの実質的にそれぞれについてエッジ検出アルゴリズムを実行する静的エッジ検出器、及び、ビデオ画像のソースが動的なカメラである場合に、静的要素のうち特定の静的要素を有する一つ以上の静的エッジ近傍の一つ以上の登録された静的画素グループを指定する静的要素特徴割り当てロジック、を含んでもよい。

本発明のいくつかの実施形態によれば、ビデオ画像処理システムは、１つ以上の２次元的（２Ｄ）ビデオ画像を受け取るインタフェース回路と、処理回路とを備えてもよく、処理回路は：シーンのビデオ画像内に表れる、動いている要素を追尾して特徴付け；シーンのビデオ画像内に表れる、静的要素又は被写体を識別して特徴付け；シーンのビデオ画像の境界内で、シーンの３次元的な（３Ｄ）座標を定義し、ここで３次元的な（３Ｄ）座標の定義が、シーンのＸ、Ｙ又はＺ軸を示す一つ以上の実質的に線状のエッジの識別と、識別され特徴づけられた静的要素又は被写体の位置を、識別された線状のエッジに関連付けてマッピングすることを含み；シーンビデオ画像の座標フレーム内において、ビデオ画像のソースの座標と向きを抽出し；識別された静的要素に関連付いた特徴情報を有する静的要素の一覧を更新し、この更新が、新たに抽出された特徴情報と既に存在する特徴情報の改訂との何れか応じて実行され；シーンビデオ画像内の追尾及び識別された動的要素の中から一人以上の人を検出し、且つ／又は、検出された人に関連付けられたイベントを特徴づけて記録する、命令を実行する。

いくつかの実施形態によれば、静的要素の特徴情報は：（ａ）推定された要素の大きさ；（ｂ）要素のカテゴリ；（ｃ）静的要素上の一つ以上のポイントの推定された座標；（ｄ）シーン内の他の要素との関係；（ｅ）シーンを表すパラメータ、のうち一つ以上を含んでもよい。いくつかの実施形態によれば、所定の静的要素の特徴は、少なくとも一部が、与えられた静的要素と追尾された動的要素の間の検知された相互作用から抽出されてもよい。いくつかの実施形態によれば、シーンの境界の座標は、少なくともの一部が、表面と動いている要素との間の検知された相互作用から抽出されてもよい。いくつかの実施形態によれば、検出された動的要素を人と特徴づけることは：（ａ）人のカテゴリ；（ｂ）人の認識された身元；（ｃ）所属する又は会員である人のグループ；（ｄ）シーン内で識別された他人との人間関係、うち一つ以上を含んでもよい。

いくつかの実施形態によれば、処理回路は更に：シーンのビデオ画像内の追尾及び特徴づけられた動的要素の中から、一つ以上の人以外の物体を検出し、ここで、人以外の物体が、動物、機械的に動く機器、環境から影響を受ける静的被写体又は植物、影、及び、表示又は投射された画像を構成するグループから選択され；及び、検出された人以外の物体に関連付けられたイベントを特徴づけて記録するよう構成されていてもよい。

いくつかの実施形態によれば、システムは、ビデオ画像のソースの近くに設けられた、一つ以上の音響発生器と一つ以上の音響検出器を含む音響測距部を更に備えてもよい。いくつかの実施形態によれば、音響測距部は、少なくとも、１つの前記発生器と２つの前記検出器、又は、１つの前記検出器と２つの前記発生器の組み合わせを含んでもよい。この組み合わせが、処理回路がステレオ音響による三角測量を実行し、少なくとも一つの前記検出器によって検出された反射音源に関する方向情報を抽出するために利用されてもよい。いくつかの実施形態によれば、音響発生器及び／又は音響検出器は、複数の方向性を有してもよく、処理回路は、検出された反射音のセットの夫々の往復時間に関連付けられた距離を、識別された静的要素のセットの夫々、又は、追尾された動的被写体のセットの夫々に対応付けてもよい。いくつかの実施形態によれば、処理回路は、シーン内で動的被写体が検出されなかった場合に、参照反射音マップを生成してもよい。いくつかの実施形態によれば、処理回路は、シーン内で一つ以上の動的被写体が検出された場合に参照反射音マップを生成してもよい。いくつかの実施形態によれば、ビデオ画像のソースの座標や向きを抽出することは、ビデオ画像内の所定の識別された静的要素の外観を、識別された被写体に対応する参照データと比較することを含んでもよい。本発明のいくつかの実施形態によれば、上記のビデオストリームの画像フレーム内における一つ以上の特徴を登録するためのシステムの、いくつか又は全ての実施形態及び／又は特徴が、現在の既知の又は今後考案される様々な３Ｄカメラから、ビデオ画像を一つ以上の３次元的な（３Ｄ）ビデオ画像として受信するインタフェース回路を有していてもよい。

本発明のいくつかの特徴がここで記載および記述されたことによって、当該技術分野における当業者によって多くの変更例、代替例、変形例、均等物の実施が可能になると考えられる。そのため、添付の請求項は本発明の精神を逸脱しない範囲で、そのような全ての変更例、変形例をカバーすることを目的としていることを理解されたい。

いくつかの実施形態において、入力／出力、又は、Ｉ／Ｏデバイス（キーボード、ディスプレイ、ポインティングデバイスなどを含むが、これらに限定されない）は、システムに対し、直接的又はＩＯコントローラを介して接続されていてもよい。いくつかの実施形態において、データ処理システムが他のデータ処理システムやリモートプリンタ、ストレージと、例えば、プライベート又は公共ネットワークを介して接続できるように、ネットワークアダプタがシステムに接続されていてもよい。いくつかの実施形態において、モデム、ケーブルモデム及びイーサネット（登録商標）カードが、ネットワークアダプタの種類の例である。他の適切なコンポーネントが使用されてもよい。

Claims

１つ以上の２次元的（２Ｄ）ビデオ画像を受け取るインタフェース回路と、
処理回路と、を備え、
前記処理回路は、
シーンビデオ画像内に表れる、動いている要素を追尾して特徴付け、
前記シーンビデオ画像内に表れる、静的要素又は被写体を識別して特徴付け、
前記シーンビデオ画像の境界内で、前記シーンの３次元的な（３Ｄ）座標を定義し、該３次元的な（３Ｄ）座標を定義することが、前記シーンのＸ、Ｙ、又はＺ軸を示す一つ以上の実質的に線状のエッジを識別し、前記識別され特徴づけられた静的要素又は被写体の位置を、前記識別された線状のエッジに関連付けてマッピングすることを含み、
前記シーンビデオ画像の座標フレーム内において、前記ビデオ画像のソースの座標と向きを抽出し、
識別された静的要素に関連付いた特徴情報を有する静的要素の一覧を更新し、該更新が、新たに抽出された特徴情報と既に存在する特徴情報の改訂との何れか応じて実行され、
前記シーンビデオ画像内の前記追尾及び識別された動的要素の中から、一人以上の人を検出し、及び、
検出された人に関連付けられたイベントを特徴づけて記録する命令を実行し、
更に、前記ビデオ画像のソースの近くに設けられた、一つ以上の音響発生器と一つ以上の音響検出器を含む音響測距部を更に備える、
ビデオ画像処理システム。