JP4566498B2 - ビデオにおける動きアクティビティの記述方法 - Google Patents
ビデオにおける動きアクティビティの記述方法 Download PDFInfo
- Publication number
- JP4566498B2 JP4566498B2 JP2001556982A JP2001556982A JP4566498B2 JP 4566498 B2 JP4566498 B2 JP 4566498B2 JP 2001556982 A JP2001556982 A JP 2001556982A JP 2001556982 A JP2001556982 A JP 2001556982A JP 4566498 B2 JP4566498 B2 JP 4566498B2
- Authority
- JP
- Japan
- Prior art keywords
- histogram
- motion
- video
- frame
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000033001 locomotion Effects 0.000 title claims description 98
- 230000000694 effects Effects 0.000 title claims description 52
- 238000000034 method Methods 0.000 claims description 45
- 239000013598 vector Substances 0.000 claims description 36
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000010606 normalization Methods 0.000 claims 1
- 238000003672 processing method Methods 0.000 claims 1
- 238000000605 extraction Methods 0.000 description 12
- 238000006073 displacement reaction Methods 0.000 description 8
- 238000001514 detection method Methods 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 239000012237 artificial material Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Social Psychology (AREA)
- Psychiatry (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Description
本発明は、連続したビデオフレームから特徴を抽出することに関し、特に、圧縮されたビデオ信号から“動き(motion activity)”を抽出する方法に関するものである。
背景技術
動画像符号化専門家グループ(Motion Picture Experts Group(MPEG))により、デジタルカラービデオ信号の帯域幅を圧縮するための基本的な規格が採用されている。MPEG規格では、画像のフルフレームに対してとびとびにのみ情報を展開することにより、高圧縮率を達成させている。フル画像フレーム、すなわち、フレーム内符号化フレーム(intra−codedframe)は、しばしば「Iフレーム」または「アンカフレーム」と呼ばれ、他のいかなるフレームからも独立したフルフレーム情報を含んでいる。画像差フレーム、すなわち、フレーム間符号化フレーム(inter−codedframe)は、しばしば「Bフレーム」及び「Pフレーム」あるいは「予測符号化フレーム(predictive frame)」と呼ばれ、Iフレーム間で符号化され、参照フレームに関する画像差すなわち残余のみを表したものである。
一般に、連像したビデオ信号(以下、ビデオシーケンスとする。)の各フレームは、より小さいブロックの画像素子(picture element)、すなわち、画素(pixel)データに分割される。各ブロックには、統計的に依存した空間的ドメイン画素を、独立した周波数ドメインDCT係数に変換する、離散コサイン変換(DCT)関数が施される。8×8または16×16ブロックの画素は、「マクロブロック」と呼ばれるが、それらにそれぞれDCT関数が施されることにより、符号化信号が供給される。
DCT係数は、通常、マクロブロックにおいてわずかな係数のみがピクチャ情報の主要部分を表すよう、エネルギ集中されている。例えば、マクロブロックが物体の輪郭(エッジ)の境界を含む場合、変換後の、すなわち、DCT係数によって表されるそのブロックのエネルギは、DCT係数の行列を通して相対的に大きいDC係数とランダムに分散したAC係数とを含む。
一方、エッジの無いマクロブロックは、通常、同様に大きいDC係数と、そのブロックに関連付けられた他の係数より実質的に大きい隣接した数個のAC係数とによって特徴付けられる。一般に、DCT係数は、送信媒体に対し、適応量子化が施され、その後、ランレングスおよび可変長符号化が施される。このため、送信されたデータのマクロブロックは、一般に、8×8行列より少ないコードワード(codeword)を含む。
フレーム間符号化フレームデータ、すなわち符号化されたPまたはBフレームデータのマクロブロックは、マクロブロックにおける予測された画素と実際の画素との間の差のみをあらわすDCT係数を含む。また、フレーム内符号化およびフレーム間符号化フレームデータのマクロブロックは、採用される量子化のレベル、マクロブロックアドレスまたはロケーションインジケータおよびマクロブロックタイプ等の情報も含む。後者の情報は、しばしば「ヘッダ」または「オーバヘッド」情報と呼ばれる。
各Pフレームは、最後に現れたIまたはPフレームから予測される。各Bフレームは、それが間に配置されているIまたはPフレームから予測される。予測符号化プロセスには、しばしば「動きベクトル」と呼ばれる変位ベクトルを生成することが含まれる。これは、現在符号化されているBまたはPフレームのマクロブロックと最も近接して一致するIフレームのマクロブロックに対する変位の大きさを示す。Iフレームにおける一致したブロックの画素データが、画素毎に、符号化されているPまたはBフレームのブロックから引出されることにより、残余が得られる。変換された残余およびベクトルは、PおよびBフレームに対して符号化データの一部を形成する。
ISO MPEG−1およびMPEG−2等の他の従来のビデオ規格は、本来ビデオ信号の時間的および空間的圧縮を扱う比較的低レベルの仕様である。これらの規格を用いて、広範囲のアプリケーションに亙って高圧縮率を達成することができる。MPEG−4等のより新しいビデオ符号化規格(「Information Technology−−Generic coding of audio/visual objects」ISO/IEC FDIS14496−2(MPEG4 Visual)、Nov.1998を参照)により、任意形状の物体を別々のビデオオブジェクトプレーン(VOP)として符号化および復号化することができる。これら新しい規格は、インタラクティブビデオ等、自然および人工の材料が統合され、アクセスが多方向(universal)のマルチメディアアプリケーションを可能にすることが意図されている。例えば、特定のタイプのビデオオブジェクトから特徴を抽出するか、または特定のクラスのビデオオブジェクトに対して実行することが望まれる場合がある。
インターネット上のビデオ配信等、新しいデジタルビデオサービスの出現に伴い、例えばアクティビティの識別等、フレームレベルかまたはオブジェクトレベルで、ビデオシーケンスにおける情報を識別する信号処理技術に対する必要性が高まっている。
特徴抽出
圧縮データからビデオを索引付けするための特徴抽出における従来の方法は、本来、DC係数抽出に重きをおいていた。「Rapid Scene Analysis on Compressed Video」(IEEE Transactions on Circuits and Systems for Video Technology,Vol.5,No.6,December 1995,pp.533−544)と題された論文において、YeoおよびLiuは、MPEG−2圧縮ビデオドメインにおけるシーン変化検出の方法を記述している。また、その著者達は、圧縮されていない画像データ全体のシーケンスに基づいてシーン変化を検出するこれまでの努力および他の種々の圧縮ビデオ処理技術を再検討している。YeoおよびLiuは、シーン分析操作を容易にするために、いわゆるDC画像である原画像の空間的に低減されたバージョンと圧縮ビデオから抽出されたDCシーケンスとを使用することを示した。それら「DC画像」は、原画像のブロックにおける画素の平均値である画素から作成されており、DCシーケンスは、DC画像の数の低減された画素の組合せである。なお、DC画像抽出ベースの技術は、Iフレームに対して適している。それは、IフレームからDC値を抽出することが、比較的簡単だからである。しかしながら、他のタイプのフレームに対しては、追加の計算が必要である。
Proc.SPIE Conf.on Storage and Retrieval for Image and Video Databases,January 1998で発表された論文において、Won等は、DC係数で費やされたビットを利用してフレーム内のエッジを位置付けることにより、圧縮されたMPEG−2ビデオから特徴を抽出する方法を述べている。しかしながら、彼らの研究は、Iフレームのみに限定されている。
Kobla等は、同じ会報において、Yeo等のDC画像抽出を用いてビデオクリップを特徴付けるビデオトレイルを形成する方法を述べている。
Feng等(IEEE International Conference on Image Processing,Vol.II,pp.821−824,Sept.16−19,1996)は、DC画像を抽出することなく、MPEG−2フレームのマクロブロックに亙ってビットアロケーション(ビットの割り当て)を使用することにより、急なシーンの変化を検出した。Feng等の技術は、圧縮ビットストリームを解析するために必要である以上に重要な計算が必要でないため、計算上最も簡単である。
1999年1月14日に出願された「Methods of scene change detection and fade detection for indexing of video sequences」と題された米国特許出願第09/231,698号および1999年1月25日に出願された「Methods of Feature Extraction for Video Sequences」と題された米国特許出願第09/236,838は、Feng等の方法とYeo等の方法のいくつかの態様に基づいて正確かつ簡単なシーン変化検出を行う、計算上簡単な技術を述べている。推測されるシーンまたはオブジェクトの変化が、DC画像抽出ベースの技術を使用することにより、連続フレームのグループに正確に位置付けられると、位置付けられたシーンの付近のPまたはBフレーム情報に対する、適当なビットアロケーションベースの技術および/または適当なDC残余係数処理技術のアプリケーションは、その切点を迅速かつ正確に位置付ける。この組み合わされた技術は、MPEG−2フレームシーケンスまたはMPEG−4複数オブジェクトシーケンスのいずれに対して適用可能である。MPEG−4の場合、各オブジェクトの領域を重み係数として用いて、フレームの各オブジェクトにおける変化の重み付け合計を使用することが有利である。
1999年7月1日にDivakaran等によって出願された「Compressed Bit−Stream Segment Identification and descriptor」と題された米国特許出願第09/345,452号は、フレーム間符号化フレームの変位の大きさを、フレーム間符号化フレームに関連する圧縮ビットストリームにおけるビットに基づいて決定する技術を述べている。フレーム間符号化フレームは、マクロブロックを含む。各マクロブロックは、そのマクロブロックから最も近接して一致するフレーム内符号化フレームへの変位を表すフレーム間符号化フレームビットのそれぞれの部分に関連付けられている。変位の大きさは、フレーム間符号化フレームに関連付けられたすべてのマクロブロックの変位量の平均である。平均変位量より小さいそれらマクロブロックの変位量は、0に設定される。0の大きさのマクロブロックのランレングスの数は、最初のフレーム間符号化フレームを識別するために決定されかつ使用される。
動きアクティビティ
これまで行われた研究は、動き情報を抽出することと、シーン変化を検出する等の低レベルアプリケーションに対する動き情報を使用することと、に焦点が当てられていた。そのため、より高レベルのアプリケーションに対する特徴抽出が未だに必要とされている。例えば、ビデオシーケンスにおける動きアクティビティの空間的分布の性質を示す特徴を抽出する必要がある。
ビデオまたはアニメーションシーケンスは、低速なシーケンス、高速なペースのシーケンス、断続的なシーケンス等として知覚することができる。アクティビティの特徴は、この、ビデオセグメントにおける「アクションの強度」または「アクションのペース」の直観的概念を捉える。高「アクティビティ」および低「アクティビティ」の例は、それぞれ、スポーツイベントと画面に登場する話し手である。
適切な動きアクティビティ記述子により、ビデオブラウジング、サーベイランス、ビデオコンテントリパーパシングおよびビデオデータベースのコンテントベースの間合せ等のアプリケーションが可能となる。例えば、ビデオブラウジングでは、アクティビティ特徴により、アクティビティの広い記述に基づいてビデオコンテントのクラスタ化を可能にすることができる。これらアプリケーションに対し、動きアクティビティの強度だけでなく、アクティビティの空間的および時間的分布等のアクティビティの他の属性を用いる必要がある。
発明の開示
本発明は、ビデオシーケンスにおける動きアクティビティの空間的分布に対する記述子を提供する。本発明は、ビデオのフレームにおけるマクロブロックの動きアクティビティの強度の測度として、ビデオシーケンスから抽出される動きベクトルの大きさを使用する。所定のPフレームの各マクロブロックに対し、動きベクトルの大きさを含む動きアクティビティ行列Cmvが構成される。
動きアクティビティ行列に対し、閾値が決定される。1つの実施の形態において、閾値は、各マクロブロックに対する平均値Cmv avgである。閾値より小さいCmvの要素はすべて0に設定される。また、他の閾値を使用することも可能である。閾値は、ノイズに対する頑強性を提供するために、平均にある経験的に決定された定数を足したものとすることができる。また、動きベクトルの大きさの中央値も使用することができる。これにより、少しの大きい値がその平均に基づく閾値に対して不当に影響することが防止される。また、最も一般的な動きベクトルの大きさ、すなわちモードを使用することも可能である。これは基本的にクラスタ化の問題であるため、ニューラルネットおよびベクトルサポートマシン等、K平均に基づく周知のクラスタ化技術のいずれかを用いることにより、動きベクトルをそれらの大きさに基づいて2つのカテゴリに分割することも可能である。この場合、2つのクラスタ間の境界を閾値として使用することができる。
次に、ビデオシーケンス全体に対してヒストグラムが構成される。ヒストグラムの「区間(bin)」は、閾値が決定された行列における非ゼロ値の明瞭な連結領域のエリアに対する統計量を蓄積する。他の閾値決定プロセスが、ヒストグラムに適用され、ヒストグラムは、非ゼロ動きの平均サイズに対して基準化され、それによりフレームのサイズに関して正規化される。
重畳的な類似性測定により、本発明の記述子は、最新のMPEG−7実験モデルにおける空間的アクティビティ記述子より優れた適合率−再現率性能を有する。
また、本記述子の明瞭な無相関部分におけるカメラ動きおよび非カメラ動きの影響を捕らえることが可能である。特徴抽出は、圧縮ドメインにおいて行われるため、従来技術による非圧縮ビデオシーケンスからの特徴抽出より高速に実行することができる。
およそ14時間の種類の異なるMPEG−1符号化されたビデオコンテントを含む、MPEG−7テストコンテントセットに基づくテストにおいて、本記述子により、ビデオの高速かつ正確な索引付けが可能となる。記述子は、フレームサイズ、フレーム率、符号化ビットレート、符号化フォーマット等の符号化パラメータにおけるノイズおよび変化に対して頑強である。これは、同じプログラム内の意味論的一致を与える低レベル非意味論的記述子であり、そのため、ビデオブラウジング等のアプリケーションに非常に適している。
より詳細には、本発明は、ビデオシーケンスにおける動きアクティビティを記述する方法を提供する。ビデオシーケンスに対し、動きアクティビティ行列が決定される。動きアクティビティ行列に対する閾値が決定される。少なくとも閾値に等しい動きベクトルの連結領域が識別され、そのサイズが測定される。ビデオシーケンス全体に対し、連結領域のサイズの分布のヒストグラムが構成される。動きアクティビティ記述子におけるビデオシーケンスの空間的分布を特徴付けるために、ヒストグラムが正規化される。
発明を実施するための最良の形態
図1は、本発明による動きアクティビティの空間的分布を記述する方法100を示す。本発明では、圧縮ビデオシーケンスのPフレームにおいてブロック動きベクトルの大きさの平均をとることにより、ビデオフレームまたはビデオオブジェクトのマクロブロック(Cmv avg)毎の平均の動きベクトルの大きさを決定する。このプロセスは、参照をもってその開示内容が本明細書に援用されたものとする、1999年1月25日にDivakaran等によって出願された「Method of Feature Extraction of Video Sequences」と題された米国特許出願第09/236,838号に述べられている。
要するに、ビデオシーケンス101の各ビデオフレームまたはオブジェクトについて、ステップ110では、動きアクティビティ行列Cmv102を決定する。
ここで、(xi,j,yi,j)は、(i,j)番目のブロックに関連する動きベクトルである。
この決定では、Pフレーム/オブジェクトのみを考慮しており、以下のステップにおいて1つのフレームの記述子を構成する。フレーム内符号化ブロックの場合、R(i,j)=0である。
ステップ120では、閾値T103を決定する。使用することができる1つの閾値は、フレーム/オブジェクトのマクロブロック毎の平均の動きベクトルの大きさである。平均Cmv avg103は、以下のように与えられる。
ここで、Mはマクロブロックの幅、Nはマクロブロックの高さである。
また、他の閾値を使用することもできる。ノイズに対する頑強性を提供するために、閾値を、平均にある経験的に決定された定数を足したものとすることができる。また、動きベクトルの大きさの中央値を用いることも可能である。これにより、少しの大きい値が平均に基づく閾値に不当に影響を与えることが防止される。また、最も一般的な動きベクトルの大きさ、すなわちモードを使用することもできる。これは、基本的にクラスタ化の問題であるため、ニューラルネットおよびベクトルサポートマシン等、K平均に基づく周知のクラスタ化技術のうちのいずれかを用いることによって、動きベクトルをそれらの大きさに基づいて2つのカテゴリに分割することができ、閾値として2つのクラスタの間の境界を使用することができる。
次に、ステップ130では、Cmv thresh104として、閾値103より大きい動きを有するアクティビティ行列Cmvの特徴を識別する。閾値Tは、以下のようにCmvに対して与えられる。
すなわち、動きアクティビティベクトル行列の要素が閾値103より小さい場合、要素をゼロに設定する。
ステップ140では、アクティビティ行列における非ゼロ値の連結領域105のエリア(サイズ)を識別し測定する。すなわち、少なくとも平均の動きベクトルの大きさほど大きい動きベクトルを有する非常に隣接しているマクロブロックを識別し、かかる領域のマクロブロックの数を計数することにより領域のサイズ(エリア)を測定する。
ステップ150では、ビデオシーケンス全体に対し非ゼロ連結領域のヒストグラムH106を構成する。ヒストグラムの区間の幅は、対数的尺度に従って均一でない。サンプルヒストグラムとして図3(a)〜図3(c)を参照する。区間は、非ゼロ動きの小さいエリア、中間のエリアおよび大きいエリアに対して大まかに分類することができる。
フレームのエリアの半分より大きい非ゼロ動きのエリアは、通常、カメラパン等のグローバル動きを示唆する。従って、ヒストグラムの最後の2つの区間を、ビデオシーケンスにおけるカメラの動きのインジケータとして使用することができる。
ステップ160において、ヒストグラム106が、各区間の非ゼロ動きエリアの平均により基準化されることにより、以下のように表される基準化されたヒストグラムh107がもたらされる。
各区間の値、すなわち、特定のサイズの領域の数は、ヒストグラムの連結領域の平均サイズによって割られて丸められる。区間における非ゼロ動きエリアの絶対数よりも区間における非ゼロ動きエリアの存在を強調するために、区間の値に対するコンパンダとして、平方根演算が使用される。
正規化されたヒストグラムh107は、ビデオ101における動きの空間的分布に対する記述子となる。任意に、h107と共に平均動きベクトルCmv avg103を使用することにより、結合された記述子109を生成することも可能である。
ビデオマッチングのための記述子の使用
記述子h107を使用して、ビデオを比較することができる。図2に示すように、記述子の値をマッチングするために重み付け相関比較手続き200を使用する。非ゼロ動きエリアは、許容できる一致に対して厳密に一致する必要はないため、ヒストグラムの1シフトしたバージョンの間の距離を考慮することもできる。しかしながら、ヒストグラムのシフトされたバージョンを使用することで距離が決定される場合、厳密な一致に有利であるようにw>1の乗算因子を使用する。
従って、ステップ210〜212において、第1のヒストグラムH1201を左シフトし、右シフトし、およびシフトしないことにより、それぞれH1 L220、H1 R221およびH1222を生成する。ステップ230〜232において、ヒストグラム220の各々が第2のヒストグラムH2202と比較されることにより、それぞれD(H1 L,H2)240、D(H1 R,H2)241およびD(H1,H2)242が決定される。上述したように、ステップ250〜252において、wにより距離が重み付けされる。
この時点で、2つのヒストグラム201〜202の間の最終的な距離を、少なくとも2つの可能な方法で決定することができる。ステップ260では、重み付けされた距離の最短距離Dmin(H1,H2)270をとる。ステップ261では、ヒストグラム間の距離として合計Dsum(H1,H2)271をとる。
なお、他の代替態様は、上述した代替態様の組合せである。例えば、距離D(H1 L,H2)240,D(H1 R,H2)241の最小値をD(H1,H2)242に加算することにより、2つのヒストグラム間の距離を計算することができる。また、これは、第2の代替態様において使用される重みの非線形生成の一例としてみなすことも可能である。
MPEG−7ビデオテストセットによる結果
上述したような本発明による記述子を、MPEG−1、すなわちMPEG−7テストセットからの「V3」ビデオシーケンスに適用する。表1に、いくつかの検索の例を示す。
表1から分かるように、本発明による動きアクティビティ記述子により、ビデオシーケンス内の意味論的ショット分類およびマッチングが可能となる。本発明による記述子は、一貫して、表2に示すようなビデオシーケンス内の1/10〜5/5の範囲の適合率の値を取得する。
例えば、スペインのニュースシーケンスで、総合司会者を捜す場合、10/10適合率および1/30再現率を得る。なお、10の一致しか検索しないため、再現率は多くても10/(あり得る正確な一致の合計数)であるように制限される。サッカーショットを捜す場合、適合率は3/10に低減されるが、再現率は0.3に増大する。テストコンテントを用いた本発明の実験は、本発明による記述子により、同様の時間および空間上のアクティビティを有するショットを一致させることができる、ということを示している。同じプログラム内であれば、意味論的分類が、時間および空間上のアクティビティの強度および分布という意味で広く分割され、本発明による記述子が適切に作用する。
表1と対応するヒストグラム301〜303の図3(a)〜図3(c)において、スペインのニュースを用いた本発明による結果を示す。他のニュースプログラムでも同様の結果が得られる。また、パンが1つの大きい非ゼロ動きを生成するため、本発明による非ゼロ動き構造を有するパン等のカメラ動きを検出することができる。本発明による記述子は1つのショットにおいてカメラ動きのセグメントを分離するため、カメラ動きと非カメラ動きとを別々に検出することができる。これにより、MPEG−7XMにおける現存の空間的動きアクティビティ記述子に改良を加えることができる。
ビデオシーケンスにおけるアクティビティの空間的分布を特徴付ける動き記述子を示した。本発明による記述子は、パラメータ変化を符号化することに対する頑強性、適合率−再現率、カメラ動きおよび非カメラ動きの検出および分析等に関して、MPEG−7XMによって提案される規格において、現存の空間的アクティビティ記述子より性能が優れている。本発明による記述子は、圧縮ビデオに使用するため、抽出簡潔性においてMPEG−7記述子に匹敵する。また、本発明による非ゼロ動きフレームワークにおいて、動きベクトルを符号化するためにとられるビット等、動きベクトルの大きさの間接的かつ計算上より簡単な測度も、有効性は低くなるが、使用することが可能であることも分かっている。
動きベクトルの大きさに対し閾値決定手続きを使用することにより、フレーム内のアクティビティの領域または「非ゼロ動き」を識別する。そして、これら領域のエリアを使用することにより、非ゼロ動きエリアの「閾値が与えられた」ヒストグラムを決定する。このヒストグラムを、ビデオショットに対する「記述子」として使用する。「領域のエリア」方法は、ランレングスと異なる領域サイズの直接の測定であり、フレーム率、フレームサイズ等の符号化パラメータに関してより容易に正規化されるため、より有効である。更に、記述子は、オブジェクト変換、回転等に対してより頑強である。記述子は、ショット内のカメラ動きと非カメラ動きとを切離すことにより、より正確なアクティビティ記述を提供する。このように、本発明により、マッチングおよび探索によく適しているビデオショットのための記述子が提供される。
本発明は、好ましい実施の形態の実施例として述べられてきたが、本発明の精神および範囲内で種々の他の適用および変更を行うことができる、ということは理解されなければならない。従って、添付の特許請求の範囲の目的は、本発明の真の精神および範囲内にあるものとしてかかるすべての変形および変更をカバーすることである。
産業上の利用の可能性
以上のように、この発明に関わるビデオにおける動きアクティビティの記述方法は、ビデオに対し動きアクティビティ行列を決定するステップと、動きアクティビティ行列のための閾値を決定するステップと、少なくとも閾値に等しい動きベクトルを有する連結領域を識別するステップと、連結領域のサイズを測定するステップと、ビデオの上記連結領域のヒストグラムを構成するステップと、ヒストグラムを正規化することにより、動きアクティビティ記述子においてビデオの空間的記述を特徴付けるステップとを備えているので、優れた適合率−再現率性能を有する。
【図面の簡単な説明】
図1は、本発明によるビデオにおける動きアクティビティの空間的分布を記述する方法のブロック図、
図2は、ヒストグラム間の距離を決定するブロック図、
図3は、本発明による動きの空間的分布のヒストグラムである。
Claims (15)
- ビデオにおける動きアクティビティの記述子を生成するための処理方法であって、
ビデオ内の動きベクトルに基づいて動きアクティビティ行列を決定するステップと、
上記動きアクティビティ行列に対する閾値を決定するステップと、
上記閾値以上の動きアクティビティ行列を有する動きベクトルを含む上記ビデオ内の領域を検出し、それらのうち、隣接している領域を連結して、連結領域を決定するステップと、
上記連結領域の大きさを測定するステップと、
上記ビデオに対して上記連結領域の大きさの分布のヒストグラムを構成するステップと、
上記ヒストグラムを正規化するステップとを備え、
上記正規化されたヒストグラムは、上記ビデオにおける動きの空間的分布を特徴付ける動きアクティビティ記述子として用いられることを特徴とする方法。 - 上記ビデオの各フレームは、複数のマクロブロックを含み、各マクロブロックは、動きベクトルを含み、上記動きアクティビティ行列は、上記フレームの上記マクロブロックの上記動きベクトルに基づいて求められることを特徴とする請求項1記載の方法。
- 上記連結領域は、上記閾値以上の動きアクティビティ行列を有する動きベクトルを含む隣接するマクロブロックを連結することによって形成され、上記連結領域の大きさは、上記連結領域に含まれる上記マクロブロックの数に等しいことを特徴とする請求項2記載の方法。
- 上記閾値は、平均の動きベクトルの大きさであることを特徴とする請求項3記載の方法。
- 上記閾値は、上記平均の動きベクトルの大きさに予め決められた定数を足したものであることを特徴とする請求項4記載の方法。
- 上記閾値は、上記動きベクトルの大きさの中央値であることを特徴とする請求項3記載の方法。
- 上記閾値は、動きベクトルの大きさのモード(最頻値)であることを特徴とする請求項3記載の方法。
- 動きベクトルをそれらの大きさに基づいて2つのカテゴリに分類してクラスタを生成した場合に、上記閾値として、当該2つのクラスタ間の境界を用いることを特徴とする請求項3記載の方法。
- 上記ヒストグラムは、複数の区間を有し、上記区間は、対数的尺度に従うことを特徴とする請求項1記載の方法。
- 上記フレームの領域の半分より大きい連結領域は、グローバルな動きを示すことを特徴とする請求項2記載の方法。
- 上記正規化は、
上記ヒストグラムの連結領域の平均の大きさにより各区間の値を割って丸めることと、
上記区間の上記値に対しコンパンダとして平方根演算を適用することと
を更に備えたことを特徴とする請求項9記載の方法。 - 2つのビデオのマッチングを行うステップをさらに備え、
該ステップは、
第1のビデオから正規化された第1のヒストグラムを生成し、第1の動きアクティビティ記述子とするステップと、
第2のビデオから正規化された第2のヒストグラムを生成し、第2の動きアクティビティ記述子とするステップと、
上記第1および第2の動きアクティビティ記述子を比較することにより上記第1および第2のビデオのマッチングを行うステップと
を備えたことを特徴とする請求項1記載の方法。 - 上記第1のヒストグラムを左シフトさせるステップと、
上記第1のヒストグラムを右シフトさせるステップと、
上記第1のヒストグラムをシフトさせないステップと、
上記左シフトさせた第1のヒストグラム、上記右シフトさせた第1のヒストグラム、および、上記シフトさせなかった第1のヒストグラムを、上記第2のヒストグラムと比較することにより、それぞれのヒストグラムと上記第2のヒストグラムとの間の距離を求め、それぞれ、第1、第2および第3の距離とするステップと、
上記第1、第2および第3の距離に重み付けするステップと
を更に備えたことを特徴とする請求項12記載の方法。 - 上記第1および第2のビデオの間の最終的な距離として、前記重み付けされた第1、第2および第3の距離の最小値を選択するステップ
を更に備えたことを特徴とする請求項13記載の方法。 - 上記第1、第2および第3の重み付けされた距離を合計することにより、上記第1および第2のビデオの間の最終的な距離を決定するステップ
を更に備えたことを特徴とする請求項13記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/496,707 US6600784B1 (en) | 2000-02-02 | 2000-02-02 | Descriptor for spatial distribution of motion activity in compressed video |
PCT/JP2001/000609 WO2001057802A1 (fr) | 2000-02-02 | 2001-01-30 | Procede de description d'activite de mouvement en video |
Publications (1)
Publication Number | Publication Date |
---|---|
JP4566498B2 true JP4566498B2 (ja) | 2010-10-20 |
Family
ID=23973780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001556982A Expired - Lifetime JP4566498B2 (ja) | 2000-02-02 | 2001-01-30 | ビデオにおける動きアクティビティの記述方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6600784B1 (ja) |
EP (1) | EP1211644B1 (ja) |
JP (1) | JP4566498B2 (ja) |
AU (1) | AU2885701A (ja) |
WO (1) | WO2001057802A1 (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100380229B1 (ko) * | 2000-07-19 | 2003-04-16 | 엘지전자 주식회사 | 엠펙(MPEG) 압축 비디오 환경에서 매크로 블록의 시공간상의 분포를 이용한 와이프(Wipe) 및 특수 편집 효과 검출 방법 |
EP1209614A1 (fr) * | 2000-11-28 | 2002-05-29 | Koninklijke Philips Electronics N.V. | Procédés de partition d'un ensemble d'objets et procédé de recherche dans une partition d'un ensemble d'objets |
US6965645B2 (en) * | 2001-09-25 | 2005-11-15 | Microsoft Corporation | Content-based characterization of video frame sequences |
JP4082664B2 (ja) * | 2002-09-20 | 2008-04-30 | Kddi株式会社 | 映像検索装置 |
US20040066466A1 (en) * | 2002-10-08 | 2004-04-08 | Macinnis Alexander | Progressive conversion of interlaced video based on coded bitstream analysis |
US7983835B2 (en) | 2004-11-03 | 2011-07-19 | Lagassey Paul J | Modular intelligent transportation system |
US7639839B2 (en) * | 2004-03-31 | 2009-12-29 | Fuji Xerox Co., Ltd. | Extracting video regions of interest |
US20060184553A1 (en) * | 2005-02-15 | 2006-08-17 | Matsushita Electric Industrial Co., Ltd. | Distributed MPEG-7 based surveillance servers for digital surveillance applications |
SG130962A1 (en) * | 2005-09-16 | 2007-04-26 | St Microelectronics Asia | A method and system for adaptive pre-filtering for digital video signals |
US20090016610A1 (en) * | 2007-07-09 | 2009-01-15 | Honeywell International Inc. | Methods of Using Motion-Texture Analysis to Perform Activity Recognition and Detect Abnormal Patterns of Activities |
US9361523B1 (en) * | 2010-07-21 | 2016-06-07 | Hrl Laboratories, Llc | Video content-based retrieval |
JP2014241134A (ja) * | 2013-06-11 | 2014-12-25 | ゼロックス コーポレイションXerox Corporation | 動きベクトルを使用して車両を分類する方法およびシステム |
CN104519239A (zh) * | 2013-09-29 | 2015-04-15 | 诺基亚公司 | 用于视频防抖的方法和装置 |
US20150208072A1 (en) * | 2014-01-22 | 2015-07-23 | Nvidia Corporation | Adaptive video compression based on motion |
US9158974B1 (en) | 2014-07-07 | 2015-10-13 | Google Inc. | Method and system for motion vector-based video monitoring and event categorization |
US10127783B2 (en) | 2014-07-07 | 2018-11-13 | Google Llc | Method and device for processing motion events |
US9501915B1 (en) | 2014-07-07 | 2016-11-22 | Google Inc. | Systems and methods for analyzing a video stream |
US10140827B2 (en) | 2014-07-07 | 2018-11-27 | Google Llc | Method and system for processing motion event notifications |
US9082018B1 (en) | 2014-09-30 | 2015-07-14 | Google Inc. | Method and system for retroactively changing a display characteristic of event indicators on an event timeline |
US9449229B1 (en) | 2014-07-07 | 2016-09-20 | Google Inc. | Systems and methods for categorizing motion event candidates |
USD782495S1 (en) | 2014-10-07 | 2017-03-28 | Google Inc. | Display screen or portion thereof with graphical user interface |
US9361011B1 (en) | 2015-06-14 | 2016-06-07 | Google Inc. | Methods and systems for presenting multiple live video feeds in a user interface |
US10506237B1 (en) | 2016-05-27 | 2019-12-10 | Google Llc | Methods and devices for dynamic adaptation of encoding bitrate for video streaming |
US10957171B2 (en) | 2016-07-11 | 2021-03-23 | Google Llc | Methods and systems for providing event alerts |
US10380429B2 (en) | 2016-07-11 | 2019-08-13 | Google Llc | Methods and systems for person detection in a video feed |
US10192415B2 (en) | 2016-07-11 | 2019-01-29 | Google Llc | Methods and systems for providing intelligent alerts for events |
US10679669B2 (en) * | 2017-01-18 | 2020-06-09 | Microsoft Technology Licensing, Llc | Automatic narration of signal segment |
US11783010B2 (en) | 2017-05-30 | 2023-10-10 | Google Llc | Systems and methods of person recognition in video streams |
US10599950B2 (en) | 2017-05-30 | 2020-03-24 | Google Llc | Systems and methods for person recognition data management |
US10664688B2 (en) | 2017-09-20 | 2020-05-26 | Google Llc | Systems and methods of detecting and responding to a visitor to a smart home environment |
US11134227B2 (en) | 2017-09-20 | 2021-09-28 | Google Llc | Systems and methods of presenting appropriate actions for responding to a visitor to a smart home environment |
US11893795B2 (en) | 2019-12-09 | 2024-02-06 | Google Llc | Interacting with visitors of a connected home environment |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002536927A (ja) * | 1999-02-05 | 2002-10-29 | サムスン エレクトロニクス カンパニー リミテッド | デジタル映像処理方法及びその装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2863818B2 (ja) * | 1990-08-31 | 1999-03-03 | 工業技術院長 | 動画像の変化点検出方法 |
US6178265B1 (en) * | 1994-09-22 | 2001-01-23 | Intel Corporation | Method and apparatus for motion vector compression |
JP3258840B2 (ja) * | 1994-12-27 | 2002-02-18 | シャープ株式会社 | 動画像符号化装置および領域抽出装置 |
JPH0993588A (ja) * | 1995-09-28 | 1997-04-04 | Toshiba Corp | 動画像処理方法 |
JP3249729B2 (ja) * | 1995-10-24 | 2002-01-21 | シャープ株式会社 | 画像符号化装置及び画像復号装置 |
US6272253B1 (en) * | 1995-10-27 | 2001-08-07 | Texas Instruments Incorporated | Content-based video compression |
US6208693B1 (en) * | 1997-02-14 | 2001-03-27 | At&T Corp | Chroma-key for efficient and low complexity shape representation of coded arbitrary video objects |
JP3149840B2 (ja) * | 1998-01-20 | 2001-03-26 | 日本電気株式会社 | 動きベクトル検出装置及び方法 |
US6389168B2 (en) * | 1998-10-13 | 2002-05-14 | Hewlett Packard Co | Object-based parsing and indexing of compressed video streams |
-
2000
- 2000-02-02 US US09/496,707 patent/US6600784B1/en not_active Expired - Lifetime
-
2001
- 2001-01-30 AU AU28857/01A patent/AU2885701A/en not_active Abandoned
- 2001-01-30 WO PCT/JP2001/000609 patent/WO2001057802A1/ja active Application Filing
- 2001-01-30 EP EP01949052.3A patent/EP1211644B1/en not_active Expired - Lifetime
- 2001-01-30 JP JP2001556982A patent/JP4566498B2/ja not_active Expired - Lifetime
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002536927A (ja) * | 1999-02-05 | 2002-10-29 | サムスン エレクトロニクス カンパニー リミテッド | デジタル映像処理方法及びその装置 |
Non-Patent Citations (1)
Title |
---|
JPN7010002391, Divakaran,A. and Sun,H−F., "A Descriptor for Spatial Distribution of Motion Activity for Compressed Video", Proc. of SPIE Conf. on Storage and Retrieval for Image and Video Database, 200001, Vol.3972, P.392−398 * |
Also Published As
Publication number | Publication date |
---|---|
US6600784B1 (en) | 2003-07-29 |
AU2885701A (en) | 2001-08-14 |
EP1211644A1 (en) | 2002-06-05 |
EP1211644B1 (en) | 2017-04-19 |
WO2001057802A1 (fr) | 2001-08-09 |
EP1211644A4 (en) | 2010-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4566498B2 (ja) | ビデオにおける動きアクティビティの記述方法 | |
US7003038B2 (en) | Activity descriptor for video sequences | |
JP4267327B2 (ja) | 動き記述子を用いてビデオを要約化する方法 | |
US6618507B1 (en) | Methods of feature extraction of video sequences | |
US6449392B1 (en) | Methods of scene change detection and fade detection for indexing of video sequences | |
US7142602B2 (en) | Method for segmenting 3D objects from compressed videos | |
Joyce et al. | Temporal segmentation of video using frame and histogram space | |
US7840081B2 (en) | Methods of representing and analysing images | |
US6823011B2 (en) | Unusual event detection using motion activity descriptors | |
JP2006092559A (ja) | 少なくとも1つの画像及び画像群を表現する方法、画像又は画像群の表現、画像及び/又は画像群を比較する方法、画像又は画像群を符号化する方法、画像又は画像シーケンスを復号する方法、符号化されたデータの使用、画像又は画像群を表現する装置、画像及び/又は画像群を比較する装置、コンピュータプログラム、システム、及びコンピュータ読み取り可能な記憶媒体 | |
Dimitrova et al. | Real time commercial detection using MPEG features | |
EP3175621B1 (en) | Video-segment identification systems and methods | |
JP4225912B2 (ja) | 圧縮ビデオにおけるトーキングヘッドの検出方法 | |
US20050002569A1 (en) | Method and apparatus for processing images | |
CN102298699A (zh) | 图像表示和分析方法 | |
JP4618621B2 (ja) | フレームを識別する方法及びシステム | |
Yeo et al. | A framework for sub-window shot detection | |
Jang et al. | Performance evaluation of scene change detection algorithms | |
Kayaalp | Video segmentation using partially decoded mpeg bitstream | |
JP3571200B2 (ja) | 動画像データのカット検出装置及び方法及び記録媒体 | |
Dimitrovski et al. | Video Content-Based Retrieval System | |
Youssif et al. | COMPRESSED DOMAIN VIDEO FINGERPRINTING BASED ON MACROBLOCKS INFORMATION | |
Adjeroh et al. | Research Article Adaptive Edge-Oriented Shot Boundary Detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20070726 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20071221 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100513 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100608 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100803 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100804 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4566498 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130813 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |