JP2002525735A - Tracking semantic objects in vector image sequences - Google Patents
Tracking semantic objects in vector image sequencesInfo
- Publication number
- JP2002525735A JP2002525735A JP2000570977A JP2000570977A JP2002525735A JP 2002525735 A JP2002525735 A JP 2002525735A JP 2000570977 A JP2000570977 A JP 2000570977A JP 2000570977 A JP2000570977 A JP 2000570977A JP 2002525735 A JP2002525735 A JP 2002525735A
- Authority
- JP
- Japan
- Prior art keywords
- region
- frame
- image
- semantic
- video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 56
- 238000000034 method Methods 0.000 claims abstract description 147
- 230000033001 locomotion Effects 0.000 claims abstract description 80
- 230000011218 segmentation Effects 0.000 claims description 19
- 238000000638 solvent extraction Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 3
- 239000003086 colorant Substances 0.000 abstract description 6
- 230000008569 process Effects 0.000 description 33
- 238000012545 processing Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000012805 post-processing Methods 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000005055 memory storage Effects 0.000 description 3
- 230000006855 networking Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 101100321669 Fagopyrum esculentum FA02 gene Proteins 0.000 description 1
- 101001126234 Homo sapiens Phospholipid phosphatase 3 Proteins 0.000 description 1
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 241001092142 Molina Species 0.000 description 1
- 102100030450 Phospholipid phosphatase 3 Human genes 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000007620 mathematical function Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000012732 spatial analysis Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/80—Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/174—Segmentation; Edge detection involving the use of two or more images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/215—Motion-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/537—Motion estimation other than block-based
- H04N19/543—Motion estimation other than block-based using regions
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
- Closed-Circuit Television Systems (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Abstract
(57)【要約】 意味対象物追跡方法は、複数の剛体運動と、断片的な構成要素と、ベクトル画像シーケンスを通じて使用されている複数の色で、一般的な意味対象物を追跡する。この方法は、現在のフレームから画像領域を空間的に分割し、次いで先行フレームのどの意味対象物を源とするかについてこれらの領域を分類することによって、正確にこれらの一般的な意味対象物を追跡する。各領域を分類するために、この方法は、空間的に分割された各領域と先行フレームとの間で先行フレームで計算され予測された位置に対する領域ベースの運動推定を実行する。次いでこの方法は、先行フレームのどの意味対象物が、予測された領域の最も重複している点を含むかということに基づいて、意味対象物の部分として現在のフレームの各領域を分類する。この方法を用いて、現在の各領域は、ギャップまたは重複がない状態で、先行フレームからの1つの意味対象物まで追跡される。この方法は、対象物の境界が未知であるフレームにおいて境界を射影および調整しようとするのではなく、意味対象物の境界が以前に計算されているフレームに領域を射影するので、ほとんどまたは全くエラーを伝搬しない。 (57) Abstract The semantic object tracking method tracks general semantic objects with multiple rigid motions, fragmentary components, and multiple colors used throughout a vector image sequence. The method accurately divides these general semantic objects by spatially dividing the image regions from the current frame, and then classifying those regions with respect to which semantic object of the previous frame as the source. To track. To classify each region, the method performs a region-based motion estimation between each spatially partitioned region and the previous frame, relative to the predicted position calculated in the previous frame. The method then classifies each region of the current frame as part of the semantic object based on which semantic object of the previous frame contains the most overlapping point of the predicted region. Using this method, each current region is tracked without gaps or overlaps to one semantic object from the previous frame. This method does not attempt to project and adjust the boundaries in frames where the boundaries of the object are unknown, but rather projects the region into the frame where the boundaries of the semantic objects were previously calculated, resulting in little or no error. Does not propagate.
Description
【0001】 (発明の分野) 本発明は、ビデオデータの分析に関し、より詳細には、意味対象物(セマンテ
ィックオブジェクト)と呼ばれ、意味のある実在物がビデオシーケンスなどのベ
クトル画像シーケンスを通じ移動する際に、それらを追跡(トラッキング)する
方法に関する。[0001] The present invention relates to the analysis of video data, and more particularly to semantic objects, where meaningful entities move through a vector image sequence, such as a video sequence. At the time, it relates to a method of tracking them.
【0002】 (発明の背景) 意味ビデオ対象物は、ボール、車、飛行機、ビル、細胞、目、唇、手、頭など
、デジタルビデオクリップの有意な実在物を表す。このコンテキストでの「意味
」という用語は、ビデオクリップの聴視者が、ある意味をその対象物(オブジェ
クト)に結び付けることを意味する。例えば、上に列挙した各対象物は、ある実
世界の実在物を表し、ビューワは、これらの実在物に対応するスクリーンの部分
を、それが描写する有意な対象物と関連付ける。意味ビデオ対象物は、コンテン
ツをベースとする通信、マルチメディア信号処理、デジタルビデオライブラリ、
デジタル映画スタジオ、およびコンピュータの画面(vision)とパターン
の認識を含む、様々な新しいデジタルビデオの応用分野で非常に有用である。意
味ビデオ対象物をこれらの応用分野で使用するために、対象物の分割(セグメン
テーション)と追跡の方法は、各ビデオフレームにおいて対象物を識別する必要
がある。BACKGROUND OF THE INVENTION Semantic video objects represent significant entities of digital video clips, such as balls, cars, airplanes, buildings, cells, eyes, lips, hands, and heads. The term "meaning" in this context means that the viewer of the video clip associates a meaning with the object. For example, each object listed above represents certain real world entities, and the viewer associates the portion of the screen corresponding to these entities with the significant objects that it depicts. Semantic video objects include content-based communications, multimedia signal processing, digital video libraries,
It is very useful in a variety of new digital video applications, including digital cinema studios and computer screen and pattern recognition. In order to use semantic video objects in these applications, object segmentation and tracking methods need to identify the objects in each video frame.
【0003】 ビデオ対象物を分割するプロセスは、一般に、画像データ中の関係のある対象
物を抽出する、自動化または半自動化された方法を指す。ビデオクリップから意
味ビデオ対象物を抽出することは、依然として長年わたる挑戦的な課題である。
典型的なビデオクリップでは、意味対象物は、断片的な構成要素と、異なる色、
複数の剛体運動/非剛体運動とを含む。意味対象物は、聴視者が認識することは
容易であるが、意味対象物の形、色、および運動が非常に多様であるために、こ
のプロセスをコンピュータ上で自動化することは困難である。最初のフレームで
意味対象物の最初の輪郭をユーザに描かせ、次いでその輪郭を使用して、そのフ
レームの対象物の部分である画素を計算させることによって、満足な結果を達成
することができる。各連続フレームにおいて、運動の推定を使用して、先行フレ
ームからの分割した対象物に基づいて、対象物の最初の境界を予測することがで
きる。この半自動対象物分割追跡方法は、Chuang GuとMing Ch
ieh LeeによるSemantic Video Object Segm
entation and Trackingという名称の、同時継続中の米国
特許出願第09/054,280号に記載されており、本明細書でも参考文献に
よって組み込まれている。[0003] The process of segmenting video objects generally refers to an automated or semi-automated method of extracting relevant objects in image data. Extracting semantic video objects from video clips remains a challenging task for many years.
In a typical video clip, semantic objects consist of fragmentary components, different colors,
Includes multiple rigid / non-rigid motions. Although semantic objects are easy for a viewer to recognize, it is difficult to automate this process on a computer due to the wide variety of shapes, colors, and movements of semantic objects. . Satisfactory results can be achieved by having the user draw the first outline of the semantic object in the first frame and then using that outline to calculate the pixels that are part of the object in that frame. . In each successive frame, motion estimation can be used to predict an initial boundary of the object based on the segmented object from the previous frame. This semi-automatic object division tracking method is based on Chuang Gu and Ming Ch.
Semantic Video Object Segm by ie Lee
It is described in co-pending US patent application Ser. No. 09 / 054,280, entitled "entation and Tracking," which is hereby incorporated by reference.
【0004】 対象物の追跡は、対象物がフレームからフレームに移動するときに、対象物の
位置を計算するプロセスである。より一般的な意味ビデオ対象物に対処するため
に、対象物追跡方法は、断片的な構成要素と複数の非剛体運動を含んでいる対象
物に対処することができなければならない。研究の大半は対象物追跡に費やされ
てきたが、現存の方法は、依然として、非剛体運動をする複数の構成要素を有す
る対象物を正確に追跡しない。[0004] Tracking an object is the process of calculating the position of an object as it moves from frame to frame. To address more general semantic video objects, object tracking methods must be able to address objects that contain fragmentary components and multiple non-rigid motions. Although much of the research has been devoted to object tracking, existing methods still do not accurately track objects with multiple components that make non-rigid motions.
【0005】 追跡技術のいくつかは、基準として同一グレイスケール/カラー使用して、領
域を追跡する。1992年5月、イタリア、サンタマルゲリータ、ECCV′9
2、pp.476〜484のF.MeyerとP.Bouthemyによる「R
egion−based tracking in an image seq
uence」、1995年6月、Proceeding of the IEE
E、Vol.83、No.6、PP.843〜857のPh.Salembie
r、L.Torres、F.Meyer、C.Guによる「Region−ba
sed video coding using mathematical
morphology」、1997年、2月、サンホゼ、VCIP′97、Vo
l.3024、No.1、pp.190〜199のF.MarquesとCri
stina Molinaによる「Object tracking for
content−based functionalities」、および19
97年10月、サンタバーバラ、ICIP′97、Vol.I、ページ113〜
116のC.Toklu、A.Tekalp、A.Erdemによる「Simu
ltaneous alpha map generation and 2−
D mesh tracking for multimedia appli
cations」を参照されたい。Some tracking techniques track an area using the same gray scale / color as a reference. May 1992, Santa Margherita, Italy, ECCV'9
2, pp. 476-484. Meyer and P.M. "R" by Bouthemy
egion-based tracking in an image seq
uence ", June 1995, Proceeding of the IEEE
E, Vol. 83, no. 6, PP. Ph. 84-857. Salembie
r, L.R. Torres, F.C. Meyer, C.I. "Region-ba" by Gu
sed video coding using material
morphology ", February 1997, San Jose, VCIP'97, Vo.
l. 3024, no. 1, pp. F. 190-199. Marques and Cri
"Object tracking for" by stina Molina
content-based functions ", and 19
October 1997, Santa Barbara, ICIP '97, Vol. I, pages 113-
116 C.I. Toklu, A .; Tekalp, A .; "Simu by Erdem
ltaneous alpha map generation and 2-
D mesh tracking for multimedia appli
See "sessions".
【0006】 ある者は、同一運動情報を使用して、運動する対象物を追跡する。例えば、1
994年9月、IEEE Trans.on Image Processin
g、 Vol.3、No.5.pp.625〜638のJ.WangとE.Ad
elsonによる「Representing moving images
with layers」、および1996年9月、スイス、ローザンヌ、IC
IP′96、Vol.I、pp.925〜928のN.BradyとN.O′C
onnorによる「Object detection and tracki
ng using an em−based motion estimati
on and segmentaion framework」を参照されたい
。[0006] Some people use the same motion information to track a moving object. For example, 1
In September 994, IEEE Trans. on Image Processin
g, Vol. 3, No. 5. pp. J. 625-638. Wang and E.W. Ad
"Representing moving images by Elson
with layers ", September 1996, Lausanne, Switzerland, IC
IP'96, Vol. I, pp. N. 925-928. Brady and N.M. O'C
"Object detection and tracki"
ng using an em-based motion estimati
See "on and segmentation framework".
【0007】 他の者は、空間基準と時間基準の組合わせを使用して、対象物を追跡する。1
992年5月、イタリア、サンタマルゲリータ、ECCV′92、pp.485
〜493のM.J.Blackによる「Combining intesity
and motion for incremental segmenta
tion and tracking over long image se
quences」、1995年、ニューヨーク、Plenum Press、M
ultimedia Communication and Video Co
ding、pp.233〜240のC.Gu、T.Ebrahimi、M.Ku
ntによる「Morphological moving object se
gmentation and tracking for content−
based video coding」、1996年5月、GA、アトランタ
、Proc.ICASSP′96、Vol.4、pp.1914〜1917のF
.Moscheni、F.Dufaux、M.Kuntによる「Object
tracking based on temporal、and spati
al information」、および1997年、10月、サンタバーバラ
、ICIP′97、Vol.II、ページ514〜517のC.GuとM.C.
Leeによる「Semantic video object segment
ation and tracking using mathematica
l morphology and perspective motion
model」を参照されたい。Others track objects using a combination of spatial and temporal references. 1
May 992, Santa Margherita, Italy, ECCV'92, pp. 485
M.-493. J. "Combining institution
and motion for incremental segmenta
Tion and tracking over long image se
quences ", 1995, New York, Plenum Press, M.
ultmedia Communication and Video Co
ding, pp. 233 to 240; Gu, T .; Ebrahim, M .; Ku
"Morphological moving object se
gmentation and tracking for content-
based video coding, "May 1996, GA, Atlanta, Proc. ICASSP '96, Vol. 4, pp. 1914-1917 F
. Moscheni, F.C. Dufaux, M .; "Object by Kunt
tracking based on temporal, and spati
al information ", and October 1997, Santa Barbara, ICIP'97, Vol. II, pages 514-517, C.I. Gu and M.M. C.
Lee's "Semantic video object segment"
ation and tracking using materialatica
l morphology and perspective motion
model ".
【0008】 これらの技術のほとんどは、先行する領域/対象物を現在のフレームに射影し
、現在のフレームで射影された領域/対象物をなんとか組み立てる/調整する順
方向追跡メカニズムを使用する。これらの順方向技術の主な欠点は、現在のフレ
ームで射影領域を組み立てる/調整すること、または複数の非剛体運動に対処す
ることが困難なことである。これらの場合の多くでは、不確定なホールが出現す
るか、または結果的に境界が歪む可能性がある。[0008] Most of these techniques use a forward tracking mechanism that projects a preceding region / object into the current frame and manages to assemble / adjust the projected region / object in the current frame. A major drawback of these forward techniques is that it is difficult to assemble / adjust the projection area in the current frame or to cope with multiple non-rigid motions. In many of these cases, indeterminate holes may appear or result in distorted boundaries.
【0009】 図1A〜Cは、対象物追跡に関連する困難を示す、意味ビデオ対象物の簡単な
例を提供する。図1Aは、複数の色102、104を含んでいる建物100の意
味ビデオ対象物を示す。対象物が同一の色を有すると仮定する方法は、これらの
種類の対象物をうまく追跡しない。図1Bは、図1Aと同じ建物対象物を示すが
、部分的に建物を遮っている木110によって断片的な構成要素106、108
に分割されている点が異なる。対象物が画素の接続されたグループから形成され
ていると仮定する方法は、これらの種類の断片的な対象物をうまく追跡しない。
最後に、図1Cは、人112を表す簡単な意味ビデオ対象物を示す。この簡単な
対象物でさえ、異なる運動をする複数の構成要素114、116、118、12
0を有する。対象物は同一な運動を有すると仮定する方法は、これらの種類の対
象物をうまく追跡しない。一般に、意味ビデオ対象物は、断片的な構成要素と、
複数の色と、複数の運動と、任意の形状を有することが可能である。FIGS. 1A-C provide a simple example of a semantic video object showing the difficulties associated with object tracking. FIG. 1A shows a semantic video object of a building 100 that includes a plurality of colors 102,104. Methods that assume that objects have the same color do not track these types of objects well. FIG. 1B shows the same building object as FIG. 1A, but with fragmented components 106, 108 due to trees 110 partially obstructing the building.
Is different. Methods that assume that objects are formed from connected groups of pixels do not track these types of fragmentary objects well.
Finally, FIG. 1C shows a simple semantic video object representing the person 112. Even for this simple object, a plurality of components 114, 116, 118, 12 with different movements
Has zero. Methods that assume that objects have the same motion do not track these types of objects well. In general, semantic video objects are fragmented components,
It is possible to have multiple colors, multiple movements, and arbitrary shapes.
【0010】 一般的な意味ビデオ対象物のこれらの属性を取り扱うことに加えて、追跡方法
は、許容可能な正確さのレベルを達成し、エラーがフレームからフレームに伝搬
することを回避しなければならない。通常、対象物追跡方法は、先行フレームの
区分に基づいて各フレームを区切るので、先行フレームのエラーは、次のフレー
ムに伝搬する傾向がある。追跡方法が、画素的な正確で対象物の境界を計算しな
い場合には、重大なエラーが次のフレームに伝搬する可能性がある。その結果、
各フレームについて計算された対象物の境界は精密ではなく、いくつかのフレー
ムを追跡した後、対象物が失われることがある。[0010] In addition to dealing with these attributes of the general semantic video object, the tracking method must achieve an acceptable level of accuracy and avoid errors from propagating from frame to frame. No. Typically, the object tracking method delimits each frame based on the segmentation of the previous frame, so errors in the previous frame tend to propagate to the next frame. If the tracking method does not calculate pixel boundaries with pixel accuracy, significant errors can propagate to the next frame. as a result,
The object boundaries calculated for each frame are not precise, and after tracking several frames, objects may be lost.
【0011】 (発明の概要) 本発明は、ベクトル画像シーケンスにおいて、意味対象物を追跡する方法を提
供する。本発明は、デジタルビデオクリップにおいて意味ビデオ対象物を追跡す
ることに特に適しているが、様々な他のベクトル画像シーケンスに使用すること
もできる。この方法は、ソフトウエアプログラムのモジュールで実現されるが、
デジタルハードウエア論理、またはハードウエア構成要素とソフトウエア構成要
素の組合わせで実現することもできる。SUMMARY OF THE INVENTION The present invention provides a method for tracking semantic objects in a vector image sequence. The invention is particularly suitable for tracking semantic video objects in digital video clips, but can also be used for various other vector image sequences. This method is realized by a module of a software program.
It can also be implemented in digital hardware logic, or a combination of hardware and software components.
【0012】 この方法は、フレームから領域を分割し、次いで分割した領域を、1つまたは
複数の意味対象物の境界が既知である目標フレームに射影することによって、画
像シーケンスにおいて意味対象物を追跡する。射影領域は、それが目標フレーム
の意味対象物と重複する程度を決定することによって、意味対象物の形成部分と
して分類される。例えば、通常の応用では、追跡方法は、各フレームに対し、意
味対象物の境界が以前に計算されている先行フレームに領域を射影することによ
って領域を分類することを繰り返す。The method tracks semantic objects in an image sequence by segmenting a region from a frame and then projecting the segmented region onto a target frame at which one or more semantic object boundaries are known. I do. The projection region is classified as a forming part of the semantic object by determining the extent to which it overlaps the semantic object of the target frame. For example, in a typical application, the tracking method repeats, for each frame, classifying the region by projecting the region into a previous frame where the semantic object boundaries have been previously calculated.
【0013】 追跡方法は、意味対象物が、最初のフレームですでに識別されていると仮定す
る。意味対象物の最初の境界を得るために、意味対象物分割方法を使用して、最
初のフレームにおいて意味対象物の境界を識別することが可能である。The tracking method assumes that semantic objects have already been identified in the first frame. To obtain the initial boundary of the semantic object, it is possible to identify the boundary of the semantic object in the first frame using the semantic object division method.
【0014】 最初のフレームの後、追跡方法は、先行フレームの分割結果および現在と先行
する画像フレームの分割結果に基づいて動作する。シーケンスの各フレームに対
し、領域抽出処理(region extractor)は、同一領域をフレー
ムから分割する。次いで、運動推定処理(motion estimator)
で、これらの領域のそれぞれに対して領域をベースとする整合を実行し、先行フ
レームで最も密接に整合しているイメージの値の領域を識別する。このステップ
で得られた運動パラメータを使用して、分割境界がすでに計算されている先行フ
レームに、分割した領域を射影する。次いで、領域分類処理(region c
lassification)は、射影された領域が先行フレームの意味対象物
と重複する程度に基づいて、現在のフレームの意味対象物の部分として領域を分
類する。[0014] After the first frame, the tracking method operates based on the segmentation results of the preceding frame and the current and preceding image frames. For each frame of the sequence, a region extractor divides the same region from the frame. Next, a motion estimator (motion estimator)
Perform region-based matching on each of these regions to identify the region of the image value that is most closely matched in the previous frame. Using the motion parameters obtained in this step, the divided area is projected onto the preceding frame in which the division boundary has already been calculated. Next, an area classification process (region c)
classification classifies a region as a part of the semantic object of the current frame based on the degree to which the projected region overlaps with the semantic object of the preceding frame.
【0015】 上述の手法は、フレームの順序付けられたシーケンス上で動作する場合特に適
している。これらの種類の応用では、先行フレームの分割結果を使用して、次の
フレームから抽出した領域を分類する。しかし、入力フレームと、意味対象物の
境界が既知である他の任意の目標フレームとの間で、意味対象物を追跡するため
に使用することもできる。[0015] The above approach is particularly suitable when operating on an ordered sequence of frames. In these types of applications, the segmentation result of the previous frame is used to classify regions extracted from the next frame. However, it can also be used to track semantic objects between the input frame and any other target frame whose semantic object boundaries are known.
【0016】 方法のある実装では、独自の空間分割方法を使用する。特に、この空間分割方
法は領域発生プロセスであり、このプロセスでは領域の点に対する最小のイメー
ジの値と最大のイメージの値の差が閾値より小さい限り、イメージの点が領域に
追加される。この方法は、シーケンシャル分割方法として実現され、ある開始点
の第1領域で開始し、同じテストを用いて次々にシーケンシャル領域を形成して
、イメージの点の同一グループを識別する。Some implementations of the method use a unique spatial partitioning method. In particular, this spatial partitioning method is a region generation process in which image points are added to a region as long as the difference between the minimum and maximum image values for the region points is less than a threshold. The method is implemented as a sequential partitioning method, starting with a first region at a certain starting point and forming successive regions one after another using the same test to identify the same group of image points.
【0017】 方法の実装は、追跡方法の正確さを改善する他の特徴を含む。例えば、追跡方
法は、対象物の境界を不鮮明にせずに画像エラーを除去する領域ベースの前処理
と、計算した意味対象物境界に関する後処理を含むことが好ましい。対象物の計
算した境界は、目標フレームの同じ意味対象物に関連しているものとして分類さ
れた個々の領域から形成される。ある実装では、ポストプロセッサは、過半数オ
ペレータフィルタを用いて、意味対象物の境界を円滑化する。このフィルタは、
フレームの各点に対し近接するイメージの点を検査し、これらの点の最大数を含
む意味対象物を決定する。次いで、その点を点の最大数を含んでいる意味対象物
に割り当てる。The implementation of the method includes other features that improve the accuracy of the tracking method. For example, the tracking method preferably includes region-based pre-processing to remove image errors without blurring object boundaries and post-processing on calculated semantic object boundaries. The calculated boundaries of the object are formed from the individual regions classified as being associated with the same semantic object in the target frame. In some implementations, the post-processor uses a majority operator filter to smooth semantic object boundaries. This filter is
Examine the points in the image that are close to each point in the frame and determine the semantic object that contains the maximum number of these points. The point is then assigned to the semantic object containing the maximum number of points.
【0018】 本発明の他の利点および特徴は、以下の詳細な説明と添付の図によって明らか
になるであろう。[0018] Other advantages and features of the present invention will become apparent from the following detailed description and the accompanying drawings.
【0019】 (詳細な説明) 意味対象物追跡システムの概要 以下のセクションで、意味対象物追跡方法について説明する。この方法は、最
初のフレーム(I−フレーム)に対する意味対象物が既知であると仮定する。こ
の方法の目的は、先行する意味区分画像と先行フレームからの情報に基づいて、
現在のフレームで意味区分画像を見つけることにある。Detailed Description Overview of Semantic Object Tracking System The following sections describe semantic object tracking methods. This method assumes that the semantic object for the first frame (I-frame) is known. The purpose of this method is based on the information from the preceding semantic segment image and the previous frame,
The purpose is to find a semantic segment image in the current frame.
【0020】 意味区分画像に関する基本的な観察は、区分画像の境界は、有意な実在物の物
理的な縁部に位置するということにある。物理的な縁部は、2つの接続された点
の間の位置であり、これらの点でのイメージの値(例えば、3色の色強度、グレ
イスケール値、運動ベクトル)は、著しく異なっている。追跡方法は、この観察
を利用し、分割と克服の戦略を用いて、意味ビデオ対象物追跡システムを解明す
る。A basic observation with semantic segmented images is that the boundaries of segmented images are located at the physical edges of significant entities. The physical edge is the location between two connected points, and the values of the image at these points (eg, three color intensities, grayscale values, motion vectors) are significantly different. . Tracking methods use this observation to solve semantic video object tracking systems using segmentation and overcoming strategies.
【0021】 第1に、追跡方法は、現在のフレームで物理的な縁部を見つける。これは、分
割方法、特に空間分割方法を用いて実現される。この分割方法の目的は、現在の
フレームで、同一イメージの値(例えば、色強度の3重線、グレイスケール値)
を有する全ての接続されている領域を抽出することである。第2に、追跡方法は
、現在のフレームで抽出された各領域を分類し、それが先行フレームのどの対象
物に属するかを決定する。この分類分析は、領域ベースの分類問題である。領域
ベースの分類問題が解明された後は、現在のフレームの意味ビデオ対象物は、抽
出および追跡されたことになる。First, the tracking method finds a physical edge in the current frame. This is achieved using a partitioning method, in particular a spatial partitioning method. The purpose of this segmentation method is to use the same image values (eg, color intensity triplets, grayscale values) in the current frame.
Is to extract all connected regions having Second, the tracking method classifies each region extracted in the current frame and determines to which object in the previous frame it belongs. This classification analysis is a region-based classification problem. After the region-based classification problem has been solved, the semantic video objects of the current frame have been extracted and tracked.
【0022】 図2は、意味ビデオ対象物追跡システムを示す図である。追跡システムは、以
下の5つのモジュールを備える。 1.領域前処理220 2.領域抽出222 3.領域ベースの運動推定224 4.領域ベースの分類226 5.領域の後処理228FIG. 2 is a diagram illustrating a semantic video object tracking system. The tracking system comprises the following five modules. 1. 1. Area pre-processing 220 Region extraction 222 3. 3. Region based motion estimation 224 4. Region-based classification 226 Post-processing of area 228
【0023】 図2では、以下の表記を使用する。 I i−フレームiに対する入力画像 S i−フレームiに対する空間分割の結果 M i−フレームiに対する運動パラメータ T i−フレームiに対する追跡結果In FIG. 2, the following notation is used. I i - frame input to the i image S i - result of the spatial division with respect to the frame i M i - motion to the frame i parameter T i - tracking results for frame i
【0024】 追跡方法は、最初のフレームI 0に対する意味ビデオ対象物が、すでに既知で
あると仮定する。最初のフレームから開始して、分割プロセスは、フレームの意
味対象物の境界を定義する最初の区分を決定する。図2では、I−分割ブロック
210が、意味ビデオ対象物を分割するプログラムを表す。このプログラムは、
最初のフレームI 0を取り入れ、意味対象物の境界を計算する。通常、この境界
は、2進またはアルファマスクとして表される。様々な分割の手法を使用して、
第1フレームに対する意味対象物を見つけることが可能である。The tracking method assumes that the semantic video object for the first frame I 0 is already known. Starting from the first frame, the segmentation process determines the first partition that defines the semantic object boundaries of the frame. In FIG. 2, I-divide block 210 represents a program for dividing a semantic video object. This program is
Incorporating the first frame I 0, to calculate the boundaries of the sense object. Typically, this boundary is represented as a binary or alpha mask. Using various splitting techniques,
It is possible to find a semantic object for the first frame.
【0025】 GuとLeeによる同時継続中の米国特許出願第09/054,280号に記
載されているように、1つの手法は、ユーザが、意味ビデオ対象物の境界の内側
および外側の回りで境界を描くことができる描写用ツールを提供することである
。次いで、このユーザが描いた境界は、計算した境界を意味ビデオ対象物の縁部
にスナップする自動化方法のための開始点として役立つ。関連のある複数のビデ
オ対象物を含んでいるアプリケーションでは、I−分割プロセス210は、各対
象物についてマスクなどの区分画像を計算する。As described in co-pending US patent application Ser. No. 09 / 054,280 by Gu and Lee, one approach is to allow the user to move around the inside and outside boundaries of semantic video objects. The purpose is to provide a drawing tool capable of drawing a boundary. This user-drawn border then serves as a starting point for an automated method that snaps the calculated border to the edges of the semantic video object. For applications involving multiple video objects of interest, the I-segmentation process 210 computes a segmented image, such as a mask, for each object.
【0026】 最初のフレームで使用した後処理ブロック212は、最初の区分画像を円滑化
し、エラーを除去するプロセスである。このプロセスは、後続フレームI 1、I 2 で意味ビデオ対象物を追跡する結果を処理するために使用する後処理と同一ま
たは類似のものである。The post-processing block 212 used in the first frame smoothes the first segmented image
And remove the error. This process is used for subsequent framesI 1,I 2 Is the same as post-processing used to process the results of tracking semantic video objects in
Or similar.
【0027】 次のフレーム(I 1)で開始する追跡プロセスのための入力は、先行フレーム I 0 と先行フレーム分割の結果T 0を含む。破線216は、各フレームに対する
処理を分離する。破線214は、最初のフレームと次のフレームに対する処理を
分離するが、破線216は、意味ビデオ対象物がフレームを追跡する間、後続フ
レームに対する処理を分離する。The next frame (I 1) Input for the tracking process starting with the preceding frame I 0 And result of previous frame divisionT 0including. Dashed line 216 indicates for each frame
Separate processing. A dashed line 214 indicates processing for the first frame and the next frame.
Separation, but dashed line 216, indicates that subsequent semantic video
Separate processing for frames.
【0028】 意味ビデオ対象物追跡は、フレームI 1で開始する。第1ステップでは、入力
フレームI 1を簡略化する。図2では、簡略化ブロック220が、他の分析の前
に入力フレームI 1を簡略化するために使用する領域前処理ステップを表す。多
くの場合、入力データは、追跡結果に悪影響を与える可能性がある雑音を含んで
いる。領域前処理は、雑音を除去し、他の意味対象物追跡が、クリーンな入力デ
ータ上で実行されることを保証する。The semantic video object tracking starts at frame I 1 . In the first step, to simplify the input frame I 1. In Figure 2, a simplified block 220 represents the region preprocessing step used to simplify the input frame I 1 before the other analysis. Often, the input data contains noise that can adversely affect the tracking results. Region pre-processing removes noise and ensures that other semantic object tracking is performed on clean input data.
【0029】 簡略化ブロック220は、分割方法が、接続された画素の領域をより正確に抽
出することを可能とするクリーンな結果を提供する。図2では、分割ブロック2
20は、入力フレームで同一イメージの値を有する接続された領域を抽出する空
間分割方法を表す。The simplification block 220 provides clean results that allow the segmentation method to more accurately extract the connected pixel regions. In FIG. 2, divided block 2
Reference numeral 20 denotes a space division method for extracting connected regions having the same image value in an input frame.
【0030】 各領域に対し、追跡システムは、接続された領域が、以前の意味ビデオ対象物
を源とするかを決定する。追跡段階が現在のフレームに対して完全であるとき、
現在のフレームにある意味ビデオ対象物の境界は、これらの接続された領域の境
界から構成される。したがって、空間分割は、現在のフレームに対し、信頼でき
る分割結果を提供すべきである。すなわち、いかなる領域も欠損するべきではな
く、いかなる領域もそれに属さない区域を含むべきではない。For each region, the tracking system determines whether the connected region is from a previous semantic video object. When the tracking stage is complete for the current frame,
The boundaries of the semantic video object in the current frame consist of the boundaries of these connected regions. Therefore, spatial partitioning should provide reliable partitioning results for the current frame. That is, no region should be missing, and no region should include an area that does not belong to it.
【0031】 接続された領域が、意味ビデオ対象物に属するかを決定する第1ステップでは
、接続領域と先行フレームの対応する領域とを整合することである。図2に示す
ように、運動推定ブロック226は、接続された領域と現在および先行フレーム
を入力として取り入れ、現在のフレームで各領域と最も密接に整合する、先行フ
レームの対応する領域を見つける。各領域に対し、運動推定ブロック226は運
動情報を提供し、現在のフレームの各領域が、先行フレームに由来する場所を予
測する。この運動情報は、先行フレームにある各領域の祖先の位置を示す。その
後で、この位置情報を使用して、現在の領域が、意味ビデオ対象物に属するかを
どうかを決定する。The first step in determining whether a connected region belongs to a semantic video object is to match the connected region with the corresponding region of the previous frame. As shown in FIG. 2, the motion estimation block 226 takes as input the connected regions and the current and previous frames and finds the corresponding region of the previous frame that most closely matches each region in the current frame. For each region, motion estimation block 226 provides motion information and predicts where each region of the current frame comes from the previous frame. This motion information indicates the position of the ancestor of each area in the preceding frame. The location information is then used to determine whether the current region belongs to a semantic video object.
【0032】 次に、追跡システムは、各領域が意味ビデオ対象物を源とするかについて各領
域を分類する。図2では、分類ブロック226は、各領域が源としている可能性
がある先行フレームで意味対象物を識別する。分類プロセスは、各領域に対する
運動情報を使用して、その領域が先行フレームに由来する場所を予測する。予測
した領域を先行フレームの分割結果と比較することによって、分類プロセスは、
予測した領域が意味対象物または先行フレームに対してすでに計算された対象物
と重複する程度を決定する。この分類プロセスの結果は、現在のフレームの各領
域を意味ビデオ対象物または背景と関連付ける。現在のフレームで追跡された意
味ビデオ対象物は、先行フレームの対応する意味ビデオ対象物と連結された全て
の領域の集合(union)を備える。Next, the tracking system classifies each region as to whether each region is derived from a semantic video object. In FIG. 2, the classification block 226 identifies semantic objects in previous frames that each region may be a source of. The classification process uses the motion information for each region to predict where that region comes from the previous frame. By comparing the predicted region to the segmentation result of the previous frame, the classification process
Determine the extent to which the predicted region overlaps the semantic object or the object already calculated for the previous frame. The result of this classification process associates each region of the current frame with a semantic video object or background. The semantic video object tracked in the current frame comprises a union of all regions concatenated with the corresponding semantic video object in the previous frame.
【0033】 最後に、追跡システムは、各対象物に対して連結領域を後処理する。図2では
、後処理ブロック228が、現在のフレームで各意味ビデオ対象物の獲得された
境界を微調整する。このプロセスは、分類手続きで導入されたエラーを除去し、
境界を円滑化して視覚効果を改善する。Finally, the tracking system post-processes the connected area for each object. In FIG. 2, a post-processing block 228 refines the acquired boundaries of each semantic video object in the current frame. This process removes any errors introduced in the classification process,
Smooth borders to improve visual effects.
【0034】 各後続フレームに対し、追跡システムは、先行フレームと、先行フレームの追
跡結果と、現在のフレームとを入力として使用して、自動化形態で同じステップ
を繰り返す。図2は、フレームI 2に対して反復された処理ステップの例を示す
。ブロック240〜248は、次のフレームに適用された追跡システムのステッ
プを表す。For each subsequent frame, the tracking system repeats the same steps in an automated fashion, using the previous frame, the tracking result of the previous frame, and the current frame as inputs. Figure 2 shows an example of the processing steps are repeated for the frame I 2. Blocks 240-248 represent the steps of the tracking system applied to the next frame.
【0035】 様々な順方向追跡メカニズムを使用する他の領域と対象物の追跡システムと異
なり、図2に示す追跡システムは、逆方向追跡を実行する。逆方向の領域をベー
スとする分類の手法は、空間分割の結果として、最終の意味ビデオ対象物の境界
が、常に有意な実在物の物理的な縁部に位置するという利点を有する。また、各
領域が個々に取り扱われるので、追跡システムは、容易に断片的な意味ビデオ対
象物または非剛体運動に対処することができる。Unlike other area and object tracking systems that use various forward tracking mechanisms, the tracking system shown in FIG. 2 performs backward tracking. The reverse domain-based classification approach has the advantage that as a result of the spatial division, the boundaries of the final semantic video object are always located at the physical edge of the significant entity. Also, since each region is treated individually, the tracking system can easily cope with fragmented semantic video objects or non-rigid motion.
【0036】 定義 追跡システムの実装について説明する前に、これ以降の説明を通して使用する
一連の定義から始めることが助けになろう。これらの定義は、追跡方法が、カラ
ーのビデオフレームのシーケンスだけでなく、複数次元画像データの他の時間的
シーケンスについても適用されることを示すの助けになる。このコンテキストで
は、「複数次元」は、各離散イメージの点の空間的座標、並びにその点でのイメ
ージの値を指す。画像データの時間的シーケンスは、それが複数次元データアレ
イの連続フレームからなるので、「ベクトル画像シーケンス」と呼ぶことができ
る。ベクトル画像シーケンスの例として、下記の表1に列挙した例について考え
る。Definitions Before describing the implementation of the tracking system, it will be helpful to start with the set of definitions used throughout the following description. These definitions help indicate that the tracking method applies not only to sequences of colored video frames, but also to other temporal sequences of multi-dimensional image data. In this context, "multi-dimensional" refers to the spatial coordinates of each discrete image point, as well as the value of the image at that point. A temporal sequence of image data can be referred to as a "vector image sequence" because it consists of consecutive frames of a multidimensional data array. As examples of vector image sequences, consider the examples listed in Table 1 below.
【0037】[0037]
【表1】 [Table 1]
【0038】 次元nは、画像サンプルの空間座標における次元の数を指す。次元mは、画像
サンプルの空間座標に位置するイメージの値の次元の数を指す。例えば、カラー
ボリューム画像シーケンスの空間座標は、3次元空間における画像サンプルの位
置を定義する3つの空間座標を含み、したがってn=3である。カラーボリュー
ム画像の各サンプルは、3つのカラーの値R、G、およびBを有し、したがって
m=3である。The dimension n refers to the number of dimensions in the spatial coordinates of the image sample. The dimension m refers to the number of dimensions of the value of the image located at the spatial coordinates of the image sample. For example, the spatial coordinates of a color volume image sequence include three spatial coordinates that define the position of the image sample in three-dimensional space, and therefore n = 3. Each sample of the color volume image has three color values R, G, and B, and therefore m = 3.
【0039】 以下の定義は、集合およびグラフの理論表記を用いて、ベクトル画像のコンテ
キストで追跡システムを説明する基礎を与える。The following definitions provide a basis for describing a tracking system in the context of a vector image, using theoretical notation for sets and graphs.
【0040】 定義1 接続点: Sはn次元の集合とする。点p∈S⇒p=(p1、...、pn)。∀p、q
∈S、pとqは、その距離Dp、qが1に等しい場合のみ接続されている。Definition 1 Connection Point: S is an n-dimensional set. The point p∈ S ⇒p = (p1,..., Pn ). ∀p, q
∈ S , p and q are connected only when their distance D p, q is equal to one.
【0041】[0041]
【数1】 (Equation 1)
【0042】 定義2 接続経路: P(P⊆S)は、m個の点p1、...pmからなる経路とする。経路Pは、
pkとpk+1(k∈{1、...、m−1}が接続点である場合のみ接続され
ている。[0042] Definition 2 connection path: P (P ⊆ S) is, m number of points p1,. . . a route consisting of a p m. The route P is
p k and p k + 1 (k∈ {1 , ..., m-1} is connected only when a connection point.
【0043】 定義3 近接点: R(R⊆S)は領域とする。点[0043] Definition 3 near point: R (R ⊆ S) is a region. point
【0044】[0044]
【数2】 (Equation 2)
【0045】 は、∃他の点q(q∈R)pとqが接続点である場合のみ領域Rに近接する。[0045] is proximate only area R if ∃ another point q (q∈ R) p and q are connected points.
【0046】 定義4 接続領域: R(R⊆S)は領域とする。Rは、∀x、y∈R、∃接続経路P(P={p1 、...pm、})でp1=xおよびPn=yである場合のみ接続領域である。[0046] Definition 4 connection region: R (R ⊆ S) is a region. R is, ∀x, y∈ R, ∃ connection path P (P = {p 1, ... p m,}) if a p 1 = x and P n = y is only connected area.
【0047】 定義5 区分画像: 区分画像Pは、写像(mapping)P:S→Tであり、Tは完全な順序付
けされた格子(lattice)である。R p(x)は、点x:R p(x)=∪ y∈S {y|P(x)=P(y)}を含む領域とする。区分画像は、次の条件を
満たさなければならない。∀x、y∈S、R p(x)=R p(y)またはR p(
x)∩R p(y)=φ;∪x∈S R p(x)=S。Definition 5 Segmented Image: A segmented image P is a mapping P:S→ T, where T is fully ordered
FIG.R p(X) is the point x:R p(X) = ∪ y∈S An area including {y | P (x) = P (y)}. Segmented images must meet the following conditions
Must meet. {X, y}S,R p(X) =R p(Y) orR p(
x) ∩R p(Y) = φ; ∪x∈S R p(X) =S.
【0048】 定義6 接続区分画像: 接続区分画像は、区分画像Pであり、∀x∈S、R p(x)は常に接続されて
いる。Definition 6 Connection Division Image: The connection division image is the division image P, and {x} S , R p (x) are always connected.
【0049】 定義7微細区分 区分画像Pが、S上の他の区分画像P′より微細である場合、これは、∀x∈ S 、R p(x)⊇R p′(x)を意味する。Definition 7 Fine Division The division image P isSIf it is finer than the other segmented image P 'above, this is {x} S ,R p(X) ⊇R p 'Means (x).
【0050】 定義8 粗区分: 区分画像Pが、S上の他の区分画像P′より粗である場合、これは、∀x∈S
、R p(x)⊆R p′(x)を意味する。[0050] Definition 8 crude Indicator: If partition image P is another segment crude from the image P 'on S, which, ∀X∈ S
Means R p (x) ⊆ R p '(x).
【0051】 区分画像に対して究極的な場合が2つある。一方は「最も粗い区分」であり、
これは、全てのS:∀x、y∈S、R p(x)=R p(y)に及ぶ。他方は「最
も微細な区分」であり、Sの各点は、個々の領域:∀x、y∈S、x≠y⇒R p (x)≠R p(y)である。There are two ultimate cases for a segmented image. One is the "coarse segment"
This is all the S: ∀x, y∈ S, up to R p (x) = R p (y). The other is the "finest classification", each point S, the individual regions: ∀x, a y∈ S, x ≠ y⇒ R p (x) ≠ R p (y).
【0052】 定義9 隣接領域: 2つの領域R 1とR 2は、∃x、y(x∈R 1およびy∈R 2)に対し、xと
yが接続点である場合のみ隣接する。[0052] Definition 9 adjacent regions: two areas R 1 and R 2, ∃x, to y (x ∈ R 1 and y∈ R 2), adjacent only when x and y are connected points.
【0053】 定義10 領域に隣接するグラフ: Pは複数次元集合S上の区分画像である。Pにはk(R 1、...、R k)の
領域があり、S=∪R i、およびi≠j⇒R i∩R j=φである。領域隣接グラ
フ(RAG)は、頂点Vの集合と縁部の集合Lとからなる。V={v1、...
、vk}とし、各viは、対応する領域R iに関連付けられている。縁部の集合 L は、{e1、...、et}、Definition 10: Graph adjacent to area: P is a multidimensional setSIt is an upper division image. P has k (R 1,. . . ,R k)of
There is an area,S= ∪R i, And i ≠ j⇒R i∩R j= Φ. Area adjacent graph
RAG is the vertexVSet and edge setLConsists ofV= {V1,. . .
, Vk} And each viIs the corresponding areaR iAssociated with Set of edges L Is {e1,. . . , Et},
【0054】[0054]
【数3】 (Equation 3)
【0055】 であり、各eiは、2つの対応する領域が隣接領域である場合、2つの頂点の間
に構築される。[0055] a, wherein each e i has two corresponding regions may be contiguous region, is built between two vertices.
【0056】 図3A〜Cは、異なる種類の区分画像の例を示し、図3Dは、これらの区分画
像に基づく領域隣接グラフの例を示す。これらの例では、Sは、2次元画像の集
合である。白区域300〜308と、斜線区域310〜314と、点区域316
とは、2次元画像フレームでの異なる領域を表す。図3Aは、2つの断片的な領
域(白区域300と302)を有する区分画像を示す。図3Bは、2つの接続領
域(白区域304と斜線区域312)を有する接続区分画像を示す。図3Cは、
図3Aの斜線区域が、2つの領域、斜線区域314と点区域316を備えるとい
う点で、図3Aと比較してより微細な区分画像を示す。図3Dは、図3Cの区分
画像の対応する領域隣接グラフを示す。グラフの頂点320、322、324、
326は、それぞれ領域306、314、316、308に対応する。縁部33
0、332、334、336、および338は、隣接領域の頂点を接続する。3A to 3C show examples of different types of segmented images, and FIG. 3D shows an example of an area adjacency graph based on these segmented images. In these examples, S is a set of two-dimensional images. White areas 300 to 308, hatched areas 310 to 314, and point areas 316
Represents different regions in the two-dimensional image frame. FIG. 3A shows a segmented image having two fragmentary regions (white areas 300 and 302). FIG. 3B shows a connection section image having two connection areas (white area 304 and hatched area 312). FIG. 3C
3A shows a finer segmented image as compared to FIG. 3A in that the shaded area of FIG. 3A comprises two regions, a shaded area 314 and a point area 316. FIG. 3D shows a corresponding region adjacency graph of the segmented image of FIG. 3C. Vertices 320, 322, 324 of the graph,
326 corresponds to the regions 306, 314, 316, and 308, respectively. Rim 33
0, 332, 334, 336, and 338 connect the vertices of adjacent regions.
【0057】 定義11 ベクトル画像シーケンス: 積Definition 11 Vector Image Sequence: Product
【0058】[0058]
【数4】 (Equation 4)
【0059】 のm(m≧1)個の完全に順序付けされた完全格子L1、...、Lmを与えら
れた場合、ベクトル画像シーケンスは、写像I t:S→Lのシーケンスであり、 S はn次元の集合で、tは時間領域にある。M (m ≧ 1) fully ordered complete lattices L1,. . . , LmGiven
The vector image sequence is mappedI t:S→LIs the sequence of S Is an n-dimensional set, and t is in the time domain.
【0060】 いくつかの種類のベクトル画像シーケンスを表1に示す。これらのベクトル画
像シーケンスは、カラー画像などの一連のセンサ、または濃度(dense)運
動の場などの計算されたパラメータスペースから獲得することができる。入力信
号の物理的な意味は場合ごとに異なるが、それらは全て例外なくベクトル画像シ
ーケンスと見なされる。Some types of vector image sequences are shown in Table 1. These vector image sequences can be obtained from a series of sensors, such as color images, or from a calculated parameter space, such as a field of dense motion. Although the physical meaning of the input signals varies from case to case, they are all without exception considered vector image sequences.
【0061】 定義12 意味ビデオ対象物: Iは、n次元集合S上のベクトル画像とする。Pは、Iの意味区分画像とする
。S=∪i=1、...、m O iであり、各O iは、意味ビデオ対象物の位置を
示す。Definition 12 Semantic Video Object: Let I be a vector image on an n-dimensional set S. P is a semantic division image of I. S = ∪i = 1,. . . , M O i , where each O i indicates the location of a semantic video object.
【0062】 定義13 意味ビデオ対象物分割: Iは、n次元集合S上のベクトル画像とする。意味ビデオ対象物分割は、対象
物の数mと各対象物O iの位置を見つけるものとする。Definition 13 Meaning Video Object Division: Let I be a vector image on an n-dimensional set S. Means video object division shall locate the number of objects m and each object O i.
【0063】 i=1、...、m、でS=∪i=1、...、m O iである。For i = 1,. . . , M, S = ∪i = 1,. . . , M O i .
【0064】 定義14 意味ビデオ対象物追跡: I t−1は、n次元集合Sの上のベクトル画像であり、Pt−1は、時間t−
1での対応する意味区分画像とする。S=∪i=1、...、m O t−1、iで
ある。各O t−1、i(i=1、...、m)は、時間t−1での意味ビデオ対
象物である。I tの意味ビデオ対象物追跡は、時間t、i=1、...、mで意
味ビデオ対象物を見つけるときに定義される。∀x∈O t−1、iおよび∀y∈ O t、i :Pt−1(x)=Pt(y)である。Definition 14 Semantic Video Object Tracking:I t-1Is an n-dimensional setSVector image abovet-1Is the time t-
1, and the corresponding semantic division image.S= ∪i = 1,. . . , M O t-1, iso
is there. eachO t-1, i(I = 1,..., M) is the semantic video pair at time t−1
It is an elephant.I tThe video object tracking at time t, i = 1,. . . , M means
Defined when finding a taste video object. ∀x∈O t-1,iAnd {y} O t, i : Pt-1(X) = Pt(Y).
【0065】 実装例 以下のセクションでは、特定の意味ビデオ対象物追跡方法について、より詳細
に説明する。図4は、以下で説明する実装の主要な構成要素を示すブロック図で
ある。図4の各ブロックは、上記で略述した対象物追跡方法の部分を実現するプ
ログラムモジュールを表す。コスト、性能、および設計の複雑さなどの様々な考
慮事項に応じて、これらのモジュールのそれぞれは、デジタル論理回路において
も実現することが可能である。Example Implementation The following sections describe in more detail certain semantic video object tracking methods. FIG. 4 is a block diagram showing the main components of the implementation described below. Each block in FIG. 4 represents a program module that implements part of the object tracking method outlined above. Depending on various considerations, such as cost, performance, and design complexity, each of these modules can also be implemented in digital logic.
【0066】 上記で定義した表記を用いて、図4に示す追跡方法は、入力として、時間t−
1での先行フレームの分割結果と現在のベクトル画像I tを取り入れる。現在の
ベクトル画像は、n次元集合S上の積L(定義11参照)のm個(m≧1)の完
全に順序付けされた完全格子L1、...、Lmにおいて定義されている。Using the notation defined above, the tracking method shown in FIG.
Dividing the result of the preceding frame at 1 and incorporating the present vector image I t. The current vector image consists of m (m ≧ 1) fully ordered complete grids L 1 ,... Of the product L (see Definition 11) on the n-dimensional set S. . . , Defined in L m.
【0067】 ∀p、q∈S、I t(p)={L1(p)、L2(p)、...、Lm(p)
}[0067] ∀p, q∈ S, I t ( p) = {L 1 (p), L 2 (p) ,. . . , L m (p)
}
【0068】 この情報を用いて、追跡方法は、シーケンスの各フレームに対し、区分画像を
計算する。分割の結果は、各フレームで各意味対象物の位置を識別するマスクで
ある。各マスクは、各フレームで、それがどの対象物に対応するかを識別する対
象物番号を有する。Using this information, the tracking method calculates a segmented image for each frame of the sequence. The result of the division is a mask that identifies the position of each semantic object in each frame. Each mask has, in each frame, an object number that identifies which object it corresponds to.
【0069】 例えば、表1で定義されているカラー画像シーケンスについて考察する。各点
pは、2次元画像の画素を表す。集合Sの点の数は、各画像フレームの画素の数
に対応する。各画素での格子は、赤、緑、および青の強度値に対応する3つのサ
ンプル値を備える。追跡方法の結果は、各フレームに対する対応する意味ビデオ
対象物の部分を形成する全ての画素の位置を識別する一連の2次元マスクである
。For example, consider the color image sequence defined in Table 1. Each point p represents a pixel of the two-dimensional image. The number of points in the set S corresponds to the number of pixels in each image frame. The grid at each pixel comprises three sample values corresponding to the red, green, and blue intensity values. The result of the tracking method is a series of two-dimensional masks that identify the location of all pixels that form part of the corresponding semantic video object for each frame.
【0070】 領域の前処理 図4に示す実装は、入力ベクトル画像を簡略化することによって、フレームに
対する処理を開始する。特に、簡略フィルタ420は、入力ベクトル画像全体を
クリーンにし、その後さらに処理を行う。この前処理段階の設計では、偽データ
を導入しない簡略方法を選択することが好ましい。例えば、低域通過フィルタは
、画像をクリーンにし滑らかにする可能性があるが、ビデオ対象物の境界を歪め
る可能性もある。したがって、入力ベクトル画像を簡略化し、同時に意味ビデオ
対象物の境界の位置を保持する方法を選択することが好ましい。Region Pre-Processing The implementation shown in FIG. 4 starts processing on frames by simplifying the input vector image. In particular, the simplified filter 420 cleans the entire input vector image and then performs further processing. In this pre-processing stage design, it is preferable to select a simplified method that does not introduce false data. For example, a low-pass filter may clean and smooth the image, but may also distort the boundaries of the video object. Therefore, it is preferable to select a method that simplifies the input vector image while retaining the position of the boundary of the semantic video object.
【0071】 中央値フィルタまたは形態フィルタなどの多くの非線形フィルタは、このタス
クのための候補である。現在の実装では、入力ベクトル画像の簡略化のために、
ベクトル中央値フィルタ、メジアン(Median)(・)を使用する。Many non-linear filters, such as median filters or morphological filters, are candidates for this task. In the current implementation, to simplify the input vector image,
Use a vector median filter, Median (•).
【0072】 ベクトル中央値フィルタは、入力画像の各点に対する近接点の中央イメージの
値を計算し、その点のイメージの値を中央値で置き換える。n次元集合Sのあら
ゆる点pに対し、構造要素Eは、それの回りで定義され、それは全ての接続点を
含んでいる(接続点に関する定義1参照)。The vector median filter calculates the value of the median image of a point adjacent to each point of the input image, and replaces the value of the image at that point with the median. For every point p in the n-dimensional set S , a structuring element E is defined around it, which includes all connection points (see definition 1 for connection points).
【0073】 E=∪q∈S{Dp、q=1} E = { q } S {D p, q = 1}
【0074】 点pのベクトル中央値は、構造要素E内の各構成要素の中央値として定義され
る。The vector median of the point p is defined as the median of each component in the structuring element E.
【0075】 メジアン(It(p))={中央値q∈E{L1(q)、...、中央値q∈ E {Lm(q)}}The median (I t (p)) = {median q∈E {L 1 (q),. . . Median q∈ E {L m (q) }}
【0076】 そのようなベクトル中央値フィルタを使用することによって、ベクトル画像I t の小さな変動を除去することができ、同時に、ビデオ対象物の境界が、構造要
素Eの空間的設計の下でうまく保持される。その結果、追跡プロセスは、より効
果的に、意味ビデオ対象物の境界を識別することができる。By using such a vector median filter, the vector imageI t Small fluctuations can be eliminated, while the boundaries of the video object are
ElementaryEWell maintained under the spatial design. As a result, the tracking process is more effective
Consequently, semantic video object boundaries can be identified.
【0077】 領域抽出 ベクトル入力画像をフィルタリングした後、追跡プロセスは、現在の画像から
領域を抽出する。これを達成するために、追跡プロセスは、現在の画像を取り入
れて、「同一」イメージの値を有する接続点の領域を識別する空間分割方法42
2を使用する。これらの接続領域は、領域ベースの運動推定424と領域ベース
の分類426で使用される点の領域である。Region Extraction After filtering the vector input image, the tracking process extracts regions from the current image. To achieve this, the tracking process takes a current image and identifies a space segmentation method 42 that identifies regions of connection points having "same" image values.
Use 2. These connection regions are regions of points used in region-based motion estimation 424 and region-based classification 426.
【0078】 領域抽出段階の実行において、取り組まなければならない主要な課題が3つあ
る。第1に、「同一」の概念を強固にする必要がある。第2に、領域の合計の数
を見つけるべきである。第3に、各領域の位置を固定しなければならない。ベク
トル画像データの分割に関係する文献は、様々な空間分割方法を記載している。
大半の一般的な空間分割方法は、下記のものを使用する。There are three main issues that need to be addressed in performing the region extraction stage. First, the concept of “identical” needs to be strengthened. Second, the total number of regions should be found. Third, the position of each region must be fixed. Documents relating to the division of vector image data describe various spatial division methods.
Most common spatial partitioning methods use the following.
【0079】 ・領域の同一性を定義する多項式関数 ・領域の数を見つける決定論的方法、および/または ・全ての領域の位置を最終決定する境界調整A polynomial function defining the identity of the regions; a deterministic method of finding the number of regions; and / or a boundary adjustment to finalize the position of all regions.
【0080】 これらの方法は、いくつかの応用例では満足な結果をもたらすことが可能であ
るが、非剛体運動と、断片的な領域と、複数の色を有する非常に多様な意味ビデ
オ対象物に対しては、正確な結果を保証しない。意味対象物を分類することがで
きる正確さは、領域の正確さに依存しているので、空間分割方法に要求される正
確さは、非常に高度なものとなる。分割段階後、いかなる意味対象物の領域も欠
損しておらず、いかなる領域もそれに属さない区域を含まないことが好ましい。
現在のフレームにある意味ビデオ対象物の境界は、これらの接続領域の全境界の
部分集合として定義されているので、その正確さは、追跡プロセスの結果の正確
さに直接影響する。境界が不正確な場合、結果的な意味ビデオ対象物の境界も不
正確になる。したがって、空間分割方法は、現在のフレームに対し、正確な空間
区分画像を提供するべきである。Although these methods can produce satisfactory results in some applications, non-rigid motion, fragmented regions, and a wide variety of semantic video objects with multiple colors Does not guarantee accurate results. Since the accuracy with which semantic objects can be classified depends on the accuracy of the region, the accuracy required for the space division method is very high. After the division step, it is preferred that no region of the semantic object is missing, and that no region contains a zone that does not belong to it.
Since the boundaries of the semantic video objects in the current frame are defined as a subset of the total boundaries of these connected regions, their accuracy directly affects the accuracy of the results of the tracking process. If the boundaries are incorrect, the resulting boundaries of the semantic video object will also be incorrect. Therefore, the spatial partitioning method should provide an accurate spatial segmentation image for the current frame.
【0081】 追跡方法の現在の実装では、LabelMinMaxと呼ばれる、新規で速い
空間分割方法を使用する。この特別の手法は、シーケンシャルの形態で、1度に
1つの領域を発生(grow)発生させる。この手法は、他の並行領域発生プロ
セス、すなわち、領域発生が任意のシードから始まる前に、全てのシードを特定
する必要のある他の並行領域発生プロセスとは異なる。シーケンシャル領域発生
方法は、領域を次々に抽出する。これにより、より柔軟に各領域を取り扱うこと
が可能となり、全体的な計算の煩雑さを低減する。The current implementation of the tracking method uses a new and fast space division method called LabelMinMax . This particular approach generates one region at a time, in a sequential fashion. This approach is different from other concurrent region generation processes, that is, the need to identify all seeds before region generation begins with any seed. The sequential area generation method extracts areas one after another. As a result, each area can be handled more flexibly, and the complexity of the overall calculation is reduced.
【0082】 領域の同一性は、領域の最大値と最小値の差によって制御される。入力ベクト
ル画像I tは、積Lの完全に順序付けされたm個(m≧1)の完全格子L1、.
..、Lmにおいて定義されていると仮定する(定義11参照)。The identity of an area is controlled by the difference between the maximum and minimum values of the area. Input vector image I t is completely lattice L 1 of m which are ordered full of product L (m ≧ 1),.
. . , It assumed to be defined in L m (see Definition 11).
【0083】 ∀p、q∈S、I t(p)={L1(p)、L2(p)、...、Lm(p)
}[0083] ∀p, q∈ S, I t ( p) = {L 1 (p), L 2 (p) ,. . . , L m (p)
}
【0084】 領域Rの最大値と最小値(MaxLとMinL)は、下式のように定義される
。The maximum value and the minimum value ( MaxL and MinL ) of the region R are defined as in the following expression.
【0085】[0085]
【数5】 (Equation 5)
【0086】 MaxLとMinLの差が、閾値(H={h1、h2、...、hm}より小
さい場合、その領域は同一である。 If the difference between MaxL and MinL is smaller than the threshold value ( H = {h 1 , h 2 ,..., H m }), the regions are the same.
【0087】 同一性;∀i、1≦i≦m、(maxp∈R{Li(p)}−minp∈R{L i (p)}≦hi [0087] Identity; ∀i, 1 ≦ i ≦ m , (max p∈R {L i (p)} - min p∈R {L i (p)} ≦ h i
【0088】 LabelMinMax方法は、次々に各領域に名前を付ける。n次元集合S
の点pから開始する。領域Rは、LabelMinMaxがその上で動作してい
る現在の領域と仮定する。開始時では、点p:R={p}のみを含んでいる。次
に、LabelMinMaxは、領域Rの全ての近接点(定義3参照)を検査し
、近接点qがその中に挿入されている場合に、領域Rが依然として同一であるか
を調べる。挿入によって領域の同一性を変更しない場合、点qは領域Rに追加さ
れる。点qが領域Rに追加されたとき、点qは集合Sから消去されるべきである
。領域Rは、徐々に、さらに近接点を追加することができない同一テリトリまで
拡大する。次いで、Sに残存している点からの点で、新しい領域が構築される。 S にもはや残存する点がなくなるまで、このプロセスが続く。プロセス全体は、
以下の疑似コードによって明瞭に説明することができる。[0088]LabelMinMaxThe method names each region in turn. n-dimensional setS
Starting from point p. regionRIsLabelMinMaxIs working on it
Suppose the current area is At the start, the point p:R= {P} only. Next
ToLabelMinMaxIs the areaRInspect all adjacent points (see Definition 3)
, When the proximity point q is inserted therein,RAre still the same
Find out. If insertion does not change the identity of the region, point q is the regionRAdded to
It is. Point q is the areaR, The point q is the setSShould be erased from
. regionRGradually up to the same territory where no further points can be added
Expanding. ThenSA new region is constructed in terms of the points remaining in. S This process continues until there are no more points remaining. The whole process is
This can be clearly explained by the following pseudo code.
【0089】 LabelMinMax: LabelMinMax:
【0090】[0090]
【数6】 (Equation 6)
【0091】 LabelMinMaxは、下記を含む多くの利点を有する。 LabelMinMax has many advantages, including:
【0092】 ・MaxLとMinLは、他の基準と比較して、領域の同一性について、より
精密な説明を提示する。 ・同一性の定義は、正確な領域をもたらす領域の同一性に対し、より厳密な制
御を与える。 ・LabelMinMaxは、信頼できる空間分割結果をもたらす。 ・LabelMinMaxは、多くの他の方法より、計算がはるかに煩雑でな
い。• MaxL and MinL provide a more precise description of the identity of the regions compared to other criteria. • The definition of identity gives more control over the identity of the regions that yields the exact region. LabelMinMax gives reliable spatial segmentation results. -LabelMinMax is much less complicated to calculate than many other methods.
【0093】 これらの利点により、LabelMinMaxは、空間分析に対しよい選択肢
となり、また、代替分割方法を使用して、接続領域を識別することが可能である
。例えば、他の領域発生方法は、異なる同一基準と「同一」領域のモデルを使用
して、追加の点を同一領域に追加するかを決定する。例えば、これらの基準は強
度の閾値を含んでおり、各新しい点と領域の近接点との強度の差が閾値を超えな
い限り、領域に点が追加される。また、同一基準は、領域の点の強度値が変動す
ることが可能であり、それでも依然として接続領域の部分と見なすことができる
方法について説明する数学的関数の観点から定義することが可能である。These advantages make LabelMinMax a good choice for spatial analysis, and also allow alternative partitioning methods to be used to identify connected regions. For example, other region generation methods use different same criteria and models of "same" regions to determine whether additional points are added to the same region. For example, these criteria include an intensity threshold, and points are added to the region as long as the difference in intensity between each new point and the neighboring points of the region does not exceed the threshold. Also, the same criterion can be defined in terms of a mathematical function that describes how the intensity values of points in the region can vary and still be considered part of the connected region.
【0094】 領域ベースの運動推定 領域ベースの運動推定424のプロセスは、分割プロセスによって識別された
領域のイメージの値と、先行フレームの対応するイメージの値とを整合し、領域
が先行フレームから移動した方法を推定する。このプロセスを示すために、以下
の例を考察する。I t−1は、時間t−1のn次元集合S上の先行ベクトル画像
とし、I tは、時間tの同じ集合S上にある現在のベクトル画像とする。領域抽
出手順は、現在のフレームI tでN個の同一領域R i(i=1、2、...、N
)を抽出する。Region-Based Motion Estimation The process of region-based motion estimation 424 matches the image values of the region identified by the segmentation process with the corresponding image values of the previous frame, and moves the region from the previous frame. Estimate the method used. To illustrate this process, consider the following example. I t-1 is the previous vector image on the time t-1 of the n-dimensional set S, I t is the current vector image on the same set S of time t. Region extraction procedure, N pieces in the current frame I t in the same region R i (i = 1,2, ... , N
) To extract.
【0095】 S=∪i−1、...、N R i S = { i−1,. . . , N R i
【0096】 ここで、追跡プロセスは次に進み、先行フレームの意味ビデオ対象物の正確に
1つに属するとして、各領域を分類する。追跡プロセスは、この領域ベースの分
類問題を、領域ベースの運動推定と補償を用いて解明する。現在のフレームI t の各抽出した領域R iに対し、運動推定手順を実行して、これらの領域が、先行
フレームI t−1で発生した場所を見つける。多くの運動モデルを使用すること
が可能であるが、現在の実装は、運動推定手順として並進運動モデルを使用する
。このモデルでは、運動推定手順は、その領域に関する予想エラー(PE)を最
小限に抑える領域R iに対する運動ベクトルV iを計算する。Here, the tracking process proceeds, classifying each region as belonging to exactly one of the semantic video objects of the preceding frame. The tracking process solves this region-based classification problem using region-based motion estimation and compensation. For each extracted region R i of the current frame I t, running motion estimation procedure, these regions, find a place that occurred in the previous frame I t-1. Although many motion models can be used, current implementations use a translational motion model as the motion estimation procedure. In this model, the motion estimation procedure computes a motion vector V i for region R i to minimize the expected error (PE) for that region.
【0097】[0097]
【数7】 (Equation 7)
【0098】 上式で‖・‖は、2つのベクトルの絶対的な差の合計を表し、V i≦V max (V maxは最大探索範囲)である。この運動ベクトルV iは、先行フレームI t−1 での軌跡の位置を示す領域R iに割り当てられる。In the above equation, ‖ · ‖ represents the sum of absolute differences between two vectors,V i≤V max (V maxIs the maximum search range). This motion vectorV iIs the preceding frameI t-1 Area indicating the position of the trajectory atR iAssigned to.
【0099】 他の運動モデルも同様に使用することが可能である。例えば、アフィンまたは
透視運動モデルを使用して、現在のベクトル画像の領域と、先行ベクトル画像の
対応する領域との間の運動をモデルすることができる。アフィンおよび透視運動
モデルは、幾何学的変換(例えば、アフィンまたは透視変換)を使用して、ある
フレームと他のフレームとの間の領域の運動を定義する。この変換は、領域のい
くつかの点に対する運動ベクトルを見つけ、次いで、選択した点での運動ベクト
ルを用いて連立方程式を解いて係数を計算することによって計算することが可能
な運動係数で表される。他の方式は、運動係数の最初の集合を選択し、次いでエ
ラー(例えば、絶対的な差の合計または2乗した差の合計)が閾値より小さくな
るまで繰り返す。[0099] Other motion models can be used as well. For example, an affine or perspective motion model can be used to model motion between a region of the current vector image and a corresponding region of the preceding vector image. Affine and perspective motion models use geometric transformations (eg, affine or perspective transformations) to define the motion of a region between one frame and another. This transformation is represented by motion coefficients that can be calculated by finding the motion vectors for some points in the region and then solving the system of equations using the motion vectors at the selected points to calculate the coefficients. You. Other schemes select an initial set of motion coefficients and then repeat until the error (eg, the sum of absolute differences or the sum of squared differences) is less than a threshold.
【0100】 領域ベースの分類 領域ベースの分類プロセス426は、運動情報を用いて各領域の位置を変更し
、先行フレームで領域の推定された位置を決定する。次いで、この推定位置を先
行フレーム(S t)の意味ビデオ対象物の境界と比較し、どの意味ビデオ対象物
の部分を最も形成しやすいかを決定する。Region-Based Classification The region-based classification process 426 uses the motion information to change the position of each region and determine the estimated position of the region in the previous frame. Then, as compared with the boundary of the meanings video object of this estimated position prior frame (S t), to determine the most easily form a portion of which means the video object.
【0101】 それを示すために、以下の例を考察する。I t−1とI tは、n次元集合S上
の先行および現在のベクトル画像とし、Pt−1は、時間t−1での対応する意
味区分画像とする。To illustrate, consider the following example. I t-1 and I t are the preceding and current vector images on n-dimensional set S, P t-1 is the corresponding mean division image at time t-1.
【0102】 S=∪i=1、...、m O t−1、i S = ∪i = 1,. . . , M O t−1, i
【0103】 各O t−1、i(i=1、...、m)は、時間t−1での意味ビデオ対象物
の位置を示す。N個の抽出された全領域R i(i=1、2、...、N)があり
、各領域は、現在のフレームで関連付けられた運動ベクトルV i(i=1、2、
...、N)を有すると仮定する。ここで、追跡方法は、時間tで現在の意味区
分画像Ptを構築することが必要である。Each O t−1, i (i = 1,..., M) indicates the position of the semantic video object at time t−1. There are N extracted total regions R i (i = 1, 2,..., N), and each region has an associated motion vector V i (i = 1, 2,...) In the current frame.
. . . , N). Here, tracking method, it is necessary to construct the current meaning segmented image P t at time t.
【0104】 追跡プロセスは、現在のフレームで、各領域R iに対し意味ビデオ対象物O t −1、j (j∈{1、2、...、m})を見つけることによって、このタスク
を履行する。The tracking process performs this task by finding a semantic video object O t −1, j ( j {1,2, ..., m}) for each region R i in the current frame. Is implemented.
【0105】 各領域R iに対する運動情報が、すでにこの段階で利用可能であるので、領域
分類装置426は、逆方向運動補償を用いて、現在のフレームの各領域R iを、
先行フレームに向けてワープする。領域に対する運動情報を、その領域の点に適
用することによって、領域をワープする。以前の領域にあるワープした領域をR
′ iと仮定する。Since the motion information for each region R i is already available at this stage, the region classifier 426 uses reverse motion compensation to convert each region R i in the current frame to
Warp to the previous frame. Warping a region by applying motion information for the region to points in that region. The area was warped in the previous area R
It is assumed that the 'i.
【0106】 R′ i=∪p∈Ri{p+V i} R ′ i = {p} R i {p + V i }
【0107】 理想的には、ワープした領域R′ iは、先行フレームの意味ビデオ対象物の1
つに当てはまるべきである。Ideally, the warped region R ′ i is one of the semantic video objects of the previous frame.
That should be the case.
【0108】 ∃i、j∈{1、2、...、m}およびR′ i⊆O t−1、j {I, j} 1, 2,. . . , M} and R 'i ⊆ O t-1 , j
【0109】 これがその場合であれば、追跡方法は、意味ビデオ対象物O t−1、jをこの
領域R iに割り当てる。しかし、実際には、運動推定プロセスからの潜在的な曖
昧さのために、R′ iは、先行フレームの複数の意味ビデオ対象物と重複する可
能性がある。すなわち、If this is the case, the tracking method assigns a semantic video object O t−1, j to this region R i . However, in practice, due to potential ambiguity from the motion estimation process, R ′ i can overlap with multiple semantic video objects in the previous frame. That is,
【0110】[0110]
【数8】 (Equation 8)
【0111】 である。Is as follows.
【0112】 現在の実装は、領域ベースの分類に対し、過半数基準Mを使用する。現在のフ
レームの各領域R iに対し、ワープした領域R′ iの過半数部分が、先行フレー
ムの意味ビデオ対象物O t−1、j(J∈1、2、...、m)に由来する場合
、この領域は、その意味ビデオ対象物O t−1、jに割り当てられる。The current implementation uses a majority criterion M for region-based classification. For each region R i of the current frame, the warped region R 'i majority part of the meaning of the previous frame video object O t-1, j (J∈1,2 , ..., m) from If you, this region is assigned to the meaning video object O t-1, j.
【0113】 ∀p∈R i、および∀q∈O t−1、j、Pt(p)=Pt−1(q){P} R i , and {q} O t−1, j , P t (p) = P t−1 (q)
【0114】 より詳細には、R′ iと重複する過半数区域(MOA)を有する意味ビデオ対
象物O t−1、jは、下式のように見つけられる。More specifically, a semantic video object O t−1, j having a majority area (MOA) overlapping R ′ i is found as follows:
【0115】[0115]
【数9】 (Equation 9)
【0116】 現在のフレームの完全意味ビデオ対象物O t、jは、現在のフレームの全ての
領域R i(i=1、2、...、m)に対してこの領域ベースの分類手順を用い
ることにより、1つずつ構築される。点q∈O t−1、j、The full semantic video object O t, j of the current frame uses this region-based classification procedure for all regions R i (i = 1, 2,..., M ) of the current frame. By use, they are built one by one. Point q∈ O t-1, j,
【0117】 O t、j=∪p∈S{p|Pt(p)=Pt−1(q)}、j=1、2、..
.、m[0117] O t, j = ∪ p∈S { p | P t (p) = P t-1 (q)}, j = 1,2 ,. .
. , M
【0118】 と仮定する。この領域ベースの分類プロセスの設計によって、現在のフレーム
では、いかなるホール/ギャップ、または異なる意味ビデオ対象物間の重複はな
いことになる。It is assumed that With the design of this region-based classification process, there will be no holes / gaps or overlaps between different semantic video objects in the current frame.
【0119】 ∪i=1,...,mOt,i=∪i=1,...,NRi=∪i=1,.. . ,mOt−1,i=S ∀i,j∈{1,...,m},i≠j⇒Ot,i∩Ot,i=φ∪ i = 1,. . . , MO t, i = ∪ i = 1,. . . , NR i = ∪ i = 1,. . . , MO t−1, i = S ∀i, j∈ {1,. . . , M}, i ≠ j⇒Ot, i∩Ot, i = φ
【0120】 これは、意味ビデオ対象物の境界を決定することができないフレーム内へと対
象物を追跡する追跡システムと比較して、この追跡システムの利点である。例え
ば、順方向追跡システムにおいて、対象物追跡は、精密な境界が未知である後続
フレームへと進む。次いで、境界は、境界条件をモデルするいくつかの所定の基
準に基づいて、未知の境界に合うように調整される。This is an advantage of this tracking system as compared to a tracking system that tracks objects into frames where the boundaries of semantic video objects cannot be determined. For example, in a forward tracking system, object tracking proceeds to subsequent frames where the precise boundaries are unknown. The boundary is then adjusted to fit the unknown boundary based on some predetermined criteria that models the boundary conditions.
【0121】 領域後処理 現在のフレームの追跡結果は、意味区分画像Ptであると仮定する。様々な理
由のために、領域ベースの分類手順には、いくつかのエラーが存在する可能性が
ある。領域後処理プロセスの目的は、これらのエラーを除去し、同時に、現在の
フレームで各意味ビデオ対象物の境界を滑らかにすることである。興味深いこと
に、区分画像は、従来の画像とは異なる空間画像である。この区分画像の各点に
おける値は、意味ビデオ対象物の位置を示すだけである。したがって、一般に、
信号処理用の全ての従来の線形または非線形フィルタは、この空間後処理に適し
ていない。[0121] region aftertreatment tracking results of the current frame is assumed as meaning segmented image P t. For various reasons, there may be some errors in the region-based classification procedure. The purpose of the region post-processing process is to eliminate these errors while smoothing the boundaries of each semantic video object in the current frame. Interestingly, segmented images are spatial images that are different from conventional images. The value at each point in this segmented image only indicates the location of the semantic video object. Therefore, in general,
All conventional linear or non-linear filters for signal processing are not suitable for this spatial post-processing.
【0122】 この実装は、過半数オペレータM(・)を使用して、このタスクを履行する。
n次元集合Sの各点pに対し、構造要素Eは、全ての接続点を含むそれの回りで
定義されている(接続点に関する1参照)。This implementation uses a majority operator M (•) to perform this task.
For each point p of the n-dimensional set S , the structuring element E is defined around it, including all connection points (see 1 for connection points).
【0123】 E=∪p∈S{Dp、q=1} E = { p } S {D p, q = 1}
【0124】 第1に、過半数オペレータM(・)は、構造要素Eと最大限重複している区域
(MOA)を有する意味ビデオ対象物O t、jを見つける。[0124] First, the majority operator M (·) is meant video object O t having an area (MOA) that maximize the structural element E overlap, find j.
【0125】[0125]
【数10】 (Equation 10)
【0126】 第2に、過半数オペレータM(・)は、その意味ビデオ対象物O t、jの値を
、点pに割り当てる。[0126] Second, the majority operator M (·) is the meaning video object O t, the value of j, assigned to the point p.
【0127】 q∈O t、j、Pt(p)=M(p)=Pt(q)とする。[0127] q∈ O t, j, and P t (p) = M ( p) = P t (q).
【0128】 過半数基準の採用のために、非常に小さい区域(エラーである可能性が最も高
い)を除去し、同時に、各意味ビデオ対象物の境界を滑らかにすることが可能で
ある。Due to the adoption of the majority criterion, it is possible to eliminate very small areas (most likely to be errors), while at the same time smoothing the boundaries of each semantic video object.
【0129】 コンピュータシステムの簡単な概要 図5および以下の議論は、本発明を実現することが可能である適切なコンピュ
ータ環境について、簡単で一般的な説明を提供することを意図している。本発明
またはその態様は、ハードウエアデバイスで実現することが可能であるが、上述
の追跡システムは、プログラムモジュールにおいて組織されたコンピュータ実行
可能命令で実行される。プログラムモジュールは、ルーチンと、プログラムと、
対象物と、構成要素と、タスクを実行し、上述のデータタイプを実行するデータ
構造とを含む。Brief Overview of Computer System FIG. 5 and the following discussion are intended to provide a brief, general description of a suitable computer environment in which the invention may be implemented. Although the present invention or aspects thereof may be implemented in hardware devices, the above-described tracking systems are implemented with computer-executable instructions organized in program modules. Program modules are routines, programs,
Includes objects, components, and data structures that perform tasks and perform the data types described above.
【0130】 図5は、デスクトップコンピュータの一般的な構成を示すが、本発明は、手持
ち式デバイス、マルチプロセッサシステム、マイクロプロセッサベースまたはプ
ログラム可能な消費者エレクトロニクス、ミニコンピュータ、メインフレームコ
ンピュータなどを含む、他のコンピュータシステム構成で実施することが可能で
ある。また、本発明は、コンピュータネットワークを介して連結されているリモ
ート処理装置によってタスクを実行する分散計算環境で使用することが可能であ
る。分散コンピュータ環境では、プログラムモジュールは、局所およびリモート
メモリ格納装置の両方に配置することが可能である。While FIG. 5 shows a general configuration of a desktop computer, the present invention includes hand-held devices, multi-processor systems, microprocessor-based or programmable consumer electronics, minicomputers, mainframe computers, and the like. It is possible to implement the present invention with other computer system configurations. Also, the present invention can be used in a distributed computing environment where tasks are performed by remote processing devices that are linked through a computer network. In a distributed computer environment, program modules may be located in both local and remote memory storage devices.
【0131】 図5は、本発明の操作環境として役立つコンピュータシステムの例を示す。コ
ンピュータシステムは、処理ユニット521と、システムメモリ522と、シス
テムメモリを含んでいる様々なシステム構成要素を処理ユニット521に内部接
続するシステムバス523とを含んでいるパーソナルコンピュータ520を含む
。システムバスは、メモリバスまたはメモリ制御装置と、周辺バスと、PCI、
VESA、マイクロチャネル(MCA)、ISAおよびEISAなどが例として
挙げられるバス体系を使用する局所バスとを含んでいるいくつかの種類のバス構
造のうち、いずれかを備えることが可能である。システムメモリは、読取り専用
メモリ(ROM)524とランダムアクセスメモリ(RAM)525を含む。基
本的な入力/出力システム526(BIOS)は、開始時中などに、パーソナル
コンピュータ520内で要素間の情報を転送することに役立つ基本的なルーチン
を含んでおり、ROM524に格納されている。さらに、パーソナルコンピュー
タ520は、ハードディスクドライブ527と、例えば取外し可能ディスク52
9から読み込むまたはそれに書き込む磁気ディスクドライブ528と、例えばC
D−ROMディスク531を読むまたは他の光学メディアを読み込むあるいはそ
れに書き込む光学ディスクドライブ530とを含む。ハードディスクドライブ5
27、磁気ディスクドライブ528、光学ディスクドライブ530は、それぞれ
、ハードディスクドライブインターフェース532、磁気ディスクドライブイン
ターフェース533、光学ドライブインターフェース534によって、システム
バス523に接続される。ドライブとそれに関連付けられたコンピュータ読取り
可能媒体は、データの不揮発性格納、データ構造、コンピュータ実行可能命令(
動的リンクライブラリなどのプログラムコードと実行可能ファイル)などを、パ
ーソナルコンピュータ520に提供する。上記のコンピュータ読取り可能媒体の
説明は、ハードディスクと、取外し可能磁気ディスクと、CDとを指すが、磁気
カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカー
トリッジなど、コンピュータによって読み取ることができる他の種類の媒体を含
むことができる。FIG. 5 shows an example of a computer system serving as the operating environment of the present invention. The computer system includes a personal computer 520 that includes a processing unit 521, a system memory 522, and a system bus 523 that interconnects various system components including the system memory to the processing unit 521. The system bus includes a memory bus or memory controller, a peripheral bus, a PCI,
Any of a number of types of bus structures can be provided, including VESA, Micro Channel (MCA), ISA and EISA, and local buses using bus architectures as examples. The system memory includes a read-only memory (ROM) 524 and a random access memory (RAM) 525. The basic input / output system 526 (BIOS) contains basic routines that help to transfer information between elements within the personal computer 520, such as during startup, and is stored in the ROM 524. Further, the personal computer 520 includes a hard disk drive 527 and, for example, a removable disk 52.
9, a magnetic disk drive 528 that reads from or writes to
An optical disk drive 530 for reading a D-ROM disk 531 or reading or writing to other optical media. Hard disk drive 5
27, the magnetic disk drive 528, and the optical disk drive 530 are connected to the system bus 523 by a hard disk drive interface 532, a magnetic disk drive interface 533, and an optical drive interface 534, respectively. The drives and their associated computer-readable media provide nonvolatile storage of data, data structures, computer-executable instructions (
Program code such as a dynamic link library and an executable file) are provided to the personal computer 520. The above description of computer-readable media refers to hard disks, removable magnetic disks, and CDs, but other types of computers that can be read by a computer, such as magnetic cassettes, flash memory cards, digital video disks, Bernoulli cartridges, and the like. A medium can be included.
【0132】 多くのプログラムモジュールを、オペレーティングシステム535と、1つま
たは複数のアプリケーションプログラム536と、他のプログラムモジュール5
37と、プログラムデータ538とを含む、ドライブおよびRAM525に格納
することが可能である。ユーザは、キーボード540およびマウス542などの
位置表示装置を介して、コマンドおよび情報をパーソナルコンピュータ520に
入力することが可能である。他の入力装置(図示せず)には、マイクロフォン、
ジョイスティック、ゲームパッド、衛星放送用パラボラアンテナ、スキャナなど
を含むことが可能である。これらおよび他の入力装置は、しばしば、システムバ
スに結合されているシリアルポートインターフェース546を介して、処理ユニ
ット521に接続されるが、パラレルポート、ゲームポート、またはユニバーサ
ルシリアルバス(USB)などの他のインターフェースによって接続することも
可能である。また、モニタ547または他の種類の表示装置も、表示制御装置ま
たはビデオアダプタ548などのインターフェースを介して、システムバス52
3に接続される。通常、モニタの他に、パーソナルコンピュータは、スピーカお
よびプリンタなどの他の周辺出力装置(図示せず)を含む。[0132] A number of program modules are stored in an operating system 535, one or more application programs 536, and other program modules 5
37 and the program data 538 can be stored in the drive and RAM 525. The user can input commands and information to the personal computer 520 through a position display device such as a keyboard 540 and a mouse 542. Other input devices (not shown) include a microphone,
It may include a joystick, game pad, satellite dish, scanner, or the like. These and other input devices are often connected to the processing unit 521 via a serial port interface 546 that is coupled to the system bus, but other ports such as a parallel port, game port, or universal serial bus (USB). It is also possible to connect by the interface of. A monitor 547 or other type of display device may also be connected to the system bus 52 via an interface such as a display controller or video adapter 548.
3 is connected. Typically, in addition to a monitor, a personal computer includes other peripheral output devices (not shown) such as speakers and a printer.
【0133】 パーソナルコンピュータ520は、ネットワークされた環境で、リモートコン
ピュータ549などの1つまたは複数のリモートコンピュータへの論理接続を用
いて動作することが可能である。リモートコンピュータ549は、サーバ、ルー
タ、ピアデバイス、または他の一般的なネットワークノードとすることが可能で
あり、通常、パーソナルコンピュータ520に関して記述した多くのまたは全て
の要素を含むが、図5では、メモリ格納装置550のみを図示している。図5に
示した論理接続は、ローカルエリアネットワーク(LAN)551とワイドエリ
アネットワーク(WAN)を含む。そのようなネットワーキング環境は、会社、
企業全体にわたるコンピュータネットワーク、イントラネット、およびインター
ネットでは一般的である。The personal computer 520 can operate in a networked environment using logical connections to one or more remote computers, such as a remote computer 549. Remote computer 549 can be a server, router, peer device, or other general network node, and typically includes many or all of the elements described with respect to personal computer 520; Only the memory storage device 550 is shown. The logical connections shown in FIG. 5 include a local area network (LAN) 551 and a wide area network (WAN). Such a networking environment can be a company,
It is common in enterprise-wide computer networks, intranets, and the Internet.
【0134】 LANネットワーキング環境で使用するとき、パーソナルコンピュータ520
は、ネットワークインターフェースまたはアダプタ553を介してローカルネッ
トワーク551に接続されている。WANネットワーキング環境で使用するとき
、パーソナルコンピュータ520は、通常、インターネットなど、ワイドエリア
ネットワーク552上で通信を確立する、モデム554または他の手段を含む。
モデム554は、内在または外付けとすることが可能であり、シリアルポートイ
ンターフェース546を介して、システムバス523に接続されている。ネット
ワークされた環境では、パーソナルコンピュータ520に関連して記述したプロ
グラムモジュール、またはその部分は、リモートメモリ格納装置に格納すること
が可能である。示したネットワーク接続は、単なる例であり、コンピュータ間で
通信リンクを確立する他の手段を使用することが可能である。When used in a LAN networking environment, the personal computer 520
Is connected to the local network 551 via a network interface or an adapter 553. When used in a WAN networking environment, the personal computer 520 typically includes a modem 554 or other means for establishing communication over a wide area network 552, such as the Internet.
The modem 554 can be internal or external, and is connected to the system bus 523 via a serial port interface 546. In a networked environment, program modules described relative to the personal computer 520, or portions thereof, may be stored in the remote memory storage device. The network connections shown are merely examples, and other means of establishing a communication link between the computers can be used.
【0135】 結論 本発明を特定の実装の詳細に関するコンテキストで説明したが、本発明は、こ
れらの特定の詳細に限定されるものではない。本発明は、ベクトル画像フレーム
において同一領域を識別し、次いでこれらの領域を意味対象物の部分であると分
類する、意味対象物追跡の方法とシステムを提供する。上述した実装の分類方法
は、意味領域を、意味対象物の境界が以前に計算されている先行フレームに射影
するので、「逆方向追跡」と呼ばれる。Conclusion Although the invention has been described in the context of particular implementation details, the invention is not limited to these particular details. The present invention provides a method and system for semantic object tracking that identifies identical regions in a vector image frame and then classifies these regions as part of semantic objects. The classification method of the implementation described above is called "backward tracking" because the semantic region is projected onto the previous frame where the boundaries of the semantic object were previously calculated.
【0136】 また、この追跡システムは、一般に、意味ビデオ対象物の境界が既知であるフ
レームに、たとえこれらのフレームが順序付けられたシーケンスにある先行フレ
ームでない場合でも、分割領域を射影する応用に適用されることに留意されたい
。したがって、上述した「逆方向」追跡方式は、分類が必ずしも先行フレームに
限定されておらず、代わりに、意味対象物の境界が既知または以前に計算されて
いるフレームに限定されている応用に適用される。意味ビデオ対象物がすでに識
別されているフレームは、より一般的に、基準フレームと呼ぶ。現在のフレーム
に対する意味対象物の追跡は、基準フレームの意味対象物の境界に関して、現在
のフレームで分割された領域を分類することによって計算される。The tracking system is also generally applied to applications where the boundaries of semantic video objects are known, even if these frames are not the preceding frames in an ordered sequence, the application of a segmented region. Note that Therefore, the "reverse" tracking scheme described above applies to applications where the classification is not necessarily limited to the previous frame, but instead is limited to frames where the boundaries of the semantic object are known or previously calculated. Is done. Frames where semantic video objects have already been identified are more generally referred to as reference frames. Tracking of semantic objects relative to the current frame is calculated by classifying the regions divided by the current frame with respect to the semantic object boundaries of the reference frame.
【0137】 上述のように、対象物追跡方法は、一般に、ベクトル画像シーケンスに適用さ
れる。したがって、2Dビデオシーケンス、またはイメージの値が強度値を表し
ているシーケンスに限定されていない。As described above, the object tracking method is generally applied to a sequence of vector images. Therefore, it is not limited to a 2D video sequence, or a sequence in which the values of the images represent intensity values.
【0138】 領域分割段階の説明により、特に有用であるが、意味ビデオ対象物追跡の全て
の実装に必要ではない基準が識別された。すでに述べたように、他の分割技術を
使用して、点の接続領域を識別することが可能である。領域の同一性の定義は、
イメージの値の種類(例えば、運動ベクトル、色の強度)と応用例に応じて異な
る可能性がある。The description of the segmentation stage has identified criteria that are particularly useful, but are not required for all implementations of semantic video object tracking. As already mentioned, other segmentation techniques can be used to identify the connected areas of the points. The definition of region identity is
It can vary depending on the type of image values (eg, motion vector, color intensity) and application.
【0139】 運動推定と補償を実行するために使用する運動モデルは、同様に変更すること
ができる。計算はより複雑であるが、領域の各個々の点に対して、運動ベクトル
を計算することが可能である。代替として、上述の変換モデルのように、各領域
に対して、1つの運動ベクトルを計算することが可能である。好ましくは、領域
ベースの整合方法を使用して、関心のあるフレームにおいて整合領域を見つける
べきである。領域ベースの整合では、現在のフレームの境界またはマスクを使用
して、予測した点と基準フレームの対応する領域との間のエラーを最小限に抑え
るプロセスから、領域の外部に位置する点を除外する。この種類の手法は、Mi
ng−Chieh Leeによる名称Polygon Block Match
ing Methodの米国特許第5,796,855号に記載されており、参
考文献によってここに組み込まれている。The motion model used to perform motion estimation and compensation can be varied as well. Although the calculation is more complicated, it is possible to calculate a motion vector for each individual point in the region. Alternatively, one motion vector can be calculated for each region, as in the transformation model described above. Preferably, a matching region should be found in the frame of interest using a region-based matching method. Region-based matching uses the current frame boundary or mask to exclude points located outside the region from the process of minimizing errors between the predicted point and the corresponding region in the reference frame I do. This type of approach is called Mi
Polygon Block Match by ng-Chie Lee
No. 5,796,855 to ing Method and is incorporated herein by reference.
【0140】 本発明の多くの可能な実装を考慮すると、上述した実装は本発明の単なる例で
あり、本発明の範囲に対する限定と考えるべきではない。むしろ、本発明の範囲
は、添付の請求項によって定義される。したがって、我々の発明は全て、これら
の特許請求の範囲および精神内に由来することを主張する。Given the many possible implementations of the present invention, the implementations described above are only examples of the present invention and should not be considered as limitations on the scope of the present invention. Rather, the scope of the present invention is defined by the appended claims. We therefore claim that all our invention comes from within the scope and spirit of these claims.
【図1A】 一般的な意味対象物を追跡する困難さを示すために異なる種類の意味対象物を
表す例である。FIG. 1A is an example representing different types of semantic objects to show the difficulty of tracking a general semantic object.
【図1B】 一般的な意味対象物を追跡する困難さを示すために異なる種類の意味対象物を
表す例である。FIG. 1B is an example representing different types of semantic objects to show the difficulty of tracking a general semantic object.
【図1C】 一般的な意味対象物を追跡する困難さを示すために異なる種類の意味対象物を
表す例である。FIG. 1C is an example representing different types of semantic objects to show the difficulty of tracking a general semantic object.
【図2】 意味対象物追跡システムを示すブロック図である。FIG. 2 is a block diagram showing a semantic object tracking system.
【図3A】 区分画像の例と、領域近接グラフにおける区分画像を表す方法を示す図である
。FIG. 3A is a diagram illustrating an example of a segmented image and a method of representing the segmented image in an area proximity graph.
【図3B】 区分画像の例と、領域近接グラフにおける区分画像を表す方法を示す図である
。FIG. 3B is a diagram illustrating an example of a segmented image and a method of representing the segmented image in an area proximity graph.
【図3C】 区分画像の例と、領域近接グラフにおける区分画像を表す方法を示す図である
。FIG. 3C is a diagram showing an example of a segmented image and a method of representing the segmented image in the area proximity graph.
【図3D】 区分画像の例と、領域近接グラフにおける区分画像を表す方法を示す図である
。FIG. 3D is a diagram illustrating an example of a segmented image and a method of representing the segmented image in the area proximity graph.
【図4】 意味対象物追跡システムの実装を示すフローチャートである。FIG. 4 is a flowchart illustrating an implementation of a semantic object tracking system.
【図5】 本発明の実装に対する操作環境として役立つコンピュータシステムのブロック
図である。FIG. 5 is a block diagram of a computer system that serves as an operating environment for an implementation of the present invention.
───────────────────────────────────────────────────── フロントページの続き (72)発明者 ミン−チェ リー アメリカ合衆国 98006 ワシントン州 ベルビュー サウスイースト 5558−166 プレイス (番地なし) Fターム(参考) 5C054 EA05 FB03 FC13 FE24 HA31 5C059 MA01 MB02 MB03 NN24 NN36 PP04 PP26 PP28 RF11 5L096 FA02 FA36 HA04 JA11 【要約の続き】 んどまたは全くエラーを伝搬しない。──────────────────────────────────────────────────続 き Continuing on the front page (72) Inventor Min-Cherry USA 98006 Bellevue, Washington Southeast 5558-166 Place (No address) F-term (reference) 5C054 EA05 FB03 FC13 FE24 HA31 5C059 MA01 MB02 MB03 NN24 NN36 PP04 PP26 PP28 RF11 5L096 FA02 FA36 HA04 JA11 [continued from summary] Does not propagate any or no errors.
Claims (20)
て、 ビデオフレーム上で空間分割を実行して、同一強度値を有する画素の領域を識
別し、 ビデオフレームの各領域と先行ビデオフレーム間で運動推定を実行し、 各領域に対する運動推定を用いて、各領域の画素の位置を、先行フレームの位
置にワープし、 ワープした画素の位置が、先行フレームの分割されたビデオ対象物の境界内あ
るかを決定して、ビデオ対象物の部分である可能性がある領域の集合を識別し、 セットのビデオフレーム中の各領域の組合わせとして、ビデオフレーム中のビ
デオ対象物の境界を形成することを特徴とする方法。1. A method for tracking a video object in a video frame, comprising: performing a spatial division on the video frame to identify regions of pixels having the same intensity value; Perform motion estimation between frames, warp the position of pixels in each region to the position of the previous frame using motion estimation for each region, and position the warped pixels in the divided video object of the previous frame. To determine the set of regions that may be part of the video object, and as a combination of each region in the set of video frames, the boundary of the video object in the video frame Forming a method.
使用して、後続フレームに対して請求項1のステップを繰り返すことを特徴とす
る請求項1に記載の方法。2. The method according to claim 1, wherein the steps of claim 1 are repeated for subsequent frames, using the boundaries of the video object as reference boundaries for the next frame.
雑音を除去し、その後、空間分割を実行するを特徴とする請求項1に記載の方法
。3. The method of claim 1, wherein the video frames are filtered to remove noise from the video frames, and then performing spatial partitioning.
値を有する画素の位置と、最小強度値領域を有する他の画素の位置との強度値の
差が、閾値より小さいことを保証することによって、各領域が同一であると決定
されることを特徴とする請求項1に記載の方法。4. Each region is a connected group of pixels, and a difference between an intensity value of a pixel having a maximum intensity value of the region and an intensity value of another pixel having a minimum intensity value region is smaller than a threshold value. The method of claim 1, wherein each area is determined to be the same by ensuring that it is small.
を、画素をその領域に追加することによって同一基準を満足するように第1画素
のまわりに発生させ、 同一基準を満たす境界画素がないとき、第1領域外部の画素の位置で発生する
発生ステップを繰り返し、 フレームの各画素が同一領域の部分であると識別されるまで、発生する発生ス
テップを続行することを特徴とする、請求項4に記載の方法。5. The method of claim 1, wherein the segmentation is a sequential region generation method, wherein starting from a first pixel position of a video image frame, a first region of connected pixels is identified by adding a pixel to the region. Is generated around the first pixel so as to satisfy the following condition. When there is no boundary pixel that satisfies the same criterion, the generation step occurring at the position of the pixel outside the first region is repeated, and each pixel of the frame is 5. The method according to claim 4, wherein the steps of occurring occur until the identification is made.
画素のみを先行フレームの画素と整合することを含む、領域ベースの運動推定を
実行して、先行フレームで各画素に対する対応する位置を見つけ、 領域での画素の運動を近似する運動モデルを、先行フレームの対応する位置に
適用することを特徴とする、請求項1に記載の方法。6. Performing region-based motion estimation, wherein for each region identified through spatial partitioning in a video frame, matching only pixels in the region with pixels of a previous frame. The method of claim 1, further comprising: finding a corresponding position for each pixel in a previous frame, and applying a motion model that approximates the motion of the pixel in the region to the corresponding position in the previous frame.
値と、先行ビデオフレームの対応する画素位置での画素値間の予測エラーを最小
限に抑える、各領域に対する運動ベクトルを見つけることを特徴とする請求項6
に記載の方法。7. Use a motion model to find a motion vector for each region that minimizes prediction errors between pixel values warped from a video frame and pixel values at corresponding pixel locations in a previous video frame. 7. The method according to claim 6, wherein
The method described in.
つけ、 ワープした画素の過半数が、分割ビデオ対象物の境界の内側にあるとき、ビデ
オフレームにあるビデオ対象物の部分として領域を分類することを特徴とする請
求項1に記載の方法。8. The step of determining: finding the number of warped pixels inside the boundary of the segmented video object of the previous frame; and when the majority of the warped pixels is inside the boundary of the segmented video object, The method of claim 1, wherein the region is classified as a portion of a video object in a video frame.
る、コンピュータ読取り可能媒体。9. A computer readable medium having instructions for performing the steps of claim 1.
象物を追跡する命令を有するコンピュータ読取り可能媒体であって、 画像シーケンスのベクトル画像フレームを領域に分割する空間分割モジュール
であって、各領域が、同一基準を満足するイメージの値を有するイメージの点の
接続されたグループを有する空間分割モジュールと、 入力画像フレームの各領域と、基準フレームとの間の運動を推定し、画像フレ
ームと基準フレーム間の各領域の運動を近似する運動パラメータを決定する運動
推定モジュールと、 各領域の運動パラメータを領域に適用して基準フレーム中の予測された領域を
計算し、各予測した領域の境界が、少なくとも部分的に、基準フレームの意味対
象物の境界内にあるかを評価し、予測した領域が基準フレームの意味対象物境界
の境界内にある程度に基づいて、基準フレーム中の意味対象物の部分として各領
域を分類する処理とを備え、 画像フレームの意味対象物の境界が、基準フレームの対応する意味対象物の部
分として分類された各領域から形成されることを特徴とするコンピュータ読取り
可能媒体。10. A computer readable medium having instructions for tracking semantic objects in a vector image sequence of image frames, a spatial division module for dividing a vector image frame of the image sequence into regions. A spatial partitioning module having a connected group of image points having image values satisfying the same criterion; estimating motion between each region of the input image frame and the reference frame; A motion estimation module that determines a motion parameter that approximates the motion of each region between frames; a motion estimation module that applies a motion parameter of each region to the region to calculate a predicted region in the reference frame; , At least in part, assessing whether it is within the boundaries of the semantic object in the reference frame, and Classifying each area as a part of the semantic object in the reference frame based on a certain degree within the boundary of the semantic object boundary of the reference frame. A computer-readable medium formed from each area classified as a part of a meaning object.
有する画素の接続されたグループの第1イメージの点と、最小のイメージの値を
有する接続されたグループの第2イメージの点との最大の差を有し、分割モジュ
ールが選択的にイメージの点を接続領域に追加して、新しい接続領域が同一基準
を満たす間、新しい接続領域を生成することを特徴とする請求項10に記載の方
法。11. The same criterion of the space division module is that the point of the first image of the connected group of pixels having the largest image value and the second image of the connected group having the smallest image value. 9. The method according to claim 8, wherein the segmentation module selectively adds a point of the image to the connection region having a maximum difference from the point to generate a new connection region while the new connection region satisfies the same criterion. 11. The method according to 10.
ベクトルが、領域中の各イメージの点を目標フレームに射影するために使用する
とき、射影された点のイメージの値と、目標フレームの対応するイメージの点の
イメージの値との差の合計を最小に抑えることを特徴とする請求項10に記載の
方法。12. The motion parameter of each region is a motion vector, and when the motion vector is used to project a point of each image in the region to a target frame, an image value of the projected point; 11. The method of claim 10, wherein the sum of differences between corresponding image points of the target frame and image values is minimized.
み、各対象物が、目標フレームの非重複区域を占め、 領域分析により、各予測領域に対し、予測領域の重複イメージの点の最大数を
有する目標フレームの意味対象物を識別し、 分類により、重複イメージの点の最大数を有する目標フレームの意味ビデオ対
象物に関連付けられているとして各領域を分類し、 分類装置が、目標フレーム中の対応する意味対象物に関連付けられているもの
として分類された領域の組合わせとして、画像フレームの各意味対象物の境界を
計算することを特徴とする請求項10に記載の方法。13. The target frame includes two or more semantic objects, each object occupying a non-overlapping area of the target frame, and by region analysis, for each prediction region, an overlapping image of the prediction region. Identifying a semantic object of the target frame having the maximum number of points of the overlapped image and classifying each region as being associated with the semantic video object of the target frame having the maximum number of points of the duplicate image; Calculating a boundary of each semantic object in the image frame as a combination of regions classified as being associated with a corresponding semantic object in the target frame. Method.
複構造区域を有する画像フレーム中の意味対象物を決定し、および意味ビデオ対
象物の値をイメージの点に割り当てる過半数オペレータをさらに含むことを特徴
とする、請求項13に記載の媒体。14. Define the structure of points around each point of the image frame, determine the semantic object in the image frame having the largest overlapping structure area, and convert the value of the semantic video object to a point in the image. 14. The medium of claim 13, further comprising a majority operator to assign.
法であって、画像フレーム上で空間分割を実行しして、同一イメージの値で離散
イメージの点の領域を識別し、 画像フレームの各領域と、意味対象物の境界が既知である目標画像フレームと
の間で運動推定を実行し、 各領域に対する運動推定を用いて、各領域のイメージの点を目標フレームの位
置にワープし、 各領域のワープした画素の位置が、目標フレームの意味対象物の境界内にある
かを決定し、領域の少なくとも閾値の量が目標フレーム中の意味対象物と重複す
るとき、目標フレームの意味対象物を源とするとしてその領域を分類し、 画像フレームの意味対象物の境界を、目標フレームの意味対象物を源とすると
して分類された画像フレームの各領域の組合わせとして形成することを特徴とす
る方法。15. A method for tracking semantic objects in a vector image sequence, comprising performing a spatial division on an image frame to identify regions of points of a discrete image with values of the same image, Performing motion estimation between each region and a target image frame whose boundary of the semantic object is known, using the motion estimation for each region to warp the image point of each region to the position of the target frame; Determine whether the location of the warped pixel in each region is within the boundary of the semantic object in the target frame, and when at least the threshold amount of the region overlaps the semantic object in the target frame, Classify the area as the source of the object, and set the boundary of the semantic object of the image frame as the combination of the areas of the image frame classified as the source of the semantic object of the target frame. Wherein the forming as a cause.
項15のステップを繰り返し、先行フレームの意味対象物の1つを源とするとし
て、現在のフレームにおいて分割された領域を分類することを特徴とする請求項
15に記載の方法。16. The step of claim 15, wherein the calculated boundary of the semantic object of the previous frame is used to repeat the steps of claim 15 and the region divided in the current frame from one of the semantic objects of the previous frame as a source. The method of claim 15, further comprising classifying:
域が、近接イメージの点をその領域に追加することのみによって同一であると決
定され、その領域では、各近接イメージの点を追加した後、その領域の最大のイ
メージの値と最小のイメージの値の強度値の差が、閾値より小さいことを特徴と
する請求項15に記載の方法。17. Each region is a connected group of points of the image, and each region is determined to be the same only by adding a point of the proximity image to the region, wherein each region is determined by each proximity image. 16. The method of claim 15, wherein after adding the point, the difference between the intensity value of the largest image value and the smallest image value of the region is less than a threshold.
行フレームに対し以前に計算された、1つの意味対象物を源とするものとして正
確に分類され、 現在のフレームの意味対象物に対する境界が、先行フレームの同じ意味対象物
を源とするものとして分類された領域の境界を組み合わせることによって計算さ
れ、 請求項15のステップが、ベクトル画像シーケンスの連続フレームに対して反
復されることを特徴とする請求項15に記載の方法。18. The target frame is a preceding frame of the current frame, wherein each region divided from the current frame is one of the previously calculated frames for the preceding frame using the steps of claim 15. The boundary for the semantic object that is correctly classified as being from the semantic object is calculated by combining the boundaries of the regions classified as being from the same semantic object in the previous frame. The method of claim 15, wherein the steps of claim 15 are repeated for successive frames of the vector image sequence.
とするコンピュータ読取り可能媒体。19. A computer readable medium having instructions for performing the steps of claim 15.
いて、 画像フレーム上で空間分割を実行して、同一イメージの値で離散イメージの点
の領域を識別し、各領域がイメージの点の接続されたグループであり、各領域が
、近接イメージの点をその領域に追加することのみによって同一であると決定さ
れ、各近接イメージの点を追加した後、その領域の最大値と最小値の強度値の差
が閾値より小さく、 画像フレームの各領域と、ベクトル画像シーケンスの直前の画像フレームとの
間で、領域ベースの運動推定を実行し、 各領域に対して推定された運動を用いて、各領域のイメージの点を、直前のフ
レームの位置にワープし、 各領域のワープした画素の位置が、目標フレームの意味対象物の境界内にある
かを決定し、領域の少なくとも閾値の量が、目標フレームの意味対象物と重複す
るとき、目標フレームの意味対象物を源とするものとしてその領域を分類し、 画像フレームの各意味対象物に対する境界を、直前のフレームの意味対象物を
源とするものとして分類された画像フレームの各領域の組合わせとして形成する
ことを特徴とする方法。20. A method for tracking semantic objects of a vector image sequence, comprising performing spatial division on an image frame to identify regions of points of a discrete image with values of the same image, each region being a point of the image. Connected regions, where each region is determined to be identical only by adding points in the proximity image to that region, and after adding each proximity image point, the maximum and minimum values for that region Performing a region-based motion estimation between each region of the image frame and the image frame immediately before the vector image sequence, and using the motion estimated for each region. Then, warping the image point of each area to the position of the immediately preceding frame, determining whether the position of the warped pixel of each area is within the boundary of the semantic object of the target frame, When at least the amount of the threshold value overlaps with the semantic object of the target frame, the area is classified as being derived from the semantic object of the target frame, and the boundary for each semantic object of the image frame is set to A method characterized in that it is formed as a combination of regions of an image frame classified as originating from semantic objects.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/151,368 US6711278B1 (en) | 1998-09-10 | 1998-09-10 | Tracking semantic objects in vector image sequences |
US09/151,368 | 1998-09-10 | ||
PCT/US1999/020476 WO2000016563A1 (en) | 1998-09-10 | 1999-09-10 | Tracking semantic objects in vector image sequences |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002525735A true JP2002525735A (en) | 2002-08-13 |
JP2002525735A5 JP2002525735A5 (en) | 2005-12-22 |
JP4074062B2 JP4074062B2 (en) | 2008-04-09 |
Family
ID=22538452
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000570977A Expired - Fee Related JP4074062B2 (en) | 1998-09-10 | 1999-09-10 | Semantic object tracking in vector image sequences |
Country Status (6)
Country | Link |
---|---|
US (3) | US6711278B1 (en) |
EP (2) | EP1519589A3 (en) |
JP (1) | JP4074062B2 (en) |
AT (1) | ATE286337T1 (en) |
DE (1) | DE69922973T2 (en) |
WO (1) | WO2000016563A1 (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008508801A (en) * | 2004-07-30 | 2008-03-21 | ユークリッド・ディスカバリーズ・エルエルシー | Apparatus and method for processing video data |
JP2008514136A (en) * | 2004-09-21 | 2008-05-01 | ユークリッド・ディスカバリーズ・エルエルシー | Apparatus and method for processing video data |
JP2008537391A (en) * | 2005-03-31 | 2008-09-11 | ユークリッド・ディスカバリーズ・エルエルシー | Apparatus and method for processing video data |
JP2008243187A (en) * | 2007-03-27 | 2008-10-09 | Mitsubishi Electric Research Laboratories Inc | Computer implemented method for tracking object in video frame sequence |
JP2011003029A (en) * | 2009-06-18 | 2011-01-06 | Canon Inc | Image processing apparatus and control method of the same |
US8243118B2 (en) | 2007-01-23 | 2012-08-14 | Euclid Discoveries, Llc | Systems and methods for providing personal video services |
KR101709085B1 (en) * | 2015-12-16 | 2017-02-23 | 서강대학교산학협력단 | Shot Boundary Detection method and apparatus using Convolutional Neural Networks |
US9621917B2 (en) | 2014-03-10 | 2017-04-11 | Euclid Discoveries, Llc | Continuous block tracking for temporal prediction in video encoding |
US9743078B2 (en) | 2004-07-30 | 2017-08-22 | Euclid Discoveries, Llc | Standards-compliant model-based video encoding and decoding |
US10091507B2 (en) | 2014-03-10 | 2018-10-02 | Euclid Discoveries, Llc | Perceptual optimization for model-based video encoding |
US10097851B2 (en) | 2014-03-10 | 2018-10-09 | Euclid Discoveries, Llc | Perceptual optimization for model-based video encoding |
Families Citing this family (146)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6711278B1 (en) * | 1998-09-10 | 2004-03-23 | Microsoft Corporation | Tracking semantic objects in vector image sequences |
US6917692B1 (en) * | 1999-05-25 | 2005-07-12 | Thomson Licensing S.A. | Kalman tracking of color objects |
AU763919B2 (en) * | 2000-03-16 | 2003-08-07 | Canon Kabushiki Kaisha | Tracking objects from video sequences |
US8218873B2 (en) * | 2000-11-06 | 2012-07-10 | Nant Holdings Ip, Llc | Object information derived from object images |
US7899243B2 (en) | 2000-11-06 | 2011-03-01 | Evryx Technologies, Inc. | Image capture and identification system and process |
US7680324B2 (en) | 2000-11-06 | 2010-03-16 | Evryx Technologies, Inc. | Use of image-derived information as search criteria for internet and other search engines |
US8224078B2 (en) | 2000-11-06 | 2012-07-17 | Nant Holdings Ip, Llc | Image capture and identification system and process |
US9310892B2 (en) | 2000-11-06 | 2016-04-12 | Nant Holdings Ip, Llc | Object information derived from object images |
US7565008B2 (en) | 2000-11-06 | 2009-07-21 | Evryx Technologies, Inc. | Data capture and identification system and process |
US7003061B2 (en) * | 2000-12-21 | 2006-02-21 | Adobe Systems Incorporated | Image extraction from complex scenes in digital video |
US20020131643A1 (en) * | 2001-03-13 | 2002-09-19 | Fels Sol Sidney | Local positioning system |
AU2002318859B2 (en) * | 2001-12-19 | 2004-11-25 | Canon Kabushiki Kaisha | A Method for Video Object Detection and Tracking Based on 3D Segment Displacement |
US20040204127A1 (en) * | 2002-06-24 | 2004-10-14 | Forlines Clifton L. | Method for rendering with composited images on cellular telephones |
US7179171B2 (en) * | 2002-06-24 | 2007-02-20 | Mitsubishi Electric Research Laboratories, Inc. | Fish breeding toy for cellular telephones |
US7085420B2 (en) * | 2002-06-28 | 2006-08-01 | Microsoft Corporation | Text detection in continuous tone image segments |
US7072512B2 (en) * | 2002-07-23 | 2006-07-04 | Microsoft Corporation | Segmentation of digital video and images into continuous tone and palettized regions |
US20070092158A1 (en) * | 2003-03-28 | 2007-04-26 | National Institute Of Information And Communica- Tions Technology, Independent Administrative Agenc | Image processing method and image processing apparatus |
US7203340B2 (en) * | 2003-09-03 | 2007-04-10 | National Research Council Of Canada | Second order change detection in video |
JP4461937B2 (en) * | 2003-09-30 | 2010-05-12 | セイコーエプソン株式会社 | Generation of high-resolution images based on multiple low-resolution images |
US6942152B1 (en) * | 2004-01-21 | 2005-09-13 | The Code Corporation | Versatile graphical code reader that is configured for efficient decoding |
US7907769B2 (en) | 2004-05-13 | 2011-03-15 | The Charles Stark Draper Laboratory, Inc. | Image-based methods for measuring global nuclear patterns as epigenetic markers of cell differentiation |
WO2006132650A2 (en) * | 2004-07-28 | 2006-12-14 | Sarnoff Corporation | Method and apparatus for improved video surveillance through classification of detected objects |
US7457435B2 (en) * | 2004-11-17 | 2008-11-25 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US8902971B2 (en) | 2004-07-30 | 2014-12-02 | Euclid Discoveries, Llc | Video compression repository and model reuse |
US9578345B2 (en) | 2005-03-31 | 2017-02-21 | Euclid Discoveries, Llc | Model-based video encoding and decoding |
US7508990B2 (en) * | 2004-07-30 | 2009-03-24 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US7457472B2 (en) * | 2005-03-31 | 2008-11-25 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US9532069B2 (en) | 2004-07-30 | 2016-12-27 | Euclid Discoveries, Llc | Video compression repository and model reuse |
US7436981B2 (en) * | 2005-01-28 | 2008-10-14 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
WO2010042486A1 (en) * | 2008-10-07 | 2010-04-15 | Euclid Discoveries, Llc | Feature-based video compression |
JP2008521347A (en) * | 2004-11-17 | 2008-06-19 | ユークリッド・ディスカバリーズ・エルエルシー | Apparatus and method for processing video data |
US7227551B2 (en) * | 2004-12-23 | 2007-06-05 | Apple Inc. | Manipulating text and graphic appearance |
TWI256232B (en) * | 2004-12-31 | 2006-06-01 | Chi Mei Comm Systems Inc | Mobile communication device capable of changing man-machine interface |
FR2880717A1 (en) * | 2005-01-07 | 2006-07-14 | Thomson Licensing Sa | Video image spatio-temporal segmentation method for e.g. analyzing video image, involves performing fusion/scission of spatial area as per percentages of pixels of spatial area temporal area of interest |
WO2006083567A1 (en) * | 2005-01-28 | 2006-08-10 | Euclid Discoveries, Llc | Apparatus and method for processing video data |
US20070011718A1 (en) * | 2005-07-08 | 2007-01-11 | Nee Patrick W Jr | Efficient customized media creation through pre-encoding of common elements |
US8107748B2 (en) | 2005-09-16 | 2012-01-31 | Sony Corporation | Adaptive motion search range |
US7957466B2 (en) | 2005-09-16 | 2011-06-07 | Sony Corporation | Adaptive area of influence filter for moving object boundaries |
US8059719B2 (en) * | 2005-09-16 | 2011-11-15 | Sony Corporation | Adaptive area of influence filter |
US7894522B2 (en) | 2005-09-16 | 2011-02-22 | Sony Corporation | Classified filtering for temporal prediction |
US7894527B2 (en) | 2005-09-16 | 2011-02-22 | Sony Corporation | Multi-stage linked process for adaptive motion vector sampling in video compression |
US7885335B2 (en) | 2005-09-16 | 2011-02-08 | Sont Corporation | Variable shape motion estimation in video sequence |
US7596243B2 (en) | 2005-09-16 | 2009-09-29 | Sony Corporation | Extracting a moving object boundary |
US8165205B2 (en) * | 2005-09-16 | 2012-04-24 | Sony Corporation | Natural shaped regions for motion compensation |
US8005308B2 (en) | 2005-09-16 | 2011-08-23 | Sony Corporation | Adaptive motion estimation for temporal prediction filter over irregular motion vector samples |
US7620108B2 (en) | 2005-09-16 | 2009-11-17 | Sony Corporation | Integrated spatial-temporal prediction |
US7835542B2 (en) * | 2005-12-29 | 2010-11-16 | Industrial Technology Research Institute | Object tracking systems and methods utilizing compressed-domain motion-based segmentation |
WO2008091484A2 (en) * | 2007-01-23 | 2008-07-31 | Euclid Discoveries, Llc | Object archival systems and methods |
US7783118B2 (en) * | 2006-07-13 | 2010-08-24 | Seiko Epson Corporation | Method and apparatus for determining motion in images |
US7835544B2 (en) * | 2006-08-31 | 2010-11-16 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Method and system for far field image absolute navigation sensing |
US8036423B2 (en) * | 2006-10-11 | 2011-10-11 | Avago Technologies General Ip (Singapore) Pte. Ltd. | Contrast-based technique to reduce artifacts in wavelength-encoded images |
KR101356734B1 (en) * | 2007-01-03 | 2014-02-05 | 삼성전자주식회사 | Method and apparatus for video encoding, and method and apparatus for video decoding using motion vector tracking |
CN101573982B (en) * | 2006-11-03 | 2011-08-03 | 三星电子株式会社 | Method and apparatus for encoding/decoding image using motion vector tracking |
JP2010526455A (en) * | 2007-01-23 | 2010-07-29 | ユークリッド・ディスカバリーズ・エルエルシー | Computer method and apparatus for processing image data |
ES2522589T3 (en) | 2007-02-08 | 2014-11-17 | Behavioral Recognition Systems, Inc. | Behavioral recognition system |
US7929762B2 (en) * | 2007-03-12 | 2011-04-19 | Jeffrey Kimball Tidd | Determining edgeless areas in a digital image |
JP2008234518A (en) * | 2007-03-23 | 2008-10-02 | Oki Electric Ind Co Ltd | Image-compositing device and image-compositing program |
US8798148B2 (en) * | 2007-06-15 | 2014-08-05 | Physical Optics Corporation | Apparatus and method employing pre-ATR-based real-time compression and video frame segmentation |
US8171030B2 (en) | 2007-06-18 | 2012-05-01 | Zeitera, Llc | Method and apparatus for multi-dimensional content search and video identification |
US8411935B2 (en) | 2007-07-11 | 2013-04-02 | Behavioral Recognition Systems, Inc. | Semantic representation module of a machine-learning engine in a video analysis system |
US7899804B2 (en) * | 2007-08-30 | 2011-03-01 | Yahoo! Inc. | Automatic extraction of semantics from text information |
US8200011B2 (en) * | 2007-09-27 | 2012-06-12 | Behavioral Recognition Systems, Inc. | Context processor for video analysis system |
US8300924B2 (en) * | 2007-09-27 | 2012-10-30 | Behavioral Recognition Systems, Inc. | Tracker component for behavioral recognition system |
US8175333B2 (en) * | 2007-09-27 | 2012-05-08 | Behavioral Recognition Systems, Inc. | Estimator identifier component for behavioral recognition system |
US7983487B2 (en) * | 2007-11-07 | 2011-07-19 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for locating and picking objects using active illumination |
US8570393B2 (en) * | 2007-11-30 | 2013-10-29 | Cognex Corporation | System and method for processing image data relative to a focus of attention within the overall image |
KR20100097132A (en) * | 2007-12-11 | 2010-09-02 | 톰슨 라이센싱 | Methods and systems for transcoding within the distribution chain |
US8718363B2 (en) | 2008-01-16 | 2014-05-06 | The Charles Stark Draper Laboratory, Inc. | Systems and methods for analyzing image data using adaptive neighborhooding |
US8737703B2 (en) | 2008-01-16 | 2014-05-27 | The Charles Stark Draper Laboratory, Inc. | Systems and methods for detecting retinal abnormalities |
US8208552B2 (en) * | 2008-01-25 | 2012-06-26 | Mediatek Inc. | Method, video encoder, and integrated circuit for detecting non-rigid body motion |
US8086037B2 (en) * | 2008-02-15 | 2011-12-27 | Microsoft Corporation | Tiling and merging framework for segmenting large images |
US8121409B2 (en) | 2008-02-26 | 2012-02-21 | Cyberlink Corp. | Method for handling static text and logos in stabilized images |
US9256789B2 (en) * | 2008-03-21 | 2016-02-09 | Intel Corporation | Estimating motion of an event captured using a digital video camera |
US9251423B2 (en) * | 2008-03-21 | 2016-02-02 | Intel Corporation | Estimating motion of an event captured using a digital video camera |
US8917904B2 (en) | 2008-04-24 | 2014-12-23 | GM Global Technology Operations LLC | Vehicle clear path detection |
US8803966B2 (en) | 2008-04-24 | 2014-08-12 | GM Global Technology Operations LLC | Clear path detection using an example-based approach |
US8249366B2 (en) * | 2008-06-16 | 2012-08-21 | Microsoft Corporation | Multi-label multi-instance learning for image classification |
US9633275B2 (en) | 2008-09-11 | 2017-04-25 | Wesley Kenneth Cobb | Pixel-level based micro-feature extraction |
US9373055B2 (en) * | 2008-12-16 | 2016-06-21 | Behavioral Recognition Systems, Inc. | Hierarchical sudden illumination change detection using radiance consistency within a spatial neighborhood |
US8611590B2 (en) * | 2008-12-23 | 2013-12-17 | Canon Kabushiki Kaisha | Video object fragmentation detection and management |
US9189670B2 (en) * | 2009-02-11 | 2015-11-17 | Cognex Corporation | System and method for capturing and detecting symbology features and parameters |
US8285046B2 (en) * | 2009-02-18 | 2012-10-09 | Behavioral Recognition Systems, Inc. | Adaptive update of background pixel thresholds using sudden illumination change detection |
US8605942B2 (en) * | 2009-02-26 | 2013-12-10 | Nikon Corporation | Subject tracking apparatus, imaging apparatus and subject tracking method |
US8175376B2 (en) * | 2009-03-09 | 2012-05-08 | Xerox Corporation | Framework for image thumbnailing based on visual similarity |
US8553778B2 (en) | 2009-03-19 | 2013-10-08 | International Business Machines Corporation | Coding scheme for identifying spatial locations of events within video image data |
US8537219B2 (en) * | 2009-03-19 | 2013-09-17 | International Business Machines Corporation | Identifying spatial locations of events within video image data |
US8411319B2 (en) * | 2009-03-30 | 2013-04-02 | Sharp Laboratories Of America, Inc. | Methods and systems for concurrent rendering of graphic-list elements |
US8416296B2 (en) * | 2009-04-14 | 2013-04-09 | Behavioral Recognition Systems, Inc. | Mapper component for multiple art networks in a video analysis system |
GB0907870D0 (en) * | 2009-05-07 | 2009-06-24 | Univ Catholique Louvain | Systems and methods for the autonomous production of videos from multi-sensored data |
US8442309B2 (en) * | 2009-06-04 | 2013-05-14 | Honda Motor Co., Ltd. | Semantic scene segmentation using random multinomial logit (RML) |
JP2011040993A (en) * | 2009-08-11 | 2011-02-24 | Nikon Corp | Subject homing program and camera |
US8280153B2 (en) * | 2009-08-18 | 2012-10-02 | Behavioral Recognition Systems | Visualizing and updating learned trajectories in video surveillance systems |
US8295591B2 (en) * | 2009-08-18 | 2012-10-23 | Behavioral Recognition Systems, Inc. | Adaptive voting experts for incremental segmentation of sequences with prediction in a video surveillance system |
US8340352B2 (en) * | 2009-08-18 | 2012-12-25 | Behavioral Recognition Systems, Inc. | Inter-trajectory anomaly detection using adaptive voting experts in a video surveillance system |
US8358834B2 (en) | 2009-08-18 | 2013-01-22 | Behavioral Recognition Systems | Background model for complex and dynamic scenes |
US8379085B2 (en) * | 2009-08-18 | 2013-02-19 | Behavioral Recognition Systems, Inc. | Intra-trajectory anomaly detection using adaptive voting experts in a video surveillance system |
US20110043689A1 (en) * | 2009-08-18 | 2011-02-24 | Wesley Kenneth Cobb | Field-of-view change detection |
US9805271B2 (en) | 2009-08-18 | 2017-10-31 | Omni Ai, Inc. | Scene preset identification using quadtree decomposition analysis |
US8493409B2 (en) * | 2009-08-18 | 2013-07-23 | Behavioral Recognition Systems, Inc. | Visualizing and updating sequences and segments in a video surveillance system |
US8625884B2 (en) * | 2009-08-18 | 2014-01-07 | Behavioral Recognition Systems, Inc. | Visualizing and updating learned event maps in surveillance systems |
US8270733B2 (en) * | 2009-08-31 | 2012-09-18 | Behavioral Recognition Systems, Inc. | Identifying anomalous object types during classification |
US8285060B2 (en) * | 2009-08-31 | 2012-10-09 | Behavioral Recognition Systems, Inc. | Detecting anomalous trajectories in a video surveillance system |
US8797405B2 (en) * | 2009-08-31 | 2014-08-05 | Behavioral Recognition Systems, Inc. | Visualizing and updating classifications in a video surveillance system |
US8786702B2 (en) * | 2009-08-31 | 2014-07-22 | Behavioral Recognition Systems, Inc. | Visualizing and updating long-term memory percepts in a video surveillance system |
US8167430B2 (en) * | 2009-08-31 | 2012-05-01 | Behavioral Recognition Systems, Inc. | Unsupervised learning of temporal anomalies for a video surveillance system |
US8270732B2 (en) * | 2009-08-31 | 2012-09-18 | Behavioral Recognition Systems, Inc. | Clustering nodes in a self-organizing map using an adaptive resonance theory network |
US8218818B2 (en) * | 2009-09-01 | 2012-07-10 | Behavioral Recognition Systems, Inc. | Foreground object tracking |
US8218819B2 (en) * | 2009-09-01 | 2012-07-10 | Behavioral Recognition Systems, Inc. | Foreground object detection in a video surveillance system |
US8170283B2 (en) * | 2009-09-17 | 2012-05-01 | Behavioral Recognition Systems Inc. | Video surveillance system configured to analyze complex behaviors using alternating layers of clustering and sequencing |
US8180105B2 (en) * | 2009-09-17 | 2012-05-15 | Behavioral Recognition Systems, Inc. | Classifier anomalies for observed behaviors in a video surveillance system |
US9607202B2 (en) * | 2009-12-17 | 2017-03-28 | University of Pittsburgh—of the Commonwealth System of Higher Education | Methods of generating trophectoderm and neurectoderm from human embryonic stem cells |
US8179370B1 (en) | 2010-02-09 | 2012-05-15 | Google Inc. | Proximity based keystroke resolution |
US8830182B1 (en) | 2010-02-09 | 2014-09-09 | Google Inc. | Keystroke resolution |
US8406472B2 (en) * | 2010-03-16 | 2013-03-26 | Sony Corporation | Method and system for processing image data |
US9053562B1 (en) * | 2010-06-24 | 2015-06-09 | Gregory S. Rabin | Two dimensional to three dimensional moving image converter |
US9132352B1 (en) | 2010-06-24 | 2015-09-15 | Gregory S. Rabin | Interactive system and method for rendering an object |
US8751872B2 (en) | 2011-05-27 | 2014-06-10 | Microsoft Corporation | Separation of error information from error propagation information |
CN103106648B (en) * | 2011-11-11 | 2016-04-06 | 株式会社理光 | Determine the method and apparatus of view field in image |
IN2014DN08349A (en) | 2012-03-15 | 2015-05-08 | Behavioral Recognition Sys Inc | |
WO2014004901A1 (en) | 2012-06-29 | 2014-01-03 | Behavioral Recognition Systems, Inc. | Unsupervised learning of feature anomalies for a video surveillance system |
US9113143B2 (en) | 2012-06-29 | 2015-08-18 | Behavioral Recognition Systems, Inc. | Detecting and responding to an out-of-focus camera in a video analytics system |
US9111353B2 (en) | 2012-06-29 | 2015-08-18 | Behavioral Recognition Systems, Inc. | Adaptive illuminance filter in a video analysis system |
US9911043B2 (en) | 2012-06-29 | 2018-03-06 | Omni Ai, Inc. | Anomalous object interaction detection and reporting |
US9723271B2 (en) | 2012-06-29 | 2017-08-01 | Omni Ai, Inc. | Anomalous stationary object detection and reporting |
US9317908B2 (en) | 2012-06-29 | 2016-04-19 | Behavioral Recognition System, Inc. | Automatic gain control filter in a video analysis system |
BR112015003444A2 (en) | 2012-08-20 | 2017-07-04 | Behavioral Recognition Sys Inc | method and system for detecting oil on sea surface |
DE102012020778B4 (en) | 2012-10-23 | 2018-01-18 | Audi Ag | Method of tagging a sequence of images taken in time sequence with integrated quality control |
WO2014075022A1 (en) | 2012-11-12 | 2014-05-15 | Behavioral Recognition Systems, Inc. | Image stabilization techniques for video surveillance systems |
US9639521B2 (en) | 2013-08-09 | 2017-05-02 | Omni Ai, Inc. | Cognitive neuro-linguistic behavior recognition system for multi-sensor data fusion |
CN105321188A (en) * | 2014-08-04 | 2016-02-10 | 江南大学 | Foreground probability based target tracking method |
US10409909B2 (en) | 2014-12-12 | 2019-09-10 | Omni Ai, Inc. | Lexical analyzer for a neuro-linguistic behavior recognition system |
US10409910B2 (en) | 2014-12-12 | 2019-09-10 | Omni Ai, Inc. | Perceptual associative memory for a neuro-linguistic behavior recognition system |
US10019657B2 (en) * | 2015-05-28 | 2018-07-10 | Adobe Systems Incorporated | Joint depth estimation and semantic segmentation from a single image |
US10346996B2 (en) | 2015-08-21 | 2019-07-09 | Adobe Inc. | Image depth inference from semantic labels |
US10229324B2 (en) | 2015-12-24 | 2019-03-12 | Intel Corporation | Video summarization using semantic information |
US10853661B2 (en) | 2016-04-06 | 2020-12-01 | Intellective Ai, Inc. | Methods and systems for optimized selection of data features for a neuro-linguistic cognitive artificial intelligence system |
US10303984B2 (en) | 2016-05-17 | 2019-05-28 | Intel Corporation | Visual search and retrieval using semantic information |
US10313686B2 (en) * | 2016-09-20 | 2019-06-04 | Gopro, Inc. | Apparatus and methods for compressing video content using adaptive projection selection |
US10134154B2 (en) * | 2016-12-30 | 2018-11-20 | Google Llc | Selective dynamic color management for user interface components of a media player |
EP3625697A1 (en) * | 2017-11-07 | 2020-03-25 | Google LLC | Semantic state based sensor tracking and updating |
US20200226763A1 (en) * | 2019-01-13 | 2020-07-16 | Augentix Inc. | Object Detection Method and Computing System Thereof |
CN110751066B (en) * | 2019-09-30 | 2023-04-07 | 武汉工程大学 | Image state identification method, device and equipment based on semantic segmentation model |
US10970855B1 (en) | 2020-03-05 | 2021-04-06 | International Business Machines Corporation | Memory-efficient video tracking in real-time using direction vectors |
US11798270B2 (en) * | 2020-04-27 | 2023-10-24 | Molecular Devices, Llc | Systems and methods for image classification |
WO2022154342A1 (en) * | 2021-01-12 | 2022-07-21 | Samsung Electronics Co., Ltd. | Methods and electronic device for processing image |
CN117916730A (en) * | 2021-06-23 | 2024-04-19 | Op解決方案公司 | System and method for organizing and searching video databases |
Family Cites Families (92)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0766446B2 (en) | 1985-11-27 | 1995-07-19 | 株式会社日立製作所 | Method of extracting moving object image |
US5136659A (en) | 1987-06-30 | 1992-08-04 | Kokusai Denshin Denwa Kabushiki Kaisha | Intelligent coding system for picture signal |
US5043919A (en) * | 1988-12-19 | 1991-08-27 | International Business Machines Corporation | Method of and system for updating a display unit |
US5034986A (en) | 1989-03-01 | 1991-07-23 | Siemens Aktiengesellschaft | Method for detecting and tracking moving objects in a digital image sequence having a stationary background |
US5175808A (en) | 1989-09-12 | 1992-12-29 | Pixar | Method and apparatus for non-affine image warping |
JP2953712B2 (en) | 1989-09-27 | 1999-09-27 | 株式会社東芝 | Moving object detection device |
GB9001468D0 (en) | 1990-01-23 | 1990-03-21 | Sarnoff David Res Center | Computing multiple motions within an image region |
JP2569219B2 (en) | 1990-01-31 | 1997-01-08 | 富士通株式会社 | Video prediction method |
US5148497A (en) | 1990-02-14 | 1992-09-15 | Massachusetts Institute Of Technology | Fractal-based image compression and interpolation |
JPH082107B2 (en) | 1990-03-02 | 1996-01-10 | 国際電信電話株式会社 | Method and apparatus for moving picture hybrid coding |
US5103306A (en) | 1990-03-28 | 1992-04-07 | Transitions Research Corporation | Digital image compression employing a resolution gradient |
JP3037383B2 (en) | 1990-09-03 | 2000-04-24 | キヤノン株式会社 | Image processing system and method |
GB9019538D0 (en) | 1990-09-07 | 1990-10-24 | Philips Electronic Associated | Tracking a moving object |
US5266941A (en) * | 1991-02-15 | 1993-11-30 | Silicon Graphics, Inc. | Apparatus and method for controlling storage of display information in a computer system |
JPH04334188A (en) | 1991-05-08 | 1992-11-20 | Nec Corp | Coding system for moving picture signal |
GB2256341B (en) * | 1991-05-24 | 1995-02-15 | British Broadcasting Corp | Video image processing |
JP2873338B2 (en) | 1991-09-17 | 1999-03-24 | 富士通株式会社 | Moving object recognition device |
JP2856229B2 (en) | 1991-09-18 | 1999-02-10 | 財団法人ニューメディア開発協会 | Image clipping point detection method |
US5259040A (en) | 1991-10-04 | 1993-11-02 | David Sarnoff Research Center, Inc. | Method for determining sensor motion and scene structure and image processing system therefor |
JP2790562B2 (en) | 1992-01-06 | 1998-08-27 | 富士写真フイルム株式会社 | Image processing method |
JP3068304B2 (en) | 1992-01-21 | 2000-07-24 | 日本電気株式会社 | Video coding and decoding systems |
DE69322423T2 (en) | 1992-03-13 | 1999-06-02 | Canon K.K., Tokio/Tokyo | Device for the detection of motion vectors |
ATE203844T1 (en) | 1992-03-20 | 2001-08-15 | Commw Scient Ind Res Org | OBJECT MONITORING SYSTEM |
US5706417A (en) | 1992-05-27 | 1998-01-06 | Massachusetts Institute Of Technology | Layered representation for image coding |
GB9215102D0 (en) | 1992-07-16 | 1992-08-26 | Philips Electronics Uk Ltd | Tracking moving objects |
EP0584559A3 (en) | 1992-08-21 | 1994-06-22 | United Parcel Service Inc | Method and apparatus for finding areas of interest in images |
JPH06113287A (en) | 1992-09-30 | 1994-04-22 | Matsushita Electric Ind Co Ltd | Picture coder and picture decoder |
US5592228A (en) | 1993-03-04 | 1997-01-07 | Kabushiki Kaisha Toshiba | Video encoder using global motion estimation and polygonal patch motion estimation |
JP3679426B2 (en) | 1993-03-15 | 2005-08-03 | マサチューセッツ・インスティチュート・オブ・テクノロジー | A system that encodes image data into multiple layers, each representing a coherent region of motion, and motion parameters associated with the layers. |
EP0627693B1 (en) | 1993-05-05 | 2004-11-17 | Koninklijke Philips Electronics N.V. | Apparatus for segmenting images composed of textures |
US5329311A (en) | 1993-05-11 | 1994-07-12 | The University Of British Columbia | System for determining noise content of a video signal in the disclosure |
DE69416717T2 (en) | 1993-05-21 | 1999-10-07 | Nippon Telegraph And Telephone Corp., Tokio/Tokyo | Moving picture encoders and decoders |
US5517327A (en) * | 1993-06-30 | 1996-05-14 | Minolta Camera Kabushiki Kaisha | Data processor for image data using orthogonal transformation |
JP2576771B2 (en) | 1993-09-28 | 1997-01-29 | 日本電気株式会社 | Motion compensation prediction device |
AU7975094A (en) * | 1993-10-12 | 1995-05-04 | Orad, Inc. | Sports event video |
US5434927A (en) * | 1993-12-08 | 1995-07-18 | Minnesota Mining And Manufacturing Company | Method and apparatus for machine vision classification and tracking |
US5586200A (en) * | 1994-01-07 | 1996-12-17 | Panasonic Technologies, Inc. | Segmentation based image compression system |
JPH07299053A (en) | 1994-04-29 | 1995-11-14 | Arch Dev Corp | Computer diagnosis support method |
US5594504A (en) * | 1994-07-06 | 1997-01-14 | Lucent Technologies Inc. | Predictive video coding using a motion vector updating routine |
JP2870415B2 (en) | 1994-08-22 | 1999-03-17 | 日本電気株式会社 | Area division method and apparatus |
US5978497A (en) | 1994-09-20 | 1999-11-02 | Neopath, Inc. | Apparatus for the identification of free-lying cells |
DE69525127T2 (en) | 1994-10-28 | 2002-10-02 | Oki Electric Industry Co., Ltd. | Device and method for encoding and decoding images using edge synthesis and wavelet inverse transformation |
US5619281A (en) | 1994-12-30 | 1997-04-08 | Daewoo Electronics Co., Ltd | Method and apparatus for detecting motion vectors in a frame decimating video encoder |
KR0171146B1 (en) | 1995-03-18 | 1999-03-20 | 배순훈 | Feature point based motion vectors detecting apparatus |
KR0171118B1 (en) | 1995-03-20 | 1999-03-20 | 배순훈 | Apparatus for encoding video signal |
KR0171143B1 (en) | 1995-03-20 | 1999-03-20 | 배순훈 | Apparatus for composing triangle in the hexagonal grid |
KR0171147B1 (en) | 1995-03-20 | 1999-03-20 | 배순훈 | Apparatus for selecting feature point by means of gradient |
JP3612360B2 (en) | 1995-04-10 | 2005-01-19 | 株式会社大宇エレクトロニクス | Motion estimation method using moving object segmentation method |
KR0171154B1 (en) | 1995-04-29 | 1999-03-20 | 배순훈 | Method and apparatus for encoding video signals using feature point based motion prediction |
KR0181063B1 (en) | 1995-04-29 | 1999-05-01 | 배순훈 | Method and apparatus for forming grid in motion compensation technique using feature point |
US5654771A (en) | 1995-05-23 | 1997-08-05 | The University Of Rochester | Video compression system using a dense motion vector field and a triangular patch mesh overlay model |
US5717463A (en) | 1995-07-24 | 1998-02-10 | Motorola, Inc. | Method and system for estimating motion within a video sequence |
US5668608A (en) | 1995-07-26 | 1997-09-16 | Daewoo Electronics Co., Ltd. | Motion vector estimation method and apparatus for use in an image signal encoding system |
EP0783820B1 (en) | 1995-08-02 | 2001-10-10 | Koninklijke Philips Electronics N.V. | Method and system for coding an image sequence |
KR0178229B1 (en) | 1995-08-08 | 1999-05-01 | 배순훈 | Image processing system using a pixel-by-pixel motion estimation based on feature points |
KR100304660B1 (en) * | 1995-09-22 | 2001-11-22 | 윤종용 | Method for encoding video signals by accumulative error processing and encoder |
US6026182A (en) | 1995-10-05 | 2000-02-15 | Microsoft Corporation | Feature segmentation |
KR100308627B1 (en) * | 1995-10-25 | 2001-11-02 | 마찌다 가쯔히꼬 | Low bit rate encoder using overlapping block motion compensation and zerotree wavelet coding |
US5802220A (en) | 1995-12-15 | 1998-09-01 | Xerox Corporation | Apparatus and method for tracking facial motion through a sequence of images |
US5692063A (en) | 1996-01-19 | 1997-11-25 | Microsoft Corporation | Method and system for unrestricted motion estimation for video |
US6957350B1 (en) * | 1996-01-30 | 2005-10-18 | Dolby Laboratories Licensing Corporation | Encrypted and watermarked temporal and resolution layering in advanced television |
US5764814A (en) | 1996-03-22 | 1998-06-09 | Microsoft Corporation | Representation and encoding of general arbitrary shapes |
US5778098A (en) | 1996-03-22 | 1998-07-07 | Microsoft Corporation | Sprite coding |
US6037988A (en) | 1996-03-22 | 2000-03-14 | Microsoft Corp | Method for generating sprites for object-based coding sytems using masks and rounding average |
US5982909A (en) * | 1996-04-23 | 1999-11-09 | Eastman Kodak Company | Method for region tracking in an image sequence using a two-dimensional mesh |
DE69738287T2 (en) | 1996-09-20 | 2008-06-12 | Hitachi, Ltd. | A method of displaying a moving object whose track is to be identified, display system using this method and program recording medium therefor |
US6075875A (en) | 1996-09-30 | 2000-06-13 | Microsoft Corporation | Segmentation of image features using hierarchical analysis of multi-valued image data and weighted averaging of segmentation results |
US5748789A (en) | 1996-10-31 | 1998-05-05 | Microsoft Corporation | Transparent block skipping in object-based video coding systems |
US5864630A (en) * | 1996-11-20 | 1999-01-26 | At&T Corp | Multi-modal method for locating objects in images |
US5912991A (en) * | 1997-02-07 | 1999-06-15 | Samsung Electronics Co., Ltd. | Contour encoding method using error bands |
US6421738B1 (en) * | 1997-07-15 | 2002-07-16 | Microsoft Corporation | Method and system for capturing and encoding full-screen video graphics |
US6167155A (en) * | 1997-07-28 | 2000-12-26 | Physical Optics Corporation | Method of isomorphic singular manifold projection and still/video imagery compression |
US6188777B1 (en) * | 1997-08-01 | 2001-02-13 | Interval Research Corporation | Method and apparatus for personnel detection and tracking |
US6097854A (en) * | 1997-08-01 | 2000-08-01 | Microsoft Corporation | Image mosaic construction system and apparatus with patch-based alignment, global block adjustment and pair-wise motion-based local warping |
US5946043A (en) | 1997-12-31 | 1999-08-31 | Microsoft Corporation | Video coding using adaptive coding of block parameters for coded/uncoded blocks |
US6226407B1 (en) * | 1998-03-18 | 2001-05-01 | Microsoft Corporation | Method and apparatus for analyzing computer screens |
US6400831B2 (en) * | 1998-04-02 | 2002-06-04 | Microsoft Corporation | Semantic video object segmentation and tracking |
US6711278B1 (en) * | 1998-09-10 | 2004-03-23 | Microsoft Corporation | Tracking semantic objects in vector image sequences |
US6721454B1 (en) * | 1998-10-09 | 2004-04-13 | Sharp Laboratories Of America, Inc. | Method for automatic extraction of semantically significant events from video |
US6573915B1 (en) * | 1999-12-08 | 2003-06-03 | International Business Machines Corporation | Efficient capture of computer screens |
US6654419B1 (en) * | 2000-04-28 | 2003-11-25 | Sun Microsystems, Inc. | Block-based, adaptive, lossless video coder |
US6650705B1 (en) * | 2000-05-26 | 2003-11-18 | Mitsubishi Electric Research Laboratories Inc. | Method for encoding and transcoding multiple video objects with variable temporal resolution |
AU2001290608A1 (en) * | 2000-08-31 | 2002-03-13 | Rytec Corporation | Sensor and imaging system |
US6959104B2 (en) * | 2001-02-05 | 2005-10-25 | National Instruments Corporation | System and method for scanning a region using a low discrepancy sequence |
US6870945B2 (en) * | 2001-06-04 | 2005-03-22 | University Of Washington | Video object tracking by estimating and subtracting background |
US20030072479A1 (en) * | 2001-09-17 | 2003-04-17 | Virtualscopics | System and method for quantitative assessment of cancers and their change over time |
GB0122601D0 (en) * | 2001-09-19 | 2001-11-07 | Imp College Innovations Ltd | Manipulation of image data |
US6904159B2 (en) * | 2001-12-20 | 2005-06-07 | Mitsubishi Electric Research Laboratories, Inc. | Identifying moving objects in a video using volume growing and change detection masks |
US7046827B2 (en) * | 2002-02-15 | 2006-05-16 | International Business Machines Corporation | Adapting point geometry for storing address density |
US6904759B2 (en) * | 2002-12-23 | 2005-06-14 | Carrier Corporation | Lubricant still and reservoir for refrigeration system |
US7764808B2 (en) * | 2003-03-24 | 2010-07-27 | Siemens Corporation | System and method for vehicle detection and tracking |
WO2005036456A2 (en) * | 2003-05-12 | 2005-04-21 | Princeton University | Method and apparatus for foreground segmentation of video sequences |
-
1998
- 1998-09-10 US US09/151,368 patent/US6711278B1/en not_active Expired - Lifetime
-
1999
- 1999-09-10 WO PCT/US1999/020476 patent/WO2000016563A1/en active IP Right Grant
- 1999-09-10 DE DE69922973T patent/DE69922973T2/en not_active Expired - Lifetime
- 1999-09-10 JP JP2000570977A patent/JP4074062B2/en not_active Expired - Fee Related
- 1999-09-10 AT AT99948144T patent/ATE286337T1/en not_active IP Right Cessation
- 1999-09-10 EP EP04025956A patent/EP1519589A3/en not_active Withdrawn
- 1999-09-10 EP EP99948144A patent/EP1112661B1/en not_active Expired - Lifetime
-
2004
- 2004-01-28 US US10/767,135 patent/US7088845B2/en not_active Expired - Fee Related
-
2005
- 2005-06-29 US US11/171,448 patent/US7162055B2/en not_active Expired - Fee Related
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008508801A (en) * | 2004-07-30 | 2008-03-21 | ユークリッド・ディスカバリーズ・エルエルシー | Apparatus and method for processing video data |
US9743078B2 (en) | 2004-07-30 | 2017-08-22 | Euclid Discoveries, Llc | Standards-compliant model-based video encoding and decoding |
JP2008514136A (en) * | 2004-09-21 | 2008-05-01 | ユークリッド・ディスカバリーズ・エルエルシー | Apparatus and method for processing video data |
JP2008537391A (en) * | 2005-03-31 | 2008-09-11 | ユークリッド・ディスカバリーズ・エルエルシー | Apparatus and method for processing video data |
US8243118B2 (en) | 2007-01-23 | 2012-08-14 | Euclid Discoveries, Llc | Systems and methods for providing personal video services |
JP2008243187A (en) * | 2007-03-27 | 2008-10-09 | Mitsubishi Electric Research Laboratories Inc | Computer implemented method for tracking object in video frame sequence |
JP2011003029A (en) * | 2009-06-18 | 2011-01-06 | Canon Inc | Image processing apparatus and control method of the same |
US9621917B2 (en) | 2014-03-10 | 2017-04-11 | Euclid Discoveries, Llc | Continuous block tracking for temporal prediction in video encoding |
US10091507B2 (en) | 2014-03-10 | 2018-10-02 | Euclid Discoveries, Llc | Perceptual optimization for model-based video encoding |
US10097851B2 (en) | 2014-03-10 | 2018-10-09 | Euclid Discoveries, Llc | Perceptual optimization for model-based video encoding |
KR101709085B1 (en) * | 2015-12-16 | 2017-02-23 | 서강대학교산학협력단 | Shot Boundary Detection method and apparatus using Convolutional Neural Networks |
Also Published As
Publication number | Publication date |
---|---|
WO2000016563A1 (en) | 2000-03-23 |
JP4074062B2 (en) | 2008-04-09 |
EP1519589A3 (en) | 2010-12-08 |
ATE286337T1 (en) | 2005-01-15 |
US7162055B2 (en) | 2007-01-09 |
EP1112661A1 (en) | 2001-07-04 |
US6711278B1 (en) | 2004-03-23 |
DE69922973T2 (en) | 2005-05-19 |
EP1519589A2 (en) | 2005-03-30 |
US20050240629A1 (en) | 2005-10-27 |
US7088845B2 (en) | 2006-08-08 |
US20040189863A1 (en) | 2004-09-30 |
EP1112661B1 (en) | 2004-12-29 |
DE69922973D1 (en) | 2005-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2002525735A (en) | Tracking semantic objects in vector image sequences | |
Wang et al. | Spatio-temporal segmentation of video data | |
CN100514367C (en) | Color segmentation-based stereo 3D reconstruction system and process | |
Newcombe et al. | DTAM: Dense tracking and mapping in real-time | |
JP3679426B2 (en) | A system that encodes image data into multiple layers, each representing a coherent region of motion, and motion parameters associated with the layers. | |
JP4777433B2 (en) | Split video foreground | |
Giakoumis et al. | Digital image processing techniques for the detection and removal of cracks in digitized paintings | |
US20080112606A1 (en) | Method for moving cell detection from temporal image sequence model estimation | |
Venkatesh et al. | Efficient object-based video inpainting | |
KR20040053337A (en) | Computer vision method and system for blob-based analysis using a probabilistic framework | |
Zhang et al. | An optical flow based moving objects detection algorithm for the UAV | |
Angelo | A novel approach on object detection and tracking using adaptive background subtraction method | |
KR102466061B1 (en) | Apparatus for denoising using hierarchical generative adversarial network and method thereof | |
KR100566629B1 (en) | System for detecting moving objects and method thereof | |
JP6216192B2 (en) | Motion estimation apparatus and program | |
Shokurov et al. | Feature tracking in images and video | |
Tweed et al. | Moving Object Graphs and Layer Extraction from Image Sequences. | |
Aydin | RAW Bayer Domain Image Alignment | |
Bleyer et al. | Region-based optical flow estimation with treatment of occlusions | |
Han et al. | Video foreground segmentation based on sequential feature clustering | |
Luo et al. | A novel superpixel approach utilizing depth and temporal cues | |
CN117641058A (en) | Improved optical flow chart generation method based on Animeiterp | |
Hsieh et al. | A 2D Hidden Markov Model for Patch-based Super Resolution | |
Lokesh et al. | Adaptive online performance analysis of an fast and efficient video based tracking algorithm of rigid objects | |
Raghavendra | Video inpainting and object separation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20041029 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041029 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20041029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070803 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20071105 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20071112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20071203 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071228 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080124 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110201 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4074062 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120201 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130201 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130201 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140201 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |