-
Die
vorliegende Erfindung betrifft eine Vorrichtung und ein Verfahren
zum Extrahieren von Anfrageobjekten aus einer Videosequenz und Erzeugen von
objekt-markierten Bildern für
die Anfrageobjekte.
-
Bei
herkömmlicher
Technologie werden Anfrageobjekte aus jedem Frame einer bewegten
Bildsequenz von Hand extrahiert, um objekt-markierte Bilder in der
bewegten Darstellung zu erzeugen. Verfahren zum automatischen Extrahieren
von Objekten ohne Notwendigkeit zusätzlicher Arbeitsvorgänge wurden
unlängst
angekündigt.
-
Verfahren
zum Extrahieren von Objekten aus Bildern beinhalten auf Bewegung
basierende Extraktionsverfahren und auf Merkmalen basierende Extraktionsverfahren.
Auf Bewegung basierende Extraktionsverfahren beinhalten auf Framedifferenz
basierende Extraktionsverfahren, auf Hintergrundsubtraktion basierende
Extraktionsverfahren und auf Bewegungsanalyse basierende Extraktionsverfahren. Auf
Framedifferenz basierende Extraktionsverfahren, wie sie in den US-Patenten
Nr. 5,500,904 und 5,109,435 offenbart sind, extrahieren Bewegung durch
Berechnen einer Differenz in der Helligkeit zwischen kontinuierlichen
Frames eines Bildes. Bei Hintergrundsubtraktionsverfahren, wie sie
in US-Patent Nr. 5,748,775 offenbart sind, wird ein Hintergrundbild durch
temporäre
Veränderung
eines Bildmerkmalsparameters gewonnen und ein Objektbereich wird durch
die Differenz zwischen einem ursprünglichen Bild und dem Hintergrundbild
extrahiert. Beim Bewegungsanalyseverfahren, wie sie in den US-Patent
Nr. 5,862,508 offenbart sind, wird ein Bewegungsbereich durch Berechnen
der Bewegungsrichtung und der Geschwindigkeit eines bewegten Objekts
extrahiert.
-
Solche
Objektbereichextraktionsverfahren können jedoch nur verwendet werden,
wenn die Bewegungsgeschwindigkeit eines Objekts geeignet ist. Es
ist schwierig, solche Verfahren bei einem stillen Bild, einen langsam
bewegten Objekt oder einem schnell bewegten Objekt anzuwenden.
-
Ein
Ansatz zur Verwendung eines Merkmalswertes eines Objektbereichs
beinhaltet ein Templatanpassungsverfahren wie es in US-Patent Nr. 5,943,442
offenbart ist, ein Mehrwertschwellenverfahren, wie es in US-Patent Nr. 5,138,671
offenbart ist und ein Merkmalswertanpassungsverfahren. Um diese
Verfahren beim Extrahieren eines Anfrageobjekts aus Daten von bewegten
Darstellungen zu extrahieren, müssen
die Verfahren auf alle Frames auf Basis von Anfrageobjekten angewendet
werden. Deshalb ist ein beträchtlicher
Zeitaufwand erforderlich.
-
WO
98/50869 offenbart ein Verfahren und ein System zum Durchführen einer
objekt-orientierten inhaltsbasierten Videosuche. Es ist auch ein
Verfahren zum Extrahieren von zuvor undefinierten „Videoobjekten" aus Videoclips offenbart.
-
Gemäß der Erfindung
wird ein Verfahren zum Markieren von Anfrageobjekten in einer Videosequenz
auf Basis von Bildern der Anfrageobjekte zur Verfügung gestellt,
wobei die markierte Videosequenz zur Verwendung in einem interaktiven
Service für
abfragbare Objekte vorgesehen ist, wobei das Verfahren die Schritte
umfasst: a. Empfangen der Videosequenz und Empfangen der Bilder
der Anfrageobjekte; b. Teilen der Videosequenz in eine oder mehrere
Aufnahmen, deren jede ein Satz Frames mit einer ähnlichen Szene ist, und Auswählen eines
oder mehrerer Key-Frames (Schlüsselbilder)
aus jeder der Aufnahmen; c. Bestimmen, ob ein Objekt ähnlich jedem
der Anfrageobjekte in jedem der Key-Frames vorhanden ist, und wenn
es ein ähnliches
Objekt in einem Key-Frame gibt, Extrahieren des ähnlichen Objekts als ein entsprechendes
Anfrageobjekt auf Basis des Ausgangsobjektbereichs; d. Verfolgen
von Objektbereichen in allen Frames jeder der Aufnahmen auf Basis
des entsprechenden Anfrageobjekts auf Basis der Ausgangsobjektbereiche;
und e. Markieren der verfolgten Objektbereiche in jedem der Frames
auf Basis von Information über
die entsprechenden Anfrageobjekte.
-
Die
Erfindung betrifft auch eine Vorrichtung zum Markieren von Anfrageobjekten
in einer Videosequenz auf Basis von Bildern der Anfrageobjekte, wobei
die markierte Videosequenz zur Verwendung in einem interaktiven
System für
abfragbare Objekte vorgesehen ist, wobei die Vorrichtung umfasst:
eine Videosequenzempfangseinheit zum Empfangen der Videosequenz
undeiner Anfragebildempfangseinheit zum Empfangen von Bildern der
Anfrageobjekte; eine Aufnahmen- und Key-Frame-Einstelleinheit, die so angeordnet ist,
dass sie die Videosequenz in eine oder mehrere Aufnahmen teilt,
deren jede ein Satz Frames mit einer ähnlichen Szene ist, und Auswählen eines
oder mehrerer Key-Frames aus jeder der Aufnahmen; einen Ausgangsobjektbereichsextraktor,
so angeordnet, dass er bestimmt, ob ein Objekt ähnlich jedem der Anfrageobjekte
in jedem der Key-Frames vorhanden ist, und wenn ein ähnliches Objekt
in einem Key-Frame vorhanden ist, Extrahieren des ähnlichen
Objekts als ein entsprechendes Anfrageobjekt auf Basis des Ausgangsobjektbereichs;
eine Objektbereichsverfolgungseinrichtung so angeordnet, dass sie
Objektbereiche in allen Frames jeder der Aufnahmen auf Basis des
entsprechenden Anfrageobjekts auf Basis von Ausgangsobjektbereichen
verfolgt; und einen Generator für
objekt-markierte Bilder, so angeordnet, dass er die verfolgten Objektbereiche
in jedem der Frames auf Basis von Information über die entsprechenden Anfrageobjekte markiert.
-
Die
vorliegende Erfindung stellt eine Vorrichtung und ein Verfahren
zum Erzeugen von objekt-markierten Bildern in einer bewegten Darstellung zur
Verfügung,
in dem Anfrageobjektbereiche automatisch in jedem Frame auf Basis
von Key-Frames extrahiert werden können, ohne dass zusätzliche Vorgänge von
Hand notwendig sind und ungeachtet des Bewegungsgrads eines Objekts,
und Objektbilder, die auf Basis von Information der entsprechenden
Anfrageobjekte markiert sind, werden in jedem Frame erzeugt.
-
Die
obigen Ziele und Vorteile der vorliegenden Erfindung werden besser
ersichtlich aus einer ausführlichen
Beschreibung bevorzugter Ausführungsformen
mit Bezug zu den begleitenden Zeichnungen, in denen:
-
1 ein
Blockdiagramm eines objektbasierten interaktiven Servicesystems
ist, bei dem die vorliegende Erfindung angewendet wird;
-
2 ein
Blockdiagramm ist, das eine Vorrichtung zum Erzeugen eines objekt-markierten
Bildes gemäß der vorliegenden
Erfindung zeigt;
-
3A und 3B Fließbilder
sind, die ein Verfahren zum Erzeugen eines objekt-markierten Bildes
gemäß der vorliegenden
Erfindung darstellen;
-
4 ein
Beispiel einer Videosequenz zeigt, die in p Aufnahmen unterteilt
ist und ihre Key-Frames;
-
5 ein
Beispiel einer Videosequenz zeigt, die in 9 Aufnahmen unterteilt
ist und ihre Key-Frames;
-
6 ein
Beispiel eines Bildframes und von Anfrageobjekten zeigt, die im
Framebild vorhanden sind;
-
7 ein
Beispiel zum Markieren von Objekten mit Markierungsnummern zeigt;
-
8 ein
Beispiel zeigt, wo ein Objekt mit dem Schwerpunkt und dem Minimalflächenrechteck markiert
wird;
-
9 ein
Beispiel der Objektmarkierung zeigt, die den Schwerpunkt und die
Koordinatenwerte des Minimalflächenrechtecks
von 8 verwendet; und
-
10 eine
Ausführungsform
eines objektbasierten interaktiven Service unter Verwendung der vorliegenden
Erfindung zeigt.
-
1 ist
ein schematisches Blockdiagramm eines objektbasierten interaktiven
Servicesystems, bei dem die vorliegende Erfindung angewendet wird. Das
objektbasierte interaktive Servicesystem beinhaltet Benutzerterminals 100,
einen Server 120, eine Videodatenbasis (DB) 130 für Videosequenzen
und eine Objekt DB 140 für interessierende Objekte.
-
Als
Anwendungsbeispiel der vorliegenden Erfindung werden für einen
Service durch das in 1 gezeigte Objekt basierte interaktive
Servicesystem ein oder mehrere Objektbereiche in bewegten Bilddaten,
die einem oder mehreren Anfrageobjekten entsprechen, als Objekt-markierte
Bilder erzeugt.
-
Mit
Bezug zu 1 beinhaltet jedes der Benutzerterminals 100 eine
objektbasierte interaktive Bildabspieleinrichtung oder eine MPEG-4-Abspieleinrichtung
und ist mit dem Server 120 durch ein Netzwerk 110 auf
Entfernung verbunden. Wenn eines der Benutzerterminals 100 mit
dem Server 120 verbunden ist, kann ein Benutzer eine bewegte
Darstellung (Videosequenz) betrachten, die vom Server 120 auf
dem Bildschirm des Benutzerterminals bereitgestellt wird, indem
die objektbasierte interaktive Bildabspieleinrichtung betätigt wird.
Der Benutzer kann ein beliebiges Objekt auswählen (ein Objekt, das ihn interessiert)
in einem beliebigen Frame der Videosequenz, während er diese durch die objektbasierte
interaktive Bildabspieleinrichtung betrachtet.
-
Der
Server 120 stellt die in der Video DB 130 gespeicherten
Videosequenzen für
jedes der Benutzerterminals 100 bereit und stellt auch
detaillierte Information zu dem Objekt bereit, das von dem Benutzer
ausgewählt
ist, mit Bezug zur Objekt DB 140. Zu diesem Zeitpunkt kann
der Benutzer Information zu dem ausgewählten Objekt durch einen separaten Frame
ansehen (einen α-Frame
im Falle von MPEG 4), der zusammen mit RGB-Frames (oder YUV-Frames)
bereitgestellt ist.
-
In 1 verwaltet
der Server 120 die Video DB 130, in der verschiedene
Videosequenzdaten gespeichert sind und die Objekt DB 140,
in der Information zu interessierenden Objekten wie Produkten oder
Personen, die in einem speziellen Bild einer Videosequenz enthalten
sind, gespeichert ist. Die DBs 130 und 140 können im
Server 120 implementiert sein. Das interaktive Servicesystem
von 1 kann unter Bedingungen des Web ausgeführt sein.
In diesem Fall dient der Server 120 als Webserver und jedes
der Benutzerterminals 100 beinhaltet einen Webbrowser und
ist mit dem Webserver 120 durch das Internet 110 verbunden.
-
Nachfolgend
werden eine Vorrichtung und ein Verfahren zum Erzeugen eines objekt-markierten Bildes
in einer Videosequenz gemäß der vorliegenden
Erfindung beschrieben.
-
2 ist
ein Blockdiagramm der Vorrichtung zum Erzeugen von objektmarkierten
Bildern gemäß der vorliegenden
Erfindung. Die Vorrichtung zum Erzeugen von objekt-markierten Bildern
beinhaltet eine Videosequenzempfängereinheit 200,
eine Anfragebildempfangseinheit 210, eine Aufnahme- und Key-Frame-Einstelleinheit 220,
einen Ausgangsobjektbereichsextraktor 230, eine Objektbereichsverfolgungseinrichtung 240 und
einen Generator 250 für objekt-markierte
Bilder.
-
Mit
Bezug zu 2 empfängt die Videosequenzempfangseinheit 200 eine
Videosequenz, d. h. eine Reine von Rahmendaten in drei Primärfarben, wie
eine Reihe von RGB-Bildern (oder YUV-Bildern) und gibt die empfangene
Bildsequenz zur Aufnahme- und Key-Frame-Einstelleinheit 220.
Hier ist die Videosequenz ein Satz Frames. Jeder der Frames kann ein
Bild sein, das ein Anfrageobjekt enthält oder ein Bild ohne ein Anfrageobjekt.
-
Die
Aufnahme- und Key-Frame-Einstelleinheit 220 teilt die eingegebene
Vidoesequenz in eine oder mehrere Aufnahmen, deren jede ein Satz Frames
ist, die eine ähnliche
Szene aufweisen und gibt Information zu den geteilten Aufnahmen
an die Objektbereichsverfolgungseinrichtung 240 aus, d.
h. Information zu Frames, die jede der Aufnahmen bilden. Ebenso
wählt die
Aufnahme- und Key-Frame-Einstelleinheit 220 einen Key-Frame
(einen repräsentativen
(R) Frame) jeder der Aufnahmen aus, die die Aufnahme darstellen.
Hier kann die Anzahl an Key-Frames für eine einzelne Aufnahme eins
oder mehr betragen.
-
Der
Ausgangsobjektbereichsextraktor 230 empfängt sequentiell
Anfragebilder, deren jedes ein Anfrageobjekt enthält, aus
der Anfragebildempfangseinheit 210 und empfängt den
Key-Frame jeder der Aufnahmen von der Aufnahme- und Key-Frame-Einstelleinheit 220.
Der Ausgangsobjektbereichsextraktor 230 bestimmt, ob der
Key-Frame für
jede der Aufnahmen ein Objekt enthält, das dem Anfrageobjekt des
Anfragebildes entpsricht, das von der Anfragebildempfangseinheit 210 empfangen
ist, extrahiert einen Anfangsobjektbereich entsprechend dem Anfrageobjekt
aus dem Key-Frame jeder der Aufnahmen und maskiert die Fläche des
Anfangsobjektbereichs als binäres
Bild, ein Graustufenbild usw., um ein Aufnahmenmaskenbild zu erzeugen.
Nach Erzeugen des Aufnahmemaskenbildes entsprechend jedem der Anfrageobjekte
für alle
Key-Frames, werden die Aufnahmemaskenbilder an die Objektbereichsverfolgungseinrichtung 240 ausgegeben.
-
Die
Objektbereichsverfolgungseinrichtung 240 empfängt die
von der ursprünglichen
Videosequenz geteilten Aufnahmen, wobei die Anfragebilder jeweils
ein Anfrageobjekt enthalten und die Aufnahmemaskenbilder. Die Objektbereichsverfolgungseinrichtung 240 verfolgt
Objektbereiche in allen Frames jeder der Aufnahmen ausgehend von
den Anfangsobjektbereichen. Speziell werden Objektbereiche für alle Frames
jeder der Aufnahmen ausgehend von den entsprechenden Anfangsobjektbereichen
verfolgt, die ausgehend von den Anfrageobjekten extrahiert sind.
Wenn ein Objektbereich in einem Frame vorhanden ist, werden die
Lage und Fläche
des Objektbereichs im Frame identifiziert und die Fläche des Objektbereichs
als binäres
Bild, als 1:1-Bild usw. maskiert, um ein Framemaskenbild zu erzeugen. Dieses
Objektbereichsverfolgen wird bei allen Frames der Aufnahmen durchgeführt und
wiederholt, bis die Framemaskenbilder für alle Anfrageobjekte durchgenommen
sind.
-
Der
Generator 250 für
objekt-markierte Bilder vereint die verfolgten Framemaskenbilder
ausgehend von den Anfrageobjekten in jedem Frame und markiert eines
oder mehrere Anfrageobjekte, die in jedem der Frames vorhanden sind.
Speziell werden die anfrageobjektbasierten Framemaskenbilder für jeden
der Frames als einzelner objekt-markierter Bildframe vereint, in
dem alle Objekte markiert sind. Unter Annahme, dass ein Frame zum
Beispiel drei Anfrageobjekte enthält, können die Objektbereiche, die
den drei Anfrageobjekten entsprechen, mit einem besonderen Pixelwert
zwischen 1 und 255 markiert werden, und die andere Pixelregion ohne
ein Objekt kann mit „0" markiert werden
(OFF).
-
Information
zu den objekt-markierten Bildframes, die vom Generator 250 für objekt-markierte
Bilder erzeugt sind, und Information zu realen Objekten, die den
markierten Objektbildern entsprechen sind, in der Objekt DB 140 gespeichert,
wie in 1 gezeigt.
-
Die 3A und 3B sind
Fliessbilder, die ein Erzeugungsverfahren für objekt-markierte Bilder gemäß der vorliegenden
Erfindung darstellen. Der Betrieb der Vorrichtung zum Erzeugen von
objekt-markierten Bildern von 2 wird mit
Bezug zu den 3A und 3B ausführlich beschrieben.
-
Eine
Videosequenz, aus der ein Anfrageobjekt extrahiert werden soll,
wird in eine oder mehrere Aufnahmen geteilt, deren jede ein Satz
Frames mit einer ähnlichen
Szene ist, und einer oder mehrere Key-Frames werden aus jeder der
Aufnahmen ausgewählt
(Schritte 300 bis 304). Im allgemeinen kann eine Videosequenz in
eine Mehrzahl von Aufnahmen geteilt werden, entsprechend Veränderungen
im Kamerawinkel, Personen oder Gegenständen, Ort und Beleuchtung.
Variationen zwischen den Aufnahmen sind größer als beispielsweise die
in Farbwerten, zwischen den Frames, die jede der Aufnahmen bilden und
können
von einem Unterschied in der Farbe zwischen zwei Frames erfasst
werden, d. h. Key-Frames der interessierenden Aufnahmen.
-
Einer
der Frames, die jede der Aufnahmen bilden, wird als Key-Frame ausgewählt. Der
erste oder mittlere Frame jeder der Aufnahmen wird als Key-Frame
ausgewählt.
Bei der vorliegenden Erfindung wird nur der Key-Frame jeder Aufnahme
verwendet, um zu bestimmen, ob ein Anfrageobjekt in jeder der Aufnahmen
vorhanden ist. Wenn zum Beispiel p Aufnahmen vorhanden sind, ist
die Anzahl der Key-Frames gleich p.
-
Speziell
in 3A werden eine Videosequenz und Anfragebilder
(1 bis n) eingegeben (Schritt 300). Die Videosequenz wird in eine
oder mehrere Aufnahmen geteilt (1 bis p), ein Key-Frame wird in
jeder der Aufnahmen ausgewählt
(Schritt 302). Danach werden p Key-Frames gepuffert (Schritt 304). 4 zeigt
ein Beispiel einer Videosequenz, die in p Aufnahmen geteilt ist
und ihre Key-Frames. In 4 wird der erste Frame aus jeder
der Aufnahmen als Key-Frames KF!1, KF!2, KF!3, ... und KF!p ausgewählt. 5 zeigt
ein Beispiel des Teilens einer Videosequenz, die aus einer Seifenoper
extrahiert ist, in 8 Aufnahmen und Auswählen ihrer Key-Frames. In 5 wird
die aus 619 Frames bestehende Videosequenz in 9 Aufnahmen geteilt,
und der Key-Frame jeder der Aufnahmen wird durch eine Framenummer bezeichnet.
-
Ein
Objektbereich wird aus jedem der Key-Frames ausgehend von Anfrageobjekten
extrahiert (Schritte 306 bis 312). Bevorzugt wird ausgehend von
einem Farbhistogramm oder Merkmalen wie Textur oder Struktur der
mehrfarbigen Bereiche, die Objekte bilden, bestimmt, ob ein Objekt ähnlich wie
das Anfrageobjekt in jedem der Anfrageobjekte vorhanden ist.
-
Speziell
werden n Anfrageobjekte einzeln eingegeben. Ein erstes Anfrageobjekt
wird geladen (Schritt 306). Es wird geprüft, ob ein Objekt ähnlich dem
ersten Anfrageobjekt in jedem der p Key-Frames vorhanden ist, und
wenn ein solches Objekt vorhanden ist, wird das Objekt als Anfangsobjektbereich für den entsprechenden
Key-Frame extrahiert (Schritt 308). Pixel, die zum Anfangsobjektbereich des
Key-Frames gehören
werden angeschaltet („1") und die übrigen Pixel
werden abgeschaltet („0"), wodurch ein Aufnahmemaskenbild
für den
Key-Frame erzeugt wird (Schritt 310). Es wird bestimmt, ob die Anfrageobjektzahl
größer als
n ist (Schritt 312). Falls nicht, wird das nächste Anfrageobjekt geladen (Schritt
314). Die oben beschriebenen Vorgänge werden bezüglich der
n Anfrageobjekte wiederholt. Speziell werden n-mal-p Aufnahmemaskenbilder
bezüglich
der p Key-Frames und n Anfrageobjekte gebildet (die Pixel des Aufnahmemaskenbildes
ohne den Objektbereich sind alle ausgeschaltet („0")).
-
Objektbereiche
werden in Bezug auf alle Frames jeder der Aufnahmen ausgehend von
den Anfangsobjektbereichen verfolgt (Schritte 316 bis 330). Die
Anfangsobjektbereiche, die aus jedem der Key-Frames der Aufnahmen
ausgehend von Anfragebildern in vorherigen Prozessen extrahiert
sind, werden über
die übrigen
Frames jeder der Aufnahmen erstreckt. Insbesondere unter Verwendung
des Aufnahmemaskenbildes, das von jedem der Key-Frames von Aufnahmen
als Anfangsmaske extrahiert ist, werden Lage und Fläche (Bereich)
eines Objektbereichs, der dem Anfrageobjekt entspricht, in allen
Frames jeder der Aufnahmen verfolgt, ausgehend von Information zur
Farbe des Anfragebildes, das dem Anfrageobjekt entspricht. Ein genauerer Objektbereich
kann durch Prüfen
der Ähnlichkeit
zwischen den verfolgten Objektbereichen und unter Verwendung von
Bewegungsmodell- und Farbinformation geprüft werden, wobei Veränderungen
in Lage und Fläche
des Objektbildes berücksichtigt
werden.
-
Speziell
im Zustand, wo das erste Anfrageobjekt geladen wird (Schritt 316),
wird ein Aufnahmemaskenbild für
das erste Anfragebild geladen (Schritt 318). Wenn die Pixel des
geladenen Aufnahmemaskenbildes abgeschaltet sind („0"), d. h. wenn bestimmt
ist, dass das geladene Aufnahmemaskenbild keinen Objektbereich enthält, der
dem ersten Anfragebild entspricht (Schritt 320), wird das nächste Aufnahmemaskenbild
geladen (Schritt 328). Insbesondere, wenn bestimmt ist, dass das
geladene Aufnahmemaskenbild den Objektbereich nicht enthält, der dem
ersten Anfragebild entspricht, wird bestimmt, ob die Aufnahmezahl
größer ist
als p (Schritt (326). Falls die Aufnahmezahl nicht größer ist
als p, wird das nächste
Aufnahmemaskenbild geladen (Schritt 328). Inzwischen wird, wenn
bestimmt ist, dass der Objektbereich im geladenen Aufnahmemaskenbild
vorhanden ist, der Objektbereich in allen Frames der entsprechenden
Aufnahme verfolgt (Schritt 322), wodurch Framemaskenbilder für die entsprechende Aufnahme
ausgehend vom ersten Anfrageobjekt erzeugt werden (Schritt 324).
Die oben genannten Vorgänge
werden in Bezug auf alle Aufnahmen und mit Bezug zu allen Anfrageobjekten
wiederholt (Schritte 330 und 332).
-
Die
Framebildmasken ausgehend von den Anfrageobjekten werden in jedem
Frame vereint, und die Anfrageobjektbereiche, die in jedem Frame
vorhanden sind, markiert (Schritt 334). Wenn eine eingegebene Videosequenz
aus m Frames besteht und jeder der Frames n Anfrageobjekte beinhaltet,
können n-mal-m
Framemaskenbilder durch die vorhergehenden Prozesse erzeugt werden
und können
in m Frames vereint werden. Tatsächlich
beinhalten jedoch nicht alle Frames n Anfrageobjekte und daher ist
die Anzahl der erzeugten Framemaskenbilder kleiner als n-mal-m.
Jedes der Anfrageobjekte weist einen speziellen Farbwert zwischen
0 und 255 auf und Pixel der Anfrageobjektbereiche, die den Anfrageobjekten entsprechen,
die in den vereinten Frames vorhanden sind, weisen einen einzigartigen
Farbwert auf, der dem entsprechenden Anfrageobjekt zugeordnet ist.
-
6 zeigt
ein Beispiel eines Framebildes und Anfrageobjekte, die im Framebild
vorhanden sind. In 6 weist ein beliebiges Framebild,
das links gezeigt ist, eine Mehrzahl von Anfrageobjekten auf, wie
ein Notizbuch 552, eine Halskette 553, eine Tasse 554,
ein Tuch 555 und einen Hintergrund 551.
-
7 zeigt
ein Beispiel zur Markierung von Objekten mit Markierungsnummern.
Wie in 7 gezeigt ist, weist jedes der Anfrageobjekte
eine einzigartige Markierungsnummer auf. Wenn daher die ausgehend
von den Anfrageobjekten erzeugten Framemaskenbilder in jedem Frame
vereint werden, wird jedes der Framemaskenbilder mit der entsprechenden
einzigartigen Markierungsnummer markiert, wie es rechts in 7 gezeigt
ist.
-
8 zeigt
ein Beispiel, wo ein Objekt mit dem Schwerpunkt und dem Minimalflächenrechteck markiert
ist. In einem anderen Verfahren zum Darstellen eines Objektbereichs
kann der Schwerpunkt des Objektbereichs, der mit „X" markiert ist, und
das Minimalflächenrechteck,
das den Objektbereich einen Frame umgibt oder darin eingeschlossen
ist, anstelle der einzigartigen Markierungsnummer verwendet werden.
Hier bezeichnen P1 und P2 diagonal gegenüberstehende Ecken des Rechtecks. 9 zeigt ein
Beispiel der Objektmarkierung unter Verwendung des Schwerpunkts
und der Koordinatenwerte des Minimalflächenrechtecks von 8.
-
Gemäß der vorliegenden
Erfindung wird eine Videosequenz in eine Mehrzahl von Aufnahmen
geteilt, deren jede aus einem Satz Frames besteht, die eine ähnliche
Szene aufweisen, und ein Anfangsobjektbe reich wird aus jeder der
Aufnahmen extrahiert, indem bestimmt wird, ob ein Objektbild in
Key-Frames der Aufnahmen vorhanden ist. Ausgehend vom Anfangsobjektbereich,
der aus jedem der Key-Frames extrahiert ist, werden Objektbereiche
in allen Frames der Aufnahmen verfolgt. Dann werden die Objektbereiche
markiert, um objekt-markierte Bilder zu erzeugen. Deshalb kann die
vorliegende Erfindung, im Vergleich zu einem herkömmlichen
Verfahren zum Extrahieren von Objekten und Erzeugen von objekt-markierten
Bildern, ungeachtet des Bewegungsgrads eines Objekts angewendet
werden und die erforderliche Zeit zum Extrahieren von Anfrageobjekten
kann reduziert werden. Ebenso kann die vorliegende Erfindung leicht
angewendet werden, um objektbasierte interaktive Dienste bereitzustellen, ohne
dass zusätzliche
Bedienung von Hand notwendig ist.
-
10 zeigt
eine Ausführungsform
eines objektbasierten interaktiven Services unter Verwendung der
vorliegenden Erfindung. In jedem Frame vorhandene Objektbilder werden
in objekt-markierte Bilder markiert und in der Objekt-DB 104 gespeichert, wie
es mit Bezug zu 1 beschrieben ist. Wenn ein Benutzer
zum Beispiel unter Verwendung eines objektbasierten interaktiven
Abspielgeräts
auf einen beliebigen Teil der Bluse der Frau in einem beliebigen Frame
klickt, wie es in 10 links gezeigt ist, wird dem
Browser des Benutzers Information zu einem Objekt zugeführt, die
dem angeklickten Objektbild entspricht, die in der Objekt-DB 104 gespeichert
ist. Die rechte Seite von 10 zeigt
ein Beispiel von Information zum Objekt.
-
Die
Erfindung kann in einem digitalen Computer für allgemeine Anwendungen ausgeführt sein, auf
dem ein Programm für
ein computernutzbares Medium läuft,
das Speichermedien wie Magnetspeichermedien (z. B. ROM, Floppy-Disk,
Festplatte usw.), optisch lesbare Medien (z. B. CD-ROM, DVD usw.) und
Trägerwellen
(z. B. Übertragung über das Internet)
beinhaltet, ohne darauf beschränkt
zu sein. Die vorliegende Erfin dung kann als computernutzbares Medium
ausgeführt
sein, das eine computerlesbare Programmcodeeinheit für dezentrale
Computersysteme aufweist, die durch ein Netzwerk verbunden sind.
-
Wie
oben beschrieben ist, werden bei der Vorrichtung und dem Verfahren
zum Erzeugen von Objektmarkierungsbildern in einer Videosequenz
gemäß der vorliegenden
Erfindung die auf Basis von Anfrageobjekten erzeugten Framemaskenbilder
in jedem Frame vereint, und daher kann, im Vergleich zum herkömmlichen
Objektextraktionsverfahren, die zum Extrahieren einer Mehrzahl von
Anfrageobjekten aus einem Frame erforderliche Zeit reduziert werden.
Deshalb kann die vorliegende Erfindung leicht beim Ausbilden, Editieren
und Codieren von Daten bewegter Darstellungen auf Basis von Objekten
angewendet werden. Die vorliegende Erfindung kann in interaktiver
Internetausstrahlung verbreitet verwendet werden und kann zum Herstellen
von auf dem Internet beruhenden Werbematerial, Inhalten und als Schreibwerkzeug
eingesetzt werden.
-
Während diese
Erfindung insbesondere mit Bezug zu bevorzugten Ausführungsformen
gezeigt und beschrieben wurde, versteht es sich für die Fachleute,
dass hierbei verschiedene Veränderungen
in Form und Details vorgenommen werden können, ohne vom Rahmen der Erfindung
abzuweichen, wie er in den beigefügten Ansprüchen definiert ist.