DE60116717T2

DE60116717T2 - Vorrichtung und Verfahren zur Erzeugungung von objekt-markierten Bildern in einer Videosequenz

Info

Publication number: DE60116717T2
Application number: DE2001616717
Authority: DE
Inventors: Seong-deok Yongin-city Lee; Chang-yeong Euiwang-city Kim; Ji-yeon Songpa-gu Kim; Sang-Kyun 103-401 Geumhwa Maeul Daew Kim; Young-su Gangseo-gu Moon; Doo-sik dong Paldal-gu Suwon-city Park
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2001-01-20
Filing date: 2001-08-30
Publication date: 2006-11-02
Anticipated expiration: 2021-08-31
Also published as: KR100355382B1; US20020097893A1; JP2002232839A; KR20020062429A; CN1222897C; EP1225518A2; EP1225518B1; DE60116717D1; EP1225518A3; CN1367616A; JP4370387B2; US7024020B2

Description

Die vorliegende Erfindung betrifft eine Vorrichtung und ein Verfahren zum Extrahieren von Anfrageobjekten aus einer Videosequenz und Erzeugen von objekt-markierten Bildern für die Anfrageobjekte.
Bei herkömmlicher Technologie werden Anfrageobjekte aus jedem Frame einer bewegten Bildsequenz von Hand extrahiert, um objekt-markierte Bilder in der bewegten Darstellung zu erzeugen. Verfahren zum automatischen Extrahieren von Objekten ohne Notwendigkeit zusätzlicher Arbeitsvorgänge wurden unlängst angekündigt.
Verfahren zum Extrahieren von Objekten aus Bildern beinhalten auf Bewegung basierende Extraktionsverfahren und auf Merkmalen basierende Extraktionsverfahren. Auf Bewegung basierende Extraktionsverfahren beinhalten auf Framedifferenz basierende Extraktionsverfahren, auf Hintergrundsubtraktion basierende Extraktionsverfahren und auf Bewegungsanalyse basierende Extraktionsverfahren. Auf Framedifferenz basierende Extraktionsverfahren, wie sie in den US-Patenten Nr. 5,500,904 und 5,109,435 offenbart sind, extrahieren Bewegung durch Berechnen einer Differenz in der Helligkeit zwischen kontinuierlichen Frames eines Bildes. Bei Hintergrundsubtraktionsverfahren, wie sie in US-Patent Nr. 5,748,775 offenbart sind, wird ein Hintergrundbild durch temporäre Veränderung eines Bildmerkmalsparameters gewonnen und ein Objektbereich wird durch die Differenz zwischen einem ursprünglichen Bild und dem Hintergrundbild extrahiert. Beim Bewegungsanalyseverfahren, wie sie in den US-Patent Nr. 5,862,508 offenbart sind, wird ein Bewegungsbereich durch Berechnen der Bewegungsrichtung und der Geschwindigkeit eines bewegten Objekts extrahiert.
Solche Objektbereichextraktionsverfahren können jedoch nur verwendet werden, wenn die Bewegungsgeschwindigkeit eines Objekts geeignet ist. Es ist schwierig, solche Verfahren bei einem stillen Bild, einen langsam bewegten Objekt oder einem schnell bewegten Objekt anzuwenden.
Ein Ansatz zur Verwendung eines Merkmalswertes eines Objektbereichs beinhaltet ein Templatanpassungsverfahren wie es in US-Patent Nr. 5,943,442 offenbart ist, ein Mehrwertschwellenverfahren, wie es in US-Patent Nr. 5,138,671 offenbart ist und ein Merkmalswertanpassungsverfahren. Um diese Verfahren beim Extrahieren eines Anfrageobjekts aus Daten von bewegten Darstellungen zu extrahieren, müssen die Verfahren auf alle Frames auf Basis von Anfrageobjekten angewendet werden. Deshalb ist ein beträchtlicher Zeitaufwand erforderlich.
WO 98/50869 offenbart ein Verfahren und ein System zum Durchführen einer objekt-orientierten inhaltsbasierten Videosuche. Es ist auch ein Verfahren zum Extrahieren von zuvor undefinierten „Videoobjekten" aus Videoclips offenbart.
Gemäß der Erfindung wird ein Verfahren zum Markieren von Anfrageobjekten in einer Videosequenz auf Basis von Bildern der Anfrageobjekte zur Verfügung gestellt, wobei die markierte Videosequenz zur Verwendung in einem interaktiven Service für abfragbare Objekte vorgesehen ist, wobei das Verfahren die Schritte umfasst: a. Empfangen der Videosequenz und Empfangen der Bilder der Anfrageobjekte; b. Teilen der Videosequenz in eine oder mehrere Aufnahmen, deren jede ein Satz Frames mit einer ähnlichen Szene ist, und Auswählen eines oder mehrerer Key-Frames (Schlüsselbilder) aus jeder der Aufnahmen; c. Bestimmen, ob ein Objekt ähnlich jedem der Anfrageobjekte in jedem der Key-Frames vorhanden ist, und wenn es ein ähnliches Objekt in einem Key-Frame gibt, Extrahieren des ähnlichen Objekts als ein entsprechendes Anfrageobjekt auf Basis des Ausgangsobjektbereichs; d. Verfolgen von Objektbereichen in allen Frames jeder der Aufnahmen auf Basis des entsprechenden Anfrageobjekts auf Basis der Ausgangsobjektbereiche; und e. Markieren der verfolgten Objektbereiche in jedem der Frames auf Basis von Information über die entsprechenden Anfrageobjekte.
Die Erfindung betrifft auch eine Vorrichtung zum Markieren von Anfrageobjekten in einer Videosequenz auf Basis von Bildern der Anfrageobjekte, wobei die markierte Videosequenz zur Verwendung in einem interaktiven System für abfragbare Objekte vorgesehen ist, wobei die Vorrichtung umfasst: eine Videosequenzempfangseinheit zum Empfangen der Videosequenz undeiner Anfragebildempfangseinheit zum Empfangen von Bildern der Anfrageobjekte; eine Aufnahmen- und Key-Frame-Einstelleinheit, die so angeordnet ist, dass sie die Videosequenz in eine oder mehrere Aufnahmen teilt, deren jede ein Satz Frames mit einer ähnlichen Szene ist, und Auswählen eines oder mehrerer Key-Frames aus jeder der Aufnahmen; einen Ausgangsobjektbereichsextraktor, so angeordnet, dass er bestimmt, ob ein Objekt ähnlich jedem der Anfrageobjekte in jedem der Key-Frames vorhanden ist, und wenn ein ähnliches Objekt in einem Key-Frame vorhanden ist, Extrahieren des ähnlichen Objekts als ein entsprechendes Anfrageobjekt auf Basis des Ausgangsobjektbereichs; eine Objektbereichsverfolgungseinrichtung so angeordnet, dass sie Objektbereiche in allen Frames jeder der Aufnahmen auf Basis des entsprechenden Anfrageobjekts auf Basis von Ausgangsobjektbereichen verfolgt; und einen Generator für objekt-markierte Bilder, so angeordnet, dass er die verfolgten Objektbereiche in jedem der Frames auf Basis von Information über die entsprechenden Anfrageobjekte markiert.
Die vorliegende Erfindung stellt eine Vorrichtung und ein Verfahren zum Erzeugen von objekt-markierten Bildern in einer bewegten Darstellung zur Verfügung, in dem Anfrageobjektbereiche automatisch in jedem Frame auf Basis von Key-Frames extrahiert werden können, ohne dass zusätzliche Vorgänge von Hand notwendig sind und ungeachtet des Bewegungsgrads eines Objekts, und Objektbilder, die auf Basis von Information der entsprechenden Anfrageobjekte markiert sind, werden in jedem Frame erzeugt.
Die obigen Ziele und Vorteile der vorliegenden Erfindung werden besser ersichtlich aus einer ausführlichen Beschreibung bevorzugter Ausführungsformen mit Bezug zu den begleitenden Zeichnungen, in denen:
1 ein Blockdiagramm eines objektbasierten interaktiven Servicesystems ist, bei dem die vorliegende Erfindung angewendet wird;
2 ein Blockdiagramm ist, das eine Vorrichtung zum Erzeugen eines objekt-markierten Bildes gemäß der vorliegenden Erfindung zeigt;
3A und 3B Fließbilder sind, die ein Verfahren zum Erzeugen eines objekt-markierten Bildes gemäß der vorliegenden Erfindung darstellen;
4 ein Beispiel einer Videosequenz zeigt, die in p Aufnahmen unterteilt ist und ihre Key-Frames;
5 ein Beispiel einer Videosequenz zeigt, die in 9 Aufnahmen unterteilt ist und ihre Key-Frames;
6 ein Beispiel eines Bildframes und von Anfrageobjekten zeigt, die im Framebild vorhanden sind;
7 ein Beispiel zum Markieren von Objekten mit Markierungsnummern zeigt;
8 ein Beispiel zeigt, wo ein Objekt mit dem Schwerpunkt und dem Minimalflächenrechteck markiert wird;
9 ein Beispiel der Objektmarkierung zeigt, die den Schwerpunkt und die Koordinatenwerte des Minimalflächenrechtecks von 8 verwendet; und
10 eine Ausführungsform eines objektbasierten interaktiven Service unter Verwendung der vorliegenden Erfindung zeigt.
1 ist ein schematisches Blockdiagramm eines objektbasierten interaktiven Servicesystems, bei dem die vorliegende Erfindung angewendet wird. Das objektbasierte interaktive Servicesystem beinhaltet Benutzerterminals 100, einen Server 120, eine Videodatenbasis (DB) 130 für Videosequenzen und eine Objekt DB 140 für interessierende Objekte.
Als Anwendungsbeispiel der vorliegenden Erfindung werden für einen Service durch das in 1 gezeigte Objekt basierte interaktive Servicesystem ein oder mehrere Objektbereiche in bewegten Bilddaten, die einem oder mehreren Anfrageobjekten entsprechen, als Objekt-markierte Bilder erzeugt.
Mit Bezug zu 1 beinhaltet jedes der Benutzerterminals 100 eine objektbasierte interaktive Bildabspieleinrichtung oder eine MPEG-4-Abspieleinrichtung und ist mit dem Server 120 durch ein Netzwerk 110 auf Entfernung verbunden. Wenn eines der Benutzerterminals 100 mit dem Server 120 verbunden ist, kann ein Benutzer eine bewegte Darstellung (Videosequenz) betrachten, die vom Server 120 auf dem Bildschirm des Benutzerterminals bereitgestellt wird, indem die objektbasierte interaktive Bildabspieleinrichtung betätigt wird. Der Benutzer kann ein beliebiges Objekt auswählen (ein Objekt, das ihn interessiert) in einem beliebigen Frame der Videosequenz, während er diese durch die objektbasierte interaktive Bildabspieleinrichtung betrachtet.
Der Server 120 stellt die in der Video DB 130 gespeicherten Videosequenzen für jedes der Benutzerterminals 100 bereit und stellt auch detaillierte Information zu dem Objekt bereit, das von dem Benutzer ausgewählt ist, mit Bezug zur Objekt DB 140. Zu diesem Zeitpunkt kann der Benutzer Information zu dem ausgewählten Objekt durch einen separaten Frame ansehen (einen α-Frame im Falle von MPEG 4), der zusammen mit RGB-Frames (oder YUV-Frames) bereitgestellt ist.
In 1 verwaltet der Server 120 die Video DB 130, in der verschiedene Videosequenzdaten gespeichert sind und die Objekt DB 140, in der Information zu interessierenden Objekten wie Produkten oder Personen, die in einem speziellen Bild einer Videosequenz enthalten sind, gespeichert ist. Die DBs 130 und 140 können im Server 120 implementiert sein. Das interaktive Servicesystem von 1 kann unter Bedingungen des Web ausgeführt sein. In diesem Fall dient der Server 120 als Webserver und jedes der Benutzerterminals 100 beinhaltet einen Webbrowser und ist mit dem Webserver 120 durch das Internet 110 verbunden.
Nachfolgend werden eine Vorrichtung und ein Verfahren zum Erzeugen eines objekt-markierten Bildes in einer Videosequenz gemäß der vorliegenden Erfindung beschrieben.
2 ist ein Blockdiagramm der Vorrichtung zum Erzeugen von objektmarkierten Bildern gemäß der vorliegenden Erfindung. Die Vorrichtung zum Erzeugen von objekt-markierten Bildern beinhaltet eine Videosequenzempfängereinheit 200, eine Anfragebildempfangseinheit 210, eine Aufnahme- und Key-Frame-Einstelleinheit 220, einen Ausgangsobjektbereichsextraktor 230, eine Objektbereichsverfolgungseinrichtung 240 und einen Generator 250 für objekt-markierte Bilder.
Mit Bezug zu 2 empfängt die Videosequenzempfangseinheit 200 eine Videosequenz, d. h. eine Reine von Rahmendaten in drei Primärfarben, wie eine Reihe von RGB-Bildern (oder YUV-Bildern) und gibt die empfangene Bildsequenz zur Aufnahme- und Key-Frame-Einstelleinheit 220. Hier ist die Videosequenz ein Satz Frames. Jeder der Frames kann ein Bild sein, das ein Anfrageobjekt enthält oder ein Bild ohne ein Anfrageobjekt.
Die Aufnahme- und Key-Frame-Einstelleinheit 220 teilt die eingegebene Vidoesequenz in eine oder mehrere Aufnahmen, deren jede ein Satz Frames ist, die eine ähnliche Szene aufweisen und gibt Information zu den geteilten Aufnahmen an die Objektbereichsverfolgungseinrichtung 240 aus, d. h. Information zu Frames, die jede der Aufnahmen bilden. Ebenso wählt die Aufnahme- und Key-Frame-Einstelleinheit 220 einen Key-Frame (einen repräsentativen (R) Frame) jeder der Aufnahmen aus, die die Aufnahme darstellen. Hier kann die Anzahl an Key-Frames für eine einzelne Aufnahme eins oder mehr betragen.
Der Ausgangsobjektbereichsextraktor 230 empfängt sequentiell Anfragebilder, deren jedes ein Anfrageobjekt enthält, aus der Anfragebildempfangseinheit 210 und empfängt den Key-Frame jeder der Aufnahmen von der Aufnahme- und Key-Frame-Einstelleinheit 220. Der Ausgangsobjektbereichsextraktor 230 bestimmt, ob der Key-Frame für jede der Aufnahmen ein Objekt enthält, das dem Anfrageobjekt des Anfragebildes entpsricht, das von der Anfragebildempfangseinheit 210 empfangen ist, extrahiert einen Anfangsobjektbereich entsprechend dem Anfrageobjekt aus dem Key-Frame jeder der Aufnahmen und maskiert die Fläche des Anfangsobjektbereichs als binäres Bild, ein Graustufenbild usw., um ein Aufnahmenmaskenbild zu erzeugen. Nach Erzeugen des Aufnahmemaskenbildes entsprechend jedem der Anfrageobjekte für alle Key-Frames, werden die Aufnahmemaskenbilder an die Objektbereichsverfolgungseinrichtung 240 ausgegeben.
Die Objektbereichsverfolgungseinrichtung 240 empfängt die von der ursprünglichen Videosequenz geteilten Aufnahmen, wobei die Anfragebilder jeweils ein Anfrageobjekt enthalten und die Aufnahmemaskenbilder. Die Objektbereichsverfolgungseinrichtung 240 verfolgt Objektbereiche in allen Frames jeder der Aufnahmen ausgehend von den Anfangsobjektbereichen. Speziell werden Objektbereiche für alle Frames jeder der Aufnahmen ausgehend von den entsprechenden Anfangsobjektbereichen verfolgt, die ausgehend von den Anfrageobjekten extrahiert sind. Wenn ein Objektbereich in einem Frame vorhanden ist, werden die Lage und Fläche des Objektbereichs im Frame identifiziert und die Fläche des Objektbereichs als binäres Bild, als 1:1-Bild usw. maskiert, um ein Framemaskenbild zu erzeugen. Dieses Objektbereichsverfolgen wird bei allen Frames der Aufnahmen durchgeführt und wiederholt, bis die Framemaskenbilder für alle Anfrageobjekte durchgenommen sind.
Der Generator 250 für objekt-markierte Bilder vereint die verfolgten Framemaskenbilder ausgehend von den Anfrageobjekten in jedem Frame und markiert eines oder mehrere Anfrageobjekte, die in jedem der Frames vorhanden sind. Speziell werden die anfrageobjektbasierten Framemaskenbilder für jeden der Frames als einzelner objekt-markierter Bildframe vereint, in dem alle Objekte markiert sind. Unter Annahme, dass ein Frame zum Beispiel drei Anfrageobjekte enthält, können die Objektbereiche, die den drei Anfrageobjekten entsprechen, mit einem besonderen Pixelwert zwischen 1 und 255 markiert werden, und die andere Pixelregion ohne ein Objekt kann mit „0" markiert werden (OFF).
Information zu den objekt-markierten Bildframes, die vom Generator 250 für objekt-markierte Bilder erzeugt sind, und Information zu realen Objekten, die den markierten Objektbildern entsprechen sind, in der Objekt DB 140 gespeichert, wie in 1 gezeigt.
Die 3A und 3B sind Fliessbilder, die ein Erzeugungsverfahren für objekt-markierte Bilder gemäß der vorliegenden Erfindung darstellen. Der Betrieb der Vorrichtung zum Erzeugen von objekt-markierten Bildern von 2 wird mit Bezug zu den 3A und 3B ausführlich beschrieben.
Eine Videosequenz, aus der ein Anfrageobjekt extrahiert werden soll, wird in eine oder mehrere Aufnahmen geteilt, deren jede ein Satz Frames mit einer ähnlichen Szene ist, und einer oder mehrere Key-Frames werden aus jeder der Aufnahmen ausgewählt (Schritte 300 bis 304). Im allgemeinen kann eine Videosequenz in eine Mehrzahl von Aufnahmen geteilt werden, entsprechend Veränderungen im Kamerawinkel, Personen oder Gegenständen, Ort und Beleuchtung. Variationen zwischen den Aufnahmen sind größer als beispielsweise die in Farbwerten, zwischen den Frames, die jede der Aufnahmen bilden und können von einem Unterschied in der Farbe zwischen zwei Frames erfasst werden, d. h. Key-Frames der interessierenden Aufnahmen.
Einer der Frames, die jede der Aufnahmen bilden, wird als Key-Frame ausgewählt. Der erste oder mittlere Frame jeder der Aufnahmen wird als Key-Frame ausgewählt. Bei der vorliegenden Erfindung wird nur der Key-Frame jeder Aufnahme verwendet, um zu bestimmen, ob ein Anfrageobjekt in jeder der Aufnahmen vorhanden ist. Wenn zum Beispiel p Aufnahmen vorhanden sind, ist die Anzahl der Key-Frames gleich p.
Speziell in 3A werden eine Videosequenz und Anfragebilder (1 bis n) eingegeben (Schritt 300). Die Videosequenz wird in eine oder mehrere Aufnahmen geteilt (1 bis p), ein Key-Frame wird in jeder der Aufnahmen ausgewählt (Schritt 302). Danach werden p Key-Frames gepuffert (Schritt 304). 4 zeigt ein Beispiel einer Videosequenz, die in p Aufnahmen geteilt ist und ihre Key-Frames. In 4 wird der erste Frame aus jeder der Aufnahmen als Key-Frames KF!1, KF!2, KF!3, ... und KF!p ausgewählt. 5 zeigt ein Beispiel des Teilens einer Videosequenz, die aus einer Seifenoper extrahiert ist, in 8 Aufnahmen und Auswählen ihrer Key-Frames. In 5 wird die aus 619 Frames bestehende Videosequenz in 9 Aufnahmen geteilt, und der Key-Frame jeder der Aufnahmen wird durch eine Framenummer bezeichnet.
Ein Objektbereich wird aus jedem der Key-Frames ausgehend von Anfrageobjekten extrahiert (Schritte 306 bis 312). Bevorzugt wird ausgehend von einem Farbhistogramm oder Merkmalen wie Textur oder Struktur der mehrfarbigen Bereiche, die Objekte bilden, bestimmt, ob ein Objekt ähnlich wie das Anfrageobjekt in jedem der Anfrageobjekte vorhanden ist.
Speziell werden n Anfrageobjekte einzeln eingegeben. Ein erstes Anfrageobjekt wird geladen (Schritt 306). Es wird geprüft, ob ein Objekt ähnlich dem ersten Anfrageobjekt in jedem der p Key-Frames vorhanden ist, und wenn ein solches Objekt vorhanden ist, wird das Objekt als Anfangsobjektbereich für den entsprechenden Key-Frame extrahiert (Schritt 308). Pixel, die zum Anfangsobjektbereich des Key-Frames gehören werden angeschaltet („1") und die übrigen Pixel werden abgeschaltet („0"), wodurch ein Aufnahmemaskenbild für den Key-Frame erzeugt wird (Schritt 310). Es wird bestimmt, ob die Anfrageobjektzahl größer als n ist (Schritt 312). Falls nicht, wird das nächste Anfrageobjekt geladen (Schritt 314). Die oben beschriebenen Vorgänge werden bezüglich der n Anfrageobjekte wiederholt. Speziell werden n-mal-p Aufnahmemaskenbilder bezüglich der p Key-Frames und n Anfrageobjekte gebildet (die Pixel des Aufnahmemaskenbildes ohne den Objektbereich sind alle ausgeschaltet („0")).
Objektbereiche werden in Bezug auf alle Frames jeder der Aufnahmen ausgehend von den Anfangsobjektbereichen verfolgt (Schritte 316 bis 330). Die Anfangsobjektbereiche, die aus jedem der Key-Frames der Aufnahmen ausgehend von Anfragebildern in vorherigen Prozessen extrahiert sind, werden über die übrigen Frames jeder der Aufnahmen erstreckt. Insbesondere unter Verwendung des Aufnahmemaskenbildes, das von jedem der Key-Frames von Aufnahmen als Anfangsmaske extrahiert ist, werden Lage und Fläche (Bereich) eines Objektbereichs, der dem Anfrageobjekt entspricht, in allen Frames jeder der Aufnahmen verfolgt, ausgehend von Information zur Farbe des Anfragebildes, das dem Anfrageobjekt entspricht. Ein genauerer Objektbereich kann durch Prüfen der Ähnlichkeit zwischen den verfolgten Objektbereichen und unter Verwendung von Bewegungsmodell- und Farbinformation geprüft werden, wobei Veränderungen in Lage und Fläche des Objektbildes berücksichtigt werden.
Speziell im Zustand, wo das erste Anfrageobjekt geladen wird (Schritt 316), wird ein Aufnahmemaskenbild für das erste Anfragebild geladen (Schritt 318). Wenn die Pixel des geladenen Aufnahmemaskenbildes abgeschaltet sind („0"), d. h. wenn bestimmt ist, dass das geladene Aufnahmemaskenbild keinen Objektbereich enthält, der dem ersten Anfragebild entspricht (Schritt 320), wird das nächste Aufnahmemaskenbild geladen (Schritt 328). Insbesondere, wenn bestimmt ist, dass das geladene Aufnahmemaskenbild den Objektbereich nicht enthält, der dem ersten Anfragebild entspricht, wird bestimmt, ob die Aufnahmezahl größer ist als p (Schritt (326). Falls die Aufnahmezahl nicht größer ist als p, wird das nächste Aufnahmemaskenbild geladen (Schritt 328). Inzwischen wird, wenn bestimmt ist, dass der Objektbereich im geladenen Aufnahmemaskenbild vorhanden ist, der Objektbereich in allen Frames der entsprechenden Aufnahme verfolgt (Schritt 322), wodurch Framemaskenbilder für die entsprechende Aufnahme ausgehend vom ersten Anfrageobjekt erzeugt werden (Schritt 324). Die oben genannten Vorgänge werden in Bezug auf alle Aufnahmen und mit Bezug zu allen Anfrageobjekten wiederholt (Schritte 330 und 332).
Die Framebildmasken ausgehend von den Anfrageobjekten werden in jedem Frame vereint, und die Anfrageobjektbereiche, die in jedem Frame vorhanden sind, markiert (Schritt 334). Wenn eine eingegebene Videosequenz aus m Frames besteht und jeder der Frames n Anfrageobjekte beinhaltet, können n-mal-m Framemaskenbilder durch die vorhergehenden Prozesse erzeugt werden und können in m Frames vereint werden. Tatsächlich beinhalten jedoch nicht alle Frames n Anfrageobjekte und daher ist die Anzahl der erzeugten Framemaskenbilder kleiner als n-mal-m. Jedes der Anfrageobjekte weist einen speziellen Farbwert zwischen 0 und 255 auf und Pixel der Anfrageobjektbereiche, die den Anfrageobjekten entsprechen, die in den vereinten Frames vorhanden sind, weisen einen einzigartigen Farbwert auf, der dem entsprechenden Anfrageobjekt zugeordnet ist.
6 zeigt ein Beispiel eines Framebildes und Anfrageobjekte, die im Framebild vorhanden sind. In 6 weist ein beliebiges Framebild, das links gezeigt ist, eine Mehrzahl von Anfrageobjekten auf, wie ein Notizbuch 552, eine Halskette 553, eine Tasse 554, ein Tuch 555 und einen Hintergrund 551.
7 zeigt ein Beispiel zur Markierung von Objekten mit Markierungsnummern. Wie in 7 gezeigt ist, weist jedes der Anfrageobjekte eine einzigartige Markierungsnummer auf. Wenn daher die ausgehend von den Anfrageobjekten erzeugten Framemaskenbilder in jedem Frame vereint werden, wird jedes der Framemaskenbilder mit der entsprechenden einzigartigen Markierungsnummer markiert, wie es rechts in 7 gezeigt ist.
8 zeigt ein Beispiel, wo ein Objekt mit dem Schwerpunkt und dem Minimalflächenrechteck markiert ist. In einem anderen Verfahren zum Darstellen eines Objektbereichs kann der Schwerpunkt des Objektbereichs, der mit „X" markiert ist, und das Minimalflächenrechteck, das den Objektbereich einen Frame umgibt oder darin eingeschlossen ist, anstelle der einzigartigen Markierungsnummer verwendet werden. Hier bezeichnen P1 und P2 diagonal gegenüberstehende Ecken des Rechtecks. 9 zeigt ein Beispiel der Objektmarkierung unter Verwendung des Schwerpunkts und der Koordinatenwerte des Minimalflächenrechtecks von 8.
Gemäß der vorliegenden Erfindung wird eine Videosequenz in eine Mehrzahl von Aufnahmen geteilt, deren jede aus einem Satz Frames besteht, die eine ähnliche Szene aufweisen, und ein Anfangsobjektbe reich wird aus jeder der Aufnahmen extrahiert, indem bestimmt wird, ob ein Objektbild in Key-Frames der Aufnahmen vorhanden ist. Ausgehend vom Anfangsobjektbereich, der aus jedem der Key-Frames extrahiert ist, werden Objektbereiche in allen Frames der Aufnahmen verfolgt. Dann werden die Objektbereiche markiert, um objekt-markierte Bilder zu erzeugen. Deshalb kann die vorliegende Erfindung, im Vergleich zu einem herkömmlichen Verfahren zum Extrahieren von Objekten und Erzeugen von objekt-markierten Bildern, ungeachtet des Bewegungsgrads eines Objekts angewendet werden und die erforderliche Zeit zum Extrahieren von Anfrageobjekten kann reduziert werden. Ebenso kann die vorliegende Erfindung leicht angewendet werden, um objektbasierte interaktive Dienste bereitzustellen, ohne dass zusätzliche Bedienung von Hand notwendig ist.
10 zeigt eine Ausführungsform eines objektbasierten interaktiven Services unter Verwendung der vorliegenden Erfindung. In jedem Frame vorhandene Objektbilder werden in objekt-markierte Bilder markiert und in der Objekt-DB 104 gespeichert, wie es mit Bezug zu 1 beschrieben ist. Wenn ein Benutzer zum Beispiel unter Verwendung eines objektbasierten interaktiven Abspielgeräts auf einen beliebigen Teil der Bluse der Frau in einem beliebigen Frame klickt, wie es in 10 links gezeigt ist, wird dem Browser des Benutzers Information zu einem Objekt zugeführt, die dem angeklickten Objektbild entspricht, die in der Objekt-DB 104 gespeichert ist. Die rechte Seite von 10 zeigt ein Beispiel von Information zum Objekt.
Die Erfindung kann in einem digitalen Computer für allgemeine Anwendungen ausgeführt sein, auf dem ein Programm für ein computernutzbares Medium läuft, das Speichermedien wie Magnetspeichermedien (z. B. ROM, Floppy-Disk, Festplatte usw.), optisch lesbare Medien (z. B. CD-ROM, DVD usw.) und Trägerwellen (z. B. Übertragung über das Internet) beinhaltet, ohne darauf beschränkt zu sein. Die vorliegende Erfin dung kann als computernutzbares Medium ausgeführt sein, das eine computerlesbare Programmcodeeinheit für dezentrale Computersysteme aufweist, die durch ein Netzwerk verbunden sind.
Wie oben beschrieben ist, werden bei der Vorrichtung und dem Verfahren zum Erzeugen von Objektmarkierungsbildern in einer Videosequenz gemäß der vorliegenden Erfindung die auf Basis von Anfrageobjekten erzeugten Framemaskenbilder in jedem Frame vereint, und daher kann, im Vergleich zum herkömmlichen Objektextraktionsverfahren, die zum Extrahieren einer Mehrzahl von Anfrageobjekten aus einem Frame erforderliche Zeit reduziert werden. Deshalb kann die vorliegende Erfindung leicht beim Ausbilden, Editieren und Codieren von Daten bewegter Darstellungen auf Basis von Objekten angewendet werden. Die vorliegende Erfindung kann in interaktiver Internetausstrahlung verbreitet verwendet werden und kann zum Herstellen von auf dem Internet beruhenden Werbematerial, Inhalten und als Schreibwerkzeug eingesetzt werden.
Während diese Erfindung insbesondere mit Bezug zu bevorzugten Ausführungsformen gezeigt und beschrieben wurde, versteht es sich für die Fachleute, dass hierbei verschiedene Veränderungen in Form und Details vorgenommen werden können, ohne vom Rahmen der Erfindung abzuweichen, wie er in den beigefügten Ansprüchen definiert ist.

Claims

Verfahren zum Markieren von Anfrageobjekten in einer Videosequenz auf Basis von Bildern der Anfrageobjekte, wobei die Videosequenz zur Verwendung in einem interaktiven Service für abfragbare Objekte vorgesehen ist, wobei das Verfahren die Schritte umfasst: a. Empfangen der Videosequenz und Empfangen der Bilder der Anfrageobjekte (300); b. Teilen der Videosequenz in eine oder mehrere Aufnahmen, deren jede ein Satz Frames mit einer ähnlichen Szene ist, und Auswählen eines oder mehrerer Key-Frames aus jeder der Aufnahmen (302); c. Bestimmen, ob ein Objekt ähnlich jedem der Anfrageobjekte in jedem der Key-Frames vorhanden ist, und wenn es ein ähnliches Objekt in einem Key-Frame gibt, Extrahieren des ähnlichen Objekts als ein entsprechendes Anfrageobjekt auf Basis des Ausgangsobjektbereichs (308); d. Verfolgen von Objektbereichen in allen Frames jeder der Aufnahmen auf Basis des entsprechenden Anfrageobjekts auf Basis der Ausgangsobjektbereiche (322); und e. Markieren der verfolgten Objektbereiche in jedem der Frames auf Basis von Information über die entsprechenden Anfrageobjekte (334).
Verfahren nach Anspruch 1, worin Schritt c. ferner umfasst: Erzeugen von Aufnahmemaskenbildern auf Basis des Anfrageobjekts in allen Key-Frames der Aufnahmen durch Einstellen von Pixeln des Anfrageobjekts auf Basis der Ausgangsobjektbereiche, die aus jedem der Key-Frames extrahiert sind, als ersten Wert und Einstellen der übrigen Pixel jedes der Key-Frames als zweiten Wert (310).
Verfahren nach Anspruch 2, worin Schritt d. umfasst: d1. Verfolgen der Objektbereiche in allen Rahmen jeder der Aufnahmen auf Basis des entsprechenden Anfrageobjekts auf Basis von Aufnah memaskenbildern und Videomerkmalswerten der entsprechenden Anfrageobjekte (322); und d2. Erzeugen von Framemaskenbildern auf Basis des Anfrageobjekts in allen Frames jeder der Aufnahmen durch Einstellen von Pixeln der Objektbereiche, die in jedem der Frames verfolgt sind, als ersten Wert und Einstellen der übrigen Pixel jedes der Key-Frames als zweiten Wert (324).
Verfahren nach Anspruch 3, worin in Schritt e. jeder der Objektbereiche in jedem Frame mit einer einzigartigen Zahl markiert wird, die auf das entsprechende Anfragebild oder Koordinateninformation des entsprechenden Anfragebildes in jedem Frame gesetzt ist.
Computerprogrammprodukt, das in einen digitalen Computer einladbar ist, mit Code zum Durchführen der Schritte eines Verfahrens gemäß einem der vorhergehenden Ansprüche, wenn es auf dem Computer läuft.
Vorrichtung zum Markieren von Anfrageobjekten in einer Videosequenz auf Basis von Bildern der Anfrageobjekte, wobei die markierte Videosequenz zur Verwendung in einem interaktiven System für abfragbare Objekte vorgesehen ist, wobei die Vorrichtung umfasst: eine Videosequenzempfangseinheit (200) zum Empfangen der Videosequenz und eine Anfragebildempfangseinheit (210) zum Empfangen der Bilder der Anfrageobjekte; eine Aufnahme- und Key-Frame-Einstelleinheit (220), die so angeordnet ist, dass sie die Videosequenz in eine oder mehrere Aufnahmen teilt, deren jede ein Satz Frames mit einer ähnlichen Szene ist, und Auswählen eines oder mehrerer Key-Frames aus jeder der Aufnahmen; einen Ausgangsobjektbereichsextraktor (230), so angeordnet, dass er bestimmt, ob ein Objekt ähnlich jedem der Anfrageobjekte in jedem der Key-Frames vorhanden ist, und wenn ein ähnliches Objekt in einern Key-Frame vorhanden ist, Extrahieren des ähnlichen Objekts als ein entsprechendes Anfrageobjekt auf Basis des Ausgangsobjektbereichs; eine Objektbereichsverfolgungseinrichtung (240), so angeordnet, dass sie Objektbereiche in allen Frames jeder der Aufnahmen auf Basis des entsprechenden Anfrageobjekts auf Basis von Ausgangsobjektbereichen verfolgt; und einen Generator (250) für Objekt-markierte Bilder, so angeordnet, dass er die verfolgten Objektbereiche in jedem der Frames auf Basis von Information über die entsprechenden Anfrageobjekte markiert.
Vorrichtung nach Anspruch 6, worin der Ausgangsobjektbereichsextraktor (230), ferner so angeordnet ist, dass er auf Basis des Anfrageobjekts Aufnahmemaskenbilder in allen Key-Frames jeder der Aufnahmen erzeugt durch Einstellen von Pixeln des Anfrageobjekts auf Basis von Ausgangsobjektbereichen extrahiert aus jedem der Key-Frames als ersten Wert und Einstellen der übrigen Pixel in jedem der Key-Frames als zweiten Wert.
Vorrichtung nach Anspruch 7, worin die Objektbereichsverfolgungseinrichtung (240) die Objektbereiche in allen Frames jeder der Aufnahmen auf Basis der entsprechenden Aufnahmemaskenbildern auf Basis des Anfrageobjekts und Videomerkmalswerten der entsprechenden Anfrageobjekte verfolgt und auf Basis des Anfrageobjekts Framemaskenbilder in allen Frames jeder der Aufnahmen erzeugt durch Einstellen von Pixeln der in jedem der Frames verfolgten Objektbereiche als ersten Wert und Einstellen der übrigen Pixel jedes der Key-Frames als zweiten Wert.
Vorrichtung nach Anspruch 6 bis 8, worin der Generator (250) für Objekt-markierte Bilder jeden der Objektbereiche in jedem Frame mit einer einzigartigen Zahl markiert, die auf das entsprechende Anfragebild oder Koordinateninformation des entsprechenden Anfragebildes in jedem Frame gesetzt ist.