-
Feld
-
Der hierin beschriebene Gegenstand betrifft im Allgemeinen Techniken zum Erkennen von Video- oder Bildkopien.
-
Verwandte Technik
-
Mit der Zunahme in der Verfügbarkeit von Internet und privaten Videos wird Videokopieerkennung ein aktives Forschungsgebiet in Urheberrechtskontrolle, Business-Intelligence und Werbeüberwachung. Eine Videokopie ist ein Segment von Video, das aus einem anderen Video abgeleitet ist, üblicherweise mittels verschiedener Transformationen wie z. B. Addition, Löschung und Modifikation durch Verschieben, Cropping, Beleuchtung, Kontrast, Abfilmen (z. B. Ändern des Breiten-Höhen-Verhältnisses zwischen 16:9 und 4:3) und/oder Umkodierung. 1 zeigt einige Beispiele von Videokopien. Insbesondere bildet 1 in der oberen Zeile von links nach rechts Originalvideo, vergrößerte/verkleinerte Version und beschnittenes Video und in der unteren Zeile von links nach rechts verschobenes Video, Kontrastvideo und abgefilmtes und umcodiertes Video ab. Umkodierung kann Codieren des Videos mit eisern unterschiedlichen Codec oder einer unterschiedlichen Kompressionsqualität beinhalten. Weil diese Transformationen Raum-Zeit-Skalierungs-Aspekte von Video ändern, wird Videokopieerkennung bei Urheberrechtskontrolle und Video-/Bildsuche zu einem sehr herausfordernden Problem.
-
Bestehende Videokopieerkennungs-Tätigkeit kann in einzelbildbasierte und clipbasierte Verfahren kategorisiert werden. Einzelbildbasierte Ansätze nehmen an, dass ein Satz von Schlüssel-Einzelbildern eine kompakte Repräsentation des Videoinhalts ist. Bei der in P. Duygulu, M. Chen und A. Hauptmann, „Comparison and Combination of Two Novel Commercial Detection Methods", Proc. CIVR'04, (Juli 2004), beschriebenen Technik wird ein Satz visueller Merkmale (Farb-, Kanten- und SIFT-Merkmale (Scaled Invariant Feature Transform, skaleninvariante Merkmalstransformation) aus diesen Schlüssel-Einzelbildern extrahiert. Um Videokopieclips zu erkennen, ermittelt die Technik Ähnlichkeit von Videosegmenten mit diesen Schlüssel-Einzelbildern. Einzelbildbasierte Ansätze sind einfach und effizient, aber nicht genau genug, weil sie die Raum-Zeit-Informationen des Objekts (z. B. Bewegungstrajektorie) verlieren. Darüber hinaus ist es schwierig, mit einem vereinheitlichten Schlüssel-Einzelbild Auswahlschema zum Abgleichen von zwei Videosegmenten aufzuwarten.
-
Clipbasierte Verfahren versuchen, Raum-Zeit-Merkmale aus einer Sequenz von Einzelbildern zu charakterisieren. Die in J. Yuan, L. Duan, Q. Tian und C. Xu, „Fast and Robust Short Video Clip Search Using an Index Structure", Proc. ACM MIR'04 (2004), beschriebene Technik ist ein Ansatz, bei dem ein Ordinalmusterhistogramm und ein Kumulativfarbverteilungshistogramm extrahiert werden, um das Raum-Zeit-Muster der Videos zu charakterisieren. Obgleich dieser Ansatz die Zeitinformationen des Videoeinzelbilds untersucht, versagt das Globalfarbhistogrammmerkmal beim Erkennen von Videokopien mit Ortstransformationen, z. B. Cropping, Verschieben und Abfilmen.
-
Eine in J. Law-To, O. Buisson, V. Gouet-Brunet, Nozha Boujemaa, „Robust Voting Algorithm Based an Labels of Behavior for Video Copy Detection", International Conference an Multimedia (2006), beschriebene Technik versucht eine asymmetrische Technik zu verwenden, um die Merkmalspunkte beim Testen von Video gegen Raum-Zeit-Trajektorien interessierender Punkte in einer Videodatenbank abzugleichen. Dieser Ansatz kann viele Videokopietransformationen erkennen, wie z. B. Verschiebung, Licht und Kontrast. Jedoch ist das Harris-Punkt-Merkmal weder unterschieden noch skaleninvariant, und seine Raum-Zeit-Registrierung kann die skalierungsrelevanten Transformationen, z. B. Vergrößern/Verkleinern und Abfilmen, nicht erkennen.
-
KURZBESCHREIBUNG DER ZEICHNUNGEN
-
Ausfüruhrungsformen der vorliegenden Erfindung sind als Beispiel und nicht als Einschränkung in den Zeichnungen dargestellt, und wobei ähnliche Bezugszeichen sich auf ähnliche Elemente beziehen.
-
1 zeigt einige Beispiele von Videokopien.
-
2 stellt ein Videokopieerkennungssystem gemäß einer Ausführungsform dar.
-
3 bildet einen beispielhaften Prozess zum Erstellen einer Datenbank von Merkmalspunkten und Trajektorien gemäß einer Ausführungsform ab.
-
4 bildet einen beispielhaften Prozess zum Ermitteln von Videokopieren gemäß einer Ausführungsform ab.
-
5 stellt ein Beispiel zur Stimmwichtung (Voting) des optimalen Offsets im Falle eindimensionaler Bin gemäß einer Ausführungsform dar.
-
6 bildet ein Beispiel von Erkennung von Ortsmerkmalen von mehreren Abfragevideoeinzelbildern gemäß einer Ausführungsform ab.
-
7 bildet Grenzwertoptimierungskurven (Receive operation characteristic, ROC-Kurven) ab, die Systemleistung beschreiben.
-
Ausführliche Beschreibung
-
In dieser gesamten Spezifikation bedeutet ein Verweis auf „eine Ausführungsform” (engl. „one embodiment” oder „an embodiment”), dass ein bestimmtes Merkmal, eine Struktur oder Charakteristik, das/die in Verbindung mit der Ausführungsform beschrieben ist, in mindestens einer Ausführungsform der vorliegenden Erfindung beinhaltet ist. Somit verweisen die Vorkommen der Redewendung „in einer Ausführungsform” an verschiedenen Stellen in dieser gesamten Spezifikation nicht notwendigerweise alle auf dieselbe Ausführungsform. Außerdem können die einzelnen Merkmale, Strukturen oder Charakteristika in einer oder mehreren Ausführungsformen kombiniert sein.
-
Verschiedene Ausführungsformen stellen einen Videokopieerkennungsansatz bereit, der auf SURF-Trajektorienerzeugung (Speeded-up robust Features, beschleunigte robuste Merkmale), Local-Sensitive-Hash-(LSH-)-Indizierung und stimmwichtungsbasierter (voting-based) Raum-Zeit-Skalierungs-Registrierung basiert.
-
Beschleunigte robuste Merkmale (Speeded up robust features, SURF) charakterisieren die Trajektorienmerkmale interessierender Punkte bei Videokopieerkennung. Verschiedene Ausführungsformen leisten viel mehr als der Harris-Merkmals-basierte Ansatz, der im Law-To-Artikel beschrieben ist. Wenn eine Rate falscher positiver Einzelbilder 10% ist, ist die Rate wahrer positiver Einzelbilder des Harris-Ansatzes 68%, während verschiedene Ausführungsformen eine Rate von 90% wahren positiven Einzelbildern erreichen können. Das SURF-Merkmal ist unterscheidungskräftiger als Harris-Punkt-Merkmale und leistet bei skalierungsrelevanten Transformationen, z. B. Vergrößern/Verkleinern und Abfilmen, verglichen mit den Ergebnissen aus dem Law-To-Artikel mehr. Darüber hinaus ist die SURF-Merkmalsextraktion etwa sechsmal schneller als SIFT, stellt aber ähnliche Geschwindigkeit wie der Harris-Punkt-Merkmals-Ansatz bereit.
-
Verwenden von Local-Sensitive-Hash-(LSH-)-Indizierung stellt schnellere Abfrage von Kandidatentrajektorien bei Videokopieerkennung bereit. Der Law-To-Artikel beschreibt Verwenden von Wahrscheinlichkeits-Ähnlichkeits-Suche statt LSH-Indizierung.
-
Durch Raum-Zeit-Skalierungs-Registrierung und Fortpflanzung und Zusammenführung von Offsetparametern werden abgeglichene Videosegmente mit der maximalen akkumulierten Registrierungswertung erkannt. Der Ansatz im Law-To-Artikel kann Skalierungstransformationen nicht gut erkennen. Durch Verwendung dieser stimmwichtungsbasierten Registrierung im diskreten Offsetparameterraum sind verschiedene Ausführungsformen in der Lage, sowohl Raum-Zeit- als auch Skalierungstransformationen zu erkennen, z. B. Cropping, Vergrößern/Verkleinern, Skalierung und Abfilmen.
-
2 stellt ein Videokopieerkennungssystem gemäß einer Ausführungsform dar. Das Videokopieerkennungssystem beinhaltet ein Offline-Trajektorienerzeugungs-Modul 210 und ein Online-Kopieerkennungs-Modul 250. Jedwedes Computersystem mit einem Prozessor und Speicher, und das kommunikativ mit einem Netz über leitungsgebundene oder drahtlose Techniken gekoppelt ist, kann konfiguriert werden, um die Operationen von Offline-Trajektorienerzeugungs-Modul 210 und Online-Kopieerkennungs-Modul 250 auszuführen. Beispielsweise kann Abfragevideo über ein Netz zum Computersystem gesendet werden. Beispielsweise kann das Computersystem mithilfe von Techniken in Übereinstimmung mit einer Version der IEEE 802.3, 802.11 oder 802.16 mithilfe einer Leitung oder einer oder mehrerer Antennen kommunizieren. Das Computersystem kann Video mithilfe einer Anzeigevorrichtung anzeigen.
-
Offline-Trajektorienerzeugungs-Modul 210 extrahiert SURF-Punkte aus jedem Einzelbild der Videodatenbank und speichert SURF-Punkte in einer Merkmalsdatenbank 212. Offline-Trajektorienerzeugungs-Modul 210 erzeugt eine Trajektorienmerkmalsdatenbank 214, die Trajektorien interessierender Punkte beinhaltet. Offline-Trajektorienerzeugungs-Modul 210 verwendet LSH, um Merkmalspunkte in Merkmalsdatenbank 212 mit den Trajektorien in Trajektorienmerkmalsdatenbank 214 zu indizieren.
-
Online-Kopieerkennungs-Modul 250 extrahiert die SURF-Punkte aus Prüflingseinzelbildern eines Abfragevideos. Online-Kopieerkennungs-Modul 250 fragt Merkmalsdatenbank 212 mit den extrahierten SURF-Punkten ab, um Kandidatentrajektorien mit ähnlichen. Ortsmerkmalen zu identifizieren. Kandidatentrajektorien aus Trajektorienmerkmalsdatenbank 214, die den ähnlichen Merkmalspunkten entsprechen, werden mithilfe von LSH identifiziert.
-
Bei jedem Merkmalspunkt aus einem Abfragevideo verwendet Online-Kopieerkennungs-Modul 250 einen stimmwichtungsbasierten Raum-Zeit-Skalierungs-Registrierungsansatz, um einen optimalen Raum-Zeit-Skalierungs-Transformationsparameter (d. h. Offset) zwischen SURF-Punkten im Abfragevideo und Kandidatentrajektorien in Trajektorienmerkmalsdatenbank 214 abzuschätzen. Online-Kopieerkennungs-Modul 250 pflanzt die abgeglichenen Videosegmente in sowohl Raum-Zeit- als auch Skalierungs-Richtungen fort, um Videokopien zu identifizieren.
-
Stimmwichtung ist die Akkumulation im Raum-Zeit-Skalierungs-Registrierungsraum abgeschätzter interessierender Punkte. Raum-Zeit-Skalierungs-Registrierungsraum ist in Kuben geteilt, die Verschiebung in x-, y-, t- und Skalierungsparametern entsprechen. Bei gegebenen x-, y-, t- und Skalierungsparametern zählt die Zahl interessierender Punkte, die innerhalb jedes Kubus gefunden werden, als Stimmen (Votes). Der Kubus mit der höchsten Zahl stimmgewichteter (voted) interessierender Punkte wird als Kopie angesehen. Ein Beispiel des stimmwichtungsbasierten Raum-Zeit-Skalierungs-Registrierungsansatzes ist unter Bezug auf 6 beschrieben.
-
Beispielsweise werden für ein Abfragevideo Q alle P = 20 Einzelbilder M = 100 SURF-Punkte extrahiert. Für jeden SURF-Punkt m auf dem ausgewählten Einzelbild k des Abfragevideos Q wird LSH verwendet, um N = 20 nächste Trajektorien als die Kandidatentrajektorien in Trajektorienmerkmalsdatenbank 214 zu finden. In der Praxis können M, P und N als Kompromiss zwischen der Abfragegeschwindigkeit und der Genauigkeit bei Online-Kopieerkennung eingestellt werden. Jede Kandidatentrajektorie n ist durch Rmn = [Id, Tran, Simmn] beschrieben, wobei Id die Video-ID in Trajektorienmerkmalsdatenbank 214 ist, Tran das Trajektorienmerkmal ist und Simmn die Ähnlichkeit zwischen dem SURF-Punkt bei (xm, ym) und dem Smean-Merkmal der Kandidatentrajektorie ist.
-
Gemäß der zugeordneten Video-Id sind die Kandidatentrajektorien in unterschiedliche Teilsätze
kategorisiert. Für jedes Video Id in Trajektorienmerkmalsdatenbank
214 und das ausgewählte Abfrageeinzelbild k wird eine schnelles und effizientes Raum-Zeit-Skalierungs-Registrierungsverfahren verwendet, um den optimalen Raum-Zeit-Skalierungs-Registrierungsparameter abzuschätzen: Offset(Id, k). Nach Erhalten des optimalen Offsets(Id, k) wird der optimale Raum-Zeit-Skalierungs-Offset für potenzielle registrierte Videosegmente in sowohl Raum-Zeit- als auch Skalierungs-Richtungen fortgepflanzt, um abrupte Offsets zu entfernen und die Erkennungsendergebnisse zu erhalten.
-
Bei der Videokopieerkennung gibt es viele Arten von Transformationen. Falls das Abfragevideo Q aus derselben Quelle wie ein Video R der Datenbank kopiert ist, gibt es einen „konstanten Raum-Zeit-Skalierungs-Offset” zwischen den SURF-Punkten von Q und R. Daher ist in verschiedenen Ausführungsformen es das Ziel von Videokopieerkennung, ein Videosegment R in der Datenbank zu finden, das einen näherungsweise invariablen Offset zu Q aufweist.
-
3 bildet einen beispielhaften Prozess zum Erstellen einer Datenbank von Merkmalspunkten und Trajektorien gemäß einer Ausführungsform ab. In einigen Ausführungsformen kann Offline-Trajektorienerzeugungs-Modul 210 Prozess 300 ausführen. Block 302 beinhaltet Extrahieren von beschleunigten robusten Merkmalen (speeded up robust Features, SURF) aus Video. Ein Beispiel für SURF ist in H. Bay, T. Tuytelaars, L. Gool, „SURF: Speeded Up Robust Features", ECCV, Mai 2006, beschrieben. In verschiedenen Ausführungsformen sind die extrahierten Merkmale Ortsmerkmale in einem Einzelbild.
-
In verschiedenen Ausführungsformen ist an jedem interessierenden Punkt das Gebiet regelmäßig in kleinere 3 mal 3 quadratische Untergebiete geteilt. Die Haar-Wavelet-Antworten dx und dy werden über jedem Untergebiet aufsummiert, und jedes Untergebiet weist einen vierdimensionalen Deskriptorvektor v = (Σdx, Σdy, Σ|dx|, Σ|dy|) auf. Daher gibt es für jeden interessierenden Punkt ein 36-dimensionales SURF-Merkmal.
-
SURF basiert auf der Abschätzung einer Hesse-Matrix, um einen Hesse-basierten Detektor aufzubauen. SURF setzt Integralbilder ein, um die Berechnungszeit zu beschleunigen. Die Geschwindigkeit der SURF-Extraktion ist etwa sechsmal schneller als SIFT und stellt Harris ähnliche Geschwindigkeit bereit. SURF-Merkmal ist robust bei Videokopietransformationen wie z. B. bei Vergrößern/Verkleinern und Abfilmen.
-
Es gibt viele Merkmale, die in Computervision und Bildwiedergewinnung verwendet werden, unter anderem globale Merkmale wie z. B. Farbhistogramm, Ordinalmerkmale und Ortsmerkmale, z. B. Harris und SIFT. Für Videokopieerkennung können globale Merkmale, wie z. B. Farbhistogrammmerkmale im gesamten Einzelbild, nicht verwendet werden, um Ortstransformationen, z. B. Cropping und Skalierungstransformation, zu erkennen. Verschiedene Ausführungsformen extrahieren Ortsmerkmale aus Video, weil Ortsmerkmale sich nicht ändern, wenn Video verschoben, beschnitten oder vergrößert/verkleinert wird.
-
Block 304 beinhaltet Erzeugen einer Trajektoriendatenbank und Erstellen von Indizes für die Trajektorien in einer Videodatenbank. Nach Extrahieren der SURF-Punkte in jedem Einzelbild der Videodatenbank werden diese SURF-Punkte verfolgt, um Trajektorien als Raum-Zeit-Merkmale des Videos zu erzeugen. Jede Trajektorie ist repräsentiert durch Tran = [xmin, xmax, ymin, ymax, tin, tout, Smean], n = 1, 2, ... N, wobei [xmin, xmax, ymin, ymax, tin, tout] den Raum-Zeit-Begrenzungkubus und Smean den Mittelwert von SURF-Merkmalen in der Trajektorie repräsentieren.
-
Für sich schnell bewegende Punkte in den x-y-Richtungen ist der Trajektorienkubus zu groß, um die räumliche Position einer Trajektorie von anderen zu unterscheiden. Daher werden in verschiedenen Ausführungsformen diese Trajektorien in einige Kurzzeitsegmente getrennt, die den Trajektorienkubus wegen ihrer kurzen Dauer in der räumlichen Position klein genug machen.
-
Für schnelle Online-Videokopieerkennung wird Local Sensitive Hashing (LSH) verwendet, um Trajektorien durch ihre Smean-Merkmale zu indizieren. Beispielsweise kann eine Abfrage nach Smean-Merkmalen gemacht werden, um Trajektorien zu indizieren. Mit LSH resultiert eine kleine Änderung im Merkmalsraum in einer proportionalen Änderung im Hashwert, d. h. die Hashfunktion ist ortsempfindlich. In verschiedenen Ausführungsformen wird exaktes euklidisches LSH (E2LSH) verwendet, um die Trajektorien zu indizieren. E2LSH ist beispielsweise in A. Andoni, P. Indyk, E2LSH0.1 User manual, Juni 2000, beschrieben.
-
4 bildet einen beispielhaften Prozess 400 zum Ermitteln von Videokopieren gemäß einer Ausführungsform ab. In einigen Ausführungsformen kann Online-Kopieerkennungs-Modul 250 Prozess 400 ausführen. Block 402 beinhaltet Durchführen stimmwichtungsbasierter Raum-Zeit-Skalierungs-Registrierung basierend auf Trajektorien, die einem Abfragevideoeinzelbild zugeordnet sind. Die stimmwichtungsbasierte Raum Zeit-Skalierungs-Registrierung teilt den Raum-Zeit-Skalierungs-Offsetraum adaptiv in 3D-Kuben unter unterschiedlichen Skalierungen und stimmwichtet (vote) die Ähnlichkeit Simmn in entsprechende Kuben. Adaptive Teilung beinhaltet Änderung von Kubusgrößen. Jeder Kubus entspricht einem möglichen Raum-Zeit-Offsetparameter. Für ein Abfrageeinzelbild k entspricht der Kubus mit der maximalen Akkumulationswertung (d. h. der Kubus mit den meisten registrierten Trajektorien mit den interessierenden Punkten im Abfrageeinzelbild k) seinem optimalen Offsetparameter.
-
Weil es sich beim Begrenzungskubus der Kandidatentrajektorie Tran um intervallwertige Daten handelt, ist der Raum-Zeit-Skalierungsparameter Offset(Id, k) ebenfalls intervallwertig. Bei gegebenem Skalierungsparameter scale = [scalex, scaley] ist der Offsetscale mn(Id, k) zwischen der Kandidatentrajektorie n im Video Id einer Trajektoriendatenbank und dem SURF-Punkt m im ausgewählten Einzelbild k des Abfragevideos wie folgt definiert: Qffset scale / mn(Id, k) ☐ {[Offset min / x, Offset max / x], [Offset max / y, Offset max / y], [Offset in / t, Offset in / t], Simmn} = {[xmin × scalex – xm, xmax × scalex – xm], [ymin × scaley – yn, ymax × scaley – ym], [tin –k, tout – k], Sin
-
Beispielsweise ist, um allgemeine Skalierungstransformation wie z. B. Vergrößern/Verkleinern zu erkennen, scalex = scaley ∊ [0,6, 0,8, 1,0, 1,2, 1,4]. Andere Skalierungsfaktoren können verwendet werden. Weil Abfilmtransformation unterschiedliche Skalierungsparameter scalex ≠ scaley aufweist, werden die x-y-Skalierungsparameter zu [scalex = 0,9, scaley = 1,1] und [scalex = 1,1, scaley = 0,9] gesetzt.
-
Es gibt tausende potenzieller Offsets Offsetmn scale(Id, k), und der Raum-Zeit-Skalierungs-Offsetraum ist zu groß, um in Echtzeit direkt zu suchen. Ähnlich der Verwendung einer Hough-Transformation zum Stimmwichten von Parametern in diskretem Raum wird in verschiedenen Ausführungsformen ein 3-dimensionales Array verwendet, um die Ähnlichkeitswertung Simmn von Offsetmn scale(Id, k) in diskretem Raum-Zeit-Raum zu stimmwichten. Bei gegebenem Skalierungsparameter scale wird der Raum-Zeit-Suchraum {x, y, t) adaptiv in viele Kuben unterteilt, wobei jeder Kubus cubei die Basisstimmwichtungseinheit (basic voting unit) ist.
-
In einigen Ausführungsformen wird die x-Achse durch alle Startpunkte offset min / x und Endpunkte offset max / x der Kandidatentrajektorie adaptiv in viele eindimensionale Bins mit unterschiedlichen Größen geteilt. Für jede Kandidatentrajektorie Trajn wird die Ähnlichkeit Simmn akkumuliert, falls der intervallwertige Bereich Offsetmn einen Schnitt mit dem cubei aufweist. Adaptive Teiloperationen werden ebenso in der y-Achse und der t-Achse ausgeführt.
-
Basierend auf diesen Kuben maximiert der optimale Raum-Zeit-Registrierungsparameter Offset
scale(Id, k) zwischen Video Id und Abfrageeinzelbild k den akkumulierten Wert kompatibler Abfragen score(m, n, cube
i) wie in der folgenden Gleichung:
-
Block 404 beinhaltet Fortpflanzen und Zusammenführen von Offsets, die aus mehreren Einzelbildern ermittelt wurden, um einen optimalen Offsetparameter zu ermitteln. Die 6 begleitende Beschreibung beschreibt ein Beispiel des Fortpflanzens und Zusammenführens von Offsets, um einen optimalen Offsetparameter zu ermitteln. Nach Ermitteln des Raum-Zeit-Skalierungsparameters Offsetscale(Id, k) in unterschiedlichen Skalierungen erfolgt Fortpflanzen und Zusammenführen dieser Offsetscale(Id, k)-Parameter, um die endgültige Videokopieerkennung zu erreichen.
-
Nach der Kubusausdehnung in Raumrichtungen werden die Offsetkuben Offset(Id, k) ferner in Zeit- und Skalierungs-Richtungen fortgepflanzt. Suche findet in [Offsetscale(Id, k – 3), Offsetscale(Id, k + 3)] für sieben ausgewählte Einzelbilder statt, um den Raumschnitt zu akkumulieren, und Suche findet in [scale – 0,2, scale + 0,2] für drei Skalierungen statt, um robuste Ergebnisse zu erlangen, die unterschiedlichen Skalierungen entsprechen. Dann ist der optimale Offset Offset(Id, k) gefunden, der den maximalen akkumulierten Stimmwichtungswert in den Schnittkuben dieser 3·7 oder 21 Offsets aufweist. Dieser Fortpflanzungsschritt glättet die Lücken unter Offsets und entfernt gleichzeitig abrupte/fehlerhafte Offsets.
-
Jedoch kann wegen zufälliger Störungen der reale Registrierungsoffset sich in den Nachbarkuben des abgeschätzten optimalen Offsets befinden. Darüber hinaus bringen bewegungslose Trajektorien etwas Verzerrung in den abgeschätzten Offset, weil die Intervalle von Offsetx min und Offsetx max (oder Intervalle von Offsety min und Offsety max) sehr klein sind, um zu Nachbarkuben stimmgewichtet zu werden. Die Verzerrung in Multi-Skalierungs-Fällen findet auch aufgrund von Rauschstörungen und diskreten Skalierungsparametern statt. In verschiedenen Ausführungsformen ist der optimale Offsetkubus in x-y-Richtungen leicht zu seinen Nachbarkuben ausgeweitet, falls die Wertungen dieser Kuben einen simplen Schwellwert überschreiten, und eine Abschätzung des fortgepflanzten und zusammengeführten optimalen Offsets erfolgt in der endgültigen Videokopieerkennungs-Phase.
-
Block 406 beinhaltet Identifizieren eines Abfragevideoeinzelbildes als eine Videokopie zum Teil basierend auf dem optimalen Offset. Die identifizierte Videokopie ist eine Sequenz von Videoeinzelbildern aus der Datenbank mit Orts-SURF-Trajektorienmerkmalen, die Einzelbildern in der Abfrage ähnlich sind, und jedes der Videoeinzelbilder aus der Datenbank weist einen ähnlichen Offset(t, x, y) wie das des Abfragevideos auf. Darüber hinaus kann ein Zeitoffset bereitgestellt sein, der Zeitsegmente eines Videos identifiziert, die potenziell kopiert sind.
-
Verschiedene Ausführungsformen können Kopien von Standbildern erkennen. Bei Bildkopieerkennung gibt es keine Trajektorien- und Bewegungsinformationen in der Zeitrichtung und dementsprechend keine Betrachtung von Zeitoffset. Jedoch werden Raum-x-y- und Skalierungsoffset in ähnlicher Art und Weise wie jene der Videokopieerkennung betrachtet. Beispielsweise werden bei Bildkopieerkennung die interessierenden SURF-Punkte extrahiert und indiziert. Der stimmwichtungsbasierte Ansatz, der in Bezug auf die Videokopieerkennung beschrieben wurde, kann verwendet werden, um den optimalen Offset(x, y, Skalierung) zu finden, um Bildkopien zu erkennen.
-
5 stellt ein einfaches Beispiel zur Stimmwichtung des optimalen Offsets im Falle einer eindimensionalen Bin gemäß einer Ausführungsform dar. Die x-Achse ist durch vier potenzielle Offsets adaptiv in sieben Bins (Kuben) geteilt. In diesem Beispiel ist der Bereich der x-Achse x1min bis x4max. In diesem Beispiel repräsentiert jeder Kubus einen Bereich von x Offsets. Beispielsweise repräsentiert Kubus 1 eine erste Bin, die Offsets zwischen x1min und x2min abdeckt. Bins für andere Offsets sind Zeit- und y-Offset (nicht abgebildet).
-
In diesem Beispiel ist, angenommen, dass die Simmn jedes potenziellen Offsets eins ist, der beste Offset cube4 [x4min, x1max], und die maximale Stimmwichtungswertung ist vier. Durch Vergleichen dieser optimalen Offsets Offsetscale(Id, k) in unterschiedlichen Skalierungen wird der optimale Raum-Zeit-Skalierungs-Registrierungsparameter Offset(Id, k) mit der maximalen Stimmwichtungswertung in allen Skalierungen abgeschätzt.
-
6 bildet ein Beispiel von Erkennung von Ortsmerkmalen von mehreren Abfragevideoeinzelbildern gemäß einer Ausführungsform ab. Die Kreise in den Abfragevideoeinzelbildern repräsentieren interessierende Punkte. Die Rechtecke in den Einzelbildern der Datenbank von Video repräsentieren Begrenzungskuben in den (t, x, y)-Dimensionen. Ein Kubus aus 5 repräsentiert eine einzelne Dimension (d. h. t, x oder y). Um Skalierungstransformationsparameter abzuschätzen, wird die Raum-Zeit-Registrierung im 3D-(x, y, t)-Stimmwichtungsraum für jeden diskreten Skalierungswert separat angewandt (scalex = scaley [0,6, 0,8, 1,0, 1,2, 1,4]), und die Erkennungsergebnisse werden kombiniert.
-
In diesem Beispiel erfolgt eine Ermittlung, ob Ortsmerkmale aus Abfrageeinzelbildern zu Zeiten 50, 70 und 90 in Einzelbildern in einer Videodatenbank erscheinen. Das Abfrageeinzelbild zur Zeit 50 beinhaltet Ortsmerkmal A-D. Ein Einzelbild zur Zeit 50 aus der Videodatenbank beinhaltet Ortsmerkmale A und D. Dementsprechend werden zwei Stimmen (d. h. eine Stimme für jedes Ortsmerkmal) Einzelbild 50 aus der Videodatenbank zugemessen. Der (t, x, y)-Offset ist (0, 0, 0), weil die Ortsmerkmale A und D zur selben Zeit und in im Wesentlichen ähnlichen Positionen erscheinen.
-
Das Abfrageeinzelbild zur Zeit 70 beinhaltet Ortsmerkmale F-I. Das Einzelbild zur Zeit 120 aus der Videodatenbank beinhaltet Ortsmerkmale F-I. Dementsprechend werden Einzelbild 120 aus der Videodatenbank vier Stimmen zugemessen. Der (t, x, y)-Offset ist (50 Einzelbilder, 100 Pixel, 120 Pixel), weil die Ortsmerkmale F-I 50 Einzelbilder später und nach unten und nach rechts verschoben erscheinen.
-
Das Abfrageeinzelbild zur Zeit 90 beinhaltet Ortsmerkmale K-M. Das Einzelbild zur Zeit 140 aus der Videodatenbank beinhaltet Ortsmerkmale K-M. Dementsprechend werden Einzelbild 140 aus der Videodatenbank drei Stimmen zugemessen. Der (t, x, y)-Offset ist (50 Einzelbilder, 100 Pixel, 120 Pixel), weil die Ortsmerkmale K-M 50 Einzelbilder später und nach unten und nach rechts verschoben erscheinen.
-
Das Abfrageeinzelbild zur Zeit 50 beinhaltet Ortsmerkmal D. Das Einzelbild zur Zeit 160 aus der Videodatenbank beinhaltet Ortsmerkmal D. Dementsprechend wird Einzelbild 160 aus der Videodatenbank eine Stimme zugemessen. Der (t, x, y)-Offset ist (110 Einzelbilder, –50 Pixel, –20 Pixel), weil das Ortsmerkmal D 110 Einzelbilder später und nach oben und nach links verschoben erscheint.
-
Einzelbilder 100, 120 und 140 aus der Videodatenbank weisen ähnlichen Offset (t, x, y) auf. Anders ausgedrückt, passen, unter Bezug auf das Schema nach 5, Offsets aus Einzelbildern 100, 120 und 140 in denselben Kubus. Der optimale Offset ist der Offset, der mehreren Einzelbildern zugeordnet ist. Einzelbilder mit ähnlichem Offset werden in einen stetigen Videoclip zusammengeführt.
-
Um die Leistung verschiedener Ausführungsformen zu beurteilen, werden umfangreiche Experimente mit 200 Stunden MPEG-1-Videos durchgeführt, die nach dem Zufallsprinzip dem Videodatensatz von INA (dem französischen Institut National de 1'Audiovisuel) und TRECVID2007 entnommen sind. Die Videodatenbank wird in zwei Teile geteilt: die Referenzdatenbank und die Nicht-Referenzdatenbank. Die Referenzdatenbank ist gleich 70 Stunden von 100 Videos. Die Nicht-Referenzdatenbank ist gleich 130 Stunden von 150 Videos.
-
Zwei Experimente wurden durchgeführt, um die Systemleistung zu beurteilen. Betrieben auf einem Pentium IV 2.0 GHz mit 1 G RAM weist die Referenzvideodatenbank 1.465.532 SURF-Trajektorien-Einträge auf, die durch LSH offline indiziert sind. Das Online-Videokopieerkennungs-Modul extrahiert höchstens M = 100 SURF-Punkte in jedem geprüften Einzelbild des Abfragevideos. Der Raum-Zeit-Skalierungs-Offset wird alle p = 20 Einzelbilder berechnet. Für jeden Abfrage-SURF-Punkt werden etwa 150 ms benötigt, um N = 20 Kandidatentrajektorien durch LSH zu finden. Die Raum-Zeit-Skalierungs-Registrierung kostet etwa 130 ms, um den optimalen Offset in 7 Skalierungsparametern abzuschätzen.
-
Im Experiment 1 wurde die Videokopieerkennungs-Leistung für unterschiedliche Transformationen jeweils auf das SURF-Merkmal und das Harris-Merkmal verglichen. Zwanzig Abfragevideoclips wurden nach dem Zufallsprinzip einfach aus der Referenzdatenbank extrahiert, und die Länge jedes Videoclips ist gleich 1000 Einzelbildern. Dann wird jeder Videoclip durch unterschiedliche Transformationen transformiert, um das Abfragevideo zu erstellen, z. B. Verschiebung, Vergrößerungsansicht. Tabelle 1 bildet einen Vergleich des Videokopieerkennungs-Ansatzes für unterschiedliche Transformationen jeweils auf das SURF-Merkmal und das Harris-Merkmal ab. Tabelle I
Transfor-mationen | Anzahl Abfragevideos/Gesamtzahl Einzelbilder in Abfragevideo | Aus Referenzdatenbank erkannte Abfragevideos/aus Abfragevideo durch Harris-Technik erkannte Einzelbilder | Aus Referenzdatenbank erkannte Abfragevideos/aus Abfragevideo durch SURF-Technik erkannte Einzelbilder |
Verschiebung | 20/20.000 | 20/10.080 | 20/14.460 |
Cropping | 20/20.000 | 20/8.240 | 20/13.640 |
Vergrößern | 20/20.000 | 14/4.240 | 20/14.280 |
Verkleinern | 20/20.000 | 15/2.820 | 20/12.820 |
Abfilmen | 20/20.000 | 9/1.580 | 20/12.400 |
-
In Tabelle 1 kann man beobachten, dass SURF-Merkmal Harris-Merkmal um etwa 25–50% bei Vergrößerungs-Verkleinerungs- und Abfilmtransfarmationen übertrifft. Dies darüber hinaus, obgleich SURF-Merkmal bei Verschiebungs- und Croppingtransformationen Harris ähnliche Leistung aufweist. Darüber hinaus kann Verwendung des SURF-Merkmals etwa 21% bis 27% mehr kopierte Einzelbilder als Harris-Merkmale entdecken.
-
Um komplexere Daten in der Praxis zu testen, wird der SURF-Merkmals-basierte Raum-Zeit-Skalierungs-Registrierungsansatz mit dem Harris-Merkmals-basierten Videokopieerkennungsansatz verglichen, der in J. Law-Tos Artikel beschrieben ist. Die Abfragevideoclips bestehen aus 15 transformierten Referenzvideos und 15 Nicht-Referenzvideos, die sich zu 100 Minuten (150.000 Einzelbildern) summieren. Die Referenzvideos werden durch unterschiedliche Transformationen mit unterschiedlichen Parametern gegenüber Experiment 1 transformiert.
-
7 bildet Grenzwertoptimierungskurven (Receive operation characteristic, ROC-Kurven) ab, die Systemleistung beschreiben. Man kann beobachten, dass verschiedene Ausführungsformen viel mehr leisten als der Harris-Merkmals-basierte Ansatz in J. Law-Tos Artikel. Wenn die Rate falscher positiver Einzelbilder 10% ist, ist die Rate wahrer positiver Einzelbilder des Harris-Ansatzes 68%, während Verfahren verschiedener Ausführungsformen eine Rate von 90% wahrer positiver Einzelbilder erreichen können. Im Bericht des Artikels von J. Law-To ist die Rate wahrer positiver Einzelbilder 82%, wenn die Rate falscher positiver Einzelbilder 10% ist. Jedoch erwähnt J. Law-Tos Artikel auch, dass die Skalierungstransformation auf 0,95–1,05 begrenzt ist. Die höhere Leistung verschiedener Ausführungsformen tragt zu robustem SURF-Merkmal und effizienter Raum-Zeit-Skalierungs-Registrierung bei. Darüber hinaus ist Fortpflanzung und Zusammenführung ebenfalls sehr nützlich, um die erkannten Videoclips so lange wie möglich fortzupflanzen und abrupte und fehlerhafte Offsets zu glätten/zu entfernen.
-
Die hierin beschriebenen Grafik- und/oder Videoverarbeitungstechniken können in verschiedenen Hardwarearchitekturen implementiert sein. Beispielsweise kann Grafik- und/oder Videofunktionalität innerhalb eines Chipsatzes integriert sein. Alternativ kann ein diskreter Grafik- und/oder Videoprozessor verwendet werden. Als noch eine andere Ausführungsform können die Grafik- und/oder Videofunktionen durch einen Mehrzweckprozessor, unter anderem einen Mehrkemprozessor, implementiert sein. In einer weiteren Ausführungsform können die Funktionen in einem Unterhaltungs- und Haushaltselektronikgerät implementiert sein.
-
Ausführungsformen der vorliegenden Erfindung können als irgendeines oder eine Kombination von Folgendem implementiert sein: einem oder mehreren Mikrochips oder integrierten Schaltungen, die mithilfe einer Hauptplatine miteinander verbunden sind, festverdrahteter Logik, Software, die durch eine Speichervorrichtung gespeichert ist und durch einen Mikroprozessor ausgeführt wird, Firmware, einem anwendungsspezifischen integrierten Schaltkreis (Application Specific Integrated Circuit, ASIC) und/oder einer feldprogrammierbaren Gatteranordnung (FPGA). Der Begriff „Logik” kann als Beispiel Software oder Hardware und/oder Kombinationen von Software und Hardware beinhalten.
-
Ausführungsformen der vorliegenden Erfindung können beispielsweise als Computerprogrammprodukt bereitgestellt sein, das ein oder mehrere maschinenlesbare Medien beinhalten kann, die maschinenausführbare Befehle darauf gespeichert aufweisen, die, wenn sie durch eine oder mehrere Maschinen wie z. B. einen Computer, ein Netzwerk von Computer oder andere elektronische Geräte ausgeführt werden, zur Folge haben können, dass die eine oder mehreren Maschinen Operationen gemäß Ausführungsformen der vorliegenden Erfindung durchführen. Ein maschinenlesbares Medium kann, ohne jedoch darauf beschränkt zu sein, Floppydisketten, optische Disks, CD-ROMs (Compact Disc-Read Only Memories, CD-Lese-Speicher) und magneto-optische Disks, ROMs (Read Only Memories, Lese-Speicher), RAMs (Random Access Memories, Schreib-Lese-Speicher), EPROMs (Erasable Programmable Read Only Memories, löschbaren programmierbarer Lese-Speicher), EEPROMs (Electrically Erasable Programmable Read Only Memories, elektrisch löschbaren programmierbarer Lese-Speicher), magnetische oder optische Karten, Flash-Speicher oder andere Art von Medien/maschinenlesbarem Medium beinhalten, das zum Speichern von maschinenausführbaren Befehlen geeignet ist.
-
Die Zeichnungen und die vorhergehende Beschreibung geben Beispiele der vorliegenden Erfindung. Obgleich als eine Anzahl disparater funktionaler Objekte abgebildet, wird der Fachmann verstehen, dass ein oder mehrere derartige Elemente gut zu einzelnen funktionalen Elementen kombiniert werden können. Alternativ können gewisse Elemente in mehrere funktionale Elemente aufgeteilt werden. Elemente aus einer Ausführungsform können einer anderen Ausführungsform hinzugefügt werden. Beispielsweise können Reihenfolgen von Prozessen, die hierin beschrieben sind, geändert werden und sind nicht auf die hierin beschriebene Art und Weise beschränkt. Darüber hinaus brauchen die Aktionen jedwedes Flussdiagramms nicht in der gezeigten Reihenfolge implementiert sein, noch müssen alle Handlungen notwendigerweise vorgenommen werden. Auch können jene Handlungen, die nicht von anderen Handlungen abhängig sind, parallel mit den anderen Handlungen vorgenommen werden. Der Umfang der vorliegenden Erfindung ist jedoch auf keinen Fall durch diese besonderen Beispiele beschränkt. Zahlreiche Varianten, ob ausdrücklich in der Spezifikation angegeben oder nicht, wie z. B. Unterschiede in Struktur, Maß und Materialverwendung, sind möglich. Der Umfang der Erfindung ist mindestens so umfassend wie durch die folgenden Ansprüche gegeben.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Nicht-Patentliteratur
-
- P. Duygulu, M. Chen und A. Hauptmann, „Comparison and Combination of Two Novel Commercial Detection Methods”, Proc. CIVR'04, (Juli 2004) [0003]
- J. Yuan, L. Duan, Q. Tian und C. Xu, „Fast and Robust Short Video Clip Search Using an Index Structure”, Proc. ACM MIR'04 (2004) [0004]
- J. Law-To, O. Buisson, V. Gouet-Brunet, Nozha Boujemaa, „Robust Voting Algorithm Based an Labels of Behavior for Video Copy Detection”, International Conference an Multimedia (2006) [0005]
- IEEE 802.3 [0019]
- 802.11 [0019]
- 802.16 [0019]
- H. Bay, T. Tuytelaars, L. Gool, „SURF: Speeded Up Robust Features”, ECCV, Mai 2006 [0027]
- A. Andoni, P. Indyk, E2LSH0.1 User manual, Juni 2000 [0033]