DE112009005002T5

DE112009005002T5 - Techniken zum Erkennen von Videokopien

Info

Publication number: DE112009005002T5
Application number: DE112009005002T
Authority: DE
Inventors: Tao Wang; Jianguo Li; Wenlong Li; Yimin Zhang
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2009-06-26
Filing date: 2009-06-26
Publication date: 2012-10-25
Also published as: US20120131010A1; RU2505859C2; FI126909B; FI20116319L; WO2010148539A1; GB201118809D0; RU2011153258A; GB2483572A; JP2012531130A

Abstract

Einige Ausführungsformen beinhalten einen Videokopieerkennungsansatz, der auf SURF-Trajektorienerzeugung (Speeded-up robust Features, beschleunigte robuste Merkmale), Local-Sensitive-Hash-(LSH-)-Indizierung und Raum-Zeit-Skalierungs-Registrierung basiert. Als Erstes werden Trajektorien interessierender Punkte durch SURF extrahiert. Als Nächstes wird ein effizienter stimmwichtungsbasierter Raum-Zeit-Skalierungs-Registrierungsansatz angewandt, um die optimalen Transformationsparameter (Verschiebung und Skalierung) abzuschätzen und die Videokopieerkennungs-Endergebnisse durch Fortpflanzungen von Videosegmenten in sowohl Raum-Zeit- als auch Skalierungs-Richtungen zu erzielen. Um die Erkennungsgeschwindigeit zu beschleunigen, wird Local-Sensitive-Hash-(LSH-)-Indizierung verwendet, um Trajektorien für schnelle Abfragen von Kandidatentrajektorien zu indizieren.

Description

Feld
Der hierin beschriebene Gegenstand betrifft im Allgemeinen Techniken zum Erkennen von Video- oder Bildkopien.
Verwandte Technik
Mit der Zunahme in der Verfügbarkeit von Internet und privaten Videos wird Videokopieerkennung ein aktives Forschungsgebiet in Urheberrechtskontrolle, Business-Intelligence und Werbeüberwachung. Eine Videokopie ist ein Segment von Video, das aus einem anderen Video abgeleitet ist, üblicherweise mittels verschiedener Transformationen wie z. B. Addition, Löschung und Modifikation durch Verschieben, Cropping, Beleuchtung, Kontrast, Abfilmen (z. B. Ändern des Breiten-Höhen-Verhältnisses zwischen 16:9 und 4:3) und/oder Umkodierung. 1 zeigt einige Beispiele von Videokopien. Insbesondere bildet 1 in der oberen Zeile von links nach rechts Originalvideo, vergrößerte/verkleinerte Version und beschnittenes Video und in der unteren Zeile von links nach rechts verschobenes Video, Kontrastvideo und abgefilmtes und umcodiertes Video ab. Umkodierung kann Codieren des Videos mit eisern unterschiedlichen Codec oder einer unterschiedlichen Kompressionsqualität beinhalten. Weil diese Transformationen Raum-Zeit-Skalierungs-Aspekte von Video ändern, wird Videokopieerkennung bei Urheberrechtskontrolle und Video-/Bildsuche zu einem sehr herausfordernden Problem.
Bestehende Videokopieerkennungs-Tätigkeit kann in einzelbildbasierte und clipbasierte Verfahren kategorisiert werden. Einzelbildbasierte Ansätze nehmen an, dass ein Satz von Schlüssel-Einzelbildern eine kompakte Repräsentation des Videoinhalts ist. Bei der in P. Duygulu, M. Chen und A. Hauptmann, „Comparison and Combination of Two Novel Commercial Detection Methods", Proc. CIVR'04, (Juli 2004), beschriebenen Technik wird ein Satz visueller Merkmale (Farb-, Kanten- und SIFT-Merkmale (Scaled Invariant Feature Transform, skaleninvariante Merkmalstransformation) aus diesen Schlüssel-Einzelbildern extrahiert. Um Videokopieclips zu erkennen, ermittelt die Technik Ähnlichkeit von Videosegmenten mit diesen Schlüssel-Einzelbildern. Einzelbildbasierte Ansätze sind einfach und effizient, aber nicht genau genug, weil sie die Raum-Zeit-Informationen des Objekts (z. B. Bewegungstrajektorie) verlieren. Darüber hinaus ist es schwierig, mit einem vereinheitlichten Schlüssel-Einzelbild Auswahlschema zum Abgleichen von zwei Videosegmenten aufzuwarten.
Clipbasierte Verfahren versuchen, Raum-Zeit-Merkmale aus einer Sequenz von Einzelbildern zu charakterisieren. Die in J. Yuan, L. Duan, Q. Tian und C. Xu, „Fast and Robust Short Video Clip Search Using an Index Structure", Proc. ACM MIR'04 (2004), beschriebene Technik ist ein Ansatz, bei dem ein Ordinalmusterhistogramm und ein Kumulativfarbverteilungshistogramm extrahiert werden, um das Raum-Zeit-Muster der Videos zu charakterisieren. Obgleich dieser Ansatz die Zeitinformationen des Videoeinzelbilds untersucht, versagt das Globalfarbhistogrammmerkmal beim Erkennen von Videokopien mit Ortstransformationen, z. B. Cropping, Verschieben und Abfilmen.
Eine in J. Law-To, O. Buisson, V. Gouet-Brunet, Nozha Boujemaa, „Robust Voting Algorithm Based an Labels of Behavior for Video Copy Detection", International Conference an Multimedia (2006), beschriebene Technik versucht eine asymmetrische Technik zu verwenden, um die Merkmalspunkte beim Testen von Video gegen Raum-Zeit-Trajektorien interessierender Punkte in einer Videodatenbank abzugleichen. Dieser Ansatz kann viele Videokopietransformationen erkennen, wie z. B. Verschiebung, Licht und Kontrast. Jedoch ist das Harris-Punkt-Merkmal weder unterschieden noch skaleninvariant, und seine Raum-Zeit-Registrierung kann die skalierungsrelevanten Transformationen, z. B. Vergrößern/Verkleinern und Abfilmen, nicht erkennen.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Ausfüruhrungsformen der vorliegenden Erfindung sind als Beispiel und nicht als Einschränkung in den Zeichnungen dargestellt, und wobei ähnliche Bezugszeichen sich auf ähnliche Elemente beziehen.
1 zeigt einige Beispiele von Videokopien.
2 stellt ein Videokopieerkennungssystem gemäß einer Ausführungsform dar.
3 bildet einen beispielhaften Prozess zum Erstellen einer Datenbank von Merkmalspunkten und Trajektorien gemäß einer Ausführungsform ab.
4 bildet einen beispielhaften Prozess zum Ermitteln von Videokopieren gemäß einer Ausführungsform ab.
5 stellt ein Beispiel zur Stimmwichtung (Voting) des optimalen Offsets im Falle eindimensionaler Bin gemäß einer Ausführungsform dar.
6 bildet ein Beispiel von Erkennung von Ortsmerkmalen von mehreren Abfragevideoeinzelbildern gemäß einer Ausführungsform ab.
7 bildet Grenzwertoptimierungskurven (Receive operation characteristic, ROC-Kurven) ab, die Systemleistung beschreiben.
Ausführliche Beschreibung
In dieser gesamten Spezifikation bedeutet ein Verweis auf „eine Ausführungsform” (engl. „one embodiment” oder „an embodiment”), dass ein bestimmtes Merkmal, eine Struktur oder Charakteristik, das/die in Verbindung mit der Ausführungsform beschrieben ist, in mindestens einer Ausführungsform der vorliegenden Erfindung beinhaltet ist. Somit verweisen die Vorkommen der Redewendung „in einer Ausführungsform” an verschiedenen Stellen in dieser gesamten Spezifikation nicht notwendigerweise alle auf dieselbe Ausführungsform. Außerdem können die einzelnen Merkmale, Strukturen oder Charakteristika in einer oder mehreren Ausführungsformen kombiniert sein.
Verschiedene Ausführungsformen stellen einen Videokopieerkennungsansatz bereit, der auf SURF-Trajektorienerzeugung (Speeded-up robust Features, beschleunigte robuste Merkmale), Local-Sensitive-Hash-(LSH-)-Indizierung und stimmwichtungsbasierter (voting-based) Raum-Zeit-Skalierungs-Registrierung basiert.
Beschleunigte robuste Merkmale (Speeded up robust features, SURF) charakterisieren die Trajektorienmerkmale interessierender Punkte bei Videokopieerkennung. Verschiedene Ausführungsformen leisten viel mehr als der Harris-Merkmals-basierte Ansatz, der im Law-To-Artikel beschrieben ist. Wenn eine Rate falscher positiver Einzelbilder 10% ist, ist die Rate wahrer positiver Einzelbilder des Harris-Ansatzes 68%, während verschiedene Ausführungsformen eine Rate von 90% wahren positiven Einzelbildern erreichen können. Das SURF-Merkmal ist unterscheidungskräftiger als Harris-Punkt-Merkmale und leistet bei skalierungsrelevanten Transformationen, z. B. Vergrößern/Verkleinern und Abfilmen, verglichen mit den Ergebnissen aus dem Law-To-Artikel mehr. Darüber hinaus ist die SURF-Merkmalsextraktion etwa sechsmal schneller als SIFT, stellt aber ähnliche Geschwindigkeit wie der Harris-Punkt-Merkmals-Ansatz bereit.
Verwenden von Local-Sensitive-Hash-(LSH-)-Indizierung stellt schnellere Abfrage von Kandidatentrajektorien bei Videokopieerkennung bereit. Der Law-To-Artikel beschreibt Verwenden von Wahrscheinlichkeits-Ähnlichkeits-Suche statt LSH-Indizierung.
Durch Raum-Zeit-Skalierungs-Registrierung und Fortpflanzung und Zusammenführung von Offsetparametern werden abgeglichene Videosegmente mit der maximalen akkumulierten Registrierungswertung erkannt. Der Ansatz im Law-To-Artikel kann Skalierungstransformationen nicht gut erkennen. Durch Verwendung dieser stimmwichtungsbasierten Registrierung im diskreten Offsetparameterraum sind verschiedene Ausführungsformen in der Lage, sowohl Raum-Zeit- als auch Skalierungstransformationen zu erkennen, z. B. Cropping, Vergrößern/Verkleinern, Skalierung und Abfilmen.
2 stellt ein Videokopieerkennungssystem gemäß einer Ausführungsform dar. Das Videokopieerkennungssystem beinhaltet ein Offline-Trajektorienerzeugungs-Modul 210 und ein Online-Kopieerkennungs-Modul 250. Jedwedes Computersystem mit einem Prozessor und Speicher, und das kommunikativ mit einem Netz über leitungsgebundene oder drahtlose Techniken gekoppelt ist, kann konfiguriert werden, um die Operationen von Offline-Trajektorienerzeugungs-Modul 210 und Online-Kopieerkennungs-Modul 250 auszuführen. Beispielsweise kann Abfragevideo über ein Netz zum Computersystem gesendet werden. Beispielsweise kann das Computersystem mithilfe von Techniken in Übereinstimmung mit einer Version der IEEE 802.3, 802.11 oder 802.16 mithilfe einer Leitung oder einer oder mehrerer Antennen kommunizieren. Das Computersystem kann Video mithilfe einer Anzeigevorrichtung anzeigen.
Offline-Trajektorienerzeugungs-Modul 210 extrahiert SURF-Punkte aus jedem Einzelbild der Videodatenbank und speichert SURF-Punkte in einer Merkmalsdatenbank 212. Offline-Trajektorienerzeugungs-Modul 210 erzeugt eine Trajektorienmerkmalsdatenbank 214, die Trajektorien interessierender Punkte beinhaltet. Offline-Trajektorienerzeugungs-Modul 210 verwendet LSH, um Merkmalspunkte in Merkmalsdatenbank 212 mit den Trajektorien in Trajektorienmerkmalsdatenbank 214 zu indizieren.
Online-Kopieerkennungs-Modul 250 extrahiert die SURF-Punkte aus Prüflingseinzelbildern eines Abfragevideos. Online-Kopieerkennungs-Modul 250 fragt Merkmalsdatenbank 212 mit den extrahierten SURF-Punkten ab, um Kandidatentrajektorien mit ähnlichen. Ortsmerkmalen zu identifizieren. Kandidatentrajektorien aus Trajektorienmerkmalsdatenbank 214, die den ähnlichen Merkmalspunkten entsprechen, werden mithilfe von LSH identifiziert.
Bei jedem Merkmalspunkt aus einem Abfragevideo verwendet Online-Kopieerkennungs-Modul 250 einen stimmwichtungsbasierten Raum-Zeit-Skalierungs-Registrierungsansatz, um einen optimalen Raum-Zeit-Skalierungs-Transformationsparameter (d. h. Offset) zwischen SURF-Punkten im Abfragevideo und Kandidatentrajektorien in Trajektorienmerkmalsdatenbank 214 abzuschätzen. Online-Kopieerkennungs-Modul 250 pflanzt die abgeglichenen Videosegmente in sowohl Raum-Zeit- als auch Skalierungs-Richtungen fort, um Videokopien zu identifizieren.
Stimmwichtung ist die Akkumulation im Raum-Zeit-Skalierungs-Registrierungsraum abgeschätzter interessierender Punkte. Raum-Zeit-Skalierungs-Registrierungsraum ist in Kuben geteilt, die Verschiebung in x-, y-, t- und Skalierungsparametern entsprechen. Bei gegebenen x-, y-, t- und Skalierungsparametern zählt die Zahl interessierender Punkte, die innerhalb jedes Kubus gefunden werden, als Stimmen (Votes). Der Kubus mit der höchsten Zahl stimmgewichteter (voted) interessierender Punkte wird als Kopie angesehen. Ein Beispiel des stimmwichtungsbasierten Raum-Zeit-Skalierungs-Registrierungsansatzes ist unter Bezug auf 6 beschrieben.
Beispielsweise werden für ein Abfragevideo Q alle P = 20 Einzelbilder M = 100 SURF-Punkte extrahiert. Für jeden SURF-Punkt m auf dem ausgewählten Einzelbild k des Abfragevideos Q wird LSH verwendet, um N = 20 nächste Trajektorien als die Kandidatentrajektorien in Trajektorienmerkmalsdatenbank 214 zu finden. In der Praxis können M, P und N als Kompromiss zwischen der Abfragegeschwindigkeit und der Genauigkeit bei Online-Kopieerkennung eingestellt werden. Jede Kandidatentrajektorie n ist durch R_mn = [Id, Tra_n, Sim_mn] beschrieben, wobei Id die Video-ID in Trajektorienmerkmalsdatenbank 214 ist, Tra_n das Trajektorienmerkmal ist und Sim_mn die Ähnlichkeit zwischen dem SURF-Punkt bei (x_m, y_m) und dem S_mean-Merkmal der Kandidatentrajektorie ist.
Gemäß der zugeordneten Video-Id sind die Kandidatentrajektorien in unterschiedliche Teilsätze
kategorisiert. Für jedes Video Id in Trajektorienmerkmalsdatenbank 214 und das ausgewählte Abfrageeinzelbild k wird eine schnelles und effizientes Raum-Zeit-Skalierungs-Registrierungsverfahren verwendet, um den optimalen Raum-Zeit-Skalierungs-Registrierungsparameter abzuschätzen: Offset(Id, k). Nach Erhalten des optimalen Offsets(Id, k) wird der optimale Raum-Zeit-Skalierungs-Offset für potenzielle registrierte Videosegmente in sowohl Raum-Zeit- als auch Skalierungs-Richtungen fortgepflanzt, um abrupte Offsets zu entfernen und die Erkennungsendergebnisse zu erhalten.
Bei der Videokopieerkennung gibt es viele Arten von Transformationen. Falls das Abfragevideo Q aus derselben Quelle wie ein Video R der Datenbank kopiert ist, gibt es einen „konstanten Raum-Zeit-Skalierungs-Offset” zwischen den SURF-Punkten von Q und R. Daher ist in verschiedenen Ausführungsformen es das Ziel von Videokopieerkennung, ein Videosegment R in der Datenbank zu finden, das einen näherungsweise invariablen Offset zu Q aufweist.
3 bildet einen beispielhaften Prozess zum Erstellen einer Datenbank von Merkmalspunkten und Trajektorien gemäß einer Ausführungsform ab. In einigen Ausführungsformen kann Offline-Trajektorienerzeugungs-Modul 210 Prozess 300 ausführen. Block 302 beinhaltet Extrahieren von beschleunigten robusten Merkmalen (speeded up robust Features, SURF) aus Video. Ein Beispiel für SURF ist in H. Bay, T. Tuytelaars, L. Gool, „SURF: Speeded Up Robust Features", ECCV, Mai 2006, beschrieben. In verschiedenen Ausführungsformen sind die extrahierten Merkmale Ortsmerkmale in einem Einzelbild.
In verschiedenen Ausführungsformen ist an jedem interessierenden Punkt das Gebiet regelmäßig in kleinere 3 mal 3 quadratische Untergebiete geteilt. Die Haar-Wavelet-Antworten d_x und d_y werden über jedem Untergebiet aufsummiert, und jedes Untergebiet weist einen vierdimensionalen Deskriptorvektor v = (Σd_x, Σd_y, Σ|d_x|, Σ|d_y|) auf. Daher gibt es für jeden interessierenden Punkt ein 36-dimensionales SURF-Merkmal.
SURF basiert auf der Abschätzung einer Hesse-Matrix, um einen Hesse-basierten Detektor aufzubauen. SURF setzt Integralbilder ein, um die Berechnungszeit zu beschleunigen. Die Geschwindigkeit der SURF-Extraktion ist etwa sechsmal schneller als SIFT und stellt Harris ähnliche Geschwindigkeit bereit. SURF-Merkmal ist robust bei Videokopietransformationen wie z. B. bei Vergrößern/Verkleinern und Abfilmen.
Es gibt viele Merkmale, die in Computervision und Bildwiedergewinnung verwendet werden, unter anderem globale Merkmale wie z. B. Farbhistogramm, Ordinalmerkmale und Ortsmerkmale, z. B. Harris und SIFT. Für Videokopieerkennung können globale Merkmale, wie z. B. Farbhistogrammmerkmale im gesamten Einzelbild, nicht verwendet werden, um Ortstransformationen, z. B. Cropping und Skalierungstransformation, zu erkennen. Verschiedene Ausführungsformen extrahieren Ortsmerkmale aus Video, weil Ortsmerkmale sich nicht ändern, wenn Video verschoben, beschnitten oder vergrößert/verkleinert wird.
Block 304 beinhaltet Erzeugen einer Trajektoriendatenbank und Erstellen von Indizes für die Trajektorien in einer Videodatenbank. Nach Extrahieren der SURF-Punkte in jedem Einzelbild der Videodatenbank werden diese SURF-Punkte verfolgt, um Trajektorien als Raum-Zeit-Merkmale des Videos zu erzeugen. Jede Trajektorie ist repräsentiert durch Tra_n = [x_min, x_max, y_min, y_max, t_in, t_out, S_mean], n = 1, 2, ... N, wobei [x_min, x_max, y_min, y_max, t_in, t_out] den Raum-Zeit-Begrenzungkubus und S_mean den Mittelwert von SURF-Merkmalen in der Trajektorie repräsentieren.
Für sich schnell bewegende Punkte in den x-y-Richtungen ist der Trajektorienkubus zu groß, um die räumliche Position einer Trajektorie von anderen zu unterscheiden. Daher werden in verschiedenen Ausführungsformen diese Trajektorien in einige Kurzzeitsegmente getrennt, die den Trajektorienkubus wegen ihrer kurzen Dauer in der räumlichen Position klein genug machen.
Für schnelle Online-Videokopieerkennung wird Local Sensitive Hashing (LSH) verwendet, um Trajektorien durch ihre S_mean-Merkmale zu indizieren. Beispielsweise kann eine Abfrage nach S_mean-Merkmalen gemacht werden, um Trajektorien zu indizieren. Mit LSH resultiert eine kleine Änderung im Merkmalsraum in einer proportionalen Änderung im Hashwert, d. h. die Hashfunktion ist ortsempfindlich. In verschiedenen Ausführungsformen wird exaktes euklidisches LSH (E2LSH) verwendet, um die Trajektorien zu indizieren. E2LSH ist beispielsweise in A. Andoni, P. Indyk, E2LSH0.1 User manual, Juni 2000, beschrieben.
4 bildet einen beispielhaften Prozess 400 zum Ermitteln von Videokopieren gemäß einer Ausführungsform ab. In einigen Ausführungsformen kann Online-Kopieerkennungs-Modul 250 Prozess 400 ausführen. Block 402 beinhaltet Durchführen stimmwichtungsbasierter Raum-Zeit-Skalierungs-Registrierung basierend auf Trajektorien, die einem Abfragevideoeinzelbild zugeordnet sind. Die stimmwichtungsbasierte Raum Zeit-Skalierungs-Registrierung teilt den Raum-Zeit-Skalierungs-Offsetraum adaptiv in 3D-Kuben unter unterschiedlichen Skalierungen und stimmwichtet (vote) die Ähnlichkeit Sim_mn in entsprechende Kuben. Adaptive Teilung beinhaltet Änderung von Kubusgrößen. Jeder Kubus entspricht einem möglichen Raum-Zeit-Offsetparameter. Für ein Abfrageeinzelbild k entspricht der Kubus mit der maximalen Akkumulationswertung (d. h. der Kubus mit den meisten registrierten Trajektorien mit den interessierenden Punkten im Abfrageeinzelbild k) seinem optimalen Offsetparameter.
Weil es sich beim Begrenzungskubus der Kandidatentrajektorie Tra_n um intervallwertige Daten handelt, ist der Raum-Zeit-Skalierungsparameter Offset(Id, k) ebenfalls intervallwertig. Bei gegebenem Skalierungsparameter scale = [scale_x, scale_y] ist der Offset^scale _mn(Id, k) zwischen der Kandidatentrajektorie n im Video Id einer Trajektoriendatenbank und dem SURF-Punkt m im ausgewählten Einzelbild k des Abfragevideos wie folgt definiert: Qffset scale / mn(Id, k) ☐ {[Offset min / x, Offset max / x], [Offset max / y, Offset max / y], [Offset in / t, Offset in / t], Sim_mn} = {[x_min × scale_x – x_m, x_max × scale_x – x_m], [y_min × scale_y – y_n, y_max × scale_y – y_m], [t_in –k, t_out – k], Sin
Beispielsweise ist, um allgemeine Skalierungstransformation wie z. B. Vergrößern/Verkleinern zu erkennen, scale_x = scale_y ∊ [0,6, 0,8, 1,0, 1,2, 1,4]. Andere Skalierungsfaktoren können verwendet werden. Weil Abfilmtransformation unterschiedliche Skalierungsparameter scale_x ≠ scale_y aufweist, werden die x-y-Skalierungsparameter zu [scale_x = 0,9, scale_y = 1,1] und [scale_x = 1,1, scale_y = 0,9] gesetzt.
Es gibt tausende potenzieller Offsets Offset_mn ^scale(Id, k), und der Raum-Zeit-Skalierungs-Offsetraum ist zu groß, um in Echtzeit direkt zu suchen. Ähnlich der Verwendung einer Hough-Transformation zum Stimmwichten von Parametern in diskretem Raum wird in verschiedenen Ausführungsformen ein 3-dimensionales Array verwendet, um die Ähnlichkeitswertung Sim_mn von Offset_mn ^scale(Id, k) in diskretem Raum-Zeit-Raum zu stimmwichten. Bei gegebenem Skalierungsparameter scale wird der Raum-Zeit-Suchraum {x, y, t) adaptiv in viele Kuben unterteilt, wobei jeder Kubus cube_i die Basisstimmwichtungseinheit (basic voting unit) ist.
In einigen Ausführungsformen wird die x-Achse durch alle Startpunkte offset min / x und Endpunkte offset max / x der Kandidatentrajektorie adaptiv in viele eindimensionale Bins mit unterschiedlichen Größen geteilt. Für jede Kandidatentrajektorie Traj_n wird die Ähnlichkeit Sim_mn akkumuliert, falls der intervallwertige Bereich Offset_mn einen Schnitt mit dem cube_i aufweist. Adaptive Teiloperationen werden ebenso in der y-Achse und der t-Achse ausgeführt.
Basierend auf diesen Kuben maximiert der optimale Raum-Zeit-Registrierungsparameter Offset^scale(Id, k) zwischen Video Id und Abfrageeinzelbild k den akkumulierten Wert kompatibler Abfragen score(m, n, cube_i) wie in der folgenden Gleichung:
Block 404 beinhaltet Fortpflanzen und Zusammenführen von Offsets, die aus mehreren Einzelbildern ermittelt wurden, um einen optimalen Offsetparameter zu ermitteln. Die 6 begleitende Beschreibung beschreibt ein Beispiel des Fortpflanzens und Zusammenführens von Offsets, um einen optimalen Offsetparameter zu ermitteln. Nach Ermitteln des Raum-Zeit-Skalierungsparameters Offset^scale(Id, k) in unterschiedlichen Skalierungen erfolgt Fortpflanzen und Zusammenführen dieser Offset^scale(Id, k)-Parameter, um die endgültige Videokopieerkennung zu erreichen.
Nach der Kubusausdehnung in Raumrichtungen werden die Offsetkuben Offset(Id, k) ferner in Zeit- und Skalierungs-Richtungen fortgepflanzt. Suche findet in [Offset^scale(Id, k – 3), Offset^scale(Id, k + 3)] für sieben ausgewählte Einzelbilder statt, um den Raumschnitt zu akkumulieren, und Suche findet in [scale – 0,2, scale + 0,2] für drei Skalierungen statt, um robuste Ergebnisse zu erlangen, die unterschiedlichen Skalierungen entsprechen. Dann ist der optimale Offset Offset(Id, k) gefunden, der den maximalen akkumulierten Stimmwichtungswert in den Schnittkuben dieser 3·7 oder 21 Offsets aufweist. Dieser Fortpflanzungsschritt glättet die Lücken unter Offsets und entfernt gleichzeitig abrupte/fehlerhafte Offsets.
Jedoch kann wegen zufälliger Störungen der reale Registrierungsoffset sich in den Nachbarkuben des abgeschätzten optimalen Offsets befinden. Darüber hinaus bringen bewegungslose Trajektorien etwas Verzerrung in den abgeschätzten Offset, weil die Intervalle von Offset_x ^min und Offset_x ^max (oder Intervalle von Offset_y ^min und Offset_y ^max) sehr klein sind, um zu Nachbarkuben stimmgewichtet zu werden. Die Verzerrung in Multi-Skalierungs-Fällen findet auch aufgrund von Rauschstörungen und diskreten Skalierungsparametern statt. In verschiedenen Ausführungsformen ist der optimale Offsetkubus in x-y-Richtungen leicht zu seinen Nachbarkuben ausgeweitet, falls die Wertungen dieser Kuben einen simplen Schwellwert überschreiten, und eine Abschätzung des fortgepflanzten und zusammengeführten optimalen Offsets erfolgt in der endgültigen Videokopieerkennungs-Phase.
Block 406 beinhaltet Identifizieren eines Abfragevideoeinzelbildes als eine Videokopie zum Teil basierend auf dem optimalen Offset. Die identifizierte Videokopie ist eine Sequenz von Videoeinzelbildern aus der Datenbank mit Orts-SURF-Trajektorienmerkmalen, die Einzelbildern in der Abfrage ähnlich sind, und jedes der Videoeinzelbilder aus der Datenbank weist einen ähnlichen Offset(t, x, y) wie das des Abfragevideos auf. Darüber hinaus kann ein Zeitoffset bereitgestellt sein, der Zeitsegmente eines Videos identifiziert, die potenziell kopiert sind.
Verschiedene Ausführungsformen können Kopien von Standbildern erkennen. Bei Bildkopieerkennung gibt es keine Trajektorien- und Bewegungsinformationen in der Zeitrichtung und dementsprechend keine Betrachtung von Zeitoffset. Jedoch werden Raum-x-y- und Skalierungsoffset in ähnlicher Art und Weise wie jene der Videokopieerkennung betrachtet. Beispielsweise werden bei Bildkopieerkennung die interessierenden SURF-Punkte extrahiert und indiziert. Der stimmwichtungsbasierte Ansatz, der in Bezug auf die Videokopieerkennung beschrieben wurde, kann verwendet werden, um den optimalen Offset(x, y, Skalierung) zu finden, um Bildkopien zu erkennen.
5 stellt ein einfaches Beispiel zur Stimmwichtung des optimalen Offsets im Falle einer eindimensionalen Bin gemäß einer Ausführungsform dar. Die x-Achse ist durch vier potenzielle Offsets adaptiv in sieben Bins (Kuben) geteilt. In diesem Beispiel ist der Bereich der x-Achse x¹min bis x⁴max. In diesem Beispiel repräsentiert jeder Kubus einen Bereich von x Offsets. Beispielsweise repräsentiert Kubus 1 eine erste Bin, die Offsets zwischen x¹min und x²min abdeckt. Bins für andere Offsets sind Zeit- und y-Offset (nicht abgebildet).
In diesem Beispiel ist, angenommen, dass die Sim_mn jedes potenziellen Offsets eins ist, der beste Offset cube4 [x⁴min, x¹max], und die maximale Stimmwichtungswertung ist vier. Durch Vergleichen dieser optimalen Offsets Offset^scale(Id, k) in unterschiedlichen Skalierungen wird der optimale Raum-Zeit-Skalierungs-Registrierungsparameter Offset(Id, k) mit der maximalen Stimmwichtungswertung in allen Skalierungen abgeschätzt.
6 bildet ein Beispiel von Erkennung von Ortsmerkmalen von mehreren Abfragevideoeinzelbildern gemäß einer Ausführungsform ab. Die Kreise in den Abfragevideoeinzelbildern repräsentieren interessierende Punkte. Die Rechtecke in den Einzelbildern der Datenbank von Video repräsentieren Begrenzungskuben in den (t, x, y)-Dimensionen. Ein Kubus aus 5 repräsentiert eine einzelne Dimension (d. h. t, x oder y). Um Skalierungstransformationsparameter abzuschätzen, wird die Raum-Zeit-Registrierung im 3D-(x, y, t)-Stimmwichtungsraum für jeden diskreten Skalierungswert separat angewandt (scale_x = scale_y [0,6, 0,8, 1,0, 1,2, 1,4]), und die Erkennungsergebnisse werden kombiniert.
In diesem Beispiel erfolgt eine Ermittlung, ob Ortsmerkmale aus Abfrageeinzelbildern zu Zeiten 50, 70 und 90 in Einzelbildern in einer Videodatenbank erscheinen. Das Abfrageeinzelbild zur Zeit 50 beinhaltet Ortsmerkmal A-D. Ein Einzelbild zur Zeit 50 aus der Videodatenbank beinhaltet Ortsmerkmale A und D. Dementsprechend werden zwei Stimmen (d. h. eine Stimme für jedes Ortsmerkmal) Einzelbild 50 aus der Videodatenbank zugemessen. Der (t, x, y)-Offset ist (0, 0, 0), weil die Ortsmerkmale A und D zur selben Zeit und in im Wesentlichen ähnlichen Positionen erscheinen.
Das Abfrageeinzelbild zur Zeit 70 beinhaltet Ortsmerkmale F-I. Das Einzelbild zur Zeit 120 aus der Videodatenbank beinhaltet Ortsmerkmale F-I. Dementsprechend werden Einzelbild 120 aus der Videodatenbank vier Stimmen zugemessen. Der (t, x, y)-Offset ist (50 Einzelbilder, 100 Pixel, 120 Pixel), weil die Ortsmerkmale F-I 50 Einzelbilder später und nach unten und nach rechts verschoben erscheinen.
Das Abfrageeinzelbild zur Zeit 90 beinhaltet Ortsmerkmale K-M. Das Einzelbild zur Zeit 140 aus der Videodatenbank beinhaltet Ortsmerkmale K-M. Dementsprechend werden Einzelbild 140 aus der Videodatenbank drei Stimmen zugemessen. Der (t, x, y)-Offset ist (50 Einzelbilder, 100 Pixel, 120 Pixel), weil die Ortsmerkmale K-M 50 Einzelbilder später und nach unten und nach rechts verschoben erscheinen.
Das Abfrageeinzelbild zur Zeit 50 beinhaltet Ortsmerkmal D. Das Einzelbild zur Zeit 160 aus der Videodatenbank beinhaltet Ortsmerkmal D. Dementsprechend wird Einzelbild 160 aus der Videodatenbank eine Stimme zugemessen. Der (t, x, y)-Offset ist (110 Einzelbilder, –50 Pixel, –20 Pixel), weil das Ortsmerkmal D 110 Einzelbilder später und nach oben und nach links verschoben erscheint.
Einzelbilder 100, 120 und 140 aus der Videodatenbank weisen ähnlichen Offset (t, x, y) auf. Anders ausgedrückt, passen, unter Bezug auf das Schema nach 5, Offsets aus Einzelbildern 100, 120 und 140 in denselben Kubus. Der optimale Offset ist der Offset, der mehreren Einzelbildern zugeordnet ist. Einzelbilder mit ähnlichem Offset werden in einen stetigen Videoclip zusammengeführt.
Um die Leistung verschiedener Ausführungsformen zu beurteilen, werden umfangreiche Experimente mit 200 Stunden MPEG-1-Videos durchgeführt, die nach dem Zufallsprinzip dem Videodatensatz von INA (dem französischen Institut National de 1'Audiovisuel) und TRECVID2007 entnommen sind. Die Videodatenbank wird in zwei Teile geteilt: die Referenzdatenbank und die Nicht-Referenzdatenbank. Die Referenzdatenbank ist gleich 70 Stunden von 100 Videos. Die Nicht-Referenzdatenbank ist gleich 130 Stunden von 150 Videos.
Zwei Experimente wurden durchgeführt, um die Systemleistung zu beurteilen. Betrieben auf einem Pentium IV 2.0 GHz mit 1 G RAM weist die Referenzvideodatenbank 1.465.532 SURF-Trajektorien-Einträge auf, die durch LSH offline indiziert sind. Das Online-Videokopieerkennungs-Modul extrahiert höchstens M = 100 SURF-Punkte in jedem geprüften Einzelbild des Abfragevideos. Der Raum-Zeit-Skalierungs-Offset wird alle p = 20 Einzelbilder berechnet. Für jeden Abfrage-SURF-Punkt werden etwa 150 ms benötigt, um N = 20 Kandidatentrajektorien durch LSH zu finden. Die Raum-Zeit-Skalierungs-Registrierung kostet etwa 130 ms, um den optimalen Offset in 7 Skalierungsparametern abzuschätzen.

Im Experiment 1 wurde die Videokopieerkennungs-Leistung für unterschiedliche Transformationen jeweils auf das SURF-Merkmal und das Harris-Merkmal verglichen. Zwanzig Abfragevideoclips wurden nach dem Zufallsprinzip einfach aus der Referenzdatenbank extrahiert, und die Länge jedes Videoclips ist gleich 1000 Einzelbildern. Dann wird jeder Videoclip durch unterschiedliche Transformationen transformiert, um das Abfragevideo zu erstellen, z. B. Verschiebung, Vergrößerungsansicht. Tabelle 1 bildet einen Vergleich des Videokopieerkennungs-Ansatzes für unterschiedliche Transformationen jeweils auf das SURF-Merkmal und das Harris-Merkmal ab. Tabelle I

Transfor-mationen	Anzahl Abfragevideos/Gesamtzahl Einzelbilder in Abfragevideo	Aus Referenzdatenbank erkannte Abfragevideos/aus Abfragevideo durch Harris-Technik erkannte Einzelbilder	Aus Referenzdatenbank erkannte Abfragevideos/aus Abfragevideo durch SURF-Technik erkannte Einzelbilder
Verschiebung	20/20.000	20/10.080	20/14.460
Cropping	20/20.000	20/8.240	20/13.640
Vergrößern	20/20.000	14/4.240	20/14.280
Verkleinern	20/20.000	15/2.820	20/12.820
Abfilmen	20/20.000	9/1.580	20/12.400

In Tabelle 1 kann man beobachten, dass SURF-Merkmal Harris-Merkmal um etwa 25–50% bei Vergrößerungs-Verkleinerungs- und Abfilmtransfarmationen übertrifft. Dies darüber hinaus, obgleich SURF-Merkmal bei Verschiebungs- und Croppingtransformationen Harris ähnliche Leistung aufweist. Darüber hinaus kann Verwendung des SURF-Merkmals etwa 21% bis 27% mehr kopierte Einzelbilder als Harris-Merkmale entdecken.
Um komplexere Daten in der Praxis zu testen, wird der SURF-Merkmals-basierte Raum-Zeit-Skalierungs-Registrierungsansatz mit dem Harris-Merkmals-basierten Videokopieerkennungsansatz verglichen, der in J. Law-Tos Artikel beschrieben ist. Die Abfragevideoclips bestehen aus 15 transformierten Referenzvideos und 15 Nicht-Referenzvideos, die sich zu 100 Minuten (150.000 Einzelbildern) summieren. Die Referenzvideos werden durch unterschiedliche Transformationen mit unterschiedlichen Parametern gegenüber Experiment 1 transformiert.
7 bildet Grenzwertoptimierungskurven (Receive operation characteristic, ROC-Kurven) ab, die Systemleistung beschreiben. Man kann beobachten, dass verschiedene Ausführungsformen viel mehr leisten als der Harris-Merkmals-basierte Ansatz in J. Law-Tos Artikel. Wenn die Rate falscher positiver Einzelbilder 10% ist, ist die Rate wahrer positiver Einzelbilder des Harris-Ansatzes 68%, während Verfahren verschiedener Ausführungsformen eine Rate von 90% wahrer positiver Einzelbilder erreichen können. Im Bericht des Artikels von J. Law-To ist die Rate wahrer positiver Einzelbilder 82%, wenn die Rate falscher positiver Einzelbilder 10% ist. Jedoch erwähnt J. Law-Tos Artikel auch, dass die Skalierungstransformation auf 0,95–1,05 begrenzt ist. Die höhere Leistung verschiedener Ausführungsformen tragt zu robustem SURF-Merkmal und effizienter Raum-Zeit-Skalierungs-Registrierung bei. Darüber hinaus ist Fortpflanzung und Zusammenführung ebenfalls sehr nützlich, um die erkannten Videoclips so lange wie möglich fortzupflanzen und abrupte und fehlerhafte Offsets zu glätten/zu entfernen.
Die hierin beschriebenen Grafik- und/oder Videoverarbeitungstechniken können in verschiedenen Hardwarearchitekturen implementiert sein. Beispielsweise kann Grafik- und/oder Videofunktionalität innerhalb eines Chipsatzes integriert sein. Alternativ kann ein diskreter Grafik- und/oder Videoprozessor verwendet werden. Als noch eine andere Ausführungsform können die Grafik- und/oder Videofunktionen durch einen Mehrzweckprozessor, unter anderem einen Mehrkemprozessor, implementiert sein. In einer weiteren Ausführungsform können die Funktionen in einem Unterhaltungs- und Haushaltselektronikgerät implementiert sein.
Ausführungsformen der vorliegenden Erfindung können als irgendeines oder eine Kombination von Folgendem implementiert sein: einem oder mehreren Mikrochips oder integrierten Schaltungen, die mithilfe einer Hauptplatine miteinander verbunden sind, festverdrahteter Logik, Software, die durch eine Speichervorrichtung gespeichert ist und durch einen Mikroprozessor ausgeführt wird, Firmware, einem anwendungsspezifischen integrierten Schaltkreis (Application Specific Integrated Circuit, ASIC) und/oder einer feldprogrammierbaren Gatteranordnung (FPGA). Der Begriff „Logik” kann als Beispiel Software oder Hardware und/oder Kombinationen von Software und Hardware beinhalten.
Ausführungsformen der vorliegenden Erfindung können beispielsweise als Computerprogrammprodukt bereitgestellt sein, das ein oder mehrere maschinenlesbare Medien beinhalten kann, die maschinenausführbare Befehle darauf gespeichert aufweisen, die, wenn sie durch eine oder mehrere Maschinen wie z. B. einen Computer, ein Netzwerk von Computer oder andere elektronische Geräte ausgeführt werden, zur Folge haben können, dass die eine oder mehreren Maschinen Operationen gemäß Ausführungsformen der vorliegenden Erfindung durchführen. Ein maschinenlesbares Medium kann, ohne jedoch darauf beschränkt zu sein, Floppydisketten, optische Disks, CD-ROMs (Compact Disc-Read Only Memories, CD-Lese-Speicher) und magneto-optische Disks, ROMs (Read Only Memories, Lese-Speicher), RAMs (Random Access Memories, Schreib-Lese-Speicher), EPROMs (Erasable Programmable Read Only Memories, löschbaren programmierbarer Lese-Speicher), EEPROMs (Electrically Erasable Programmable Read Only Memories, elektrisch löschbaren programmierbarer Lese-Speicher), magnetische oder optische Karten, Flash-Speicher oder andere Art von Medien/maschinenlesbarem Medium beinhalten, das zum Speichern von maschinenausführbaren Befehlen geeignet ist.
Die Zeichnungen und die vorhergehende Beschreibung geben Beispiele der vorliegenden Erfindung. Obgleich als eine Anzahl disparater funktionaler Objekte abgebildet, wird der Fachmann verstehen, dass ein oder mehrere derartige Elemente gut zu einzelnen funktionalen Elementen kombiniert werden können. Alternativ können gewisse Elemente in mehrere funktionale Elemente aufgeteilt werden. Elemente aus einer Ausführungsform können einer anderen Ausführungsform hinzugefügt werden. Beispielsweise können Reihenfolgen von Prozessen, die hierin beschrieben sind, geändert werden und sind nicht auf die hierin beschriebene Art und Weise beschränkt. Darüber hinaus brauchen die Aktionen jedwedes Flussdiagramms nicht in der gezeigten Reihenfolge implementiert sein, noch müssen alle Handlungen notwendigerweise vorgenommen werden. Auch können jene Handlungen, die nicht von anderen Handlungen abhängig sind, parallel mit den anderen Handlungen vorgenommen werden. Der Umfang der vorliegenden Erfindung ist jedoch auf keinen Fall durch diese besonderen Beispiele beschränkt. Zahlreiche Varianten, ob ausdrücklich in der Spezifikation angegeben oder nicht, wie z. B. Unterschiede in Struktur, Maß und Materialverwendung, sind möglich. Der Umfang der Erfindung ist mindestens so umfassend wie durch die folgenden Ansprüche gegeben.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

P. Duygulu, M. Chen und A. Hauptmann, „Comparison and Combination of Two Novel Commercial Detection Methods”, Proc. CIVR'04, (Juli 2004) [0003]
J. Yuan, L. Duan, Q. Tian und C. Xu, „Fast and Robust Short Video Clip Search Using an Index Structure”, Proc. ACM MIR'04 (2004) [0004]
J. Law-To, O. Buisson, V. Gouet-Brunet, Nozha Boujemaa, „Robust Voting Algorithm Based an Labels of Behavior for Video Copy Detection”, International Conference an Multimedia (2006) [0005]
IEEE 802.3 [0019]
802.11 [0019]
802.16 [0019]
H. Bay, T. Tuytelaars, L. Gool, „SURF: Speeded Up Robust Features”, ECCV, Mai 2006 [0027]
A. Andoni, P. Indyk, E2LSH0.1 User manual, Juni 2000 [0033]

Claims

Computerimplementiertes Verfahren, das Folgendes umfasst: Extrahieren von beschleunigten robusten Merkmalen (speeded up robust Features, SURF) aus einem Referenzvideo; Speichern von SURF-Punkten aus dem Referenzvideo; Ermitteln von Trajektorien als Raum-Zeit-Merkmale des Referenzvideos basierend auf den SURF-Punkten; Speichern der Trajektorien und Erstellen von Indizes für die Trajektorien.
Verfahren nach Anspruch 1, wobei extrahiertes SURF Ortsmerkmale des Referenzvideos umfasst.
Verfahren nach Anspruch 1, wobei Erstellen von Indizes Anwenden von Local Sensitive Hashing (LSH) umfasst, um einen Index von Trajektorien durch einen Mittelwert von SURF-Merkmalen zu ermitteln.
Verfahren nach Anspruch 1, das ferner umfasst: Ermitteln von SURF eines Abfragevideos; Ermitteln eines Offsets, der Abfragevideoeinzelbildern zugeordnet ist; und Ermitteln, ob die Abfragevideoeinzelbilder einen Videokopieclip umfassen, basierend zum Teil auf dem ermittelten Offset.
Verfahren nach Anspruch 4, wobei das Ermitteln eines Offsets adaptives Teilen eines Raum-Zeit-Offsetraumes in Kuben umfasst, wobei jeder Kubus einem möglichen Raum-Zeit-Offsetparameter von Zeit-, x- oder y-Offset entspricht.
Verfahren nach Anspruch 5, wobei das Ermitteln eines Offsets ferner umfasst: Ermitteln von Trajektorien von Referenzvideoeinzelbildern, die den Abfragevideoeinzelbildern zugeordnet sind; und für jede Skalierung eines Raum-Zeit-Offsets Akkumulieren einer Anzahl zwischen den Abfragevideoeinzelbildern und den Referenzvideoeinzelbildern ähnlicher Ortsmerkmale.
Verfahren nach Anspruch 4, wobei Ermitteln, ob die Abfragevideoeinzelbilder einen Videokopieclip umfassen, umfasst: Identifizieren von Referenzvideoeinzelbildern mit Ortsmerkmalen, die dem extrahierten SURF aus dem Abfragevideo ähnlich sind und wobei Ortsmerkmale jedes Videoeinzelbildes der identifizierten Referenzvideoeinzelbilder einen ähnlichen Zeit- und Raumoffset vom SURF des Abfragevideos aufweisen.
Vorrichtung, die Folgendes umfasst: eine Merkmalsdatenbank; eine Trajektorienmerkmalsdatenbank und eine Trajektorienerzeugungslogik, um: beschleunigte robuste Merkmale (SURF) aus einem Referenzvideo zu extrahieren; die Merkmale in der Merkmalsdatenbank zu speichern, SURF-Punkte zu verfolgen, um Trajektorien der Raum-Zeit-Merkmale des Referenzvideos zu bilden, die Trajektorie in der Trajektorienmerkmalsdatenbank zu speichern und Indizes für die Trajektorienmerkmalsdatenbank zu erstellen.
Vorrichtung nach Anspruch 8, wobei die Trajektorienerzeugungslogik dazu dient, um: eine Abfrageanfrage nach Merkmalen eines Abfragevideos zu empfangen und Trajektorien bereitzustellen, die den Merkmalen des Abfragevideos zugeordnet sind.
Vorrichtung nach Anspruch 8, wobei extrahiertes SURF Ortsmerkmale des Referenzvideos umfasst.
Vorrichtung nach Anspruch 8, wobei, um Indizes für die Trajektorienmerkmalsdatenbank zu erstellen, die Trajektorienerzeugungslogik dazu dient, Local Sensitive Hashing (LSH) anzuwenden, um Trajektorien durch den Mittelwert von SURF-Merkmalen zu indizieren.
Vorrichtung nach Anspruch 8, die ferner umfasst: ein Kopieerkennungs-Modul, um: SURF aus einem Abfragevideo zu extrahieren, Trajektorien zu empfangen, die den Merkmalen des Abfragevideos von der Trajektorienerzeugungslogik zugeordnet sind, und Referenzvideoeinzelbilder aus der Merkmalsdatenbank zu identifizieren, wobei die Referenzvideoeinzelbilder Ortsmerkmale aufweisen, die dem extrahierten SURF aus dem Abfragevideo ähnlich sind und wobei Ortsmerkmale jedes Videoeinzelbildes der identifizierten Referenzvideoeinzelbilder einen ähnlichen Zeit- und Raumoffset vom SURF aus dem Abfragevideo aufweisen.
Vorrichtung nach Anspruch 12, wobei, um Referenzvideoeinzelbilder zu identifizieren, das Kopieerkennungs-Modul dazu dient, um: einen Offset zu ermitteln, der Abfragevideoeinzelbildern zugeordnet ist; und zu ermitteln, ob die Abfragevideoeinzelbilder einen Videokopieclip umfassen, basierend zum Teil auf dem ermittelten Offset.
Vorrichtung nach Anspruch 13, wobei, um einen Offset zu ermitteln, das Kopieerkennungs-Modul dazu dient, Raum-Zeit-Offsetraum adaptiv in Kuben zu teilen, wobei jeder Kubus einem möglichen. Raum-Zeit-Offsetparameter von Zeit-, x- oder y-Offset entspricht.
Vorrichtung nach Anspruch 14, wobei, um einen Offset zu ermitteln, das Kopieerkennungs-Modul auch dazu dient, um: Trajektorien von Referenzvideoeinzelbildern zu ermitteln, die den Abfragevideoeinzelbildern zugeordnet sind; und für jede Skalierung eines Raum-Zeit-Offsets eine Anzahl zwischen den Abfragevideoeinzelbildern und den Referenzvideoeinzelbildern ähnlicher Ortsmerkmale zu akkumulieren.
Vorrichtung nach Anspruch 13, wobei, um zu ermitteln, ob die Abfragevideoeinzelbilder einen Videokopieclip umfassen, das Kopieerkennungs-Modul dazu dient, um: Referenzvideoeinzelbilder mit Ortsmerkmalen zu identifizieren, die dem extrahierten SURF aus dem Abfragevideo ähnlich sind und wobei Ortsmerkmale jedes Videoeinzelbildes der identifizierten Referenzvideoeinzelbilder einen ähnlichen Zeit- und Raumoffset vom SURF des Abfragevideos aufweisen.
System, das Folgendes umfasst: eine Anzeigevorrichtung und ein Computersystem, das kommunikativ mit der Anzeigevorrichtung gekoppelt ist, wobei das Computersystem umfasst: eine Merkmalsdatenbank; eine Trajektorienmerkmalsdatenbank und eine Trajektorienerzeugungslogik, um: beschleunigte robuste Merkmale (SURF) aus einem Referenzvideo zu extrahieren; die SURF in der Merkmalsdatenbank zu speichern, Trajektorien der Raum-Zeit-Merkmale des Referenzvideos basierend auf den SURF-Punkten zu ermitteln und die Trajektorie in der Trajektorienmerkmalsdatenbank zu speichern; und Kopieerkennungslogik um: zu ermitteln, ob Einzelbilder eines Abfragevideos Kopien sind, und Videoeinzelbilder aus dem Referenzvideo bereitzustellen, die Einzelbildern des Abfragevideos ähnlich sind.
System nach Anspruch 17, wobei extrahiertes SURF Ortsmerkmale des Referenzvideos umfasst.
System nach Anspruch 17, wobei die Trajektorienerzeugungslogik auch dazu dient, Indizes für Trajektorien, die extrahierten SURF zugeordnet sind, durch Anwenden von Local Sensitive Hashing (LSH) zu erstellen, um Trajektorien durch einen Mittelwert der extrahierten SURF zu indizieren.
System nach Anspruch 17, wobei, um zu ermitteln, oh Einzelbilder eines Abfragevideos Kopien sind, die Kopieerkennungslogik dazu dient, um: Referenzvideoeinzelbilder mit Ortsmerkmalen zu identifizieren, die dem extrahierten SURF aus dem Abfragevideo ähnlich sind und wobei Ortsmerkmale jedes Videoeinzelbildes der identifizierten Referenzvideoeinzelbilder einen ähnlichen Zeit- und Raumoffset vom SURF des Abfragevideos aufweisen.
Verfahren, das Folgendes umfasst: Extrahieren von beschleunigten robusten Merkmalen (SURF) aus einem Referenzbild; Ermitteln von Trajektorien der Raum-Zeit-Merkmale des Referenzvideos basierend auf den SURF-Punkten; Speichern der Trajektorien und Erstellen von Indizes für die gespeicherten Trajektorien.
Verfahren nach Anspruch 21, wobei extrahiertes SURF Ortsmerkmale des Referenzbildes umfasst.
Verfahren nach Anspruch 21, wobei Erstellen von Indizes Anwenden von Local Sensitive Hashing (LSH) umfasst, um Trajektorien durch den Mittelwert von SURF-Merkmalen zu indizieren.
Verfahren nach Anspruch 21, wobei Ermitteln, ob ein Abfragebild eine Kopie ist, umfasst: Identifizieren von Referenzbildern mit Ortsmerkmalen, die dem extrahierten SURF aus dem Abfragebild ähnlich sind und wobei Ortsmerkmale jedes Referenzvideobildes einen ähnlichen Raumoffset vom SURF des Abfragebildes aufweisen.