DE112009005002T5 - Techniken zum Erkennen von Videokopien - Google Patents

Techniken zum Erkennen von Videokopien Download PDF

Info

Publication number
DE112009005002T5
DE112009005002T5 DE112009005002T DE112009005002T DE112009005002T5 DE 112009005002 T5 DE112009005002 T5 DE 112009005002T5 DE 112009005002 T DE112009005002 T DE 112009005002T DE 112009005002 T DE112009005002 T DE 112009005002T DE 112009005002 T5 DE112009005002 T5 DE 112009005002T5
Authority
DE
Germany
Prior art keywords
video
surf
offset
query
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE112009005002T
Other languages
English (en)
Inventor
Tao Wang
Jianguo Li
Wenlong Li
Yimin Zhang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of DE112009005002T5 publication Critical patent/DE112009005002T5/de
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7864Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using domain-transform features, e.g. DCT or wavelet transform coefficients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Social Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Image Processing (AREA)

Abstract

Einige Ausführungsformen beinhalten einen Videokopieerkennungsansatz, der auf SURF-Trajektorienerzeugung (Speeded-up robust Features, beschleunigte robuste Merkmale), Local-Sensitive-Hash-(LSH-)-Indizierung und Raum-Zeit-Skalierungs-Registrierung basiert. Als Erstes werden Trajektorien interessierender Punkte durch SURF extrahiert. Als Nächstes wird ein effizienter stimmwichtungsbasierter Raum-Zeit-Skalierungs-Registrierungsansatz angewandt, um die optimalen Transformationsparameter (Verschiebung und Skalierung) abzuschätzen und die Videokopieerkennungs-Endergebnisse durch Fortpflanzungen von Videosegmenten in sowohl Raum-Zeit- als auch Skalierungs-Richtungen zu erzielen. Um die Erkennungsgeschwindigeit zu beschleunigen, wird Local-Sensitive-Hash-(LSH-)-Indizierung verwendet, um Trajektorien für schnelle Abfragen von Kandidatentrajektorien zu indizieren.

Description

  • Feld
  • Der hierin beschriebene Gegenstand betrifft im Allgemeinen Techniken zum Erkennen von Video- oder Bildkopien.
  • Verwandte Technik
  • Mit der Zunahme in der Verfügbarkeit von Internet und privaten Videos wird Videokopieerkennung ein aktives Forschungsgebiet in Urheberrechtskontrolle, Business-Intelligence und Werbeüberwachung. Eine Videokopie ist ein Segment von Video, das aus einem anderen Video abgeleitet ist, üblicherweise mittels verschiedener Transformationen wie z. B. Addition, Löschung und Modifikation durch Verschieben, Cropping, Beleuchtung, Kontrast, Abfilmen (z. B. Ändern des Breiten-Höhen-Verhältnisses zwischen 16:9 und 4:3) und/oder Umkodierung. 1 zeigt einige Beispiele von Videokopien. Insbesondere bildet 1 in der oberen Zeile von links nach rechts Originalvideo, vergrößerte/verkleinerte Version und beschnittenes Video und in der unteren Zeile von links nach rechts verschobenes Video, Kontrastvideo und abgefilmtes und umcodiertes Video ab. Umkodierung kann Codieren des Videos mit eisern unterschiedlichen Codec oder einer unterschiedlichen Kompressionsqualität beinhalten. Weil diese Transformationen Raum-Zeit-Skalierungs-Aspekte von Video ändern, wird Videokopieerkennung bei Urheberrechtskontrolle und Video-/Bildsuche zu einem sehr herausfordernden Problem.
  • Bestehende Videokopieerkennungs-Tätigkeit kann in einzelbildbasierte und clipbasierte Verfahren kategorisiert werden. Einzelbildbasierte Ansätze nehmen an, dass ein Satz von Schlüssel-Einzelbildern eine kompakte Repräsentation des Videoinhalts ist. Bei der in P. Duygulu, M. Chen und A. Hauptmann, „Comparison and Combination of Two Novel Commercial Detection Methods", Proc. CIVR'04, (Juli 2004), beschriebenen Technik wird ein Satz visueller Merkmale (Farb-, Kanten- und SIFT-Merkmale (Scaled Invariant Feature Transform, skaleninvariante Merkmalstransformation) aus diesen Schlüssel-Einzelbildern extrahiert. Um Videokopieclips zu erkennen, ermittelt die Technik Ähnlichkeit von Videosegmenten mit diesen Schlüssel-Einzelbildern. Einzelbildbasierte Ansätze sind einfach und effizient, aber nicht genau genug, weil sie die Raum-Zeit-Informationen des Objekts (z. B. Bewegungstrajektorie) verlieren. Darüber hinaus ist es schwierig, mit einem vereinheitlichten Schlüssel-Einzelbild Auswahlschema zum Abgleichen von zwei Videosegmenten aufzuwarten.
  • Clipbasierte Verfahren versuchen, Raum-Zeit-Merkmale aus einer Sequenz von Einzelbildern zu charakterisieren. Die in J. Yuan, L. Duan, Q. Tian und C. Xu, „Fast and Robust Short Video Clip Search Using an Index Structure", Proc. ACM MIR'04 (2004), beschriebene Technik ist ein Ansatz, bei dem ein Ordinalmusterhistogramm und ein Kumulativfarbverteilungshistogramm extrahiert werden, um das Raum-Zeit-Muster der Videos zu charakterisieren. Obgleich dieser Ansatz die Zeitinformationen des Videoeinzelbilds untersucht, versagt das Globalfarbhistogrammmerkmal beim Erkennen von Videokopien mit Ortstransformationen, z. B. Cropping, Verschieben und Abfilmen.
  • Eine in J. Law-To, O. Buisson, V. Gouet-Brunet, Nozha Boujemaa, „Robust Voting Algorithm Based an Labels of Behavior for Video Copy Detection", International Conference an Multimedia (2006), beschriebene Technik versucht eine asymmetrische Technik zu verwenden, um die Merkmalspunkte beim Testen von Video gegen Raum-Zeit-Trajektorien interessierender Punkte in einer Videodatenbank abzugleichen. Dieser Ansatz kann viele Videokopietransformationen erkennen, wie z. B. Verschiebung, Licht und Kontrast. Jedoch ist das Harris-Punkt-Merkmal weder unterschieden noch skaleninvariant, und seine Raum-Zeit-Registrierung kann die skalierungsrelevanten Transformationen, z. B. Vergrößern/Verkleinern und Abfilmen, nicht erkennen.
  • KURZBESCHREIBUNG DER ZEICHNUNGEN
  • Ausfüruhrungsformen der vorliegenden Erfindung sind als Beispiel und nicht als Einschränkung in den Zeichnungen dargestellt, und wobei ähnliche Bezugszeichen sich auf ähnliche Elemente beziehen.
  • 1 zeigt einige Beispiele von Videokopien.
  • 2 stellt ein Videokopieerkennungssystem gemäß einer Ausführungsform dar.
  • 3 bildet einen beispielhaften Prozess zum Erstellen einer Datenbank von Merkmalspunkten und Trajektorien gemäß einer Ausführungsform ab.
  • 4 bildet einen beispielhaften Prozess zum Ermitteln von Videokopieren gemäß einer Ausführungsform ab.
  • 5 stellt ein Beispiel zur Stimmwichtung (Voting) des optimalen Offsets im Falle eindimensionaler Bin gemäß einer Ausführungsform dar.
  • 6 bildet ein Beispiel von Erkennung von Ortsmerkmalen von mehreren Abfragevideoeinzelbildern gemäß einer Ausführungsform ab.
  • 7 bildet Grenzwertoptimierungskurven (Receive operation characteristic, ROC-Kurven) ab, die Systemleistung beschreiben.
  • Ausführliche Beschreibung
  • In dieser gesamten Spezifikation bedeutet ein Verweis auf „eine Ausführungsform” (engl. „one embodiment” oder „an embodiment”), dass ein bestimmtes Merkmal, eine Struktur oder Charakteristik, das/die in Verbindung mit der Ausführungsform beschrieben ist, in mindestens einer Ausführungsform der vorliegenden Erfindung beinhaltet ist. Somit verweisen die Vorkommen der Redewendung „in einer Ausführungsform” an verschiedenen Stellen in dieser gesamten Spezifikation nicht notwendigerweise alle auf dieselbe Ausführungsform. Außerdem können die einzelnen Merkmale, Strukturen oder Charakteristika in einer oder mehreren Ausführungsformen kombiniert sein.
  • Verschiedene Ausführungsformen stellen einen Videokopieerkennungsansatz bereit, der auf SURF-Trajektorienerzeugung (Speeded-up robust Features, beschleunigte robuste Merkmale), Local-Sensitive-Hash-(LSH-)-Indizierung und stimmwichtungsbasierter (voting-based) Raum-Zeit-Skalierungs-Registrierung basiert.
  • Beschleunigte robuste Merkmale (Speeded up robust features, SURF) charakterisieren die Trajektorienmerkmale interessierender Punkte bei Videokopieerkennung. Verschiedene Ausführungsformen leisten viel mehr als der Harris-Merkmals-basierte Ansatz, der im Law-To-Artikel beschrieben ist. Wenn eine Rate falscher positiver Einzelbilder 10% ist, ist die Rate wahrer positiver Einzelbilder des Harris-Ansatzes 68%, während verschiedene Ausführungsformen eine Rate von 90% wahren positiven Einzelbildern erreichen können. Das SURF-Merkmal ist unterscheidungskräftiger als Harris-Punkt-Merkmale und leistet bei skalierungsrelevanten Transformationen, z. B. Vergrößern/Verkleinern und Abfilmen, verglichen mit den Ergebnissen aus dem Law-To-Artikel mehr. Darüber hinaus ist die SURF-Merkmalsextraktion etwa sechsmal schneller als SIFT, stellt aber ähnliche Geschwindigkeit wie der Harris-Punkt-Merkmals-Ansatz bereit.
  • Verwenden von Local-Sensitive-Hash-(LSH-)-Indizierung stellt schnellere Abfrage von Kandidatentrajektorien bei Videokopieerkennung bereit. Der Law-To-Artikel beschreibt Verwenden von Wahrscheinlichkeits-Ähnlichkeits-Suche statt LSH-Indizierung.
  • Durch Raum-Zeit-Skalierungs-Registrierung und Fortpflanzung und Zusammenführung von Offsetparametern werden abgeglichene Videosegmente mit der maximalen akkumulierten Registrierungswertung erkannt. Der Ansatz im Law-To-Artikel kann Skalierungstransformationen nicht gut erkennen. Durch Verwendung dieser stimmwichtungsbasierten Registrierung im diskreten Offsetparameterraum sind verschiedene Ausführungsformen in der Lage, sowohl Raum-Zeit- als auch Skalierungstransformationen zu erkennen, z. B. Cropping, Vergrößern/Verkleinern, Skalierung und Abfilmen.
  • 2 stellt ein Videokopieerkennungssystem gemäß einer Ausführungsform dar. Das Videokopieerkennungssystem beinhaltet ein Offline-Trajektorienerzeugungs-Modul 210 und ein Online-Kopieerkennungs-Modul 250. Jedwedes Computersystem mit einem Prozessor und Speicher, und das kommunikativ mit einem Netz über leitungsgebundene oder drahtlose Techniken gekoppelt ist, kann konfiguriert werden, um die Operationen von Offline-Trajektorienerzeugungs-Modul 210 und Online-Kopieerkennungs-Modul 250 auszuführen. Beispielsweise kann Abfragevideo über ein Netz zum Computersystem gesendet werden. Beispielsweise kann das Computersystem mithilfe von Techniken in Übereinstimmung mit einer Version der IEEE 802.3, 802.11 oder 802.16 mithilfe einer Leitung oder einer oder mehrerer Antennen kommunizieren. Das Computersystem kann Video mithilfe einer Anzeigevorrichtung anzeigen.
  • Offline-Trajektorienerzeugungs-Modul 210 extrahiert SURF-Punkte aus jedem Einzelbild der Videodatenbank und speichert SURF-Punkte in einer Merkmalsdatenbank 212. Offline-Trajektorienerzeugungs-Modul 210 erzeugt eine Trajektorienmerkmalsdatenbank 214, die Trajektorien interessierender Punkte beinhaltet. Offline-Trajektorienerzeugungs-Modul 210 verwendet LSH, um Merkmalspunkte in Merkmalsdatenbank 212 mit den Trajektorien in Trajektorienmerkmalsdatenbank 214 zu indizieren.
  • Online-Kopieerkennungs-Modul 250 extrahiert die SURF-Punkte aus Prüflingseinzelbildern eines Abfragevideos. Online-Kopieerkennungs-Modul 250 fragt Merkmalsdatenbank 212 mit den extrahierten SURF-Punkten ab, um Kandidatentrajektorien mit ähnlichen. Ortsmerkmalen zu identifizieren. Kandidatentrajektorien aus Trajektorienmerkmalsdatenbank 214, die den ähnlichen Merkmalspunkten entsprechen, werden mithilfe von LSH identifiziert.
  • Bei jedem Merkmalspunkt aus einem Abfragevideo verwendet Online-Kopieerkennungs-Modul 250 einen stimmwichtungsbasierten Raum-Zeit-Skalierungs-Registrierungsansatz, um einen optimalen Raum-Zeit-Skalierungs-Transformationsparameter (d. h. Offset) zwischen SURF-Punkten im Abfragevideo und Kandidatentrajektorien in Trajektorienmerkmalsdatenbank 214 abzuschätzen. Online-Kopieerkennungs-Modul 250 pflanzt die abgeglichenen Videosegmente in sowohl Raum-Zeit- als auch Skalierungs-Richtungen fort, um Videokopien zu identifizieren.
  • Stimmwichtung ist die Akkumulation im Raum-Zeit-Skalierungs-Registrierungsraum abgeschätzter interessierender Punkte. Raum-Zeit-Skalierungs-Registrierungsraum ist in Kuben geteilt, die Verschiebung in x-, y-, t- und Skalierungsparametern entsprechen. Bei gegebenen x-, y-, t- und Skalierungsparametern zählt die Zahl interessierender Punkte, die innerhalb jedes Kubus gefunden werden, als Stimmen (Votes). Der Kubus mit der höchsten Zahl stimmgewichteter (voted) interessierender Punkte wird als Kopie angesehen. Ein Beispiel des stimmwichtungsbasierten Raum-Zeit-Skalierungs-Registrierungsansatzes ist unter Bezug auf 6 beschrieben.
  • Beispielsweise werden für ein Abfragevideo Q alle P = 20 Einzelbilder M = 100 SURF-Punkte extrahiert. Für jeden SURF-Punkt m auf dem ausgewählten Einzelbild k des Abfragevideos Q wird LSH verwendet, um N = 20 nächste Trajektorien als die Kandidatentrajektorien in Trajektorienmerkmalsdatenbank 214 zu finden. In der Praxis können M, P und N als Kompromiss zwischen der Abfragegeschwindigkeit und der Genauigkeit bei Online-Kopieerkennung eingestellt werden. Jede Kandidatentrajektorie n ist durch Rmn = [Id, Tran, Simmn] beschrieben, wobei Id die Video-ID in Trajektorienmerkmalsdatenbank 214 ist, Tran das Trajektorienmerkmal ist und Simmn die Ähnlichkeit zwischen dem SURF-Punkt bei (xm, ym) und dem Smean-Merkmal der Kandidatentrajektorie ist.
  • Gemäß der zugeordneten Video-Id sind die Kandidatentrajektorien in unterschiedliche Teilsätze
    Figure 00060001
    kategorisiert. Für jedes Video Id in Trajektorienmerkmalsdatenbank 214 und das ausgewählte Abfrageeinzelbild k wird eine schnelles und effizientes Raum-Zeit-Skalierungs-Registrierungsverfahren verwendet, um den optimalen Raum-Zeit-Skalierungs-Registrierungsparameter abzuschätzen: Offset(Id, k). Nach Erhalten des optimalen Offsets(Id, k) wird der optimale Raum-Zeit-Skalierungs-Offset für potenzielle registrierte Videosegmente in sowohl Raum-Zeit- als auch Skalierungs-Richtungen fortgepflanzt, um abrupte Offsets zu entfernen und die Erkennungsendergebnisse zu erhalten.
  • Bei der Videokopieerkennung gibt es viele Arten von Transformationen. Falls das Abfragevideo Q aus derselben Quelle wie ein Video R der Datenbank kopiert ist, gibt es einen „konstanten Raum-Zeit-Skalierungs-Offset” zwischen den SURF-Punkten von Q und R. Daher ist in verschiedenen Ausführungsformen es das Ziel von Videokopieerkennung, ein Videosegment R in der Datenbank zu finden, das einen näherungsweise invariablen Offset zu Q aufweist.
  • 3 bildet einen beispielhaften Prozess zum Erstellen einer Datenbank von Merkmalspunkten und Trajektorien gemäß einer Ausführungsform ab. In einigen Ausführungsformen kann Offline-Trajektorienerzeugungs-Modul 210 Prozess 300 ausführen. Block 302 beinhaltet Extrahieren von beschleunigten robusten Merkmalen (speeded up robust Features, SURF) aus Video. Ein Beispiel für SURF ist in H. Bay, T. Tuytelaars, L. Gool, „SURF: Speeded Up Robust Features", ECCV, Mai 2006, beschrieben. In verschiedenen Ausführungsformen sind die extrahierten Merkmale Ortsmerkmale in einem Einzelbild.
  • In verschiedenen Ausführungsformen ist an jedem interessierenden Punkt das Gebiet regelmäßig in kleinere 3 mal 3 quadratische Untergebiete geteilt. Die Haar-Wavelet-Antworten dx und dy werden über jedem Untergebiet aufsummiert, und jedes Untergebiet weist einen vierdimensionalen Deskriptorvektor v = (Σdx, Σdy, Σ|dx|, Σ|dy|) auf. Daher gibt es für jeden interessierenden Punkt ein 36-dimensionales SURF-Merkmal.
  • SURF basiert auf der Abschätzung einer Hesse-Matrix, um einen Hesse-basierten Detektor aufzubauen. SURF setzt Integralbilder ein, um die Berechnungszeit zu beschleunigen. Die Geschwindigkeit der SURF-Extraktion ist etwa sechsmal schneller als SIFT und stellt Harris ähnliche Geschwindigkeit bereit. SURF-Merkmal ist robust bei Videokopietransformationen wie z. B. bei Vergrößern/Verkleinern und Abfilmen.
  • Es gibt viele Merkmale, die in Computervision und Bildwiedergewinnung verwendet werden, unter anderem globale Merkmale wie z. B. Farbhistogramm, Ordinalmerkmale und Ortsmerkmale, z. B. Harris und SIFT. Für Videokopieerkennung können globale Merkmale, wie z. B. Farbhistogrammmerkmale im gesamten Einzelbild, nicht verwendet werden, um Ortstransformationen, z. B. Cropping und Skalierungstransformation, zu erkennen. Verschiedene Ausführungsformen extrahieren Ortsmerkmale aus Video, weil Ortsmerkmale sich nicht ändern, wenn Video verschoben, beschnitten oder vergrößert/verkleinert wird.
  • Block 304 beinhaltet Erzeugen einer Trajektoriendatenbank und Erstellen von Indizes für die Trajektorien in einer Videodatenbank. Nach Extrahieren der SURF-Punkte in jedem Einzelbild der Videodatenbank werden diese SURF-Punkte verfolgt, um Trajektorien als Raum-Zeit-Merkmale des Videos zu erzeugen. Jede Trajektorie ist repräsentiert durch Tran = [xmin, xmax, ymin, ymax, tin, tout, Smean], n = 1, 2, ... N, wobei [xmin, xmax, ymin, ymax, tin, tout] den Raum-Zeit-Begrenzungkubus und Smean den Mittelwert von SURF-Merkmalen in der Trajektorie repräsentieren.
  • Für sich schnell bewegende Punkte in den x-y-Richtungen ist der Trajektorienkubus zu groß, um die räumliche Position einer Trajektorie von anderen zu unterscheiden. Daher werden in verschiedenen Ausführungsformen diese Trajektorien in einige Kurzzeitsegmente getrennt, die den Trajektorienkubus wegen ihrer kurzen Dauer in der räumlichen Position klein genug machen.
  • Für schnelle Online-Videokopieerkennung wird Local Sensitive Hashing (LSH) verwendet, um Trajektorien durch ihre Smean-Merkmale zu indizieren. Beispielsweise kann eine Abfrage nach Smean-Merkmalen gemacht werden, um Trajektorien zu indizieren. Mit LSH resultiert eine kleine Änderung im Merkmalsraum in einer proportionalen Änderung im Hashwert, d. h. die Hashfunktion ist ortsempfindlich. In verschiedenen Ausführungsformen wird exaktes euklidisches LSH (E2LSH) verwendet, um die Trajektorien zu indizieren. E2LSH ist beispielsweise in A. Andoni, P. Indyk, E2LSH0.1 User manual, Juni 2000, beschrieben.
  • 4 bildet einen beispielhaften Prozess 400 zum Ermitteln von Videokopieren gemäß einer Ausführungsform ab. In einigen Ausführungsformen kann Online-Kopieerkennungs-Modul 250 Prozess 400 ausführen. Block 402 beinhaltet Durchführen stimmwichtungsbasierter Raum-Zeit-Skalierungs-Registrierung basierend auf Trajektorien, die einem Abfragevideoeinzelbild zugeordnet sind. Die stimmwichtungsbasierte Raum Zeit-Skalierungs-Registrierung teilt den Raum-Zeit-Skalierungs-Offsetraum adaptiv in 3D-Kuben unter unterschiedlichen Skalierungen und stimmwichtet (vote) die Ähnlichkeit Simmn in entsprechende Kuben. Adaptive Teilung beinhaltet Änderung von Kubusgrößen. Jeder Kubus entspricht einem möglichen Raum-Zeit-Offsetparameter. Für ein Abfrageeinzelbild k entspricht der Kubus mit der maximalen Akkumulationswertung (d. h. der Kubus mit den meisten registrierten Trajektorien mit den interessierenden Punkten im Abfrageeinzelbild k) seinem optimalen Offsetparameter.
  • Weil es sich beim Begrenzungskubus der Kandidatentrajektorie Tran um intervallwertige Daten handelt, ist der Raum-Zeit-Skalierungsparameter Offset(Id, k) ebenfalls intervallwertig. Bei gegebenem Skalierungsparameter scale = [scalex, scaley] ist der Offsetscale mn(Id, k) zwischen der Kandidatentrajektorie n im Video Id einer Trajektoriendatenbank und dem SURF-Punkt m im ausgewählten Einzelbild k des Abfragevideos wie folgt definiert: Qffset scale / mn(Id, k) ☐ {[Offset min / x, Offset max / x], [Offset max / y, Offset max / y], [Offset in / t, Offset in / t], Simmn} = {[xmin × scalex – xm, xmax × scalex – xm], [ymin × scaley – yn, ymax × scaley – ym], [tin –k, tout – k], Sin
  • Beispielsweise ist, um allgemeine Skalierungstransformation wie z. B. Vergrößern/Verkleinern zu erkennen, scalex = scaley ∊ [0,6, 0,8, 1,0, 1,2, 1,4]. Andere Skalierungsfaktoren können verwendet werden. Weil Abfilmtransformation unterschiedliche Skalierungsparameter scalex ≠ scaley aufweist, werden die x-y-Skalierungsparameter zu [scalex = 0,9, scaley = 1,1] und [scalex = 1,1, scaley = 0,9] gesetzt.
  • Es gibt tausende potenzieller Offsets Offsetmn scale(Id, k), und der Raum-Zeit-Skalierungs-Offsetraum ist zu groß, um in Echtzeit direkt zu suchen. Ähnlich der Verwendung einer Hough-Transformation zum Stimmwichten von Parametern in diskretem Raum wird in verschiedenen Ausführungsformen ein 3-dimensionales Array verwendet, um die Ähnlichkeitswertung Simmn von Offsetmn scale(Id, k) in diskretem Raum-Zeit-Raum zu stimmwichten. Bei gegebenem Skalierungsparameter scale wird der Raum-Zeit-Suchraum {x, y, t) adaptiv in viele Kuben unterteilt, wobei jeder Kubus cubei die Basisstimmwichtungseinheit (basic voting unit) ist.
  • In einigen Ausführungsformen wird die x-Achse durch alle Startpunkte offset min / x und Endpunkte offset max / x der Kandidatentrajektorie adaptiv in viele eindimensionale Bins mit unterschiedlichen Größen geteilt. Für jede Kandidatentrajektorie Trajn wird die Ähnlichkeit Simmn akkumuliert, falls der intervallwertige Bereich Offsetmn einen Schnitt mit dem cubei aufweist. Adaptive Teiloperationen werden ebenso in der y-Achse und der t-Achse ausgeführt.
  • Basierend auf diesen Kuben maximiert der optimale Raum-Zeit-Registrierungsparameter Offsetscale(Id, k) zwischen Video Id und Abfrageeinzelbild k den akkumulierten Wert kompatibler Abfragen score(m, n, cubei) wie in der folgenden Gleichung:
    Figure 00090001
  • Block 404 beinhaltet Fortpflanzen und Zusammenführen von Offsets, die aus mehreren Einzelbildern ermittelt wurden, um einen optimalen Offsetparameter zu ermitteln. Die 6 begleitende Beschreibung beschreibt ein Beispiel des Fortpflanzens und Zusammenführens von Offsets, um einen optimalen Offsetparameter zu ermitteln. Nach Ermitteln des Raum-Zeit-Skalierungsparameters Offsetscale(Id, k) in unterschiedlichen Skalierungen erfolgt Fortpflanzen und Zusammenführen dieser Offsetscale(Id, k)-Parameter, um die endgültige Videokopieerkennung zu erreichen.
  • Nach der Kubusausdehnung in Raumrichtungen werden die Offsetkuben Offset(Id, k) ferner in Zeit- und Skalierungs-Richtungen fortgepflanzt. Suche findet in [Offsetscale(Id, k – 3), Offsetscale(Id, k + 3)] für sieben ausgewählte Einzelbilder statt, um den Raumschnitt zu akkumulieren, und Suche findet in [scale – 0,2, scale + 0,2] für drei Skalierungen statt, um robuste Ergebnisse zu erlangen, die unterschiedlichen Skalierungen entsprechen. Dann ist der optimale Offset Offset(Id, k) gefunden, der den maximalen akkumulierten Stimmwichtungswert in den Schnittkuben dieser 3·7 oder 21 Offsets aufweist. Dieser Fortpflanzungsschritt glättet die Lücken unter Offsets und entfernt gleichzeitig abrupte/fehlerhafte Offsets.
  • Jedoch kann wegen zufälliger Störungen der reale Registrierungsoffset sich in den Nachbarkuben des abgeschätzten optimalen Offsets befinden. Darüber hinaus bringen bewegungslose Trajektorien etwas Verzerrung in den abgeschätzten Offset, weil die Intervalle von Offsetx min und Offsetx max (oder Intervalle von Offsety min und Offsety max) sehr klein sind, um zu Nachbarkuben stimmgewichtet zu werden. Die Verzerrung in Multi-Skalierungs-Fällen findet auch aufgrund von Rauschstörungen und diskreten Skalierungsparametern statt. In verschiedenen Ausführungsformen ist der optimale Offsetkubus in x-y-Richtungen leicht zu seinen Nachbarkuben ausgeweitet, falls die Wertungen dieser Kuben einen simplen Schwellwert überschreiten, und eine Abschätzung des fortgepflanzten und zusammengeführten optimalen Offsets erfolgt in der endgültigen Videokopieerkennungs-Phase.
  • Block 406 beinhaltet Identifizieren eines Abfragevideoeinzelbildes als eine Videokopie zum Teil basierend auf dem optimalen Offset. Die identifizierte Videokopie ist eine Sequenz von Videoeinzelbildern aus der Datenbank mit Orts-SURF-Trajektorienmerkmalen, die Einzelbildern in der Abfrage ähnlich sind, und jedes der Videoeinzelbilder aus der Datenbank weist einen ähnlichen Offset(t, x, y) wie das des Abfragevideos auf. Darüber hinaus kann ein Zeitoffset bereitgestellt sein, der Zeitsegmente eines Videos identifiziert, die potenziell kopiert sind.
  • Verschiedene Ausführungsformen können Kopien von Standbildern erkennen. Bei Bildkopieerkennung gibt es keine Trajektorien- und Bewegungsinformationen in der Zeitrichtung und dementsprechend keine Betrachtung von Zeitoffset. Jedoch werden Raum-x-y- und Skalierungsoffset in ähnlicher Art und Weise wie jene der Videokopieerkennung betrachtet. Beispielsweise werden bei Bildkopieerkennung die interessierenden SURF-Punkte extrahiert und indiziert. Der stimmwichtungsbasierte Ansatz, der in Bezug auf die Videokopieerkennung beschrieben wurde, kann verwendet werden, um den optimalen Offset(x, y, Skalierung) zu finden, um Bildkopien zu erkennen.
  • 5 stellt ein einfaches Beispiel zur Stimmwichtung des optimalen Offsets im Falle einer eindimensionalen Bin gemäß einer Ausführungsform dar. Die x-Achse ist durch vier potenzielle Offsets adaptiv in sieben Bins (Kuben) geteilt. In diesem Beispiel ist der Bereich der x-Achse x1min bis x4max. In diesem Beispiel repräsentiert jeder Kubus einen Bereich von x Offsets. Beispielsweise repräsentiert Kubus 1 eine erste Bin, die Offsets zwischen x1min und x2min abdeckt. Bins für andere Offsets sind Zeit- und y-Offset (nicht abgebildet).
  • In diesem Beispiel ist, angenommen, dass die Simmn jedes potenziellen Offsets eins ist, der beste Offset cube4 [x4min, x1max], und die maximale Stimmwichtungswertung ist vier. Durch Vergleichen dieser optimalen Offsets Offsetscale(Id, k) in unterschiedlichen Skalierungen wird der optimale Raum-Zeit-Skalierungs-Registrierungsparameter Offset(Id, k) mit der maximalen Stimmwichtungswertung in allen Skalierungen abgeschätzt.
  • 6 bildet ein Beispiel von Erkennung von Ortsmerkmalen von mehreren Abfragevideoeinzelbildern gemäß einer Ausführungsform ab. Die Kreise in den Abfragevideoeinzelbildern repräsentieren interessierende Punkte. Die Rechtecke in den Einzelbildern der Datenbank von Video repräsentieren Begrenzungskuben in den (t, x, y)-Dimensionen. Ein Kubus aus 5 repräsentiert eine einzelne Dimension (d. h. t, x oder y). Um Skalierungstransformationsparameter abzuschätzen, wird die Raum-Zeit-Registrierung im 3D-(x, y, t)-Stimmwichtungsraum für jeden diskreten Skalierungswert separat angewandt (scalex = scaley [0,6, 0,8, 1,0, 1,2, 1,4]), und die Erkennungsergebnisse werden kombiniert.
  • In diesem Beispiel erfolgt eine Ermittlung, ob Ortsmerkmale aus Abfrageeinzelbildern zu Zeiten 50, 70 und 90 in Einzelbildern in einer Videodatenbank erscheinen. Das Abfrageeinzelbild zur Zeit 50 beinhaltet Ortsmerkmal A-D. Ein Einzelbild zur Zeit 50 aus der Videodatenbank beinhaltet Ortsmerkmale A und D. Dementsprechend werden zwei Stimmen (d. h. eine Stimme für jedes Ortsmerkmal) Einzelbild 50 aus der Videodatenbank zugemessen. Der (t, x, y)-Offset ist (0, 0, 0), weil die Ortsmerkmale A und D zur selben Zeit und in im Wesentlichen ähnlichen Positionen erscheinen.
  • Das Abfrageeinzelbild zur Zeit 70 beinhaltet Ortsmerkmale F-I. Das Einzelbild zur Zeit 120 aus der Videodatenbank beinhaltet Ortsmerkmale F-I. Dementsprechend werden Einzelbild 120 aus der Videodatenbank vier Stimmen zugemessen. Der (t, x, y)-Offset ist (50 Einzelbilder, 100 Pixel, 120 Pixel), weil die Ortsmerkmale F-I 50 Einzelbilder später und nach unten und nach rechts verschoben erscheinen.
  • Das Abfrageeinzelbild zur Zeit 90 beinhaltet Ortsmerkmale K-M. Das Einzelbild zur Zeit 140 aus der Videodatenbank beinhaltet Ortsmerkmale K-M. Dementsprechend werden Einzelbild 140 aus der Videodatenbank drei Stimmen zugemessen. Der (t, x, y)-Offset ist (50 Einzelbilder, 100 Pixel, 120 Pixel), weil die Ortsmerkmale K-M 50 Einzelbilder später und nach unten und nach rechts verschoben erscheinen.
  • Das Abfrageeinzelbild zur Zeit 50 beinhaltet Ortsmerkmal D. Das Einzelbild zur Zeit 160 aus der Videodatenbank beinhaltet Ortsmerkmal D. Dementsprechend wird Einzelbild 160 aus der Videodatenbank eine Stimme zugemessen. Der (t, x, y)-Offset ist (110 Einzelbilder, –50 Pixel, –20 Pixel), weil das Ortsmerkmal D 110 Einzelbilder später und nach oben und nach links verschoben erscheint.
  • Einzelbilder 100, 120 und 140 aus der Videodatenbank weisen ähnlichen Offset (t, x, y) auf. Anders ausgedrückt, passen, unter Bezug auf das Schema nach 5, Offsets aus Einzelbildern 100, 120 und 140 in denselben Kubus. Der optimale Offset ist der Offset, der mehreren Einzelbildern zugeordnet ist. Einzelbilder mit ähnlichem Offset werden in einen stetigen Videoclip zusammengeführt.
  • Um die Leistung verschiedener Ausführungsformen zu beurteilen, werden umfangreiche Experimente mit 200 Stunden MPEG-1-Videos durchgeführt, die nach dem Zufallsprinzip dem Videodatensatz von INA (dem französischen Institut National de 1'Audiovisuel) und TRECVID2007 entnommen sind. Die Videodatenbank wird in zwei Teile geteilt: die Referenzdatenbank und die Nicht-Referenzdatenbank. Die Referenzdatenbank ist gleich 70 Stunden von 100 Videos. Die Nicht-Referenzdatenbank ist gleich 130 Stunden von 150 Videos.
  • Zwei Experimente wurden durchgeführt, um die Systemleistung zu beurteilen. Betrieben auf einem Pentium IV 2.0 GHz mit 1 G RAM weist die Referenzvideodatenbank 1.465.532 SURF-Trajektorien-Einträge auf, die durch LSH offline indiziert sind. Das Online-Videokopieerkennungs-Modul extrahiert höchstens M = 100 SURF-Punkte in jedem geprüften Einzelbild des Abfragevideos. Der Raum-Zeit-Skalierungs-Offset wird alle p = 20 Einzelbilder berechnet. Für jeden Abfrage-SURF-Punkt werden etwa 150 ms benötigt, um N = 20 Kandidatentrajektorien durch LSH zu finden. Die Raum-Zeit-Skalierungs-Registrierung kostet etwa 130 ms, um den optimalen Offset in 7 Skalierungsparametern abzuschätzen.
  • Im Experiment 1 wurde die Videokopieerkennungs-Leistung für unterschiedliche Transformationen jeweils auf das SURF-Merkmal und das Harris-Merkmal verglichen. Zwanzig Abfragevideoclips wurden nach dem Zufallsprinzip einfach aus der Referenzdatenbank extrahiert, und die Länge jedes Videoclips ist gleich 1000 Einzelbildern. Dann wird jeder Videoclip durch unterschiedliche Transformationen transformiert, um das Abfragevideo zu erstellen, z. B. Verschiebung, Vergrößerungsansicht. Tabelle 1 bildet einen Vergleich des Videokopieerkennungs-Ansatzes für unterschiedliche Transformationen jeweils auf das SURF-Merkmal und das Harris-Merkmal ab. Tabelle I
    Transfor-mationen Anzahl Abfragevideos/Gesamtzahl Einzelbilder in Abfragevideo Aus Referenzdatenbank erkannte Abfragevideos/aus Abfragevideo durch Harris-Technik erkannte Einzelbilder Aus Referenzdatenbank erkannte Abfragevideos/aus Abfragevideo durch SURF-Technik erkannte Einzelbilder
    Verschiebung 20/20.000 20/10.080 20/14.460
    Cropping 20/20.000 20/8.240 20/13.640
    Vergrößern 20/20.000 14/4.240 20/14.280
    Verkleinern 20/20.000 15/2.820 20/12.820
    Abfilmen 20/20.000 9/1.580 20/12.400
  • In Tabelle 1 kann man beobachten, dass SURF-Merkmal Harris-Merkmal um etwa 25–50% bei Vergrößerungs-Verkleinerungs- und Abfilmtransfarmationen übertrifft. Dies darüber hinaus, obgleich SURF-Merkmal bei Verschiebungs- und Croppingtransformationen Harris ähnliche Leistung aufweist. Darüber hinaus kann Verwendung des SURF-Merkmals etwa 21% bis 27% mehr kopierte Einzelbilder als Harris-Merkmale entdecken.
  • Um komplexere Daten in der Praxis zu testen, wird der SURF-Merkmals-basierte Raum-Zeit-Skalierungs-Registrierungsansatz mit dem Harris-Merkmals-basierten Videokopieerkennungsansatz verglichen, der in J. Law-Tos Artikel beschrieben ist. Die Abfragevideoclips bestehen aus 15 transformierten Referenzvideos und 15 Nicht-Referenzvideos, die sich zu 100 Minuten (150.000 Einzelbildern) summieren. Die Referenzvideos werden durch unterschiedliche Transformationen mit unterschiedlichen Parametern gegenüber Experiment 1 transformiert.
  • 7 bildet Grenzwertoptimierungskurven (Receive operation characteristic, ROC-Kurven) ab, die Systemleistung beschreiben. Man kann beobachten, dass verschiedene Ausführungsformen viel mehr leisten als der Harris-Merkmals-basierte Ansatz in J. Law-Tos Artikel. Wenn die Rate falscher positiver Einzelbilder 10% ist, ist die Rate wahrer positiver Einzelbilder des Harris-Ansatzes 68%, während Verfahren verschiedener Ausführungsformen eine Rate von 90% wahrer positiver Einzelbilder erreichen können. Im Bericht des Artikels von J. Law-To ist die Rate wahrer positiver Einzelbilder 82%, wenn die Rate falscher positiver Einzelbilder 10% ist. Jedoch erwähnt J. Law-Tos Artikel auch, dass die Skalierungstransformation auf 0,95–1,05 begrenzt ist. Die höhere Leistung verschiedener Ausführungsformen tragt zu robustem SURF-Merkmal und effizienter Raum-Zeit-Skalierungs-Registrierung bei. Darüber hinaus ist Fortpflanzung und Zusammenführung ebenfalls sehr nützlich, um die erkannten Videoclips so lange wie möglich fortzupflanzen und abrupte und fehlerhafte Offsets zu glätten/zu entfernen.
  • Die hierin beschriebenen Grafik- und/oder Videoverarbeitungstechniken können in verschiedenen Hardwarearchitekturen implementiert sein. Beispielsweise kann Grafik- und/oder Videofunktionalität innerhalb eines Chipsatzes integriert sein. Alternativ kann ein diskreter Grafik- und/oder Videoprozessor verwendet werden. Als noch eine andere Ausführungsform können die Grafik- und/oder Videofunktionen durch einen Mehrzweckprozessor, unter anderem einen Mehrkemprozessor, implementiert sein. In einer weiteren Ausführungsform können die Funktionen in einem Unterhaltungs- und Haushaltselektronikgerät implementiert sein.
  • Ausführungsformen der vorliegenden Erfindung können als irgendeines oder eine Kombination von Folgendem implementiert sein: einem oder mehreren Mikrochips oder integrierten Schaltungen, die mithilfe einer Hauptplatine miteinander verbunden sind, festverdrahteter Logik, Software, die durch eine Speichervorrichtung gespeichert ist und durch einen Mikroprozessor ausgeführt wird, Firmware, einem anwendungsspezifischen integrierten Schaltkreis (Application Specific Integrated Circuit, ASIC) und/oder einer feldprogrammierbaren Gatteranordnung (FPGA). Der Begriff „Logik” kann als Beispiel Software oder Hardware und/oder Kombinationen von Software und Hardware beinhalten.
  • Ausführungsformen der vorliegenden Erfindung können beispielsweise als Computerprogrammprodukt bereitgestellt sein, das ein oder mehrere maschinenlesbare Medien beinhalten kann, die maschinenausführbare Befehle darauf gespeichert aufweisen, die, wenn sie durch eine oder mehrere Maschinen wie z. B. einen Computer, ein Netzwerk von Computer oder andere elektronische Geräte ausgeführt werden, zur Folge haben können, dass die eine oder mehreren Maschinen Operationen gemäß Ausführungsformen der vorliegenden Erfindung durchführen. Ein maschinenlesbares Medium kann, ohne jedoch darauf beschränkt zu sein, Floppydisketten, optische Disks, CD-ROMs (Compact Disc-Read Only Memories, CD-Lese-Speicher) und magneto-optische Disks, ROMs (Read Only Memories, Lese-Speicher), RAMs (Random Access Memories, Schreib-Lese-Speicher), EPROMs (Erasable Programmable Read Only Memories, löschbaren programmierbarer Lese-Speicher), EEPROMs (Electrically Erasable Programmable Read Only Memories, elektrisch löschbaren programmierbarer Lese-Speicher), magnetische oder optische Karten, Flash-Speicher oder andere Art von Medien/maschinenlesbarem Medium beinhalten, das zum Speichern von maschinenausführbaren Befehlen geeignet ist.
  • Die Zeichnungen und die vorhergehende Beschreibung geben Beispiele der vorliegenden Erfindung. Obgleich als eine Anzahl disparater funktionaler Objekte abgebildet, wird der Fachmann verstehen, dass ein oder mehrere derartige Elemente gut zu einzelnen funktionalen Elementen kombiniert werden können. Alternativ können gewisse Elemente in mehrere funktionale Elemente aufgeteilt werden. Elemente aus einer Ausführungsform können einer anderen Ausführungsform hinzugefügt werden. Beispielsweise können Reihenfolgen von Prozessen, die hierin beschrieben sind, geändert werden und sind nicht auf die hierin beschriebene Art und Weise beschränkt. Darüber hinaus brauchen die Aktionen jedwedes Flussdiagramms nicht in der gezeigten Reihenfolge implementiert sein, noch müssen alle Handlungen notwendigerweise vorgenommen werden. Auch können jene Handlungen, die nicht von anderen Handlungen abhängig sind, parallel mit den anderen Handlungen vorgenommen werden. Der Umfang der vorliegenden Erfindung ist jedoch auf keinen Fall durch diese besonderen Beispiele beschränkt. Zahlreiche Varianten, ob ausdrücklich in der Spezifikation angegeben oder nicht, wie z. B. Unterschiede in Struktur, Maß und Materialverwendung, sind möglich. Der Umfang der Erfindung ist mindestens so umfassend wie durch die folgenden Ansprüche gegeben.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • P. Duygulu, M. Chen und A. Hauptmann, „Comparison and Combination of Two Novel Commercial Detection Methods”, Proc. CIVR'04, (Juli 2004) [0003]
    • J. Yuan, L. Duan, Q. Tian und C. Xu, „Fast and Robust Short Video Clip Search Using an Index Structure”, Proc. ACM MIR'04 (2004) [0004]
    • J. Law-To, O. Buisson, V. Gouet-Brunet, Nozha Boujemaa, „Robust Voting Algorithm Based an Labels of Behavior for Video Copy Detection”, International Conference an Multimedia (2006) [0005]
    • IEEE 802.3 [0019]
    • 802.11 [0019]
    • 802.16 [0019]
    • H. Bay, T. Tuytelaars, L. Gool, „SURF: Speeded Up Robust Features”, ECCV, Mai 2006 [0027]
    • A. Andoni, P. Indyk, E2LSH0.1 User manual, Juni 2000 [0033]

Claims (24)

  1. Computerimplementiertes Verfahren, das Folgendes umfasst: Extrahieren von beschleunigten robusten Merkmalen (speeded up robust Features, SURF) aus einem Referenzvideo; Speichern von SURF-Punkten aus dem Referenzvideo; Ermitteln von Trajektorien als Raum-Zeit-Merkmale des Referenzvideos basierend auf den SURF-Punkten; Speichern der Trajektorien und Erstellen von Indizes für die Trajektorien.
  2. Verfahren nach Anspruch 1, wobei extrahiertes SURF Ortsmerkmale des Referenzvideos umfasst.
  3. Verfahren nach Anspruch 1, wobei Erstellen von Indizes Anwenden von Local Sensitive Hashing (LSH) umfasst, um einen Index von Trajektorien durch einen Mittelwert von SURF-Merkmalen zu ermitteln.
  4. Verfahren nach Anspruch 1, das ferner umfasst: Ermitteln von SURF eines Abfragevideos; Ermitteln eines Offsets, der Abfragevideoeinzelbildern zugeordnet ist; und Ermitteln, ob die Abfragevideoeinzelbilder einen Videokopieclip umfassen, basierend zum Teil auf dem ermittelten Offset.
  5. Verfahren nach Anspruch 4, wobei das Ermitteln eines Offsets adaptives Teilen eines Raum-Zeit-Offsetraumes in Kuben umfasst, wobei jeder Kubus einem möglichen Raum-Zeit-Offsetparameter von Zeit-, x- oder y-Offset entspricht.
  6. Verfahren nach Anspruch 5, wobei das Ermitteln eines Offsets ferner umfasst: Ermitteln von Trajektorien von Referenzvideoeinzelbildern, die den Abfragevideoeinzelbildern zugeordnet sind; und für jede Skalierung eines Raum-Zeit-Offsets Akkumulieren einer Anzahl zwischen den Abfragevideoeinzelbildern und den Referenzvideoeinzelbildern ähnlicher Ortsmerkmale.
  7. Verfahren nach Anspruch 4, wobei Ermitteln, ob die Abfragevideoeinzelbilder einen Videokopieclip umfassen, umfasst: Identifizieren von Referenzvideoeinzelbildern mit Ortsmerkmalen, die dem extrahierten SURF aus dem Abfragevideo ähnlich sind und wobei Ortsmerkmale jedes Videoeinzelbildes der identifizierten Referenzvideoeinzelbilder einen ähnlichen Zeit- und Raumoffset vom SURF des Abfragevideos aufweisen.
  8. Vorrichtung, die Folgendes umfasst: eine Merkmalsdatenbank; eine Trajektorienmerkmalsdatenbank und eine Trajektorienerzeugungslogik, um: beschleunigte robuste Merkmale (SURF) aus einem Referenzvideo zu extrahieren; die Merkmale in der Merkmalsdatenbank zu speichern, SURF-Punkte zu verfolgen, um Trajektorien der Raum-Zeit-Merkmale des Referenzvideos zu bilden, die Trajektorie in der Trajektorienmerkmalsdatenbank zu speichern und Indizes für die Trajektorienmerkmalsdatenbank zu erstellen.
  9. Vorrichtung nach Anspruch 8, wobei die Trajektorienerzeugungslogik dazu dient, um: eine Abfrageanfrage nach Merkmalen eines Abfragevideos zu empfangen und Trajektorien bereitzustellen, die den Merkmalen des Abfragevideos zugeordnet sind.
  10. Vorrichtung nach Anspruch 8, wobei extrahiertes SURF Ortsmerkmale des Referenzvideos umfasst.
  11. Vorrichtung nach Anspruch 8, wobei, um Indizes für die Trajektorienmerkmalsdatenbank zu erstellen, die Trajektorienerzeugungslogik dazu dient, Local Sensitive Hashing (LSH) anzuwenden, um Trajektorien durch den Mittelwert von SURF-Merkmalen zu indizieren.
  12. Vorrichtung nach Anspruch 8, die ferner umfasst: ein Kopieerkennungs-Modul, um: SURF aus einem Abfragevideo zu extrahieren, Trajektorien zu empfangen, die den Merkmalen des Abfragevideos von der Trajektorienerzeugungslogik zugeordnet sind, und Referenzvideoeinzelbilder aus der Merkmalsdatenbank zu identifizieren, wobei die Referenzvideoeinzelbilder Ortsmerkmale aufweisen, die dem extrahierten SURF aus dem Abfragevideo ähnlich sind und wobei Ortsmerkmale jedes Videoeinzelbildes der identifizierten Referenzvideoeinzelbilder einen ähnlichen Zeit- und Raumoffset vom SURF aus dem Abfragevideo aufweisen.
  13. Vorrichtung nach Anspruch 12, wobei, um Referenzvideoeinzelbilder zu identifizieren, das Kopieerkennungs-Modul dazu dient, um: einen Offset zu ermitteln, der Abfragevideoeinzelbildern zugeordnet ist; und zu ermitteln, ob die Abfragevideoeinzelbilder einen Videokopieclip umfassen, basierend zum Teil auf dem ermittelten Offset.
  14. Vorrichtung nach Anspruch 13, wobei, um einen Offset zu ermitteln, das Kopieerkennungs-Modul dazu dient, Raum-Zeit-Offsetraum adaptiv in Kuben zu teilen, wobei jeder Kubus einem möglichen. Raum-Zeit-Offsetparameter von Zeit-, x- oder y-Offset entspricht.
  15. Vorrichtung nach Anspruch 14, wobei, um einen Offset zu ermitteln, das Kopieerkennungs-Modul auch dazu dient, um: Trajektorien von Referenzvideoeinzelbildern zu ermitteln, die den Abfragevideoeinzelbildern zugeordnet sind; und für jede Skalierung eines Raum-Zeit-Offsets eine Anzahl zwischen den Abfragevideoeinzelbildern und den Referenzvideoeinzelbildern ähnlicher Ortsmerkmale zu akkumulieren.
  16. Vorrichtung nach Anspruch 13, wobei, um zu ermitteln, ob die Abfragevideoeinzelbilder einen Videokopieclip umfassen, das Kopieerkennungs-Modul dazu dient, um: Referenzvideoeinzelbilder mit Ortsmerkmalen zu identifizieren, die dem extrahierten SURF aus dem Abfragevideo ähnlich sind und wobei Ortsmerkmale jedes Videoeinzelbildes der identifizierten Referenzvideoeinzelbilder einen ähnlichen Zeit- und Raumoffset vom SURF des Abfragevideos aufweisen.
  17. System, das Folgendes umfasst: eine Anzeigevorrichtung und ein Computersystem, das kommunikativ mit der Anzeigevorrichtung gekoppelt ist, wobei das Computersystem umfasst: eine Merkmalsdatenbank; eine Trajektorienmerkmalsdatenbank und eine Trajektorienerzeugungslogik, um: beschleunigte robuste Merkmale (SURF) aus einem Referenzvideo zu extrahieren; die SURF in der Merkmalsdatenbank zu speichern, Trajektorien der Raum-Zeit-Merkmale des Referenzvideos basierend auf den SURF-Punkten zu ermitteln und die Trajektorie in der Trajektorienmerkmalsdatenbank zu speichern; und Kopieerkennungslogik um: zu ermitteln, ob Einzelbilder eines Abfragevideos Kopien sind, und Videoeinzelbilder aus dem Referenzvideo bereitzustellen, die Einzelbildern des Abfragevideos ähnlich sind.
  18. System nach Anspruch 17, wobei extrahiertes SURF Ortsmerkmale des Referenzvideos umfasst.
  19. System nach Anspruch 17, wobei die Trajektorienerzeugungslogik auch dazu dient, Indizes für Trajektorien, die extrahierten SURF zugeordnet sind, durch Anwenden von Local Sensitive Hashing (LSH) zu erstellen, um Trajektorien durch einen Mittelwert der extrahierten SURF zu indizieren.
  20. System nach Anspruch 17, wobei, um zu ermitteln, oh Einzelbilder eines Abfragevideos Kopien sind, die Kopieerkennungslogik dazu dient, um: Referenzvideoeinzelbilder mit Ortsmerkmalen zu identifizieren, die dem extrahierten SURF aus dem Abfragevideo ähnlich sind und wobei Ortsmerkmale jedes Videoeinzelbildes der identifizierten Referenzvideoeinzelbilder einen ähnlichen Zeit- und Raumoffset vom SURF des Abfragevideos aufweisen.
  21. Verfahren, das Folgendes umfasst: Extrahieren von beschleunigten robusten Merkmalen (SURF) aus einem Referenzbild; Ermitteln von Trajektorien der Raum-Zeit-Merkmale des Referenzvideos basierend auf den SURF-Punkten; Speichern der Trajektorien und Erstellen von Indizes für die gespeicherten Trajektorien.
  22. Verfahren nach Anspruch 21, wobei extrahiertes SURF Ortsmerkmale des Referenzbildes umfasst.
  23. Verfahren nach Anspruch 21, wobei Erstellen von Indizes Anwenden von Local Sensitive Hashing (LSH) umfasst, um Trajektorien durch den Mittelwert von SURF-Merkmalen zu indizieren.
  24. Verfahren nach Anspruch 21, wobei Ermitteln, ob ein Abfragebild eine Kopie ist, umfasst: Identifizieren von Referenzbildern mit Ortsmerkmalen, die dem extrahierten SURF aus dem Abfragebild ähnlich sind und wobei Ortsmerkmale jedes Referenzvideobildes einen ähnlichen Raumoffset vom SURF des Abfragebildes aufweisen.
DE112009005002T 2009-06-26 2009-06-26 Techniken zum Erkennen von Videokopien Withdrawn DE112009005002T5 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2009/000716 WO2010148539A1 (en) 2009-06-26 2009-06-26 Techniques to detect video copies

Publications (1)

Publication Number Publication Date
DE112009005002T5 true DE112009005002T5 (de) 2012-10-25

Family

ID=43385853

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112009005002T Withdrawn DE112009005002T5 (de) 2009-06-26 2009-06-26 Techniken zum Erkennen von Videokopien

Country Status (7)

Country Link
US (1) US20120131010A1 (de)
JP (1) JP2012531130A (de)
DE (1) DE112009005002T5 (de)
FI (1) FI126909B (de)
GB (1) GB2483572A (de)
RU (1) RU2505859C2 (de)
WO (1) WO2010148539A1 (de)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9495451B2 (en) * 2013-01-07 2016-11-15 Gracenote, Inc. Identifying video content via fingerprint matching
US9323840B2 (en) 2013-01-07 2016-04-26 Gracenote, Inc. Video fingerprinting
WO2014175481A1 (ko) * 2013-04-24 2014-10-30 전자부품연구원 서술자 생성 방법 및 이를 구현하는 하드웨어 장치
US20140373036A1 (en) * 2013-06-14 2014-12-18 Telefonaktiebolaget L M Ericsson (Publ) Hybrid video recognition system based on audio and subtitle data
CN103747254A (zh) * 2014-01-27 2014-04-23 深圳大学 一种基于时域感知哈希的视频篡改检测方法和装置
CN104715057A (zh) * 2015-03-30 2015-06-17 江南大学 一种基于可变步长关键帧提取的网络视频拷贝检索方法
CN105183396A (zh) * 2015-09-22 2015-12-23 厦门雅迅网络股份有限公司 一种增强车载dvr录像数据可回溯性的存储方法
CN105631434B (zh) * 2016-01-18 2018-12-28 天津大学 一种对基于鲁棒哈希函数的内容识别进行建模的方法
US10778707B1 (en) * 2016-05-12 2020-09-15 Amazon Technologies, Inc. Outlier detection for streaming data using locality sensitive hashing
US10997459B2 (en) * 2019-05-23 2021-05-04 Webkontrol, Inc. Video content indexing and searching

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0520366A (ja) * 1991-05-08 1993-01-29 Nippon Telegr & Teleph Corp <Ntt> 動画像照合方法
US6587574B1 (en) * 1999-01-28 2003-07-01 Koninklijke Philips Electronics N.V. System and method for representing trajectories of moving objects for content-based indexing and retrieval of visual animated data
JP3330348B2 (ja) * 1999-05-25 2002-09-30 日本電信電話株式会社 映像検索方法及び装置並びに映像検索プログラムを記録した記録媒体
WO2001013642A1 (en) * 1999-08-12 2001-02-22 Sarnoff Corporation Watermarking data streams at multiple distribution stages
JP4359085B2 (ja) * 2003-06-30 2009-11-04 日本放送協会 コンテンツ特徴量抽出装置
CA2627267C (en) * 2004-11-30 2013-10-15 The University Court Of The University Of St Andrews System, method & computer program product for video fingerprinting
CN100440255C (zh) * 2006-07-20 2008-12-03 中山大学 一种鲁棒的图像区域复制篡改检测方法
JP4883649B2 (ja) * 2006-08-31 2012-02-22 公立大学法人大阪府立大学 画像認識方法、画像認識装置および画像認識プログラム
AU2008240091A1 (en) * 2007-04-13 2008-10-23 Ipharro Media, Gmbh Video detection system and methods
EP2147392A1 (de) * 2007-05-08 2010-01-27 Eidgenössische Technische Zürich Verfahren und system zum informationsabruf auf bildbasis
JP4505760B2 (ja) * 2007-10-24 2010-07-21 ソニー株式会社 情報処理装置および方法、プログラム、並びに、記録媒体
US9177209B2 (en) * 2007-12-17 2015-11-03 Sinoeast Concept Limited Temporal segment based extraction and robust matching of video fingerprints
CN100587715C (zh) * 2008-06-21 2010-02-03 华中科技大学 一种基于内容的鲁棒图像拷贝检测方法

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
802.11
802.16
A. Andoni, P. Indyk, E2LSH0.1 User manual, Juni 2000
H. Bay, T. Tuytelaars, L. Gool, "SURF: Speeded Up Robust Features", ECCV, Mai 2006
IEEE 802.3
J. Law-To, O. Buisson, V. Gouet-Brunet, Nozha Boujemaa, "Robust Voting Algorithm Based an Labels of Behavior for Video Copy Detection", International Conference an Multimedia (2006)
J. Yuan, L. Duan, Q. Tian und C. Xu, "Fast and Robust Short Video Clip Search Using an Index Structure", Proc. ACM MIR'04 (2004)
P. Duygulu, M. Chen und A. Hauptmann, "Comparison and Combination of Two Novel Commercial Detection Methods", Proc. CIVR'04, (Juli 2004)

Also Published As

Publication number Publication date
US20120131010A1 (en) 2012-05-24
RU2505859C2 (ru) 2014-01-27
FI126909B (fi) 2017-07-31
FI20116319L (fi) 2011-12-23
WO2010148539A1 (en) 2010-12-29
GB201118809D0 (en) 2011-12-14
RU2011153258A (ru) 2013-07-20
GB2483572A (en) 2012-03-14
JP2012531130A (ja) 2012-12-06

Similar Documents

Publication Publication Date Title
DE112009005002T5 (de) Techniken zum Erkennen von Videokopien
Gllavata et al. Text detection in images based on unsupervised classification of high-frequency wavelet coefficients
DE10195927B4 (de) Verallgemeinerte Textlokalisation in Bildern
Pal et al. Video segmentation using minimum ratio similarity measurement
Liu et al. D-unet: a dual-encoder u-net for image splicing forgery detection and localization
Wu et al. Salient region detection improved by principle component analysis and boundary information
Ghai et al. Comparative analysis of multi-scale wavelet decomposition and k-means clustering based text extraction
Li et al. Marlow: A joint multiplanar autoregressive and low-rank approach for image completion
Zeeshan et al. A newly developed ground truth dataset for visual saliency in videos
Mancas Relative influence of bottom-up and top-down attention
Yang et al. Weibull statistical modeling for textured image retrieval using nonsubsampled contourlet transform
Chen et al. Contourlet-1.3 texture image retrieval system
Harding et al. Visual saliency from image features with application to compression
Sun et al. Robust video fingerprinting scheme based on contourlet hidden Markov tree model
Chen et al. A novel multiscale edge detection approach based on nonsubsampled contourlet transform and edge tracking
Dhar et al. Interval type-2 fuzzy set and human vision based multi-scale geometric analysis for text-graphics segmentation
Ren et al. Striped-texture image segmentation with application to multimedia security
Gopalan et al. Statistical modeling for the detection, localization and extraction of text from heterogeneous textual images using combined feature scheme
Zhu et al. Detecting text in natural scene images with conditional clustering and convolution neural network
Huang Automatic video superimposed text detection based on nonsubsampled contourlet transform
Mohebbian et al. Increase the efficiency of DCT method for detection of copy-move forgery in complex and smooth images
Phan et al. A skeleton-based method for multi-oriented video text detection
Na et al. Music symbol recognition by a LAG-based combination model
Polec et al. Texture feature extraction using an orthogonal transform of arbitrarily shaped image regions
Aradhya et al. An application of LBF energy in image/video frame text detection

Legal Events

Date Code Title Description
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee