DE112016002175T5 - Entitätsbasierte temporale Segmentierung von Videostreams - Google Patents

Entitätsbasierte temporale Segmentierung von Videostreams Download PDF

Info

Publication number
DE112016002175T5
DE112016002175T5 DE112016002175.5T DE112016002175T DE112016002175T5 DE 112016002175 T5 DE112016002175 T5 DE 112016002175T5 DE 112016002175 T DE112016002175 T DE 112016002175T DE 112016002175 T5 DE112016002175 T5 DE 112016002175T5
Authority
DE
Germany
Prior art keywords
entity
video
segment
sample video
temporal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112016002175.5T
Other languages
English (en)
Inventor
Min-Hsuan Tsai
Sudheendra Vijayanarasimhan
Tomas Izo
Sanketh Shetty
Balakrishnan Varadarajan
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of DE112016002175T5 publication Critical patent/DE112016002175T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Image Analysis (AREA)

Abstract

Es wird eine Lösung zum temporalen Segmentieren eines Videos basierend auf einer Analyse von Entitäten, die in den Videoframes des Videos identifiziert sind, zur Verfügung gestellt. Das Video wird in mehrere Videoframes decodiert und mehrere Videoframes werden zur Kommentierung ausgewählt. Der Kommentierungsprozess identifiziert Entitäten, die in einem Sample-Videoframe vorhanden sind, und jede identifizierte Entität hat einen Zeitstempel und einen Vertrauenswert, der die Wahrscheinlichkeit anzeigt, dass die Entität genau identifiziert ist. Für jede identifizierte Entität wird eine zeitliche Serie mit Zeitstempeln und entsprechenden Vertrauenswerten erzeugt und geglättet, um ein Kommentierungsrauschen zu reduzieren. Ein oder mehrere Segmente, die eine Entität über die Länge des Videos enthalten, werden durch Erfassen von Grenzen der Segmente in der zeitlichen Serie der Entität erhalten. Aus der individuellen temporalen Segmentierung für jede identifizierte Entität im Video wird eine gesamte temporale Segmentierung für das Video erzeugt, wo die gesamte temporale Segmentierung die Semantiken des Videos reflektiert.

Description

  • HINTERGRUND
  • Die beschriebenen Ausführungsformen betreffen allgemein eine Videoverarbeitung und insbesondere eine entitätsbasierte temporale Segmentierung von Videostreams.
  • Das gemeinsame Nutzen bzw. Teilen von Videos mit einer Vielfalt von unterschiedlichem Inhalt und codiert in unterschiedlichen Formaten durch Hostingdienste, wie beispielsweise YOUTUBE, bedeutet eine anwachsende Notwendigkeit für eine effektive Organisation, eine Indexierung und ein Management. Die meisten der existierenden Lösung für ein Browsen und Wiederauffinden von Videos basieren auf Einzelaufnahmen, wobei ein Videostream temporal in Einzelaufnahmen segmentiert wird. Eine Einzelaufnahme eines Videostreams ist eine ununterbrochene Sequenz von Videoframes des Videostreams, aufgenommen von einer Kamera; zwei temporal bzw. zeitlich benachbarte Segmente, die eine aufnahmebasierte temporale Segmentierung verwenden, sind visuell unterschiedlich.
  • Es existieren viele Multimediaanwendungen, die eher auf die Semantiken von Videoszenen gerichtet sind als auf temporale visuelle Unterschiede zwischen benachbarten Aufnahmen. Eine Herausforderung bei einer aufnahmebasierten temporalen Segmentierung besteht in einer Verbindung der unverarbeiteten Videodaten niedriger Ebene mit Semantikfeldern hoher Ebene eines Videostreams, z.B. einem Finden geeigneter Darstellungen für den visuellen Inhalt, der die Semantiken des Videos reflektiert. Nimmt man die zusammenhängende Aufnahme eines Flugzeugs, das in Richtung zu einer Landebahn fliegt und landet, als ein Beispiel enthält die zusammenhängende Aufnahme auf der Semantikebene zwei Szenen: eine, die das Flugzeug beschreibt, das fliegt, und die andere über das Landen des Flugzeugs. Eine aufnahmebasierte Segmentierung kann nicht zwischen den zwei Szenen unterscheiden, wenn der Übergang zwischen den zwei Szenen glatt ist.
  • ZUSAMMENFASSUNG
  • Beschriebene Verfahren, Systeme und Computerprogrammprodukte stellen Lösungen zum temporalen Segmentieren eines Videos basierend auf einer Analyse von Entitäten bereit, die in den Videoframes des Videos identifiziert sind.
  • Eine Ausführungsform enthält ein computerimplementiertes Verfahren zum temporalen Segmentieren eines Videos. Das Verfahren umfasst die Schritte eines Decodierens des Videos in mehrere Videoframes. Mehrere Videoframes werden für eine Kommentierung ausgewählt. Der Kommentierungsprozess identifiziert Entitäten, die in einem gesampelten bzw. abgetasteten Videoframe vorhanden sind, und jede identifizierte Entität hat einen Zeitstempel und einen Vertrauenswert, der die Wahrscheinlichkeit anzeigt, dass die Entität genau identifiziert wird. Für jede identifizierte Entität wird eine zeitliche Serie mit Zeitstempeln und entsprechenden Vertrauenswerten erzeugt und geglättet, um ein Kommentierungsrauschen zu reduzieren. Ein oder mehrere Segmente, die eine Entität über die Länge des Videos enthalten, werden durch Erfassen von Grenzen der Segmente in der zeitlichen Serie der Entität erhalten. Aus der individuellen temporalen Segmentierung für jede identifizierte Entität im Video wird eine gesamte temporale Segmentierung für das Video erzeugt, wobei die gesamte temporale Segmentierung die Semantiken des Videos reflektiert.
  • Die in der Beschreibung beschriebenen Merkmale und Vorteile sind nicht alle inbegriffen und, insbesondere, werden viele zusätzliche Merkmale und Vorteile einem Fachmann auf dem Gebiet angesichts der Zeichnungen, der Beschreibung und der Ansprüche offensichtlich werden. Darüber hinaus sollte es beachtet werden, dass die in der Beschreibung verwendete Sprache hauptsächlich zur Lesbarkeit und zu Anweisungszwecken ausgewählt worden ist und nicht ausgewählt worden sein kann, um den offenbarten Gegenstand zu skizzieren oder zu umschreiben.
  • KURZE BESCHREIBUNG DER FIGUREN
  • 1 ist ein Blockdiagramm, das eine Systemansicht eines Video-Hostingdienstes darstellt, der ein entitätsbasiertes temporales Segmentierungsmodul gemäß einer Ausführungsform hat.
  • 2 ist ein Beispiel eines Videoframes mit einem Hund, der einen Hut trägt, und einer entsprechenden Kommentierung für den Hund und den Hut.
  • 3 ist ein Blockdiagramm, das ein Segmentierungsmodul gemäß einer Ausführungsform darstellt.
  • 4 stellt ein Beispiel einer zeitlichen Serie einer identifizierten Entität in einem Video und entsprechende Vertrauenswerte der Entität zu verschiedenen zeitlichen Beispielen im Video dar.
  • 5 ist ein Beispiel eines Anwendens einer Glättungsfunktion auf eine zeitliche Serie einer identifizierten Entität in einem Video.
  • 6 ist ein Beispiel eines Erfassens von Segmentgrenzen für eine identifizierte Entität in einem Video.
  • 7A ist ein Beispiel zum Erzeugen einer gesamten Segmentierung eines Videos, das auf einer individuellen Segmentierung für identifizierte Entitäten in dem Video basiert, gemäß einer Ausführungsform.
  • 7B ist ein Beispiel entsprechend einer gesamten Segmentierung einer Videoerzeugung, die in 7A gezeigt ist, nach einem Sortieren der individuellen Segmentierung für identifizierte Entitäten.
  • 8 ist ein Ablaufdiagramm einer entitätsbasierten temporalen Segmentierung gemäß einer Ausführungsform.
  • Die Figuren zeigen verschiedene Ausführungsformen der Erfindung nur zu Darstellungszwecken, und die Erfindung ist nicht auf diese dargestellten Ausführungsformen beschränkt. Ein Fachmann auf dem Gebiet wird aus der folgenden Diskussion ohne weiteres erkennen, dass alternative Ausführungsformen der Strukturen und Verfahren, die hierin dargestellt sind, verwendet werden können, ohne von den Prinzipien der hierin beschriebenen Erfindung abzuweichen.
  • DETAILLIERTE BESCHREIBUNG
  • I. Systemübersicht
  • 1 ist ein Blockdiagramm, das eine Systemansicht eines Video-Hostingdienstes 100 mit einem entitätsbasierten temporalen Segmentierungsmodul 102 gemäß einer Ausführungsform darstellt. Mehrere Anwender/Zuschauer verwenden einen Client 110A–N, um Dienste zu verwenden, die durch den Video-Hostingdienst 100 bereitgestellt sind, wie beispielsweise ein Hochladen und Wiederauffinden von Videos von einer Videohosting-Web-Seite und empfangen die angefragten Dienste vom Video-Hostingdienst 100. Der Video-Hostingdienst 100 kommuniziert mit einem oder mehreren Clients 110A–N über ein Netzwerk 130. Der Video-Hostingdienst 100 empfängt die Video-Hostingdienst-Anfragen für Videos von Clients 110A–N, segmentiert und indexiert die Videos durch das Modul 102 für eine entitätsbasierte temporale Segmentierung und bringt die angefragten Videos zurück zu den Clients 110A–N.
  • Bei einer Ausführungsform wird ein Client 110 durch einen Anwender verwendet, um Video-Hostingdienste anzufragen. Beispielsweise verwendet ein Anwender einen Client 110, um eine Anfrage zum Indexieren oder Speichern eines hochgeladenen Videos zu senden. Der Client 110 kann irgendein Typ von Computervorrichtung sein, wie beispielsweise ein Personalcomputer (z.B. Desktop-, Notebook-, Laptop-Computer), sowie Vorrichtungen, wie beispielsweise ein Mobiltelefon, ein persönlicher digitaler Assistent, ein IP-fähiges Videoabspielgerät. Der Client 110 enthält typischerweise einen Prozessor, eine Anzeigevorrichtung (oder eine Ausgabe zu einer Anzeigevorrichtung), einen lokalen Speicher, wie beispielsweise eine Festplatte oder eine Flash-Speichervorrichtung, zu welcher der Client 110 Daten speichert, die durch den Anwender beim Durchführen von Aufgaben verwendet werden, und eine Netzwerkschnittstelle zum Koppeln mit dem Video-Hostingdienst 100 über das Netzwerk 130. Ein Client 110 hat auch ein Videoabspielgerät zum Abspielen eines Videostreams.
  • Das Netzwerk 130 ermöglicht Kommunikationen zwischen den Clients 110 und dem Video-Hostingdienst 100. Bei einer Ausführungsform ist das Netzwerk 130 das Internet und verwendet standardisierte Vernetzungskommunikationstechnologien und Protokolle, die jetzt bekannt sind oder später entwickelt werden, welche ermöglichen, dass die Clients 110 mit dem Video-Hostingdienst 100 kommunizieren.
  • Der Video-Hostingdienst 100 umfasst ein Modul 102 für eine entitätsbasierte temporale Segmentierung, einen Videoserver 104 und eine Video-Datenbank 106. Der Videoserver 104 bietet die Videos aus der Video-Datenbank 106 in Antwort auf Video-Hostingdienst-Anfragen vom Anwender an. Die Video-Datenbank 106 speichert von Anwendern hochgeladene Videos, Videos, die aus dem Internet gesammelt sind, und Videos, die durch das Modul 102 für eine entitätsbasierte temporale Segmentierung segmentiert sind. Bei einer Ausführungsform speichert die Video-Datenbank 106 eine große Videosammlung für das Modul 102 für eine entitätsbasierte temporale Segmentierung, um ein Kommentierungsmodell zu trainieren.
  • Das Modul 102 für eine entitätsbasierte temporale Segmentierung segmentiert ein eingegebenes Video in mehrere temporale semantische Segmente basierend auf einer Analyse von einer oder mehreren Entitäten, die in den Videoframes des eingegebenen Videos vorhanden sind. Eine Entität in einem Videoframe stellt einen semantisch bedeutungsvollen räumlich-zeitlichen Bereich des Videoframes dar. Beispielsweise kann ein Frame eines Videos einer Katze, die mit einem Hund spielt, einen Hund enthalten, oder eine Katze oder sowohl einen Hund als auch eine Katze, wobei der Hund und/oder die Katze die Entitäten des Videoframes sind. Zwei temporal aneinandergrenzende semantische Segmente eines eingegebenen Videos enthalten unterschiedliche Szenen in Bezug auf Semantiken der Segmente, z.B. eine Hundeszene gegenüber einer Katzenszene.
  • Bei einer Ausführungsform hat die auf einer Entität basierte temporale Segmentierung 102 ein Decodiermodul 140, ein Kommentierungsmodul 150 und ein Segmentierungsmodul 300. Das Decodiermodul 140 decodiert ein eingegebenes Video und das decodierte Video hat mehrere Videoframes. Irgendwelche Decodierschemen, die Fachleuten auf dem Gebiet bekannt sind, können durch das Decodiermodul 140 nach dem Ermessen des Implementierers verwendet werden. Bei einer Ausführungsform decodiert das Decodiermodul 140 das eingegebene Video durch Durchführen einer Inversion von jeder Stufe des entsprechenden Codierprozesses, der das eingegebene Video gemäß einem Videokompressionsstandard codiert, einschließlich einer inversen Transformation (diskreten Cosinustransformation oder Wavelet-Transformation), einer inversen Quantisierung und einer inversen Entropiecodierung der Signale des eingegebenen Videos.
  • Das Kommentierungsmodul 150 wählt mehrere Videoframes aus dem decodierten Video aus und kommentiert jeden ausgewählten Videoframe. Bei einer Ausführungsform wählt das Kommentierungsmodul 150 die Videoframes basierend auf Zeitgabeinformation aus, wie z.B. ein Auswählen eines Videoframes alle 5 Sekunden des eingegebenen Videos, oder basierend auf einer Lokalisierung, wie z.B. ein Auswählen jedes zehnten Videoframes gemäß einer Anzeigereihenfolge der decodierten Videoframes. Um einen ausgewählten Videoframe zu kommentieren, identifiziert das Kommentierungsmodul 150 die Entitäten in dem ausgewählten Videoframe und ordnet einen Vertrauenswert für jede identifizierte Entität zu. Bei einer Ausführungsform wendet das Kommentierungsmodul 150 ein trainiertes Kommentierungsmodell auf jeden Videoframe des eingegebenen Videos an und erzeugt eine Gruppe von Kommentierungsparametern, die jede identifizierte Entität beschreiben, z.B. eine Klassenaufschrift, ein Begrenzungskasten, der die identifizierte Entität enthält, und einen Vertrauenswert. Die Klassenaufschrift einer identifizierten Entität beschreibt die Entität auf eine von Menschen lesbare Weise, z.B. mit beschreibendem Text der Entität. Der Begrenzungskasten, der die identifizierte Entität enthält, definiert einen Bereich in einem Videoframe, der die identifizierte Entität enthält. Der Begrenzungskasten ist durch seine Größe und Breite und Koordinaten von einem seiner Eckenpixel definiert. Der Vertrauenswert, der mit der Entität assoziiert ist, zeigt eine Wahrscheinlichkeit an, dass die Entität genau identifiziert wird, z.B. hat der identifizierte Hund in dem Videoframe eine Wahrscheinlichkeit von 90%, dass er ein Hund ist. Für eine Entität mit einem höheren Vertrauenswert in einem Videoframe ist es wahrscheinlicher, dass sie in dem Videoframe vorhanden ist, als in einem anderen Videoframe, in welchem dieselbe Entität einen niedrigeren Vertrauenswert hat.
  • Bei einer Ausführungsform trainiert das Kommentierungsmodul 150 ein Kommentierungsmodell unter Verwendung eines Frameworks zum Trainieren von Kommentierungen, wie beispielsweise das Dis Belief-Framework, das Modelle tiefer neuronaler Netze auf eine verteilte Weise mit schnellen Iterationen unter Verwendung von in der Video-Datenbank 106 gespeicherten Videos trainiert. Beispielsweise trainiert das Kommentierungsmodul 150 das Kommentierungsmodell unter Verwendung eines asynchronen stochastischen Gradientenabstiegsverfahrens und einer Vielfalt von Optimierungsverfahren für verteilte Stapel auf Computer-Clustern mit Tausenden von Maschinen an einer Datengruppe von 16 Millionen Bildern und 21 Tausend Kategorien. Das Kommentierungsmodul 150 extrahiert visuelle Merkmale aus den Trainingsbildern, lernt die invarianten Merkmale der extrahierten visuellen Merkmale und bildet das Trainingsmodell aus dem Lernen der visuellen Merkmale. Andere Ausführungsformen des Kommentierungsmoduls 150 können andere Maschinenlerntechniken verwenden, um das Kommentierungsmodell zu trainieren.
  • 2 ist ein Beispiel eines Videoframes 810 mit einem Hund 220, der einen Hut 230 trägt, und einer entsprechenden Kommentierung für den Hund und den Hut. Das Kommentierungsmodul 150 wendet das trainierte Kommentierungsmodell auf den Videoframe 210 an. Basierend auf der Anwendung identifiziert das Kommentierungsmodul 150 zwei Entitäten im Videoframe 210: einen Hund 220 und einen Hut 230 mit einer breiten Krempe. Für jede identifizierte Entität identifiziert das Kommentierungsmodul 250 die Entität mit einer Klassenaufschrift, z.B. einem Hund, einem Hut, und einem Begrenzungskasten, der die identifizierte Entität enthält. Das Kommentierungsmodul 150 ordnet durch das trainierte Kommentierungsmodell auch einen Vertrauenswert (nicht gezeigt) für jede identifizierte Entität basierend auf der Analyse der mit der Entität assoziierten visuellen Merkmale zu.
  • Das Segmentierungsmodul 300 segmentiert das eingegeben Video in mehrere temporale semantische Segmente basierend auf einer Analyse von einer oder mehreren identifizierten Entitäten in den Videoframes des eingegebenen Videos. Bei einer Ausführungsform erzeugt das Segmentierungsmodul 300 eine gesamte temporale Segmentierung des eingegebenen Videos basierend auf der temporalen Segmentierung für jede identifizierte Entität des eingegebenen Videos und kombiniert die temporale Segmentierung von allen identifizierten Entitäten des eingegebenen Videos, um die gesamte temporale Segmentierung für das gesamte eingegebene Video zu erzeugen. Das Segmentierungsmodul 300 wird nachfolgend unter Bezugnahme auf die 38 weiter beschrieben.
  • II. Entitätsbasierte temporale semantische Segmentierung
  • 3 ist ein Blockdiagramm, das ein Segmentierungsmodul 300 gemäß einer Ausführungsform darstellt. Die Ausführungsform des Segmentierungsmoduls 300 in 3 enthält ein Entitätsmodul 310, ein Glättungsmodul 320, ein Segmenterfassungsmodul 330 und ein Szenensegmentierungsmodul 340. Fachleute auf dem Gebiet werden erkennen, dass andere Ausführungsformen des Segmentierungsmoduls 300 unterschiedliche und/oder andere Module als diejenigen, die hier beschrieben sind, haben können, und dass die Funktionalitäten unter den Modulen auf eine unterschiedliche Weise aufgeteilt sein können.
  • Das Entitätsmodul 310 interagiert mit dem Kommentierungsmodul 150 des Segmentierungsmoduls 150, um identifizierte Entitäten und ihre entsprechenden Vertrauenswerte zu empfangen, und erzeugt eine zeitliche Serie für jede identifizierte Entität mit entsprechenden Vertrauenswerten über die gesamte Länge des eingegebenen Videos. Bei einer Ausführungsform bezeichnet das Entitätsmodul 310 die zeitliche Serie einer identifizierten Identität als Se wobei der Parameter e die identifizierte Entität in einem Videoframe darstellt. Die zeitliche Serie Se enthält eine Serie von Paaren
    Figure DE112016002175T5_0002
    wobei sich der Parameter i auf die Framenummer bezieht, der Parameter
    Figure DE112016002175T5_0003
    der Zeitstempel des i-ten Frames ist und
    Figure DE112016002175T5_0004
    sich auf den Vertrauenswert der Entität beim Zeitstempel
    Figure DE112016002175T5_0005
    bezieht.
  • Nimmt man nun Bezug auf 4, stellt 4 ein Beispiel einer zeitlichen Serie einer identifizierten Entität in einem eingegebenen Video und entsprechende Vertrauenswerte der Entität zu verschiedenen Zeitpunkten des eingegebenen Videos dar. 4 zeigt eine zeitliche Serie 430 von einer identifizierten Entität, z.B. einen Hund in einem Video von einer Katze, die mit dem Hund spielt, über die gesamte Länge des eingegebenen Videos. Die horizontale Achse 410 stellt die Zeitgabeinformation der zeitlichen Serie 430 dar, z.B. die Länge des Videos und die Zeitstempel der Videoframes des Videos, und die vertikale Achse 420 stellt die Vertrauenswerte (z.B. 430a420h) dar, die mit der Entität zu einem jeweiligen Zeitpunkt assoziiert sind. Beispielsweise hat der Frame zu einem Zeitpunkt t1 einen Vertrauenswert 430a, der die Wahrscheinlichkeit des Frames zu dem Zeitpunkt t1 mit der identifizierten Entität in dem Videoframe darstellt.
  • Das Glättungsmodul 320 entfernt potentiell störende bzw. falsche bzw. nachgemachte bzw. unechte Segmente durch Anwenden einer Glättungsfunktion auf die zeitliche Serie für jede identifizierte Entität des eingegebenen Videos. Eine Entität in einem Videoframe eines Videos kann basierend auf unbearbeiteten visuellen Merkmalen des Videos aufgrund von Rauschen, wie z.B. eine Bewegungsunschärfe, die durch einen Kameraschwenk verursacht ist, wenn das eingegebene Video erfasst wird, falsch identifiziert werden. Somit können die Vertrauenswerte für eine identifizierte Entität über die gesamte Länge des eingegebenen Videos aufgrund geringfügiger Änderungen bezüglich temporaler Untersequenzframes stark schwanken, was zu falschen Segmenten des eingegebenen Videos führen kann.
  • Bei einer Ausführungsform verwendet das Glättungsmodul 320 ein Bewegungsfenster, um die zeitliche Serie für jede identifizierte Entität zu glätten, um eine geglättete zeitliche Serie für jede identifizierte Entität zu erzeugen. Das Bewegungsfenster ist durch eine Größe und einen Schritt definiert. Das Bewegungsfenster über einer zeitlichen Serie einer Entität wählt die Vertrauenswerte der zu glättenden Entität aus. Das Glättungsmodul 320 bildet einen Durchschnitt der Vertrauenswerte innerhalb des Bewegungsfensters, um einen durchschnittlichen Vertrauenswert zu erzeugen, der den geglätteten Vertrauenswert der Entität innerhalb des Bewegungsfensters darstellt. Das Glättungsmodul 320 bewegt das Fenster zu einem nächsten Teilbereich der zeitlichen Serie der Entität zum Glätten der Vertrauenswerte innerhalb des nächsten Teilbereichs der zeitlichen Serie.
  • 5 ist ein Beispiel zum Anwenden einer Glättungsfunktion auf eine zeitliche Serie einer identifizierten Entität in einem Video. Die unbearbeitete zeitliche Serie für die identifizierte Entität ist durch die glatte und kontinuierliche Kurve 530 dargestellt. Die Glättungsfunktion ist eine Durchschnittsbildungsfunktion, die einen Durchschnitt der Vertrauenswerte innerhalb des Bewegungsfensters 540 bildet, das durch seine Größe und seinen Schritt definiert ist. Die geglättete zeitliche Serie für die Entität ist durch die Kurve 550 dargestellt, die das Kommentierungsrauschen in den Videoframes des eingegebenen Videos entfernt.
  • Das Segmenterfassungsmodul 330 erfasst Segmente für jede identifizierte Entität in dem eingegebenen Video. Bei einer Ausführungsform erfasst das Segmenterfassungsmodul 330 Kanten bzw. Ränder in einem Videoframe durch Erfassen von Grenzen für Segmente, die eine identifizierte Entität in der zeitlichen Serie der identifizierten Entität erhalten. Das Segmenterfassungsmodul 330 sortiert die Vertrauenswerte, die mit der geglätteten zeitlichen Serie einer identifizierten Entität assoziiert sind, in einer ansteigenden Reihenfolge der Zeitstempel der zeitlichen Serie, beginnend von dem ersten Zeitstempel, der durch das Segmenterfassungsmodul 330 ausgewählt ist. Das Segmenterfassungsmodul 330 erfasst ein Paar von Grenzen für ein Segment in der zeitlichen Serie basierend auf vordefinierten Schwellenwerten für einen Beginn und einen Versatz. Ein Schwellenwert für einen Beginn einer Grenze eines Segments zeigt den Start des Segments an, das die identifizierte Entität enthält; ein Versatz-Schwellenwert für die identifizierte Entität zeigt das Ende des Segments an, das die identifizierte Entität enthält. Die Videoframes zwischen den Zeitpunkten, die mit dem Start und dem Ende des Segments assoziiert sind, bilden ein Segment, das die identifizierte Entität enthält. Die identifizierte Entität in den Videoframes, die zwischen den entsprechenden Zeitpunkten erfasst sind, hat einen geglätteten Vertrauenswert, der gleich dem Schwellenwert für den Beginn oder größer als dieser ist.
  • Um die Länge eines Segments für eine identifizierte Entität zu bestimmen, bestimmt das Segmenterfassungsmodul 330, ob ein neues Segment zu starten oder ein aktuelles Segment zu beenden ist, und zwar zu einem Zeitpunkt basierend auf den Ableitungen der Vertrauenswerte, die mit zwei aufeinanderfolgenden Zeitstempeln assoziiert sind. Bei einer Ausführungsform berechnet das Segmenterfassungsmodul 330 die Ableitung als die Differenz zwischen den Vertrauenswerten bei zwei aufeinanderfolgenden Zeitstempeln wie es in Gleichung (1) folgt:
    Figure DE112016002175T5_0006
    wobei
    Figure DE112016002175T5_0007
    den Vertrauenswert beim Zeitstempel
    Figure DE112016002175T5_0008
    darstellt und
    Figure DE112016002175T5_0009
    den Vertrauenswert beim nächsten Zeitstempel
    Figure DE112016002175T5_0010
    darstellt und angenommen ist, dass die zwei Zeitstempel bezüglich der Zeit um Δt einheitlich beabstandet sind. Das Segmenterfassungsmodul 330 vergleicht die berechnete Ableitung mit einem ersten Ableitungs-Schwellenwert (der auch "Beginn-Ableitungs-Schwellenwert" genannt wird). In Reaktion darauf, dass die berechnete Ableitung den Beginn-Ableitungs-Schwellenwert übersteigt, beginnt das Segmenterfassungsmodul 330 ein neues Segment für die identifizierte Entität.
  • Gleichermaßen kann das Segmenterfassungsmodul 330 die berechnete Ableitung mit einem zweiten Ableitungs-Schwellenwert (der auch "Versatz-Ableitungs-Schwellenwert" genannt wird) vergleichen. In Reaktion darauf, dass die berechnete Ableitung kleiner als der Versatz-Ableitungs-Schwellenwert wird, beendet das Segmenterfassungsmodul 330 ein aktuelles Segment für die Entität.
  • 6 zeigt ein Beispiel zum Erfassen von Segmentgrenzen für eine identifizierte Entität, z.B. den Hund, in einem Video basierend auf einem konfigurierbaren Beginn-Ableitungs-Schwellenwert und dem Versatz-Ableitungs-Schwellenwert. Die zeitliche Serie für die Hund-Entität ist durch die Kurve 660 dargestellt. Die Entität zu einem Zeitpunkt t1+Δt hat einen entsprechenden Vertrauenswert b, der als der Beginn-Schwellenwert ausgewählt ist, der den Start 630 eines Segments für die Hund-Entität anzeigt. Die Entität zu einem Zeitpunkt tj hat einen entsprechenden Vertrauenswert c, der als der Versatz-Schwellenwert ausgewählt ist, der das Ende 650 des Segments für die Hund-Entität anzeigt. Die Videoframes zwischen den Zeitpunkten t1+Δt und tj bilden ein Segment, das die Hund-Entität enthält. Jede Hund-Entität in den Videoframes, die zwischen den Zeitpunkten t1+Δt und tj erfasst sind, hat einen Vertrauenswert gleich dem Beginn-Schwellenwert oder größer als dieser, d.h. den Vertrauenswert b.
  • Unter der Annahme, dass die Zeitpunkte bei t1 und t1+Δt aufeinanderfolgend sind, berechnet das Segmenterfassungsmodul 330 die Ableitung der Vertrauenswerte zwischen t1 und t1+Δt gemäß der obigen Gleichung (1). Das Segmenterfassungsmodul 330 vergleicht die berechnete Ableitung mit einem vorbestimmten Beginn-Ableitungs-Schwellenwert. Bei dem Beispiel in 6 übersteigt die Ableitung der Vertrauenswerte zwischen t1 und t1+Δt den vorbestimmten Beginn Ableitungs-Schwellenwert. Das Segmenterfassungsmodul 330 bestimmt, dass ein neues Segment für die Hund-Entität zu dem Zeitpunkt t1+Δt startet.
  • Gleichermaßen berechnet das Segmenterfassungsmodul 330 die Ableitung der Vertrauenswerte zwischen tj und tj+Δt gemäß der obigen Gleichung (1) und vergleicht die berechnete Ableitung mit einem vorbestimmten Versatz-Ableitungs-Schwellenwert. Bei dem Beispiel in 6 ist die Ableitung der Vertrauenswerte zwischen tj und tj+Δt unter dem vorbestimmten Versatz-Ableitungs-Schwellenwert. Das Segmenterfassungsmodul 330 bestimmt, dass das Segment für die Hund-Entität zu dem Zeitpunkt tj endet.
  • Es wird angemerkt, dass der Beginn-Ableitungs-Schwellenwert und der Versatz-Ableitungs-Schwellenwert konfigurierbar sind. Bei einer Ausführungsform wählt das Segmenterfassungsmodul 330 den Beginn-Ableitungs-Schwellenwert und den Versatz-Ableitungs-Schwellenwert basierend auf Videosegmentierungsexperimenten mit ausgewählten Videos aus, die in der Video-Datenbank 106 gespeichert sind, wobei die ausgewählten Videos bekannte Segmentierungsinformation haben und Bodendaten darstellen, um Beginn- und Versatz-Ableitungs-Schwellenwerte abzuleiten. Bei einer anderen Ausführungsform wählt das Entitäts-Segmenterfassungsmodul 330 den Beginn-Ableitungs-Schwellenwert basierend auf einem ausgewählten Perzentil von ansteigend angeordneten positiven Ableitungen von Vertrauenswerten aus; das Segmenterfassungsmodul 330 wählt den Versatz-Ableitungs-Schwellenwert basierend auf einem ausgewählten Perzentil von absteigend angeordneten negativen Ableitungen von Vertrauenswerten aus.
  • Um die Auswahl einer Beginn/Versatz-Ableitungs-Schwelle basierend auf einem Perzentil weiter darzustellen, wird angenommen, dass die angeordneten Ableitungen einer zeitlichen Serie für eine Entität die folgende ist: {–0.9, –0.6, –0.5, –0.3, –0.1, 0, 0, 0, 0, 0.1, 0.2, 0.3, 0.3, 0.5}, wobei die ansteigend angeordneten positiven Ableitungen {0, 0, 0, 0, 0.1, 0.2, 0.3, 0.3, 0.5} sind und die absteigend angeordneten negativen Ableitungen {–0.1, –0.3, –0.5, –0.6, –09} sind, das Segmenterfassungsmodul 330 ein Perzentil von 0.3 der ansteigend angeordneten positiven Ableitungen als den Beginn-Schwellenwert auswählt und ein Perzentil von 0.3 der absteigend angeordneten negativen Ableitungen als den Versatz-Schwellenwert auswählt. Das Perzentil von 0.3 der ansteigend angeordneten positiven Ableitungen stellt den Beginn-Ableitungs-Schwellenwert auf 0.2 ein, während das Perzentil von 0.3 der absteigend angeordneten negativen Ableitungen den Versatz-Ableitungs-Schwellenwert auf –0.3 einstellt. Der Beginn-Ableitungs-Schwellenwert zeigt den Start eines Segments für die Entität an und der Versatz-Ableitungs-Schwellenwert zeigt das Ende des Segments für die Entität an.
  • Bei noch einer anderen Ausführungsform berechnet das Segmenterfassungsmodul 330 eine Prozentsatzreduzierung bezüglich der Vertrauenswerte zwischen zwei aufeinanderfolgenden Zeitstempeln wie es in Gleichung (2) folgt:
    Figure DE112016002175T5_0011
  • Das Segmenterfassungsmodul 230 wählt einen Schwellenwert für die Prozentsatzreduzierung aus und vergleicht die berechnete Prozentsatz_Reduzierung mit dem ausgewählten Schwellenwert. In Reaktion darauf, dass die berechnete Prozentsatz_Reduzierung kleiner als der ausgewählte Schwellenwert wird, beendet das Segmenterfassungsmodul 230 das Segment bei dem Zeitstempel
    Figure DE112016002175T5_0012
    .
  • Um eine unnötige Segmentierung aufgrund von einigen fehlenden Videoframes in dem Segmentierungsprozess für eine Entität zu verhindern, verknüpft das Segmenterfassungsmodul 330 Segmente, die während einer Abkühlperiode temporär geschlossen sind. Die Abkühlperiode kann eine Zeitperiode, z.B. fünf Sekunden, dauern, und zwar in Abhängigkeit von einer Vielfalt von Faktoren, wie beispielsweise den Charakteristiken des Inhalts des eingegebenen Videos, verfügbaren Computerressourcen (z.B. Anzahl von Computerprozessoren). Während der Abkühlperiode wird zugelassen, dass ein Segment für eine Entität fortfährt, selbst wenn die Bedingung, die das Ende des Segments anzeigt, wie es oben beschrieben ist, erfüllt ist.
  • Ein eingegebenes Video hat oft viele Videoframes und dauert einige Zeit. Jeder der Videoframes kann mehr als eine Entität in dem Videoframe enthalten. Die Ausführungsformen, die oben beschrieben sind, offenbaren ein Erzeugen der individuellen Segmentierung für jede identifizierte Entität. Das Szenensegmentierungsmodul 340 erzeugt eine gesamte Segmentierung des gesamten eingegebenen Videos basierend auf den individuellen bzw. einzelnen Segmentierungen für jede identifizierte Entität. Die gesamte Segmentierung des eingegebenen Videos enthält eines oder mehrere temporale semantische Segmente, von welchen jedes eine Gruppe von Entitäten hat; irgendwelche zwei benachbarten Segmente haben Gruppen von unterschiedlichen Entitäten.
  • Bei einer Ausführungsform hat das Segmentierungsmodul 300 ein Szenensegmentierungsmodul 340 zum Erzeugen der gesamten Segmentierung des eingegebenen Videos. Das Szenensegmentierungsmodul 340 erhält die individuelle Segmentierung für jede identifizierte Entität des eingegebenen Videos von dem Segmenterfassungsmodul 330 und sortiert die individuelle Segmentierung der identifizierten Entitäten gemäß den Zeitstempeln, die mit der individuellen Segmentierung assoziiert sind. Aus der sortierten individuellen Segmentierung zeichnet das Szenensegmentierungsmodul 340 den Start und das Ende, die mit der individuellen Segmentierung assoziiert sind, auf und erzeugt Segmente, die unterschiedliche Entitäten enthalten.
  • Nimmt man nun Bezug auf 7, ist 7 ein Beispiel zum Erzeugen einer gesamten Segmentierung eines eingegebenen Videos basierend auf individueller Segmentierung für identifizierte Entitäten in dem eingegebenen Video gemäß einer Ausführungsform. Das Beispiel in 7 hat vier einzelne Segmente, die durch das Segmentierungserfassungsmodul 230 erzeugt sind; ein Segment zwischen dem Zeitpunkt t1 und dem Zeitpunkt t3 für die Hund-Entität; ein Segment zwischen dem Zeitpunkt t5 und dem Zeitpunkt t7 für eine andere Hund-Entität; ein Segment zwischen dem Zeitpunkt t2 und dem Zeitpunkt t4 für die Katzen-Entität; ein Segment zwischen dem Zeitpunkt t6 und dem Zeitpunkt t8 für eine weitere Katzen-Entität.
  • Das Szenensegmentierungsmodul 340 ordnet die einzelnen bzw. individuellen Segmente der Hund-Entität und der Katzen-Entität gemäß den Start- und End-Zeitstempeln an, die mit den individuellen Segmenten assoziiert sind, wie es in 7 gezeigt ist. Das Szenensegmentierungsmodul 340 zeichnet die 4 Start-Zeitstempel, d.h. Zeitstempel zu den Zeitpunkten t1, t2, t5 und t6, und die 4 End-Zeitstempel, d.h. Zeitstempel zu Zeitpunkten t3, t4, t7 und t8, auf. Das Szenen-Segmentierungsmodul 340 kombiniert die individuellen Segmente für die Hund-Entität und die Katzen-Entität gemäß den angeordneten Start- und End-Zeitstempeln, um neue Segmente für das eingegebene Video zu erzeugen. Beispielsweise zeigen angeordnete Zeitstempel der individuellen Segmente die folgenden sechs neuen Segmente an:
    • • Segment zwischen Zeitstempeln t1 und t2, das ein Nur-Hund-Segment ist;
    • • Segment zwischen Zeitstempeln t2 und t3, das ein Katze-und-Hund-Segment ist;
    • • Segment zwischen Zeitstempeln t3 und t4, das ein Nur-Katze-Segment ist;
    • • Segment zwischen Zeitstempeln t5 und t6, das ein Nur-Hund-Segment ist;
    • • Segment zwischen Zeitstempeln t6 und t7, das ein Katze-und-Hund-Segment ist;
    • • Segment zwischen Zeitstempeln t7 und t8, das ein Nur-Katze-Segment ist.
  • Das Szenensegmentierungsmodul 340 kann weiterhin die neuen Segmente sortieren und ein Segment löschen, das eine selbe Gruppe von Entitäten wie eine andere enthält. Beispielsweise sind das Segment zwischen den Zeitstempeln t1 und t2 und das Segment zwischen den Zeitstempeln t5 und t6 beide Nur-Hund-Segmente. Das Szenensegmentierungsmodul 340 kann eines dieser zwei Segmente auswählen, z.B. das Segment zwischen den Zeitstempeln t5 und t6, um ein Nur-Hund-Segment des eingegebenen Videos darzustellen. Gleichermaßen kann das Szenensegmentierungsmodul 340 die Segment-Zeitstempel t7 und t8 auswählen, um ein Nur-Katze-Segment darzustellen. Nach dem weiteren Sortieren erzeugt das Szenensegmentierungsmodul 340 die gesamte Segmentierung des eingegebenen Videos, die drei Segmente enthält. Nur-Hund-Segment, Nur-Katze-Segment und Katze-und-Hund-Segment. 7B zeigt ein Beispiel der gesamten Segmentierung des eingegebenen Videos nach einem Sortieren.
  • Bei einer weiteren Ausführungsform kann das Szenensegmentierungsmodul 340 weiterhin die neuen Segmente gemäß dem mit einer Entität assoziierten Vertrauenswert sortieren. Beispielsweise bringt das Szenensegmentierungsmodul 340 die Segmente einer identifizierten Entität in eine Rangordnung, z.B. einen Hund, basierend auf dem entsprechenden Vertrauenswert der Segmente. In Reaktion auf eine Suchanfrage an der Entität, kann das Szenensegmentierungsmodul 340 eine Untergruppe von allen Segmenten der angefragten Entität zurückbringen, von welchen jedes einen Vertrauenswert hat, der eine Schwelle übersteigt, oder alle Segmente der angefragten Entität zurückbringen.
  • III. Beispielhafte Operation einer entitätsbasierten temporalen semantischen Segmentierung
  • 8 ist ein Ablaufdiagramm einer entitätsbasierten temporalen Segmentierung gemäß einer Ausführungsform. Anfänglich decodiert 810 das Modul 102 für eine entitätsbasierte temporale Segmentierung ein eingegebenes Video. Das decodierte eingegebene Video hat mehrere Videoframes, von welchen jeder eine oder mehrere Entitäten hat. Das Modul 102 für eine entitätsbasierte temporale Segmentierung wählt einen oder mehrere Abtast- bzw. Sample-Videoframes zur Segmentierung aus 820. Beispielsweise wählt das Modul 102 für eine entitätsbasierte temporale Segmentierung einen Videoframe aus allen fünf Videoframes des eingegebenen Videos aus. Für jeden ausgewählten Videoframe wendet das Modul 102 für eine entitätsbasierte temporale Segmentierung ein trainiertes Kommentierungsmodell auf den ausgewählten Abtast-Videoframe an 830. Das Modul 102 für eine entitätsbasierte temporale Segmentierung identifiziert 840 jede Entität in jedem ausgewählten Abtast-Videoframe basierend auf der Anwendung des trainierten Kommentierungsmodells. Jede identifizierte Entität in einem ausgewählten Abtast-Videoframe hat einen Zeitstempel, eine Aufschrift der Entität und einen Vertrauenswert, um die Wahrscheinlichkeit anzuzeigen, dass die Entität genau identifiziert ist.
  • Das Modul 102 für eine entitätsbasierte temporale Segmentierung erzeugt 850 eine zeitliche Serie für jede identifizierte Entität, wobei die zeitliche Serie die identifizierte Entität zu jedem Zeitpunkt und ihren entsprechenden Vertrauenswert über die gesamte Länge des eingegebenen Videos enthält. Das Modul 102 für eine entitätsbasierte temporale Segmentierung wendet eine Glättungsfunktion auf die zeitliche Serie jeder Entität an 860, um Rauschen zu eliminieren, das während des Kommentierungsprozesses erzeugt ist.
  • Für jede identifizierte Entität erzeugt das Modul 102 für eine entitätsbasierte temporale Segmentierung individuelle Segmente, die die identifizierte Entität enthalten, über die gesamte Länge des eingegebenen Videos. Ein individuelles Segment für eine Entität hat einen Startpunkt und einen Endpunkt, die die Länge des Segments definieren. Bei einer Ausführungsform erfasst 870 das Modul 102 für eine entitätsbasierte temporale Segmentierung ein Paar von Grenzen, die ein Segment definieren, basierend auf vordefinierten Beginn- und Versatz-Schwellenwerten. Basierend auf der neuen Anordnung und einer Analyse der individuellen Segmente für identifizierte Entitäten erzeugt das Modul 102 für eine entitätsbasierte temporale Segmentierung eine gesamte Segmentierung für das gesamte eingegebene Video.
  • Die obige Beschreibung ist enthalten, um die Operation der bevorzugten Ausführungsformen darzustellen und hat nicht die Bedeutung, den Schutzumfang der Erfindung zu beschränken. Der Schutzumfang der Erfindung ist nur durch die folgenden Ansprüche zu beschränken. Aus der obigen Diskussion werden Fachleuten auf dem relevanten Gebiet viele Variationen offensichtlich werden, die noch durch den Sinngehalt und Schutzumfang der Erfindung umfasst sein würden.
  • Die Erfindung ist in speziellem Detail in Bezug auf eine mögliche Ausführungsform beschrieben worden. Fachleute auf dem Gebiet werden erkennen, dass die Erfindung in anderen Ausführungsformen ausgeführt werden kann. Zuerst ist die spezielle Namensgebung der Komponenten, eine Großschreibung von Ausdrücken, der Attribute, der Datenstrukturen oder irgendein anderer Programmier- oder Strukturaspekt nicht verpflichtend oder signifikant und die Mechanismen, die die Erfindung oder ihre Merkmale implementieren, können andere Namen, Formate oder Protokolle haben. Weiterhin kann das System über eine Kombination von Hardware und Software implementiert werden, wie es beschrieben ist, oder gänzlich in Hardwareelementen. Ebenso ist die spezielle Aufteilung einer Funktionalität zwischen den verschiedenen Systemkomponenten, die hierin beschrieben sind, lediglich beispielhaft und nicht verpflichtend; Funktionen, die durch eine einzige Systemkomponente durchgeführt sind, können stattdessen durch mehrere Komponenten durchgeführt werden und Funktionen, die durch mehrere Komponenten durchgeführt sind, können stattdessen durch eine einzige Komponente durchgeführt werden.

Claims (20)

  1. Verfahren zum temporalen Segmentieren eines Videos, wobei das Verfahren umfasst: Auswählen von Abtast- bzw. Sample-Videoframes aus einer Vielzahl von decodierten Videoframes des Videos; Kommentieren jedes der Sample-Videoframes; Segmentieren der ausgewählten Sample-Videoframes in eine Vielzahl von Segmenten für jede Entität des Videos basierend auf der Kommentierung der ausgewählten Sample-Videoframes, wobei ein Segment für eine Entität des Videos einen semantisch bedeutsamen räumlich-zeitlichen Bereich des Videos darstellt; und Erzeugen einer gesamten temporalen Segmentierung des Videos basierend auf der Vielzahl von Segmenten von jeder Entität des Videos.
  2. Verfahren nach Anspruch 1, wobei ein Kommentieren eines Sample-Videoframes umfasst: Anwenden eines trainierten Kommentierungsmodells auf den Sample-Videoframes; Identifizieren von einer oder mehreren Entitäten, die in dem Sample-Videoframe vorhanden sind, basierend auf der Anwendung des trainierten Kommentierungsmodells, wobei eine identifizierte Entität des Videos ein Objekt von Interesse in dem Sample-Videoframe darstellt; und Darstellen jeder identifizierten Entität durch eine Gruppe von Kommentierungsparametern.
  3. Verfahren nach Anspruch 2, wobei die Gruppe von Kommentierungsparametern für eine Entität in dem Sample-Videoframe eine beschreibendes Aufschrift enthält, die die Semantiken der Entität beschreibt, wobei ein Teilbereich des Sample-Videoframes die Entität enthält, und einen Vertrauenswert, der eine Wahrscheinlichkeit anzeigt, dass die Entität genau identifiziert ist.
  4. Verfahren nach Anspruch 1, wobei ein Kommentieren eines Sample-Videoframes weiterhin umfasst: Trainieren eines Kommentierungsmodells an einer Sammlung von Trainingsbildern mit einem Modell eines neuronalen Netzes.
  5. Verfahren nach Anspruch 1, wobei ein Segmentieren der ausgewählten Sample-Videoframes in eine Vielzahl von Segmenten für jede Entität des Videos basierend auf der Kommentierung der ausgewählten Sample-Videoframes umfasst: für jede Entität des Videos: Erzeugen einer zeitlichen Serie für die Entität, wobei die zeitliche Serie eine Vielzahl von Zeitstempeln der Sample-Videoframes, die die Entität enthalten, und entsprechende Vertrauenswerte der Entität umfasst; Anwenden einer Glättungsfunktion auf die erzeugte zeitlich Serie der Entität; und Identifizieren von Grenzen für jedes Segment, das die Entität enthält, basierend auf den Vertrauenswerten der geglätteten zeitlichen Serie der Entität.
  6. Verfahren nach Anspruch 5, wobei ein Anwenden der Glättungsfunktion auf die erzeugte zeitliche Serie einer Entität umfasst: Anwenden eines Bewegungsfensters auf die zeitliche Serie der Entität, wobei das Bewegungsfenster durch eine Größe und einen Schritt definiert ist und wobei das Bewegungsfenster eine Vielzahl von Vertrauenswerten von Zeitstempeln auswählt, die innerhalb des Bewegungsfensters sind; und Berechnen eines durchschnittlichen Vertrauenswerts der durch das Bewegungsfenster ausgewählten Vertrauenswerte.
  7. Verfahren nach Anspruch 5, wobei Identifizieren von Grenzen eines Segments für eine Entität umfasst: Auswählen eines Beginn-Schwellenwerts für das Segment, wobei der Beginn-Schwellenwert den Start des Segments anzeigt; Auswählen eines Versatz-Schwellenwerts für das Segment, wobei der Versatz-Schwellenwert das Ende des Segments anzeigt; Vergleichen der Vertrauenswerte der geglätteten zeitlichen Serie der Entität mit dem Beginn-Schwellenwert und dem Versatz-Schwellenwert; und Identifizieren der Grenzen des Segments basierend auf dem Vergleich der Vertrauenswerte der geglätteten zeitlichen Serie der Entität.
  8. Nichtflüchtiges computerlesbares Speichermedium, das ausführbare Computerprogrammanweisungen zum temporalen Segmentieren eines Videos speichert, wobei die Computerprogrammanweisungen Anweisungen umfassen, die dann, wenn sie ausgeführt werden, veranlassen, dass ein Prozessor: Sample-Videoframes aus einer Vielzahl von decodierten Videoframes des Videos auswählt; jeden der Sample-Videoframes kommentiert; die ausgewählten Sample-Videoframes in eine Vielzahl von Segmenten für jede Entität des Videos basierend auf der Kommentierung der ausgewählten Sample-Videoframes segmentiert, wobei ein Segment für eine Entität des Videos einen semantisch bedeutungsvollen räumlichentemporalen Bereich des Videos darstellt; und eine gesamte temporale Segmentierung des Videos basierend auf der Vielzahl von Segmenten jeder Entität des Videos erzeugt.
  9. Computerlesbares Medium nach Anspruch 8, wobei die Computerprogrammanweisungen zum Kommentieren eines Sample-Videoframes Anweisungen umfassen, die dann, wenn sie ausgeführt werden, veranlassen, dass der Computerprozessor: ein trainiertes Kommentierungsmodell auf den Sample-Videoframe anwendet; eine oder mehrere Entitäten, die in dem Sample-Videoframe vorhanden sind, basierend auf der Anwendung des trainierten Kommentierungsmodells identifiziert, wobei eine identifizierte Entität des Videos ein Objekt von Interesse in dem Sample-Videoframe darstellt; und jede identifizierte Entität durch eine Gruppe von Kommentierungsparametern darstellt.
  10. Computerlesbares Medium nach Anspruch 9, wobei die Gruppe von Kommentierungsparametern für eine Entität in dem Sample-Videoframe eine beschreibende Aufschrift, die die Semantiken der Entität beschreibt, wobei ein Teilbereich des Sample-Videoframes die Entität enthält, und einen Vertrauenswert, der eine Wahrscheinlichkeit anzeigt, dass die Entität genau identifiziert ist, enthält.
  11. Computerlesbares Medium nach Anspruch 8, wobei die Computerprogrammanweisung zum Kommentieren eines Sample-Videoframes weiterhin Anweisungen umfasst, die dann, wenn sie ausgeführt werden, veranlassen, dass der Computerprozessor: ein Kommentierungsmodell an einer Sammlung von Trainingsbildern mit einem Modell eines neuronalen Netzes trainiert.
  12. Computerlesbares Medium nach Anspruch 1, wobei die Computerprogrammanweisungen zum Segmentieren der ausgewählten Sample-Videoframes in eine Vielzahl von Segmenten für jede Entität des Videos basierend auf den Kommentierungen der ausgewählten Sample-Videoframes Anweisungen umfassen, die dann, wenn sie ausgeführt werden, veranlassen, dass der Computerprozessor: für jede Entität des Videos: eine zeitliche Serie für die Entität erzeugt, wobei die zeitliche Serie eine Vielzahl von Zeitstempeln der Sample-Videoframes, die die Entität enthalten, und entsprechende Vertrauenswerte der Entität umfasst; eine Glättungsfunktion auf die erzeugte zeitliche Serie der Entität anwendet; und Grenzen für jedes Segment, das die Entität enthält, basierend auf den Vertrauenswerten der geglätteten zeitlichen Serie der Entität identifiziert.
  13. Computerlesbares Medium nach Anspruch 12, wobei die Computerprogrammanweisungen zum Anwenden der Glättungsfunktion auf die erzeugte zeitliche Serie einer Entität Anweisungen umfassen, die dann, wenn sie ausgeführt werden, veranlassen, dass der Computerprozessor: ein Bewegungsfenster auf die zeitliche Serie der Entität anwendet, wobei das Bewegungsfenster durch eine Größe und einen Schritt definiert ist und wobei das Bewegungsfenster eine Vielzahl von Vertrauenswerten von Zeitstempeln auswählt, die innerhalb des Bewegungsfensters sind; und einen durchschnittlichen Vertrauenswert der durch das Bewegungsfenster ausgewählten Vertrauenswerte berechnet.
  14. Computerlesbares Medium nach Anspruch 13, wobei die Computerprogrammanweisungen zum Identifizieren von Grenzen eines Segments für eine Entität Anweisungen umfassen, die dann, wenn sie ausgeführt werden, veranlassen, dass der Computerprozessor: einen Beginn-Schwellenwert für das Segment auswählt, wobei der Beginn-Schwellenwert den Start des Segments anzeigt; einen Versatz-Schwellenwert für das Segment auswählt, wobei der Versatz-Schwellenwert das Ende des Segments anzeigt; die Vertrauenswerte der geglätteten zeitlichen Serie der Entität mit dem Beginn-Schwellenwert und dem Versatz-Schwellenwert vergleicht; und die Grenzen des Segments basierend auf dem Vergleich der Vertrauenswerte der geglätteten zeitlichen Serie der Entität identifiziert.
  15. Computersystem zum temporalen Segmentieren eines Videos, wobei das System umfasst: einen Computerprozessor, um Schritte durchzuführen, die umfassen: Auswählen von Abtast- bzw. Sample-Videoframes aus einer Vielzahl von decodierten Videoframes des Videos; Kommentieren jedes Sample-Videoframes; Segmentieren der ausgewählten Sample-Videoframes in eine Vielzahl von Segmenten für jede Entität des Videos basierend auf der Kommentierung der ausgewählten Sample-Videoframes, wobei ein Segment für eine Entität des Videos die Semantiken des Videos reflektiert; und Erzeugen einer gesamten temporalen Segmentierung des Videos basierend auf der Vielzahl von Segmenten jeder Entität des Videos.
  16. System nach Anspruch 15, wobei ein Kommentieren eines Sample-Videoframes umfasst: Anwenden eines trainierten Kommentierungsmodells auf den Sample-Videoframe; Identifizieren von einer oder mehreren Entitäten, die in dem Sample-Videoframe vorhanden sind, basierend auf der Anwendung des trainierten Kommentierungsmodells, wobei eine identifizierte Entität des Videos ein Objekt von Interesse in dem Sample-Videoframe darstellt; und Darstellen jeder identifizierten Entität durch eine Gruppe von Kommentierungsparametern.
  17. System nach Anspruch 16, wobei die Gruppe von Kommentierungsparametern für eine Entität in dem Sample-Videoframe eine beschreibende Aufschrift enthält, die die Semantiken der Entität beschreibt, wobei ein Teilbereich des Sample-Videoframes die Entität enthält, und einen Vertrauenswert, der eine Wahrscheinlichkeit anzeigt, dass die Entität genau identifiziert ist.
  18. System nach Anspruch 15, wobei ein Kommentieren eines Sample-Videoframes weiterhin umfasst: Trainieren eines Kommentierungsmodells an einer Sammlung von Trainingsbildern mit einem Modell eines neuronalen Netzes.
  19. System nach Anspruch 15, wobei ein Segmentieren der ausgewählten Sample-Videoframes in eine Vielzahl von Segmenten für jede Entität des Videos basierend auf der Kommentierung der ausgewählten Sample-Videoframes umfasst: für jede Entität des Videos: Erzeugen einer zeitlichen Serie für die Entität, wobei die zeitliche Serie eine Vielzahl von Zeitstempeln der Sample-Videoframes, die die Entität entfalten, und entsprechende Vertrauenswerte der Entität umfasst; Anwenden einer Glättungsfunktion auf die erzeugte zeitliche Serie der Entität; und Identifizieren von Grenzen für jedes Segment, das die Entität enthält, basierend auf den Vertrauenswerten der geglätteten zeitlichen Serie der Entität.
  20. System nach Anspruch 19, wobei ein Identifizieren von Grenzen eines Segments für eine Entität umfasst: Auswählen eines Beginn-Schwellenwerts für das Segment, wobei der Beginn-Schwellenwert den Start des Segments anzeigt; Auswählen eines Versatz-Schwellenwerts für das Segment, wobei der Versatz-Schwellenwert das Ende des Segments anzeigt; Vergleichen der Vertrauenswerte der geglätteten zeitlichen Serie der Entität mit dem Beginn-Schwellenwert und dem Versatz-Schwellenwert; und Identifizieren der Grenzen des Segments basierend auf dem Vergleich der Vertrauenswerte der geglätteten zeitlichen Serie der Entität.
DE112016002175.5T 2015-05-14 2016-04-13 Entitätsbasierte temporale Segmentierung von Videostreams Pending DE112016002175T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/712,071 2015-05-14
US14/712,071 US9607224B2 (en) 2015-05-14 2015-05-14 Entity based temporal segmentation of video streams
PCT/US2016/027330 WO2016182665A1 (en) 2015-05-14 2016-04-13 Entity based temporal segmentation of video streams

Publications (1)

Publication Number Publication Date
DE112016002175T5 true DE112016002175T5 (de) 2018-01-25

Family

ID=57249260

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112016002175.5T Pending DE112016002175T5 (de) 2015-05-14 2016-04-13 Entitätsbasierte temporale Segmentierung von Videostreams

Country Status (8)

Country Link
US (1) US9607224B2 (de)
EP (1) EP3295678A4 (de)
JP (1) JP6445716B2 (de)
KR (1) KR101967086B1 (de)
CN (1) CN107430687B9 (de)
DE (1) DE112016002175T5 (de)
GB (1) GB2553446B8 (de)
WO (1) WO2016182665A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017124600A1 (de) * 2017-10-20 2019-04-25 Connaught Electronics Ltd. Semantische Segmentierung eines Objekts in einem Bild

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10051344B2 (en) * 2016-09-27 2018-08-14 Clarifai, Inc. Prediction model training via live stream concept association
CN108510982B (zh) * 2017-09-06 2020-03-17 腾讯科技(深圳)有限公司 音频事件检测方法、装置及计算机可读存储介质
US10417501B2 (en) 2017-12-06 2019-09-17 International Business Machines Corporation Object recognition in video
CN108510493A (zh) * 2018-04-09 2018-09-07 深圳大学 医学图像内目标对象的边界定位方法、存储介质及终端
CN109145784B (zh) * 2018-08-03 2022-06-03 百度在线网络技术(北京)有限公司 用于处理视频的方法和装置
EP3621021A1 (de) 2018-09-07 2020-03-11 Delta Electronics, Inc. Datensuchverfahren und datensuchsystem dafür
CN109410145B (zh) * 2018-11-01 2020-12-18 北京达佳互联信息技术有限公司 时序平滑方法、装置及电子设备
KR102360584B1 (ko) * 2018-12-05 2022-02-08 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. 비디오에서 목표 비디오 클립의 위치를 결정하는 방법 및 장치
US10963702B1 (en) * 2019-09-10 2021-03-30 Huawei Technologies Co., Ltd. Method and system for video segmentation
CN110602527B (zh) * 2019-09-12 2022-04-08 北京小米移动软件有限公司 视频处理方法、装置及存储介质
CN110704681B (zh) * 2019-09-26 2023-03-24 三星电子(中国)研发中心 一种生成视频的方法及系统
CN110933462B (zh) * 2019-10-14 2022-03-25 咪咕文化科技有限公司 视频处理方法、系统、电子设备及存储介质
CN110958489A (zh) * 2019-12-11 2020-04-03 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备和计算机可读存储介质
CN114025216B (zh) * 2020-04-30 2023-11-17 网易(杭州)网络有限公司 媒体素材处理方法、装置、服务器及存储介质
CN111738173B (zh) * 2020-06-24 2023-07-25 北京奇艺世纪科技有限公司 视频片段检测方法、装置、电子设备及存储介质
CN111898461B (zh) * 2020-07-08 2022-08-30 贵州大学 一种时序行为片段生成方法
KR20220090158A (ko) * 2020-12-22 2022-06-29 삼성전자주식회사 관심 객체를 이용하여 비디오를 편집하는 전자 장치 및 그 동작 방법
US11935253B2 (en) 2021-08-31 2024-03-19 Dspace Gmbh Method and system for splitting visual sensor data
CN114550300A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 视频数据分析方法、装置、电子设备及计算机存储介质
CN117095317B (zh) * 2023-10-19 2024-06-25 深圳市森歌数据技术有限公司 一种无人机三维影像实体识别与时间定位方法
CN117994875A (zh) * 2024-01-31 2024-05-07 长春众鼎科技有限公司 智能视频行车记录仪录制装置及分类回放方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07175816A (ja) * 1993-10-25 1995-07-14 Hitachi Ltd 映像の連想検索装置及び方法
US6195458B1 (en) * 1997-07-29 2001-02-27 Eastman Kodak Company Method for content-based temporal segmentation of video
AU1468500A (en) * 1998-11-06 2000-05-29 Trustees Of Columbia University In The City Of New York, The Systems and methods for interoperable multimedia content descriptions
JP4404172B2 (ja) * 1999-09-02 2010-01-27 株式会社日立製作所 メディアシーン情報表示編集装置、方法、および該方法に係るプログラムを記憶した記憶媒体
KR100512138B1 (ko) 2000-03-08 2005-09-02 엘지전자 주식회사 합성 키프레임을 이용한 비디오 브라우징 시스템
US7042525B1 (en) * 2000-07-06 2006-05-09 Matsushita Electric Industrial Co., Ltd. Video indexing and image retrieval system
JP4192703B2 (ja) * 2003-06-30 2008-12-10 日本電気株式会社 コンテンツ処理装置、コンテンツ処理方法及びプログラム
GB0406512D0 (en) * 2004-03-23 2004-04-28 British Telecomm Method and system for semantically segmenting scenes of a video sequence
US7551234B2 (en) * 2005-07-28 2009-06-23 Seiko Epson Corporation Method and apparatus for estimating shot boundaries in a digital video sequence
US7555149B2 (en) * 2005-10-25 2009-06-30 Mitsubishi Electric Research Laboratories, Inc. Method and system for segmenting videos using face detection
CN1945628A (zh) * 2006-10-20 2007-04-11 北京交通大学 一种基于时空显著单元的视频内容表示方法
US7559017B2 (en) * 2006-12-22 2009-07-07 Google Inc. Annotation framework for video
EP1959449A1 (de) 2007-02-13 2008-08-20 British Telecommunications Public Limited Company Videomaterialanalyse
DE102007028175A1 (de) * 2007-06-20 2009-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Automatisiertes Verfahren zur zeitlichen Segmentierung eines Videos in Szenen unter Berücksichtigung verschiedener Typen von Übergängen zwischen Bildfolgen
US8170342B2 (en) * 2007-11-07 2012-05-01 Microsoft Corporation Image recognition of content
WO2009111699A2 (en) * 2008-03-06 2009-09-11 Armin Moehrle Automated process for segmenting and classifying video objects and auctioning rights to interactive video objects
US20090278937A1 (en) * 2008-04-22 2009-11-12 Universitat Stuttgart Video data processing
CN101527043B (zh) * 2009-03-16 2010-12-08 江苏银河电子股份有限公司 基于运动目标轮廓信息的视频对象分割方法
CN101789124B (zh) * 2010-02-02 2011-12-07 浙江大学 视频序列的时空一致性分割方法
JP2012038239A (ja) * 2010-08-11 2012-02-23 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
CN102402536A (zh) * 2010-09-13 2012-04-04 索尼公司 从视频中提取关键帧的方法和设备
CN102663015B (zh) * 2012-03-21 2015-05-06 上海大学 基于特征袋模型和监督学习的视频语义标注方法
US9118886B2 (en) * 2012-07-18 2015-08-25 Hulu, LLC Annotating general objects in video
US20140181668A1 (en) * 2012-12-20 2014-06-26 International Business Machines Corporation Visual summarization of video for quick understanding
US10482777B2 (en) * 2013-02-22 2019-11-19 Fuji Xerox Co., Ltd. Systems and methods for content analysis to support navigation and annotation in expository videos
US9154761B2 (en) * 2013-08-19 2015-10-06 Google Inc. Content-based video segmentation
BR112016006860B8 (pt) * 2013-09-13 2023-01-10 Arris Entpr Inc Aparelho e método para criar um único fluxo de dados de informações combinadas para renderização em um dispositivo de computação do cliente
KR101507272B1 (ko) * 2014-02-12 2015-03-31 인하대학교 산학협력단 대화형 비디오에서 이동 객체의 의미적 어노테이션 시스템의 인터페이스 및 그 방법
US10664687B2 (en) * 2014-06-12 2020-05-26 Microsoft Technology Licensing, Llc Rule-based video importance analysis
US9805268B2 (en) * 2014-07-14 2017-10-31 Carnegie Mellon University System and method for processing a video stream to extract highlights
JP2016103714A (ja) * 2014-11-27 2016-06-02 三星電子株式会社Samsung Electronics Co.,Ltd. 録画再生装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102017124600A1 (de) * 2017-10-20 2019-04-25 Connaught Electronics Ltd. Semantische Segmentierung eines Objekts in einem Bild

Also Published As

Publication number Publication date
KR101967086B1 (ko) 2019-04-08
WO2016182665A1 (en) 2016-11-17
GB2553446B (en) 2021-08-04
JP6445716B2 (ja) 2018-12-26
GB2553446A (en) 2018-03-07
CN107430687B (zh) 2022-03-04
GB2553446B8 (en) 2021-12-08
EP3295678A4 (de) 2019-01-30
JP2018515006A (ja) 2018-06-07
CN107430687B9 (zh) 2022-04-08
US9607224B2 (en) 2017-03-28
US20160335499A1 (en) 2016-11-17
CN107430687A (zh) 2017-12-01
EP3295678A1 (de) 2018-03-21
GB201715780D0 (en) 2017-11-15
KR20170128771A (ko) 2017-11-23

Similar Documents

Publication Publication Date Title
DE112016002175T5 (de) Entitätsbasierte temporale Segmentierung von Videostreams
KR102082815B1 (ko) 인공지능 기반 해상도 개선 시스템
DE112012000853B4 (de) Entdeckung, Erkennung und Bookmarking von Gesichtern in Videos
DE60037485T2 (de) Signalverarbeitungsverfahren und Videosignalprozessor zum Ermitteln und Analysieren eines Bild- und/oder Audiomusters
DE102017005963A1 (de) Bereitstellen von relevanten Videoszenen in Reaktion auf eine Videosuchabfrage
DE112016001830T5 (de) Das Entdecken von Unternehmen aus Bildern
Mussel Cirne et al. VISCOM: A robust video summarization approach using color co-occurrence matrices
DE102019130137A1 (de) Alias-Erfassung zur Unterstützung der Suche nach einem Objekt von Interesse
DE112020004053T5 (de) Mischen, beachten bzw. teilnehmen und anpassen: videodomänenanpassung durch clipreihenfolgevorhersage und clipaufmerksamkeitsausrichtung
DE602004002837T2 (de) Objekterkennung
CN104837031B (zh) 一种高速自适应提取视频关键帧的方法
CN112686165A (zh) 视频中目标对象的识别方法、装置、电子设备及存储介质
CN109195011B (zh) 一种视频处理方法、装置、设备及存储介质
DE102014113817A1 (de) Vorrichtung und Verfahren zur Erkennung eines Objekts in Einem Bild
Mahum et al. A generic framework for generation of summarized video clips using transfer learning (SumVClip)
CN111163366B (zh) 一种视频处理方法及终端
CN106708876B (zh) 一种基于Lucene的相似视频检索方法及系统
DE102010045744A1 (de) Durchsuchen und Extrahieren digitaler Bilder aus digitalen Videodateien
CN113407780B (zh) 一种目标检索方法、装置及存储介质
DE102009060687A1 (de) Verfahren und Vorrichtung zum rechnergestützten Annotieren von Multimediadaten
KR102130077B1 (ko) 격자 생성 패턴 정보를 바탕으로 해상도를 개선하는 시스템
Khan et al. Semantic analysis of news based on the deep convolution neural network
DE112020004774T5 (de) Detektieren von szenenübergängen in videoaufnahmen
DE102016013630A1 (de) Einbettungsraum für Bilder mit mehreren Textetiketten
Mante et al. A survey on video-based evidence analysis and digital forensic

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: PROCK, THOMAS, DR., GB

R016 Response to examination communication