DE112020004774T5 - Detektieren von szenenübergängen in videoaufnahmen - Google Patents

Detektieren von szenenübergängen in videoaufnahmen Download PDF

Info

Publication number
DE112020004774T5
DE112020004774T5 DE112020004774.1T DE112020004774T DE112020004774T5 DE 112020004774 T5 DE112020004774 T5 DE 112020004774T5 DE 112020004774 T DE112020004774 T DE 112020004774T DE 112020004774 T5 DE112020004774 T5 DE 112020004774T5
Authority
DE
Germany
Prior art keywords
video recording
scene transition
detecting
confidence
values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE112020004774.1T
Other languages
English (en)
Inventor
John Jesse Wood
Daniel Thomas Cunnington
Eunjin Lee
Giacomo Giuseppe Chiarella
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of DE112020004774T5 publication Critical patent/DE112020004774T5/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Television Systems (AREA)
  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)

Abstract

Es werden Konzepte zum Detektieren eines Szenenübergangs in einer Videoaufnahme dargestellt. Ein Beispiel weist für jedes aus einer Mehrzahl verschiedener Einzelbilder von Videoaufnahmen ein Erhalten eines Wertes eines Konfidenzmaßes für ein detektiertes Objekt in dem Einzelbild auf. Dann wird auf der Grundlage der erhaltenen Werte des Konfidenzmaßes ein Szenenübergang in der Videoaufnahme detektiert.

Description

  • HINTERGRUND DER ERFINDUNG
  • Die vorliegende Erfindung betrifft allgemein eine Videobearbeitung und insbesondere ein Detektieren eines Szenenübergangs in Videoaufnahmen.
  • Detektieren von Szenen ist ein Teilbereich der Videobearbeitung, der für ein Indexieren und Durchsuchen von Videoaufnahmen sorgt. Übergänge (wie „Auflösen“ oder „Überblenden“) zwischen Szenen verursachen bei derzeitigen Algorithmen zum Detektieren von Szenen Probleme, da die elementaren Informationen (z.B. Farbhistogramme, Helligkeit, Kontrast), die zum Erkennen von Szenenübergängen verwendet werden, üblicherweise nicht generell über einen großen Bereich der Videoaufnahme hinweg gelten. Zum Beispiel lässt sich ein Überblenden zwischen Szenen mit ähnlichem Kontrast, ähnlicher Helligkeit, Farbe usw. nur schwer detektieren.
  • Derzeitige Algorithmen zum Detektieren von Szenen sind üblicherweise allein lauffähig und müssen unabhängig von anderen Aufgaben zur Videobearbeitung ausgeführt werden. Deshalb stellen derzeitige Verfahren zum Erkennen von Szenen bei großen Videos hohe Anforderungen an die Bearbeitung. Deshalb besteht in der Technik ein Bedarf am Beheben des obigen Problems.
  • KU RZDARSTELLU NG
  • Gemäß einem ersten Aspekt stellt die vorliegende Erfindung ein computergestütztes Verfahren zum Detektieren von Szenenübergängen in einer Videoaufnahme bereit, wobei das Verfahren aufweist: Erhalten eines Wertes eines Konfidenzmaßes für ein detektiertes Objekt in dem Einzelbild für jedes aus einer Mehrzahl verschiedener Einzelbilder der Videoaufnahme; und Detektieren eines Szenenübergangs in der Videoaufnahme auf der Grundlage der erhalten Werte des Konfidenzmaßes.
  • Gemäß einem weiteren Aspekt stellt die vorliegende Erfindung ein Computerprogrammprodukt bereit, das ein durch einen Computer lesbares Speichermedium mit darin verkörperten Programmanweisungen aufweist, wobei die Programmanweisungen durch eine Verarbeitungseinheit ausführbar sind, um die Verarbeitungseinheit zu veranlassen, beim Ausführen auf einem Computer-Netzwerk ein Verfahren zum Detektieren eines Szenenübergangs in einer Videoaufnahme durchzuführen, wobei das Verfahren die Schritte aufweist: Erhalten eines Wertes eines Konfidenzmaßes für ein detektiertes Objekt in dem Einzelbild für jedes aus einer Mehrzahl verschiedener Einzelbilder der Videoaufnahme; und Detektieren eines Szenenübergangs in der Videoaufnahme auf der Grundlage der erhalten Werte des Konfidenzmaßes.
  • Gemäß einem weiteren Aspekt stellt die vorliegende Erfindung ein System zum Detektieren eines Szenenübergangs in einer Videoaufnahme bereit, wobei das System einen oder mehrere Prozessoren und ein oder mehrere physische Speichermedien zum Speichern von Programmanweisungen zum Ausführen durch den einen oder die mehreren Prozessoren aufweist, wobei die Programmanweisungen Anweisungen: zum Erhalten eines Wertes eines Konfidenzmaßes für ein detektiertes Objekt in einem Einzelbild für jedes aus einer Mehrzahl verschiedener Einzelbilder der Videoaufnahme über eine Schnittstelle; und zum Detektieren eines Szenenübergangs in der Videoaufnahme auf der Grundlage des erhaltenen Wertes des Konfidenzmaßes aufweisen.
  • Gemäß einem weiteren Aspekt stellt die vorliegende Erfindung ein Computerprogrammprodukt zum Detektieren eines Szenenübergangs in einer Videoaufnahme bereit, wobei das Computerprogrammprodukt ein durch einen Computer lesbares Speichermedium aufweist, das durch eine Verarbeitungsschaltung lesbar ist und in dem Anweisungen zum Ausführen durch die Verarbeitungsschaltung gespeichert sind, um ein Verfahren zum Ausführen der Schritte der Erfindung durchzuführen.
  • Gemäß einem weiteren Aspekt stellt die vorliegende Erfindung ein Computerprogramm bereit, das auf einem durch einen Computer lesbaren Medium gespeichert und in den Arbeitsspeicher eines digitalen Computers ladbar ist und Teile eines Softwarecodes aufweist, um beim Ausführen des Programms auf einem Computer die Schritte der Erfindung auszuführen.
  • Die vorliegende Erfindung betrifft auch ein Computerprogrammprodukt, das durch einen Computer lesbaren Programmcode aufweist, der einen Prozessor eines Systems oder eine Anzahl von Prozessoren eines Netzwerks befähigt, ein solches Verfahren umzusetzen. Ferner betrifft die vorliegende Erfindung ein Computersystem, das mindestens einen Prozessor und ein solches Computerprogrammprodukt aufweist, wobei der mindestens eine Prozessor geeignet ist, den durch einen Computer lesbaren Programmcode des Computerprogrammprodukts auszuführen. Die vorliegende Erfindung betrifft auch ein System zum Detektieren eines Szenenübergangs in einer Videoaufnahme. Die vorliegende Erfindung dient dazu, ein computergestütztes Verfahren zum Detektieren eines Szenenübergangs in einer Videoaufnahme bereitzustellen.
  • Ferner dient die vorliegende Erfindung dazu, ein Computerprogrammprodukt bereitzustellen, das einen Computer-Programmcode zum Umsetzen eines vorgeschlagenen Verfahrens umfasst, wenn dieser durch eine Verarbeitungseinheit ausgeführt wird.
  • Die vorliegende Erfindung dient auch dazu, ein Verarbeitungssystem zum Ausführen dieses Computer-Programmcodes bereitzustellen.
  • Die vorliegende Erfindung dient auch dazu, ein System zum Detektieren eines Szenenübergangs in einer Videoaufnahme bereitzustellen.
  • Gemäß einem Aspekt der vorliegenden Erfindung wird ein computergestütztes Verfahren zum Detektieren eines Szenenübergangs in einer Videoaufnahme bereitgestellt. Das Verfahren weist ein Erhalten eines Wertes eines Konfidenzmaßes für ein detektiertes Objekt in dem Einzelbild für jedes aus einer Mehrzahl verschiedener Einzelbilder einer Videoaufnahme auf. Ferner weist das Verfahren auch ein Detektieren eines Szenenübergangs in der Videoaufnahme auf der Grundlage der erhaltenen Werte des Konfidenzmaßes auf.
  • Gemäß noch einem weiteren Aspekt der Erfindung wird ein System zum Detektieren eines Szenenübergangs in einer Videoaufnahme bereitgestellt. Das System weist eine Schnittstellenkomponente auf, die zum Detektieren eines Szenenübergangs in der Videoaufnahme auf der Grundlage der erhaltenen Werte des Konfidenzmaßes konfiguriert ist.
  • Gemäß einem weiteren Aspekt der Erfindung wird ein Computerprogrammprodukt zum Detektieren eines Szenenübergangs in einer Videoaufnahme bereitgestellt. Das Computerprogrammprodukt weist ein durch einen Computer lesbares Speichermedium mit darauf verkörperten Programmanweisungen auf, wobei die Programmanweisungen durch eine Verarbeitungseinheit ausführbar sind, um die Verarbeitungseinheit zum Durchführen eines Verfahrens gemäß einer vorgeschlagenen Ausführungsform zu veranlassen.
  • Gemäß einem weiteren Aspekt der Erfindung wird ein Verarbeitungssystem bereitgestellt, das mindestens einen Prozessor und das Computerprogrammprodukt gemäß einer Ausführungsform aufweist. Der mindestens eine Prozessor dient zum Ausführen des Computer-Programmcodes des Computerprogrammprodukts.
  • Figurenliste
  • Nunmehr werden bevorzugte Ausführungsformen der vorliegenden Erfindung lediglich beispielhaft unter Bezugnahme auf die folgenden Zeichnungen beschrieben, wobei:
    • 1 ein Blockschaltbild eines beispielhaften Systems ist, in dem Aspekte der anschaulichen Ausführungsformen umgesetzt werden können;
    • 2 ein vereinfachtes Blockschaubild einer beispielhaften Ausführungsform eines Systems zum Detektieren eines Szenenübergangs in einer Videoaufnahme ist;
    • 3 ein Beispiel dafür zeigt, wie stark Konfidenzwerte von detektieren Objekten zwischen Einzelbildern einer Videoaufnahme gemäß einer beispielhaften Ausführungsform variieren; und
    • 4 ein vereinfachtes Blockschaltbild einer beispielhaften Ausführungsform eines Systems zum Detektieren eines Szenenübergangs in einer Videoaufnahme ist.
  • DETAILLIERTE BESCHREIBUNG
  • Es sollte klar sein, dass die Figuren lediglich schematisch und nicht maßstabsgerecht gezeichnet sind. Es sollte auch klar sein, dass ein und dieselben Bezugsnummern in sämtlichen Figuren zum Bezeichnen gleicher oder ähnlicher Teile verwendet werden.
  • In Zusammenhang mit der vorliegenden Anmeldung, in der Ausführungsformen der vorliegenden Erfindung ein Verfahren darstellen, sollte klar sein, dass es sich bei einem solchen Verfahren um einen Prozess, der durch einen Computer ausgeführt wird, d.h., um ein computergestütztes Verfahren handeln kann. Deshalb können die verschiedenen Schritte des Verfahrens verschiedene Teile eines Computerprogramms, z.B. verschiedene Teile eines oder mehrerer Algorithmen, widerspiegeln.
  • Ferner kann es sich in Zusammenhang mit der vorliegenden Anmeldung bei einem System um eine einzelne Einheit oder eine Ansammlung verteilter Einheiten handeln, die zum Ausführen einer oder mehrerer Ausführungsformen der Verfahren der vorliegenden Erfindung dienen. Bei einem System kann es sich zum Beispiel um einen Personal Computer (PC), einen Server oder eine Ansammlung von PCs und/oder Servern handeln, die über ein Netzwerk wie beispielsweise ein lokales Netzwerk, das Internet und so weiter miteinander verbunden sind, um gemeinsam mindestens eine Ausführungsform der Verfahren der vorliegenden Erfindung auszuführen.
  • Es werden Konzepte zum Detektieren eines Szenenübergangs in einer Videoaufnahme vorgeschlagen. Insbesondere wird vorgeschlagen, dass ein Szenenübergang in einer Videoaufnahme auf der Grundlage von Werten eines Konfidenzmaßes für ein detektiertes Objekt in verschiedenen Einzelbildern der Videoaufnahme detektiert werden kann. Mit anderen Worten, es können Änderungen eines Konfidenzwertes für ein detektiertes Objekt zwischen Einzelbildern eines Videos verwendet werden, um das Vorliegen eines Szenenübergangs in dem Video zu erkennen.
  • Die Erfinder schlagen das Konzept zum Analysieren der Konfidenz von detektierten Objekten zwischen Einzelbildern eines Videos vor, um daraus das Vorliegen eines Übergangs in dem Video abzuleiten oder zu erkennen. Somit kann eine vorgeschlagene Ausführungsform als Erweiterung vorhandener Abläufe zur Videobearbeitung bereitgestellt werden, die Objekte in einem Video detektieren und einen zugehörigen Konfidenzwert anzeigen.
  • Solche Vorschläge können ein persönliches Abstimmen überflüssig machen (das derzeit bei vielen herkömmlichen Verfahren erforderlich ist). Zum Beispiel können vorgeschlagene Ausführungsformen in einen Ansatz mit bekannter Kostenfunktion integriert werden, um Szenenübergänge zu detektieren und damit die Robustheit dieses Verfahrens zum Detektieren von Szenenübergängen zu erhöhen. Ausführungsformen können auch zusammen mit vorhandenen Einzelbild-Objekt-Detektoren umgesetzt werden.
  • Es wird vorgeschlagen, dass Werte eines Konfidenzmaßes für ein detektiertes Objekt von verschiedenen Einzelbildern der Videoaufnahme analysiert werden können, um einen Szenenübergang in der Videoaufnahme zu detektieren. Zum Beispiel können die zugehörigen Konfidenzwerte von detektieren Objekten zwischen Einzelbildern miteinander verglichen werden, um Szenenübergänge ziemlich direkt zu erkennen. Im Gegensatz zu herkömmlichen Ansätzen, die Szenenübergänge mit Überblendeffekt nicht wirksam und zuverlässig erfassen, können gemäß Ausführungsformen Szenenübergänge mit Überblendeffekt zuverlässig detektiert werden.
  • Vorgeschlagene Konzepte können abstrakte semantische Informationen nutzen, um einen wirksamen Ansatz zum Detektieren von Szenenübergängen bereitzustellen, wodurch ein Integrieren in existierende Verarbeitungsverfahren/-algorithmen ermöglicht wird.
  • Anhand eines Beispiels schlagen die Erfinder vor, dass für jedes aus einer Mehrzahl verschiedener Einzelbilder einer Videoaufnahme ein Wert eines Konfidenzmaßes für ein detektiertes Objekt in dem Einzelbild erhalten werden kann. Dann kann ein Szenenübergang in der Videoaufnahme auf der Grundlage der erhaltenen Werte des Konfidenzmaßes detektiert werden.
  • Somit können Ausführungsformen den Vorteil bieten, Übergänge zwischen Szenen mit vergleichbarer Information auf Pixelebene zuverlässig zu detektieren.
  • Ein weiterer Vorteil, den das(die) vorgeschlagene(n) Konzept(e) bieten kann(können), besteht darin, dass im Rahmen der Ausführungsform nicht unbedingt Rohdaten der Video-Einzelbilder untersucht werden müssen. Vielmehr können Ausführungsformen den(die) Ausgabewert(e) eines herkömmlichen Objekt-Detektors nutzen. Demgemäß können Ausführungsformen in Verbindung mit bereits existierenden Algorithmen zur Videobearbeitung verwendet werden, die bereits zum Detektieren von Objekten in einer Videoaufnahme vorgesehen sind und Konfidenzwerte für die detektierten Objekte bereitstellen. Deshalb können solche Ausführungsformen Informationen aufwerten, die durch einen/eine Objekt-Detektionsalgorithmus/-komponente bereitgestellt wurden, und somit existierende/herkömmliche Algorithmen/Systeme zur Videobearbeitung ergänzen.
  • Durch vorgeschlagene Ausführungsformen kann daher ein einfaches Integrieren und dynamisches Verwenden existierender und/oder neuer Algorithmen zum Detektieren von Objekten erreicht werden.
  • Vorgeschlagene Ausführungsformen können somit Konzepte zum Ändern und/oder Ergänzen der Funktionalität von Algorithmen zur Videobearbeitung bereitstellen. Ausführungsformen können zum Beispiel zum Integrieren neuer oder zusätzlicher Algorithmen für Szenenübergänge in existierende Systeme zur Videobearbeitung verwendet werden. Ausführungsformen können somit behilflich sein, für existierende Ausführungen zur Videobearbeitung verbesserte oder erweiterte Funktionalitäten bereitzustellen. Deshalb können Ausführungsformen den Nutzen eines Systems zur Videobearbeitung durch Aufwerten von Informationen über detektierte Objekte in einer Videoaufnahme erhöhen, indem sie veränderte und/oder erweiterte Funktionalitäten zum Detektieren von Szenenübergängen bereitstellen. Ausführungsformen können somit behilflich sein, verbesserte oder erweiterte Funktionalitäten für existierende Ausführungen zum Detektieren von Szenen und/oder zur Videobearbeitung bereitzustellen.
  • Gemäß einer Ausführungsform kann ein Detektieren eines Szenenübergangs auf der Grundlage der erhaltenen Werte des Konfidenzmaßes aufweisen: Analysieren der erhaltenen Werte des Konfidenzmaßes zum Erkennen einer Tendenz oder eines Musters in den Werten des Konfidenzmaßes für die Mehrzahl der verschiedenen Einzelbilder der Videoaufnahme; und Erkennen eines Szenenübergangs in der Videoaufnahme auf der Grundlage der erkannten Tendenz oder des erkannten Musters in den Konfidenzwerten. Zum Beispiel kann ein Erkennen eines Szenenübergangs aufweisen: Vergleichen der erkannten Tendenz oder des erkannten Musters in den Konfidenzwerten mit einer vorgegebenen Mustertendenz; und Erkennen eines Szenenübergangs in der Videoaufnahme auf der Grundlage des Vergleichsergebnisses. Durch vorgeschlagene Ausführungsformen können somit relativ einfache Techniken zur Daten-/Tendenzanalyse verwendet und dadurch der Aufwand und/oder die Komplexität einer Ausführung verringert werden.
  • Ausführungsformen können auch den erkannten Szenenübergang auf der Grundlage der erkannten Tendenz oder des erkannten Musters in den Konfidenzwerten klassifizieren. Ausführungsformen können deshalb nicht nur das Vorliegen eines Szenenübergangs detektieren, sondern auch einen Typ oder eine Klassifizierung eines detektierten Szenenübergangs erkennen. Zum Beispiel kann aus einer gleichmäßigen, allmählich verlaufenden Verringerung eines Konfidenzwertes für ein detektiertes Objekt in aufeinanderfolgenden Einzelbildern eines Videos abgeleitet werden, dass es sich bei dem Szenenübergang um einen „Überblend“-Übergang handelt, während aus einem plötzlichen, stufenweisem Übergang der Konfidenzwerte für ein detektiertes Objekt in aufeinanderfolgenden Einzelbildern eines Videos abgeleitet werden kann, dass es sich bei dem Szenenübergang um einen „harten“ oder „Schnell-Überblend-"Übergang handelt.
  • Gemäß einigen Ausführungsformen kann ein Detektieren eines Szenenübergangs auf der Grundlage der erhaltenen Werte des Konfidenzmaßes aufweisen: Feststellen des Vorliegens eines Szenenübergangs in der Videoaufnahme als Reaktion darauf, dass die erhaltenen Werte des Konfidenzmaßes in aufeinanderfolgenden Einzelbildern der Videoaufnahme abnehmen. Mit anderen Worten, es wird davon ausgegangen, dass, wenn eine Szene im Verlauf eines Übergangs langsam schwächer oder ausgeblendet wird, die Werte des Konfidenzmaßes für ein detektiertes Objekt in der Szene ebenfalls in dem Maße abnehmen, wie die Szene schwächer/übergeblendet wird. Deshalb können zum Ermitteln des Vorliegens eines Szenenübergangs in der Videoaufnahme relativ einfache Techniken zur Analyse von Datenwerten verwendet werden.
  • Gemäß einer Ausführungsform kann ein Detektieren eines Szenenübergangs auf der Grundlage der erhaltenen Werte des Konfidenzmaßes aufweisen: Feststellen des Vorliegens des Szenenübergangs in der Videoaufnahme als Reaktion darauf, dass die erhaltenen Werte des Konfidenzmaßes in aufeinanderfolgenden Einzelbildern der Videoaufnahme zunehmen. Es wird davon ausgegangen, dass, wenn eine Szene im Verlauf eines Übergangs langsam schwächer oder ausgeblendet wird, die Werte des Konfidenzmaßes für ein detektiertes Objekt in der Szene ebenfalls in dem Maße zunehmen, wie die Szene in der Videoaufnahme schwächer/übergeblendet wird. Auch hier können wiederum zum Ermitteln des Vorliegens des Szenenübergangs in der Videoaufnahme relativ einfache Techniken zur Analyse von Datenwerten verwendet werden.
  • Einige Ausführungsform können ferner aufweisen: Vergleichen der erhaltenen Werte des Konfidenzmaßes mit einem Schwellenwert; und Erkennen eines Beginns und/oder eines Endes des Szenenübergangs auf der Grundlage des Vergleichsergebnisses. Beispielsweise kann ein Erkennen eines Endes des Szenenübergangs aufweisen: Ermitteln von Einzelbildern der Videoaufnahme, für die die erhaltenen Werte des Konfidenzmaßes von einem Wert, der den Schwellenwert überschreitet, bis zu einem Wert abnehmen, der den Schwellenwert nicht überschreitet; und Ermitteln des Endes des Szenenübergangs auf der Grundlage der ermittelten Einzelbilder. Desgleichen kann ein Erkennen eines Beginns des Szenenübergangs aufweisen: Ermitteln von Einzelbildern der Videoaufnahme, für die die erhaltenen Werte des Konfidenzmaßes von einem Wert, der den Schwellenwert nicht überschreitet, bis zu einem Wert zunehmen, der den Schwellenwert überschreitet; und Ermitteln des Beginns des Szenenübergangs auf der Grundlage der ermittelten Einzelbilder. Somit können einfache Techniken zum Vergleichen von Datenwerten verwendet werden, um daraus präzise den Beginn und/oder das Ende eines Szenenübergangs abzuleiten.
  • Gemäß einigen Ausführungsformen kann ein Erhalten von Werten eines Konfidenzmaßes aufweisen: Erhalten eines ersten Wertes des Konfidenzmaßes für das detektierte Objekt in einem ersten Einzelbild der Videoaufnahme; und Erhalten eines zweiten Wertes des Konfidenzmaßes für das detektierte Objekt in einem zweiten, nachfolgenden Einzelbild der Videoaufnahme. Bei dem ersten und dem zweiten Einzelbild der Videoaufnahme kann es sich zum Beispiel um aufeinanderfolgende Einzelbilder der Videoaufnahme handeln.
  • 1 ist ein Blockschaltbild eines beispielhaften Systems 200, in dem Aspekte der anschaulichen Ausführungsformen umgesetzt werden können. Das System 200 ist ein Beispiel eines Computers, beispielsweise ein Client in einem verteilten Datenverarbeitungssystem, in dem ein durch einen Computer verwendbarer Code oder Anweisungen zum Umsetzen der Prozesse für anschauliche Ausführungsformen der vorliegenden Erfindung untergebracht sein können. Das System 200 kann zum Beispiel so beschaffen sein, dass es eine Schnittstellen-Komponente und eine Detektions-Komponente gemäß einer Ausführungsform realisiert.
  • Bei dem gezeigten Beispiel verwendet das System 200 eine North-Bridge und einen Speicher-Controller-Knoten (NB/MCH) 202 und eine South-Bridge und einen Eingabe-/Ausgabe- (E-/A-) Controller-Knoten (SB/ICH) 204. Eine Verarbeitungseinheit 206, ein Hauptspeicher 208 und ein Grafik-Prozessor 210 sind mit dem NB/MCH 202 verbunden. Der Grafik-Prozessor 210 kann durch einen beschleunigten Grafikanschluss (AGP) mit dem NB/MCH 202 verbunden sein.
  • Bei dem gezeigten Beispiel ist mit dem SB/ICH 204 ein LAN- (local area network) Adapter 212 verbunden. Ein Audo-Adapter 216, ein Tastatur- und Maus-Adapter 220, ein Modem 222, ein Nur-Lese-Speicher (read only memory) 224, ein Festplattenlaufwerk (hard disk drive, HDD) 226, ein CD-ROM-Laufwerk 230, ein USB- (universal serial bus)-Anschluss und andere Datenübertragungsanschlüsse 232 sowie PCI/PCIe-Einheiten 234 sind durch einen ersten Bus 238 und einen zweiten Bus 240 mit dem SB/ICH 204 verbunden. Als PCI/PCIe-Einheiten können zum Beispiel Ethernet-Adapter, Steckkarten und PC-Karten für Notebook-Computer infrage kommen. PCI nutzt einen Karten-Bus-Controller, PCle hingegen nicht. Bei dem ROM 224 kann es sich zum Beispiel um ein grundlegendes Eingabe-/Ausgabe-Flash-System (BIOS) handeln.
  • Das HDD 226 und das CD-ROM-Laufwerk 230 sind durch den zweiten Bus 240 mit dem SB/ICH 204 verbunden. Das HDD 226 und das CD-ROM-Laufwerk 230 können zum Beispiel eine IDE- (integrated drive electronics) oder eine SATA- (serial advanced technology attachment) Schnittstelle verwenden. Eine Super-E-/A- (SIO) Einheit 236 kann mit dem SB/ICH 204 verbunden sein.
  • Auf der Verarbeitungseinheit 206 wird ein Betriebssystem ausgeführt. Das Betriebssystem koordiniert und steuert verschiedene Komponenten innerhalb des Systems 200 (oder alternativ des Systems 300 in 2). Als Client kann es sich bei dem Betriebssystem um ein handelsübliches Betriebssystem handeln. Ein objektorientiertes Programmiersystem wie das Programmiersystem Java™ kann in Verbindung mit dem Betriebssystem ausgeführt werden und Aufrufe von Java™-Programmen oder -Anwendungen für das Betriebssystem bereitstellen, die auf dem System 200 ausgeführt werden. Java und alle Warenzeichen und Marken auf der Grundlage von Java sind Warenzeichen oder eingetragene Warenzeichen von Oracle und/oder deren Tochtergesellschaften.
  • Als Server kann es sich bei dem System 200 zum Beispiel um ein Computersystem IBM® eServer™-System P5 p®-system P5® handeln, das das Betriebssystem AIX® (advanced interactive executive) oder das Betriebssystem LINUX® ausführt. Bei dem System 200 kann es sich um ein symmetrisches Mehrprozessor- (SMP-) System mit einer Mehrzahl Prozessoren in der Verarbeitungseinheit 206 handeln. Alternativ kann ein Einzelprozessor-System verwendet werden. IBM eserver, System p5, AIX sind Warenzeichen von International Business Machines Corporation, die weltweit in vielen Rechtssystemen eingetragen sind. Das eingetragene Warenzeichen Linux® wird unter einer Teillizenz der Linux-Stiftung als ausschließlicher Lizenzinhaber von Linus Thorvalds genutzt, die weltweit Inhaber der Markenrechte ist. Anweisungen für das Betriebssystem, das Programmiersystem und Anwendungen oder Programme sind auf Speichereinheiten wie dem HDD 226 untergebracht und können zum Ausführen durch die Verarbeitungseinheit 206 in den Hauptspeicher 208 geladen werden. Desgleichen können ein oder mehrere Nachrichten-Verarbeitungsprogramme gemäß einer Ausführungsform zum Speichern durch die Speichereinheiten und/oder den Hauptspeicher 208 angepasst werden.
  • Die Prozesse für anschauliche Ausführungsformen der vorliegenden Erfindung können durch die Verarbeitungseinheit 206 unter Verwendung eines durch einen Computer nutzbaren Programmcodes ausgeführt werden, der in einem Speicher wie zum Beispiel dem Hauptspeicher 208, dem ROM 224 oder in einer oder mehreren Peripherieeinheiten 226 und 230 untergebracht ist.
  • Ein Bussystem wie der in 2 gezeigte erste Bus 238 oder der zweite Bus 240 kann einen oder mehrere Busse aufweisen. Das Bussystem kann natürlich unter Verwendung eines beliebigen Typs von Datenübertragungsstruktur oder -architektur realisiert werden, das für eine Übertragung von Daten zwischen verschiedenen an das System oder die Architektur angeschlossenen Komponenten oder Einheiten sorgt. Eine Datenübertragungseinheit wie der Modem 222 oder der Netzwerk-Adapter 212 von 1 kann eine oder mehrere Einheiten zum Senden und Empfangen von Daten umfassen. Als Speicher können zum Beispiel der Hauptspeicher 208, der ROM 224 oder ein Cache infrage kommen, wie sie im NB/MCH 202 in 1 enthalten sind.
  • Dem Fachmann dürfte einsichtig sein, dass die Hardware von 1 je nach Ausführung variieren kann. Zusätzlich oder anstelle der in 1 gezeigten Hardware können andere interne Hardware oder Peripherieeinheiten wie Flash-Speicher, vergleichbare nichtflüchtige Speicher oder optische Plattenlaufwerke und dergleichen verwendet werden. Außerdem können die Prozesse der anschaulichen Ausführungsformen auf ein von dem oben erwähnten System verschiedenes Mehrprozessor-Datenverarbeitungssystem angewendet werden, ohne vom Schutzumfang der vorliegenden Erfindung abzuweichen.
  • Darüber hinaus kann das System 200 die Form einer Anzahl verschiedener Datenverarbeitungssysteme annehmen, darunter Client-Datenverarbeitungseinheiten, Server-Datenverarbeitungseinheiten, ein Tablet-Computer, ein Laptop-Computer, ein Telefon oder eine andere Datenübertragungseinheit, ein persönlicher digitaler Assistent (PDA) oder dergleichen. Gemäß einigen anschaulichen Beispielen kann es sich bei dem System 200 um eine tragbare Datenverarbeitungseinheit handelt, die mit einem Flash-Speicher ausgestattet ist, um einen nichtflüchtigen Speicher zum Beispiel zum Speichern von Betriebssystem-Dateien und/oder vom Benutzer erzeugten Daten bereitzustellen. Somit kann es sich bei dem System 200 im Wesentlichen um ein beliebiges oder später zu entwickelndes Datenverarbeitungssystem ohne architektonische Einschränkung handeln.
  • 2 zeigt ein vereinfachtes Blockschaubild einer beispielhaften Ausführungsform des Systems 200 (bezeichnet als System 300) zum Detektieren eines Szenenübergangs in einer Videoaufnahme 310.
  • Das System 200 weist eine Schnittstellen-Komponente 320 zum Erhalten eines Wertes eines Konfidenzmaßes (d.h. eines Konfidenzwertes) für ein detektiertes Objekt in jedem aus einer Mehrzahl verschiedener Einzelbilder der Videoaufnahme auf.
  • Bei diesem Beispiel ist die Schnittstellen-Komponente 320 so beschaffen, dass sie einen ersten Wert des Konfidenzmaßes für das detektierte Objekt in einem ersten Einzelbild der Videoaufnahme und einen zweiten Wert des Konfidenzmaßes für das detektierte Objekt in einem zweiten, nachfolgenden Einzelbild der Videoaufnahme erhält. Genauer gesagt, die Schnittstellen-Komponente 320 erhält eine Mehrzahl von Werten des Konfidenzmaßes für das detektierte Objekt in einer entsprechenden Mehrzahl aufeinanderfolgender Einzelbilder der Videoaufnahme.
  • Hier erhält die Schnittstellen-Komponente 320 Konfidenzwerte von einem Video-Prozessor 330. Bei dem Video-Prozessor 300 dieses Beispiels handelt es sich um ein herkömmliches Videobearbeitungs-System zum Bearbeiten einer empfangenen Videoaufnahme und um als Ergebnis einer solchen Bearbeitung Objekte in der Videoaufnahme zu detektieren und zugehörige Konfidenzwerte zu ermitteln. Auf diese Weise kann der Video-Prozessor 330 einen oder mehrere bekannte und verfügbare Algorithmen zum Detektieren von Objekten verwenden und Konfidenzwerte für detektierte Objekte ermitteln.
  • Das System 200 zum Detektieren eines Szenenübergangs in einer Videoaufnahme 310 weist auch eine Detektions-Komponente 340 auf. Die Detektions-Komponente 340 dient zum Detektieren eines Szenenübergangs in der Videoaufnahme auf der Grundlage der erhaltenen Werte des Konfidenzmaßes.
  • Bei dem Beispiel von 2 weist die Detektions-Komponente 340 eine Analyse-Komponente 350 und einen Prozessor 360 auf. Die Analyse-Komponente 350 analysiert die erhaltenen Werte des Konfidenzmaßes, um eine Tendenz oder ein Muster der Werte des Konfidenzmaßes für eine Mehrzahl der verschiedenen Einzelbilder der Videoaufnahme zu erkennen. Ferner erkennt der Prozessor 360 einen Szenenübergang in der Videoaufnahme auf der Grundlage der erkannten Tendenz oder des erkannten Musters der Konfidenzwerte.
  • Beispielsweise stellt der Prozessor 360 der Detektions-Komponente 340 als Reaktion auf ein Abnehmen der erhaltenen Werte des Konfidenzmaßes für aufeinanderfolgende Einzelbilder der Videoaufnahme beispielsweise das Vorliegen eines Szenenübergangs in der Videoaufnahme 310 fest. Als Reaktion auf ein Zunehmen der erhaltenen Werte des Konfidenzmaßes für aufeinanderfolgende Einzelbilder der Videoaufnahme stellt der Prozessor 360 der Detektions-Komponente 340 das Vorliegen eines Szenenübergangs in der Videoaufnahme 310 fest.
  • Bei dem Beispiel von 2 weist die Detektions-Komponente 340 auch eine Vergleichseinheit 370 zum Vergleichen der erhaltenen Werte des Konfidenzmaßes mit einem Schwellenwert auf. Die Detektions-Komponente 340 dient zum Erkennen eines Beginns und/oder eines Endes des Szenenübergangs auf der Grundlage des durch die Vergleichseinheit 370 erhaltenen Vergleichsergebnisses. Zum Erkennen eines Beginns des Szenenübergangs ermittelt die Detektions-Komponente 340 zum Beispiel Einzelbilder der Videoaufnahme, bei denen die erhaltenen Werte des Konfidenzmaßes von einem Wert, der den Schwellenwert nicht überschreitet, bis auf einen Wert zunehmen, der den Schwellenwert überschreitet. Desgleichen ermittelt die Detektions-Komponente 340 zum Erkennen eines Endes des Szenenübergangs Einzelbilder der Videoaufnahme, bei denen die erhaltenen Werte des Konfidenzmaßes von einem Wert, der den Schwellenwert überschreitet, bis auf einen Wert abnehmen, der den Schwellenwert nicht überschreitet.
  • Nunmehr wird das Konzept zum Analysieren erhaltener Werte des Konfidenzmaßes zum Detektieren eines Szenenübergangs in der Videoaufnahme gemäß vorgeschlagenen Ausführungsformen unter Bezugnahme auf ein weiteres Beispiel näher beschrieben.
  • Die folgenden Schritte (i) bis (viii) beschreiben ein Beispiel einer Videoaufnahme, bei der ein Videoclip (d.h. eine erste Szene) eines Hundes und einer Katze auf einem Sofa zu einer Aufnahme (d.h. einer zweiten Szene) eines im Freien stehenden Mannes mit seinem Auto und Motorrad übergeht. Gemäß einer vorgeschlagenen Ausführungsform soll ein Übergang zwischen diesen beiden Szenen detektiert werden.
    • (i) Zum Detektieren von Objekten in der Videoaufnahme und zugehöriger Konfidenzwerte werden existierende, einzelbildweise arbeitende faltende neuronale Netzwerke (convolutional neural netzworks, CNNs) verwendet. Als Beispiel werden für die detektierten Objekte und die zugehörigen Konfidenzwerte in dem ersten und dem zweiten Einzelbild der Videoaufnahme die in der folgenden Tabelle 1 angegebenen Werte ermittelt:
    Tabelle 1
    Einzelbild Objekt Position (x_min, y_min, x_max, y_max) Konfidenzwert
    1 Hund 23,12,31,24 90%
    1 Katze 45,37,54,52 93%
    1 Sofa 12,25,40,35 96%
    2 Hund 24,9,30,22 91%
    2 Katze 47,32,58,56 90%
    2 Sofa 12,25,40,35 95%
    • (ii) Wiederholen mit allen Einzelbildern des Objekt-Detektors unter Verwendung einer Gleitfenstermethode führt zu Serien, z.B. mit einer Seriengröße von 100 und einer Fenstergröße von 5. 3 zeigt ein Beispiel, wie die Konfidenzwerte für detektierte Objekte zwischen Einzelbildern der Videoaufnahme variieren. In dem gezeigten Beispiel zeigen die Prozentwerte den Konfidenzwert (d.h. des Werts des Konfidenzmaßes) für ein detektiertes Objekt in einem Einzelbild der Videoaufnahme an. Zum Darstellen der Änderungen der Konfidenzwerte sind die Pfeile mit variierenden Grauschattierungen dargestellt, wobei eine hellere Schattierung einen niedrigeren Konfidenzwert darstellt. Zum Beispiel nimmt der Konfidenzwert für den detektierten Hund von dem Wert von 90% im Einzelbild Nr. 1 bis auf 47% etwa im Einzelbild Nr. 57 ab. Diese Abnahme des Konfidenzwertes im Verlauf der Einzelbilder des Videos wird dargestellt, indem die Pfeilfläche von dunkler Schattierung (für das Einzelbild Nr. 1) zu hellerer Schattierung (für das Einzelbild Nr. 57) variiert.
    • (iii) Unter Verwendung der durch den Ausgabewert des Objekt-Detektors bereitgestellten Positions-Informationen wird Objekten eine einzigartige ID zugeteilt, und die Objekte werden Bild für Bild nachverfolgt. Zu beachten ist, dass beim Vorkommen mehrerer Objekte vom selben Typ jedem Objekt eine andere ID zugeteilt wird. Einzelne Objekte können unter Verwendung einer plausiblen Abschätzung der zu erwartenden Bewegung jedes Objekttyps nachverfolgt werden (z.B. anhand der vom Objekt-Detektor vorhergesagten Klassenbezeichnungen). Dies kann vor einem Wiederholen mit allen Einzelbildern berechnet werden.
    • (iv) Der Konfidenzwert jedes einzigartigen Objekts wird Bild für Bild überwacht, was durch die verlaufende Schattierung in 3 angezeigt wird.
    • (v) Wenn ein neuer Satz Objekte erscheint (z.B. Objekte mit einem Konfidenzwert, der einen Schwellenwert von 30% überschreitet) und dies mit einer gleichzeitigen Abnahme des Konfidenzwertes der aktuell auf dem Bildschirm zu sehenden vorhergehenden Objekte zusammenfällt, wird daraus abgeleitet, dass dies den Beginn eines Überblendübergangs anzeigt (z.B. ab dem Einzelbild Nr. 45 in 3).
    • (vi) Wenn der Konfidenzwert der neuen Objekte weiter zunimmt und der Konfidenzwert der älteren Objekte über den Schwellenwert von 30% hinaus weiter abnimmt, wird hierdurch das Ende des Überblendübergangs angezeigt (Einzelbild Nr. 60 in 3).
    • (vii) Wenn zu einem bestimmten Zeitpunkt die obigen Bedingungen (v) & (vi) nicht erfüllt sind, werden die Anfangs- und Endpositionen aus dem temporären Speicher entfernt, da kein Überblendübergang vorliegt. Zu beachten ist, dass die dem einzigartigen Objekt zugeteilte ID-Information zum Ermitteln verwendet werden kann, ob dieses Objekt noch sichtbar ist.
    • (viii) Dieser Prozess wird für alle Einzelbildserien in der Videoaufnahme wiederholt.
  • Anhand des obigen Beispiels dürfte einsichtig sein, dass vorgeschlagene Ausführungsformen einen Übergang aus den erhaltenen Werten des Konfidenzmaßes ableiten können, die im Verlauf aufeinanderfolgender Einzelbilder des Videos einen Schwellenwert überqueren. Zum Beispiel kann eine Abnahme eines Konfidenzwertes eines ersten detektierten Objekts, die mit dem zeitlichen Ablauf einer Zunahme eines Konfidenzwertes eines zweiten detektierten Objekts übereinstimmt oder entspricht, einen Überblendübergang (gezeigt durch die Darstellung in 3) anzeigen. Ferner können ein Start- und/oder Endzeitpunkt des Übergangs auf der Grundlage der Einzelbilder erkannt werden, bei denen der Konfidenzwert einen vorgegebenen Schwellenwert (der einstellbar ist) überquert.
  • Gemäß einem weiteren in 4 veranschaulichten Beispiel können Ausführungsformen ein Computersystem 70 aufweisen, das einen Teil eines vernetzten Systems 7 bilden kann. Zum Beispiel kann ein System zum Detektieren eines Szenenübergangs in einer Videoaufnahme durch das Computersystem 70 realisiert werden. Als Komponenten des Computersystems/Servers 70 können, ohne darauf beschränkt zu sein, eine oder mehrere Verarbeitungseinrichtungen infrage kommen, die zum Beispiel Prozessoren oder Verarbeitungseinheiten 71, einen Systemspeicher 74 und einen Bus 90 aufweisen, der verschiedene System-Komponenten miteinander verbindet, darunter den Systemspeicher 74 mit der Verarbeitungseinheit 71.
  • Der Systemspeicher 74 kann durch ein Computersystem lesbare Medien in Form eines flüchtigen Speichers umfassen, beispielsweise ein Direktzugriffsspeicher (random access memory, RAM) 75 und/oder ein Cache 76. Ferner kann das Computersystem/der Server 70 andere entnehmbare/nicht entnehmbare, flüchtige/nichtflüchtige Speichermedien des Computersystems umfassen. In solchen Fällen kann jedes Medium durch eine oder mehrere Datenmedien-Schnittstellen mit dem Bus 90 verbunden sein. Der Speicher 74 kann mindestens ein Computerprogrammprodukt mit einem Satz (z.B. mindestens einem) Programmmodule enthalten, die zum Ausführen der Funktionen vorgeschlagener Ausführungsformen vorgesehen sind. Zum Beispiel kann der Speicher 74 ein Computerprogrammprodukt mit einem durch die Verarbeitungseinheit 71 ausführbaren Programm enthalten, um das System gemäß einer vorgeschlagenen Ausführungsform zum Durchführen eines Verfahrens zum Detektieren eines Szenenübergangs in einer Videoaufnahme zu veranlassen.
  • Ein Programm/Dienstprogramm 78 mit einem Satz (mindestens einem) Programmmodule 79 kann in dem Speicher 74 gespeichert sein. Die Programmmodule 79 führen im Allgemeinen die Funktionen und/oder Verfahrensweisen vorgeschlagener Ausführungsformen zum Detektieren eines Szenenübergangs in einer Videoaufnahme aus.
  • Das Computersystem/der Server 70 kann auch Daten mit einer oder mehreren externen Einheiten 80 wie eine Tastatur, eine Zeigereinheit, ein Bildschirm 85 usw.; eine oder mehrere Einheiten, die einen Benutzer zum Interagieren mit dem Computersystem/Server 70 befähigen; und/oder beliebige Einheiten (z.B. einer Netzwerkkarte, einem Modem usw.) austauschen, die das Computersystem/den Server 70 befähigen, Daten mit einer oder mehreren Datenverarbeitungseinheiten auszutauschen. Ein solches Austauschen von Daten kann über Eingabe-/Ausgabe- (E-/A-) Schnittstellen 72 erfolgen. Weiterhin kann das Computersystem/der Server 70 Daten mit einem oder mehreren Netzwerken wie ein lokales Netzwerk (local area network, LAN), ein allgemeines Weitverkehrsnetzwerk (wide area network, WAN), und/oder ein öffentliches Netzwerk (z.B. das Internet) über einen Netzwerkadapter 73 austauschen (z.B., um einem System oder einem Benutzer neu geschaffene Inhalte zu übermitteln).
  • In Verbindung mit der vorliegenden Anmeldung, in der Ausführungsformen der vorliegenden Erfindung ein Verfahren darstellen, sollte klar sein, dass es sich bei einem solchen Verfahren um einen durch einen Computer auszuführenden Prozess, d.h. ein computergestütztes Verfahren, handelt. Deshalb widerspiegeln die verschiedenen Schritte des Verfahrens verschiedene Teile eines Computerprogramms, z.B. verschiedene Teile eines oder mehrerer Algorithmen.
  • Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt handeln. Das Computerprogrammprodukt kann ein durch einen Computer lesbares Speichermedium (oder -medien) mit durch einen Computer lesbaren Programmanweisungen darauf umfassen, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
  • Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch ein System zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine auswechselbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein Speicherklassenspeicher (SCM), ein statischer Direktzugriffsspeicher (SRAM), ein auswechselbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch kodierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. ein Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
  • Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server umfassen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
  • Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
  • Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaltbilder bzw. Schaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaltbildern bzw. Schaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
  • Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt umfasst, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaltbilder bzw. Schaubilder angegebenen Funktion/Schritts umsetzen.
  • Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte umsetzen.
  • Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaltbildern bzw. Schaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) umfassen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaltbilder bzw. Schaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaltbildern bzw. Schaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
  • Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung sind zum Veranschaulichen vorgelegt worden, erheben jedoch nicht den Anspruch auf Vollständigkeit oder Einschränkung auf die offenbarten Ausführungsformen. Dem Fachmann dürften viele Änderungen und Varianten offensichtlich sein, ohne vom Schutzumfang der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendeten Begriffe wurden gewählt, um die Grundgedanken der Ausführungsformen, deren praktische Anwendung oder technische Verbesserung gegenüber handelsüblichen Technologien bestmöglich zu erläutern oder anderen Fachleuten das Verständnis der hierin offenbarten Ausführungsformen zu ermöglichen.

Claims (20)

  1. Computergestütztes Verfahren zum Detektieren eines Szenenübergangs in einer Videoaufnahme, wobei das Verfahren aufweist: Erhalten eines Wertes eines Konfidenzmaßes, das einem detektierten Objekt in dem Einzelbild zugehörig ist, für jedes aus der Mehrzahl verschiedener Einzelbilder einer Videoaufnahme; und Detektieren eines Szenenübergangs in der Videoaufnahme auf der Grundlage der erhaltenen Werte des Konfidenzmaßes.
  2. Verfahren nach Anspruch 1, wobei das Detektieren eines Szenenübergangs auf der Grundlage der erhaltenen Werte des Konfidenzmaßes aufweist: Analysieren der erhaltenen Werte des Konfidenzmaßes zum Erkennen einer Tendenz oder eines Musters in den Werten des Konfidenzmaßes im Verlauf der Mehrzahl verschiedener Einzelbilder in der Videoaufnahme; und Erkennen des Szenenübergangs in der Videoaufnahme auf der Grundlage der erkannten Tendenz oder des Musters in den Konfidenzwerten.
  3. Verfahren nach Anspruch 2, wobei das Erkennen eines Szenenübergangs aufweist: Vergleichen der erkannten Tendenz oder des Musters in den Konfidenzwerten mit einer vorgegebenen Mustertendenz; und Erkennen des Szenenübergangs in der Videoaufnahme auf der Grundlage des Vergleichsergebnisses.
  4. Verfahren nach einem der Ansprüche 2 oder 3, das ferner aufweist: Klassifizieren des erkannten Szenenübergangs auf der Grundlage der erkannten Tendenz oder des erkannten Musters in den Konfidenzwerten.
  5. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Detektieren eines Szenenübergangs auf der Grundlage der erhaltenen Werte des Konfidenzmaßes aufweist: Feststellen des Vorliegens eines Szenenübergangs in der Videoaufnahme als Reaktion auf ein Abnehmen der erhaltenen Werte des Konfidenzmaßes im Verlauf aufeinanderfolgender Einzelbilder der Videoaufnahme.
  6. Verfahren nach einem der Ansprüche 1 bis 4, wobei das Detektieren eines Szenenübergangs auf der Grundlage der erhaltenen Werte des Konfidenzmaßes aufweist: Feststellen des Vorliegens eines Szenenübergangs in der Videoaufnahme als Reaktion auf ein Zunehmen der erhaltenen Werte des Konfidenzmaßes im Verlauf aufeinanderfolgender Einzelbilder der Videoaufnahme.
  7. Verfahren nach einem der vorhergehenden Ansprüche, das ferner aufweist: Vergleichen der erhaltenen Werte des Konfidenzmaßes mit einem Schwellenwert; und Erkennen eines Beginns und/oder eines Endes des Szenenübergangs auf der Grundlage des Vergleichsergebnisses.
  8. Verfahren nach Anspruch 7, wobei das Erkennen eines Endes des Szenenübergangs aufweist: Ermitteln von Einzelbildern der Videoaufnahme, bei denen die erhaltenen Werte des Konfidenzmaßes von einem Wert, der den Schwellenwert überschreitet, bis zu einem Wert abnehmen, der den Schwellenwert nicht überschreitet; und Ermitteln des Endes des Szenenübergangs auf der Grundlage der ermittelten Einzelbilder.
  9. Verfahren nach Anspruch 7, wobei das Erkennen eines Beginns des Szenenübergangs aufweist: Ermitteln von Einzelbildern der Videoaufnahme, bei denen die erhaltenen Werte des Konfidenzmaßes von einem Wert, der den Schwellenwert nicht überschreitet, bis zu einem Wert zunehmen, der den Schwellenwert überschreitet; und Ermitteln des Beginns des Szenenübergangs auf der Grundlage der ermittelten Einzelbilder.
  10. Verfahren nach einem der vorhergehenden Ansprüche, wobei das Erhalten von Werten eines Konfidenzmaßes aufweist: Erhalten eines ersten Wertes des Konfidenzmaßes für das detektierte Objekt in einem ersten Einzelbild der Videoaufnahme; und Erhalten eines zweiten Wertes des Konfidenzmaßes für das detektierte Objekt in einem zweiten, nachfolgenden Einzelbild der Videoaufnahme.
  11. Verfahren nach Anspruch 10, wobei es sich bei dem ersten und dem zweiten Einzelbild der Videoaufnahme um aufeinanderfolgende Einzelbilder der Videoaufnahme handelt.
  12. Computerprogrammprodukt zum Detektieren eines Szenenübergangs in einer Videoaufnahme, wobei das Computerprogrammprodukt aufweist: ein durch einen Computer lesbares Speichermedium, das durch eine Verarbeitungsschaltung lesbar ist und in dem Anweisungen zum Ausführen durch die Verarbeitungsschaltung gespeichert sind, um ein Verfahren nach einem der Ansprüche 1 bis 11 durchzuführen.
  13. Computerprogramm, das auf einem durch einen Computer lesbaren Medium gespeichert und in den Arbeitsspeicher eines digitalen Computers ladbar ist und Teile von Softwarecode zum Durchführen des Verfahrens nach einem der Ansprüche 1 bis 11 aufweist, wenn das Programm auf einem Computer ausgeführt wird.
  14. System zum Detektieren eines Szenenübergangs in einer Videoaufnahme, wobei das System einen oder mehrere Prozessoren und ein oder mehrere physische Speichermedien aufweist, in denen Programmieranweisungen zum Ausführen durch den einen oder mehrere Prozessoren gespeichert sind, wobei die Programmieranweisungen Anweisungen aufweisen zum: Erhalten eines Wertes eines Konfidenzmaßes für ein detektiertes Objekt in dem Einzelbild über eine Schnittstelle für jedes aus einer Mehrzahl verschiedener Einzelbild der Videoaufnahme; und Detektieren eines Szenenübergangs in der Videoaufnahme auf der Grundlage der erhaltenen Werte des Konfidenzmaßes.
  15. System nach Anspruch 14, wobei die Anweisungen zum Detektieren Anweisungen aufweisen zum: Analysieren der erhaltenen Werte des Konfidenzmaßes zum Erkennen einer Tendenz oder eines Musters in den Werten des Konfidenzmaßes im Verlauf der Mehrzahl verschiedener Einzelbilder der Videoaufnahme; und Erkennen eines Szenenübergangs in der Videoaufnahme auf der Grundlage der erkannten Tendenz oder des erkannten Musters in den Konfidenzwerten.
  16. System nach einem der Ansprüche 14 oder 15, wobei das Detektieren aufweist: Feststellen des Vorliegens des Szenenübergangs in der Videoaufnahme als Reaktion auf ein Abnehmen der erhaltenen Werte des Konfidenzmaßes im Verlauf aufeinanderfolgender Einzelbilder der Videoaufnahme.
  17. System nach einem der Ansprüche 14 oder 15, wobei das Detektieren aufweist: Feststellen des Vorliegens des Szenenübergangs in der Videoaufnahme als Reaktion auf ein Zunehmen der erhaltenen Werte des Konfidenzmaßes im Verlauf aufeinanderfolgender Einzelbilder der Videoaufnahme.
  18. System nach einem der Ansprüche 14, bis 17, wobei das Detektieren aufweist: Vergleichen der erhaltenen Werte des Konfidenzmaßes mit einem Schwellenwert; und Erkennen eines Beginns und/oder eines Endes des Szenenübergangs auf der Grundlage des Vergleichsergebnisses.
  19. System nach Anspruch 18, wobei das Erkennen eines Beginns des Szenenübergangs aufweist: Ermitteln von Einzelbildern der Videoaufnahme, bei denen die erhaltenen Werte des Konfidenzmaßes von einem Wert, der den Schwellenwert nicht überschreitet, bis zu einem Wert zunehmen, der den Schwellenwert überschreitet; und Ermitteln des Beginns des Szenenübergangs auf der Grundlage der ermittelten Einzelbilder.
  20. System nach einem der Ansprüche 14 bis 19, wobei das Erhalten eines Wertes eines Konfidenzmaßes aufweist: Erhalten eines ersten Wertes des Konfidenzmaßes für das detektierte Objekt in einem ersten Einzelbild der Videoaufnahme; und Erhalten eines zweiten Wertes des Konfidenzmaßes für das detektierte Objekt in einem zweiten, nachfolgenden Einzelbild der Videoaufnahme.
DE112020004774.1T 2019-11-15 2020-11-11 Detektieren von szenenübergängen in videoaufnahmen Pending DE112020004774T5 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/684,747 US11227160B2 (en) 2019-11-15 2019-11-15 Detecting scene transitions in video footage
US16/684,747 2019-11-15
PCT/IB2020/060606 WO2021094939A1 (en) 2019-11-15 2020-11-11 Detecting scene transitions in video footage

Publications (1)

Publication Number Publication Date
DE112020004774T5 true DE112020004774T5 (de) 2022-09-01

Family

ID=75909514

Family Applications (1)

Application Number Title Priority Date Filing Date
DE112020004774.1T Pending DE112020004774T5 (de) 2019-11-15 2020-11-11 Detektieren von szenenübergängen in videoaufnahmen

Country Status (7)

Country Link
US (1) US11227160B2 (de)
JP (1) JP2023501417A (de)
CN (1) CN114731410A (de)
AU (1) AU2020383008B2 (de)
DE (1) DE112020004774T5 (de)
GB (1) GB2606293B (de)
WO (1) WO2021094939A1 (de)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3850542A1 (de) * 2018-09-11 2021-07-21 Telefonaktiebolaget Lm Ericsson (Publ) Verfahren zum zuordnen von objekten in einem video

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2914170B2 (ja) 1994-04-18 1999-06-28 松下電器産業株式会社 映像変化点検出方法
US8107015B1 (en) 1996-06-07 2012-01-31 Virage, Incorporated Key frame selection
US6735253B1 (en) 1997-05-16 2004-05-11 The Trustees Of Columbia University In The City Of New York Methods and architecture for indexing and editing compressed video over the world wide web
JP4858290B2 (ja) 2006-06-05 2012-01-18 株式会社デンソー 負荷駆動装置
US8063929B2 (en) * 2007-05-31 2011-11-22 Eastman Kodak Company Managing scene transitions for video communication
EP2383665B1 (de) * 2009-01-23 2017-10-25 Nec Corporation Vorrichtung zur extraktion von vergleichsgewichtungsinformationen
KR101290023B1 (ko) * 2009-01-29 2013-07-30 닛본 덴끼 가부시끼가이샤 영상 시그니처 생성 디바이스
US8237771B2 (en) 2009-03-26 2012-08-07 Eastman Kodak Company Automated videography based communications
US8798160B2 (en) * 2009-11-06 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus for adjusting parallax in three-dimensional video
US8818037B2 (en) * 2012-10-01 2014-08-26 Microsoft Corporation Video scene detection
US20140176802A1 (en) 2012-12-21 2014-06-26 Nvidia Corporation Detection and measurement of video scene transitions
CN106162181B (zh) 2015-04-09 2019-03-05 杭州海康威视数字技术股份有限公司 视频编码中背景图像的更新方法及其装置
WO2017164640A1 (en) * 2016-03-22 2017-09-28 Jam2Go, Inc. System and method for editing video contents automatically technical field
US10154198B2 (en) * 2016-10-28 2018-12-11 Qualcomm Incorporated Power saving techniques for an image capture device
CN108804980B (zh) * 2017-04-28 2022-01-04 阿里巴巴(中国)有限公司 视频场景切换检测方法及装置
US11042754B2 (en) * 2017-05-05 2021-06-22 Google Llc Summarizing video content
US10628676B2 (en) * 2017-08-25 2020-04-21 Tiny Pixels Technologies Inc. Content delivery system and method for automated video overlay insertion
EP3687863A4 (de) * 2017-09-29 2020-12-02 Netradyne, Inc. Bestimmung eines mehrfach-belichtungsereignisses
US10417501B2 (en) 2017-12-06 2019-09-17 International Business Machines Corporation Object recognition in video
KR102442114B1 (ko) * 2017-12-20 2022-09-07 삼성전자주식회사 이미지의 특성에 기반하여 픽셀의 소스 구동을 제어하기 위한 전자 장치 및 전자 장치를 이용한 영상 출력 방법
EP3550834A1 (de) * 2018-04-06 2019-10-09 Comcast Cable Communications LLC Kodierung von video-crossfades durch verwendung gewichteter interprädiktion
US11032567B2 (en) * 2018-07-20 2021-06-08 Intel Corporation Automatic adaptive long term reference frame selection for video process and video coding
KR102644126B1 (ko) * 2018-11-16 2024-03-07 삼성전자주식회사 영상 처리 장치 및 그 동작 방법
US10853953B2 (en) * 2019-04-12 2020-12-01 Logitech Europe S.A. Video content activity context and regions
CN112084826A (zh) * 2019-06-14 2020-12-15 北京三星通信技术研究有限公司 图像处理方法、图像处理设备以及监控系统
US11004473B2 (en) * 2019-06-24 2021-05-11 Sage Learning Inc. Methods and systems for annotation and truncation of media assets
US11600067B2 (en) * 2019-09-12 2023-03-07 Nec Corporation Action recognition with high-order interaction through spatial-temporal object tracking
US11157722B2 (en) * 2019-10-10 2021-10-26 Unisys Corporation Systems and methods for facial recognition in a campus setting

Also Published As

Publication number Publication date
WO2021094939A1 (en) 2021-05-20
CN114731410A (zh) 2022-07-08
US20210150216A1 (en) 2021-05-20
GB2606293A (en) 2022-11-02
GB2606293B (en) 2023-11-01
AU2020383008A1 (en) 2022-04-28
JP2023501417A (ja) 2023-01-18
AU2020383008B2 (en) 2023-11-02
US11227160B2 (en) 2022-01-18
GB202208763D0 (en) 2022-07-27

Similar Documents

Publication Publication Date Title
DE102018115440A1 (de) Techniken zum Trainieren tiefer neuronaler Netzwerke
DE112016002175T5 (de) Entitätsbasierte temporale Segmentierung von Videostreams
DE112019002948T5 (de) Feststellen einer optimalen speicherumgebung für datensätze und für das migrieren von datensätzen
DE112017001311T5 (de) System und Verfahren zum Trainieren eines Objektklassifikators durch maschinelles Lernen
DE10214079A1 (de) Bewegungs- und tonerfassungsgestützte Web-Cam- und Bandbreiten-Steuerung
DE112020000279T5 (de) Erlernen eines erkennungsmodells unter verwenden einer verlustfunktion
DE112015000218T5 (de) Verfahren, System und Computerprogramm zum Abtasten einer Mehrzahl von Speicherbereichen in einem Arbeitsspeicher nach einer spezifizierten Anzahl von Ergebnissen
DE60214721T2 (de) Aufnahmespur für verbesserte videokompression
DE112012004809T5 (de) Kantenverfolgung mit Hysterese-Schwellenwertbildung
DE112018001290T5 (de) Verfahren zum Schätzen der Löschbarkeit von Datenobjekten
EP3029628A1 (de) Verfahren zum Erzeugen eines Trainingsbildes
DE112020000906B4 (de) Schrittweise 3d-punktwolkensegmentierung in objekt und hintergrund aus erfassungssitzungen
DE112020005732T5 (de) Erzeugen von trainingsdaten zur objekterkennung
DE102017005964A1 (de) Techniken zum Auswählen von Objekten in Bildern
DE112016006922T5 (de) Erkennung einer Aktivität in einer Videobildfolge anhand von Tiefeninformationen
DE102008013789A1 (de) Vorrichtung, Verfahren und Programm zum Eliminieren von Zeichenstörungen
DE112020004920T5 (de) Verfolgen von datenstromobjekten mit verzögerter objekterkennung
DE112021000371T5 (de) Digitale bildbearbeitung
DE112020004774T5 (de) Detektieren von szenenübergängen in videoaufnahmen
DE102019103279A1 (de) Techniken zur informationsgraphenkomprimierung
DE112021002291T5 (de) Verringern von ressourcenkosten bei visueller erkennung
DE112021005678T5 (de) Normieren von OCT-Bilddaten
BE1029610B1 (de) Systeme und Verfahren zum Verbessern einer Performanz einer trainierbaren optischen Zeichenerkennung (OCR)
EP3719651A1 (de) Verfahren zur charakterisierung des betriebszustands eines computersystems
DE112021004729T5 (de) Dreifarben-bitmap-array zur garbage-collection

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R084 Declaration of willingness to licence