DE112021000178T5

DE112021000178T5 - Erzeugen von synchronisierten tönen aus videos

Info

Publication number: DE112021000178T5
Application number: DE112021000178.7T
Authority: DE
Inventors: Yang Zhang; Chuang Gan; Dakuo Wang
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-01-16
Filing date: 2021-01-11
Publication date: 2022-09-22
Also published as: GB2607485A; GB202211297D0; KR20220106774A; AU2021207726B2; AU2021207726A1; US11039043B1; WO2021144679A1; JP2023510402A; CN114787920A

Abstract

Ausführungsformen beschreiben hierin einen Audio-Weiterleitungs-Regulierer und einen Informations-Engpass, die beim Trainieren eines Systems für maschinelles Lernen (ML) verwendet werden. Der Audio-Weiterleitungs-Regulierer empfängt Audio-Trainingsdaten und erkennt visuell unpassende und passende Töne in den Trainingsdaten. Durch Steuern des Informations-Engpasses leitet der Audio-Weiterleitungs-Regulierer Daten zu einem Generator weiter, die in erster Linie in Beziehung mit den visuell unpassenden Tönen stehen, während die visuell passenden Töne herausgefiltert werden. Der Generator empfängt auch Daten in Bezug auf visuelle Objekte von einem visuellen Codierer, die von den visuellen Trainingsdaten abgeleitet wurden. Während des Trainierens empfängt der Generator somit die visuellen Objekte betreffende Daten und die visuell unpassende Töne betreffende Daten (jedoch nur wenige oder keine die visuell passenden Töne betreffende Daten). Während der Bearbeitungsphase kann der Generator somit Töne erzeugen, die zu den visuellen Objekten passen, ohne gleichzeitig den Videos visuell unpassende Töne hinzuzufügen.

Description

HINTERGRUND
Die vorliegende Erfindung betrifft ein Erkennen visuell passender im Verhältnis zu visuell unpassenden Tönen aus Trainingsdaten und insbesondere ein Trainieren eines Tonerzeugungssystems unter Verwendung visuell unpassender Töne.
HINTERGRUND DER ERFINDUNG
Verschiedene visuelle Ereignisse im täglichen Leben sind für gewöhnlich von verschiedenen Tönen begleitet. In vielen Fällen stehen visuelle Ereignisse und Töne in einer engen Beziehung zueinander, sodass sich instinktiv schlussfolgern lässt, welche Töne beim Beobachten der visuellen Ereignisse entstehen würden. Während die Korrelation zwischen visuellen Ereignissen und Tönen einerseits bei Menschen instinktiv erfolgt, stellt dies andererseits bei Anwendungen für maschinelles Lernen eine schwierige Aufgabe dar. Das heißt, es ist schwierig, Anwendungen für maschinelles Lernen zum Ableiten von Tönen Stummfilm-Videos (d.h. aus visuellen Daten ohne synchronisierten Ton) abzuleiten, jedoch gibt es bereits viele praktikable Anwendungen wie Videobearbeitung, Tonerzeugung für Stummfilme und Hilfen für sehbehinderte Personen.
Ein Grund dafür, dass ein Ableiten von Tönen für visuelle Daten schwierig ist, besteht darin, dass zum Trainieren von Systemen für maschinelles Lernen (ML) verwendete Trainingsdaten oft Audiodaten enthalten, die für die visuellen Daten unpassend sind (und als visuell unpassende Töne bezeichnet werden). Zum Beispiel können die visuellen Trainingsdaten einen bellenden Hund zeigen, während die Audio-Trainingsdaten sowohl einen bellenden Hund als auch Beifall von einer Menschenmenge enthalten, die in den visuellen Trainingstönen nicht auftauchen (z.B. ein visuell unpassender Ton). Das heißt, die Audio-Trainingsdaten enthalten sowohl visuell passende Daten (z.B. den Ton eines bellenden Hundes) als auch visuell unpassende Töne. Durch Trainieren der ML-Systeme unter Verwendung von Audio-Trainingsdaten, die visuell unpassende Töne enthalten, können diese derart irregeführt werden, dass sie visuell unpassende Töne mit den Objekten in den visuellen Trainingsdaten korrelieren, obwohl diese nicht in Beziehung zueinander stehen. Es ist jedoch schwierig, Trainingsdaten ausfindig zu machen, die keine visuell unpassenden Töne enthalten. Somit besteht ein Bedarf, ein ML-System unter Verwendung von Trainingsdaten zu trainieren, die sowohl visuell passende als auch visuell unpassende Töne enthalten.
Deshalb besteht in der Technik ein Bedarf, das oben erwähnte Problem zu lösen.
KURZDARSTELLUNG
Gemäß einem ersten Aspekt stellt die vorliegende Erfindung ein Verfahren zum Erkennen visuell passender Töne bereit, wobei das Verfahren aufweist: Empfangen von visuellen Trainingsdaten bei einem visuellen Codierer, der ein erstes Modell für maschinelles Lernen (ML) aufweist; Erkennen von Daten unter Verwendung des ersten ML-Modells, die einem visuellen Objekt in den visuellen Trainingsdaten entsprechen; Empfangen von Audio-Trainingsdaten, die mit den visuellen Trainingsdaten synchronisiert sind, bei einem Audio-Weiterleitungs-Regulierer, der ein zweites ML-Modell aufweist, wobei die Audio-Trainingsdaten einen visuell passenden Ton und einen visuell unpassenden Ton aufweisen, die beide mit ein und demselben Einzelbild in den visuellen Trainingsdaten synchronisiert sind, welches das visuelle Objekt enthält, wobei der visuell passende Ton dem visuellen Objekt entspricht, der visuell unpassende Ton hingegen durch eine Tonquelle erzeugt wird, die in demselben Einzelbild nicht sichtbar ist; Filtern von Daten, die dem visuell passenden Ton entsprechen, aus einer Ausgabe des zweiten ML-Modells unter Verwendung eines Informations-Engpasses (Bottleneck); und Trainieren eines auf das erste und das zweite ML-Modell folgenden dritten ML-Modells unter Verwendung der dem visuellen Objekt entsprechenden Daten und der dem visuell unpassenden Ton entsprechenden Daten.
Gemäß einem weiteren Aspekt stellt die vorliegende Erfindung ein Computerprogrammprodukt zum Erkennen visuell passender Töne bereit, wobei das Computerprogrammprodukt aufweist: ein durch einen Computer lesbares Speichermedium mit einem darauf verkörperten, durch einen Computer lesbaren Programmcode, der durch einen oder mehrere Computer-Prozessoren ausführbar ist, um eine Operation auszuführen, wobei die Operation aufweist: Empfangen von visuellen Trainingsdaten bei einem visuellen Codierer, der ein erstes ML-Modell aufweist; Erkennen von Daten, die einem visuellen Objekt in den visuellen Trainingsdaten entsprechen, unter Verwendung des ersten ML-Modells; Empfangen von Audio-Trainingsdaten, die mit den visuellen Trainingsdaten synchronisiert sind, bei einem Audio-Weiterleitungs-Regulierer, der ein zweites ML-Modell aufweist, wobei die Audio-Trainingsdaten einen visuell passenden Ton und einen visuell unpassenden Ton aufweisen, die beide mit ein und demselben Einzelbild in den visuellen Trainingsdaten synchronisiert sind, welches das visuelle Objekt enthält, wobei der visuell passende Ton dem visuellen Objekt entspricht, der visuell unpassende Ton hingegen durch eine Tonquelle erzeugt wird, die in demselben Einzelbild nicht sichtbar ist; Filtern von Daten, die dem visuell passenden Ton entsprechen, aus einer Ausgabe des zweiten ML-Modells unter Verwendung eines Informations-Engpasses; und Trainieren eines auf das erste und das zweite ML-Modell folgenden dritten ML-Modells unter Verwendung der dem visuellen Objekt entsprechenden Daten und der dem visuell unpassenden Ton entsprechenden Daten.
Gemäß einem weiteren Aspekt stellt die vorliegende Erfindung ein System bereit, das aufweist: einen Prozessor; und einen Speicher, der ein Programm aufweist, das bei Ausführung durch den Prozessor eine Operation ausführt, wobei die Operation aufweist: Empfangen von visuellen Trainingsdaten bei einem visuellen Codierer, der ein erstes ML-Modell aufweist; Erkennen von Daten unter Verwendung des ersten ML-Modells, die einem visuellen Objekt in den visuellen Trainingsdaten entsprechen; Empfangen von Audio-Trainingsdaten, die mit den visuellen Trainingsdaten synchronisiert sind, bei einem Audio-Weiterleitungs-Regulierer, der ein zweites ML-Modell aufweist, wobei die Audio-Trainingsdaten einen visuell passenden Ton und einen visuell unpassenden Ton aufweisen, die beide mit ein und demselben Einzelbild in den visuellen Trainingsdaten synchronisiert sind, welches das visuelle Objekt enthält, wobei der visuell passende Ton dem visuellen Objekt entspricht, der visuell unpassende Ton hingegen durch eine Tonquelle erzeugt wird, die in demselben Einzelbild nicht sichtbar ist; Filtern von Daten, die dem visuell passenden Ton entsprechen, aus einer Ausgabe des zweiten ML-Modells unter Verwendung eines Informations-Engpasses; und Trainieren eines auf das erste und das zweite ML-Modell folgenden dritten ML-Modells unter Verwendung der dem visuellen Objekt entsprechenden Daten und der dem visuell unpassenden Ton entsprechenden Daten.
Gemäß einem weiteren Aspekt stellt die vorliegende Erfindung ein Computerprogrammprodukt zum Erkennen visuell passender Töne bereit, wobei das Computerprogrammprodukt ein durch einen Computer lesbares Speichermedium aufweist, das durch einen Verarbeitungs-Schaltkreis lesbar ist und in dem Anweisungen zum Ausführen durch den Verarbeitungs-Schaltkreis gespeichert sind, um ein Verfahren zum Ausführen der Schritte der Erfindung durchzuführen.
Gemäß einem weiteren Aspekt stellt die vorliegende Erfindung ein auf einem durch einen Computer lesbaren Medium gespeichertes und in den Arbeitsspeicher eines digitalen Computer ladbares Computerprogramm bereit, das Teile eines Softwarecodes aufweist, die bei Ausführung des Programms auf einem Computer die Schritte der Erfindung ausführen.
Bei einer Ausführungsform der vorliegenden Erfindung handelt es sich um ein Verfahren, das umfasst: Empfangen von visuellen Trainingsdaten bei einem visuellen Codierer, der ein erstes ML-Modell aufweist, Erkennen von Daten unter Verwendung des ersten ML-Modells, die einem visuellen Objekt in den visuellen Trainingsdaten entsprechen, und Empfangen von Audio-Trainingsdaten, die mit den visuellen Trainingsdaten synchronisiert sind, bei einem Audio-Weiterleitungs-Regulierer, der ein zweites ML-Modell aufweist, wobei die Audio-Trainingsdaten einen visuell passenden Ton und einen visuell unpassenden Ton aufweisen, die beide mit ein und demselben Einzelbild in den visuellen Trainingsdaten synchronisiert sind, welches das visuelle Objekt enthält, und wobei der visuell passende Ton dem visuellen Objekt entspricht, der visuell unpassende Ton hingegen durch eine Tonquelle erzeugt wird, die in demselben Einzelbild nicht sichtbar ist. Das Verfahren umfasst auch ein Filtern von Daten, die dem visuell passenden Ton entsprechen, aus einer Ausgabe des zweiten ML-Modells unter Verwendung eines Informations-Engpasses und ein Trainieren eines auf das erste und das zweite ML-Modell folgenden dritten ML-Modells unter Verwendung der dem visuellen Objekt entsprechenden Daten und der dem unpassenden Ton entsprechenden Daten. Ein Vorteil dieser Ausführungsform gegenüber früheren Lösungen besteht darin, dass das dritte ML-Modell beim Trainieren visuell unpassende Töne berücksichtigen kann. Somit kann das dritte ML-Modell korrekt mit Trainingsdaten trainiert werden, die sowohl visuell passende als auch visuell unpassende Töne enthalten.
Eine andere Ausführungsform der vorliegenden Erfindung umfasst die obige Ausführungsform und kann ferner nach dem Trainieren des dritten ML-Modells ein Ausführen einer Bearbeitungsphase enthalten, die umfasst: Empfangen eines Stummfilm-Videos bei dem ersten ML-Modell, Erkennen von Daten, die einem zweiten visuellen Objekt in dem Stummfilm-Video entsprechen, unter Verwendung des ersten ML-Modells, Erzeugen eines visuell passenden Tons zum Synchronisieren mit mindestens einem Video-Einzelbild des Stummfilm-Videos, welches das zweite visuelle Objekt enthält, wobei dem zweiten visuellen Objekt entsprechende Daten in das dritte ML-Modell eingegeben werden, und Erzeugen einer Mediendarstellung auf der Grundlage des mit den Video-Einzelbildern in dem Stummfilm synchronisierten visuell passenden Tons. Ein Vorteil dieser Ausführungsform gegenüber früheren Lösungen besteht darin, dass die Wahrscheinlichkeit stark verringert ist, dass das dritte ML-Modell einen visuell unpassenden Ton zum Synchronisieren mit den Video-Einzelbildern des Stummfilms verwendet.
Eine andere Ausführungsform der vorliegenden Erfindung umfasst die obigen Ausführungsformen, wobei das zweite ML-Modell in dem Audio-Weiterleitungs-Regulierer ungenutzt bleiben kann, wenn die Bearbeitungsphase ausgeführt wird. Das zweite ML-Modell während der Bearbeitungsphase nicht zu verwenden, ist insofern von Vorteil, als die Leistungsfähigkeit des ML-Systems zunehmen kann, da diese Komponenten nicht während der Bearbeitung, sondern während des Trainings verwendet werden können.
Gemäß einer der obigen Ausführungsformen kann der Informations-Engpass eingesetzt werden, indem ein Umfang der Ausgabe des zweiten ML-Modells begrenzt wird, wobei durch Begrenzen des Umfangs verhindert wird, dass dem visuell passenden Ton entsprechende Daten in das dritte ML-Modell gelangen.
Gemäß einer der obigen Ausführungsformen kann das zweite ML-Modell unter Verwendung eines Sequenzumsetzungs-ML-Modells realisiert werden. Ein Vorteil besteht darin, dass ein Sequenzumsetzungs-ML-Modell gegenüber anderen ML-Modellen verbesserte Ergebnisse bereitstellt, wenn zeitabhängige Informationen wie Audio- und visuelle Trainingsdaten verarbeitet werden.
Bei den obigen Ausführungsformen kann das Sequenzumsetzungs-ML-Modell wahlweise ein durch den Engpass gelangtes Audio-Muster auf der Grundlage der Audio-Trainingsdaten und des Informations-Engpasses ausgeben. Weiterhin kann das Verfahren wahlweise ein Kopieren des durch den Engpass gelangten Audio-Musters für eine Anzahl von T Zeitperioden in den visuellen Trainingsdaten und ein Übertragen der kopierten, durch den Engpass gelangten Audio-Muster zu dem dritten ML-Modell umfassen. Ein Vorteil besteht darin, dass so viele Kopien des durch den Engpass gelangten Audio-Musters wie visuelle Einzelbilder vorliegen, wodurch die Fähigkeit des dritten ML-Modells zum Unterscheiden zwischen den durch das erste ML-Modell erkannten visuellen Objekten und den durch das zweite ML-Modell erkannten visuell unpassenden Tönen verbessert werden kann.
Figurenliste
Nunmehr wird die vorliegende Erfindung lediglich beispielhaft unter Bezugnahme auf die bevorzugten Ausführungsformen beschrieben, die in den folgenden Figuren veranschaulicht sind:

1 ist ein System zum Trainieren von Modellen für maschinelles Lernen zum Synchronisieren von Tönen mit visuellen Daten gemäß einer hierin beschriebenen Ausführungsform.
2 ist ein Ablaufplan zum Trainieren von Modellen für maschinelles Lernen zum Synchronisieren von Tönen mit visuellen Daten gemäß einer hierin beschriebenen Ausführungsform.
3 ist ein System zum Synchronisieren von Tönen mit visuellen Daten unter Verwendung von trainierten Modellen für maschinelles Lernen gemäß einer hierin beschriebenen Ausführungsform.
4 ist ein Ablaufplan zum Synchronisieren von Tönen mit visuellen Daten gemäß einer hierin beschriebenen Ausführungsform.
5 ist ein System zum Trainieren von Modellen für maschinelles Lernen zum Synchronisieren von Tönen mit visuellen Daten gemäß einer hierin beschriebenen Ausführungsform.
6 ist ein System zum Trainieren von Modellen für maschinelles Lernen zum Synchronisieren von Tönen mit visuellen Daten gemäß einer hierin beschriebenen Ausführungsform.

DETAILLIERTE BESCHREIBUNG
Hierin beschreiben Ausführungsformen Systeme für maschinelles Lernen (ML) zum Ableiten von Tönen, die mit visuellen Daten synchronisiert werden können. Ein Vorteil der vorliegenden Ausführungsformen besteht darin, dass die ML-Systeme beim Trainieren der ML-Systeme unpassende Töne berücksichtigen können. Das bedeutet, dass die ML-Systeme mit Audiodaten trainiert werden können, die unpassende Töne enthalten, wodurch die Anzahl und die Vielfalt an Mediendarstellungen enorm vergrößert werden, die zum Trainieren der ML-Systeme verwendet werden können.
Gemäß einer Ausführungsform enthält das ML-System einen Audio-Weiterleitungs-Regulierer und einen Informations-Engpass, die beim Trainieren des ML-Systems verwendet werden. Der Audio-Weiterleitungs-Regulierer (oder einfach „Regulierer“) enthält ein ML-Modell, das Audio-Trainingsdaten empfängt und visuell unpassende und passende Töne in den Trainingsdaten erkennt. Durch Steuern des Informations-Engpasses veranlasst das ML-System den Audio-Weiterleitungs-Regulierer, Daten zu einem Generator weiterzuleiten, der in erster Linie auf visuell unpassende Töne ausgerichtet ist, während die visuell passenden Töne herausgefiltert werden. Parallel dazu empfängt der Generator auch Daten in Bezug auf visuelle Objekte von einem visuellen Codierer, die von visuellen Trainingsdaten abgeleitet wurden. Demgemäß empfängt der Generator während des Trainings Daten in Bezug auf die visuellen Objekte in der Trainings-Mediendarstellung von dem visuellen Codierer und Daten in Bezug auf die visuell unpassenden Töne von dem Audio-Weiterleitungs-Regulierer (jedoch nur wenige oder gar keine Daten in Bezug auf visuell passende Töne). Im Ergebnis dessen lernt der Generator, zwischen den visuellen Objekten (d.h. den Objekten in den visuellen Trainingsdaten) und den visuell unpassenden Tönen (d.h. den für die visuellen Objekte unpassenden Tönen) zu unterscheiden. Wenn das ML-System zum Ableiten von Tönen für Stummfilm-Videos eingesetzt wird, kann der Generator somit Töne erzeugen, die zu den visuellen Objekten passen (z.B. visuell passende Töne), ohne den Videos visuell unpassenden Töne hinzuzufügen oder zu synchronisieren.
1 ist ein ML-System 100 zum Trainieren von ML-Modellen zum Synchronisieren von Tönen mit visuellen Daten gemäß einer hierin beschriebenen Ausführungsform. Das ML-System 100 enthält einen visuellen Codierer 110, einen Audio-Weiterleitungs-Regulierer 115 und einen Generator 125, die jeweils ein oder mehrere ML-Modelle enthalten. Die Einzelheiten zu diesen ML-Modellen werden in späteren Figuren beschrieben.
In der Figur ist dargestellt, dass der visuelle Codierer 110 als Eingangsdaten visuelle Trainingsdaten 105 empfängt. Gemäß einer Ausführungsform enthalten die visuellen Trainingsdaten 105 eine Mehrzahl aufeinanderfolgender Video-Einzelbilder. Der Audio-Weiterleitungs-Regulierer 115 hingegen empfängt Audio-Trainingsdaten 107, die mit den visuellen Trainingsdaten 105 synchronisierte Töne enthalten. Bei den visuellen Trainingsdaten 105 kann es sich zum Beispiel um die visuellen Informationen aus einer Trainings-Mediendarstellung handeln, während die Audio-Trainingsdaten 107 die Töne der Trainings-Mediendarstellung enthalten. Wie oben bereits erörtert, können die Audio-Trainingsdaten 107 jedoch sowohl visuell passende Töne (d.h. Töne, die mit den visuellen Objekten in den visuellen Trainingsdaten 105 korreliert sind) als auch visuell unpassende Töne enthalten (d.h. Töne, die mit den synchronisierten visuellen Objekten in den visuellen Trainingsdaten 105 nicht korreliert sind oder in keiner Beziehung zu diesen stehen). Gemäß einer Ausführungsform liegen die Tonquellen der visuell passenden Töne außerhalb des Bildschirms - d.h., sie sind in den entsprechenden Video-Einzelbildern nicht sichtbar. Unter Verwendung der hierin beschriebenen Techniken kann das ML-System 100 so trainiert werden, dass der Generator 125 zwischen den visuell passenden und unpassenden Tönen unterscheiden kann, sodass der Generator während der Bearbeitung, wenn er nur ein Stummfilm-Video empfängt (z.B., wenn die visuellen Daten mit keinem Ton synchronisiert sind), visuell passende Töne erzeugen oder ableiten kann, die dann mit dem Stummfilm synchronisiert werden können, um eine Mediendarstellung zu erzeugen, die mit den visuellen Daten synchronisierte Audiodaten enthält.
Allgemein besteht die Aufgabe des visuellen Codierers 110 darin, die visuellen Objekte in den visuellen Trainingsdaten 105 wie einen Hund, eine Person, ein Auto usw. zu erkennen. Der visuelle Codierer 110 kann auch sein ML-Modell (oder ML-Modelle) zum Erkennen von Aktionen verwenden, die durch die visuellen Objekte ausgeführt werden, wenn zum Beispiel ein Hund bellt, eine Person einen Basketball aufprellt oder ein Auto abrupt abbremst. Diese visuellen Objekte und deren Aktionen können dann zum Generator 125 übertragen werden.
Der Audio-Weiterleitungs-Regulierer 115 verwendet sein ML-Modell (oder ML-Modelle) zum Erkennen visuell passender und unpassender Töne in den Audio-Trainingsdaten 107. Die visuell passenden Töne können zum Beispiel die durch die visuellen Objekte in den visuellen Trainingsdaten 105 erzeugten Töne wie das Bellen eines Hundes, den Ton eines aufprellenden Basketballs oder das Quietschen der Reifen eines abrupt bremsenden Autos enthalten. Die Audio-Trainingsdaten 107 enthalten auch visuell unpassende Töne, die nicht in Beziehung zu den visuellen Objekten in den Daten 105 oder deren Aktionen stehen oder die von diesen unabhängig sind. Als Beispiele für visuell unpassende Töne können der Beifall eines Publikums (wenn das Publikum in den visuellen Trainingsdaten 105 nicht gezeigt ist), der Kommentar eines Sportreporters über ein Basketballspiel oder von Tieren verursachte Töne infrage kommen, die gerade nicht auf dem Bildschirm zu sehen sind (z.B. nicht innerhalb der synchronisierten Einzelbilder in den visuellen Trainingsdaten 105 enthalten sind). Zu einem Zeitpunkt kann zum Beispiel ein Ton in den Audio-Trainingsdaten 107 visuell passend sein, wenn die betreffende Tonquelle gerade in den synchronisierten Einzelbildern der visuellen Trainingsdaten 105 sichtbar ist, aber später visuell unpassend sein, wenn dessen Quelle in den synchronisierten Einzelbildern der visuellen Trainingsdaten 105 nicht mehr sichtbar ist.
Die Aufgabe des Generators 125 besteht darin, die Audio-Trainingsdaten 107 (die sowohl die visuell passenden als auch unpassenden Töne enthalten) unter Verwendung der durch den visuellen Codierer 110 und den Audio-Weiterleitungs-Regulierer 115 zu erweitern. Einfaches Senden von Daten in Bezug auf die visuell passenden und unpassenden Töne zum Generator 125 während des Trainings kann jedoch dazu führen, dass der Generator 125 sowohl die visuell passenden als auch die visuell unpassenden Töne mit den visuellen Objekten korreliert, die durch den visuellen Codierer 110 erkannt wurden, was dazu führt, dass der Generator 125 während einer Bearbeitungsphase (d.h. nach Beendigung des Trainings) sowohl die visuell passenden als auch die visuell unpassenden Töne in Stummfilm-Videos einfügt. Um dies zu verhindern, enthält das ML-System 100 einen Informations-Engpass 120, der den Umfang der Daten in Bezug auf visuell passende Töne begrenzt, die zum Generator 125 übertragen werden, und stattdessen das Schwergewicht auf das Übertragen visuell unpassender Töne zum Generator 125 legt.
Zwar mag es dem gesunden Menschenverstand widersprechen, dass während des Trainings Daten in Bezug auf visuell unpassende Töne zum Generator 125 gesendet werden (da während der Bearbeitungsphase visuell unpassende Töne eigentlich übergangen werden sollten), jedoch führt dies vorteilhaft zu verbesserten Ergebnissen, indem der Generator 125 in die Lage versetzt wird, während des Trainings zwischen den visuellen Objekten und den visuell unpassenden Tönen zu unterscheiden und sie nicht irrtümlich miteinander zu korrelieren. Wenn zum Beispiel der Informations-Engpass 120 zu breit ist, gelangt eine beträchtliche Menge der Daten in Bezug auf die visuell passenden Töne sowie die visuell unpassenden Töne zum Generator 125. In diesem Szenario ist der Generator 125 in der Lage zu „täuschen“ und die von dem Audio-Weiterleitungs-Regulierer empfangene Eingabe als vorhergesagten Ton 130 zu verwenden. Demgemäß lernt der Generator 125 nicht, dass die visuell unpassenden Töne nicht mit den durch den visuellen Codierer 110 bereitgestellten visuellen Daten korreliert sind.
In dem Maße, wie der Informations-Engpass 120 verengt wird, nimmt der Umfang der zum Generator 125 übertragenen Daten ab, die den visuell passenden Tönen entsprechen. Somit kann der Generator 125 nicht mehr einfach die von dem Regulierer 115 empfangenen Töne als vorhergesagte Töne 130 verwenden (die sowohl visuell passende als auch unpassende Töne enthalten dürften). Zum Erzeugen der visuell passenden Töne für die vorhergesagten Töne 130 (z.B. wenn versucht wird, die Audio-Trainingsdaten 107 zu erweitern) müssen das oder die ML-Modelle im Generator feststellen, dass die durch den Audio-Weiterleitungs-Regulierer 115 bereitgestellten Daten nicht die visuell passenden Töne enthalten, und diese Töne stattdessen von den durch den visuellen Codierer 110 bereitgestellten visuellen Objekten ableiten. Zum Beispiel kann der Generator 125 über Zugriff auf eine Datenbank verfügen, um nach Tönen zu suchen, die in Zusammenhang mit den durch den visuellen Codierer 110 erkannten visuellen Objekten stehen. Als Ergebnis dieses Prozesses lernt der Generator 125, dass zwischen den Daten in Bezug auf die vom Audio-Weiterleitungs-Regulierer 115 empfangenen visuell unpassenden Töne und den durch den visuellen Codierer 110 erzeugten visuellen Objekten tatsächlich kein Zusammenhang besteht, sodass das gewünschte Ergebnis des Trainings des Generators 125 erreicht wird, visuell unpassende Töne zu erkennen. Der Generator 125 kann zum Beispiel feststellen, dass zwischen dem Beifall eines unsichtbaren Publikums und einem sichtbaren bellenden Hund kein Zusammenhang besteht oder dass zwischen dem Kommentar eines Sprechers außerhalb des Bildschirms und einem Basketballspieler auf dem Bildschirm, der einen Ball aufprellt, kein Zusammenhang besteht.
Während der Trainingsphase besteht die Aufgabe des Generators 125 darin, einen vorhergesagten Ton 130 auszugeben, der sowohl visuell passende als auch visuell unpassende Töne enthält. Das heißt, der vorhergesagte Ton 130 sollte den Tönen in den Audio-Trainingsdaten 107 (die als gesicherte Erkenntnisse gelten) so weit wie möglich nahekommen. Wie oben erläutert, lernen während dieses Prozesses das oder die ML-Modelle im Generator 125, visuell unpassende Töne zu erkennen.
Gemäß einer Ausführungsform sind der visuelle Codierer 110, der Audio-Weiterleitungs-Regulierer 115, der Informations-Engpass 120 und der Generator 125 im Speicher als Programmcode gespeichert, der in einem Prozessor in mindestens einem Datenverarbeitungssystem ausgeführt wird. Der visuelle Codierer 110, der Audio-Weiterleitungs-Regulierer 115, der Informations-Engpass 120 und der Generator 125 können zum Beispiel unter Verwendung eines ML-Systems (z.B. einer ML-Softwareanwendung) realisiert werden, das im Speicher gespeichert ist und durch einen Prozessor in einem Datenverarbeitungssystem ausgeführt wird.
2 ist ein Ablaufplan eines Verfahrens 200 zum Trainieren von ML-Modellen zum Synchronisieren von Tönen mit visuellen Daten gemäß einer hierin beschriebenen Ausführungsform. Bei dieser Ausführungsform empfängt das ML-System Trainings-Mediendaten 205, die visuelle Trainingsdaten 105 (z.B. die Video-Einzelbilder) sowie Audio-Trainingsdaten 107 enthalten (z.B. den synchronisierten Ton oder die Tonspur der Trainingsmedien). Das heißt, die Trainings-Mediendaten 205 können so aufgeteilt werden, dass ihre Videodaten (z.B. die visuellen Trainingsdaten 105) einem visuellen Codierer bereitgestellt werden, während die entsprechenden Audiodaten (z.B. die Audio-Trainingsdaten 107) dem Audio-Weiterleitungs-Regulierer bereitgestellt werden.
In Block 210 erkennt der visuelle Codierer Objekte, um ein erstes ML-Modell zu trainieren. Gemäß einer Ausführungsform erkennt der visuelle Codierer visuelle Objekte in den visuellen Trainingsdaten 105. Zusätzlich zum Erkennen von visuellen Objekten 225 kann der visuelle Codierer auch die gerade durch die visuellen Objekte 225 ausgeführten Aktionen oder andere mit dem Objekt zusammenhängende Metadaten erkennen, beispielsweise den Objekttyp (z.B. das Alter der Person oder die Hunderasse). Der visuelle Codierer kann einen beliebigen Typ von ML-Modellen enthalten, die zum Erkennen der visuellen Objekte 225 geeignet sind.
In Block 215 erkennt der Audio-Weiterleitungs-Regulierer visuell passende und unpassende Töne unter Verwendung eines zweiten ML-Modells. Das heißt, das zweite ML-Modell im Regulierer erkennt verschiedene Töne in den Audio-Trainingsdaten 107. Als Teil dieses Prozesses filtert der Informations-Engpass in Schritt 220 visuell unpassende Töne aus den visuell passenden Tönen, die in der Ausgabe des zweiten ML-Modells dargestellt sind. Damit das zweite ML-Modell nicht alle seine erzeugten Ausgangsdaten ausgeben kann, begrenzt der Informations-Engpass die Ausgabe des zweiten ML-Models derart, dass in erster Linie die Daten in Bezug auf die visuell unpassenden Töne 230 zum Generator übertragen werden, während die meisten (oder alle) Daten in Bezug auf die visuell passenden Töne herausgefiltert (d.h., nicht zum Generator übertragen) werden. Der Audio-Weiterleitungs-Regulierer kann einen beliebigen Typ von ML-Modell enthalten, das zum Erkennen der visuell unpassenden Töne 230 geeignet ist.
In Block 235 erneuert der Generator die Trainingsmedien, um ein drittes ML-Modell zu trainieren. Als Teil des Trainings des dritten ML-Modells versucht der Generator, die durch den Regulierer empfangenen Audio-Trainingsdaten 107 zu erzeugen (oder zu erneuern oder wiederherzustellen). Oben wurde bereits erläutert, dass der Generator die visuell unpassenden Töne, nicht aber die visuell passenden Töne vom Audio-Weiterleitungs-Regulierer empfängt. Somit versucht das dritte ML-Modell die visuell passenden Töne von den visuellen Objekten 225 zu erneuern, um die Audio-Trainingsdaten 107 und die Trainings-Mediendaten 205 wiederherzustellen. Als Teil dieses Prozesses lernt das dritte ML-Modell, dass die visuellen Objekte 225 nichts mit den visuell unpassenden Tönen 230 zu tun haben. Somit kann das dritte ML-Modell während einer späteren Bearbeitungsphase ein Erzeugen visuell unpassender Töne vermeiden, wenn Töne für ein Stummfilm-Video erzeugt werden.
3 ist ein ML-Modell 300 zum Synchronisieren von Tönen mit visuellen Daten unter Verwendung von trainierten ML-Modellen gemäß einer hierin beschriebenen Ausführungsform. Während 1 ein ML-System zum Trainieren von ML-Modellen veranschaulicht, wird das ML-System 300 während einer Bearbeitungsphase zum Erzeugen von Tönen für ein Stummfilm-Video verwendet, nachdem die ML-Modelle trainiert worden sind (z.B., nachdem das Verfahren 200 durchgeführt worden ist).
Wie oben erörtert enthält das ML-System 300 den visuellen Codierer 110 und den Generator 125. Dem System 300 fehlen jedoch der Audio-Weiterleitungs-Regulierer und der Informations-Engpass. Stattdessen empfängt der Eingang des Generators, der während der Trainingsphase in 1 zum Empfangen der Ausgabe des Regularisierers und des Informations-Engpasses verwendet wurde, stattdessen einen Nullvektor 310 (z.B. einen Vektor mit lauter Nullen). Somit werden der Regularisierer und der Informations-Engpass während der Bearbeitungsphase des ML-Systems 300 nicht verwendet, wodurch die Leistungsfähigkeit des ML-Systems vorteilhaft erhöht wird, da diese Komponenten gegebenenfalls nur während der Trainingsphase, jedoch nicht während der Bearbeitungsphase verwendet werden. Stattdessen stützt sich der Generator 125 auf sein trainiertes ML-Modell, um Töne für durch den visuellen Codierer 110 erkannte visuelle Objekte zu erkennen.
Während der Bearbeitungsphase empfängt der visuelle Codierer 110 ein Stummfilm-Video 305 - z.B. eine Folge von Video-Einzelbildern - in dem es für die Einzelbilder keinen entsprechenden oder synchronisierten Ton gibt. Gemäß einer Ausführungsform besteht die Aufgabe des ML-Systems 300 während der Bearbeitungsphase darin, dem Stummfilm-Video 305 entsprechende Töne zu erzeugen. Wenn das Stummfilm-Video 305 zum Beispiel einen bellenden Hund oder ein Feuerwerk zeigt, kann das ML-System 300 die trainierten ML-Modelle im visuellen Codierer 110 und den Generator 125 dazu verwenden, visuell passende Töne zu erzeugen - z.B. ein Hundebellen oder das Knallen und Knistern für das Feuerwerk.
Ebenso wie in der Trainingsphase erkennt der visuelle Codierer 110 die visuellen Objekte in dem Stummfilm-Video 305. Der visuelle Codierer 110 kann auch die Aktion der visuellen Objekte oder Eigenschaften der visuellen Objekte erkennen. Diese Information wird dann zum Generator 125 weitergeleitet.
Der Generator 125 verwendet sein trainiertes ML-Modell oder mehrere Modelle zum Erkennen von synchronisierten Tönen für das Stummfilm-Video 305. Wenn das visuelle Objekt zum Beispiel einen bellenden Hund zeigt, kann der Generator 125 festlegen, ein Hundegebell mit den Video-Einzelbildern zu synchronisieren, die den bellenden Hund veranschaulichen. Da dem(den) ML-Modell(en) im Generator 125 während des Trainings beigebracht wurde, zwischen den visuellen Objekten und den visuell unpassenden Tönen in den Trainings-Mediendaten zu unterscheiden, dürfte es weniger wahrscheinlich sein, dass der Generator 125 während der Bearbeitung visuell unpassende Töne einem visuellen Objekt hinzufügt, das in dem Stummfilm-Video 305 erkannt wurde, und mit diesem synchronisiert, was einen Vorteil gegenüber früheren Lösungen darstellt, die während der Trainingsphase keinen Audio-Weiterleitungs-Regulierer verwenden. Mit anderen Worten, es wird wahrscheinlicher, dass der Generator 125 nur visuell passende Töne mit den in dem Stummfilm-Video 305 gezeigten visuellen Objekten und deren Aktionen synchronisiert. Der Generator 125 gibt einen vorhergesagten Ton 315 aus, der visuell passende Töne enthält, die mit den Einzelbildern des Stummfilm-Videos synchronisiert sind. Das ML-System 300 kann eine neue Mediendarstellung erzeugen, die mit den Video-Einzelbildern des Stummfilm-Videos 305 synchronisierte Töne enthält.
4 ist ein Ablaufplan eines Verfahrens 400 zum Synchronisieren von Tönen mit visuellen Daten gemäß einer hierin beschriebenen Ausführungsform. Das ML-System empfängt ein Stummfilm-Video 305, das eine Folge von Video-Einzelbildern enthalten kann, wobei es zumindest für einen Teil des Videos 305 (oder das gesamte Video 305) an entsprechenden Audiodaten oder Tönen fehlt. Das Verfahren 400 kann zum Erzeugen von Tönen verwendet werden, die mit einem oder mehreren Teilen des Videos 305 synchronisiert sind, das zuvor keine Audiodaten enthielt.
In Block 405 erkennt der visuelle Codierer Objekte in den Einzelbildern der Videodaten unter Verwendung des trainierten ersten ML-Modells. Der visuelle Codierer kann dieselben wie in Block 210 von 2 verwendeten Techniken ausführen, um den visuellen Objekten 410 entsprechende Daten zum Generator zu übertragen.
In Block 415 erzeugt der Generator unter Verwendung des trainierten dritten ML-Modells visuell passende Töne, die dem visuellen Objekt in den Einzelbildern der Videodaten entsprechen. Das heißt, der Generator verwendet die visuellen Objekte zum Erkennen von Tönen, die diesen Objekten entsprechen. Diese Töne werden mit den Einzelbildern des Stummfilm-Videos 305 synchronisiert.
In Block 420 gibt das ML-System eine Mediendarstellung aus, die die Video-Einzelbilder des Stummfilm-Videos enthält, die jetzt mit den durch den Generator erkannten visuell passenden Tönen synchronisiert worden sind. Wenn die Mediendarstellung abgespielt wird, sieht somit der Benutzer die visuellen Objekte 410 und nimmt synchronisierte Töne wahr, die mit den visuellen Objekten 410 in Einklang stehen. Die hierin erörterten Ausführungsformen verringern somit auf vorteilhafte Weise die Wahrscheinlichkeit, dass der Generator einen visuell unpassenden Ton auswählt und diesen in die Mediendarstellung aufnimmt.
5 ist ein ML-System 500 zum Trainieren von ML-Modellen zum Synchronisieren von Tönen mit visuellen Daten gemäß einer hierin beschriebenen Ausführungsform. Allgemein besteht das ML-System 500 aus dem in 1 veranschaulichten ML-System 100. Ebenso wie das ML-System 100 enthält das ML-System 500 einen visuellen Codierer 110, einen Audio-Weiterleitungs-Regulierer 115 und einen Generator 125, die jeweils ein ML-Modell enthalten, das unter Verwendung von visuellen Trainingsdaten 105 und Audio-Trainingsdaten 107 trainiert wird.
Ein Merkmals-Extraktor entnimmt wie gezeigt den visuellen Trainingsdaten 105 Merkmale der Einzelbilder. Diese Merkmale der Einzelbilder werden dann als Eingabewerte für ein ML-Modell 505A im visuellen Codierer 110 verwendet. Gemäß einer Ausführungsform stellt das ML-Modell 505A ein oder mehrere gefaltete neuronale Netzwerke (CNN) dar, die einen oder mehrere vertikale Vektoren erzeugen. Wenn die visuellen Trainingsdaten 105 zum Beispiel 24 Einzelbilder pro Sekunde zeigen, kann jedes CNN 24 vertikale Vektoren pro Sekunde ausgeben. Gemäß einer Ausführungsform bestehen die Ausgabedaten des ML-Modells 505A aus einem einzelnen Vektor pro Zeiteinheit (z.B. pro Sekunde), der dann in ein ML-Modell 505B eingegeben wird.
Gemäß einer Ausführungsform ist das ML-Modell 505B darauf spezialisiert, zeitabhängige Informationen wie die Video-Einzelbilder in den visuellen Trainingsdaten zu verarbeiten. Gemäß einer Ausführungsform handelt es sich bei dem ML-Modell 505A um ein Sequenzumsetzungs-Modell, bei dem es sich um einen Langzeitspeicher (LSTM), einen bidirektionalen LSTM, ein rückgekoppeltes neuronales Netzwerk (RNN), ein gefaltetes neuronales 1D-Netzwerk (Convnet) oder andere sequenzielle Lernverfahren handeln kann. Gemäß einer Ausführungsform gibt das ML-Modell 505B ein vertikales Einzelbild pro Sekunde aus. Unter der Annahme, dass in den visuellen Trainingsdaten 105 T Sekunden vorkommen, gibt das ML-Modell 505B somit T visuelle Einzelbilder 515 aus.
In 5 werden die Audio-Trainingsdaten 107 in ein Spektrogramm umgewandelt, das die gesicherten Erkenntnisse darstellt. Zu diesem Zweck können die Audio-Trainingsdaten 107 unter Verwendung eines beliebigen Merkmalsextraktions-Modells umgewandelt werden. Das Spektrogramm wird dann als Eingabe in ein ML-Modell 505C in dem Audio-Weiterleitungs-Regulierer 115 verwendet. Gemäß einer Ausführungsform handelt es sich wie bei dem ML-Modell 505B im visuellen Codierer 110 beim ML-Modell 505C um ein Sequenzumsetzungs-Modell, bei dem es sich um ein LSTM, ein bidirektionales LSTM, ein RNN, ein 1D-Convnet oder andere sequenzielle Lernverfahren handeln kann. Ein sequenzielles ML-Modell stellt auf vorteilhafte Weise verbesserte Ergebnisse im Vergleich mit anderen ML-Modellen bereit, wenn zeitabhängige Informationen wie die visuellen und Audio-Trainingsdaten verarbeitet werden.
Der Informations-Engpass wird durch Einschränken der Ausgabe des ML-Modells 505C bewirkt. Zum Beispiel kann der Informations-Engpass durch Verringern des Umfangs der Ausgabe des ML-Modells 505C bewirkt werden. Wie gezeigt erzeugt das ML-Modell 505C unter Verwendung des Spektrogramms als Eingabe ein durch den Engpass gelangtes Audio-Muster 510. Dann vervielfältigt der Audio-Weiterleitungs-Regulierer 115 das Einzelbild 510 T-mal, sodass genauso viele Kopien des durch den Engpass gelangten Audio-Musters 510 wie die visuellen Einzelbilder 515 vorliegen, wodurch die Fähigkeit des Generators 125 verbessert werden kann, zwischen den durch den visuellen Codierer 110 erkannten visuellen Objekten 515 und den durch den Audio-Weiterleitungs-Regulierer 115 erkannten visuell unpassenden Tönen zu unterscheiden.
Durch Verringern des Umfangs des Audio-Musters 510 zum Realisieren des Informations-Engpasses werden grundsätzlich einige (oder alle) Daten herausgefiltert, die den visuell passenden Tönen entsprechen. Mit anderen Worten, der Umfang des Audio-Musters 510 (d.h. der Ausgabe des ML-Modells 505C) kann so angepasst werden, dass das Einzelbild 510 vor allem Daten enthält, die nicht den visuell passenden, sondern den visuell unpassenden Tönen entsprechen, wodurch der oben erörterte Informations-Engpass eingerichtet wird.
Ein Kombinierer 520 kombiniert die durch den visuellen Codierer 110 erzeugten visuellen Einzelbilder 505 mit den durch den Audio-Weiterleitungs-Regulierer 115 erzeugten vervielfältigten Audio-Mustern 510 und leitet die daraus entstehenden Informationen zum Generator 125 weiter. Der Generator 1215 enthält ein ML-Modell 505D, das nach den ML-Modellen im Codierer 110 und im Regulierer 115 angeordnet ist und die Töne in den Audio-Trainingsdaten 107 durch Ausgeben eines vorhergesagten Spektrogramms zu vervielfältigen bestrebt ist, das mit dem Spektrogramm gesicherten Erkenntnissen übereinstimmen sollte. Gemäß einer Ausführungsform kann das ML-Modell 505D ein Gemisch verschiedener Schichten wie transponierte gefaltete Schichten, gefaltete Schichten, Gruppennormalisierungs- (batch normalization, BN) Schichten, ReLU- (rectified linear unit, gleichgerichtete lineare Einheit) Schichten und dergleichen enthalten. Diese Schichten können zu einem ML-Modell oder zu verschiedenen in Reihe miteinander verketteten (daisy chain) ML-Modellen verknüpft werden. Nicht gezeigt ist, dass der Generator 125 ferner ein mit dem Ausgang des ML-Modells 505D verbundenes, nachgeschaltetes Netzwerk enthalten kann, welches das vorhergesagte Spektrogramm erzeugt.
Gemäß der obigen Erörterung empfängt der Generator 125 während einer Trainingsphase Daten, die den durch den visuellen Codierer 110 erkannten visuellen Objekten entsprechen (d.h. die visuellen Einzelbilder 515), und die den visuell unpassenden Tönen entsprechenden Daten (d.h. die durch den Engpass gelangten Audio-Muster 510). Anhand dieser Informationen wird das ML-Modell 505D trainiert, zwischen den visuellen Objekten und den visuell unpassenden Tönen in den Audio-Trainingsdaten 107 zu unterscheiden. Somit wird die Wahrscheinlichkeit auf vorteilhafte Weise verringert, dass das ML-Modell 505D während der Bearbeitungsphase visuell unpassende Töne einem visuellen Objekt in einem Stummfilm-Video zuordnet.
Gemäß einer Ausführungsform kann ein Trainieren des ML-Systems 500 zum Unterscheiden zwischen visuell passenden und unpassenden Tönen mathematisch formuliert werden. In der folgenden Betrachtung werden mit Großbuchstaben Zufallsvariablen (nicht fett formatiert) oder Zufallsvektoren (fett formatiert); mit Kleinbuchstaben deterministische Werte bezeichnet. Mit E[] wird eine Erwartung bezeichnet. Mit H() wird eine (diskrete) Shannon-Entropie bezeichnet. Ferner stellt der Ausdruck ein Bild-/Ton-Paar dar, wobei V(t) das visuelle (vektorisierte) Signal jedes Video-Einzelbildes t und S(τ) die Tondarstellung (Wellenform oder Spektrogramm) jedes einzelnen Audio-Musters τ darstellt. Es werden verschieden Einzelbild-Indizes t und τ verwendet, da für visuelle und Tonsignale verschiedene Abtastraten gelten.
Es wird vorausgesetzt, dass das Audiosignal in ein passendes Signal und ein unpassendes Signal zerlegt werden kann: $S (τ) = S_{r} (τ) + S_{i} (τ)$
Mit dem Index r werden passende Töne und mit dem Index i unpassende Töne bezeichnet. Ferner wird vorausgesetzt, dass nur zwischen dem Video und dem passenden Ton eine Beziehung f() besteht. Der unpassende Ton ist sowohl von dem passenden Ton als auch von den visuellen Merkmalen unabhängig. Diese Beziehungen können durch: $S_{r} (τ) = f (V (t)), S_{i} (τ) ⊥ S_{r} (τ), S_{i} (τ) ⊥ V (t)$
ausgedrückt werden, wobei mit ⊥ eine Unabhängigkeit bezeichnet wird. Gemäß einer Ausführungsform besteht die Aufgabe darin, die beiden Komponenten zu entkoppeln und aus dem visuellen Signal V(t) visuell passende Komponenten S_r(τ) zu erzeugen.
Der visuelle Codierer 110 empfängt als Eingabe das Videosignal V(t) und gibt einen Satz Videomerkmale aus. Der Audio-Weiterleitungs-Regulierer 115 empfängt als Eingabe das Tonsignal S(τ) und gibt Audio-Weiterleitungs-Informationen (d.h. die vervielfältigten durch den Engpass gelangten Audio-Muster 510) aus. Der Generator 125 sagt das S(τ) vorher (oder stellt es wieder her). Es gibt zwei verschiedene Arten von Vorhersagen, mit oder ohne Audio-Weiterleitung. Die als Ŝ_a(t) bezeichnete Vorhersage mit Audio-Weiterleitung wird aus den Video-Merkmalen sowie den Audio-Weiterleitungs-Informationen abgeleitet. Die als S̊₀ bezeichnete Vorhersage ohne Audio-Weiterleitung wird erstellt, indem der Eingang des Audio-Weiterleitungs-Regulierers gleich null gesetzt wird, z.B. durch den in 3 veranschaulichten Nullvektor 310.
Während des Trainierens versucht der Generator 125, den folgenden Verlust bei der Vorhersage mit Audio-Weiterleitung so gering wie möglich zu halten: $L_{r e c} + L_{G} = E [\sum_{τ} {‖ {\hat{S}}_{a} (τ) - S ‖}_{2}^{2}] + E [log (1 - D ({\hat{S}}_{a}, V))]$
wobei es sich bei dem ersten Term in Gleichung 3 um den Wiederherstellungsfehler und bei dem zweiten Term um den kompetitiven Verlust handelt.
6 ist ein ML-System 600 zum Trainieren von ML-Modellen zum Synchronisieren von Tönen mit visuellen Daten gemäß einer hierin beschriebenen Ausführungsform. Das ML-System 600 ist bis auf eine zusätzliche Datenübertragungsverbindung 605 zwischen dem visuellen Codierer 110 und dem Audio-Weiterleitungs-Regulierer 115 mit dem ML-System 500 identisch. Genauer gesagt, die Verbindung 605 veranschaulicht ein Übertragen der Ausgabe des ML-Modells 505A zum ML-Modell 505C im Regulierer 115.
Durch Weglassen dieser Verbindung 605, wie im ML-System 500 gezeigt, kann die Bearbeitungsleistung auf vorteilhafte Weise insofern verbessert werden, als das ML-System 500 schneller arbeiten kann oder weniger Ressourcen als das ML-System 600 in Anspruch nimmt, welches die Verbindung 605 nutzt. Durch die Verbindung 605 kann jedoch die Fähigkeit des ML-Systems 600 im Vergleich zum ML-System 500 verbessert werden, zwischen den visuell passenden und unpassenden Tönen zu unterscheiden. Bei Anwendungen, bei denen es generell nur einen Typ von visuellen Objekten gibt, kann das Weglassen der Verbindung 605 zu befriedigenden Ergebnissen führen. Wenn die Trainingsdaten zum Beispiel nur ein Video eines Feuerwerks enthalten, kann es ausreichen, die Verbindung 605 beim Trainieren des ML-Systems wegzulassen. Das heißt, das ML-System 500 ist ohne die Verbindung 605 in der Lage, genau zwischen den visuell passenden und unpassenden Tönen zu unterscheiden. Wenn die Trainingsdaten jedoch mehrere verschiedene visuelle Objekte enthalten, kann die Verbindung 605 wesentlich zur Verbesserung der Leistungsfähigkeit beitragen, indem dem Audio-Weiterleitungs-Regulierer 115 die Gelegenheit gegeben wird, besser zwischen visuell passenden und unpassenden Tönen zu unterscheiden, indem er die Ausgabe des ML-Modells 505A als Eingabe für das ML-Modell 505C verwendet.
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung sind zur Veranschaulichung vorgelegt worden, erheben jedoch nicht den Anspruch auf Vollständigkeit oder Einschränkung auf die offenbarten Ausführungsformen. Dem Fachmann dürften viele Modifikationen und Varianten offensichtlich sein, ohne vom Schutzumfang und Wesensgehalt der beschriebenen Ausführungsformen abzuweichen. Die hierin verwendeten Begriffe wurden gewählt, um die Grundgedanken der Ausführungsformen, die praktische Anwendung oder technische Verbesserung gegenüber handelsüblichen Technologien bestmöglich zu erläutern oder andern Fachleuten das Verständnis der hierin offenbarten Ausführungsformen zu ermöglichen.
Oben wird auf die in dieser Offenbarung dargestellten Ausführungsformen Bezug genommen. Der Schutzumfang der vorliegenden Offenbarung ist jedoch nicht auf die einzelnen beschriebenen Ausführungsformen beschränkt. Vielmehr ist beabsichtigt, dass jede Kombination der oben erörterten Merkmale und Elemente unabhängig davon, ob sie in Beziehung zu verschiedenen Ausführungsformen stehen, denkbare Ausführungsformen umsetzen und realisieren kann. Darüber hinaus können hierin offenbarte Ausführungsformen zwar Vorteile gegenüber anderen möglichen Lösungen oder gegenüber dem Stand der Technik erlangen, jedoch soll der Schutzumfang der vorliegenden Offenbarung unabhängig davon nicht eingeschränkt werden, ob durch eine bestimmte Ausführungsform ein bestimmter Vorteil erzielt wird. Somit dienen die oben erörterten Aspekte, Merkmale, Ausführungsformen und Vorteile lediglich der Veranschaulichung und sind nur dann als Elemente oder Einschränkungen der beiliegenden Ansprüche anzusehen, wenn sie in einem oder mehreren Ansprüchen ausdrücklich aufgeführt sind. Desgleichen soll ein Verweis auf „die Erfindung“ nur dann als Verallgemeinerung eines beliebigen hierin offenbarten erfindungsgemäßen Gegenstands ausgelegt und als Element oder Einschränkung der beiliegenden Ansprüche angesehen werden, wenn dies ausdrücklich in einem oder mehreren Ansprüchen erwähnt wird.
Aspekte der vorliegenden Erfindung können die Form einer kompletten Hardwareumgebung, eine kompletten Softwareumgebung (darunter Firmware, Betriebs-Software, Mikrocode usw.) oder einer Ausführungsform annehmen, die Software- und Hardwareaspekte miteinander verknüpft, die hierin sämtlich als „Schaltkreis“, „Modul“ oder „System“ bezeichnet werden können.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt handeln. Das Computerprogrammprodukt kann ein durch einen Computer lesbares Speichermedium (oder -medien) mit durch einen Computer lesbaren Programmanweisungen darauf umfassen, um einen Prozessor dazu zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine physische Einheit handeln, die Anweisungen zur Verwendung durch ein System zur Ausführung von Anweisungen behalten und speichern kann. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder jede geeignete Kombination daraus handeln, ohne auf diese beschränkt zu sein. Zu einer nicht erschöpfenden Liste spezifischerer Beispiele des durch einen Computer lesbaren Speichermediums gehören die Folgenden: eine auswechselbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM bzw. Flash-Speicher), ein statischer Direktzugriffsspeicher (SRAM), ein auswechselbarer Kompaktspeicherplatte-Nur-Lese-Speicher (CD-ROM), eine DVD (digital versatile disc), ein Speicher-Stick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder erhabene Strukturen in einer Rille, auf denen Anweisungen gespeichert sind, und jede geeignete Kombination daraus. Ein durch einen Computer lesbares Speichermedium soll in der Verwendung hierin nicht als flüchtige Signale an sich aufgefasst werden, wie zum Beispiel Funkwellen oder andere sich frei ausbreitende elektromagnetische Wellen, elektromagnetische Wellen, die sich durch einen Wellenleiter oder ein anderes Übertragungsmedium ausbreiten (z.B. ein Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder durch einen Draht übertragene elektrische Signale.
Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können von einem durch einen Computer lesbaren Speichermedium auf jeweilige Datenverarbeitungs-/Verarbeitungseinheiten oder über ein Netzwerk wie zum Beispiel das Internet, ein lokales Netzwerk, ein Weitverkehrsnetz und/oder ein drahtloses Netzwerk auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, drahtlose Übertragung, Leitwegrechner, Firewalls, Vermittlungseinheiten, Gateway-Computer und/oder Edge-Server umfassen. Eine Netzwerkadapterkarte oder Netzwerkschnittstelle in jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der entsprechenden Datenverarbeitungs-/Verarbeitungseinheit weiter.
Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Arbeitsschritten der vorliegenden Erfindung kann es sich um Assembler-Anweisungen, ISA-Anweisungen (Instruction-Set-Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, zustandssetzende Daten oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben werden, darunter objektorientierte Programmiersprachen wie Smalltalk, C++ o.ä. sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C“ oder ähnliche Programmiersprachen. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Software-Paket, teilweise auf dem Computer des Benutzers und teilweise auf einem fernen Computer oder vollständig auf dem fernen Computer oder Server ausgeführt werden. In letzterem Fall kann der entfernt angeordnete Computer mit dem Computer des Benutzers durch eine beliebige Art Netzwerk verbunden sein, darunter ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN), oder die Verbindung kann mit einem externen Computer hergestellt werden (zum Beispiel über das Internet unter Verwendung eines Internet-Dienstanbieters). In einigen Ausführungsformen können elektronische Schaltungen, darunter zum Beispiel programmierbare Logikschaltungen, vor Ort programmierbare Gatter-Anordnungen (FPGA, field programmable gate arrays) oder programmierbare Logikanordnungen (PLA, programmable logic arrays) die durch einen Computer lesbaren Programmanweisungen ausführen, indem sie Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen nutzen, um die elektronischen Schaltungen zu personalisieren, um Aspekte der vorliegenden Erfindung durchzuführen.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Ablaufpläne und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird darauf hingewiesen, dass jeder Block der Ablaufpläne und/oder der Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplänen und/oder den Blockschaubildern mittels durch einen Computer lesbare Programmanweisungen ausgeführt werden können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder einer anderen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die über den Prozessor des Computers bzw. der anderen programmierbaren Datenverarbeitungsvorrichtung ausgeführten Anweisungen ein Mittel zur Umsetzung der in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaltbilder bzw. Schaubilder festgelegten Funktionen/Schritte erzeugen. Diese durch einen Computer lesbaren Programmanweisungen können auch auf einem durch einen Computer lesbaren Speichermedium gespeichert sein, das einen Computer, eine programmierbare Datenverarbeitungsvorrichtung und/oder andere Einheiten so steuern kann, dass sie auf eine bestimmte Art funktionieren, so dass das durch einen Computer lesbare Speichermedium, auf dem Anweisungen gespeichert sind, ein Herstellungsprodukt umfasst, darunter Anweisungen, welche Aspekte der/des in dem Block bzw. den Blöcken des Ablaufplans und/oder der Blockschaubilder angegebenen Funktion/Schritts umsetzen.
Die durch einen Computer lesbaren Programmanweisungen können auch auf einen Computer, eine andere programmierbare Datenverarbeitungsvorrichtung oder eine andere Einheit geladen werden, um das Ausführen einer Reihe von Prozessschritten auf dem Computer bzw. der anderen programmierbaren Vorrichtung oder anderen Einheit zu verursachen, um einen auf einem Computer ausgeführten Prozess zu erzeugen, so dass die auf dem Computer, einer anderen programmierbaren Vorrichtung oder einer anderen Einheit ausgeführten Anweisungen die in dem Block bzw. den Blöcken der Ablaufpläne und/oder der Blockschaubilder festgelegten Funktionen/Schritte umsetzen.
Die Ablaufpläne und die Blockschaltbilder bzw. Schaubilder in den Figuren veranschaulichen die Architektur, die Funktionalität und den Betrieb möglicher Ausführungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Ablaufplänen oder Blockschaubildern ein Modul, ein Segment oder einen Teil von Anweisungen darstellen, die eine oder mehrere ausführbare Anweisungen zur Ausführung der bestimmten logischen Funktion(en) umfassen. In einigen alternativen Ausführungen können die in dem Block angegebenen Funktionen in einer anderen Reihenfolge als in den Figuren gezeigt stattfinden. Zwei nacheinander gezeigte Blöcke können zum Beispiel in Wirklichkeit im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können manchmal je nach entsprechender Funktionalität in umgekehrter Reihenfolge ausgeführt werden. Es ist ferner anzumerken, dass jeder Block der Blockschaubilder und/oder der Ablaufpläne sowie Kombinationen aus Blöcken in den Blockschaubildern und/oder den Ablaufplänen durch spezielle auf Hardware beruhende Systeme umgesetzt werden können, welche die festgelegten Funktionen oder Schritte durchführen, oder Kombinationen aus Spezial-Hardware und Computeranweisungen ausführen.
Die obigen Ausführungen betreffen zwar Ausführungsformen der vorliegenden Erfindung, jedoch können andere und weitergehende Ausführungsformen der Erfindung vorgeschlagen werden, ohne von deren grundlegendem Schutzumfang abzuweichen, der durch die folgenden Ansprüche festgelegt ist.

Claims

Verfahren zum Erkennen visuell passender Töne, wobei das Verfahren aufweist: Empfangen visueller Trainingsdaten bei einem visuellen Codierer, der ein erstes Modell für maschinelles Lernen (ML) aufweist; Erkennen von Daten, die einem visuellen Objekt in den visuellen Trainingsdaten entsprechen, unter Verwendung des ersten ML-Modells; Empfangen mit den visuellen Trainingsdaten synchronisierter Audio-Trainingsdaten bei einem Audio-Weiterleitungs-Regulierer, der ein zweites ML-Modell aufweist, wobei die Audio-Trainingsdaten einen visuell passenden Ton und einen visuell unpassenden Ton aufweisen, die beide mit ein und demselben Einzelbild in den visuellen Trainingsdaten synchronisiert sind, welches das visuelle Objekt enthält, wobei der visuell passende Ton dem visuellen Objekt entspricht, der visuell unpassende Ton hingegen durch eine Tonquelle erzeugt wird, die in demselben Einzelbild nicht sichtbar ist; Filtern von Daten, die dem visuell passenden Ton entsprechen, aus einer Ausgabe des zweiten ML-Modells unter Verwendung eines Informations-Engpasses; und Trainieren eines auf das erste und das zweite ML-Modell folgenden dritten ML-Modells unter Verwendung der Daten, die dem visuellen Objekt entsprechen, und der Daten, die dem visuell unpassenden Ton entsprechen.
Verfahren nach Anspruch 1, das ferner nach dem Trainieren des dritten ML-Modells aufweist: Ausführen einer Bearbeitungsphase, wobei die Bearbeitungsphase aufweist: Empfangen eines Stummfilm-Videos bei dem ersten ML-Modell; Erkennen von Daten, die einem zweiten visuellen Objekt in dem Stummfilm-Video entsprechen, unter Verwendung des ersten ML-Modells; Erzeugen eines visuell passenden Tons unter Verwendung des dritten ML-Modells zum Synchronisieren mit mindestens einem Video-Einzelbild des Video-Stummfilms, welches das zweite visuelle Objekt enthält, wobei Daten, die dem zweiten visuellen Objekt entsprechen, in das dritte ML-Modell eingegeben werden; und Erzeugen einer Mediendarstellung auf der Grundlage der synchronisierten visuell passenden Töne und Video-Einzelbilder in dem Video-Stummfilm.
Verfahren nach Anspruch 2, wobei das zweite ML-Modell in dem Audio-Weiterleitungs-Regulierer während der Bearbeitungsphase ungenutzt bleibt.
Verfahren nach einem der vorhergehenden Ansprüche, wobei der Informations-Engpass ein Begrenzen eines Umfangs einer Ausgabe des zweiten ML-Modells aufweist, wobei durch das Begrenzen des Umfangs verhindert wird, dass dem visuell passenden Ton entsprechende Daten in das dritte ML-Modell gelangen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das zweite ML-Modell ein Sequenzumsetzungs-ML-Modell aufweist.
Verfahren nach Anspruch 5, wobei das Sequenzumsetzungs-ML-Modell ein durch den Engpass gelangtes Audio-Muster auf der Grundlage der Audio-Trainingsdaten und des Informations-Engpasses ausgibt, wobei das Verfahren ferner aufweist: Vervielfältigen des durch den Engpass gelangten Audio-Musters entsprechend einer Anzahl von T Zeitperioden in den visuellen Trainingsdaten; und Übertragen der vervielfältigten, durch den Engpass gelangten Audio-Muster zum dritten ML-Modell.
Verfahren nach Anspruch 6, das ferner aufweist: Vorhersagen der visuell passenden und unpassenden Töne in den Audio-Trainingsdaten unter Verwendung des dritten ML-Modells auf der Grundlage eines Empfangens der vervielfältigten, durch den Engpass gelangten Audio-Muster und der einem visuellen Objekt entsprechenden Daten.
System zum Erkennen visuell passender Töne, wobei das System aufweist: einen Prozessor; und einen Speicher, der ein Programm aufweist, das beim Ausführen durch den Prozessor eine Operation durchführt, wobei die Operation aufweist: Empfangen visueller Trainingsdaten bei einem visuellen Codierer, der ein erstes ML-Modell aufweist; Erkennen von Daten, die einem visuellen Objekt in den visuellen Trainingsdaten entsprechen, unter Verwendung des ersten ML-Modells; Empfangen mit den visuellen Trainingsdaten synchronisierter Audio-Trainingsdaten bei einem Audio-Weiterleitungs-Regulierer, der ein zweites ML-Modell aufweist, wobei die Audio-Trainingsdaten einen visuell passenden Ton und einen visuell unpassenden Ton aufweisen, die beide mit ein und demselben Einzelbild in den visuellen Trainingsdaten synchronisiert sind, die das visuelle Objekt enthalten, wobei der visuell passende Ton dem visuellen Objekt entspricht, der visuell unpassende Ton hingegen durch eine Tonquelle erzeugt wird, die in demselben Einzelbild nicht sichtbar ist; Filtern der Daten, die dem visuell passenden Ton entsprechen, aus der Ausgabe des zweiten ML-Modells unter Verwendung eines Informations-Engpasses; und Trainieren eines auf das erste und das zweite ML-Modell folgenden dritten ML-Modells unter Verwendung der Daten, die dem visuellen Objekt entsprechen, und der Daten, die dem visuell unpassenden Ton entsprechen.
System nach Anspruch 8, wobei die Operation nach dem Trainieren des dritten ML-Modells ferner aufweist: Ausführen einer Bearbeitungsphase, wobei die Bearbeitungsphase aufweist: Empfangen eines Stummfilm-Videos bei dem ersten ML-Modell; Erkennen von Daten, die einem zweiten visuellen Objekt in dem Stummfilm-Video entsprechen, unter Verwendung des ersten ML-Modells; Erzeugen eines visuell passenden Tons unter Verwendung des dritten ML-Modells zum Synchronisieren mit mindestens einem Video-Einzelbild des Stummfilm-Videos, welches das zweite visuelle Objekt enthält, wobei die dem zweiten visuellen Objekt entsprechenden Daten in das dritte ML-Modell eingegeben werden; und Erzeugen einer Mediendarstellung auf der Grundlage der synchronisierten visuell passenden Töne und Video-Einzelbilder in dem Stummfilm-Video.
System nach Anspruch 9, wobei das zweite ML-Modell in dem Audio-Weiterleitungs-Regulierer während der Bearbeitungsphase ungenutzt bleibt.
System nach einem der Ansprüche 8 bis 10, wobei der Informations-Engpass ein Begrenzen eines Umfangs einer Ausgabe des zweiten ML-Modells aufweist, wobei durch das Begrenzen des Umfangs verhindert wird, dass dem visuell passenden Ton entsprechende Daten das dritte ML-Modell erreichen.
System nach einem der Ansprüche 8 bis 11, wobei das zweite ML-Modell ein Sequenzumsetzungs-Modell aufweist und wobei das Sequenzumsetzungs-Modell ein durch den Engpass gelangtes Audio-Muster auf der Grundlage der Audio-Trainingsdaten und des Informations-Engpasses ausgibt und die Operation ferner aufweist: Vervielfältigen des durch den Engpass gelangten Audio-Musters entsprechend einer Anzahl von T Zeitperioden in den visuellen Trainingsdaten; und Übertragen der vervielfältigten, durch den Engpass gelangten Audio-Muster zum dritten ML-Modell.
System nach Anspruch 12, wobei die Operation ferner aufweist: Vorhersagen der visuell passenden und unpassenden Töne in den Audio-Trainingsdaten unter Verwendung des dritten ML-Modells auf der Grundlage eines Empfangens der vervielfältigten, durch den Engpass gelangten Audio-Muster und der einem visuellen Objekt entsprechenden Daten.
Computerprogrammprodukt zum Erkennen visuell passender Töne, wobei das Computerprogrammprodukt aufweist: ein durch einen Computer lesbares Speichermedium, das durch einen Verarbeitungs-Schaltkreis lesbar ist und in dem Anweisungen zum Ausführen durch den Verarbeitungs-Schaltkreis zum Durchführen eines Verfahrens nach einem der Ansprüche 1 bis 7 gespeichert sind.
Computerprogrammprodukt, das auf einem durch einen Computer lesbaren Medium gespeichert und in den Arbeitsspeicher eines digitalen Computers ladbar ist, das Teile eines Softwarecodes aufweist, um bei Ausführung des Programms durch einen Computer das Verfahren nach einem der Ansprüche 1 bis 7 durchzuführen.