DE102022131824A1

DE102022131824A1 - Visuelle Spracherkennung für Digitalvideos unter Einsatz generativ-adversativen Lernens

Info

Publication number: DE102022131824A1
Application number: DE102022131824.9A
Authority: DE
Inventors: Yaman Kumar; Balaji Krishnamurthy
Original assignee: Adobe Inc
Current assignee: Adobe Inc
Priority date: 2022-02-04
Filing date: 2022-12-01
Publication date: 2023-08-10
Also published as: CN116564289A; US20230252993A1

Abstract

Die vorliegende Offenbarung beschreibt eine oder mehrere Implementierungen von Systemen, nichttemporären computerlesbaren Medien und Verfahren zum Erkennen von Sprache aus einem Digitalvideo unter Einsatz eines nicht überwachten maschinell lernenden Modells, so beispielsweise eines GAN-Modells (generativ-adversatives neuronales Netzwerk GAN). Bei einer oder mehreren Implementierungen setzen die offenbarten Systeme einen Bildcodierer ein, um selbstüberwachte tiefe visuelle Sprachdarstellungen aus Frames eines nicht etikettierten (oder nicht annotierten) Digitalvideos zu generieren. Anschließend generieren die offenbarten Systeme bei einer oder mehreren Ausführungsformen Visemsequenzen aus den tiefen visuellen Sprachdarstellungen (beispielsweise über segmentierte visemische Sprachdarstellungen aus Clustern der tiefen visuellen Sprachdarstellungen) unter Einsatz des adversativ trainierten GAN-Modells. In einigen Fällen decodieren die offenbarten Systeme die zu dem Digitalvideo gehörenden Visemsequenzen, um eine elektronische Transkription und/oder ein Digitalaudio für das Digitalvideo zu generieren.

Description

Hintergrund
In den letzten Jahren war eine zunehmende Implementierung von Computersystemen zu beobachten, die lernende Modelle zur Durchführung von Aufgaben der visuellen Spracherkennung implementieren. Herkömmliche Systeme können beispielsweise maschinell lernende Modelle nutzen, um gesprochene Worte innerhalb von Digitalvideos zu erkennen, wenn den Digitalvideos eine Audiokomponente fehlt (oder sie eine inkohärente Audiokomponente aufweisen). Oftmals beinhaltet die Aufgabe des Erkennens von gesprochenen Worten ein Identifizieren von grundlegenden zerlegbaren Einheiten, die Sprache (beispielsweise Viseme) aus einem Digitalvideo darstellen. Um die Aufgabe der visuellen Spracherkennung zu erledigen, setzen herkömmliche Systeme oftmals überwachte maschinell lernende Modelle ein, die etikettierte Trainingsdaten einsetzen. Obwohl viele herkömmliche Systeme derartige überwachte maschinell lernende Systeme einsetzen, weisen viele dieser herkömmlichen Systeme eine Anzahl von Unzulänglichkeiten auf, und zwar insbesondere mit Blick auf Flexibilität, Genauigkeit und Effizienz der implementierenden Rechenvorrichtungen.
Viele herkömmliche Systeme setzen beispielsweise Modelle der überwachten visuellen Spracherkennung ein, die etikettierte Trainingsdaten benötigen. Viele dieser herkömmlichen Systeme sind nicht fähig, Sprache in einer großen Vielzahl von Videos, die durch die etikettierten Trainingsdaten nicht dargestellt werden, flexibel zu erkennen. Diese herkömmlichen Systeme sind oftmals auf spezifische Aufgaben der visuellen Spracherkennung beschränkt, die durch verfügbare etikettierte Trainingsdaten erlernt werden. Zusätzlich zur Starrheit des Erkennungsumfangs führen viele herkömmliche Systeme Aufgaben der Spracherkennung an bestimmten Digitalvideos ungenau durch, wenn das Spracherkennungsmodell nicht an annotierten Trainingsdaten, die für die bestimmten Digitalvideos relevant sind, trainiert worden ist. Entsprechend sind viele herkömmliche Systeme ungenau und nicht fähig, Aufgaben der Spracherkennung über verschiedene Digitalvideobereiche hinweg zu erledigen.
Des Weiteren sind herkömmliche Systeme oftmals rechentechnisch ineffizient. Um Aufgaben der Spracherkennung durchzuführen, benötigen viele herkömmliche Systeme große Sätze von annotierten Trainingsdaten. Zusätzlich benötigen viele herkömmliche Systeme auch eine erhebliche Menge an Trainingszeit, um robuste maschinell lernende Architekturen mit umfangreichen etikettierten Trainingsdaten zu verarbeiten und zu trainieren. Entsprechend setzen viele herkömmliche Systeme übermäßig viele Rechenressourcen bei der Datenspeicherung (beispielsweise für große Sätze von annotierten Trainingsdaten) und der Bearbeitungsleistung (beispielsweise für iterative Trainingsprozeduren) ein, um Aufgaben der Spracherkennung zu erledigen.
Zusammenfassung
Die vorliegende Offenbarung beschreibt eine oder mehrere Implementierungen von Systemen, nichttemporären computerlesbaren Medien und Verfahren, die eines oder mehrere der vorbeschriebenen Probleme lösen, indem sie ein nicht überwachtes maschinell lernendes Modell zum Erkennen von Sprache aus einem Digitalvideo einsetzen. Insbesondere setzen die offenbarten Systeme bei einer oder mehreren Ausführungsformen ein nicht überwachtes generativ-adversatives neuronales Netzwerk (Generative-Adversarial Neural Network GAN) ein, um die Aufgabe der visuellen Spracherkennung zu erledigen. Darstellungshalber setzen die offenbarten Systeme bei einer oder mehreren Implementierungen einen Bildcodierer ein, um selbstüberwachte tiefe visuelle Sprachdarstellungen aus Frames eines nicht etikettierten (oder nicht annotierten) Digitalvideos zu generieren. Bei einer oder mehreren Ausführungsformen bestimmen die offenbarten Systeme segmentierte visemische Sprachdarstellungen aus Clustern der tiefen visuellen Darstellungen und generieren sodann Visemsequenzen (oder Viseme in Kombination mit Phonemen), indem sie das GAN-Modell mit den segmentierten visemischen Sprachdarstellungen einsetzen. Die offenbarten Systeme decodieren die Visemsequenzen, um in dem Digitalvideo dargestellte gesprochene Sprache zu extrahieren, indem sie beispielsweise eine elektronische Transkription für das Digitalvideo generieren und/oder ein Digitalaudio für das Digitalvideo generieren. Auf diese Weise können die offenbarten Systeme nicht überwachtes maschinelles Lernen einsetzen, um Sprache aus einem Digitalvideo (mit oder ohne begleitendes Digitalaudio) effizient, genau und flexibel zu erkennen.
Figurenliste
Die Detailbeschreibung erfolgt anhand der begleitenden Zeichnung, die sich wie folgt zusammensetzt.

1 zeigt ein schematisches Diagramm einer exemplarischen Systemumgebung, in der das visuelle Spracherkennungssystem entsprechend einer oder mehreren Implementierungen arbeitet.
2 zeigt eine Übersicht darüber, wie ein visuelles Spracherkennungssystem visuelle Sprache aus einem Digitalvideo durch Einsetzen eines GAN-basierten Frameworks bestimmt, entsprechend einer oder mehrerer Implementierungen.
3 zeigt, wie ein visuelles Spracherkennungssystem visuelle Sprachdarstellungen aus einem Digitalvideo generiert, entsprechend einer oder mehreren Implementierungen.
4 zeigt ein visuelles Spracherkennungssystem unter Einsatz von segmentierten visemischen Sprachdarstellungen mit einem GAN zum Generieren von Visemsequenzen entsprechend einer oder mehreren Implementierungen.
5 zeigt, wie ein visuelles Spracherkennungssystem einen Sprachdecoder zum Generieren einer elektronischen Transkription aus einer Visemsequenz einsetzt, entsprechend einer oder mehreren Implementierungen.
6 zeigt, wie ein visuelles Spracherkennungssystem ein neuronales Diskriminatornetzwerk trainiert, entsprechend einer oder mehreren Implementierungen.
7 zeigt, wie ein visuelles Spracherkennungssystem ein GAN trainiert, um Visemsequenzen zu generieren, entsprechend einer oder mehreren Implementierungen.
8 zeigt ein schematisches Diagramm eines visuellen Spracherkennungssystems entsprechend einer oder mehreren Implementierungen.
9 zeigt ein Flussdiagramm einer Abfolge von Handlungen zum Erkennen von visueller Sprache aus einem Digitalvideo entsprechend einer oder mehreren Implementierungen.
10 zeigt ein Blockdiagramm einer exemplarischen Rechenvorrichtung entsprechend einer oder mehreren Implementierungen.

Detailbeschreibung
Die vorliegende Offenbarung beschreibt eine oder mehrere Implementierungen eines visuellen Spracherkennungssystems, das visuelle Sprache aus einem Digitalvideo (ohne entsprechendes Audio) unter Einsatz eines nicht überwachten maschinell lernenden Modells bestimmt. Insbesondere kann das visuelle Spracherkennungssystem ein GAN einsetzen, um Visemsequenzen aus selbstüberwachten Sprachdarstellungen eines Digitalvideos zu generieren. Das visuelle Spracherkennungssystem setzt beispielsweise ein darstellungslernendes Modell ein, um tiefe visuelle Sprachdarstellungen aus Frames eines Digitalvideos zu generieren. Sodann clustert das visuelle Spracherkennungssystem die tiefen visuellen Sprachdarstellungen und bestimmt segmentierte visemische Sprachdarstellungen, die separate visemische Einheiten widerspiegeln, aus dem Digitalvideo. Des Weiteren setzt das visuelle Spracherkennungssystem die segmentierten visemischen Sprachdarstellungen mit einem GAN ein, um Visemsequenzen zu generieren. Des Weiteren wandelt das visuelle Spracherkennungssystem bei einigen Ausführungsformen die Visemsequenzen in eine elektronische Transkription und/oder ein Digitalaudio für das Digitalvideo um. Entsprechend kann das visuelle Spracherkennungssystem ein nicht überwachtes maschinell lernendes Modell einsetzen, um Sprache aus Digitalvideos mit stummem oder unverständlichem Digitalaudio effizient, genau und flexibel zu erkennen.
Wie vorstehend erwähnt worden ist, generiert das visuelle Spracherkennungssystem bei einigen Implementierungen tiefe visuelle Sprachdarstellungen aus einem Digitalvideo. Insbesondere setzt das visuelle Spracherkennungssystem bei einer oder mehreren Ausführungsformen einen Bildcodierer mit einzelnen Frames eines Digitalvideos ein, um einen Satz von tiefen visuellen Sprachdarstellungen zu generieren. In einem oder mehreren Fällen setzt das visuelle Spracherkennungssystem einen umwandlerbasierten (transformer-based) Bildcodierer ein, um Frames zu codieren, und nutzt eingebettete Codierungen der Frames als tiefe visuelle Sprachdarstellungen.
Des Weiteren bestimmt das visuelle Spracherkennungssystem in einigen Fällen segmentierte visemische Sprachdarstellungen aus Clustern der tiefen visuellen Sprachdarstellungen. Bei einer oder mehreren Implementierungen setzt das visuelle Spracherkennungssystem einen Clusterungsalgorithmus ein, um tiefe visuelle Sprachdarstellungscluster aus den tiefen visuellen Sprachdarstellungen zu generieren. Darüber hinaus gruppiert das visuelle Spracherkennungssystem bei einer oder mehreren Ausführungsformen Digitalvideoframes, um einzelne Viseme darzustellen. Das visuelle Spracherkennungssystem identifiziert beispielsweise ähnliche Digitalvideoframes aus einem Cluster und anderen Digitalframes, die innerhalb einer Sprachsegmentgrenze befindlich sind, um ein Sprachsegment, das ein einzelnes Visem darstellt, zu bestimmen. Bei einigen Ausführungsformen generiert das visuelle Spracherkennungssystem eine visuelle Sprachdarstellung eines jeden Frames in der Gruppe von Digitalvideoframes (beispielsweise unter Nutzung einer Hauptkomponentenanalyse) und kombiniert die visuellen Sprachdarstellungen als segmentierte visemische Sprachdarstellungen.
Darüber hinaus setzt das visuelle Spracherkennungssystem bei einer oder mehreren Ausführungsformen die segmentierten visemischen Sprachdarstellungen (die ein Visem pro Segment des Digitalvideos darstellen) mit einem GAN ein, um mögliche Visemsequenzen für die segmentierten visemischen Sprachdarstellungen zu generieren. Bei einer oder mehreren Implementierungen setzt das visuelle Spracherkennungssystem das GAN ein, um ein Visem pro segmentierte visemische Sprachdarstellung zu generieren. Bei einigen Implementierungen setzt das visuelle Spracherkennungssystem des Weiteren die generierten Visemsequenzen mit einem Sprachdecoder ein, um ein elektronisches Transkript zu generieren, das innerhalb des Digitalvideos abgebildete Sprache darstellt. In einigen Fällen generiert das visuelle Spracherkennungssystem Viseme in Kombination mit Phonemen aus den segmentierten visemischen Sprachdarstellungen (als Visemsequenzen). Darüber hinaus setzt das visuelle Spracherkennungssystem bei einer oder mehreren Ausführungsformen das elektronische Transkript ein, um Audiocontent für das Digitalvideo zu generieren.
Bei einer oder mehreren Ausführungsformen lernt das visuelle Spracherkennungssystem Parameter für das GAN unter Einsatz eines adversativen Prozesses ohne Einsatz von etikettierten (oder annotierten) Trainingsdaten. Das visuelle Spracherkennungssystem trainiert das GAN, um genaue Visemsequenzen zu generieren, beispielsweise unter Einsatz eines neuronalen Diskriminatornetzwerkes. Das visuelle Spracherkennungssystem trainiert das neuronale Diskriminatornetzwerk, um die Authentizität einer Visemsequenz (beispielsweise einer echten oder gefälschten Visemsequenz) zu bestimmen, beispielsweise unter Einsatz von Visemsequenzen, die aus dem GAN generiert worden sind, und Visemsequenzen, die aus einem Textkorpus umgewandelt worden sind. Das visuelle Spracherkennungssystem trainiert einen neuronalen Diskriminator, um zwischen authentischen und generierten Visemsequenzen zu unterscheiden, und trainiert das GAN, um realistischere Visemsequenzen zu generieren. Das visuelle Spracherkennungssystem setzt zudem andere Verluste ein, um Parameter für das GAN zu lernen, so beispielsweise einen Segmentglattheitsverlust (segment smoothness loss), einen Visemdiversitätsverlust (viseme diversity loss) und eine Gradientenpönalisierung (gradient penalty).
Wie vorstehend erwähnt worden ist, zeigen herkömmliche Systeme eine Anzahl von technischen Unzulänglichkeiten. Das visuelle Spracherkennungssystem bietet im Vergleich zu diesen herkömmlichen Systemen eine Anzahl von Vorteilen. Im Gegensatz zu herkömmlichen Systemen, die auf überwachten Spracherkennungsmodellen beruhen, erkennt das visuelle Spracherkennungssystem beispielsweise visuelle Sprache aus Digitalvideos mit erhöhter Flexibilität. Darstellungshalber setzt das visuelle Spracherkennungssystem das Konzept des nicht überwachten maschinellen Lernens ein, um visuelle Sprache aus Digitalvideos (und zwar ohne Einsatz von transkribierten Sprachdaten) zu bestimmen. Entsprechend kann das visuelle Spracherkennungssystem bei einer großen Vielzahl von Digitalvideos eingesetzt werden, die nicht durch die Verfügbarkeit von transkribierten Sprachdaten (zusätzlich beispielsweise zu neuen und vokabularfremden Worten) beschränkt sind. Bei einigen Implementierungen ist das visuelle Spracherkennungssystem zusätzlich auch sprachagnostisch und kann trainiert werden, um visuelle Sprache in Digitalvideos verschiedener Sprachen auch dann zu erkennen, wenn transkribierte Sprachdaten in den anderen Sprachen allgemein nicht verfügbar sind.
Im Gegensatz zu herkömmlichen Systemen, die große Sätze von annotierten Trainingsdaten einsetzen, um eine große Vielzahl von Digitalvideos abzudecken, kann das visuelle Spracherkennungssystem des Weiteren das GAN-basierte Modell der visuellen Spracherkennung trainieren, um visuelle Sprache mit weniger Trainingsdaten genau zu erkennen. Insbesondere erkennt das visuelle Spracherkennungssystem bei einer oder mehreren Implementierungen visuelle Sprache genau aus einer größeren Vielzahl von Digitalvideos mit weniger (und nicht annotierten) Trainingsdaten. Zusätzlich zur Verringerung der Trainingsdaten kann das visuelle Spracherkennungssystem zudem weniger Trainingszeit im Vergleich zu vielen herkömmlichen Systemen einsetzen. Entsprechend trainiert das visuelle Spracherkennungssystem in einem oder mehreren Fällen ein GAN-basiertes Modell der visuellen Spracherkennung, um visuelle Sprache mit weniger Rechenressourcen (beispielsweise mit Blick auf Datenspeicherung und Bearbeitungszeit) genau und effizient zu erkennen.
Zusätzlich kann das visuelle Spracherkennungssystem visuelle Sprache auch aus Digitalvideos ohne transkribierte Sprachtrainingsdaten genau bestimmen. Insbesondere kann, wie nachstehend noch detaillierter beschrieben wird, das visuelle Spracherkennungssystem eine visuelle Spracherkennung durchführen, die mit vielen überwachten Konzepten vergleichbar ist, dies jedoch mit weniger Trainingsdaten und weniger Trainingszeit. Bei einer oder mehreren Ausführungsformen führt das visuelle Spracherkennungssystem eine visuelle Spracherkennung durch, die gegenüber vielen überwachten Konzepten eine vergleichbare Genauigkeit aufweist, ohne dabei transkribierte Sprachtrainingsdaten einzusetzen.
Wie durch die vorstehende Diskussion nahegelegt worden ist, setzt die Offenbarung eine Vielzahl von Begriffen ein, um Merkmale und Vorteile des visuellen Spracherkennungssystems zu beschreiben. Zusätzliche Details werden nachstehend im Zusammenhang mit der Bedeutung dieser Begriffe, wie sie in der vorliegenden Offenbarung benutzt werden, bereitgestellt. Im Sinne des Vorliegenden bezeichnet der Begriff „Bildcodierer“ beispielsweise ein computerimplementiertes Modell, das eine Einbettung eines Bildes generiert. Insbesondere kann der Begriff „Bildcodierer“ ein computerimplementiertes Modell beinhalten, das eine tiefe visuelle Sprachdarstellung aus einem Bild generiert, das als Darstellung Eigenschaften (oder Attribute) von innerhalb des Bildes abgebildeten Gesichtsmerkmalen erfasst. Ein Bildcodierer beinhaltet beispielsweise einen umwandlerbasierten Bildcodierer, der einen Umwandlercodierer mit Selbstaufmerksamkeitsschichten (self attention layers) einsetzt, die Patcheinbettungen für das Eingabebild als tiefe visuelle Sprachdarstellung generieren. In einigen Fällen beinhaltet der Bildcodierer einen auf einem neuronalen Netzwerk basierenden Bildcodierer, der eine tiefe visuelle Sprachdarstellung aus einem Eingabebild generiert.
Im Sinne des Vorliegenden bezeichnet der Begriff „tiefe visuelle Sprachdarstellung“ (bisweilen auch als visuelle Sprachdarstellung bezeichnet) des Weiteren eine Einbettung oder Codierung eines Bildes zur Darstellung von Eigenschaften (oder Attributen) von Gesichtsmerkmalen aus dem Bild. Insbesondere bezeichnet der Begriff „tiefe visuelle Sprachdarstellung“ eine eingebettete Codierung eines Bildes, das Gesichtsmerkmale von Sprache darstellt. Bei einem Beispiel beinhaltet eine tiefe visuelle Sprachdarstellung einen latenten Vektor, der latente (oder verborgene) Merkmale einbettet, die Gesichtsmerkmale (von Sprache) aus einem Digitalbild darstellen. Die tiefe visuelle Sprachdarstellung kann als latenten Vektor Daten beinhalten, die Eigenschaften (oder Merkmale) von Pixeln darstellen, die Gesichtsmerkmale aus einem Digitalbild (beispielsweise verborgene Aktivierungswerte) darstellen. Bei einigen Implementierungen kennzeichnen die Merkmalswerte, obwohl diese Merkmalswerte (der tiefen visuellen Sprachdarstellung) für einen Nutzer nicht erkennbar sind, gleichwohl die Gesichtsmerkmale, die innerhalb eines Digitalbildes abgebildet sind.
Im Sinne des Vorliegenden bezeichnet der Begriff „tiefes visuelles Sprachdarstellungscluster“ eine Gruppierung oder ein Cluster, die/das durch eine Beziehung zwischen tiefen visuellen Sprachdarstellungen dargestellt wird. Insbesondere kann der Begriff „tiefes visuelles Sprachdarstellungscluster“ eine Gruppierung von tiefen visuellen Sprachdarstellungen beinhalten, die gemeinsame Eigenschaften oder Merkmale teilen. Ein tiefes visuelles Sprachdarstellungscluster beinhaltet beispielsweise eine Gruppierung von tiefen visuellen Sprachdarstellungen, die semantisch (auf Grundlage von Werten der visuellen Sprachdarstellungen) in einem Merkmalsraum ähnlich sind. Ein tiefes visuelles Sprachdarstellungscluster beinhaltet beispielsweise eine Gruppe oder einen Satz von tiefen visuellen Sprachdarstellungen, die/der unter Einsatz eines k-Nearest-Neighbor-Algorithmus als Nachbarn identifiziert werden.
Im Sinne des Vorliegenden bezeichnet der Begriff „segmentierte visemische Sprachdarstellung“ eine kollektive Darstellung von Digitalvideoframes, die einem visuellen Sprachsegment aus dem Digitalvideo entsprechen. Insbesondere kann der Begriff „segmentierte visemische Sprachdarstellung“ eine Darstellung beinhalten, die aus mehreren Digitalvideoframes generiert wird, die unter Nutzung von tiefen visuellen Sprachdarstellungsclustern ausgewählt werden, um ein visuelles Sprachsegment (das schließlich auf ein Visem abgebildet wird) darzustellen. Bei einigen Ausführungsformen beinhaltet eine segmentierte visemische Sprachdarstellung eine kombinierte Darstellung von Frames, die zu einem Segment visueller Sprache aus dem Digitalvideo gemäß Bestimmung unter Nutzung eines tiefen visuellen Sprachdarstellungsclusters gehören. In einem oder mehreren Fällen beinhaltet die segmentierte visemische Sprachdarstellung eine Kombination von Darstellungen, die unter Nutzung einer Hauptkomponentenanalyse an Frames, die zu einem Segment visueller Sprache aus dem Digitalvideo gehören, generiert wird.
Im Sinne des Vorliegenden bezeichnet der Begriff „Digitalvideo“ eine Abfolge von visuellen Darstellungen (beispielsweise eine Abfolge von Digitalbildern, die bei aufeinanderfolgender Wiedergabe eine sprechende Figur abbilden). Darstellungshalber beinhaltet ein Digitalvideo bei einer oder mehreren Implementierungen unter anderem eine Digitaldatei mit den nachfolgenden Dateierweiterungen: FLV, SWF, AVI, WMV, MOV, QT, MKV, MP4 oder AVCHD. Im Sinne des Vorliegenden bezeichnet der Begriff „Frame“ (bisweilen auch als „Videoframe“ oder „Digitalvideoframe“ bezeichnet) eine visuelle Darstellung eines einzelnen Abschnittes oder eine(r) Instanz aus einem Digitalvideo. Insbesondere beinhaltet der Begriff „Frame“ in einigen Fällen ein Digitalbild eines Standbildes, das ein Segment (oder eine Instanz) eines Videos ist. Darstellungshalber beinhaltet ein Frame in einigen Fällen ein Digitalbild. Bei einer oder mehreren Implementierungen beinhaltet ein Digitalbild unter anderem eine Digitaldatei mit den nachfolgenden Erweiterungen: JPG, TIFF, BMP, PNG, RAW oder PDF.
Darüber hinaus bezeichnet der Begriff „generativ-adversatives neuronales Netzwerk“ (GAN) im Sinne des Vorliegenden ein maschinell lernendes Modell (beispielsweise ein neuronales Netzwerk), das einen adversativen Lernprozess einsetzt, um realistische Daten aus einer Eingabeeinbettung zu generieren. Insbesondere bezeichnet der Begriff „generativ-adversatives neuronales Netzwerk“ ein maschinell lernendes Modell, das mögliche realistische Sequenzen von Visemen für eine Eingabeeinbettung (beispielsweise eine segmentierte visemische Sprachdarstellung) generiert. Bei einer oder mehreren Ausführungsformen wird ein GAN trainiert, um Daten zu generieren, die adversativ versuchen, ein neuronales Diskriminatornetzwerk beim Klassifizieren der Daten als authentische Daten zu überlisten.
Zusätzlich bezeichnet der Begriff „neuronales Diskriminatornetzwerk“ im Sinne des Vorliegenden ein maschinell lernendes Modell (beispielsweise ein neuronales Netzwerk), das eine Ausgabe eines GAN als authentisch oder nicht authentisch (beispielsweise als echt oder gefälscht) klassifiziert. Insbesondere beinhaltet das neuronale Diskriminatornetzwerk bei einer oder mehreren Ausführungsformen ein maschinell lernendes Modell, das (unter Nutzung von Ground-Truth-Authentizitätsetiketten) trainiert wird, um Daten als echt (beispielsweise als authentische Visemsequenz, die aus Echtweltdaten bezogen wird) oder als gefälscht (beispielsweise als generierte Visemsequenz aus einem GAN) zu klassifizieren. Bei einer oder mehreren Implementierungen beinhaltet das neuronale Diskriminatornetzwerk ein maschinell lernendes Modell, das unter Nutzung von authentischen Visemsequenzen aus einem Textkorpus trainiert wird, um zwischen authentischen und/oder nicht authentischen Visemsequenzen zu unterscheiden. Zusätzlich klassifiziert das neuronale Diskriminatornetzwerk bei einer oder mehreren Implementierungen ausgegebene Visemsequenzen aus einem GAN als authentisch oder nicht authentisch.
Des Weiteren bezeichnet der Begriff „neuronales Netzwerk“ im Sinne des Vorliegenden ein maschinell lernendes Modell, das auf Grundlage von Eingaben trainiert und/oder abgestimmt wird, um Klassifizierungen zu bestimmen oder unbekannte Funktionen zu nähern. Ein neuronales Netzwerk beinhaltet beispielsweise ein Modell aus (beispielsweise in Schichten organisierten) wechselseitig verbundenen künstlichen Neuronen, die kommunizieren und lernen, komplexe Funktionen zu nähern und Ausgaben (beispielsweise generierte visuelle Sprachdarstellungen und/oder Visemsequenzwahrscheinlichkeiten) auf Grundlage von mehreren Eingaben, die für das neuronale Netzwerk bereitgestellt werden, zu generieren. In einigen Fällen bezeichnet ein neuronales Netzwerk einen Algorithmus (oder einen Satz von Algorithmen), der Techniken des Deep Learning implementiert, um auf hoher Ebene gegebene Abstraktionen an Daten zu modellieren. Ein neuronales Netzwerk beinhaltet beispielsweise ein faltungstechnisches neuronales Netzwerk (Convolutional Neural Network CNN) und/oder ein rekurrentes neuronales Netzwerk (Recurrent Neural Network RNN).
Im Sinne des Vorliegenden bezeichnet der Begriff „Visem“ eine zerlegbare Einheit zur Darstellung visueller Sprache. Insbesondere bezeichnet der Begriff „Visem“ bei einer oder mehreren Ausführungsformen eine zerlegbare Einheit, die ein oder mehrere hörbare Phoneme aus einer unterscheidbaren Mundbewegung entsprechend einem bestimmten Ton oder einer Gruppe von Tönen darstellt. Bei einer oder mehreren Ausführungsformen beinhaltet ein Visem eine visuelle Bewegung (beispielsweise eine Mundform oder Bewegung), die ein oder mehrere Phoneme darstellt. In einigen Fällen stellt ein Visem eine unterscheidbare Mundbewegung dar, die auf ein oder mehrere bestimmte Phoneme abgebildet wird (so beispielsweise ein erstes Visem, das auf die Phoneme p, b, m abgebildet wird, und ein zweites Visem, das auf die Phoneme t, d abgebildet wird). Zusätzlich bezeichnet der Begriff „Visemsequenz“ im Sinne des Vorliegenden einen Satz eines oder mehrerer in einer spezifischen Reihenfolge vorliegender Viseme, die eine Aussage darstellen. Die Aussagen „I love you“ und „Elephant Juice“ weisen beispielsweise die Visemsequenz „rstfi“ auf. In gewissen Fällen kann eine Visemsequenz ein oder mehrere Viseme in Kombination mit einem oder mehreren Phonemen, die das eine oder die mehreren Viseme darstellen, beinhalten.
Im Sinne des Vorliegenden bezeichnet der Begriff „Sprachdecoder“ ein Modell (oder einen Algorithmus), das eine Visemsequenz in Worte oder Aussagen umwandelt. Insbesondere setzt ein Sprachdecoder in einem oder mehreren Fällen eine Visemsequenz aus einem GAN ein, um eine wahrscheinliche Textsequenz für die Visemsequenz zu bestimmen. Bei einer oder mehreren Ausführungsformen beinhaltet der Sprachdecoder unter anderem einen WFST-basierten (Weighted Finite-State Transducer WFST) Decoder und/oder einen auf einem Viterbi-Algorithmus basierenden Decoder.
Im Sinne des Vorliegenden bezeichnet der Begriff „elektronische Transkription“ einen Satz aus Text, der Aussagen und/oder Sprache innerhalb eines Digitalvideos darstellt. Insbesondere bezeichnet der Begriff „elektronische Transkription“ bei einer oder mehreren Ausführungsformen ein elektronisches Objekt (beispielsweise ein Textdokument oder eine Datei), das Sprache, die innerhalb eines Digitalvideos dargestellt wird, transkribiert (beispielsweise transkribierte Sprache und die Zeit der Sprache für das Digitalvideo).
In den Figuren zeigt 1 ein schematisches Diagramm einer oder mehrerer Implementierungen eines Systems 100 (oder einer Umgebung), in dem ein visuelles Spracherkennungssystem entsprechend einer oder mehreren Implementierungen arbeitet. Wie in 1 dargestellt ist, beinhaltet das System 100 eine Servervorrichtung/Servervorrichtungen 102, ein Netzwerk 108 und Clientvorrichtungen 110a bis 110n. Wie weiter in 1 dargestellt ist, kommunizieren die Servervorrichtung/Servervorrichtungen 102 und die Clientvorrichtungen 110a bis 110n über das Netzwerk 108.
Wie in 1 gezeigt ist, beinhaltet/beinhalten die Servervorrichtung / Servervorrichtungen 102 ein Digitalgrafiksystem 104, das wiederum das visuelle Spracherkennungssystem 106 beinhaltet. Das Digitalgrafiksystem 106 kann Digitalgrafiken, so beispielsweise Digitalvideos und anderen Digitalcontent, generieren, bearbeiten, speichern, abrufen und/oder nachbearbeiten. Des Weiteren kann das visuelle Spracherkennungssystem 106, wie nachstehend noch erläutert wird, Aufgaben der Spracherkennung beim Extrahieren gesprochener Sprache aus einem Digitalvideo (beispielsweise ohne entsprechendes Audio) erledigen. Die Servervorrichtung/Servervorrichtungen 102 beinhaltet/beinhalten unter anderem beispielsweise eine Rechenvorrichtung (oder Computervorrichtung) (wie sie nachstehend anhand 10 noch erläutert wird). Bei einigen Implementierungen bestimmt das visuelle Spracherkennungssystem 106 Sprache aus einem Digitalvideo unter Einsatz eines GAN. Insbesondere empfängt das visuelle Spracherkennungssystem 106 bei einer oder mehreren Ausführungsformen ein Digitalvideo von einer Clientvorrichtung (der Clientvorrichtungen 110a bis 110n) und erkennt Sprache aus einem Digitalvideo unter Einsatz eines GAN-Modells.
Wie in 1 gezeigt ist, beinhaltet das System 100 des Weiteren die Clientvorrichtungen 110a bis 110n. Bei einer oder mehreren Implementierungen beinhalten die Clientvorrichtungen 110a bis 110n unter anderem eine Mobilvorrichtung (beispielsweise ein Smartphone, ein Tablet), einen Laptop, einen Desktop oder einen beliebigen anderen Typ von Rechenvorrichtung, darunter diejenigen, die nachstehend anhand 10 noch erläutert werden. Bei gewissen Implementierungen werden die Clientvorrichtungen 110a bis 110n, obwohl dies in 1 nicht gezeigt ist, von einem Nutzer bedient, um eine Vielzahl von Funktionen (beispielsweise über die Digitalgrafikanwendungen 112a bis 112n) wahrzunehmen. Die Clientvorrichtungen 110a bis 110n nehmen Funktionen wahr, so beispielsweise unter anderem das Erfassen von Digitalvideos, das Bearbeiten von Digitalvideos, das Abspielen von Digitalvideos und/oder das Anfordern einer Spracherkennung für Digitalvideos.
Um auf die Funktionalitäten des visuellen Spracherkennungssystems 106 (wie vorstehend beschrieben) zuzugreifen, interagiert ein Nutzer bei einer oder mehreren Implementierungen mit einer der Digitalgrafikanwendungen 112a bis 112n auf den Clientvorrichtungen 110a bis 110n. Die Digitalgrafikanwendungen 112a bis 112n beinhalten beispielsweise eine oder mehrere Softwareanwendungen, die auf den Clientvorrichtungen 110a bis 110n (beispielsweise zum Erfassen, Abspielen und/oder Modifizieren von Digitalvideos entsprechend einer oder mehreren der vorliegenden Implementierungen) installiert sind. In einigen Fällen werden die Digitalgrafikanwendungen 112a bis 112n auf der Servervorrichtung / den Servervorrichtungen 102 gehostet. Erfolgt das Hosting auf der Servervorrichtung / den Servervorrichtungen, so wird auf die Digitalgrafikanwendungen 112a bis 112n zusätzlich durch die Clientvorrichtungen 110a bis 110n über einen Webbrowser und/oder eine andere Online-Schnittstellenplattform und/oder ein Werkzeug zugegriffen.
Obwohl 1 zeigt, dass das visuelle Spracherkennungssystem 106 durch eine bestimmte Komponente und/oder eine solche Vorrichtung innerhalb des Systems 100 (beispielsweise innerhalb der Servervorrichtung/Servervorrichtungen 102) implementiert ist, ist das visuelle Spracherkennungssystem 106 bei einigen Implementierungen gänzlich oder in Teilen durch andere Rechenvorrichtungen und/oder Komponenten in dem System 100 implementiert. Bei einigen Implementierungen ist das visuelle Spracherkennungssystem 106 beispielsweise auf den Clientvorrichtungen 110a bis 110n innerhalb der Digitalgrafikanwendungen 112a bis 112n implementiert. Insbesondere ist bei einer oder mehreren Implementierungen die Beschreibung des visuellen Spracherkennungssystems 106 (und Handlungen, die von diesem durchgeführt werden) durch die clienteigenen visuellen Spracherkennungssysteme 114a bis 114n implementiert (oder wird von diesen durchgeführt), wenn die Clientvorrichtungen 110a bis 110n das visuelle Spracherkennungssystem 106 implementieren. Insbesondere erkennen entsprechend einer oder mehreren Implementierungen die Clientvorrichtungen 110a bis 110n in gewissen Fällen (über eine Implementierung des visuellen Spracherkennungssystems 106 auf den clienteigenen visuellen Spracherkennungssystemen 114a bis 114n) visuelle Sprache aus einem Digitalvideo.
Bei einigen Ausführungsformen implementieren sowohl die Servervorrichtung/Servervorrichtungen 102 wie auch die Clientvorrichtungen 110a bis 110n verschiedene Komponenten des visuellen Spracherkennungssystems 106. Bei einigen Ausführungsformen trainiert/trainieren die Servervorrichtung/Servervorrichtungen 102 beispielsweise ein oder mehrere neuronale Netzwerke (beispielsweise ein GAN zum Generieren von Visemen) und stellen die neuronalen Netzwerke sodann für die Clientvorrichtungen 110a bis 110n bereit, um die neuronalen Netzwerke (beispielsweise zum Generieren von Visemen für Digitalbilder auf den Clientvorrichtungen 110a bis 110n) zu implementieren / anzuwenden. Bei einigen Ausführungsformen trainiert/trainieren und implementiert/implementieren die Servervorrichtung/Servervorrichtungen 102 ein oder mehrere neuronale Netzwerke (beispielsweise ein GAN zum Generieren von Visemen). Darstellungshalber trainiert/trainieren die Servervorrichtung/Servervorrichtungen ein GAN, empfängt/empfangen ein Digitalvideo von der Clientvorrichtung 110a, generiert/generieren Viseme (und/oder eine Transkription) aus dem Digitalvideo und stellt/stellen die Viseme (und/oder das Digitalvideo) für die Clientvorrichtung 110a bereit.
Zusätzlich beinhaltet das System 100, wie in 1 gezeigt ist, das Netzwerk 108. Wie vorstehend erwähnt worden ist, ermöglicht das Netzwerk 108 in einigen Fällen eine Kommunikation zwischen Komponenten des Systems 100. Bei gewissen Implementierungen beinhaltet das Netzwerk 108 ein geeignetes Netzwerk und kann unter Nutzung von beliebigen Kommunikationsplattformen und Technologien kommunizieren, die zum Transportieren von Daten und/oder Kommunikationssignalen geeignet sind, von denen Beispiele nachstehend anhand 10 noch beschrieben werden. Des Weiteren kommunizieren und/oder interagieren, obwohl 1 zeigt, dass die Servervorrichtung/Servervorrichtungen 102 und die Clientvorrichtungen 110a bis 110n über das Netzwerk 108 kommunizieren, die verschiedenen Komponenten des Systems 100 bei gewissen Implementierungen mittels anderer Verfahren (Beispielsweise kommunizieren die Servervorrichtung/Servervorrichtungen 102 und die Clientvorrichtungen 110a bis 110n direkt).
Wie vorstehend erwähnt worden ist, setzt das visuelle Spracherkennungssystem 106 bei einer oder mehreren Implementierungen ein GAN und selbstüberwachte Sprachdarstellungen eines Digitalvideos zur Erkennung von visueller Sprache ein. 2 zeigt als Beispiel eine Übersicht darüber, wie das visuelle Spracherkennungssystem 106 visuelle Sprache aus einem Digitalvideo bestimmt, indem es das GAN-basierte Framework einsetzt. Wie in 2 gezeigt ist, generiert das visuelle Spracherkennungssystem 106 tiefe visuelle Sprachdarstellungscluster aus tiefen visuellen Sprachdarstellungen, die aus einem Digitalvideo generiert werden. Sodann bestimmt das visuelle Spracherkennungssystem 106, wie weiter in 2 dargestellt ist, segmentierte visemische Sprachdarstellungen unter Nutzung der tiefen visuellen Sprachdarstellungscluster. Zusätzlich generiert das visuelle Spracherkennungssystem 106, wie in 2 gezeigt ist, Visemsequenzen durch Einsetzen der segmentierten visemischen Sprachdarstellungen mit einem GAN (das unter Einsatz eines neuronalen Diskriminatornetzwerkes trainiert worden ist).
Wie bei Handlung 202 von 2 gezeigt ist, generiert das visuelle Spracherkennungssystem 106 tiefe visuelle Sprachdarstellungen aus einem Digitalvideo 200 unter Einsatz eines Bildcodierers. Insbesondere extrahiert das visuelle Spracherkennungssystem Digitalvideoframes aus dem Digitalvideo 200 und setzt den Bildcodierer ein, um tiefe visuelle Sprachdarstellungen für die Digitalvideoframes zu generieren. Zusätzliche Details im Zusammenhang mit dem Generieren von tiefen visuellen Sprachdarstellungen werden nachstehend (beispielsweise anhand 3) beschrieben.
Wie bei Handlung 204 von 2 gezeigt ist, generiert das visuelle Spracherkennungssystem 106 des Weiteren auch tiefe visuelle Sprachdarstellungscluster. Insbesondere setzt das visuelle Spracherkennungssystem 106 einen Clusterungsalgorithmus ein, um die tiefen visuellen Sprachdarstellungen, die bei Handlung 202 generiert worden sind, zu clustern. Zusätzliche Details im Zusammenhang mit dem Generieren von tiefen visuellen Sprachdarstellungsclustern unter Nutzung von verschiedenen Clusterungskonzepten werden nachstehend (beispielsweise anhand 3) beschrieben.
Beim Generieren der tiefen visuellen Sprachdarstellungscluster bestimmt, wie bei Handlung 206 von 2 gezeigt ist, das visuelle Spracherkennungssystem 106 segmentierte visemische Sprachdarstellungen. Insbesondere setzt das visuelle Spracherkennungssystem 106 in einigen Fällen die tiefen visuellen Sprachdarstellungscluster ein, um Sprachsegmentgrenzen zu identifizieren. Unter Einsatz dieser Sprachsegmentgrenzen und der tiefen visuellen Sprachdarstellungscluster kann das visuelle Spracherkennungssystem verschiedene Gruppen von Digitalvideoframes, die bestimmte Viseme abbilden, aus dem Digitalvideo 200 identifizieren. Das visuelle Spracherkennungssystem kann sodann segmentierte visemische Sprachdarstellungen aus diesen verschiedenen Gruppen generieren. Zusätzliche Details im Zusammenhang mit dem Bestimmen von segmentierten visemischen Sprachdarstellungen werden nachstehend (beispielsweise anhand 3) beschrieben.
Des Weiteren generiert das visuelle Spracherkennungssystem 106, wie bei Handlung 208 von 2 gezeigt ist, Visemsequenzen unter Einsatz eines GAN. Insbesondere setzt das visuelle Spracherkennungssystem 106 bei einer oder mehreren Ausführungsformen die segmentierten visemischen Sprachdarstellungen (von Handlung 206) als Eingabe für das GAN ein, um Visemsequenzen für die segmentierten visemischen Sprachdarstellungen zu generieren. Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 die Visemsequenzen des Weiteren ein, um elektronische Transkriptionen für das Digitalvideo 200 zu generieren. Zusätzliche Details im Zusammenhang mit dem Generieren von Visemsequenzen beispielsweise unter Einsatz eines GAN (und im Zusammenhang mit dem Generieren von elektronischen Transkripten) werden nachstehend (beispielsweise anhand 4 und 5 beschrieben).
Zusätzlich kann das visuelle Spracherkennungssystem 106, wie bei Handlung 210 von 2 gezeigt ist, auch Parameter des GAN lernen. Wie bei Handlung 210 von 2 dargestellt ist, setzt das visuelle Spracherkennungssystem 106 ein neuronales Diskriminatornetzwerk mit der generierten Visemsequenz ein, um Parameter des GAN zu lernen. Zusätzlich trainiert das visuelle Spracherkennungssystem 106, wie in 2 gezeigt ist, ein neuronales Diskriminatornetzwerk durch Analysieren von Visemsequenzen, die durch das GAN generiert worden sind (beispielsweise gefälschte Visemsequenzen), und Visemsequenzen aus einem Textkorpus (beispielsweise authentische Visemsequenzen). Zusätzliche Details im Zusammenhang mit dem Trainieren eines neuronalen Diskriminatornetzwerkes und eines GAN werden nachstehend (beispielsweise anhand 6 und 7) beschrieben.
Wie vorstehend erwähnt worden ist, bestimmt das visuelle Spracherkennungssystem 106 in einigen Fällen segmentierte visemische Sprachdarstellungen aus einem Digitalvideo. 3 zeigt als Beispiel, wie das visuelle Spracherkennungssystem 106 visuelle Sprachdarstellungen aus einem Digitalvideo generiert. Zudem zeigt 3, wie das visuelle Spracherkennungssystem 106 anschließend segmentierte visemische Sprachdarstellungen aus Clustern der visuellen Sprachdarstellungen bestimmt.
Darstellungshalber setzt das visuelle Spracherkennungssystem 106, wie in 3 gezeigt ist, einen Bildcodierer 304 ein, um visuelle Sprachdarstellungen 306 aus Digitalvideoframes 302 (eines Digitalvideos) zu generieren. Das visuelle Spracherkennungssystem 106 kann beispielsweise unter Einsatz des Bildcodierers 304 visuelle Sprachdarstellungen, die eingebettete Codierungen sind, die Eigenschaften von Gesichtsmerkmalen darstellen, aus Digitalvideoframes generieren. Bei einer oder mehreren Implementierungen generiert das visuelle Spracherkennungssystem 106 eine visuelle Sprachdarstellung für jedes Digitalframe des Digitalvideos.
Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 einen Bildcodierer zum Generieren von tiefen Einbettungen (beispielsweise von tiefen visuellen Sprachdarstellungen) aus einem Digitalvideoframe (beispielsweise einem Bild), das in dem Bild abgebildete Gesichtsmerkmale erfasst, ein. In einem oder mehreren Fällen setzt das visuelle Spracherkennungssystem 106 einen umwandlerbasierten Bildcodierer ein, der Patches eines Bildes (beispielsweise als Vektor oder Matrix) mit einem Umwandlercodierer einsetzt, um tiefe Einbettungen zu generieren. Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 beispielsweise einen umwandlerbasierten Bildcodierer (beispielsweise Vision Transformer) ein, wie er beschrieben wird bei: „An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale“ von A. Dosovitskiy et al., veröffentlicht bei arXiv:2010.11929v2 (2021); der Inhalt dieser Quelle wird hiermit in Gänze durch Verweis mit aufgenommen. Zusätzlich setzt das visuelle Spracherkennungssystem 106 bei einigen Ausführungsformen einen umwandlerbasierten Bildcodierer ein, wie er beschrieben wird bei: „Swin Transformer: Hierarchical Vision Transformer using Shifted Windows“ von Z. Liu et al., veröffentlicht bei arXiv:2103.14030v2 (2021); der Inhalt der Quelle wird hiermit durch Verweis in Gänze mit aufgenommen.
Obwohl eine oder mehrere Ausführungsformen des visuellen Spracherkennungssystems 106 einen umwandlerbasierten Bildcodierer einsetzen, um tiefe visuelle Sprachdarstellungen zu generieren, kann das visuelle Spracherkennungssystem 106 auch verschiedene Bildcodierer als Bildcodierer 304 einsetzen. Das visuelle Spracherkennungssystem 106 setzt beispielsweise einen auf einem neuronalen Netzwerk basierenden Bildcodierer ein, um tiefe visuelle Sprachdarstellungen aus Digitalvideoframes zu generieren. Insbesondere setzt das visuelle Spracherkennungssystem 106 bei einer oder mehreren Ausführungsformen ein faltungstechnisches neuronales Netzwerk (CNN) ein, so beispielsweise unter anderem ImageNet und/oder AlexNet, um tiefe visuelle Sprachdarstellungen aus Digitalvideoframes zu generieren.
Des Weiteren generiert das visuelle Spracherkennungssystem 106, wie in 3 dargestellt ist, visuelle Sprachdarstellungscluster 310 aus den visuellen Sprachdarstellungen 306 unter Einsatz eines Clusterungsmodells 308. Insbesondere setzt das visuelle Spracherkennungssystem 106 das Clusterungsmodell 308 in einigen Fällen ein, um ähnliche visuelle Sprachdarstellungen aus dem Digitalvideo zu identifizieren und als Cluster zu gruppieren. Die visuellen Sprachdarstellungscluster 310 geben beispielsweise einzelne Sprachsegmente eines Digitalvideos an (beispielsweise ein Cluster von Frames, die Eigenschaften beinhalten, die ein ähnliches abgebildetes Visem angeben). In einigen Fällen etikettiert das visuelle Spracherkennungssystem 106 des Weiteren jedes Digitalvideoframe mit einer Clusteridentität auf Grundlage des Clusters, zu dem die visuelle Sprachdarstellung eines bestimmten Digitalvideoframes gehört.
Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 einen k-Means-Clusterungsalgorithmus ein, um die visuellen Spracherkennungscluster 310 zu generieren. Eingesetzt wird der k-Means-Clusterungsalgorithmus von dem visuellen Spracherkennungssystem 106 insbesondere zum Bestimmen von Abständen zwischen den visuellen Sprachdarstellungen 306 und einer ausgewählte Klasse (oder einem Attribut) (beispielsweise einem Cluster, das eine Klasse darstellt, so beispielsweise unter anderem Gesichtsmerkmale der Lippenbewegung und/oder der Mundbewegung) in einem Merkmalsraum für eine ausgewählte Anzahl (beispielsweise die Anzahl k) von Clustern. Bei einigen Ausführungsformen setzt das visuelle Spracherkennungssystem 106 des Weiteren einen Abstandswert ein, der einen Wert beinhaltet, der die Menge an Raum zwischen einer visuellen Sprachdarstellung und einem Zentrum eines Clusters innerhalb eines Merkmalsraumes darstellt. Des Weiteren setzt das visuelle Spracherkennungssystem 106 den Abstandswert in einigen Fällen als einen oder mehrere Werte ein, die Quantifizierungen von Ähnlichkeiten zwischen mehreren Merkmalen der visuellen Sprachdarstellungen darstellen. Ein Abstandswert beinhaltet beispielsweise einen Wert, der die Menge an Raum zwischen benachbarten visuellen Sprachdarstellungen innerhalb eines Clusters (beispielsweise auf Grundlage eines Merkmalsraumes des Clusters) darstellt. Bei einer oder mehreren Ausführungsformen generiert das visuelle Spracherkennungssystem 106 visuelle Sprachdarstellungscluster unter Einsatz von Clusterungstechniken, so beispielsweise unter anderem unter Einsatz einer k-Means-Clusterung, einer rekursiven k-Means-Clusterung und/oder einer differenziellen Clusterung.
Des Weiteren bestimmt das visuelle Spracherkennungssystem 106, wie in 3 dargestellt ist, auch segmentierte visemische Sprachdarstellungen 314 aus den visuellen Sprachdarstellungsclustern 310. Insbesondere setzt das visuelle Spracherkennungssystem 106, wie in 3 gezeigt ist, ein Segmentierungsmodell 312 ein, um Sprachsegmentgrenzen aus den visuellen Sprachdarstellungsclustern 310 zu identifizieren, um wiederum Gruppierungen von Digitalvideoframes zu identifizieren. Sodann generiert das visuelle Spracherkennungssystem 106, wie in 3 gezeigt ist, eine segmentierte visemische Sprachdarstellung unter Einsatz von visuellen Darstellungen der Digitalvideoframes aus den Gruppierungen von Digitalvideoframes.
Das visuelle Spracherkennungssystem 106 bestimmt beispielsweise eine Sprachsegmentgrenze unter Einsatz der visuellen Sprachdarstellungscluster. Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 die visuellen Sprachdarstellungscluster ein, um jedes Digitalvideoframe mit einem Clusteridentifizierer zu etikettieren. In einigen Fällen identifiziert das visuelle Spracherkennungssystem 106 sodann ein Digitalvideoframe, bei dem der Clusteridentifizierer geändert ist (was beispielsweise angibt, dass das nachfolgende Videoframe zu einem anderen Cluster gehört, das ein separates Visemsegment innerhalb des Digitalvideos darstellt). Beim Identifizieren des Digitalvideoframes mit dem geänderten Clusteridentifizierer etikettiert das visuelle Spracherkennungssystem 106 in einigen Fällen ein Videoframe als Sprachsegmentgrenze.
Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 das Identifizieren von Änderungen bei Clusteridentifizierern aus den Digitalvideoframes fort, um die nachfolgenden Sprachsegmentgrenzen zu etikettieren. Bei einer oder mehreren Ausführungsformen bestimmt das visuelle Spracherkennungssystem 106 eine Sequenz von Sprachsegmenten mit variierenden Anzahlen von Digitalvideoframes in jedem Segment. Als illustratives Beispiel bestimmt das visuelle Spracherkennungssystem 106, dass fünf der ersten zehn Digitalvideoframes zu einem ersten Cluster gehören. Das visuelle Sprachsystem bzw. Spracherkennungssystem 106 kann alle (al) zehn Digitalvideoframes (fünf aus dem Cluster und aus / nicht aus dem Cluster bzw. fünf aus dem Cluster und fünf nicht aus dem Cluster) einem ersten Sprachsegment zuordnen. Als Teil des Beispiels bestimmt das visuelle Spracherkennungssystem 106 darüber hinaus, dass sieben der nächsten zwölf Digitalvideoframes zu einem zweiten Cluster gehören und entsprechend zu einem zweiten Sprachsegment gehören. In einigen Fällen identifiziert das visuelle Spracherkennungssystem 106 verschiedene Anzahlen von Sprachsegmenten mit verschiedenen Anzahlen von Digitalvideoframes.
Anschließend generiert das visuelle Spracherkennungssystem 106 bei einer oder mehreren Ausführungsformen eine segmentierte visemische Sprachdarstellung aus den verschiedenen Sprachsegmenten (aus den visuellen Sprachdarstellungsclustern). Insbesondere generiert das visuelle Spracherkennungssystem 106 bei einer oder mehreren Ausführungsformen visuelle Sprachdarstellungen von Digitalvideoframes, die zu einem Sprachsegment gehören, und kombiniert die visuellen Sprachdarstellungen, um eine segmentierte visemische Sprachdarstellung zu bestimmen. Das visuelle Spracherkennungssystem 106 generiert beispielsweise eine visuelle Sprachdarstellung für jedes Digitalvideoframe in einem Sprachsegment unter Nutzung einer maschinell lernenden Transformationstechnik.
Darstellungshalber setzt das visuelle Spracherkennungssystem 106 bei einigen Ausführungsformen eine Hauptkomponentenanalyse als maschinell lernende Transformationstechnik ein, um visuelle Sprachdarstellungen aus den Digitalvideoframes, die zu einem Sprachsegment gehören, zu generieren. Insbesondere setzt das visuelle Spracherkennungssystem 106 in einigen Fällen eine Hauptkomponentenanalyse ein, um korrelierte Variablen eines Digitalvideoframes in eine verringerte Anzahl von nicht korrelierten Variablen umzuwandeln, um wiederum die visuelle Sprachdarstellung zu generieren. Bei einer oder mehreren Ausführungsformen beinhaltet die visuelle Sprachdarstellung eines Digitalvideoframes eine eine verringerte Lineardimension aufweisende Version des Digitalvideoframes (beispielsweise unter Nutzung der Hauptkomponentenanalyse). Obwohl eine oder mehrere Ausführungsformen zeigen, dass das visuelle Spracherkennungssystem 106 die Technik der Hauptkomponentenanalyse einsetzt, setzt das visuelle Spracherkennungssystem 106 in einigen Fällen verschiedene maschinell lernende Transformationstechniken ein, so beispielsweise unter anderem die Lineardiskriminantenanalyse, Autoencoder und/oder Verfahren der lokal linearen Einbettung.
Darüber hinaus setzt das visuelle Spracherkennungssystem 106 in einigen Fällen die visuellen Sprachdarstellungen in einem Sprachsegment ein, um die segmentierte visemische Sprachdarstellung zu bestimmen. Das visuelle Spracherkennungssystem 106 kombiniert die visuellen Sprachdarstellungen beispielsweise entsprechend Digitalvideoframes eines Sprachsegmentes, um die segmentierte visemische Sprachdarstellung für das Sprachsegment zu generieren. Bei einer oder mehreren Ausführungsformen kombiniert das visuelle Spracherkennungssystem 106 die visuellen Sprachdarstellungen unter Einsatz eines Mean-Pooling der visuellen Sprachdarstellungen, um die segmentierte visemische Sprachdarstellung zu generieren. Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 verschiedene Techniken ein, um die visuellen Sprachdarstellungen zu kombinieren, so beispielsweise unter anderem Max-Pooling, Global-Mean-Pooling, Mitteln und/oder Multiplikation.
Darstellungshalber setzt das visuelle Spracherkennungssystem 106 in einigen Fällen einen ersten Satz von visuellen Sprachdarstellungen aus einem ersten Sprachsegment (mit einer ersten Gruppe von Digitalvideoframes) ein, um eine erste segmentierte visemische Sprachdarstellung zu generieren. Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 einen zweiten Satz von visuellen Sprachdarstellungen aus einem zweiten Sprachsegment (mit einer zweiten Gruppe von Digitalvideoframes) ein, um eine zweite segmentierte visemische Sprachdarstellung zu generieren. In einigen Fällen bestimmt das visuelle Spracherkennungssystem 106 segmentierte visemische Sprachdarstellungen für jedes Sprachsegment mit Identifizierung aus dem Digitalvideo unter Nutzung der visuellen Sprachdarstellungscluster, was eine Sequenz von segmentierten visemischen Sprachdarstellungen S = S₁, S₂, ...,S_T für eine bestimmte Äußerung S (wie sie in dem Digitalvideo abgebildet ist) ergibt.
Wie vorstehend erwähnt worden ist, setzt das visuelle Spracherkennungssystem 106 bei einigen Ausführungsformen ein GAN mit segmentierten visemischen Sprachdarstellungen ein, um Visemsequenzen zu generieren. 4 zeigt beispielsweise, wie das visuelle Spracherkennungssystem 106 segmentierte visemische Sprachdarstellungen mit einem GAN einsetzt, um Visemsequenzen zu generieren. Wie in 4 gezeigt ist, stellt das visuelle Spracherkennungssystem 106 segmentierte visemische Sprachdarstellungen 402 für ein GAN 404 bereit. Wie weiter in 4 gezeigt ist, bildet das GAN 404 die segmentierten visemischen Sprachdarstellungen auf Viseme ab, um die Visemsequenz 406 zu generieren. Wie weiter in 4 gezeigt ist, setzt das visuelle Spracherkennungssystem 106 die Visemsequenz 406 ein, um ein elektronisches Transkript 408 für ein Digitalvideo entsprechend den segmentierten visemischen Sprachdarstellungen 402 zu generieren.
Wie in 4 gezeigt ist, wird das GAN 404 trainiert, um mögliche Sequenzen von Visemen aus eingegebenen visuellen Spracheinbettungen (beispielsweise den segmentierten visemischen Sprachdarstellungen) zu generieren. Das GAN 404 (das heißt ein Generator G) bildet die Sequenz von segmentierten visemischen Sprachdarstellungen S = S₁, S₂, ..., S_T auf Visemdarstellungen V = v,v₂, ..., v_L ab. Bei einer oder mehreren Ausführungsformen generiert der Generator G ein Visem pro segmentierte visemische Sprachdarstellung. In einigen Fällen kombiniert das visuelle Spracherkennungssystem 106 des Weiteren nachfolgende Visemvorhersagen, wenn der Generator G dasselbe Visem back-to-back generiert (um beispielsweise sicherzustellen, dass L ≤ T gilt).
Das GAN 404 kann eine Vielzahl von Architekturen beinhalten. Das GAN 404 kann beispielsweise ein faltungstechnisches neuronales Netzwerk mit eindimensionaler (1-D) Schicht beinhalten. Zusätzlich weist das GAN 404 bei einer oder mehreren Ausführungsformen eine lineare Schicht auf, die Viseme aus den segmentierten visemischen Sprachdarstellungen klassifiziert. Das visuelle Spracherkennungssystem 106 stellt das GAN 404 mit einer Anzahl m von eingegebenen segmentierten visemischen Sprachdarstellungen bereit. Die eingegebenen segmentierten visemischen Sprachdarstellungen können verschiedene Größen (beispielsweise 256, 512, 1024) beinhalten. Das GAN 404 gibt über das faltungstechnische neuronale Netzwerk mit der 1-D-Schicht und die lineare Schicht zudem eine Visemverteilung (beispielsweise eine Verteilung von Visemen mit Klassifizierungswahrscheinlichkeiten) aus. Bei einigen Ausführungsformen bestimmt das visuelle Spracherkennungssystem 106 sodann eine Visemklassifizierung für die eingegebene segmentierte visemische Sprachdarstellung aus der Visemverteilung.
In einigen Fällen setzt das visuelle Spracherkennungssystem 106 eine Softmax-Schicht ein, um eine Visemverteilung, die von dem GAN 404 ausgegeben wird, zu generieren. Insbesondere setzt das visuelle Spracherkennungssystem 106 eine Softmax-Technik ein, um authentische one-hot-codierte Visemdarstellungen nachzuahmen. In einigen Fällen verhindert die Softmax-Schicht, dass das GAN 404 scharfe bzw. ausgeprägte Visemverteilungen (beispielsweise eine äußerst hohe Zuverlässigkeit einer Visemklasse) lernt. In einigen Fällen setzt das visuelle Spracherkennungssystem 106 eine Gumbel-Softmax-Schicht ein, um die Visemverteilung, die von dem GAN 404 ausgegeben wird, zu generieren.
Bei einer oder mehreren Ausführungsformen generiert das visuelle Spracherkennungssystem 106 eine Visemsequenz für visuelle Sprache eines gesamten Digitalvideos. In einigen Fällen generiert das visuelle Spracherkennungssystem 106 für ein Digitalvideo mehrere Visemsequenzen, die mehrere Segmente des Digitalvideos darstellen. Bei einem Beispiel bestimmt das visuelle Spracherkennungssystem 106 eine Visemsequenz für einzelne Aussagen oder Sätze in einem Digitalvideo oder für einzelne Abschnitte des Digitalvideos.
Des Weiteren setzt das visuelle Spracherkennungssystem 106, wie vorstehend erwähnt und in 4 gezeigt ist, das GAN 404 ein, um eine Visemsequenz für die segmentierten visemischen Sprachdarstellungen zu generieren und anschließend ein elektronisches Transkript 408, das innerhalb des Digitalvideos abgebildete Sprache darstellt, zu generieren. 5 zeigt, wie das visuelle Spracherkennungssystem 106 einen Sprachdecoder 504 einsetzt, um eine elektronische Transkription 506 für ein Digitalvideo 510 aus einer Visemsequenz 502, die für das Digitalvideo 510 generiert wird, zu generieren. Zusätzlich setzt das visuelle Spracherkennungssystem 106, wie in 5 gezeigt ist, bei einigen Ausführungsformen des Weiteren die elektronische Transkription 506 ein, um Digitalaudiocontent 508 für die innerhalb des Digitalvideos 510 abgebildete Sprache zu generieren.
Insbesondere setzt das visuelle Spracherkennungssystem 106 den Sprachdecoder 504 (beispielsweise zur automatischen Spracherkennung) ein, um eine wahrscheinliche Textsequenz aus der von dem GAN generierten Visemsequenz zu bestimmen. Das visuelle Spracherkennungssystem 106 trainiert den Sprachdecoder 504 als Visemebenen-Sprachdecoder (beispielsweise mit einem visemischen 6-Gram-Sprachmodell). Das visuelle Spracherkennungssystem 106 setzt beispielsweise einen Sprachdecoder ein, der unter Nutzung eines visemischen Sprachmodells (mit Generierung oder Präparierung) aus einem Textkorpus trainiert (oder modelliert) worden ist. Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 den Sprachcodierer ein, um einen optimalen Pfad von Visemen (beispielsweise in Polynomzeit) unter Einsatz eines Decodieralgorithmus (beispielsweise eines Viterbi-Algorithmus) zu bestimmen. Bei einigen Ausführungsformen fügt das visuelle Spracherkennungssystem 106 Selbstschleifen bzw. Autoschleifen (self loops) hinzu, um leere Visemsequenzen mit einem Etikett zu füllen (um beispielsweise zwischen Leerstellen (blanks) und Räumen bzw. Leerräumen (spaces) zu unterscheiden).
Bei gewissen Ausführungsformen trainiert das visuelle Spracherkennungssystem 106 den Sprachdecoder 504 als Wortebenen-Sprachdecoder. Das visuelle Spracherkennungssystem 106 trainiert ein Sprachmodell beispielsweise unter Einsatz eines oder mehrerer Textkorpora, um Text unter Nutzung einer beliebigen Strahlsuche (beam search) (beispielsweise unter Nutzung von verschiedenen Strahlbreiten wie 4,0 Worte, 5,0 Worte, 6,0 Worte) zu decodieren. Bei einer oder mehreren Ausführungsformen generiert das visuelle Spracherkennungssystem 106 elektronische Transkriptionen aus generierten Visemsequenzen unter Einsatz eines Wortebenen-Sprachdecoders mit vergleichbaren Ergebnissen, und zwar unter Nutzung eines Sprachdecoders, der unter Nutzung einer großen Menge von vorverarbeitetem Text (beispielsweise 8 Gigabyte Daten oder mehr) trainiert worden ist, und unter Nutzung eines Sprachdecoders, der unter Nutzung einer kleineren Menge von vorverarbeitetem Text (beispielsweise 2 Gigabyte Daten oder weniger) trainiert worden ist.
Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 einen WFST-basierten (Weighted Finite-State Transducer WFST) Sprachdecoder als Sprachdecoder 504 ein. Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 einen WFST-Decoder ein, der wiederum Wandler einsetzt, um die Wahrscheinlichkeit einer Wortsequenz (beispielsweise aus Visemen oder Phonemen von Visemen) zu modellieren. In einigen Fällen setzt das visuelle Spracherkennungssystem 106 einen WFST-Decoder ein, der wiederum eine Finiter-Zustand-Maschine einsetzt, um Gewichtungen für verschiedene Pfade, die für eine Visemsequenz eingesetzt werden, bereitzustellen. In einigen Fällen setzt das visuelle Spracherkennungssystem 106 den WFST-Decoder ein, um Visemzustände zu einer grammatikalisch schlüssigen Wortsequenz zu decodieren (beispielsweise um die elektronische Transkription zu generieren). Des Weiteren setzt das visuelle Spracherkennungssystem 106 bei einer oder mehreren Ausführungsformen verschiedene WFST-basierte Sprachdecoder ein, so beispielsweise unter anderem einen WFST-basierten Sprachdecoder, der eine Viterbi-Decodierung nutzt, WFST-basierte Sprachdecoder, die Semiringe bzw. Halbringe einsetzen, WFST-basierte Sprachdecoder, die verschiedene Operatoren (beispielsweise Summe, Produkt, Abgeschlossenheit (closure), Umkehrung (reversal), Inversion (inversion)) einsetzen.
Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 die Ausgabe eines WFST-basierten Sprachdecoders ein, um zu bestimmen, ob Gewichtungen in einer neuesten Epoche im Vergleich zu vorherigen Epochen verbessert sind. Das visuelle Spracherkennungssystem 106 setzt diese Metrik ein, um die Wahrscheinlichkeit des Auftretens eines Ausgabesatzes in der Sprache zu bestimmen. Das visuelle Spracherkennungssystem 106 setzt beispielsweise Viterbi-Modell-Ausgaben ${V_{j}}_{j = 1}^{N_{s}},$
wortbasierte Ausgaben des WFST-basierten Sprachdecoders ${{\bar{V}}_{j}}_{j = 1}^{N_{s}}$
und eine Entropie des Sprachmodells H_LM(V _j) (die beispielsweise die Wahrscheinlichkeit des Auftretens eines Satzes in der Sprache angibt) mit einem abstimmbaren Hyperparameter µ zum Trainieren des WFST-basierten Sprachdecoders ein. Insbesondere setzt das visuelle Spracherkennungssystem 106 die Ausgabe eines WFST-basierten Sprachdecoders ein, um die nachfolgende nicht überwachte Metrik zu minimieren: $\sum_{j = 1}^{N_{s}} H_{L M} ({\bar{V}}_{j}) \times max (E D ({\bar{V}}_{j}, V_{j}), μ)$
In einigen Fällen generiert das visuelle Spracherkennungssystem 106 beim Generieren einer elektronischen Transkription für ein Digitalvideo zudem Digitalaudiocontent für das Digitalvideo. In einigen Fällen setzt das visuelle Spracherkennungssystem 106 ein computerisiertes Sprachmodell (beispielsweise künstliche Intelligenz, einen Sprachvorlese-Algorithmus) ein, um Audiocontent für den Text der elektronischen Transkription zu erstellen. Bei einigen Implementierungen überlagert das visuelle Spracherkennungssystem 106 den Audiocontent sodann mit dem Digitalvideo in der Ziel- bzw. Sollabspielzeit so, wie durch die elektronische Transkription angegeben ist. Insbesondere kann das visuelle Spracherkennungssystem 106 Zeitstempel entsprechend dem Audio und dem elektronischen Transkript auf Grundlage von Digitalframes bestimmen, die zum Generieren der segmentierten visemischen Sprachdarstellungen mit Abbildung auf Viseme und entsprechende(r) Worte des elektronischen Transkripts eingesetzt werden. Das visuelle Spracherkennungssystem 105 kann die Zeitstempel des Audios / des elektronischen Transkripts mit Zeitstempeln von Digitalframes des Digitalvideos ausrichten. Das visuelle Spracherkennungssystem 106 kann das generierte Digitalaudio daher mit Digitalframes des Digitalvideos ausrichten.
Darüber hinaus bestimmt das visuelle Spracherkennungssystem 106 bei einer oder mehreren Ausführungsformen zu verschiedenen Zwecken visuelle Sprache aus Digitalvideos. Darstellungshalber setzt das visuelle Spracherkennungssystem 106 in einigen Fällen beim Generieren einer elektronischen Transkription für ein Digitalvideo, dem das Audio fehlt, die elektronische Transkription ein, um verlorene Sprache aus dem Digitalvideo einzuführen. Das visuelle Spracherkennungssystem 106 rekonstruiert beispielsweise verlorenes Audio einer sprechenden Figur (die in einem Digitalvideo abgebildet ist) durch Erkennen der visuellen Sprache der Figur (wie vorstehend beschrieben worden ist) und Generieren einer elektronischen Transkription der visuellen Sprache.
Zusätzlich erkennt das visuelle Spracherkennungssystem 106 in einigen Fällen auch visuelle Sprache (wie vorstehend beschrieben worden ist), um Audiocontent zu animierten Filmen in verschiedenen Sprachen automatisch hinzuzufügen. In einem oder mehreren Fällen setzt das visuelle Spracherkennungssystem 106 des Weiteren das visuelle Spracherkennungsframework ein, um Audiocontent für Digitalvideos zu generieren, die ein verrauschtes, fehlendes und/oder beschädigtes Audio aufweisen. In einigen Fällen setzt das visuelle Spracherkennungssystem 106 das visuelle Spracherkennungsframework ein, um (über elektronische Transkriptionen und Audiocontent) verrauschte, fehlende und/oder beschädigte Audiospuren von Videokonferenzanrufen zu reparieren.
Des Weiteren setzt das visuelle Spracherkennungssystem 106 bei einigen Ausführungsformen das visuelle Spracherkennungs-GAN in Kombination mit einem Audioerkennungsmodell ein, um sowohl visuelle Sprache wie auch hörbare Sprache aus einem Digitalvideo zu erkennen. Insbesondere setzt das visuelle Spracherkennungssystem 106 bei einer oder mehreren Ausführungsformen einen Audiocodierer ein, um Audiodarstellungen aus dem Digitalvideo zu generieren. Sodann clustert das visuelle Spracherkennungssystem 106 bei einigen Implementierungen die Audiodarstellungen und setzt die geclusterten Audiodarstellungen ein, um Visemsequenzen (oder Phonemsequenzen) und elektronische Transkriptionen aus den Audiodarstellungen unter Einsatz eines GAN entsprechend einer oder mehreren Ausführungsformen zu generieren. In einigen Fällen setzt das visuelle Spracherkennungssystem 106 eine Kombination der Visemsequenzen, die aus den visuellen Sprachdarstellungen generiert werden, und der Visemsequenzen, die aus den Audiodarstellungen generiert werden, ein, um eine elektronische Transkription für das Digitalvideo zu generieren.
Wie vorstehend erwähnt worden ist, setzt das visuelle Spracherkennungssystem 106 ein neuronales Diskriminatornetzwerk ein, um Parameter des GAN zu lernen. Bei einer oder mehreren Ausführungsformen trainiert das visuelle Spracherkennungssystem 106 das neuronale Diskriminatornetzwerk, um zwischen authentischen und nicht authentischen/generierten Visemsequenzen (beispielsweise echt oder gefälscht) zu unterscheiden. 6 zeigt beispielsweise, wie das visuelle Spracherkennungssystem 106 das neuronale Diskriminatornetzwerk unter Einsatz von authentischen Visemsequenzen aus einem Textkorpus trainiert.
Wie in 6 gezeigt ist, identifiziert das visuelle Spracherkennungssystem 106 eine authentische Visemsequenz 604 aus einem Textkorpus 602. Sodann gibt das visuelle Spracherkennungssystem 106, wie in 6 gezeigt ist, die authentische Visemsequenz 604 in das neuronale Diskriminatornetzwerk 606 ein, um eine Authentizitätsvorhersage 608 zu generieren. Die Authentizitätsvorhersage gibt an, ob die authentische Visemsequenz 604 als echt oder gefälscht (beispielsweise als Visemsequenz aus dem Textkorpus oder als Visemsequenz aus dem GAN) vorhergesagt wird.
Wie weiter in 6 gezeigt ist, vergleicht das visuelle Spracherkennungssystem 106 die Authentizitätsvorhersage 608 mit der authentischen Visemsequenz 604 (als Ground-Truth-Etikett), um einen Verlust unter Nutzung einer Verlustfunktion 610 zu bestimmen. Die Verlustfunktion 610 gibt die Genauigkeit des neuronalen Diskriminatornetzwerkes 606 an (beispielsweise durch Generieren eines Verlustwertes, der angibt, dass die Authentizitätsvorhersage 608 im Vergleich zur Authentizität der authentischen Visemsequenz 604 nicht korrekt und/oder korrekt ist). In einigen Fällen setzt das visuelle Spracherkennungssystem 106 den Verlust, der aus der Verlustfunktion 610 bestimmt wird, darüber hinaus ein, um Parameter des neuronalen Diskriminatornetzwerkes 606 zu lernen. Das visuelle Spracherkennungssystem 106 modifiziert beispielsweise die Parameter des neuronalen Diskriminatornetzwerkes 606, um das nicht korrekte (oder korrekte) Verhalten, das durch die Verlustfunktion 610 angegeben wird, (beispielsweise unter Nutzung einer Rückführung bzw. Backpropagation) zu berücksichtigen und um zu lernen, genau zwischen echten und gefälschten Visemsequenzen zu unterscheiden.
Bei einigen Ausführungsformen setzt visuelle Spracherkennungssystem 106 ein Textkorpus ein, um das neuronale Diskriminatornetzwerk zu trainieren. Bei einer oder mehreren Implementierungen beinhaltet das Textkorpus eine Datenquelle, so beispielsweise Online-Artikel, Enzyklopädien, Wörterbücher und/oder Nachrichtenartikel. In einigen Fällen bezieht das visuelle Spracherkennungssystem 106 Textaussagen aus dem Textkorpus und wandelt die Textaussage in eine Visemsequenz (beispielsweise als authentische Visemsequenz) um. Das visuelle Spracherkennungssystem 106 wandelt beispielsweise Phoneme der Textaussagen aus dem Textkorpus in Visemsequenzen unter Nutzung von verschiedenen Visemumwandlungstechniken (beispielsweise Epitran, Amazon Polly) um. In einigen Fällen wandelt das visuelle Spracherkennungssystem 106 das gesamte Textkorpus in ein Visemsequenzkorpus um und setzt das Visemsequenzkorpus ein, um das neuronale Diskriminatornetzwerk zu trainieren.
Wie vorstehend erwähnt worden ist, trainiert das visuelle Spracherkennungssystem 106 in einigen Fällen ein GAN, um Visemsequenzvorhersagen aus visuellen Sprachdarstellungen adversativ unter Nutzung eines neuronalen Diskriminatornetzwerkes zu generieren. 7 zeigt als Beispiel, wie das visuelle Spracherkennungssystem 106 ein GAN trainiert (und zudem das neuronale Diskriminatornetzwerk trainiert). Wie in 7 gezeigt ist, generiert das GAN 702 eine Visemsequenz 704. Sodann stellt das visuelle Spracherkennungssystem 106, wie weiter in 7 gezeigt ist, die Visemsequenz 704 für ein neuronales Diskriminatornetzwerk 706 (beispielsweise das neuronale Diskriminatornetzwerk 606) bereit, um eine Authentizitätsvorhersage 708 zu generieren. Insbesondere gibt die Authentizitätsvorhersage 708 an, ob die generierte Visemsequenz 704 als echt oder gefälscht vorhergesagt wird.
Das visuelle Spracherkennungssystem 106 vergleicht die Authentizitätsvorhersage 708 mit einem Ground-Truth-Etikett der Visemsequenz 704 (beispielsweise einem Etikett, das angibt, dass die Visemsequenz 704 gefälscht ist). Wie dargestellt ist, setzt das visuelle Spracherkennungssystem 106 beispielsweise einen Diskriminatorverlust 710 auf Grundlage der Authentizitätsvorhersage 708 und eines Ground-Truth-Etiketts zur Bestimmung eines Verlustmaßes ein. Das visuelle Spracherkennungssystem 106 setzt das Verlustmaß sodann ein, um Parameter des GAN 702 (beispielsweise unter Nutzung einer Rückführung bzw. Backpropagation zur Verringerung des Verlustmaßes) zu lernen. Auf diese Weise lernt das GAN 702, realistischere Visemsequenzen (bei denen beispielsweise wahrscheinlicher ist, dass sie das neuronale Diskriminatornetzwerk 705 überlisten) zu generieren. Obwohl dies nicht dargestellt ist, kann das visuelle Spracherkennungssystem 106 des Weiteren den Diskriminatorverlust 710 auch nutzen, um Parameter des neuronalen Diskriminatornetzwerkes 706 weiter zu modifizieren (und zwar beispielsweise derart, dass das neuronale Diskriminatornetzwerk genauer zwischen echten und gefälschten Visemsequenzen unterscheidet).
Zusätzlich setzt das visuelle Spracherkennungssystem 106, wie in 7 gezeigt ist, auch einen Generatorverlust 712 mit dem GAN 702 ein, um Parameter des GAN 702 zu lernen. Wie in 7 gezeigt ist, wird der Generatorverlust 712 in das GAN 702 mittels Rückführung bzw. Backpropagation eingespeist. Wie in 7 gezeigt ist, setzt das visuelle Spracherkennungssystem 706 den Generatorverlust 712 (und den Diskriminatorverlust 710) sodann ein, um Parameter des GAN 702 zu modifizieren und das GAN 702 zu trainieren, um genaue Visemsequenzen aus segmentierten visemischen Sprachdarstellungen zu generieren. Wie weiter in 7 gezeigt ist, beinhaltet der Generatorverlust 712 eine Segmentglattheitspönalisierung (segment smoothness penalty), einen Visemdiversitätsverlust (viseme diversity lost) und/oder eine Gradientenpönalisierung (gradient penalty) (nachstehend noch beschrieben). Obwohl eine oder mehrere Ausführungsformen einen Generatorverlust darstellen, der eine Segmentglattheitspönalisierung, einen Visemdiversitätsverlust und/oder eine Gradientenpönalisierung beinhaltet, beinhaltet der Generatorverlust bei einigen Ausführungsformen verschiedene bzw. andere Kombinationen dieser Verluste.
Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 einen Generatorverlust und einen Diskriminatorverlust durch eine Mini-Max-Verlustformulierung ein. Insbesondere bestimmt das visuelle Spracherkennungssystem 106 in einigen Fällen einen GAN-Mini-Max-Verlust aus der generierten Visemsequenz und dem neuronalen Diskriminatornetzwerk und setzt den GAN-Mini-Max-Verlust ein, um das GAN (beispielsweise mittels einer Rückführung bzw. Backpropagation) zu modifizieren. Das visuelle Spracherkennungssystem 106 kann beispielsweise für einen Diskriminator D und einen Generator G mit einer Anzahl von Visemproben Ṽ ∈ v und Sprachsegmentdarstellungen S einen Mini-Max-Verlust generieren, wie ihn die nachfolgende Funktion beschreibt: $min_{G} max_{D}_{\tilde{V} ~ V}^{E} [log D (\tilde{V})] -_{S ~ S}^{E} [log (1 - D (G (S)))]$
In einigen Fällen setzt das visuelle Spracherkennungssystem 106, wie in 7 dargestellt ist, einen Gradientenpönalisierungsverlust (gradient penalty loss) als Teil des Generatorverlustes 712 ein. Das visuelle Spracherkennungssystem 106 setzt beispielsweise einen Gradientenpönalisierungsverlust ein, um das Training des GAN an einer zufälligen Anzahl von Visemproben Ṽ ∈ v zu stabilisieren. In einigen Fällen beinhaltet der Gradientenpönalisierungsverlust eine Normpönalisierung des Gradienten eines neuronalen Diskriminatornetzwerkes in Bezug auf die Eingabe des neuronalen Diskriminatornetzwerkes. Das visuelle Spracherkennungssystem 106 kann beispielsweise für einen Diskrimintor D die nachfolgende Gradientenpönalisierungsverlustfunktion (als Teil der Mini-Max-Verlustfunktion (2)) einsetzen, um einen Gradientenpönalisierungsverlust L_gp zu bestimmen: $L_{g p} =_{\tilde{V} ~ V}^{E} [{(‖ \nabla D (\tilde{V}) ‖ - 1)}^{2}]$
Zusätzlich setzt das visuelle Spracherkennungssystem 106 bei einigen Implementierungen, wie in 7 gezeigt ist, einen Segmentglattheitspönalisierungsverlust als Teil des Generatorverlustes 712 ein. Das visuelle Spracherkennungssystem 106 setzt beispielsweise einen Segmentglattheitspönalisierungsverlust ein, der plötzliche Änderungen bei Visemen in aufeinanderfolgenden segmentierten visemischen Sprachdarstellungen vermeidet. Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 den Segmentglattheitspönalisierungsverlust ein, um unrealistische plötzliche Änderungen in der Struktur des Mundes, der Lippen und der Stimmbänder zu berücksichtigen, die keine plötzlichen Änderungen bei den Visemen zulassen, und um Rauschen (beispielsweise aus korrelierten Segmenten in aufeinanderfolgenden Zeitschritten (v_t,v_t+1)) zu verringern. Darstellungshalber kann das visuelle Spracherkennungssystem 106 für Viseme v in aufeinanderfolgenden Zeitschritten und einen Generator G die nachfolgende Segmentglattheitspönalisierungsverlustfunktion (als Teil der Mini-Max-Verlustfunktion (2)) einsetzen, um einen Segmentglattheitspönalisierungsverlust L_sp zu bestimmen: $L_{s p} = \sum_{(v_{t}, v_{t + 1}) \in G_{(s)}} {‖ v_{t} - v_{t + 1} ‖}^{2} wobei v_{t} \in V$
Zusätzlich setzt das visuelle Spracherkennungssystem 106 bei einer oder mehreren Ausführungsformen, wie in 7 gezeigt ist, einen Visemdiversitätsverlust als Teil des Generatorverlustes 712 ein. In einigen Fällen setzt das visuelle Spracherkennungssystem 106 den Visemdiversitätsverlust ein, um die Visemvokabulardiversität in dem GAN zu fördern. Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 den Visemdiversitätsverlust ein, um eine Verteilung eines Visemvokabulars über eine Charge von Äußerungen (beispielsweise Aussagen oder Segmente von Sprache in Digitalvideos) zu erweitern (beispielsweise zu maximieren). In einigen Fällen führt das visuelle Spracherkennungssystem 106 den Visemdiversitätsverlust
ein, um die Entropie einer gemittelten Softmax-Verteilung $(H_{G} (G (S)))$
eines Generators
(GAN) für segmentierte visemische Sprachdarstellungen S über eine Charge von B Äußerungen aus einem Digitalvideo / aus Digitalvideos (wie in der nachfolgenden Funktion gezeigt ist) zu vergrößern (beispielsweise zu maximieren). Die Visemdiversitätsverlustfunktion kann das Generieren von Visemen stärker pönalisieren, wenn dieselben Viseme einen schmäleren Bereich des Visemvokabulars widerspiegeln. Mit anderen Worten, der Visemdiversitätsverlust kann den Einsatz eines breiteren Bereiches von Visemen aus dem Visemvokabular fördern. Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 die nachfolgende Visemdiversitätsverlustfunktion (als Teil der Mini-Max-Verlustfunktion (2)) ein: $L_{v d} = \frac{1}{| B |} \sum_{S \in B} - H_{G} (G (S))$
Des Weiteren modifiziert das visuelle Spracherkennungssystem 106, wie vorstehend erwähnt worden ist, in gewissen Fällen einen Mini-Max-Verlust für ein GAN durch Einsetzen des Gradientenpönalisierungsverlustes, des Segmentglattheitspönalisierungsverlustes und des Visemdiversitätsverlustes. Insbesondere setzt das visuelle Spracherkennungssystem 106 bei einer oder mehreren Ausführungsformen die Funktionen (3) bis (5) (beispielsweise zur Darstellung des Gradientenpönalisierungsverlustes, des Segmentglattheitspönalisierungsverlustes und des Visemdiversitätsverlustes) ein, um die Mini-Max-Verlustfunktion (2) unter Nutzung der nachfolgenden Funktion zu modifizieren: $min_{G} max_{D}_{\tilde{V} ~ V}^{E} [log D (\tilde{V})] -_{S ~ S}^{E} [log (1 - D (G (S)))] - λ L_{g p} + γ L_{s p} + η L_{v d}$
In einigen Fällen setzt das visuelle Spracherkennungssystem 106 Hyperparameter λ,γ und η ein, um den Gradientenpönalisierungsverlust L_gp, den Segmentglattheitspönalisierungsverlust L_sp und den Visemdiversitätsverlust L_vd zu modifizieren.
Bei einigen Ausführungsformen nimmt das visuelle Spracherkennungssystem 106 zudem eine Rückführung bzw. Backpropagation des Verlustes aus dem Generator (und/oder Diskriminator) vor, um Parameter eines oder mehrerer Modelle des visuellen Spracherkennungssystemframeworks vor dem GAN zu lernen. Das visuelle Spracherkennungssystem 106 nimmt beispielsweise eine Rückführung bzw. Backpropagation eines Verlustes zu dem Clusterungsmodell vor, um Parameter des Clusterungsmodells zu lernen (beispielsweise um eine endgültige generierte Visemsequenz mittels Modifikationen an dem Clusterungskonzept zu verbessern). Das visuelle Spracherkennungssystem 106 nimmt bei einigen Implementierungen zusätzlich eine Rückführung bzw. Backpropagation eines Verlustes zu dem Segmentierungsmodell (wie es vorstehend beschrieben worden ist) vor, um Parameter des Segmentierungsmodells zu lernen (beispielsweise um eine endgültige generierte Visemsequenz mittels Modifikationen an dem Clusterungskonzept zu verbessern). Bei einer oder mehreren Ausführungsformen setzt das visuelle Spracherkennungssystem 106 ein vollständig gesteuertes bzw. geregeltes neuronales Netzwerk, ein RNN, ein LSTM-Modell (Long Short-Term Memory LSTM, langes Kurzzeitgedächtnis) und/oder einen Wandler ein, um Parameter für die verschiedenen Stufen innerhalb des Frameworks des visuellen Spracherkennungssystems zu lernen.
Wie vorstehend erwähnt worden ist, erkennt das visuelle Spracherkennungssystem 106 visuelle Sprache aus Digitalvideos genau und mit verbesserter Flexibilität und Effizienz. Experimentell eingesetzt wurde beispielsweise ein Spracherkennungsmodell entsprechend einer oder mehreren der vorliegenden Implementierungen, um Ergebnisse mit verschiedenen herkömmlichen Spracherkennungsmodellen zu vergleichen. Experimentell eingesetzt hat man eine nicht etikettierte Version des LR3-Datensatzes (Lip Reading Sentences 3, LR3), der annähernd 150.000 Äußerungen verschiedener Längen (beispielsweise mit über 440 Stunden Sprache) enthält, und zwar zum Trainieren (wie vorstehend beschrieben worden ist) und Vergleichen von Ergebnissen eines Spracherkennungsmodells entsprechend einer oder mehreren der vorliegenden Implementierungen und verschiedener herkömmlicher Spracherkennungsmodelle. Bei einer oder mehreren Ausführungsformen wurde der Datensatz experimentell derart geschichtet (stratify), dass keine Überlappung in dem Testsatz und dem Trainingssatz vorhanden war. Experimentell eingesetzt wurde zudem der LRS2-Datensatz (Lip Reading Sentences 2, LRS2), der annähernd 150.000 transkribierte Äußerungen verschiedener Längen (beispielsweise mit 224,5 Stunden Sprachcontent) enthält.
Experimentell eingesetzt wurden insbesondere verschiedene überwachte herkömmliche Spracherkennungsmodelle mit den LRS3- und LRS2-Datensätzen. Experimentell eingesetzt wurden bei einem Beispiel TM-CTC (Transformer with Connectionist Temporal Classification loss) und TM-Seq2Seq (Transformer with sequence-to-sequence loss), wie beschrieben ist bei: „Deep Audio-Visual Speech Recognition“ von Afouras, veröffentlicht bei IEEE Transactions on Pattern Analysis and Machine Intelligence (2018). Experimentell eingesetzt wurde zudem das WAS-Modell (Watch, Attend and Spell WAS) (mit einem CNN-LSTM-Modell mit Aufmerksamkeit), wie beschrieben ist bei: „Lip Reading Sentences in the Wild“ von Chung, veröffentlicht bei 2017 IEEE Conference on Computer Vision and Pattern Recognition (2017). Experimentell eingesetzt wurde darüber hinaus ein STFC-Sequenzmodell (Spatio-Temporal Fusion based Convolutional STFC) mit kausalen Faltungs-RNN-Sequenzen, wie beschrieben ist bei: „Deep Audio-Visual Speech Recognition“ von Afouras, veröffentlicht bei IEEE Transactions on Pattern Analysis and Machine Intelligence (2018).

Experimentell eingesetzt wurde zudem das visuelle Spracherkennungssystem entsprechend einer oder mehreren der vorliegenden Implementierungen mit den LRS3- und LRS2-Datensätzen. Experimentell aufgezeichnet wurden die Trainingssatzgröße und die Trainingszeit für jedes der herkömmlichen überwachten Modelle und das visuelle Spracherkennungssystem entsprechend einer oder mehreren der vorliegenden Implementierungen sowie die Leistungsergebnisse an jedem der LRS3- und LRS2-Datensätze. Wie in der nachfolgenden Tabelle gezeigt ist, war die experimentelle Ausführungsform des visuellen Spracherkennungssystems im Verhalten vergleichbar mit den überwachten herkömmlichen Konzepten (mit Blick auf die Wortfehlerrate (Word Error Rate WER)), und dies bei Nutzung von nicht annotierten Daten und bei Nutzung nur eines Bruchteiles von nicht annotierten Daten (mit weniger Trainingszeit). Tabelle 1

Modell	Ergebnisse		Typ	Größe des Trainingssatzes (Stunden)	Trainingszeit
	LRS-2	LRS-3

WAS	70,4	-	überwacht	1637,4	10 Tage
TM-CTC	72,3	83,1	überwacht	1637,4	19 Tage
TM-Seq2Seq	60,5	70,8	überwacht	1637,4	22 Tage
STFC	51,7	60,1	überwacht	863	7 Tage
visuelles Spracherkennungssystem	63,4	71,4	nicht überwacht	350	2,5 Tage

Experimentell eingesetzt wurde darüber hinaus das visuelle Spracherkennungssystem entsprechend einer oder mehreren Implementierungen mit verschiedenen Sprachdecodern. Experimentell eingesetzt wurden beispielsweise verschiedene Implementierungen des visuellen Spracherkennungssystems mit einem WFST-Sprachdecoder, einem Sprachmodell-6-Gram-Decoder und einem Sprachmodell-WFST-Sprachdecoder an verschiedenen Kombinationen von Datensätzen (LRS3 und LRS2) und verschiedenen eingegebenen segmentierten visemischen Sprachdarstellungen (beispielsweise Mean-Pool-PCA-Darstellungen und PCA-Darstellungen). Die nachfolgende Tabelle zeigt beispielsweise Wortfehlerraten (WER), die man mit dem vorbeschriebenen visuellen Spracherkennungssystem (entsprechend einer oder mehreren Implementierungen) erhalten hat. Tabelle 2

Eingabeeinbettung	Datensatz	Decoder	WER
Mean Pooled PCA512	LRS3	WFST	80,1
PCA512	LRS3	WFST	77,2
Mean Pooled PCA512	LRS3	LM 6-Gram	74,3
PCA512	LRS3	LM 6-Gram	71,4
Mean Pooled PCA512	LRS2	WFST	70,9
PCA512	LRS2	LM WFST	68,3
Mean Pooled PCA512	LRS2	LM 6-Gram	65,2
PCA512	LRS2	LM 6-Gram	63,4

Experimentell eingesetzt wurde zudem ein visuelles Spracherkennungssystem entsprechend einer oder mehreren der vorliegenden Implementierungen (mit Gumbel-Softmax-Schichten), damit das Modell schneller konvergiert, während die Hyperparameter gleich blieben. In einigen Fällen senkte das visuelle Spracherkennungssystem die Wortfehlerrate WER und erreichte eine vergleichbare Wortfehlerrate (WER) mit nur 100 Epochen (gegenüber herkömmlichen Systemen mit annähernd 74). Experimentell einsetzen konnte man das visuelle Spracherkennungssystem entsprechend einer oder mehreren der vorliegenden Implementierungen zudem, um eine vergleichbare Wortfehlerrate WER mit einer Trainingsdatensatzgröße von über 100 Stunden mit einem vergleichbaren Verlust für eine Trainingsdatensatzgröße von 350 Stunden (wie in Tabelle 1 gezeigt ist) zu erhalten. Die vorstehenden experimentellen Ergebnisse zeigen, dass das visuelle Spracherkennungssystem entsprechend einer oder mehreren der vorliegenden Implementierungen (ohne etikettierte Trainingsdaten und mit weniger Trainingsdaten) Benchmark-Leistungen zeigt, die mit vielen herkömmlichen überwachten Modellen, die auf 860+ Stunden von etikettierten Daten beruhen, vergleichbar sind.
In 8 sind zusätzliche Details im Zusammenhang mit Komponenten und Kapazitäten einer oder mehrerer Ausführungsformen des visuellen Spracherkennungssystems angegeben. Insbesondere zeigt 8 ein exemplarisches visuelles Spracherkennungssystem 106, das von einer Rechenvorrichtung 800 (beispielsweise der Servervorrichtung / den Servervorrichtungen 102 oder den Clientvorrichtungen 110a bis 110n) ausgeführt wird. Wie die Ausführungsform von 8 zeigt, beinhaltet oder hostet die Rechenvorrichtung 800 das Digitalgrafiksystem 104 und das visuelle Spracherkennungssystem 106. Wie in 8 gezeigt ist, beinhaltet das visuelle Spracherkennungssystem 106 einen Digitalvideoverwalter 802, einen Visuellsprachdarstellungsgenerator 804, einen Visemsequenzgenerator 806, einen Sprachtextgenerator 808 und einen Datenspeicherverwalter 810.
Wie eben erwähnt worden und bei der Ausführungsform von 8 gezeigt ist, beinhaltet das visuelle Spracherkennungssystem 106 den Digitalvideoverwalter 802. Der Digitalvideoverwalter 802 nimmt beispielsweise ein Identifizieren, Speichern und/oder Anzeigen von Digitalvideos, wie vorstehend (beispielsweise anhand 1 und 2) beschrieben worden ist, vor. In einigen Fällen nimmt der Digitalvideoverwalter 802 ein Speichern und Abbilden von generierten elektronischen Transkriptionen auf Digitalvideos, wie vorstehend (beispielsweise anhand 1, 2 und 5) beschrieben worden ist, vor.
Wie in 8 gezeigt ist, beinhaltet das visuelle Spracherkennungssystem 106 des Weiteren den Visuellsprachdarstellungsgenerator 804. Der Visuellsprachdarstellungsgenerator 804 setzt beispielsweise einen Bildcodierer mit Frames eines Digitalvideos ein, um visuelle Sprachdarstellungen für das Digitalvideo, wie vorstehend (beispielsweise anhand 2 und 3) beschrieben worden ist, zu generieren. Zusätzlich bestimmt der Visuellsprachdarstellungsgenerator 804 in einigen Fällen segmentierte visemische Sprachdarstellungen aus Clustern von visuellen Sprachdarstellungen, wie vorstehend (beispielsweise anhand 2 und 3) beschrieben worden ist.
Wie in 8 gezeigt ist, beinhaltet das visuelle Spracherkennungssystem 806 zudem den Visemsequenzgenerator 806. Der Visemsequenzgenerator 806 setzt beispielsweise eine segmentierte visemische Sprachdarstellung mit einem GAN ein, um eine Visemsequenz für ein Digitalvideo, wie vorstehend (beispielsweise anhand 2 und 4) beschrieben worden ist, zu generieren. Bei einigen Implementierungen trainiert der Visemsequenzgenerator 806 einen Generator und/oder einen Diskriminator, um genaue Visemsequenzen, wie vorstehend (beispielsweise anhand 6 und 7) beschrieben worden ist, zu generieren.
Wie in 8 gezeigt ist, beinhaltet das visuelle Spracherkennungssystem 106 zusätzlich den Sprachtextgenerator 808. Der Sprachtextgenerator 808 setzt beispielsweise einen Sprachdecoder ein, um eine Wortsequenz (oder eine elektronische Transkription) aus den generierten Visemsequenzen, wie vorstehend (beispielsweise anhand 5) beschrieben worden ist, zu generieren. Darüber hinaus setzt der Sprachtextgenerator 808 bei einer oder mehreren Ausführungsformen zudem die elektronische Transkription ein, um Digitalaudiocontent für ein Digitalvideo, wie vorstehend (beispielsweise anhand 5) beschrieben worden ist, zu generieren.
Wie weiter in 8 gezeigt ist, beinhaltet das visuelle Spracherkennungssystem 106 den Datenspeicherverwalter 810. In einigen Fällen hält der Datenspeicherverwalter 810 Daten vor, um eine oder mehrere Funktionen des visuellen Spracherkennungssystems 106 wahrzunehmen. Der Datenspeicherverwalter 810 beinhaltet beispielsweise Digitalvideos, visuelle Sprachdarstellungen, segmentierte visemische Sprachdarstellungen, Visemsequenzen, elektronische Transkriptionen und/oder GAN-Komponenten (beispielsweise neuronale Netzwerke, Parameter eines neuronalen Netzwerkes, Trainingsdatensätze).
Jede der Komponenten 802 bis 810 der Rechenvorrichtung 800 (beispielsweise der Rechenvorrichtung 800, die das visuelle Spracherkennungssystem 106 implementiert) kann, wie in 8 gezeigt ist, mit einer anderen unter Nutzung einer beliebigen geeigneten Technologie kommunizieren. Die Komponenten 802 bis 810 der Rechenvorrichtung 800 können Software, Hardware oder beides umfassen. Die Komponenten 802 bis 810 können beispielsweise eine oder mehrere Anweisungen umfassen, die auf einem computerlesbaren Speichermedium gespeichert und von einem Prozessor einer oder mehrerer Rechenvorrichtungen ausführbar sind. Bei Ausführung durch den einen oder die mehreren Prozessoren können die computerausführbaren Anweisungen des visuellen Spracherkennungssystems 106 (beispielsweise über die Rechenvorrichtung 800) veranlassen, dass eine Clientvorrichtung und/oder Servervorrichtung die hier beschriebenen Verfahren durchführt. Alternativ können die Komponenten 802 bis 810 und deren entsprechende Elemente Hardware umfassen, so beispielsweise eine Spezialzweckverarbeitungsvorrichtung, um eine gewisse Funktion oder Gruppe von Funktionen wahrzunehmen. Zusätzlich können die Komponenten 802 bis 810 eine Kombination von computerausführbaren Anweisungen und Hardware umfassen.
Implementiert sein können die Komponenten 802 bis 810 des visuellen Spracherkennungssystems 106 des Weiteren beispielsweise als ein oder mehrere Betriebssysteme, als eine oder mehrere eigenständige Anwendungen, als ein oder mehrere Module einer Anwendung, als ein oder mehrere Plugins, als eine oder mehrere Bibliotheksfunktionen oder Funktionen, die von anderen Anwendungen aufgerufen werden können, und/oder als Cloudrechenmodell. Daher können die Komponenten 802 bis 810 als eigenständige Anwendung, so beispielsweise als Desktop- oder Mobilanwendung, implementiert sein. Die Komponenten 802 bis 810 können des Weiteren als eine oder mehrere webbasierte Anwendungen, die auf einem Remoteserver gehostet werden, implementiert sein. Die Komponenten 802 bis 810 können zudem in einem Paket von Mobilvorrichtungsanwendungen oder „Apps“ implementiert sein. Darstellungshalber können die Komponenten 802 bis 810 in einer Anwendung implementiert sein, darunter unter anderem ADOBE PHOTOSHOP, ADOBE PREMIERE, ADOBE LIGHTROOM, ADOBE ILLUSTRATOR oder ADOBE SUBSTANCE. „ADOBE“, „ADOBE PHOTOSHOP“, „ADOBE PREMIERE“, „ADOBE LIGHTROOM“, „ADOBE ILLUSTRATOR“ oder „ADOBE SUBSTANCE“ sind entweder eingetragene Marken oder Marken von Adobe Inc. in den Vereinigten Staaten und/oder anderen Ländern.
1 bis 8, der entsprechende Text und die Beispiele stellen eine Anzahl von verschiedenen Verfahren, Systemen, Vorrichtungen und nichttemporären computerlesbaren Medien des visuellen Spracherkennungssystems 106 bereit. Zusätzlich zum Vorbeschriebenen können eine oder mehrere Ausführungsformen auch anhand von Flussdiagrammen beschrieben werden, die Handlungen zum Erreichen eines bestimmten Ergebnisses umfassen, wie in 9 gezeigt ist. Die in 9 gezeigten Handlungen können in Verbindung mit mehr oder weniger Handlungen durchgeführt werden. Die Handlungen können zudem in anderen Reihenfolgen durchgeführt werden. Zusätzlich können die hier beschriebenen Handlungen wiederholt oder parallel zueinander durchgeführt oder parallel zu verschiedenen bzw. anderen Instanzen derselben oder anderer Handlungen durchgeführt werden. Ein nichttemporäres computerlesbares Medium kann Anweisungen beinhalten, die bei Ausführung durch einen oder mehrere Prozessoren veranlassen, dass eine Rechenvorrichtung die Handlungen von 9 durchführt. Bei einigen Ausführungsformen kann ein System dafür konfiguriert sein, die Handlungen von 9 durchzuführen. Alternativ können die Handlungen von 9 als Teil eines computerimplementierten Verfahrens durchgeführt werden.
Wie erwähnt worden ist, zeigt 9 ein Flussdiagramm einer Abfolge von Handlungen 900 zum Erkennen von visueller Sprache aus einem Digitalvideo entsprechend einer oder mehreren Implementierungen. Während 9 Handlungen entsprechend einer Ausführungsform zeigt, können bei alternativen Ausführungsformen beliebige der in 9 gezeigten Handlungen weggelassen, hinzugefügt, umgeordnet und/oder modifiziert werden.
Wie in 9 gezeigt ist, beinhaltet die Abfolge von Handlungen 900 eine Handlung 902 des Generierens von tiefen visuellen Sprachdarstellungen aus einem Digitalvideo. Die Handlung 902 beinhaltet beispielsweise ein unter Einsatz eines Bildcodierers erfolgendes Generieren eines Satzes von tiefen visuellen Sprachdarstellungen für einen Satz von Digitalvideoframes eines Digitalvideos. Darüber hinaus beinhaltet die Handlung 902 bei einigen Ausführungsformen ein Generieren eines Satzes von tiefen visuellen Sprachdarstellungen unter Einsatz eines umwandlerbasierten Bildcodierers. In einigen Fällen beinhaltet die Handlung 902 ein Empfangen eines eine sprechende Figur abbildenden Digitalvideos und ein unter Einsatz eines Bildcodierers erfolgendes Generieren eines Satzes von tiefen visuellen Sprachdarstellungen für einen Satz von Digitalvideoframes des Digitalvideos.
In einigen Fällen beinhaltet die Handlung 902 ein unter Einsatz eines generativ-adversativen neuronalen Netzwerkes erfolgendes Generieren einer Visemsequenz aus einem Satz von tiefen visuellen Sprachdarstellungen. Die Handlung 902 beinhaltet beispielsweise ein Generieren von tiefen visuellen Sprachdarstellungsclustern aus einem Satz von tiefen visuellen Sprachdarstellungen. Zusätzlich beinhaltet die Handlung 902 in einigen Fällen ein Generieren von tiefen visuellen Sprachdarstellungsclustern unter Einsatz einer k-Means-Clusterung an einem Satz von tiefen visuellen Sprachdarstellungen.
Darüber hinaus beinhaltet die Handlung 902 bei einer oder mehreren Ausführungsformen ein Bestimmen von segmentierten visemischen Sprachdarstellungen aus tiefen visuellen Sprachdarstellungsclustern. Zusätzlich beinhaltet die Handlung 902 bei einer oder mehreren Ausführungsformen ein Bestimmen einer segmentierten visemischen Sprachdarstellung von segmentierten visemischen Sprachdarstellungen durch Einsetzen von Hauptkomponentenanalysedarstellungen von Digitalvideoframes aus einer Gruppierung von Digitalvideoframes, die auf Grundlage eines tiefen visuellen Sprachdarstellungsclusters der tiefen visuellen Sprachdarstellungscluster identifiziert wird.
Die Handlung 902 beinhaltet beispielsweise ein Bestimmen von segmentierten visemischen Sprachdarstellungen durch Identifizieren einer ersten Gruppierung von Digitalvideoframes aus einem Digitalvideo auf Grundlage eines ersten tiefen visuellen Sprachdarstellungsclusters von tiefen visuellen Sprachdarstellungsclustern und ein Generieren einer ersten segmentierten visemischen Sprachdarstellung von segmentierten visemischen Sprachdarstellungen durch Kombinieren von visuellen Darstellungen von Digitalvideoframes für die erste Gruppierung von Digitalvideoframes. Zusätzlich beinhaltet die Handlung 902 bei einigen Ausführungsformen ein Identifizieren einer zweiten Gruppierung von Digitalvideoframes aus einem Digitalvideo auf Grundlage eines zweiten tiefen visuellen Sprachdarstellungsclusters von tiefen visuellen Sprachdarstellungsclustern und ein Generieren einer zweiten segmentierten visemischen Sprachdarstellung von segmentierten visemischen Sprachdarstellungen durch Kombinieren von zusätzlichen visuellen Darstellungen von zusätzlichen Digitalvideoframes für die zweite Gruppierung von Digitalvideoframes.
Des Weiteren beinhaltet die Abfolge von Handlungen 900, wie in 9 gezeigt ist, eine Handlung 904 des Generierens einer Visemsequenz aus tiefen Sprachdarstellungen. Die Handlung 904 beinhaltet beispielsweise ein unter Einsatz eines generativ-adversativen neuronalen Netzwerkes erfolgendes Generieren einer Visemsequenz aus einem Satz von tiefen visuellen Sprachdarstellungen. Insbesondere beinhaltet die Handlung 904 ein Generieren einer Visemsequenz zur Darstellung von innerhalb eines Digitalvideos abgebildeter Sprache aus segmentierten visemischen Sprachdarstellungen unter Einsatz eines generativ-adversativen neuronalen Netzwerkes. In einigen Fällen beinhaltet die Handlung 904 ein unter Einsatz eines generativ-adversativen neuronalen Netzwerkes erfolgendes Generieren einer Visemsequenz aus tiefen visuellen Sprachdarstellungsclustern. Bei gewissen Ausführungsformen beinhaltet die Handlung 904 des Weiteren ein unter Einsatz eines generativ-adversativen neuronalen Netzwerkes erfolgendes Generieren einer Visemsequenz aus segmentierten visemischen Sprachdarstellungen, die aus tiefen visuellen Sprachdarstellungsclustern bestimmt werden.
Bei einer oder mehreren Ausführungsformen beinhaltet die Handlung 904 ein Lernen von Parametern eines generativ-adversativen neuronalen Netzwerkes unter Einsatz eines neuronalen Diskriminatornetzwerkes. Bei einigen Implementierungen beinhaltet die Handlung 904 darüber hinaus ein Lernen von Parametern des generativ-adversativen neuronalen Netzwerkes unter Einsatz eines neuronalen Diskriminatornetzwerkes durch unter Einsatz des neuronalen Diskriminatornetzwerkes erfolgendes Generieren einer Authentizitätsvorhersage aus einer zusätzlichen Visemsequenz, die durch ein generativ-adversatives neuronales Netzwerk generiert wird, ein Bestimmen eines Diskriminatorverlustes aus der Authentizitätsvorhersage und ein Lernen von Parametern des generativ-adversativen neuronalen Netzwerkes unter Einsatz des Diskriminatorverlustes. Bei gewissen Ausführungsformen beinhaltet die Handlung 904 ein Generieren einer authentischen Visemsequenz aus einem Textkorpus, ein unter Einsatz eines neuronalen Diskriminatornetzwerkes erfolgendes Generieren einer Authentizitätsvorhersage aus der authentischen Visemsequenz und ein Modifizieren von Parametern des neuronalen Diskriminatornetzwerkes auf Grundlage der Authentizitätsvorhersage. In einigen Fällen beinhaltet die Handlung 904 ein Lernen von Parametern eines generativ-adversativen neuronalen Netzwerkes unter Einsatz eines Visemdiversitätsverlustes.
Zusätzlich beinhaltet die Abfolge von Handlungen 900, wie in 9 gezeigt ist, eine Handlung 906 des Generierens einer elektronischen Transkription aus der Visemsequenz. Bei einer oder mehreren Ausführungsformen beinhaltet die Handlung 906 ein unter Einsatz eines Sprachdecoders erfolgendes Decodieren einer Visemsequenz zum Generieren einer elektronischen Transkription, die innerhalb eines Digitalvideos abgebildete Sprache darstellt. Des Weiteren beinhaltet die Handlung 906 in gewissen Fällen ein Einsetzen eines WFST-basierten (Weighted Finite-State Transducer WFST) Sprachdecoders zum Decodieren einer Visemsequenz. Bei einer oder mehreren Ausführungsformen beinhaltet die Handlung 906 darüber hinaus ein Generieren von Digitalaudiocontent aus einer elektronischen Transkription, die innerhalb eines Digitalvideos abgebildete Sprache darstellt. Zusätzlich beinhaltet die Handlung 906 bei einer oder mehreren Ausführungsformen ein Bereitstellen einer elektronischen Transkription einer sprechenden Figur aus einem Digitalvideo für eine Clientvorrichtung. In einigen Fällen beinhaltet die Handlung 906 zusätzlich ein Generieren von Digitalaudiocontent für eine sprechende Figur aus einer elektronischen Transkription.
Zusätzlich zu den vorbeschriebenen Handlungen (oder als Alternative hierzu) kann das visuelle Spracherkennungssystem 106 auch einen Schritt zum Generieren einer elektronischen Transkription einer sprechenden Figur aus einem Digitalvideo aus einem Satz von tiefen visuellen Sprachdarstellungen durchführen. Umfassen können die vorstehend anhand 3 bis 5 beschriebenen Handlungen und Algorithmen beispielsweise entsprechende Handlungen und Algorithmen zum Durchführen eines Schrittes zum Generieren einer elektronischen Transkription einer sprechenden Figur aus einem Digitalvideo aus einem Satz von tiefen visuellen Sprachdarstellungen.
Implementierungen der vorliegenden Offenbarung können einen Spezialzweck- oder Allzweckcomputer, der Computerhardware beinhaltet, umfassen oder einsetzen, so beispielsweise einen oder mehrere Prozessoren und einen Systemspeicher, wie nachstehend noch detaillierter beschrieben wird. Implementierungen innerhalb des Umfanges der vorliegenden Offenbarung beinhalten zudem physische bzw. physikalische und andere computerlesbare Medien zum Tragen oder Speichern von computerausführbaren Anweisungen und/oder Datenstrukturen. Insbesondere können einer oder mehrere der hier beschriebenen Prozesse wenigstens teilweise als Anweisungen implementiert sein, die auf einem nichttemporären computerlesbaren Medium verkörpert und durch eine oder mehrere Rechenvorrichtungen (beispielsweise beliebige der hier beschriebenen Mediencontentzugriffsvorrichtungen) ausführbar sind. Allgemein empfängt ein Prozessor (beispielsweise ein Mikroprozessor) Anweisungen von einem nichttemporären computerlesbaren Medium (beispielsweise einem Speicher bzw. Memory) und führt diese Anweisungen aus, wodurch ein oder mehrere Prozesse, darunter einer oder mehrere der hier beschriebenen Prozesse, durchgeführt werden.
Computerlesbare Medien können beliebige verfügbare Medien sein, auf die ein Allzweck- oder Spezialzweckcomputersystem zugreifen kann. Computerlesbare Medien, die computerausführbare Anweisungen speichern, sind nichttemporäre computerlesbare Speichermedien (Vorrichtungen). Computerlesbare Medien, die computerausführbare Anweisungen tragen, sind Übertragungsmedien. Beispiels- und nicht beschränkungshalber können Implementierungen der Offenbarung daher wenigstens zwei eindeutig verschiedene Arten von computerlesbaren Medien umfassen, nämlich nichttemporäre computerlesbare Speichermedien (Vorrichtungen) und Übertragungsmedien.
Nichttemporäre computerlesbare Speichermedien (Vorrichtungen) beinhalten RAM, ROM, EEPROM, CD-ROM, SSDs (Solid State Drives) (beispielsweise auf Grundlage eines RAM), einen Flashspeicher, einen Phasenänderungsspeicher (PCM), andere Arten von Memory bzw. Speicher, einen anderen optischen Plattenspeicher, einen Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder ein beliebiges anderes Medium, das zum Speichern von gewünschten Programmcodemitteln in Form von computerausführbaren Anweisungen oder Datenstrukturen genutzt werden und auf das ein Allzweck- oder Spezialzweckcomputer zugreifen kann.
Ein „Netzwerk“ ist als ein oder mehrere Datenlinks definiert, die den Transport von elektronischen Daten zwischen Computersystemen und/oder Modulen und/oder anderen elektronischen Vorrichtungen ermöglichen. Wird Information über ein Netzwerk oder eine andere Kommunikationsverbindung (entweder festverdrahtet, drahtlos oder eine Kombination aus festverdrahtet oder drahtlos) an einen Computer übertragen oder für diesen bereitgestellt, so betrachtet der Computer die Verbindung in der Praxis als Übertragungsmedium. Übertragungsmedien können ein Netzwerk und/oder Datenlinks beinhalten, die zum Tragen von gewünschten Programmcodemitteln in Form von computerausführbaren Anweisungen oder Datenstrukturen genutzt werden können und auf die ein Allzweck- oder Spezialzweckcomputer zugreifen kann. Kombinationen des Vorbeschriebenen sollen ebenfalls im Umfang der computerlesbaren Medien beinhaltet sein.
Beim Verwirklichen von verschiedenen Computersystemkomponenten können Programmcodemittel zudem in Form von computerausführbaren Anweisungen oder Datenstrukturen automatisch von Übertragungsmedien auf nichttemporäre computerlesbare Speichermedien (Vorrichtungen) (oder umgekehrt) übertragen werden. Computerausführbare Anweisungen oder Datenstrukturen, die über ein Netzwerk oder einen Datenlink empfangen werden, können beispielsweise in einem RAM innerhalb eines Netzwerkschnittstellenmoduls (beispielsweise eines „NIC“) gepuffert und sodann gegebenenfalls an einen Computersystem-RAM und/oder an weniger flüchtige Computerspeichermedien (Vorrichtungen) auf einem Computersystem übertragen werden. Es sollte daher einsichtig sein, dass nichttemporäre computerlesbare Speichermedien (Vorrichtungen) in Computersystemkomponenten beinhaltet sein können, die ebenfalls (oder sogar primär) Übertragungsmedien einsetzen.
Computerausführbare Anweisungen umfassen beispielsweise Anweisungen und Daten, die bei Ausführung durch einen Prozessor veranlassen, dass ein Allzweckcomputer, ein Spezialzweckcomputer oder eine Spezialzweckverarbeitungsvorrichtung eine bestimmte Funktion oder Gruppe von Funktionen übernehmen. Bei einigen Implementierungen werden computerausführbare Anweisungen durch einen Allzweckcomputer ausgeführt, um den Allzweckcomputer in einen Spezialzweckcomputer zu verwandeln, der Elemente der Offenbarung implementiert. Die computerausführbaren Anweisungen können beispielsweise Binaries, Anweisungen in einem Zwischenformat wie Assemblersprache oder sogar Quellcode sein. Obwohl der Erfindungsgegenstand in einer Sprache beschrieben worden ist, die für strukturelle Merkmale und/oder methodologische Handlungen spezifisch ist, sollte einsichtig sein, dass der in den beigefügten Ansprüchen definierte Erfindungsgegenstand nicht unbedingt auf die vorbeschriebenen Merkmale oder Handlungen beschränkt ist. Vielmehr sind die beschriebenen Merkmale und Handlungen als exemplarische Formen der Implementierung der Ansprüche offenbart.
Einem Fachmann auf dem Gebiet erschließt sich, dass die Offenbarung in Netzwerkrechenumgebungen mit vielen Arten von Computersystemkonfigurationen praktisch umgesetzt werden kann, darunter PCs, Desktopcomputer, Laptopcomputer, Nachrichtenprozessoren, Handvorrichtungen, Multiprozessorensysteme, mikroprozessorbasierte oder programmierbare Geräte der Unterhaltungselektronik, Netzwerk-PCs, Minicomputer, Mainframecomputer, Mobiltelefone, PDAs, Tablets, Pager, Router, Switches bzw. Schalter und dergleichen. Praktisch umgesetzt werden kann die Offenbarung auch in verteilten Systemumgebungen, wo lokale und entfernte (remote) Computersysteme, die (entweder durch festverdrahtete Datenlinks, drahtlose Datenlinks oder durch eine Kombination aus festverdrahteten und drahtlosen Datenlinks) über ein Netzwerk verbunden sind, gleichermaßen Aufgaben erledigen. In einer verteilten Systemumgebung können Programmmodule sowohl in lokalen wie auch entfernten (remote) Memoryspeichervorrichtungen befindlich sein.
Implementierungen der vorliegenden Offenbarung können zudem in Cloudrechenumgebungen implementiert sein. Im Sinne des Vorliegenden bezeichnet „Cloudcomputing bzw. Cloudrechnen“ ein Modell, das einen On-Demand-Netzwerkzugriff auf einen geteilten Pool von konfigurierbaren Rechenressourcen ermöglicht. Cloudcomputing bzw. Cloudrechnen kann beispielsweise auf einem Marktplatz eingesetzt werden, um einen allumfassenden und bequemen On-Demand-Zugriff auf den geteilten Pool von konfigurierbaren Rechenressourcen anzubieten. Der geteilte Pool von konfigurierbaren Rechenressourcen kann über eine Virtualisierung schnell bereitgestellt und mit wenig Verwaltungsaufwand oder wenig Eingreifen eines Dienstanbieters freigegeben und sodann entsprechend skaliert werden.
Ein Cloudrechenmodell kann aus verschiedenen Eigenschaften zusammengesetzt sein, so beispielsweise On-Demand Self-Service, Broad Network Access, Resource Pooling, Rapid Elasticity, Measured Service und dergleichen. Ein Cloudrechenmodell kann zudem verschiedene Dienstmodelle anbieten, so beispielsweise „Software as a Service“ („SaaS“), „Platform as a Service“ („PaaS“) und „Infrastructure as a Service“ („IaaS“). Ein Cloudrechenmodell kann zudem unter Nutzung verschiedener Einsatzmodelle eingesetzt werden, so beispielsweise Private Cloud, Community Cloud, Public Cloud, Hybrid Cloud und dergleichen. Im Sinne des Vorliegenden bezeichnet der Begriff „Cloudrechenumgebung“ zudem eine Umgebung, in der Cloudrechnen bzw. Cloudcomputing eingesetzt wird.
10 zeigt ein Blockdiagramm einer exemplarischen Rechenvorrichtung 1000, die dafür konfiguriert sein kann, einen oder mehrere der vorbeschriebenen Prozesse durchzuführen. Es sollte einsichtig sein, dass eine oder mehrere Rechenvorrichtungen, so beispielsweise die Rechenvorrichtung 1000, die vorstehend beschriebenen Rechenvorrichtungen (beispielsweise die Rechenvorrichtung 800, die Servervorrichtung(en) 102 und/oder die Clientvorrichtungen 110a bis 110n) darstellen können. Bei einer oder mehreren Implementierungen kann die Rechenvorrichtung 1000 eine Mobilvorrichtung sein (so beispielsweise ein Mobiltelefon, ein Smartphone, ein PDA, ein Tablet, ein Laptop, eine Kamera, ein Tracker, eine Armbanduhr, eine am Körper tragbare Vorrichtung). Bei einigen Implementierungen kann die Rechenvorrichtung 1000 eine Nichtmobilvorrichtung sein (so beispielsweise ein Desktopcomputer oder eine andere Art von Clientvorrichtung). Des Weiteren kann die Rechenvorrichtung 1000 eine Servervorrichtung sein, die cloudbasierte Verarbeitungs- und Speicherkapazitäten beinhaltet.
Wie in 10 gezeigt ist, kann die Rechenvorrichtung 1000 einen oder mehrere Prozessoren 1002, einen Memory bzw. Speicher 1004, eine Speichervorrichtung 1006, Eingabe-/Ausgabe-Schnittstellen 1008 (oder „I/O-Schnittstellen 1008“) und eine Kommunikationsschnittstelle 1010 beinhalten, die kommunikationstechnisch mittels einer Kommunikationsinfrastruktur (beispielsweise mittels eines Busses 1012) gekoppelt sein können. Obwohl 10 die Rechenvorrichtung 1000 zeigt, sollen die in 10 dargestellten Komponenten nicht als beschränkend gedeutet werden. Es können bei anderen Implementierungen zusätzliche oder alternative Komponenten benutzt werden. Bei gewissen Implementierungen beinhaltet die Rechenvorrichtung 1000 des Weiteren weniger Komponenten als die in 10 gezeigten. Komponenten der Rechenvorrichtung 1000, die in 10 gezeigt sind, werden nunmehr detaillierter beschrieben.
Bei bestimmten Implementierungen beinhaltet/beinhalten der Prozessor / die Prozessoren 1002 Hardware zum Ausführen von Anweisungen, so beispielsweise solchen, die ein Computerprogramm bilden. Bei einem Beispiel und nicht im Sinne einer Beschränkung kann/können der Prozessor / die Prozessoren 1002 zum Ausführen von Anweisungen die Anweisungen aus einem internen Register, einem internen Cache, dem Memory 1004 oder der Speichervorrichtung 1006 abrufen (oder holen) und sie decodieren und ausführen.
Die Rechenvorrichtung 1000 beinhaltet den Memory 1004, der mit dem Prozessor / den Prozessoren 1002 gekoppelt ist. Der Memory 1004 kann zum Speichern von Daten, Metadaten und Programmen zur Ausführung durch den Prozessor / die Prozessoren benutzt werden. Der Memory 1004 kann eines oder mehrere von flüchtigen und nichtflüchtigen Memorys beinhalten, so beispielsweise einen Speicher mit wahlfreiem Zugriff („RAM“), einen Nur-Lese-Speicher („ROM“), eine Solid-State-Disk („SSD“), einen Flash, einen Phasenänderungsspeicher („PCM“) oder andere Typen von Datenspeicher. Der Memory 1004 kann ein interner oder ein verteilter Memory sein.
Die Rechenvorrichtung 1000 beinhaltet eine Speichervorrichtung 1006 mit einem Speicher zum Speichern von Daten oder Anweisungen. Beispiels- und nicht beschränkungshalber kann die Speichervorrichtung 1006 ein nichttemporäres Speichermedium umfassen, wie es vorstehend beschrieben worden ist. Die Speichervorrichtung 1006 kann ein Festplattenlaufwerk (HDD), einen Flash-Speicher, ein USB-Laufwerk (Universeller Serieller Bus USB) oder eine Kombination aus diesen oder anderen Speichervorrichtungen beinhalten.
Die Rechenvorrichtung 1000 beinhaltet, wie gezeigt ist, eine oder mehrere I/O-Schnittstellen 1008 (I/O Input/Output), die dafür vorgesehen sind, einem Nutzer zu ermöglichen, eine Eingabe (so beispielsweise Nutzertastendrücke bzw. Nutzerstriche) für die Rechenvorrichtung 1000 bereitzustellen, eine Ausgabe von dieser zu empfangen und auf andere Weise Daten an diese und von dieser zu transferieren. Die I/O-Schnittstellen 1008 können eine Maus, ein Tastenfeld (Keypad) oder eine Tastatur, einen berührungsempfindlichen Bildschirm (Touchscreen), eine Kamera, einen optischen Scanner, eine Netzwerkschnittstelle, ein Modem, andere bekannte I/O-Vorrichtungen oder eine Kombination aus derartigen I/O-Schnittstellen 1008 beinhalten. Der berührungsempfindliche Bildschirm kann mit einem Stift oder Finger aktiviert werden.
Die I/O-Schnittstellen 1008 können eine oder mehrere Vorrichtungen zum Präsentieren einer Ausgabe gegenüber einem Nutzer beinhalten, darunter unter anderem eine Graphics Engine, eine Anzeige (beispielsweise einen Anzeigebildschirm), einen oder mehrere Ausgabetreiber (beispielsweise Anzeigetreiber), einen oder mehrere Audiolautsprecher und einen oder mehrere Audiotreiber. Bei gewissen Implementierungen sind die I/O-Schnittstellen 1008 dafür konfiguriert, grafische Daten für eine Anzeige zur Präsentation gegenüber einem Nutzer bereitzustellen. Die grafischen Daten können eine oder mehrere grafische Nutzerschnittstellen und/oder beliebigen anderen grafischen Content darstellen, so dieser für eine bestimmte Implementierung dienlich ist.
Die Rechenvorrichtung 1000 kann des Weiteren eine Kommunikationsschnittstelle 1010 beinhalten. Die Kommunikationsschnittstelle 1010 kann Hardware, Software oder beides beinhalten. Die Kommunikationsschnittstelle 1010 kann eine oder mehrere Schnittstellen zur Kommunikation (so beispielsweise zur paketbasierten Kommunikation) zwischen der Rechenvorrichtung und einer oder mehreren anderen Rechenvorrichtungen oder einem oder mehreren Netzwerken bereitstellen. Beispiels- und nicht beschränkungshalber kann die Kommunikationsschnittstelle 1010 einen Netzwerkschnittstellencontroller (NIC) oder einen Netzwerkadapter zur Kommunikation mit einem Ethernet oder einem anderen drahtbasierten Netzwerk oder einen drahtlosen NIC (WNIC) oder einen Drahtlosadapter zur Kommunikation mit einem Drahtlosnetzwerk, so beispielsweise einem WI-FI, beinhalten. Die Rechenvorrichtung 1000 kann des Weiteren einen Bus 1012 beinhalten. Der Bus 1012 kann Hardware, Software oder beides, die Komponenten der Rechenvorrichtung 1000 miteinander koppeln, beinhalten.
In der vorstehenden Beschreibung ist die Erfindung anhand spezifischer exemplarischer Implementierungen beschrieben worden. Verschiedene Implementierungen und Aspekte der Erfindung/Erfindungen werden anhand der hier erläuterten Details beschrieben, wobei die begleitende Zeichnung die verschiedenen Implementierungen zeigt. Die vorstehende Beschreibung und die Zeichnung sind für die Erfindung illustrativ und sollen nicht erfindungsbeschränkend gedeutet werden. Es sind zahlreiche spezifische Details beschrieben worden, um ein eingehendes Verständnis der verschiedenen Implementierungen der vorliegenden Erfindung zu ermöglichen.
Die vorliegende Erfindung kann in anderen spezifischen Formen verkörpert sein, ohne von ihrem Wesen oder ihren wesentlichen Eigenschaften abzugehen. Die beschriebenen Implementierungen sind in jeder Hinsicht nur als illustrativ und nicht als restriktiv zu betrachten. Die hier beschriebenen Verfahren können beispielsweise mit weniger oder mehr Schritten/Handlungen durchgeführt werden, oder es können die Schritte/Handlungen in anderen Reihenfolgen durchgeführt werden. Zusätzlich können die hier beschriebenen Schritte/Handlungen wiederholt oder parallel zueinander durchgeführt oder parallel zu anderen bzw. verschiedenen Versionen bzw. Instanzen derselben oder ähnlicher Schritte/Handlungen durchgeführt werden. Der Umfang der Erfindung ist daher durch die beigefügten Ansprüche und nicht durch die vorstehende Beschreibung gegeben. Alle Änderungen, die der Bedeutung und dem Äquivalenzbereich der Ansprüche entsprechen, sollen in deren Umfang umfasst sein.

Claims

Nichttransitorisches bzw. nichttemporäres computerlesbares Medium, das Anweisungen speichert, die bei Ausführung durch wenigstens einen Prozessor eine Rechenvorrichtung veranlassen zum: unter Einsatz eines Bildcodierers erfolgenden Generieren eines Satzes von tiefen visuellen Sprachdarstellungen für einen Satz von Digitalvideoframes eines Digitalvideos; unter Einsatz eines generativ-adversativen neuronalen Netzwerkes erfolgenden Generieren einer Visemsequenz aus dem Satz von tiefen visuellen Sprachdarstellungen; und unter Einsatz eines Sprachdecoders erfolgenden Decodieren der Visemsequenz zum Generieren einer elektronischen Transkription, die innerhalb des Digitalvideos abgebildete Sprache darstellt.
Nichttemporäres computerlesbares Medium nach Anspruch 1, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor die Rechenvorrichtung veranlassen zum: Generieren des Satzes von tiefen visuellen Sprachdarstellungen unter Einsatz eines umwandlerbasierten Bildcodierers.
Nichttemporäres computerlesbares Medium nach Anspruch 1 oder 2, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor die Rechenvorrichtung veranlassen zum: Generieren von tiefen visuellen Sprachdarstellungsclustern aus dem Satz von tiefen visuellen Sprachdarstellungen; und unter Einsatz des generativ-adversativen neuronalen Netzwerkes erfolgenden Generieren der Visemsequenz aus den tiefen visuellen Sprachdarstellungsclustern.
Nichttemporäres computerlesbares Medium nach Anspruch 3, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor die Rechenvorrichtung veranlassen zum: unter Einsatz des generativ-adversativen neuronalen Netzwerkes erfolgenden Generieren der Visemsequenz aus segmentierten visemischen Sprachdarstellungen, die aus den tiefen visuellen Sprachdarstellungsclustern bestimmt werden.
Nichttemporäres computerlesbares Medium nach Anspruch 4, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor die Rechenvorrichtung veranlassen zum: Bestimmen einer segmentierten visemischen Sprachdarstellung der segmentierten visemischen Sprachdarstellungen durch Einsetzen von Hauptkomponentenanalysedarstellungen von Digitalvideoframes aus einer Gruppierung von Digitalvideoframes, die auf Grundlage eines tiefen visuellen Sprachdarstellungsclusters der tiefen visuellen Sprachdarstellungscluster identifiziert wird.
Nichttemporäres computerlesbares Medium nach einem der Ansprüche 1 bis 5, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor die Rechenvorrichtung veranlassen zum: Lernen von Parametern des generativ-adversativen neuronalen Netzwerkes unter Einsatz eines neuronalen Diskriminatornetzwerkes durch: unter Einsatz des neuronalen Diskriminatornetzwerkes erfolgendes Generieren einer Authentizitätsvorhersage aus einer zusätzlichen Visemsequenz, die durch das generativ-adversative neuronale Netzwerk generiert wird; Bestimmen eines Diskriminatorverlustes aus der Authentizitätsvorhersage; und Lernen von Parametern des generativ-adversativen neuronalen Netzwerkes unter Einsatz des Diskriminatorverlustes.
Nichttemporäres computerlesbares Medium nach einem der Ansprüche 1 bis 6, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor die Rechenvorrichtung veranlassen zum: Lernen von Parametern des generativ-adversativen neuronalen Netzwerkes unter Einsatz eines Visemdiversitätsverlustes.
Nichttemporäres computerlesbares Medium nach einem der Ansprüche 1 bis 7, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor die Rechenvorrichtung veranlassen zum: Einsetzen eines WFST-basierten (Weighted Finite-State Transducer WFST) Sprachdecoders zum Decodieren der Visemsequenz.
Nichttemporäres computerlesbares Medium nach einem der Ansprüche 1 bis 8, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor die Rechenvorrichtung veranlassen zum: Generieren von Digitalaudiocontent aus der elektronischen Transkription, die innerhalb des Digitalvideos abgebildete Sprache darstellt.
System, umfassend: eine oder mehrere Speichervorrichtungen, die ein Digitalvideo, einen Bildcodierer und ein generativ-adversatives neuronales Netzwerk umfassen; und einen oder mehrere Prozessoren, die dafür konfiguriert sind, das System zu veranlassen zum: unter Einsatz des Bildcodierers erfolgenden Generieren eines Satzes von tiefen visuellen Sprachdarstellungen für einen Satz von Digitalvideoframes des Digitalvideos; Generieren von tiefen visuellen Sprachdarstellungsclustern aus dem Satz von tiefen visuellen Sprachdarstellungen; Bestimmen von segmentierten visemischen Sprachdarstellungen aus den tiefen visuellen Sprachdarstellungsclustern; und Generieren einer Visemsequenz, die innerhalb des Digitalvideos abgebildete Sprache darstellt, aus den segmentierten visemischen Sprachdarstellungen unter Einsatz des generativ-adversativen neuronalen Netzwerkes.
System nach Anspruch 10, wobei der eine oder die mehreren Prozessoren des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: Generieren der tiefen visuellen Sprachdarstellungscluster unter Einsatz einer k-Means-Clusterung an dem Satz von tiefen visuellen Sprachdarstellungen.
System nach Anspruch 10 oder 11, wobei der eine oder die mehreren Prozessoren des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: Bestimmen der segmentierten visemischen Sprachdarstellungen durch Identifizieren einer ersten Gruppierung von Digitalvideoframes aus dem Digitalvideo auf Grundlage eines ersten tiefen visuellen Sprachdarstellungsclusters der tiefen visuellen Sprachdarstellungscluster.
System nach Anspruch 12, wobei der eine oder die mehreren Prozessoren des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: Generieren einer ersten segmentierten visemischen Sprachdarstellung der segmentierten visemischen Sprachdarstellungen durch Kombinieren von visuellen Darstellungen von Digitalvideoframes für die erste Gruppierung von Digitalvideoframes.
System nach einem der Ansprüche 10 bis 13, wobei der eine oder die mehreren Prozessoren des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: Bestimmen der segmentierten visemischen Sprachdarstellungen durch: Identifizieren einer zweiten Gruppierung von Digitalvideoframes aus dem Digitalvideo auf Grundlage eines zweiten tiefen visuellen Sprachdarstellungsclusters der tiefen visuellen Sprachdarstellungscluster; und Generieren einer zweiten segmentierten visemischen Sprachdarstellung der segmentierten visemischen Sprachdarstellungen durch Kombinieren von zusätzlichen visuellen Darstellungen von zusätzlichen Digitalvideoframes für die zweite Gruppierung von Digitalvideoframes.
System nach einem der Ansprüche 10 bis 14, wobei der eine oder die mehreren Prozessoren des Weiteren konfiguriert sind zum: Einsetzen eines Sprachdecoders zum Decodieren der Visemsequenz in eine elektronische Transkription.
System nach einem der Ansprüche 10 bis 15, wobei der eine oder die mehreren Prozessoren des Weiteren konfiguriert sind zum: Lernen von Parametern des generativ-adversativen neuronalen Netzwerkes unter Einsatz eines neuronalen Diskriminatornetzwerkes.
System nach Anspruch 16, wobei der eine oder die mehreren Prozessoren des Weiteren konfiguriert sind zum: Generieren einer authentischen Visemsequenz aus einem Textkorpus; unter Einsatz des neuronalen Diskriminatornetzwerkes erfolgenden Generieren einer Authentizitätsvorhersage aus der authentischen Visemsequenz; und Modifizieren von Parametern des neuronalen Diskriminatornetzwerkes auf Grundlage der Authentizitätsvorhersage.
Computerimplementiertes Verfahren, umfassend: Empfangen eines eine sprechende Figur abbildenden Digitalvideos; unter Einsatz eines Bildcodierers erfolgendes Generieren eines Satzes von tiefen visuellen Sprachdarstellungen für einen Satz von Digitalvideoframes des Digitalvideos; Durchführen eines Schrittes zum Generieren einer elektronischen Transkription der sprechenden Figur aus dem Digitalvideo aus dem Satz von tiefen visuellen Sprachdarstellungen; und Bereitstellen der elektronischen Transkription der sprechenden Figur aus dem Digitalvideo für eine Clientvorrichtung.
Computerimplementiertes Verfahren nach Anspruch 18, des Weiteren umfassend: Generieren des Satzes von tiefen visuellen Sprachdarstellungen unter Einsatz eines umwandlerbasierten Bildcodierers.
Computerimplementiertes Verfahren nach Anspruch 18 oder 19, des Weiteren umfassend: Generieren von Digitalaudiocontent der sprechenden Figur aus der elektronischen Transkription.