DE102022001733A1

DE102022001733A1 - Maschinell lernende Modelle zum Detektieren von thematisch abweichenden Digitalvideos

Info

Publication number: DE102022001733A1
Application number: DE102022001733.4A
Authority: DE
Inventors: Amir Pouran Ben Veyseh; Franck Dernoncourt
Original assignee: Adobe Inc
Current assignee: Adobe Inc
Priority date: 2021-08-02
Filing date: 2022-05-17
Publication date: 2023-02-02
Also published as: AU2022203806A1; CN115701612A; US20230046248A1; US11822893B2

Abstract

Die vorliegende Offenbarung betrifft Systeme, Verfahren und nichttemporäre computerlesbare Medien zum genauen und flexiblen Generieren von Themaabweichungsklassifizierungen für Digitalvideos auf Grundlage von Worten aus den Digitalvideos und des Weiteren auf Grundlage eines ein Zielthema darstellenden Digitaltextkorpus. Insbesondere setzen die offenbarten Systeme eine themaspezifisches Wissen codierendes neuronales Netzwerk ein, um eine Themaabweichungsklassifizierung für ein Digitalvideo zu generieren, um anzugeben, ob das Digitalvideo von einem Zielthema abweicht. Bei einigen Ausführungsformen bestimmen die offenbarten Systeme Themaabweichungsklassifizierungen gleichzeitig in Echtzeit für Livestream-Digitalvideos oder für gespeicherte Digitalvideos (beispielsweise für Digitalvideotutorials). Zum Generieren einer Themaabweichungsklassifizierung generieren und vergleichen die offenbarten Systeme beispielsweise kontextualisierte Merkmalsvektoren aus Digitalvideos mit Korpuseinbettungen aus einem ein Zielthema darstellenden Digitaltextkorpus unter Einsatz eines themaspezifisches Wissen codierenden neuronalen Netzwerkes.

Description

Auf dem Gebiet der Digitalvideoklassifizierung können herkömmliche Videoanalysesysteme verschiedene Klassifizierungen für Content, der innerhalb von Digitalvideos dargestellt ist, bestimmen. Einige herkömmliche Videoanalysesysteme analysieren beispielsweise visuellen Content eines Digitalvideos, um Klassifizierungen für das Digitalvideo auf Grundlage des visuellen Contents zu bestimmen. Andere herkömmliche Videoanalysesysteme analysieren verbalen Content eines Digitalvideos, um eine Klassifizierung, die den Inhalt des Digitalvideos angibt, zu bestimmen. Ungeachtet dieser Fortschritte haben viele herkömmliche Videoanalysesysteme jedoch viele Unzulänglichkeiten und Nachteile, und zwar insbesondere mit Blick auf Genauigkeit, Effizienz und Flexibilität.
Zusammenfassung
Die vorliegende Offenbarung beschreibt eine oder mehrere Ausführungsformen von Systemen, Verfahren und nichttemporären computerlesbaren Medien zur Lösung eines oder mehrerer der vorbeschriebenen Probleme oder anderer Probleme im Stand der Technik bei einem Konzept das maschinellen Lernens zum Generieren von Themaabweichungsklassifizierungen für Digitalvideos auf Grundlage von Worten aus den Digitalvideos und des Weiteren auf Grundlage eines ein Zielthema darstellenden Digitaltextkorpus. Insbesondere setzen die offenbarten Systeme bei einer oder mehreren Ausführungsformen ein themaspezifisches Wissen codierendes neuronales Netzwerk ein, um eine Themaabweichungsklassifizierung für ein Digitalvideo zu generieren, wodurch angegeben wird, ob das Digitalvideo von einem Zielthema (beispielsweise einem Zielthema, das über eine Clientvorrichtung ausgewählt oder auf andere Weise angegeben wird) abweicht. Die offenbarten Systeme vergleichen beispielsweise Worte aus dem Digitalvideo mit einem themaspezifischen Digitaltextkorpus, um Content, der mit dem Zielthema des Digitaltextkorpus nicht zusammenhängt, automatisch zu detektieren. Bei einigen Ausführungsformen bestimmen die offenbarten Systeme Themaabweichungsklassifizierungen gleichzeitig in Echtzeit für Livestream-Digitalvideos oder für gespeicherte Digitalvideos, so beispielsweise für Digitaltutorialvideos. Durch Einsetzen des themaspezifisches Wissen codierenden neuronalen Netzwerkes können die offenbarten Systeme ein Modell des Deep Learning einsetzen, um themafremde, unspezifische Digitalvideos genau zu identifizieren, während gebietsspezifisches Wissen flexibel und effizient in das Deep-Modell integriert wird.
Bei einigen Ausführungsformen führen die offenbarten Systeme zudem eine Datenerweiterung zum Erweitern oder Modifizieren von Trainingsdaten durch, um das themaspezifisches Wissen codierende neuronale Netzwerk zu trainieren oder einzustellen. Die offenbarten Systeme generieren beispielsweise synthetische Digitalvideotranskripte und/oder hybride Digitalvideotranskripte zur Nutzung als Trainingsdaten zum Lernen von Parametern des themaspezifisches Wissen codierenden neuronalen Netzwerkes. In einigen Fällen generieren die offenbarten Systeme synthetische Transkripte ähnlich zu Transkripten von Digitalvideos, die bereits als thematisch abweichend identifiziert worden sind, unter Einsatz eines generativen Sprachmodells. In diesen und anderen Fällen setzen die offenbarten Systeme eine Mischtechnik ein, um hybride Transkripte dadurch zu generieren, dass Sätze innerhalb von Transkripten von thematisch abweichenden Videos durch Sätze aus Transkripten von thematisch passenden Videos ersetzt werden. Durch Einsetzen von synthetischen Transkripten und/oder hybriden Transkripten als Teil eines Trainingsdatensatzes lernen die offenbarten Systeme effizient robuste Parameter für ein themaspezifisches Wissen codierendes neuronales Netzwerk, was zu genauen Vorhersagen von Themaabweichungsklassifizierungen führt.
Zusätzliche Merkmale und Vorteile einer oder mehrerer Ausführungsformen der vorliegenden Offenbarung sind in der nachfolgenden Beschreibung niedergelegt und erschließen sich aus der Beschreibung oder ergeben sich aus der praktischen Umsetzung exemplarischer Ausführungsformen.
Figurenliste
Die vorliegende Offenbarung beschreibt eine oder mehrere Ausführungsformen der Erfindung mit zusätzlicher Spezifität und Detailliertheit anhand der begleitenden Figuren. Die nachfolgenden Absätze beschreiben die Figuren kurz.

1 zeigt eine exemplarische Systemumgebung, in der ein Abweichungsvideoklassifizierungssystem arbeitet, entsprechend einer oder mehreren Ausführungsformen.
2 zeigt eine Übersicht über das Generieren einer Themaabweichungsklassifizierung entsprechend einer oder mehreren Ausführungsformen.
3 zeigt einen exemplarischen Ablauf zum Generieren von kontextualisierten Merkmalsvektoren entsprechend einer oder mehreren Ausführungsformen.
4 zeigt einen exemplarischen Ablauf zum Generieren von Korpuseinbettungen entsprechend einer oder mehreren Ausführungsformen.
5 zeigt eine exemplarische Abfolge von Handlungen zum Generieren einer Themaabweichungsklassifizierung entsprechend einer oder mehreren Ausführungsformen.
6 zeigt eine exemplarische Architektur eines themaspezifisches Wissen codierenden neuronalen Netzwerkes entsprechend einer oder mehreren Ausführungsformen.
7 zeigt einen exemplarischen Prozess des Lernens von Parametern für ein themaspezifisches Wissen codierendes neuronales Netzwerk unter Einsatz von synthetischen Transkripten und/oder hybriden Transkripten entsprechend einer oder mehreren Ausführungsformen.
8 zeigt das Generieren eines synthetischen Transkripts entsprechend einer oder mehreren Ausführungsformen.
9A und 9B zeigen das Vorabtrainieren und Einsetzen eines themaspezifisches Wissen codierenden neuronalen Netzwerkes zum Identifizieren von synthetischen Transkripten entsprechend einer oder mehreren Ausführungsformen.
10 zeigt das Generieren eines hybriden Transkripts entsprechend einer oder mehreren Ausführungsformen.
11 zeigt einen Trainingsprozess zum Lernen von Parametern eines themaspezifisches Wissen codierenden neuronalen Netzwerkes entsprechend einer oder mehreren Ausführungsformen.
12 zeigt eine exemplarische Digitalvideosuchschnittstelle entsprechend einer oder mehreren Ausführungsformen.
13 zeigt ein schematisches Diagramm eines Abweichungsvideoklassifizierungssystems entsprechend einer oder mehreren Ausführungsformen.
14 zeigt ein Flussdiagramm einer Abfolge von Handlungen für ein ein neuronales Netzwerk betreffendes Konzept zum Generieren von Themaabweichungsklassifizierungen für Digitalvideos auf Grundlage von Worten aus den Digitalvideos und des Weiteren auf Grundlage eines ein Zielthema darstellenden Digitaltextkorpus entsprechend einer oder mehreren Ausführungsformen.
15 zeigt ein Flussdiagramm einer Abfolge von Handlungen zum Lernen von Parametern eines themaspezifisches Wissen codierenden neuronalen Netzwerkes entsprechend einer oder mehreren Ausführungsformen.
16 zeigt ein Blockdiagramm einer exemplarischen Rechenvorrichtung entsprechend einer oder mehreren Ausführungsformen.

Detailbeschreibung
Die vorliegende Offenbarung beschreibt eine oder mehrere Ausführungsformen eines Abweichungsvideoklassifizierungssystems, das Themaabweichungsklassifizierungen für Digitalvideos unter Einsatz eines themaspezifisches Wissen codierenden neuronalen Netzwerkes genau generiert. Insbesondere generiert das Abweichungsvideoklassifizierungssystem bei einigen Ausführungsformen Themaabweichungsklassifizierungen durch Bestimmen von Beziehungen zwischen Worten von Digitalvideos und Worten eines ein Zielthema darstellenden Digitaltextkorpus. In einigen Fällen empfängt das Abweichungsvideoklassifizierungssystem eine Clientvorrichtungsinteraktion, die ein Zielthema aus einer Suchanfrage (oder aus einer Auswahl eines Digitalvideos im Zusammenhang mit einem bestimmten Thema oder aus einer Themaauswahl aus einem Menü mit möglichen Zielthemen) angibt. Bei einigen Ausführungsformen generiert, sammelt oder identifiziert das Abweichungsvideoklassifizierungssystem zusätzlich ein das Zielthema definierendes oder darstellendes Digitaltextkorpus (beispielsweise Digitalvideotutorials über das angegebene Zielthema, Toolnamen im Zusammenhang mit dem Zielthema aus einer Toolauflistung und/oder Schlüsselworte aus einer Ontologie im Zusammenhang mit dem Zielthema). Bei diesen oder anderen Ausführungsformen generiert das Abweichungsvideoklassifizierungssystem zudem themaspezifische Merkmalsvektoren, die darstellen, wie einzelne Worte, die in einem Digitalvideo (beispielsweise in einem Digitalvideo, das als Teil eines Suchergebnisses an die Oberfläche gebracht wird) benutzt werden, mit dem Zielthema des Digitaltextkorpus zusammenhängen. Das Abweichungsvideoklassifizierungssystem setzt des Weiteren in einigen Fällen das themaspezifisches Wissen codierende neuronale Netzwerk ein, um eine Themaabweichungsklassifizierung aus den themaspezifischen Merkmalsvektoren zu generieren.
Wie eben erwähnt worden ist, generiert das Abweichungsvideoklassifizierungssystem bei einer oder mehreren Ausführungsformen Themaabweichungsklassifizierungen für Digitalvideos. Eine Themaabweichungsklassifizierung gibt beispielsweise an, ob ein Digitalvideo von einem Zielthema abweicht oder zu diesem passt. In einigen Fällen generiert das Abweichungsvideoklassifizierungssystem eine von zwei möglichen Themaabweichungsklassifizierungen, nämlich thematisch abweichend oder thematisch passend. Bei einigen Ausführungsformen analysiert das Abweichungsvideoklassifizierungssystem, um eine Themaabweichungsklassifizierung für ein Digitalvideo zu generieren, Worte eines Digitalvideos (beispielsweise eines Digitalvideos, das als Teil eines Suchergebnisses an die Oberfläche gebracht worden ist) wie auch Worte eines Digitaltextkorpus, das einem Zielthema zugeordnet ist. In einigen Fällen generiert das Abweichungsvideoklassifizierungssystem einen themaspezifischen Merkmalsvektor für jedes Wort des Digitalvideos und ordnet den themaspezifischen Merkmalsvektor in einer Abfolge, die durch die Abfolge der Worte des Digitalvideos definiert ist, ein. Bei einigen Ausführungsformen stellt ein themaspezifischer Merkmalsvektor eine Beziehung zwischen einem jeweiligen Wort aus dem Digitalvideo und dem Zielthema des Digitaltextkorpus dar. Ein Digitaltextkorpus beinhaltet bisweilen einen Satz von Tutorials für ein Zielthema, das mittels der Clientvorrichtungsinteraktion angegeben wird (beispielsweise Tutorials zur Digitalbildbearbeitung oder zur Nutzung eines bestimmten Bildbearbeitungstools), wie auch eine Toolauflistung, die Namen von verschiedenen (themaspezifischen) Tools, die einer Digitalcontentbearbeitungsanwendung zugeordnet ist, angibt, und/oder Schlüsselworte aus einer Themaontologie (beispielsweise ein Satz von Schlüsselworten, die einem bestimmten Zielthema zugeordnet sind und von einem Digitalcontentverwaltungssystem vorgehalten werden).
Bei gewissen Ausführungsformen generiert das Abweichungsvideoklassifizierungssystem themaspezifische Merkmalsvektoren als Kombination aus videobezogenen Komponenten und korpusbezogenen Komponenten (um beispielsweise Merkmale sowohl aus dem Digitalvideo wie auch aus dem Digitaltextkorpus aufzunehmen). Das Abweichungsvideoklassifizierungssystem generiert beispielsweise kontextualisierte Merkmalsvektoren aus Worten eines Digitalvideos, wobei die kontextualisierten Merkmalsvektoren Wortbedeutungen in dem Kontext, in dem die Worte in dem Digitalvideo auftreten, darstellen. In einigen Fällen generiert oder extrahiert das Abweichungsvideoklassifizierungssystem zudem Korpuseinbettungen aus Worten des Digitaltextkorpus, wobei die Korpuseinbettungen Bedeutungen von Worten innerhalb des Digitaltextkorpus darstellen (beispielsweise auf Grundlage von n-Grammen, die für die Worte des Digitaltextkorpus extrahiert werden).
Das Abweichungsvideoklassifizierungssystem vergleicht bei gewissen Ausführungsformen des Weiteren die kontextualisierten Merkmalsvektoren und die Korpuseinbettungen, um festzulegen oder zu bestimmen, wie die Worte des Digitalvideos mit dem Zielthema des Digitaltextkorpus zusammenhängen. Auf Grundlage des Vergleichens wählt das Abweichungsvideoklassifizierungssystem in einigen Fällen für jedes Wort des Digitalvideos einen Teilsatz der Korpuseinbettungen als themaspezifische Einbettungen, die eine Beziehung zwischen dem jeweiligen Wort und dem Zielthema darstellen, aus. Bei gewissen Implementierungen generiert das Abweichungsvideoklassifizierungssystem des Weiteren themaspezifische Merkmalsvektoren aus den themaspezifischen Einbettungen durch Einsetzen einer LSTM-Schicht (Long Short-Term Memory LSTM, langes Kurzzeitgedächtnis) eines themaspezifisches Wissen codierenden neuronalen Netzwerkes. Bei einigen Ausführungsformen stellen die themaspezifischen Merkmalsvektoren daher kontextualisiertes themabezogenes Wissen für die Worte des Digitalvideos dar und berücksichtigen dabei die Abfolge, in der die Worte in dem Digitalvideo auftreten.
Bei einer oder mehreren Implementierungen setzt das Abweichungsvideoklassifizierungssystem die themaspezifischen Merkmalsvektoren ein, um eine Themaabweichungsklassifizierung für ein Digitalvideo zu generieren. Das Abweichungsvideoklassifizierungssystem kombiniert (beispielsweise durch Verkettung) beispielsweise kontextualisierte Merkmalsvektoren (für die Worte des Digitalvideos) mit themaspezifischen Merkmalsvektoren. Zusätzlich setzt das Abweichungsvideoklassifizierungssystem bei einigen Ausführungsformen eine Feedforward-Schicht des themaspezifisches Wissen codierenden neuronalen Netzwerkes ein, um Wortmerkmalsvektoren aus den verketteten Vektoren zu generieren. In einigen Fällen stellen die Wortmerkmalsvektoren einen vollständigen Satz von videobezogenen Merkmalen wie auch themabezogenen Merkmalen für jedes Wort des Digitalvideos dar.
Bei einigen Ausführungsformen generiert das Abweichungsvideoklassifizierungssystem des Weiteren eine Themaabweichungsklassifizierung aus den Wortmerkmalsvektoren eines jeden Wortes. Das Abweichungsvideoklassifizierungssystem wendet beispielsweise eine Max-Pooling-Schicht auf die Wortmerkmalsvektoren an und setzt eine Feedforward-Schicht des themaspezifisches Wissen codierenden neuronalen Netzwerkes ein, um eine Themaabweichungsklassifizierung aus den einem Pooling unterzogenen Wortmerkmalsvektoren zu generieren. In einigen Fällen generiert das Abweichungsvideoklassifizierungssystem die Themaabweichungsklassifizierung in Form einer Wahrscheinlichkeitsverteilung über die Wortmerkmalsvektoren entsprechend den Worten des Digitalvideos.
Wie vorstehend erwähnt worden ist, generiert das Abweichungsvideoklassifizierungssystem bei einer oder mehreren Ausführungsformen einen angepassten oder modifizierten Datensatz (eindeutig aus Datensätzen, die von herkömmlichen Systemen benutzt werden) zum Trainieren oder Einstellen eines themaspezifisches Wissen codierenden neuronalen Netzwerkes. Das Abweichungsvideoklassifizierungssystem generiert beispielsweise synthetische Digitalvideotranskripte und/oder hybride Digitalvideotranskripte, um diese in einen Trainingsdatensatz aufzunehmen. Bei gewissen Implementierungen setzt das Abweichungsvideoklassifizierungssystem synthetische Transkripte und/oder hybride Transkripte in einem erweiterten oder modifizierten Trainingsdatensatz ein. In einigen Fällen lernt das Abweichungsvideoklassifizierungssystem Parameter für ein themaspezifisches Wissen codierendes neuronales Netzwerk aus dem erweiterten oder modifizierten Trainingsdatensatz.
Bei einigen Ausführungsformen generiert das Abweichungsvideoklassifizierungssystem ein synthetisches Transkript durch Einsetzen eines generativen Sprachmodells, das an einem ursprünglichen Datensatz von Digitalvideos (beispielsweise thematisch abweichenden Digitalvideos und thematisch passenden Digitalvideos) vorab trainiert worden ist. In einigen Fällen nimmt das Abweichungsvideoklassifizierungssystem ein Trainieren oder Einstellen eines generativen Sprachmodells vor, um synthetische Transkripte zu generieren, die bekannten thematisch abweichenden Digitalvideos nahekommen oder ähnlich sind. Das Abweichungsvideoklassifizierungssystem generiert beispielsweise synthetische Transkripte durch Einsetzen des generativen Sprachmodells, um einschlägige Worte bei bestimmten Zeitschritten innerhalb eines Digitalvideos (oder innerhalb des synthetischen Transkripts) vorherzusagen.
Bei einer oder mehreren Ausführungsformen generiert das Abweichungsvideoklassifizierungssystem zudem (oder alternativ) hybride Transkripte. Das Abweichungsvideoklassifizierungssystem generiert beispielsweise ein hybrides Transkript durch Kombinieren von Sätzen eines thematisch abweichenden Transkripts mit Sätzen aus einem thematisch passenden Transkript. In einigen Fällen ersetzt das Abweichungsvideoklassifizierungssystem einen Prozentanteil von Sätzen innerhalb eines thematisch abweichenden Transkripts durch Sätze aus einem thematisch passenden Transkript (oder umgekehrt). Unter Einsatz der hybriden Transkripte und/oder der synthetischen Transkripte lernt das Abweichungsvideoklassifizierungssystem Parameter für ein themaspezifisches Wissen codierendes neuronales Netzwerk über einen Trainings- oder Einstellprozess.
Wie vorstehend dargelegt worden ist, haben herkömmliche Videoanalysesysteme eine Anzahl von Nachteilen oder Unzulänglichkeiten. Viele herkömmliche Videoanalysesysteme generieren Klassifizierungen für Digitalvideos beispielsweise ungenau und ineffizient. Die Genauigkeit von herkömmlichen Systemen ist durch die verfügbaren Daten zum Trainieren von neuronalen Netzwerken oder anderen maschinell lernenden Modellen beschränkt. Nachteiligerweise sind bestehende Datensätze nicht sehr robust und beinhalten wenig bis gar keine Information über den Themazusammenhang (ob ein Digitalvideo beispielsweise thematisch abweichend oder thematisch passend ist). Als Ergebnis dessen, dass Trainingsmodelle schlechte verfügbare Daten (oder ineffizient gesammelte Daten) nutzen, klassifizieren bestehende Systeme Digitalvideos mit einem hohen Grad an Ungenauigkeit und einem niedrigen Grad an Zuverlässigkeit.
Als Beitrag zu ihrer Ungenauigkeit beim Klassifizieren von Digitalvideos sind viele bestehende Digitalvideoanalysesysteme zudem unflexibel. Im Detail sind viele herkömmliche Systeme starr auf bestehende Datensätze fixiert, um Modelle zum Klassifizieren von Digitalvideos zu trainieren. Zusätzlich setzen bestehende Systeme Modelle ein, die oftmals auf das Generieren von Klassifizierungen allein auf Grundlage von Videodaten beschränkt sind, ohne dass andere damit zusammenhängende Daten, die über die Klassifizierung auf andere Weise informieren könnten, berücksichtigt würden. Viele bestehende Systeme generieren oder nutzen kein ein Zielthema definierendes oder darstellendes Digitaltextkorpus als Baseline zum Generieren von Themaabweichungsklassifizierungen.
Das Abweichungsvideoklassifizierungssystem kann eine Vielzahl von Verbesserungen oder Vorteilen gegenüber herkömmlichen Videoanalysesystemen bereitstellen. Eine oder mehrere Ausführungsformen des Abweichungsvideoklassifizierungssystems verbessern beispielsweise die Effizienz und Genauigkeit gegenüber herkömmlichen Systemen. Darstellungshalber kann das Abweichungsvideoklassifizierungssystem im Vergleich zu herkömmlichen Systemen Themaabweichungsklassifizierungen für Digitalvideos genauer generieren. Insbesondere durch Generieren und Einsetzen von robusteren, angepassten Trainingsdaten, die synthetische Transkripte und/oder hybride Transkripte beinhalten, lernt das Abweichungsvideoklassifizierungssystem effizient Parameter für ein themaspezifisches Wissen codierendes neuronales Netzwerk, das genauere Themaabweichungsklassifizierungen generiert. Als weiterer Beitrag zu einer verbesserten Genauigkeit des Abweichungsvideoklassifizierungssystems weist das themaspezifisches Wissen codierende neuronale Netzwerk eine einzigartige Architektur auf, die das Generieren von hochgenauen Themaabweichungsklassifizierungen für Digitalvideos erleichtert.
Als weiterer Vorteil gegenüber herkömmlichen Systemen integrieren Ausführungsformen des Abweichungsvideoklassifizierungssystems flexibel themabezogene Informationen, die bestehende Systeme entweder ignorieren oder nicht verwerten können. Darstellungshalber setzen im Gegensatz zu herkömmlichen Systemen, die Klassifizierungen für Digitalvideos allein auf Grundlage von Videoinformation generieren, Ausführungsformen des Abweichungsvideoklassifizierungssystems darstellungshalber ein ein Zielthema definierendes oder darstellendes Digitaltextkorpus ein, um die Themaabweichungsklassifizierungen zu leiten. Das Abweichungsvideoklassifizierungssystem setzt das Digitaltextkorpus beispielsweise als Baseline zum Vergleichen mit dem Digitalvideo ein, um den Zusammenhang des Digitalvideos mit dem Zielthema des Digitaltextkorpus zu bestimmen.
Zusätzlich kann das Abweichungsvideoklassifizierungssystem gewisse Funktionen übernehmen, die bei bestehenden Systemen nicht zu finden sind. Bestehende Systeme klassifizieren Digitalvideos beispielsweise allgemein, um Typen von visuellem Content (beispielsweise Etiketten hierfür), der innerhalb des Videos dargestellt ist, und/oder Typen von verbalem Content (beispielsweise Etiketten hierfür), der in den Videos geäußert wird, anzugeben. Im Gegensatz hierzu generieren Ausführungsformen des Abweichungsvideoklassifizierungssystems Themaabweichungsklassifizierungen, die einen Zusammenhang eines Digitalvideos mit einem Zielthema angeben; diese Funktion findet sich bei bisherigen Systemen nicht. Wie beschrieben worden ist, setzt das Abweichungsvideoklassifizierungssystem ein themaspezifisches Wissen codierendes neuronales Netzwerk ein, um Themaabweichungsklassifizierungen zu generieren.
Zusätzliche Details im Zusammenhang mit dem Abweichungsvideoklassifizierungssystem werden nunmehr anhand der Figuren angeben. 1 zeigt beispielsweise ein schematisches Diagramm einer exemplarischen Systemumgebung zum Implementieren eines Abweichungsvideoklassifizierungssystems 102 entsprechend einer oder mehreren Ausführungsformen. Eine Übersicht über das Abweichungsvideoklassifizierungssystem 102 wird in Verbindung mit 1 beschrieben. Anschließend wird eine detailliertere Beschreibung der Komponenten und Prozesse des Abweichungsvideoklassifizierungssystems 102 anhand der nachfolgenden Figuren angegeben.
Wie gezeigt ist, beinhaltet die Umgebung einen Server / (mehrere) Server 104, eine Clientvorrichtung 108, eine Datenbank 112 und ein Netzwerk 114. Jede der Komponenten der Umgebung kommuniziert über das Netzwerk 114, wobei das Netzwerk 114 ein beliebiges geeignetes Netzwerk ist, über das Rechenvorrichtungen kommunizieren. Exemplarische Netzwerke werden nachstehend detailliert anhand 16 beschrieben.
Wie erwähnt worden ist, beinhaltet die Umgebung eine Clientvorrichtung 108. Die Clientvorrichtung 108 ist eine aus einer Vielzahl von Rechenvorrichtungen, darunter ein Smartphone, ein Tablet, ein intelligenter (smarter) Fernseher, ein Desktopcomputer, ein Laptopcomputer, eine Vorrichtung für virtuelle Realität, eine Vorrichtung für erweiterte Realität oder eine andere Rechenvorrichtung, wie sie anhand 16 beschrieben wird. Obwohl 1 eine einzige Instanz der Clientvorrichtung 108 darstellt, beinhaltet die Umgebung bei einigen Ausführungsformen mehrere verschiedene Clientvorrichtungen, die jeweils einem anderen Nutzer (beispielsweise einem Digitalcontent Anfordernden oder Suchenden) zugeordnet sind. Die Clientvorrichtung 108 kommuniziert mit dem Server / den Servern 104 über das Netzwerk 114. Die Clientvorrichtung 108 stellt beispielsweise für den Server / die Server 104 Information bereit, die Clientvorrichtungsinteraktionen angibt (beispielsweise Angaben von Zielthemen, Digitalvideosuchen mit Anfragebegriffen und/oder andere Eingaben), und empfängt von dem Server / den Servern 104 Information, so beispielsweise Themaabweichungsklassifizierungen und Digitalvideosuchergebnisse, die Angaben von thematisch abweichenden und thematisch passenden Digitalvideos beinhalten. In einigen Fällen stellt das Abweichungsvideoklassifizierungssystem 102 auf dem Server / den Servern 104 Information auf Grundlage einer Clientvorrichtungsinteraktion über die Clientvorrichtung 108 bereit und empfängt diese
Wie in 1 gezeigt ist, beinhaltet die Clientvorrichtung 108 eine Clientanwendung 110. Die Clientanwendung 110 ist insbesondere eine Webanwendung, eine native Anwendung, die auf der Clientvorrichtung 108 installiert ist (beispielsweise eine mobile Anwendung, eine Desktopanwendung etc.), oder eine cloudbasierte Anwendung, deren Funktionalität gänzlich oder in Teilen von dem Server / den Servern 104 übernommen wird. Auf Grundlage von Anweisungen von der Clientanwendung 110 präsentiert die Clientvorrichtung 108 einem Nutzer Information, darunter Digitalvideos und/oder Themaabweichungsklassifizierungen (beispielsweise innerhalb von Digitalvideosuchschnittstellen), oder zeigt diese an.
Wie in 1 dargestellt ist, beinhaltet die Umgebung den Server / die Server 104. Der Server / die Server 104 nimmt/nehmen ein Generieren, Nachverfolgen, Speichern, Verarbeiten, Empfangen und Übertragen von elektronischen Daten vor, so beispielsweise von Angaben zu Clientvorrichtungsinteraktionen, Digitalvideos, Themaabweichungsklassifizierungen, ein themaspezifisches Wissen codierendes neuronales Netzwerk als Ganzes oder in Teilen und/oder Trainingsdaten (darunter beispielsweise synthetische Transkripte und/oder hybride Transkripte). Der Server / die Server 104 empfängt/empfangen Daten von der Clientvorrichtung 108 beispielsweise in Form einer Angabe einer Clientvorrichtungsinteraktion dahingehend, nach Digitalvideos zu suchen, die zu einem bestimmten Zielthema gehören. In Reaktion hierauf überträgt/übertragen der Server / die Server 104 Daten an die Clientvorrichtung 108, um zu veranlassen, dass die Clientvorrichtung 108 ein Suchergebnis anzeigt oder präsentiert, das einen Satz von Digitalvideos zusammen mit Angaben zu jeweiligen Themaabweichungsklassifizierungen für die Digitalvideos beinhaltet.
Bei einigen Ausführungsformen kommuniziert/kommunizieren der Server / die Server 104 mit der Clientvorrichtung 108, um Daten über das Netzwerk 114 zu übertragen und/oder zu empfangen. Bei einigen Ausführungsformen umfasst/umfassen der Server / die Server 104 einen verteilten Server, wobei der Server / die Server 104 eine Anzahl von Servervorrichtungen beinhaltet/beinhalten, die über das Netzwerk 114 verteilt und an verschiedenen physischen Orten befindlich sind. Der Server / die Server 104 kann/können einen Contentserver, einen Anwendungsserver, einen Kommunikationsserver, einen Webhostingserver, einen mehrdimensionalen Server oder einen Server für maschinelles Lernen beinhalten. Der Server / die Server 104 kann/können des Weiteren auf die Datenbank 112 zugreifen und diese einsetzen, um Information, so beispielsweise Digitalvideos, ein Digitaltextkorpus und ein themaspezifisches Wissen codierendes neuronales Netzwerk, zu speichern und abzurufen.
Wie weiter in 1 dargestellt ist, beinhaltet/beinhalten der Server / die Server 104 zudem das Abweichungsvideoklassifizierungssystem 102 als Teil eines Digitalcontentverwaltungssystems 106. Bei einer oder mehreren Implementierungen kann das Digitalcontentverwaltungssystem 106 Digitalcontent, so beispielsweise Digitalvideos und Angaben zu Themaabweichungsklassifizierungen, beispielsweise speichern, generieren, modifizieren, bearbeiten, nachbessern, bereitstellen, verteilen und/oder teilen. Das Digitalcontentverwaltungssystem 106 stellt beispielsweise Tools für die Clientvorrichtung 108 bereit, um über die Clientanwendung 110 ein Zielthema anzugeben und/oder eine Suchanfrage über eine Digitalvideosuchschnittstelle bereitzustellen. Bei einigen Implementierungen stellt das Digitalcontentverwaltungssystem 106 in Reaktion hierauf einen Satz von Digitalvideos bereit, der Angaben zu Themaabweichungsklassifizierungen beinhaltet.
Bei einer oder mehreren Ausführungsformen beinhaltet/beinhalten der Server / die Server 104 das Abweichungsvideoklassifizierungssystem 102 gänzlich oder in Teilen. Das Abweichungsvideoklassifizierungssystem 102 arbeitet beispielsweise auf dem Server / den Servern, um eine Themaabweichungsklassifizierung (beispielsweise mittels eines themaspezifisches Wissen codierenden neuronalen Netzwerkes) für ein Digitalvideo auf Grundlage von Worten aus dem Digitalvideo und Worten aus einem Digitaltextkorpus zu generieren.
In gewissen Fällen beinhaltet die Clientvorrichtung 108 das Abweichungsvideoklassifizierungssystem 102 gänzlich oder in Teilen. Die Clientvorrichtung 108 kann einen oder mehrere Aspekte des Abweichungsvideoklassifizierungssystems 102, so beispielsweise ein themaspezifisches Wissen codierendes neuronales Netzwerk, von dem Server / den Servern 104 generieren, beziehen (beispielsweise herunterladen) oder einsetzen. Bei einigen Implementierungen, wie sie in 1 dargestellt sind, ist das Abweichungsvideoklassifizierungssystem 102 gänzlich oder in Teilen auf der Clientvorrichtung 108 befindlich. Das Abweichungsvideoklassifizierungssystem 102 beinhaltet beispielsweise eine Webhostinganwendung, die ermöglicht, dass die Clientvorrichtung 108 mit dem Server / den Servern 104 interagiert. Darstellungshalber greift die Clientvorrichtung 108 bei einer oder mehreren Implementierungen auf eine Webpage zu, die von dem Server / den Servern 104 unterstützt und/oder gehostet wird.
Obwohl 1 eine bestimmte Anordnung der Umgebung darstellt, weist die Umgebung bei einigen Ausführungsformen auch eine andere Anordnung von Komponenten auf und/oder kann insgesamt eine andere Anzahl oder einen anderen Satz von Komponenten aufweisen. Wie erwähnt worden ist, ist das Abweichungsvideoklassifizierungssystem 102 beispielsweise durch die Clientvorrichtung 108 implementiert (beispielsweise gänzlich oder in Teilen darauf befindlich). Zusätzlich kommuniziert die Clientvorrichtung 108 bei einer oder mehreren Ausführungsformen direkt mit dem Abweichungsvideoklassifizierungssystem 102 unter Umgehung des Netzwerkes 114. Bei einigen Ausführungsformen beinhaltet die Umgebung ein themaspezifisches Wissen codierendes neuronales Netzwerk, das in der Datenbank 112 gespeichert ist und von dem Server / den Servern 104, der Clientvorrichtung 108 oder einer Vorrichtung dritter Seite vorgehalten wird.
Wie erwähnt worden ist, generiert das Abweichungsvideoklassifizierungssystem 102 bei einer oder mehreren Ausführungsformen eine Themaabweichungsklassifizierung für ein Digitalvideo, um anzugeben, ob das Digitalvideo von einem Zielthema abweicht (oder zu diesem passt). Insbesondere setzt das Abweichungsvideoklassifizierungssystem 102 ein themaspezifisches Wissen codierendes neuronales Netzwerk ein, das mehrere konstituierende einem neuronalen Netzwerk zu eigene Komponenten oder Schichten beinhaltet, um die Themaabweichungsklassifizierung auf Grundlage eines Vergleiches des Digitalvideos mit einem das Zielthema darstellenden Digitaltextkorpus zu generieren. 2 zeigt eine exemplarische Abfolge von Handlungen, die das Abweichungsvideoklassifizierungssystem 102 durchführt, um eine Themaabweichungsklassifizierung zu generieren, entsprechend einer oder mehreren Ausführungsformen. Die Beschreibung von 2 gibt einen Überblick über das Generieren einer Themaabweichungsklassifizierung, wobei die Beschreibungen der nachfolgenden Figuren zusätzliche Details im Zusammenhang mit den verschiedenen Handlungen von 2 bereitstellen.
Wie in 2 dargestellt ist, führt das Abweichungsvideoklassifizierungssystem 102 eine Handlung 202 durch, bei der Worteinbettungen aus einem Digitalvideo extrahiert werden. Um die Worteinbettungen zu extrahieren, nimmt das Abweichungsvideoklassifizierungssystem 102 zunächst ein Identifizieren, Detektieren oder Bestimmen von Worten, die innerhalb eines Digitalvideos benutzt werden, vor. Das Abweichungsvideoklassifizierungssystem 102 greift beispielsweise auf ein (vorab generiertes) Transkript des verbalen Contents aus dem Digitalvideo zu, wobei das Transkript die Worte in der Reihenfolge ihrer Nutzung beinhaltet. Bei einigen Ausführungsformen generiert das Abweichungsvideoklassifizierungssystem 102 das Transkript für das Digitalvideo durch Einsetzen eines automatischen Transkriptionsmodells, das Sprache erkennt und die Sprache im Text transkribiert.
Aus dem Transkript detektiert, identifiziert oder bestimmt das Abweichungsvideoklassifizierungssystem 102 bei einer oder mehreren Ausführungsformen Worte, die in dem Digitalvideo benutzt werden. Das Abweichungsvideoklassifizierungssystem 102 bestimmt Worte beispielsweise aus dem Digitalvideotranskript in der Darstellung [w] von 2. Zusätzlich extrahiert das Abweichungsvideoklassifizierungssystem 102 Worteinbettungen aus den Worten [w]. Das Abweichungsvideoklassifizierungssystem 102 setzt beispielsweise ein Worteinbettungsmodell ein, um eine Worteinbettung (als [x] dargestellt) für jedes Wort, das innerhalb des Digitalvideos benutzt wird, zu extrahieren. Beinhalten kann eine Worteinbettung beispielsweise einen (niedrigdimensionalen) latenten Vektor, der Merkmale für ein Wort wiederspiegelt (die man beispielsweise über Verteilungssemantiken des Wortes erhält). In einigen Fällen setzt das Abweichungsvideoklassifizierungssystem 102 ein bestimmtes Worteinbettungsmodell ein, um Worteinbettungen zu extrahieren, so beispielsweise GloVe oder word2vec.
Wie weiter in 2 dargestellt ist, führt das Abweichungsvideoklassifizierungssystem 102 zudem eine Handlung 204 durch, bei der kontextualisierte Merkmalsvektoren generiert werden. Insbesondere generiert das Abweichungsvideoklassifizierungssystem 102 die kontextualisierten Merkmalsvektoren aus den Worteinbettungen, die aus dem Digitalvideo extrahiert werden. Wie vorstehend dargelegt worden ist, kann ein kontextualisierter Merkmalsvektor beispielsweise einen (latenten) Vektor beinhalten, der die Bedeutung eines Wortes im Kontext dessen darstellt, wo das Wort in Bezug auf andere begleitende Worte (beispielsweise innerhalb einer Abfolge derselben) innerhalb des Digitalvideos auftritt. Um bei einer oder mehreren Ausführungsformen einen kontextualisierten Merkmalsvektor für jede der Worteinbettungen (und daher für jedes der Worte des Digitalvideos) zu generieren, setzt das Abweichungsvideoklassifizierungssystem 102 eine LSTM-Schicht (Long Short-Term Memory-Schicht) (beispielsweise innerhalb des themaspezifisches Wissen codierenden neuronalen Netzwerkes) ein, um verborgene Zustände bei jedem Zeitschritt aus den Worteinbettungen [x] zu bestimmen. Wie in 2 gezeigt ist, werden die kontextualisierten Merkmalsvektoren als [h] dargestellt.
Wie weiter in 2 dargestellt ist, führt das Abweichungsvideoklassifizierungssystem 102 eine Handlung 206 durch, bei der Worte aus einem Digitaltextkorpus bestimmt werden. Insbesondere bestimmt das Abweichungsvideoklassifizierungssystem 102 Worte aus einem ein Zielthema definierenden oder darstellenden Digitaltextkorpus. Das Abweichungsvideoklassifizierungssystem 102 bestimmt Worte beispielsweise aus verschiedenen Tutorials (beispielsweise aus textbasierten Tutorials oder anderen Tutorials mit Transkripten, von denen bekannt ist, dass sie mit dem gegebenen Zielthema zusammenhängen), aus Toolnamen, die mit dem Zielthema zusammenhängen, aus einer Toolauflistung für eine bestimmte Digitalcontentbearbeitungsanwendung und aus Schlüsselworten aus einer Themaontologie (beispielsweise einer Ontologie von Vokabular, das von dem Digitalcontentbearbeitungssystem 106 vorgehalten wird und Schlüsselworte im Zusammenhang mit einem Zielthema beinhaltet), um diese in das Digitaltextkorpus aufzunehmen. In einigen Fällen beinhaltet das Abweichungsvideoklassifizierungssystem 102 nur einen Teilsatz des vorerwähnten Contents innerhalb des Digitaltextkorpus oder beinhaltet ansonsten zusätzlichen oder alternativen Textcontent, von dem bekannt ist, dass er mit einem Zielthema zusammenhängt. Wie vorstehend dargelegt worden ist, betrifft ein Zielthema oftmals ein Digitalcontentthema oder ein Digitalcontentgebiet, das als Ziel (goal/target) einer Suchanfrage bezeichnet ist (um beispielsweise Digitalvideos, die das Zielthema betreffen, an die Oberfläche zu bringen).
In einigen Fällen generiert das Abweichungsvideoklassifizierungssystem 102 das Digitaltextkorpus auf Grundlage einer Clientvorrichtungsinteraktion (beispielsweise von der Clientvorrichtung 108). Das Abweichungsvideoklassifizierungssystem 102 empfängt von der Clientvorrichtung 108 beispielsweise eine Angabe zu bestimmten Zielthema, und das Abweichungsvideoklassifizierungssystem 102 bestimmt Content im Zusammenhang mit dem Zielthema, um diesen in das Digitaltextkorpus aufzunehmen. Bei einigen Ausführungsformen speichert das Abweichungsvideoklassifizierungssystem 102 mehrere Digitaltextkorpora, die verschiedenen Zielthemen entsprechen, und hält diese vor. Auf Grundlage des Empfangens einer Suchanfrage von der Clientvorrichtung 108 dahingehend, nach Digitalvideos im Zusammenhang mit einem Zielthema zu suchen, greift das Abweichungsvideoklassifizierungssystem 102 daher auf ein entsprechendes Digitaltextkorpus zu, und zwar zur Nutzung als Referenz zum Generieren von Themaabweichungsklassifizierungen für Digitalvideos im Zusammenhang mit dem Zielthema.
Wie weiter in 2 dargestellt ist, führt das Abweichungsvideoklassifizierungssystem 102 eine Handlung 208 durch, bei der eine Korpuseinbettung aus den Worten des Digitaltextkorpus extrahiert wird. Insbesondere extrahiert das Abweichungsvideoklassifizierungssystem 102 Korpuseinbettungen, die Wortbedeutungen für Worte des Digitaltextkorpus darstellen. Bei einigen Ausführungsformen extrahiert das Abweichungsvideoklassifizierungssystem 102 die Korpuseinbettungen durch Bestimmen oder Generieren von n-Grammen für die Worte des Digitaltextkorpus. Insbesondere extrahiert das Abweichungsvideoklassifizierungssystem 102 die Korpuseinbettungen (die in 2 als [e] dargestellt sind) aus den n-Grammen. In einigen Fällen extrahiert das Abweichungsvideoklassifizierungssystem 102 die Korpuseinbettungen mittels Max-Pooling.
Wie ebenfalls in 2 dargestellt ist, führt das Abweichungsvideoklassifizierungssystem 102 eine Handlung 210 durch, bei der themaspezifische Einbettungen generiert werden. Dies bedeutet, dass dann, wenn das Abweichungsvideoklassifizierungssystem 102 die kontextualisierten Merkmalsvektoren [h] (die beispielsweise bei der Handlung 204 generiert worden sind) aus einem gegebenen Digitalvideo und die Korpuseinbettungen [e] (die beispielsweise bei Handlung 208 extrahiert worden sind) aus einem Digitaltextkorpus generiert hat, das Abweichungsvideoklassifizierungssystem 102 des Weiteren themaspezifische Einbettungen generiert, die einen Zusammenhang zwischen den Worten des Digitalvideos und den Worten des Digitaltextkorpus darstellen. Eine themaspezifische Einbettung beinhaltet oftmals (latente) Merkmale, die einen Zusammenhang zwischen einem Zielthema und einem Wort aus einem Digitalvideo darstellen.
Um die themaspezifischen Einbettungen zu generieren, vergleicht das Abweichungsvideoklassifizierungssystem 102 die kontextualisierten Merkmalsvektoren [h] und die Korpuseinbettungen [e]. Das Abweichungsvideoklassifizierungssystem 102 bestimmt für einen gegebenen kontextualisierten Merkmalsvektor innerhalb von [h] beispielsweise Ähnlichkeitskennwerte für jede der Korpuseinbettungen innerhalb von [e]. In einigen Fällen vergleicht das Abweichungsvideoklassifizierungssystem 102 die Ähnlichkeitskennwerte des Weiteren mit einer Ähnlichkeitsschwelle. Zusätzlich wählt das Abweichungsvideoklassifizierungssystem 102 als themaspezifische Einbettungen für den gegebenen kontextualisierten Merkmalsvektor (entsprechend einem bestimmten Wort aus dem Digitalvideo) einen Teilsatz der Korpuseinbettungen, die die Ähnlichkeitsschwelle erfüllen, aus. Wie gezeigt ist, wählt das Abweichungsvideoklassifizierungssystem 102 e₁ und e₂ aus, weist es jedoch zurück oder schließt es aus, da letzteres einen Ähnlichkeitskennwert aufweist, der die Ähnlichkeitsschwelle nicht erfüllt. Das Abweichungsvideoklassifizierungssystem 102 wiederholt des Weiteren den Vergleich, um themaspezifische Einbettungen für jeden kontextualisierten Merkmalsvektor innerhalb von [h] auszuwählen.
Daher generiert das Abweichungsvideoklassifizierungssystem 102 eine Anzahl von themaspezifischen Einbettungen für jeden jeweiligen kontextualisierten Merkmalsvektor innerhalb von [h]. In einigen Fällen wählt das Abweichungsvideoklassifizierungssystem 102 keine der Korpuseinbettungen [e] für einen bestimmten kontextualisierten Merkmalsvektor aus, wenn beispielsweise keine Korpuseinbettungen [e] in Bezug auf den kontextualisierten Merkmalsvektor Ähnlichkeitskennwerte aufweisen, die die Ähnlichkeitsschwelle erfüllen. In anderen Fällen setzt das Abweichungsvideoklassifizierungssystem 102 keine Ähnlichkeitsschwelle ein, sondern ordnet anstatt dessen die Korpuseinbettungen [e] in Bezug auf jeden jeweiligen kontextualisierten Merkmalsvektor [h] und wählt eine bestimmte Anzahl (beispielsweise 1, 2 oder 5) der am besten ranggeordneten Korpuseinbettungen [e], die für jeden kontextualisierten Merkmalsvektor [h] spezifisch sind, aus.
Wie weiter in 2 gezeigt ist, führt das Abweichungsvideoklassifizierungssystem 102 eine Handlung 212 durch, bei der themaspezifische Merkmalsvektoren generiert werden. Insbesondere generiert das Abweichungsvideoklassifizierungssystem 102 themaspezifische Merkmalsvektoren, die (latente) Merkmale beinhalten, die Zusammenhänge oder Bezüge zwischen Worten aus einem Digitalvideo und Worten aus einem Digitaltextkorpus darstellen, und zwar unter Einschluss von Information, die die Reihenfolge oder Abfolge, in der die Worte in dem Digitalvideo auftreten, darstellt. Bei einigen Ausführungsformen generiert das Abweichungsvideoklassifizierungssystem 102 die themaspezifischen Merkmalsvektoren [k] unter Einsatz einer LSTM-Schicht als Teil eines themaspezifisches Wissen codierenden neuronalen Netzwerkes. Das Abweichungsvideoklassifizierungssystem 102 setzt die LSTM-Schicht beispielsweise ein, um die themaspezifischen Einbettungen, die unter den Korpuseinbettungen [e] ausgewählt worden sind, zu verarbeiten oder zu analysieren, um die themaspezifischen Merkmalsvektoren [k] aus den verborgenen Zuständen bei jedem Zeitschritt des LSTM zu generieren.
Zusätzlich führt das Abweichungsvideoklassifizierungssystem 102, wie in 2 dargestellt ist, eine Handlung 214 durch, bei der eine Themaabweichungsklassifizierung generiert wird. Insbesondere generiert das Abweichungsvideoklassifizierungssystem 102 eine Themaabweichungsklassifizierung für das Digitalvideo, aus dem Worte, die bei der Handlung 202 bestimmt worden sind, ursprünglich stammen. Um die Themaabweichungsklassifizierung zu generieren, setzt das Abweichungsvideoklassifizierungssystem 102 ein themaspezifisches Wissen codierendes neuronales Netzwerk ein, um aus den themaspezifischen Merkmalsvektoren [k] eine Wahrscheinlichkeit dafür zu generieren, dass das Digitalvideo thematisch abweichend (oder thematisch passend) ist. Bei einigen Implementierungen vergleicht das Abweichungsvideoklassifizierungssystem 102 die Wahrscheinlichkeit mit einer Klassifizierungsschwelle und klassifiziert das Digitalvideo als thematisch abweichend, wenn die Wahrscheinlichkeit die Klassifizierungsschwelle erfüllt (oder als thematisch passend, wenn die Wahrscheinlichkeit die Schwelle nicht erfüllt). Bei anderen Implementierungen generiert das Abweichungsvideoklassifizierungssystem 102 die Wahrscheinlichkeit und gibt entsprechend der Wahrscheinlichkeit (beispielsweise über eine angezeigte Mitteilung) einen Anteil oder einen Prozentanteil des Digitalvideos an, der thematisch abweichend ist (und einen komplementären Anteil oder Prozentanteil dafür, dass es thematisch passend ist). Das Abweichungsvideoklassifizierungssystem 102 wiederholt zudem die Handlungen von 2 für eine beliebige Anzahl von Digitalvideos und/oder für ein beliebiges Digitaltextkorpus, um Themaabweichungsklassifizierungen für die Digitalvideos im Zusammenhang mit einem gegebenen Digitaltextkorpus zu generieren.
Bei einigen Ausführungsformen bezeichnet ein neuronales Netzwerk ein maschinell lernendes Modell, das auf Grundlage von Eingaben darauf trainiert und/oder eingestellt werden kann, Klassifizierungen zu bestimmen und unbekannte Funktionen zu nähern. Ein neuronales Netzwerk beinhaltet beispielsweise ein Modell aus wechselseitig verbundenen künstlichen Neuronen (die beispielsweise in Schichten organisiert sind), die kommunizieren und lernen, komplexe Funktionen zu nähern und Ausgaben (beispielsweise generierte Digitalbilder) auf Grundlage von mehreren Eingaben, die für das neuronale Netzwerk bereitgestellt werden, zu generieren. In einigen Fällen bezeichnet ein neuronales Netzwerk einen Algorithmus (oder einen Satz von Algorithmen), der Techniken des Deep Learning implementiert, um auf hoher Ebene gegebene Abstraktionen an Daten zu modellieren. Beinhalten kann ein neuronales Netzwerk beispielsweise ein faltungstechnisches neuronales Netzwerk, ein rekurrentes neuronales Netzwerk (beispielsweise ein LSTM), ein neuronales Graphennetzwerk oder ein generativ-adversatives neuronales Netzwerk. Hierbei bezeichnet ein themaspezifisches Wissen codierendes neuronales Netzwerk bisweilen einen spezifischen Typ von neuronalem Netzwerk, der Themaabweichungsklassifizierungen für Digitalvideos auf Grundlage von themaspezifischen Merkmalsvektoren und/oder Wortmerkmalsvektoren generiert. In einigen Fällen weist ein themaspezifisches Wissen codierendes neuronales Netzwerk eine bestimmte Architektur auf und beinhaltet eine oder mehrere LSTM-Schichten und eine oder mehrere Feedforward-Schichten, wie nachstehend noch detaillierter anhand der nachfolgenden Figuren beschrieben wird.
Obwohl 2 bei einigen Ausführungsformen primär verschiedene Handlungen, bei denen verschiedene neuronale Netzwerke eingesetzt werden, beschreibt, setzt das Abweichungsvideoklassifizierungssystem 102 verschiedene maschinell lernende Modelle anstatt der neuronalen Netzwerke ein. Anstatt des Einsatzes eines themaspezifisches Wissen codierenden neuronalen Netzwerkes setzt das Abweichungsvideoklassifizierungssystem 102 beispielsweise ein themaspezifisches Wissen codierendes maschinell lernendes Modell, das eine andere Architektur aufweist, ein, um eine Themaabweichungsklassifizierung zu generieren. In einigen Fällen ist das themaspezifisches Wissen codierende maschinell lernende Modell ein Ensemble aus einem oder mehreren Entscheidungsbäumen, Supportvektormaschinen, bayes'schen Netzwerken, Random-Forest-Modellen oder einem anderen maschinell lernenden Modell. Einsetzen kann das Basecaller-Rekalibrierungssystem 106 auf ähnliche Weise verschiedene Architekturen eines maschinell lernenden Modells, um kontextualisierte Vektoren, themaspezifische Merkmalsvektoren und/oder andere hier beschriebene Vektoren zu generieren.
Wie vorstehend erwähnt worden ist, generiert das Abweichungsvideoklassifizierungssystem 102 bei gewissen Ausführungsformen kontextualisierte Vektoren aus Worten eines Digitalvideos. Insbesondere setzt das Abweichungsvideoklassifizierungssystem 102 eine LSTM-Schicht eines themaspezifisches Wissen codierenden neuronalen Netzwerkes ein, um kontextualisierte Merkmalsvektoren aus Worteinbettungen der Worte, die innerhalb des Digitalvideos benutzt werden, zu generieren. 3 zeigt einen exemplarischen Ablauf zum Generieren von kontextualisierten Merkmalsvektoren entsprechend einer oder mehreren Ausführungsformen.
Wie in 3 dargestellt ist, identifiziert das Abweichungsvideoklassifizierungssystem 102 ein Digitalvideo 302 oder wählt dieses aus. Das Abweichungsvideoklassifizierungssystem 102 wählt das Digitalvideo 302 beispielsweise für einen Vergleich mit einem Zielthema aus, um eine Themaabweichungsklassifizierung zu generieren. Bei einigen Ausführungsformen empfängt das Abweichungsvideoklassifizierungssystem 102 das Digitalvideo 302 aus der Clientvorrichtung 108 (beispielsweise als Upload oder Auswahl von einer Webseite). Bei anderen Ausführungsformen greift das Abweichungsvideoklassifizierungssystem 102 auf das Digitalvideo aus einem Repertoire von Digitalvideos zu, die innerhalb der Datenbank 112 gespeichert worden sind und von dem Digitalcontentverwaltungssystem 106 vorgehalten werden.
Wie weiter in 3 dargestellt ist, generiert oder bezieht das Abweichungsvideoklassifizierungssystem 102 ein Digitalvideotranskript 304 für das Digitalvideo 302. Darstellungshalber generiert das Abweichungsvideoklassifizierungssystem 102 bei einigen Ausführungsformen das Digitalvideotranskript 304 unter Einsatz eines Sprache-zu-Text-Modells (beispielsweise aus einer bestehenden Anwendungsprogrammierschnittstelle), so beispielsweise S2T. Bei anderen Ausführungsformen greift das Abweichungsvideoklassifizierungssystem 102 auf das Digitalvideotranskript 304 als Transkript aus der Datenbank 112 und der Vorhaltung durch das Digitalcontentverwaltungssystem 106 als dem Digitalvideo 302 entsprechendes Transkript zu. Wie in 3 gezeigt ist, beinhaltet das Digitalvideotranskript 304 den Text „Hallo Tom, wie geht's dir? Wie geht's deiner Familie?“ („Hi Tom, how are you? How is your family?“).
Wie ebenfalls in 3 dargestellt ist, bestimmt das Abweichungsvideoklassifizierungssystem 102 Digitalvideoworte 306 aus dem Digitalvideotranskript 304. Insbesondere analysiert das Abweichungsvideoklassifizierungssystem 102 das Digitalvideotranskript 304, um einzelne Worte w₁, w₂,...,w_n zu bestimmen. Das Abweichungsvideoklassifizierungssystem 102 generiert einen Vektor oder eine Feldanordnung bzw. ein Array der Worte innerhalb des Digitalvideotranskripts 304, was als D = [w₁, w₂,..., w_n] dargestellt wird, Das Wort „Hallo“ wird beispielsweise als w₁ dargestellt, das Wort „Tom“ wird als w₂ dargestellt, und so weiter für jedes Wort des Digitalvideotranskripts 304.
Zusätzlich setzt das Abweichungsvideoklassifizierungssystem 102, wie in 3 gezeigt ist, ein Worteinbettungsmodell 308 ein, um Worteinbettungen 310 zu generieren. Insbesondere generiert das Abweichungsvideoklassifizierungssystem 102 die Worteinbettungen 310 aus den Digitalvideoworten 306. Das Abweichungsvideoklassifizierungssystem 102 setzt beispielsweise das Worteinbettungsmodell 308 (beispielsweise eine GloVe-Einbettungstabelle, ein word2vec-Modell oder ein anderes Worteinbettungsmodell) ein, um die Worteinbettungen 310 zu generieren, die als X = [x₁, x₂, ..., x_n] dargestellt sind. Jede der Worteinbettungen 310 entspricht einem jeweiligen Wort von den Digitalvideoworten 306 (w₁ entspricht beispielsweise x₁ und so weiter).
Wie weiter in 3 dargestellt ist, setzt das Abweichungsvideoklassifizierungssystem 102 ein LSTM 312 ein, um kontextualisierte Merkmalsvektoren 314 zu generieren. Insbesondere generiert das Abweichungsvideoklassifizierungssystem 102 die kontextualisierten Merkmalsvektoren 314 aus den Worteinbettungen 310, wobei jede Worteinbettung (und daher jedes Wort aus dem Digitalvideo 302) einem jeweiligen kontextualisierten Merkmalsvektor entspricht. Das Abweichungsvideoklassifizierungssystem 102 verarbeitet oder analysiert die Worteinbettungen 310 unter Einsatz des LSTM 312 und bestimmt die verborgenen Zustände bei jedem Zeitschritt des LSTM 312 zur Nutzung als kontextualisierte Merkmalsvektoren 314. Wie gezeigt ist, werden die kontextualisierten Merkmalsvektoren 314 als H = [h₁, h₂, ..., h_n] dargestellt. Das Abweichungsvideoklassifizierungssystem 102 setzt die kontextualisierten Merkmalsvektoren 314 des Weiteren für einen Vergleich mit Korpuseinbettungen aus einem Digitaltextkorpus ein, wie nachstehend noch detaillierter beschrieben wird.
Wie vorstehend erwähnt worden ist, generiert das Abweichungsvideoklassifizierungssystem 102 bei gewissen beschriebenen Ausführungsformen Korpuseinbettungen aus einem Digitaltextkorpus. Insbesondere generiert das Abweichungsvideoklassifizierungssystem 102 Korpuseinbettungen für einen Vergleich mit den kontextualisierten Merkmalsvektoren 314, um schließlich eine Themaabweichungsklassifizierung für das Digitalvideo 302 zu generieren. 4 zeigt einen exemplarischen Ablauf zum Generieren von Korpuseinbettungen entsprechend einer oder mehreren Ausführungsformen.
Wie in 4 dargestellt ist, identifiziert oder generiert das Abweichungsvideoklassifizierungssystem 102 ein Digitaltextkorpus 402. Insbesondere identifiziert das Abweichungsvideoklassifizierungssystem 102 ein Digitaltextkorpus 402, das von dem Digitalcontentverwaltungssystem 106 vorgehalten wird und innerhalb der Datenbank 112 gespeichert ist, oder greift auf dieses zu. In einigen Fällen bezeichnet das Abweichungsvideoklassifizierungssystem 102 (oder das Digitalcontentverwaltungssystem 106) einzelne Digitaltextkorpora für verschiedene Zielthemen oder weist diese zu, wobei jedes Digitaltextkorpus Textcontent beinhaltet, der einem jeweiligen Zielthema entspricht. Das Digitaltextkorpus 402 beinhaltet beispielsweise Text aus verschiedenen themabezogenen Tutorials, einer Toolauflistung für eine bestimmte Digitalcontentbearbeitungsanwendung und/oder Text aus einer themabezogenen Ontologie von Vokabular, das dem Zielthema (oder einer bestimmten Digitalcontentbearbeitungsanwendung) zugeordnet ist. Bei einigen Ausführungsformen generiert das Abweichungsvideoklassifizierungssystem 102 das Digitaltextkorpus 402 durch Zusammenführen, Sammeln oder Kombinieren von Textcontent aus Tutorials, Toolauflistungen und einer Themaontologie.
Wie weiter in 4 dargestellt ist, extrahiert oder identifiziert das Abweichungsvideoklassifizierungssystem 102 Worte aus dem Digitaltextkorpus 404. Insbesondere extrahiert das Abweichungsvideoklassifizierungssystem 102 einzelne Worte aus dem Tutorialtext, einzelne Toolnamen (beispielsweise magnetisches Lasso, Stift, Radiergummi bzw. Löscher oder irgendein anderes Tool) aus einer Toolauflistung und Schlüsselworte aus einer Themaontologie. Das Abweichungsvideoklassifizierungssystem 102 bestimmt beispielsweise Schlüsselworte aus der Themaontologie durch Bestimmen von Worten, die mit einem bestimmten Zielthema zusammenhängen, aus der Ontologie. In einigen Fällen kombiniert das Abweichungsvideoklassifizierungssystem 102 die Worte aus Tutorialtext, den Toolnamen und/oder den Schlüsselworten aus der Themaontologie in einem einzigen Textdokument.
Zusätzlich extrahiert oder bestimmt das Abweichungsvideoklassifizierungssystem 102, wie in 4 dargestellt ist, n-Gramme für das Digitaltextkorpus 406. Insbesondere bestimmt das Abweichungsvideoklassifizierungssystem 102 n-Gramme durch Gruppieren von Worten in verschieden große Gruppen oder Sätze. Das Abweichungsvideoklassifizierungssystem 102 bestimmt beispielsweise 1-Gramme, 2-Gramme und 3-Gramme für alle Worte aus dem Digitaltextkorpus 404 durch Vorhersagen von Wahrscheinlichkeiten von auftauchenden Objekten (Worte) in einer Sequenz mit gegebenen Objekten (beispielsweise Worten), die vorher auftauchten. In einigen Fällen ist ein 1-Gramm ein einzelnes Wort, ist ein 2-Gramm ein Satz aus zwei aufeinanderfolgenden Worten und ist ein 3-Gramm ein Satz aus drei aufeinanderfolgenden Worten.
Wie weiter in 4 dargestellt ist, extrahiert das Abweichungsvideoklassifizierungssystem 102 Korpuseinbettungen 408 für die Worte aus dem Digitaltextkorpus 404. Insbesondere extrahiert das Abweichungsvideoklassifizierungssystem 102 die Korpuseinbettungen 408 aus den n-Grammen für das Digitaltextkorpus 406. Bei einigen Ausführungsformen stellt das Abweichungsvideoklassifizierungssystem 102 die extrahierten n-Gramme mit ihren entsprechenden Worteinbettungen E = [e₁, e₂, ... , e_n]. dar. Das Abweichungsvideoklassifizierungssystem 102 extrahiert die Korpuseinbettungen 408 für alle n-Gramme, also 0 ≤ j ≤ |{1-Gramm}| + |{2 - Gramme}| + |{3 - Gramme}|. Um die Korpuseinbettungen 408 zu generieren, bestimmt das Abweichungsvideoklassifizierungssystem 102 bei einigen Ausführungsformen den Max-Pool der n-Gramme (beispielsweise den Max-Pool der Einbettungen der Worte in jedem der n-Gramme).
Durch Generieren der Korpuseinbettungen 408 aus dem Digitaltextkorpus 402 generiert das Abweichungsvideoklassifizierungssystem 102 eine Referenz für ein Zielthema unter Einsatz von Daten, die bisherige Systemen nicht einsetzen. Bei einigen Ausführungsformen hat das Abweichungsvideoklassifizierungssystem 102 daher eine verbesserte Genauigkeit und eine gesteigerte Funktionalität gegenüber solchen bisherigen Systemen, da es Themaabweichungsklassifizierungen für spezifische Zielthemen, die durch Korpuseinbettungen (beispielsweise die Korpuseinbettungen 408) definiert sind, genauer generiert. Viele bisherige Systeme setzen kein Digitaltextkorpus ein und können eine Themaabweichungsklassifizierung für Digitalvideos im Zusammenhang mit spezifischen Zielthemen nicht genau generieren.
Wie vorstehend erwähnt worden ist, generiert das Abweichungsvideoklassifizierungssystem 102 bei gewissen beschriebenen Ausführungsformen eine Themaabweichungsklassifizierung auf Grundlage eines Vergleiches zwischen den Korpuseinbettungen 408 und den kontextualisierten Merkmalsvektoren 314. Insbesondere vergleicht das Abweichungsvideoklassifizierungssystem 102 die Korpuseinbettungen 408 und die kontextualisierten Merkmalsvektoren 314, um themaspezifische Merkmalsvektoren zu generieren, und setzt ein themaspezifisches Wissen codierendes neuronales Netzwerk ein, um eine Themaabweichungsklassifizierung aus den themaspezifischen Merkmalsvektoren zu generieren. 5 zeigt einen exemplarischen Ablauf zum Generieren einer Themaabweichungsklassifizierung entsprechend einer oder mehreren Ausführungsformen.
Wie in 5 dargestellt ist, führt das Abweichungsvideoklassifizierungssystem 102 einen Vergleich 502 zwischen Korpuseinbettungen (beispielsweise den Korpuseinbettungen 408) und kontextualisierten Merkmalsvektoren (beispielsweise den kontextualisierten Merkmalsvektoren 314) durch. Insbesondere führt das Abweichungsvideoklassifizierungssystem 102 den Vergleich 502 durch Bestimmen von Ähnlichkeitskennwerten durch. In einigen Fällen bestimmt das Abweichungsvideoklassifizierungssystem 102 Ähnlichkeitskennwerte unter Einsatz einer Kosinusähnlichkeitsfunktion (oder unter Einsatz einer anderen Ähnlichkeitsfunktion). Das Abweichungsvideoklassifizierungssystem 102 bestimmt für jeden kontextualisierten Merkmalsvektor in [h] beispielsweise Ähnlichkeitskennwerte für alle Korpuseinbettungen [e]. Zusätzlich vergleicht das Abweichungsvideoklassifizierungssystem 102 die Ähnlichkeitskennwerte mit einer Ähnlichkeitsschwelle, um Ähnlichkeitskennwerte, die die Ähnlichkeitsschwelle erfüllen, zu bestimmen oder zu identifizieren. Für jedes Wort eines Digitalvideos (beispielsweise des Digitalvideos 302) bestimmt das Abweichungsvideoklassifizierungssystem 102 daher mehrere Ähnlichkeitskennwerte für die Korpuseinbettungen [e] und vergleicht die Ähnlichkeitskennwerte mit der Ähnlichkeitsschwelle.
Zusätzlich werden, wie in 5 gezeigt ist, themaspezifische Einbettungen 504 generiert. Insbesondere generiert das Abweichungsvideoklassifizierungssystem 102 die themaspezifischen Einbettungen 504 als Teilsatz der Korpuseinbettungen 408 durch Auswählen von Korpuseinbettungen mit Ähnlichkeitskennwerten, die die Ähnlichkeitsschwelle erfüllen. Das Abweichungsvideoklassifizierungssystem 102 generiert beispielsweise einen Satz von themaspezifischen Einbettungen 504 für jeden der kontextualisierten Merkmalsvektoren [h] durch Auswählen derjenigen Korpuseinbettungen [e], die die Ähnlichkeitsschwelle in Bezug auf einen jeweiligen kontextualisierten Merkmalsvektor erfüllen. Wie gezeigt ist, wählt das Abweichungsvideoklassifizierungssystem 102 die Korpuseinbettungen e₁ und e₂ als themaspezifische Einbettungen für einen kontextualisierten Merkmalsvektor aus und schließt e₃ auf Grundlage des Ähnlichkeitskennwertes hiervon aus oder weist es zurück.
Wie weiter in 5 dargestellt ist, generiert das Abweichungsvideoklassifizierungssystem 102 themaspezifische Wissenspools 506. Insbesondere generiert das Abweichungsvideoklassifizierungssystem 102 einen themaspezifischen Wissenspool / themaspezifische Wissenspools für jeden der kontextualisierten Merkmalsvektoren [h] (oder für jedes der Worte des Digitalvideos 302). In einigen Fällen fungieren die ausgewählten themaspezifischen Einbettungen 504 für ein gegebenes Wort als Wissenspool (beispielsweise für Wissen, das zu einem Zielthema gehört) für das Wort. Bei einer oder mehreren Ausführungsformen bildet das Abweichungsvideoklassifizierungssystem 102 einen Pool des Themawissens für ein Wort folgendermaßen: $P K_{i} = \cup_{j = 0}^{j_{m a x}} {e_{j}} wobei h_{i} ⊙ e_{j} \geq δ$
Hierbei ist PK_i der Wissenspool des i-ten Wortes w_i, ⊙ ist das Hadamard-Produkt, und δ ist die Ähnlichkeitsschwelle dafür, dass ein n-Gramm in dem Wissenspool von w_i beinhaltet ist.
Bei gewissen Implementierungen setzt das Abweichungsvideoklassifizierungssystem 102 zur Darstellung eines themaspezifischen Wissenspools für das Wort w_i eine einem Max-Pooling unterzogene Darstellung hiervon ein, die folgendermaßen gegeben ist: $e_{i}^{P K} = M P (e_{1}, e_{2}, \dots, e_{| P K_{i} |})$
Hierbei bezeichnet $e_{i}^{P K}$
einen einem Max-Pooling unterzogenen themaspezifischen Wissenspool (der themaspezifischen Einbettungen 504, die aus den Korpuseinbettungen 408 ausgewählt sind) für w_i, während MP eine Max-Pooling-Funktion darstellt.
Wie weiter in 5 dargestellt ist, generiert das Abweichungsvideoklassifizierungssystem 102 themaspezifische Merkmalsvektoren 510 aus den themaspezifischen Wissenspools 506. Das Abweichungsvideoklassifizierungssystem 102 setzt beispielsweise ein LSTM 508 ein, um die themaspezifischen Merkmalsvektoren 510 zu generieren, indem die themaspezifischen Wissenspools 506 analysiert und die verborgenen Zustände des LSTM 508 bei jedem Zeitschritt bestimmt werden. Bei einigen Ausführungsformen ist das LSTM 508 ein eine Schicht aufweisendes LSTM, das die themaspezifischen Merkmalsvektoren 510, die als K = [k₁, k₂, ..., k_n] dargestellt werden, aus den themaspezifischen Wissenspools 506, die als $E^{P K} = [e_{i}^{P K}]$
dargestellt werden, generiert. Bei gewissen Implementierungen ist das LSTM 508 ein mehrere Schichten aufweisendes und/oder bidirektionales LSTM. Durch Einsetzen des LSTM 508 zum Generieren oder Extrahieren der themaspezifischen Merkmalsvektoren 510 codiert oder integriert das Abweichungsvideoklassifizierungssystem 102 sequenzielle Information (beispielsweise die sequenzielle Reihenfolge) des themaspezifischen Wissens, das zu jedem Wort gehört (wenn das Wort beispielsweise an seinem Platz innerhalb des Digitalvideos 302 auftaucht).
Zusätzlich generiert das Abweichungsvideoklassifizierungssystem 102, wie in 5 gezeigt ist, verkettete Merkmalsvektoren 512 aus den themaspezifischen Merkmalsvektoren 510. Insbesondere kombiniert das Abweichungsvideoklassifizierungssystem 102 (beispielsweise durch Verkettung, Hinzufügung bzw. Addition, Vervielfältigung bzw. Multiplikation) die themaspezifischen Merkmalsvektoren [k] mit den kontextualisierten Merkmalsvektoren [h] (beispielsweise den kontextualisierten Merkmalsvektoren 314).
Wie in 5 gezeigt ist, setzt das Abweichungsvideoklassifizierungssystem 102 des Weiteren eine Themaabweichungsklassifizierungsschicht 514 eines themaspezifisches Wissen codierenden neuronalen Netzwerkes ein, um eine Themaabweichungsklassifizierung 522 aus den verketteten Merkmalsvektoren 512 zu generieren. Insbesondere setzt das Abweichungsvideoklassifizierungssystem 102 eine Feedforward-Schicht 516 (beispielsweise eine zwei Schichten aufweisende Feedforward-Schicht) der Themaabweichungsklassifizierungsschicht 514 ein, um Wortmerkmalsvektoren 518 aus den verketteten Merkmalsvektoren 512 zu generieren. Bei einigen Ausführungsformen generiert das Abweichungsvideoklassifizierungssystem 102 Wortmerkmalsvektoren für die Worte des Digitalvideos 302, die als V = [v₁, v₂, ..., v_n]. dargestellt werden. Das Abweichungsvideoklassifizierungssystem 102 setzt die Feedforward-Schicht 516 beispielsweise ein, um die Wortmerkmalsvektoren 518 folgendermaßen zu generieren: $v_{i} = F F ([h_{i} : k_{i}])$
Hierbei bezeichnet FF die Feedforward-Schicht 516, h_i bezeichnet den kontextualisierten Merkmalsvektor des Wortes w_i, k_i bezeichnet den themaspezifischen Merkmalsvektor des Wortes w_i, und „:“ bezeichnet eine Verkettungsfunktion (oder einen anderen Typ von Kombination).
Bei einer oder mehreren Ausführungsformen nimmt das Abweichungsvideoklassifizierungssystem 102 des Weiteren ein Max-Pooling an den Wortmerkmalsvektoren 518 vor und setzt eine weitere Feedforward-Schicht 520 ein, um die Themaabweichungsklassifizierung 522 aus der dem Max-Pooling unterzogenen Darstellung der Wortmerkmalsvektoren 518 zu generieren. Das Abweichungsvideoklassifizierungssystem 102 generiert die Themaabweichungsklassifizierung 522 beispielsweise in Form einer Wahrscheinlichkeitsverteilung, die folgendermaßen gegeben ist: $P (\cdot | D) = F F (M P (v_{1}, v_{2}, \dots, v_{n}))$
Hierbei ist P eine Wahrscheinlichkeitsverteilung, FF ist die Feedforward-Schicht 520, und MP ist eine Max-Pooling-Funktion. Daher generiert das Abweichungsvideoklassifizierungssystem 102 eine Themaabweichungsklassifizierung 522, die Wahrscheinlichkeiten (die über die Wortmerkmalsvektoren 518 verteilt sind) der Themaabweichung (oder des thematischen Passendseins) angibt.
Wie beschrieben worden ist, generiert das Abweichungsvideoklassifizierungssystem 102 eine Themaabweichungsklassifizierung 522, die angibt, ob das Digitalvideo 302 von dem Zielthema abweicht oder zu dem Zielthema passt. In einigen Fällen generiert das Abweichungsvideoklassifizierungssystem 102 die Themaabweichungsklassifizierung 522 als Gesamtwahrscheinlichkeit (die beispielsweise über die Wortmerkmalsvektoren 518 kombiniert oder gemittelt ist) dafür, dass das Digitalvideo 302 thematisch abweichend ist. Bei gewissen Ausführungsformen vergleicht das Abweichungsvideoklassifizierungssystem 102 die Wahrscheinlichkeit der Themaabweichung des Weiteren mit einer Themaabweichungsschwelle (von beispielsweise 0,7) und gibt dasjenige, dass das Digitalvideo 302 thematisch abweichend ist, nur dann an, wenn die Wahrscheinlichkeit die Themaabweichungsschwelle erfüllt. Andernfalls bestimmt das Abweichungsvideoklassifizierungssystem 102, dass das Digitalvideo 302 thematisch passend ist.
In einigen Fällen setzt das Abweichungsvideoklassifizierungssystem 102 des Weiteren (oder alternativ) eine Themapassschwelle (von beispielsweise 0,3) ein und bestimmt dasjenige, dass das Digitalvideo 302 thematisch passend ist, nur dann, wenn die Wahrscheinlichkeit der Themaabweichung unter 30% oder 0,3 ist. Weist in diesen oder anderen Fällen das Digitalvideo 302 eine Themaabweichungswahrscheinlichkeit zwischen den zwei Schwellen (beispielsweise zwischen 0,3 und 0,7) auf, so bestimmt das Abweichungsvideoklassifizierungssystem 102, dass das Digitalvideo sowohl teilweise thematisch abweichend wie auch teilweise thematisch passend ist. Bei einigen Ausführungsformen bestimmt das Abweichungsvideoklassifizierungssystem 102 einen Anteil des Digitalvideos 302, der thematisch abweichend ist, und einen Anteil, der thematisch passend ist, entsprechend der Wahrscheinlichkeitsverteilung über die Wortmerkmalsvektoren 518.
Bei einigen Implementierungen analysiert das Abweichungsvideoklassifizierungssystem 102 ein Digitalvideo (beispielsweise das Digitalvideo 302) und klassifiziert verschiedene Abschnitte des Digitalvideos verschieden. Darstellungshalber kann das Abweichungsvideoklassifizierungssystem 102 bestimmen, dass ein erster Abschnitt eines einzelnen Digitalvideos thematisch abweichend und ein zweiter Abschnitt des Digitalvideos thematisch passend ist. In gewissen Fällen bezeichnet das Abweichungsvideoklassifizierungssystem 102 thematisch abweichende Abschnitte und thematisch passende Abschnitte durch Bereitstellen von Zeitmarken, die angeben, welche Segmente oder Abschnitte thematisch abweichend und welche thematisch passend sind.
Bei einer oder mehreren Ausführungsformen stellt das Abweichungsvideoklassifizierungssystem 102 eine Mitteilung über die Themaabweichungsklassifizierung 522 für das Digitalvideo 302 bereit. Die Mitteilung kann die Form einer binären Angabe (beispielsweise „thematisch abweichend“ oder „thematisch passend“) annehmen, kann eine nummerische Darstellung der Wahrscheinlichkeit dafür, dass das Digitalvideo 302 thematisch abweichend ist, beinhalten oder kann eine nummerische Darstellung eines Anteils oder Prozentanteils des Digitalvideos 302 dahingehend, dass dieses als thematisch abweichend bestimmt worden ist, (beispielsweise entsprechend der Wahrscheinlichkeitsverteilung über die Wortmerkmalsvektoren 518) beinhalten.
Wie vorstehend erwähnt worden ist, setzt das Abweichungsvideoklassifizierungssystem 102 bei gewissen beschriebenen Ausführungsformen ein themaspezifisches Wissen codierendes neuronales Netzwerk ein, um eine Themaabweichungsklassifizierung für ein Digitalvideo zu generieren. Insbesondere setzt das Abweichungsvideoklassifizierungssystem 102 ein themaspezifisches Wissen codierendes neuronales Netzwerk ein, das eine bestimmte Struktur oder Netzwerkarchitektur aufweist. 6 zeigt eine exemplarische Struktur eines themaspezifisches Wissen codierenden neuronalen Netzwerkes entsprechend einer oder mehreren Ausführungsformen.
Wie in 6 dargestellt ist, nimmt das themaspezifisches Wissen codierende neuronale Netzwerk 602 Worteinbettungen 604 (beispielsweise die Worteinbettungen 310) an und setzt eine LSTM-Schicht 606 (beispielsweise das LSTM 312) ein, um kontextualisierte Merkmalsvektoren 608 (beispielsweise die kontextualisierten Merkmalsvektoren 314) aus den Worteinbettungen 604 zu generieren. Das themaspezifisches Wissen codierende neuronale Netzwerk 602 bestimmt verborgene Zustände der LSTM-Schicht 606 zur Nutzung als kontextualisierte Merkmalsvektoren 608.
Zusätzlich generiert das Abweichungsvideoklassifizierungssystem 102 themaspezifische Wissenspools 610 (beispielsweise die themaspezifischen Wissenspools 506) auf Grundlage eines Vergleiches der kontextualisierten Merkmalsvektoren 608 mit Korpuseinbettungen (beispielsweise den Korpuseinbettungen 408) aus einem Digitaltextkorpus. Des Weiteren setzt das Abweichungsvideoklassifizierungssystem 102 eine zweite LSTM-Schicht 612 (beispielsweise das LSTM 508) ein, um themaspezifische Merkmalsvektoren 614 (beispielsweise die themaspezifischen Merkmalsvektoren 510) aus den themaspezifischen Wissenspools 610 zu generieren.
Zusätzlich generiert das Abweichungsvideoklassifizierungssystem 102 verkettete Merkmalsvektoren 616 (beispielsweise die verketteten Merkmalsvektoren 512) aus den themaspezifischen Merkmalsvektoren 614 und entsprechenden kontextualisierten Merkmalsvektoren (beispielsweise den kontextualisierten Merkmalsvektoren 314). Wie gezeigt ist, beinhaltet das themaspezifisches Wissen codierende neuronale Netzwerk 602 des Weiteren eine Themaabweichungsklassifizierungsschicht 618. Das Abweichungsvideoklassifizierungssystem 102 setzt die Themaabweichungsklassifizierungsschicht 618 des themaspezifisches Wissen codierenden neuronalen Netzwerkes 602 ein, um eine Themaabweichungsklassifizierung 624 (beispielsweise die Themaabweichungsklassifizierung 522) zu generieren.
Bei einigen Ausführungsformen setzt das Abweichungsvideoklassifizierungssystem 102 eine erste Feedforward-Schicht 620 (beispielsweise die Feedforward-Schicht 516) und eine zweite Feedforward-Schicht 622 (beispielsweise die Feedforward-Schicht 520) der Themaabweichungsklassifizierungsschicht 618 ein, um die Themaabweichungsklassifizierung 624 zu generieren. Wie anhand 5 beschrieben wird, setzt das Abweichungsvideoklassifizierungssystem 102 die erste Feedforward-Schicht 620 ein, um Wortmerkmalsvektoren zu generieren, und setzt die zweite Feedforward-Schicht ein, um die Themaabweichungsklassifizierung 624 aus den Wortmerkmalsvektoren zu generieren. 6 zeigt eine bestimmte Architektur für das themaspezifisches Wissen codierende neuronale Netzwerk 602, obwohl auch andere Architekturen möglich sind. Die LSTM-Schichten und/oder die Feedforward-Schichten können bei verschiedenen Ausführungsformen beispielsweise verschiedene Anzahlen von Schichten oder Neuronen aufweisen
Wie vorstehend erwähnt worden ist, lernt das Abweichungsvideoklassifizierungssystem 102 bei gewissen beschriebenen Ausführungsformen Parameter für das themaspezifisches Wissen codierende neuronale Netzwerk 602 über einen Trainings- oder Einstellprozess. Insbesondere setzt das Abweichungsvideoklassifizierungssystem 102 einen iterativen Trainingsprozess ein, um Vorhersagen zu generieren, diese Vorhersagen mit Ground-Truth-Daten zu vergleichen und eine Rückführung (backpropagation) vorzunehmen, um interne Parameter (beispielsweise Gewichtungen und Tendenzen (biases)) des themaspezifisches Wissen codierenden neuronalen Netzwerkes 602 zur Verbesserung von dessen Genauigkeit zu modifizieren. Bei einigen Ausführungsformen setzt das Abweichungsvideoklassifizierungssystem 102 spezialisierte Trainingsdaten ein, um Parameter für das themaspezifisches Wissen codierende neuronale Netzwerk 602 zu lernen, darunter synthetische Transkripte und/oder hybride Transkripte von Digitalvideos. 7 zeigt eine exemplarische Abfolge von Handlungen, die das Abweichungsvideoklassifizierungssystem 102 vornimmt, um Parameter des themaspezifisches Wissen codierenden neuronalen Netzwerkes 602 unter Einsatz von synthetischen Transkripten und hybriden Transkripten zu lernen, entsprechend einer oder mehreren Ausführungsformen.
Wie in 7 dargestellt ist, führt das Abweichungsvideoklassifizierungssystem 102 eine Handlung 702 durch, bei der synthetische Transkripte generiert werden. Insbesondere generiert das Abweichungsvideoklassifizierungssystem 102 synthetische Digitalvideotranskripte unter Einsatz eines generativen Sprachmodells 703. Das Abweichungsvideoklassifizierungssystem 102 generiert beispielsweise synthetische Transkripte, die tatsächlich nicht aus beliebigen Digitalvideos stammen, sondern mittels des generativen Sprachmodells 708 derart erzeugt worden sind, dass sie einem Transkript aus einem thematisch abweichenden Digitalvideo ähneln. Das Abweichungsvideoklassifizierungssystem 102 setzt das generative Sprachmodell 703 beispielsweise ein, um das synthetische Transkript 704 zu generieren, das die Worte „Heute sieht's nach Regen aus ...“ („Today looks rainy ...“) beinhaltet. Ein synthetisches Transkript bezeichnet bisweilen ein künstlich generiertes Digitalvideotranskript, das thematisch abweichend (oder thematisch passend) ist. Zusätzlich bezeichnet ein generatives Sprachmodell bisweilen ein maschinell lernendes Modell (beispielsweise ein neuronales Netzwerk), so beispielsweise das Modell „Generative Pretrained Transformer-2 („GPT-2“), das vorab trainiert worden ist, um thematisch abweichende Transkripte zu generieren. Zusätzliche Details im Zusammenhang mit dem Generieren von synthetischen Transkripten und dem Vorabtrainieren des generativen Sprachmodells 703 sind nachstehend im Zusammenhang mit den nachfolgenden Figuren angegeben.
Wie weiter in 7 dargestellt ist, führt das Abweichungsvideoklassifizierungssystem 102 eine Handlung 706 durch, bei der hybride Transkripte generiert werden. Insbesondere generiert das Abweichungsvideoklassifizierungssystem 102 hybride Digitalvideotranskripte, die Sätze aus thematisch abweichenden Transkripten und Sätze aus thematisch passenden Transkripten beinhalten. Wie gezeigt ist, generiert das Abweichungsvideoklassifizierungssystem 102 das hybride Transkript 709 aus dem thematisch passenden Transkript 707 und dem thematisch abweichenden Transkript 708. Insbesondere kombiniert das Abweichungsvideoklassifizierungssystem 102 das thematisch passende Transkript 707 (Abschnitte hiervon) mit dem thematisch abweichenden Transkript 708 (Abschnitte hiervon). Das Abweichungsvideoklassifizierungssystem 102 ersetzt einen Prozentanteil der Sätze innerhalb des thematisch abweichenden Transkripts 708 durch Sätze aus dem thematisch passenden Transkript 707 (oder umgekehrt). Wie gezeigt ist, beinhaltet das hybride Transkript 709 einen Satz aus jedem von dem thematisch passenden Transkript 707 („Dieses Tutorial ist für ...“ bzw. „This tutorial is for ...“) und dem thematisch abweichenden Transkript 708 („Geleebohnen schmecken gut“ bzw. „Jelly beans are tasty“). Zusätzliche Details im Zusammenhang mit dem Generieren von hybriden Transkripten werden nachstehend im Zusammenhang mit den nachfolgenden Figuren angegeben.
Wie ebenfalls in 7 dargestellt ist, führt das Abweichungsvideoklassifizierungssystem 102 eine Handlung 710 durch, bei der Parameter für ein themaspezifisches Wissen codierendes neuronales Netzwerk gelernt werden. Insbesondere setzt das Abweichungsvideoklassifizierungssystem 102 das synthetische Transkript 704 (und andere synthetische Transkripte) und das hybride Transkript 709 (und andere hybride Transkripte) ein, um Parameter für das themaspezifisches Wissen codierende neuronale Netzwerk 711 (beispielsweise das themaspezifisches Wissen codierende neuronale Netzwerk 602) zu lernen.
Das Abweichungsvideoklassifizierungssystem 102 setzt das themaspezifisches Wissen codierende neuronale Netzwerk 711 beispielsweise ein, um eine vorhergesagte Themaabweichungsklassifizierung für das synthetische Transkript 704 zu generieren. Das Abweichungsvideoklassifizierungssystem 102 vergleicht die vorhergesagte Themaabweichungsklassifizierung mit einer Ground-Truth-Themaabweichungsklassifizierung (beispielsweise einer Angabe dahingehend, dass das synthetische Transkript thematisch abweichend ist) unter Einsatz einer synthetischen Verlustfunktion. Das Abweichungsvideoklassifizierungssystem 102 nimmt des Weiteren eine Rückführung (backpropagation) vor, um Parameter (beispielsweise Gewichtungen und Tendenzen (biases)) des themaspezifisches Wissen codierenden neuronalen Netzwerkes 711 zu modifizieren, damit das Maß für den Verlust verringert und die Genauigkeit verbessert wird. Das Abweichungsvideoklassifizierungssystem 102 wiederholt den vorerwähnten iterativen Prozess für eine Anzahl von Iterationen oder Epochen, bis ein Schwellenmaß für den Verlust (oder eine Schwellengenauigkeit) erfüllt ist, also bis beispielsweise die vorhergesagte Themaabweichungsklassifizierung innerhalb eines Schwellenverlustes der Ground-Truth-Themaabweichungsklassifizierung ist.
Zusätzlich oder alternativ lernt das Abweichungsvideoklassifizierungssystem 102 Parameter unter Einsatz des hybriden Transkripts 709. Das Abweichungsvideoklassifizierungssystem 102 setzt beispielsweise denselben iterativen Prozess wie oben ein, und zwar durch: (i) Generieren einer vorhergesagten Themaabweichungsklassifizierung aus dem hybriden Transkript 709 unter Einsatz des themaspezifisches Wissen codierenden neuronalen Netzwerkes 711, (ii) Vergleichen der vorhergesagten Themaabweichungsklassifizierung mit einer Ground-Truth-Themaabweichungsklassifizierung, die für das hybride Transkript bekannt ist, (beispielsweise einer nichtbinären Angabe eines Prozentanteiles von thematisch abweichenden Sätzen, die durch thematisch passende Sätze ersetzt worden sind) unter Einsatz einer hybriden Verlustfunktion, und (iii) Rückverfolgen (backpropagation), um Parameter des themaspezifisches Wissen codierenden neuronalen Netzwerkes 711 zu modifizieren, um wiederum eine Anpassung dahingehend zu erreichen, wie das themaspezifisches Wissen codierende neuronale Netzwerk 711 Daten zur Verringerung des Maßes für den Verlust weiterleitet und verarbeitet. Das Abweichungsvideoklassifizierungssystem 102 wiederholt den Prozess für eine vorbestimmte Zeit (oder eine Anzahl von Iterationen) oder bis das Maß für den Verlust zwischen der vorhergesagten Themaabweichungsklassifizierung und der Ground-Truth-Themaabweichungsklassifizierung ein Schwellenmaß für den Verlust erfüllt.
Wie erwähnt worden ist, generiert das Abweichungsvideoklassifizierungssystem 102 bei gewissen beschriebenen Ausführungsformen synthetische Transkripte. Insbesondere generiert das Abweichungsvideoklassifizierungssystem 102 synthetische Transkripte, die zum Lernen von Parametern für ein themaspezifisches Wissen codierendes neuronales Netzwerk benutzt werden. 8 zeigt ein Beispiel für das Generieren eines synthetischen Transkripts entsprechend einer oder mehreren Ausführungsformen.
Wie in 8 dargestellt ist, generiert das Abweichungsvideoklassifizierungssystem 102 ein synthetisches Transkript 802. Insbesondere setzt das Abweichungsvideoklassifizierungssystem 102 ein generatives Sprachmodell (beispielsweise das generative Sprachmodell 703) ein, um das synthetische Transkript 802 zu generieren. Das Abweichungsvideoklassifizierungssystem 102 setzt das generative Sprachmodell beispielsweise ein, um einschlägige Worte bei jedem Zeitschritt (beispielsweise t₁, t₂, ..., t_n) eines Digitalvideos (oder des synthetischen Transkripts 802) vorherzusagen. In einigen Fällen generiert das Abweichungsvideoklassifizierungssystem 102 Vorhersagen für die Worte bei jeweiligen Zeitschritten auf Grundlage von vorherigen Worten (beispielsweise Worte, die zuvor vorhergesagt worden waren).
Um vorhergesagte Worte bei den verschiedenen Zeitschritten zu generieren, trainiert das Abweichungsvideoklassifizierungssystem 102 bei gewissen beschriebenen Ausführungsformen ein generatives Sprachmodell (beispielsweise das generative Sprachmodell 703) vorab. Das Abweichungsvideoklassifizierungssystem 102 trainiert ein generatives Sprachmodell vorab, um synthetische Transkripte, die thematisch abweichenden Transkripten ähneln, genau zu generieren. Das Abweichungsvideoklassifizierungssystem 102 setzt insbesondere eine Objektivfunktion ein, um die Parameter des generativen Sprachmodells einzustellen. Das Abweichungsvideoklassifizierungssystem 102 generiert beispielsweise eine Vorhersage des i-ten Wortes des synthetischen Transkripts 802 auf Grundlage der (i—1)-ten Worte, die vorangegangen sind. Bei einigen Ausführungsformen trainiert das Abweichungsvideoklassifizierungssystem 102 das generative Sprachmodell entsprechend der nachfolgenden Objektivfunktion: $L_{L M} = - \sum_{i = 0}^{| D |} log (P (w_{i} | D_{1 : i - 1}, θ))$
Hierbei bezeichnet D das synthetische Transkript 802, D_1:i-1, bezeichnet die Worte von D vom Anfang bis zu dem (i-1)-ten Wort, und θ bezeichnet die Parameter des generativen Sprachmodells.
Bei einigen Ausführungsformen erweitert das Abweichungsvideoklassifizierungssystem 102 das synthetische Transkript 802 (D) durch zwei spezielle Tokens, nämlich <BOS> am Anfang und <EOS> am Ende. Das Abweichungsvideoklassifizierungssystem 102 beginnt das synthetische Transkript 802 beispielsweise mit dem <BOS>-Token und bestimmt Wahrscheinlichkeiten für Worte bei jedem Zeitschritt t durch das synthetische Transkript 802 hindurch. Das Abweichungsvideoklassifizierungssystem 102 generiert für jeden Zeitschritt eine Wahrscheinlichkeit dafür, dass ein bestimmtes Wort bei einem bestimmten Zeitschritt innerhalb des synthetischen Transkripts 802 einschlägig ist. Bei einigen Ausführungsformen bestimmt das Abweichungsvideoklassifizierungssystem 102 die Wahrscheinlichkeiten für Worte bei Zeitschritten folgendermaßen: $P (\cdot | D_{1 : t - 1}^{'}, θ)$
Hierbei bezeichnet $D_{1 : t - 1}^{'}$
die Worte durch die Zeitschritte t bis t - 1. Das Abweichungsvideoklassifizierungssystem 102 wählt des Weiteren das Wort mit der höchsten Wahrscheinlichkeit für jeden jeweiligen Zeitschritt in dem synthetischen Transkript 802 aus.
Wie gezeigt ist, generiert das Abweichungsvideoklassifizierungssystem 102 ein vorhergesagtes Wort für den Zeitschritt t₄ auf Grundlage der Worte bei den vorherigen Zeitschritten t₁ bis t₃. Das Abweichungsvideoklassifizierungssystem 102 generiert Wahrscheinlichkeiten für verschiedene Worte wie „glücklich“ („happy“), „draußen“ („outside“) und „da“ („since“). Wie dargestellt ist, wählt das Abweichungsvideoklassifizierungssystem 102 das Wort „draußen“ für t₄, da es die höchste Wahrscheinlichkeit von 86% im Vergleich zu 4% und 10% für die anderen beiden Worte aufweist.
Das Abweichungsvideoklassifizierungssystem 102 fährt mit dem Generieren von vorhergesagten Worten für das synthetische Transkript 802 fort, bis ein Beendigungskriterium erfüllt ist. Das Abweichungsvideoklassifizierungssystem 102 fährt mit dem Generieren von vorhergesagten Worten beispielsweise fort, bis das Stopp-Token <EOS> hinzugefügt oder detektiert wird. Bei einem anderen Beispiel fährt das Abweichungsvideoklassifizierungssystem 102 mit dem Hinzufügen von Worten fort, bis das synthetische Transkript 802 eine maximale Länge oder eine Schwellenlänge (beispielsweise eine Schwellenanzahl von Worten) erreicht.
Wie vorstehend erwähnt worden ist, generiert das Abweichungsvideoklassifizierungssystem 102 bei einigen Ausführungsformen einen modifizierten Datensatz zum Trainieren eines themaspezifisches Wissen codierenden neuronalen Netzwerkes auf Grundlage von synthetischen Transkripten. Insbesondere modifiziert das Abweichungsvideoklassifizierungssystem 102 einen anfänglichen Datensatz (beispielsweise den Datensatz Behance®), damit dieser synthetische Transkripte aufnimmt, die zum Lernen von Parametern eines themaspezifisches Wissen codierenden neuronalen Netzwerkes benutzt werden. 9A und 9B zeigen einen exemplarischen Prozess, den das Abweichungsvideoklassifizierungssystem 102 durchführt, um einen modifizierten Datensatz, der synthetische Transkripte beinhaltet, zu generieren, entsprechend einer oder mehreren Ausführungsformen.
Wie in 9A dargestellt ist, greift das Abweichungsvideoklassifizierungssystem 102 auf einen ursprünglichen Datensatz 902 zu. Insbesondere identifiziert oder bestimmt das Abweichungsvideoklassifizierungssystem 102 einen ursprünglichen Datensatz 902, der gespeicherte Digitalvideos beinhaltet, die als thematisch abweichend und thematisch passend etikettiert worden sind. Bei einigen Ausführungsformen beinhaltet der ursprüngliche Datensatz 902 eine vergleichsweise kleine Anzahl von thematisch abweichenden Digitalvideos (oder thematisch abweichenden Transkripten), wobei der ursprüngliche Datensatz 902 (als Ergebnis einer Tendenz (bias)) bei einem robusten Training eines themaspezifisches Wissen codierenden neuronalen Netzwerkes letztendlich nicht effektiv ist. Das Abweichungsvideoklassifizierungssystem 102 trainiert jedoch ein themaspezifisches Wissen codierendes neuronales Netzwerk 904a (beispielsweise das themaspezifisches Wissen codierende neuronale Netzwerk 602) auf Grundlage des ursprünglichen Datensatzes 902 vorab, um eine Baseline für eine Bestimmung dessen zu erhalten, welche synthetischen Transkripte in einen modifizierten Datensatz (beispielsweise den modifizierten Datensatz 918 von 9B) aufgenommen werden sollen. Sodann lernt das Abweichungsvideoklassifizierungssystem 102 unter Einsatz des modifizierten Datensatzes 918 erneut Parameter für das themaspezifisches Wissen codierende neuronale Netzwerk 904a.
Darstellungshalber trainiert das Abweichungsvideoklassifizierungssystem 102 zu Beginn das themaspezifisches Wissen codierende neuronale Netzwerk 904a vorab unter Einsatz des ursprünglichen Datensatzes 902. Insbesondere wählt das Abweichungsvideoklassifizierungssystem 102 ein Digitalvideo (oder ein Transkript) aus dem ursprünglichen Datensatz 902 aus und setzt das themaspezifisches Wissen codierende neuronale Netzwerk 904a ein, um eine vorhergesagte Themaabweichungsklassifizierung 906 für das ausgewählte Digitalvideo zu generieren. Das Abweichungsvideoklassifizierungssystem 102 generiert die vorhergesagte Themaabweichungsklassifizierung 906 beispielsweise für ein thematisch abweichendes Video (oder ein thematisch abweichendes Transkript).
Zusätzlich führt das Abweichungsvideoklassifizierungssystem 102 einen Vergleich 910 der vorhergesagten Themaabweichungsklassifizierung 906 und einer Ground-Truth-Themaabweichungsklassifizierung 908 durch. Das Abweichungsvideoklassifizierungssystem 102 greift auf die Ground-Truth-Themaabweichungsklassifizierung 908 entsprechend dem ausgewählten Digitalvideo aus dem ursprünglichen Datensatz 902 zu oder identifiziert diese. Zur Durchführung des Vergleichs 910 setzt das Abweichungsvideoklassifizierungssystem 102 eine Verlustfunktion, so beispielsweise eine Verlustfunktion mit Kreuzentropie oder eine Verlustfunktion mit Log-Likelihood, ein. Das Abweichungsvideoklassifizierungssystem 102 setzt beispielsweise eine Verlustfunktion folgender Form ein: $L_{p r e d} = - log (P (l | D))$
Hierbei ist l die Ground-Truth-Themaabweichungsklassifizierung 908, und D ist das ausgewählte Digitalvideo oder das ausgewählte Transkript.
Auf Grundlage des Vergleiches (beispielsweise auf Grundlage eines Maßes für den Verlust zwischen der vorhergesagten Themaabweichungsklassifizierung 906 und der Ground-Truth-Themaabweichungsklassifizierung 908) führt das Abweichungsvideoklassifizierungssystem 102 des Weiteren eine Rückführung (backpropagation) 912 durch. Das Abweichungsvideoklassifizierungssystem 102 nimmt eine Rückführung (backpropagation) vor, um Parameter des themaspezifisches Wissen codierenden neuronalen Netzwerkes 904a zu modifizieren, so beispielsweise interne Gewichtungen und Parameter, die Auswirkungen darauf haben, wie die verschiedenen Schichten und Neuronen Daten analysieren und weiterleiten. Das Abweichungsvideoklassifizierungssystem 102 modifiziert beispielsweise Parameter, um das Maß für den Verlust, das sich aus dem Vergleich 910 ergibt, zu verringern. Das Abweichungsvideoklassifizierungssystem 102 wiederholt zudem den Prozess des Vorabtrainierens des themaspezifisches Wissen codierenden neuronalen Netzwerkes 904a an dem ursprünglichen Datensatz 902, bis das Maß für den Verlust einen Schwellenverlust (oder eine Schwellenanzahl von Iterationen) erfüllt.
Sobald das themaspezifisches Wissen codierende neuronale Netzwerk 904a mit Parametern, die zu genauen Vorhersagen führen, trainiert worden ist, setzt das Abweichungsvideoklassifizierungssystem 102 das vorab trainierte themaspezifisches Wissen codierende neuronale Netzwerk 904b ein, um synthetische Transkripte zu identifizieren oder auszuwählen, damit diese in einen modifizierten Datensatz 918 aufgenommen werden. Wie in 9B dargestellt ist, greift das Abweichungsvideoklassifizierungssystem 102 auf mehrere synthetische Transkripte 914 (die beispielsweise gemäß der Beschreibung anhand 8 generiert worden sind) zu oder identifiziert diese und wählt einen Teilsatz der synthetischen Transkripte 914 aus, damit dieser in den modifizierten Datensatz 918 zum letztendlich erfolgenden Trainieren (oder Neutrainieren) des themaspezifisches Wissen codierenden neuronalen Netzwerkes 904a aufgenommen wird.
Insbesondere setzt das Abweichungsvideoklassifizierungssystem 102 das vorab trainierte themaspezifisches Wissen codierende neuronale Netzwerk 904b (das beispielsweise gemäß der Beschreibung anhand 9A vorab trainiert worden ist) ein, um vorhergesagte Themaabweichungsklassifizierungen für die mehreren synthetischen Transkripte 914 zu generieren. Zusätzlich wählt das Abweichungsvideoklassifizierungssystem 102 unter den mehreren synthetischen Transkripten 914 synthetische Transkripte aus, die als thematisch abweichend, siehe 916, vorhergesagt worden sind, damit diese in den modifizierten Datensatz 918 aufgenommen werden. In einigen Fällen sondert oder schließt das Abweichungsvideoklassifizierungssystem 102 synthetische Transkripte, die nicht als thematisch abweichend klassifiziert worden sind (beispielsweise synthetische Transkripte, die als thematisch passend klassifiziert worden sind) aus dem modifizierten Datensatz 918 aus. Das Abweichungsvideoklassifizierungssystem 102 fügt beispielsweise nur diejenigen synthetischen Transkripte, die als thematisch abweichend klassifiziert worden sind, zu dem modifizierten Datensatz 918 hinzu. Das Abweichungsvideoklassifizierungssystem 102 kann diese thematisch abweichenden synthetischen Transkripte aus dem modifizierten Datensatz 918 sodann einsetzen, um ein themaspezifisches Wissen codierendes neuronales Netzwerk zu trainieren (um beispielsweise das themaspezifisches Wissen codierende neuronale Netzwerk 904b weiter zu trainieren).
Wie erwähnt worden ist, generiert das Abweichungsvideoklassifizierungssystem 102 bei gewissen beschriebenen Ausführungsformen hybride Transkripte (beispielsweise das hybride Transkript 709) zur Nutzung beim Lernen von Parametern eines themaspezifisches Wissen codierenden neuronalen Netzwerkes. Insbesondere generiert das Abweichungsvideoklassifizierungssystem 102 ein hybrides Transkript durch Kombinieren eines thematisch abweichenden Transkripts und eines thematisch passenden Transkripts. 10 zeigt das Generieren eines hybriden Transkripts entsprechend einer oder mehreren Ausführungsformen. Durch das beschreibungsgemäße Einsetzen von hybriden Transkripten innerhalb eines Trainingsdatensatzes verbessert das Abweichungsvideoklassifizierungssystem 102 die Fähigkeit zur Verallgemeinerung bzw. Generalisierung und die Robustheit eines themaspezifisches Wissen codierenden neuronalen Netzwerkes.
Wie in 10 dargestellt ist, kombiniert das Abweichungsvideoklassifizierungssystem 102 ein thematisch abweichendes Transkript 1002 und ein thematisch passendes Transkript 1004 miteinander, um eine hybrides Transkript 1006 zu generieren. Insbesondere bestimmt das Abweichungsvideoklassifizierungssystem 102 eine Anzahl, einen Anteil oder einen Prozentanteil von Sätzen eines thematisch abweichenden Transkripts, die durch Sätze aus einem thematisch passenden Transkript ersetzt werden sollen. Das Abweichungsvideoklassifizierungssystem 102 wählt beispielsweise gleichmäßig eine Zufallszahl p aus [0, 1] aus und entfernt p Prozent der Sätze aus dem thematisch abweichenden Transkript 1002, um sie durch Sätze zu ersetzen, die zufällig aus dem thematisch passenden Transkript 1004 ausgewählt worden sind.
Wie gezeigt ist, wählt das Abweichungsvideoklassifizierungssystem 102 den Satz 1005 aus, um einen Satz in dem thematisch abweichenden Transkript 1002 zu ersetzen. Insbesondere ersetzt das Abweichungsvideoklassifizierungssystem 102 den zweiten Satz aus dem thematisch abweichenden Transkript 1002 („thematisch abweichender Satz 2“) durch den Satz 1005 aus dem thematisch passenden Transkript 1004 („thematisch passender Satz 2.“). In einigen Fällen ersetzt das Abweichungsvideoklassifizierungssystem 102 andere Abschnitte von Transkripten, so beispielsweise einzelne Worte, Absätze oder andere Textsegmente. Wie gezeigt ist, beinhaltet das hybride Transkript 1006 den ersten Satz und den dritten Satz aus dem thematisch abweichenden Transkript 1002 und nimmt den zweiten Satz aus dem thematisch passenden Transkript 1004 auf.
Wie vorstehend erwähnt worden ist, setzt das Abweichungsvideoklassifizierungssystem 102 bei einigen Ausführungsformen einen modifizierten Datensatz (beispielsweise den modifizierten Datensatz 918) ein, um Parameter für ein themaspezifisches Wissen codierendes neuronales Netzwerk (beispielsweise das themaspezifisches Wissen codierende neuronale Netzwerk 904a oder 602) zu lernen. Das Abweichungsvideoklassifizierungssystem 102 generiert beispielsweise einen modifizierten Datensatz, um synthetische Transkripte und/oder hybride Transkripte zusammen mit ursprünglichen thematisch abweichenden Transkripten und ursprünglichen thematisch passenden Transkripten aufzunehmen. Bei einigen Ausführungsformen setzt das Abweichungsvideoklassifizierungssystem 102 den modifizierten Datensatz des Weiteren ein, um Parameter für das themaspezifisches Wissen codierende neuronale Netzwerk zu lernen. 11 zeigt das Lernen von Parametern für ein themaspezifisches Wissen codierendes neuronales Netzwerk unter Einsatz eines hybriden Transkripts entsprechend einer oder mehreren Ausführungsformen.
Im Detail greift das Abweichungsvideoklassifizierungssystem 102 auf eine hybrides Transkript 1102 (beispielsweise das hybride Transkript 1006) zu, generiert dieses oder identifiziert dieses. Zusätzlich setzt das Abweichungsvideoklassifizierungssystem 102 das themaspezifisches Wissen codierende neuronale Netzwerk 1104 (beispielsweise das themaspezifisches Wissen codierende neuronale Netzwerk 904a oder 602) ein, um eine vorhergesagte Themaabweichungsklassifizierung 1106 aus dem hybriden Transkript 1102 zu generieren. Wie gezeigt ist, führt das Abweichungsvideoklassifizierungssystem 102 des Weiteren einen Vergleich 1110 zwischen der vorhergesagten Themaabweichungsklassifizierung 1106 und einer Ground-Truth-Themaabweichungsklassifizierung 1112 durch. In einigen Fällen ist die vorhergesagte Themaabweichungsklassifizierung 1106 keine binäre Klassifizierung, sondern gibt vielmehr eine vorhergesagten Anteil oder einen vorhergesagten Prozentanteil des hybriden Transkripts 1102, der thematisch abweichend (oder thematisch passend) ist, an oder spiegelt diesen wider.
Bei einer oder mehreren Implementierungen generiert oder bestimmt das Abweichungsvideoklassifizierungssystem 102 die Ground-Truth-Themaabweichungsklassifizierung 1112 für das hybride Transkript 1102. Das Abweichungsvideoklassifizierungssystem 102 bestimmt beispielsweise einen Prozentanteil p von ersetzten Sätzen 1108 innerhalb eines thematisch abweichenden Transkripts oder wählt diesen zufällig aus, um das hybride Transkript 1102 zu generieren. Auf Grundlage des Prozentanteils von ersetzten Sätzen 1108 bestimmt das Abweichungsvideoklassifizierungssystem 102 die Ground-Truth-Themaabweichungsklassifizierung 1112. Insbesondere bestimmt das Abweichungsvideoklassifizierungssystem 102 die Ground-Truth-Themaabweichungsklassifizierung 1112 als Etikett, das den Prozentanteil der ersetzten Sätze 1108 (beispielsweise p) oder den Prozentanteil der nicht ersetzten Sätze (beispielsweise 1 - p) widerspiegelt.
Zur Durchführung des Vergleiches 1110 setzt das Abweichungsvideoklassifizierungssystem 102 eine Verlustfunktion ein und bestimmt ein Maß für den Verlust zwischen der vorhergesagten Themaabweichungsklassifizierung 1106 und der Ground-Truth-Themaabweichungsklassifizierung 1112. Das Abweichungsvideoklassifizierungssystem 102 setzt beispielsweise eine hybride Verlustfunktion ein, die einen ersten Term für ein erstes Maß des Verlustes, wenn die vorhergesagte Themaabweichungsklassifizierung 1106 innerhalb eines bestimmten Schwellenwertes der Ground-Truth-Themaabweichungsklassifizierung 1112 ist, und einen zweiten Term für ein zweites Maß des Verlustes, wenn die vorhergesagte Themaabweichungsklassifizierung 1106 nicht innerhalb des Schwellenwertes ist, aufweist. Bei einigen Ausführungsformen setzt das Abweichungsvideoklassifizierungssystem 102 eine hybride Verlustfunktion ein, die folgendermaßen dargestellt wird: $L_{m i x} = {\begin{matrix} \frac{1}{2} {(l " - F F (V))}^{2} & wenn | l " - F F (V) | \leq δ \\ δ | l'' - F F (V) | - \frac{1}{2} δ^{2} & sonst \end{matrix}$
Hierbei ist (L_mix) FF(V) die vorhergesagte Themaabweichungsklassifizierung 1106 (die beispielsweise aus Wortvektoren V über eine Feedforward-Schicht FF des themaspezifisches Wissen codierenden neuronalen Netzwerkes 1104 vorhergesagt wird), δ ist ein Schwellenhyperparameter (beispielsweise ein Schwellenwert zwischen der Vorhersage und der Ground Truth), und l" ist die Ground-Truth-Themaabweichungsklassifizierung 1112 für das hybride Transkript 1102 (D").
Wie weiter in 11 dargestellt ist, führt das Abweichungsvideoklassifizierungssystem 102 eine Rückführung (backpropagation) 1114 durch. Das Abweichungsvideoklassifizierungssystem 102 nimmt eine Rückführung (backpropagation) vor, um Parameter (beispielsweise Gewichtungen und Tendenzen (biases)) des themaspezifisches Wissen codierenden neuronalen Netzwerkes 1104 zu modifizieren, um wiederum das Maß des Verlustes, das über den Vergleich 1110 (beispielsweise über die hybride Verlustfunktion) bestimmt wird, zu verringern. Zusätzlich wiederholt das Abweichungsvideoklassifizierungssystem 102 den in 11 dargestellten Prozess, bis das Maß des Verlustes einen Schwellenverlust erfüllt.
Trotz geringer Unterschiede implementiert das Abweichungsvideoklassifizierungssystem 102 einen zu dem in 11 dargestellten Prozess ähnlichen Prozess, um Parameter auf Grundlage eines synthetischen Transkripts zu lernen. Wie vorstehend beschrieben worden ist, generiert das Abweichungsvideoklassifizierungssystem 102 eine vorhergesagte Themaabweichungsklassifizierung aus einem synthetischen Transkript unter Einsatz des themaspezifisches Wissen codierenden neuronalen Netzwerkes 1104. In einigen Fällen generiert das Abweichungsvideoklassifizierungssystem 102, wie vorstehend beschrieben worden ist, eine binäre Vorhersage (beispielsweise thematisch abweichend oder thematisch passend) für eine Themaabweichungsklassifizierung aus einem synthetischen Transkript.
Zusätzlich vergleicht das Abweichungsvideoklassifizierungssystem 102 die vorhergesagte Themaabweichungsklassifizierung mit einer Ground-Truth-Themaabweichungsklassifizierung, die angibt, welche der binären Klassifizierungen tatsächlich dem anfänglichen synthetischen Transkript entspricht. Das Abweichungsvideoklassifizierungssystem 102 setzt eine synthetische Verlustfunktion ein, um ein Maß des Verlustes zwischen der vorhergesagten Themaabweichungsklassifizierung und der Ground-Truth-Themaabweichungsklassifizierung zu bestimmen. Das Abweichungsvideoklassifizierungssystem 102 setzt beispielsweise eine synthetische Verlustfunktion ein, die folgendermaßen gegeben ist: $L_{s y n t h} = - log (P (l' | D'))$
Hierbei bezeichnet L_synth den synthetischen Verlust, und l' bezeichnet die Ground-Truth-Themaabweichungsklassifizierung für das synthetische Transkript D'.
Bei gewissen Ausführungsformen setzt das Abweichungsvideoklassifizierungssystem 102 sowohl hybride Transkripte wie auch synthetische Transkripte ein, um das themaspezifisches Wissen codierende neuronale Netzwerk 1104 zu trainieren. Insbesondere fügt das Abweichungsvideoklassifizierungssystem 102 hybride Transkripte und synthetische Transkripte zu einem modifizierten Datensatz hinzu und setzt den modifizierten Datensatz ein, um Parameter des themaspezifisches Wissen codierenden neuronalen Netzwerkes 1104 zu lernen. Bei diesen Ausführungsformen setzt das Abweichungsvideoklassifizierungssystem 102 eine kombinierte Verlustfunktion ein, die folgendermaßen gegeben ist: $L_{t o t a l} = L_{s y n t h} + L_{m i x}$
Hierbei sind L_synth und L_mix wie vorstehend definiert. Das Abweichungsvideoklassifizierungssystem 102 modifiziert Parameter des themaspezifisches Wissen codierenden neuronalen Netzwerkes 1104 weiterr, um den kombinierten Verlust über mehrere Iterationen zu verringern.
Wie vorstehend erwähnt worden ist, kann das Abweichungsvideoklassifizierungssystem 102 Verbesserungen hinsichtlich der Genauigkeit gegenüber bisherigen Digitalvideoanalysesystemen bieten. Durch Einsetzen des themaspezifisches Wissen codierenden neuronalen Netzwerkes und durch Trainieren des themaspezifisches Wissen codierenden neuronalen Netzwerkes unter Nutzung von angepassten Daten, die synthetische Transkripte und hybride Transkripte beinhalten, kann das Abweichungsvideoklassifizierungssystem 102 Genauigkeitsmetriken über diejenigen herkömmlicher Systeme hinaus verwirklichen. Darstellungshalber wurden experimentelle Tests durchgeführt, um exemplarische Ausführungsformen des Abweichungsvideoklassifizierungssystems 102 mit alternativen Systemen zu vergleichen.
Bei diesen Tests wurde experimentell ein F1-Kennwert (beispielsweise ein Kennwert, der eine Balance zwischen Genauigkeit und Recall widerspiegelt) für drei verschiedene Modelle bestimmt, nämlich für ein Zufallsauswahlsystem, ein bestehendes Klassifizierungssystem und eine exemplarische Implementierung des Abweichungsvideoklassifizierungssystems 102. Insbesondere wählt das Zufallsauswahlsystem zufällig ein Etikett (beispielsweise eine Themaabweichungsklassifizierung) für jedes Dokument in einem Testsatz aus. Das bestehende Klassifizierungssystem codiert ein Eingabedokument D unter Nutzung eines eine Schicht aufweisenden LSTM und setzt eine Feedforward-Schicht ein, um eine binäre Voraussage für jedes Eingabedokument zu generieren. Unter Nutzung dieser Modelle zusammen mit dem Abweichungsvideoklassifizierungssystem 102 wurden experimentelle Vorhersagen generiert und Ergebnisse bezüglich des Datensatzes Behance® gemessen, der Transkripte 6003 fünfminütigen Digitalvideos (ungefähr 500 Stunden an Digitalvideo), die über das soziale Netzwerk Behance® gestreamt worden sind, beinhaltet. Die nachstehende Tabelle zeigt Ergebnisse des Experimentes.

Modell F1-Kennwert

Zufallsauswahl 19,02

bestehender Klassifizierer 64,28

Abweichungsvideoklassifizierungssystem 67,12
Wie in vorstehender Tabelle dargestellt ist, wurde experimentell nachgewiesen, dass das Abweichungsvideoklassifizierungssystem 102 beide alternativen Systeme überflügelt. Das Abweichungsvideoklassifizierungssystem 102 zeigt einen F1-Kennwert von 67,12 bezüglich des getesteten Datensatzes, während das Zufallsauswahlsystem einen F1-Kennwert von 19,02 und das bestehende Klassifizierungssystem einen F1-Kennwert von 64,28 aufweist.
Wie vorstehend erwähnt worden ist, stellt das Abweichungsvideoklassifizierungssystem 102 bei gewissen beschriebenen Ausführungsformen eine Mitteilung über eine Themaabweichungsklassifizierung zur Anzeige bereit. Insbesondere stellt das Abweichungsvideoklassifizierungssystem 102 eine Mitteilung bereit, die eine oder mehrere Themaabweichungsklassifizierungen für jeweilige Digitalvideos als Teil eines Suchergebnisses oder während eines nutzerseitigen Navigierens durch Digitalvideos angibt oder widerspiegelt. 12 zeigt eine Digitalvideosuchschnittstelle, die Themaabweichungsklassifizierungen beinhaltet, entsprechend einer oder mehreren Ausführungsformen.
Wie in 12 dargestellt ist, zeigt die Clientvorrichtung 108 eine Digitalvideosuchschnittstelle 1202. Das Abweichungsvideoklassifizierungssystem 102 empfängt beispielsweise eine Suchanfrage, die ein Zielthema angibt, oder empfängt ansonsten eine Eingabe einer Navigation zu einer bestimmten Webseite im Zusammenhang mit einem Zielthema. Das Abweichungsvideoklassifizierungssystem 102 identifiziert zudem Digitalvideos oder wählt diese aus, um sie als Teil eines Suchergebnisses für die Suchanfrage oder innerhalb der Webseite, zu der die Clientvorrichtung 108 navigiert hat, bereitzustellen. Das Abweichungsvideoklassifizierungssystem 102 generiert des Weiteren Themaabweichungsklassifizierungen für die Digitalvideos in Bezug auf das Zielthema.
Wie gezeigt ist, generiert das Abweichungsvideoklassifizierungssystem 102 die Mitteilung 1204 und die Mitteilung 1206 und stellt diese zur Anzeige bereit. Die Mitteilung 1204 gibt an, dass das Digitalvideo unmittelbar über der Mitteilung 1204 mit dem Zielthema zusammenhängt („Dieses Video ist zu Ihrem Thema“), während die Mitteilung 1206 angibt, dass das Digitalvideo unmittelbar über der Mitteilung 1206 nicht mit dem Zielthema zusammenhängt („Dieses Video ist nicht zu Ihrem Thema“). Daher stellt das Abweichungsvideoklassifizierungssystem 102 die Mitteilung 1204 in Reaktion auf das Generieren der Themaabweichungsklassifizierung „thematisch passend“ für das erste Digitalvideo bereit und stellt die Mitteilung 1206 in Reaktion auf das Generieren der Themaabweichungsklassifizierung „thematisch abweichend“ für das zweite Digitalvideo bereit.
13 zeigt zusätzliche Details im Zusammenhang mit Komponenten und Fähigkeiten des Abweichungsvideoklassifizierungssystems 102. Insbesondere zeigt 13 ein exemplarisches schematisches Diagramm des Abweichungsvideoklassifizierungssystems 102 auf einer exemplarischen Rechenvorrichtung 1300 (beispielsweise auf einer oder mehreren von der Clientvorrichtung 108 und/oder dem Server / den Servern 104). Bei einigen Ausführungsformen bezeichnet die Rechenvorrichtung 1300 ein verteiltes Rechensystem, auf dem verschiedene Verwalter auf verschiedenen Vorrichtungen, wie sie vorstehend beschrieben worden sind, befindlich sind. Wie in 13 gezeigt ist, beinhaltet das Abweichungsvideoklassifizierungssystem 102 einen Digitalvideoinformationsverwalter 1302, einen Digitaltextkorpusinformationsverwalter 1304, einen Klassifizierungsgenerierungsverwalter 1306, einen Parameterlernverwalter 1308 und einen Speicherverwalter 1310.
Wie eben erwähnt worden ist, beinhaltet das Abweichungsvideoklassifizierungssystem 102 einen Digitalvideoinformationsverwalter 1302. Insbesondere nimmt der Digitalvideoinformationsverwalter 1302 ein Verwalten, Vorhalten, Extrahieren, Detektieren, Bestimmen oder Identifizieren von Information aus Digitalvideos, so beispielsweise von Text oder Worten, vor. Der Digitalvideoinformationsverwalter 1302 bestimmt Worte, die in einem Digitalvideo benutzt werden, beispielsweise durch Zugreifen auf ein Transkript für das Digitalvideo oder Generieren eines solchen. Zusätzlich generiert der Digitalvideoinformationsverwalter 1302 kontextualisierte Merkmalsvektoren für die Worte des Digitalvideos entsprechend der vorliegenden Offenbarung.
Wie in 13 dargestellt ist, beinhaltet das Abweichungsvideoklassifizierungssystem 102 einen Digitaltextkorpusinformationsverwalter 1304. Insbesondere nimmt der Digitaltextkorpusinformationsverwalter 1304 ein Verwalten, Vorhalten, Generieren, Zusammenführen, Sammeln, Anordnen, Detektieren, Bestimmen, Auswählen oder Identifizieren von Digitalcontent vor, um diesen in ein Digitaltextkorpus aufzunehmen. Der Digitaltextkorpusinformationsverwalter 1304 generiert ein Digitaltextkorpus für ein bestimmtes Zielthema beispielsweise durch Zugreifen auf Tutorials, von denen bekannt ist, dass sie mit dem Zielthema zusammenhängen, auf Namen von Digitalcontentbearbeitungstools entsprechend dem Zielthema und/oder auf Schlüsselworte aus einer Themaontologie im Zusammenhang mit dem Zielthema. Zusätzlich generiert der Digitaltextkorpusinformationsverwalter 1304 Korpuseinbettungen aus Worten in einem Digitaltextkorpus entsprechend der vorliegenden Offenbarung.
Wie weiter in 13 dargestellt ist, beinhaltet das Abweichungsvideoklassifizierungssystem 102 einen Klassifizierungsgenerierungsverwalter 1306. Insbesondere nimmt der Klassifizierungsgenerierungsverwalter 1306 ein Verwalten, Vorhalten, Bestimmen, Generieren, Erzeugen, Vorhersagen oder Identifizieren von Themaabweichungsklassifizierungen für Digitalvideos vor. Wie hier beschrieben wird, vergleicht der Klassifizierungsgenerierungsverwalter 1306 Worte eines Digitalvideos beispielsweise mit Worten eines Digitaltextkorpus, um eine Themaabweichungsklassifizierung zu generieren. Insbesondere vergleicht der Klassifizierungsgenerierungsverwalter 1306 kontextualisierte Merkmalsvektoren aus einem Digitalvideo und Korpuseinbettungen aus einem Digitaltextkorpus, um eine Themaabweichungsklassifizierung unter Einsatz eines themaspezifisches Wissen codierenden neuronalen Netzwerkes zu generieren.
Zusätzlich beinhaltet das Abweichungsvideoklassifizierungssystem 102, wie in 13 gezeigt ist, einen Parameterlernverwalter 1308. Insbesondere nimmt der Parameterlernverwalter 1308 ein Verwalten, Vorhalten, Bestimmen, Lernen, Trainieren oder Einstellen von Parametern, so beispielsweise von Gewichtungen und Tendenzen (biases) eines themaspezifisches Wissen codierenden neuronalen Netzwerkes vor. Der Parameterlernverwalter 1308 generiert beispielsweise synthetische Transkripte und/oder hybride Transkripe, um diese in einen modifizierten Datensatz aufzunehmen. Der Parameterlernverwalter 1308 setzt den modifizierten Datensatz des Weiteren ein, um das themaspezifisches Wissen codierende neuronale Netzwerk zu trainieren oder einzustellen, um dessen Parameter, wie hier beschrieben wird, zu lernen.
Das Abweichungsvideoklassifizierungssystem 102 beinhaltet des Weiteren einen Speicherverwalter 1310. Der Speicherverwalter 1310 arbeitet in Verbindung mit oder beinhaltet eine oder mehrere Memory- bzw. Speichervorrichtungen, so beispielsweise die Datenbank 1312 (beispielsweise die Datenbank 112), die verschiedene Daten speichert, so beispielsweise ein themaspezifisches Wissen codierendes neuronales Netzwerk, Digitalvideos und Digitaltextkorpora.
Bei einer oder mehreren Ausführungsformen kommuniziert jede der Komponenten des Abweichungsvideoklassifizierungssystems 102 mit einer anderen unter Nutzung von beliebigen geeigneten Kommunikationstechnologien. Zusätzlich kommunizieren die Komponenten des Abweichungsvideoklassifizierungssystems 102 mit einer oder mehreren anderen Vorrichtungen, darunter einer oder mehreren der vorbeschriebenen Clientvorrichtungen. Es sollte einsichtig sein, dass ungeachtet dessen, dass die Komponenten des Abweichungsvideoklassifizierungssystems 102 in 13 getrennt dargestellt sind, beliebige der Teilkomponenten auch zu weniger Komponenten, so beispielsweise auch nur zu einer einzigen Komponente, kombiniert oder in mehr Komponenten unterteilt werden können, so dies bei einer bestimmten Implementierung dienlich ist. Obwohl die Komponenten von 13 zudem in Verbindung mit dem Abweichungsvideoklassifizierungssystem 102 beschrieben werden, können wenigstens einige der Komponenten zur Durchführung von Vorgängen in Verbindung mit dem Abweichungsvideoklassifizierungssystem 102 auf anderen Vorrichtungen innerhalb der Umgebung implementiert sein.
Die Komponenten des Abweichungsvideoklassifizierungssystems 102 können Software, Hardware oder beides beinhalten. Die Komponenten des Abweichungsvideoklassifizierungssystems 102 können beispielsweise eine oder mehrere Anweisungen beinhalten, die auf einem computerlesbaren Speichermedium gespeichert und von Prozessoren einer oder mehrerer Rechenvorrichtungen (beispielsweise der Rechenvorrichtung 1300) ausführbar sind. Bei Ausführung durch den einen oder die mehreren Prozessoren können die computerausführbaren Anweisungen des Abweichungsvideoklassifizierungssystems 102 veranlassen, dass die Rechenvorrichtung 1300 die hier beschriebenen Verfahren durchführt. Alternativ können die Komponenten des Abweichungsvideoklassifizierungssystems 102 Hardware umfassen, so beispielsweise eine Spezialzweckverarbeitungsvorrichtung zur Übernahme einer gewissen Funktion oder Gruppe von Funktionen. Zusätzlich oder alternativ können die Komponenten des Abweichungsvideoklassifizierungssystems 102 eine Kombination von computerausführbaren Anweisungen und Hardware beinhalten.
Implementiert sein können die Komponenten des Abweichungsvideoklassifizierungssystems 102, die die hier beschriebenen Funktionen übernehmen, des Weiteren beispielsweise als Teil einer eigenständigen Anwendung, als Modul einer Anwendung, als Plug-in für Anwendungen, die Contentverwaltungsanwendungen beinhalten, als Bibliotheksfunktion oder Funktionen, die von anderen Anwendungen aufgerufen werden können, und/oder als Cloudrechenmodell. Die Komponenten des Abweichungsvideoklassifizierungssystems 102 können daher als Teil einer eigenständigen Anwendung auf einer PC-Vorrichtung oder einer Mobilvorrichtung implementiert sein. Alternativ oder zusätzlich können die Komponenten des Abweichungsvideoklassifizierungssystems 102 bei einer beliebigen Anwendung implementiert sein, die die Erstellung und Verteilung von Marketingcontent für Nutzer ermöglicht, darunter unter anderem Anwendungen wie ADOBE® EXPERIENCE MANAGER und CREATIVE CLOUD®, so beispielsweise ADOBE BEHANCE®, ADOBE PREMIERE® und INDESIGNO. „ADOBE“, „ADOBE EXPERIENCE MANAGER“, „CREATIVE CLOUD“ „BEHANCE“, „ADOBE PREMIERE“ und „INDESIGN“ sind entweder eingetragene Marken oder Marken von Adobe Inc. in den Vereinigten Staaten und/oder anderen Ländern.
Bereitgestellt werden durch 1 bis 13, den entsprechenden Text und die Beispiele eine Anzahl von verschiedenen Systemen, Verfahren und nichttemporären computerlesbaren Medien für ein ein neuronales Netzwerk betreffendes Konzept zum Generieren von Themaabweichungsklassifizierungen für Digitalvideos auf Grundlage von Worten aus den Digitalvideos und des Weiteren auf Grundlage eines ein Zielthema darstellenden Digitaltextkorpus. Zusätzlich zum Vorbeschriebenen können Ausführungsformen auch anhand von Flussdiagramm beschrieben werden, die Handlungen zum Erreichen eines bestimmten Ergebnisses umfassen. 14 und 15 zeigen beispielsweise Flussdiagramme von exemplarischen Sequenzen oder Abfolgen von Handlungen entsprechend einer oder mehreren Ausführungsformen.
Obwohl 14 und 15 Handlungen entsprechend bestimmten Ausführungsformen darstellen, kann bei alternativen Ausführungsformen eine beliebige der in 14 und 15 gezeigten Handlungen auch weggelassen, hinzugefügt, umgeordnet und/oder modifiziert werden. Die Handlungen von 14 und 15 können als Teil eines Verfahrens durchgeführt werden. Alternativ kann ein nichttemporäres computerlesbares Medium Anweisungen umfassen, die bei Ausführung durch einen oder mehrere Prozessoren eine Rechenvorrichtung veranlassen, die Handlungen von 14 und 15 durchzuführen. Bei wieder anderen Ausführungsformen kann ein System die Handlungen von 14 und 15 durchführen. Zusätzlich können die hier beschriebenen Handlungen auch wiederholt oder parallel zueinander oder parallel zu verschiedenen bzw. anderen Instanzen derselben oder anderer ähnlicher Handlungen durchgeführt werden.
14 zeigt eine exemplarische Abfolge von Handlungen 1400 für ein ein neuronales Netzwerk betreffendes Konzept zum Generieren von Themaabweichungsklassifizierungen für Digitalvideos auf Grundlage von Worten aus den Digitalvideos und des Weiteren auf Grundlage eines ein Zielthema darstellenden Digitaltextkorpus. Insbesondere beinhaltet die Abfolge von Handlungen 1400 eine Handlung 1402 des Extrahierens von Worteinbettungen aus einem Digitalvideo. Die Handlung 1402 impliziert beispielsweise ein Extrahieren von Worteinbettungen aus Worten eines Digitalvideos unter Einsatz eines Worteinbettungsmodells.
Zusätzlich beinhaltet die Abfolge von Handlungen 1400 eine Handlung 1404 des Generierens von kontextualisierten Merkmalsvektoren aus den Worteinbettungen. Insbesondere impliziert die Handlung 1404 ein Generieren von kontextualisierten Merkmalsvektoren aus den Worteinbettungen unter Einsatz einer ersten LSTM-Schicht (Long Short-Term Memory LSTM, langes Kurzzeitgedächtnis). Die Handlung 1404 impliziert bisweilen ein unter Einsatz der ersten LSTM-Schicht erfolgendes Generieren von kontextualisierten Merkmalsvektoren aus Worten, die innerhalb des Digitalvideos benutzt werden. Die Handlung 1404 impliziert beispielsweise ein Extrahieren von Worteinbettungen aus den Worten, die innerhalb des Digitalvideos benutzt werden, unter Einsatz eines Worteinbettungsmodells und ein Bestimmen von verborgenen Zuständen, die aus den Worteinbettungen generiert werden, unter Einsatz der ersten LSTM-Schicht.
Wie weiter in 14 dargestellt ist, beinhaltet die Abfolge von Handlungen 1400 eine Handlung 1406 des Generierens von themaspezifischen Merkmalsvektoren. Insbesondere impliziert die Handlung 1406 ein Generieren von themaspezifischen Merkmalsvektoren aus einem Digitaltextkorpus, das einem Zielthema für das Digitalvideo zugeordnet ist, unter Einsatz einer zweiten LSTM-Schicht. Die Handlung 1406 beinhaltet beispielsweise eine oder mehrere konstituierende Handlungen, so beispielsweise die Handlung 1408 des Generierens von n-Grammen für Worte eines Digitaltextkorpus. Die Handlung 1408 impliziert ein Bestimmen von n-Grammen aus den Worten des Digitaltextkorpus.
Zusätzlich beinhaltet die Handlung 1406 eine Handlung 1410 des Generierens von themaspezifischen Einbettungen aus den n-Grammen. Insbesondere impliziert die Handlung 1410 ein Generieren von themaspezifischen Einbettungen für das Zielthema durch Vergleichen der kontextualisierten Merkmalsvektoren mit Worten aus dem Digitaltextkorpus. In einigen Fällen impliziert die Handlung 1410 ein Extrahieren von Korpuseinbettungen aus den n-Grammen, die den Worten des Digitaltextkorpus zugeordnet sind, und ein für ein bestimmtes Wort innerhalb des Digitalvideos erfolgendes Auswählen eines Teilsatzes der Korpuseinbettungen als themaspezifische Einbettungen, die dem bestimmten Wort zugeordnet sind. Die Handlung 1410 impliziert beispielsweise ein Auswählen des Teilsatzes der Korpuseinbettungen durch Bestimmen von Ähnlichkeitskennwerten für die Korpuseinbettungen zur Darstellung von Ähnlichkeiten der Korpuseinbettungen in Bezug auf einen kontextualisierten Merkmalsvektor, der dem bestimmten Wort zugeordnet ist, und ein entsprechend den Ähnlichkeitskennwerten erfolgendes Auswählen einer oder mehrerer Korpuseinbettungen mit Ähnlichkeitskennwerten, die eine Ähnlichkeitsschwelle erfüllen, um diese in den Teilsatz der Korpuseinbettungen für das bestimmte Wort aufzunehmen. Bei einigen Ausführungsformen impliziert die Handlung 1410 ein Generieren von themaspezifischen Merkmalsvektoren unter Einsatz der zweiten LSTM-Schicht aus den themaspezifischen Einbettungen.
Bei einigen Ausführungsformen impliziert die Handlung 1410 ein Generieren der themaspezifischen Einbettungen durch Extrahieren von mehreren Korpuseinbettungen aus den Worten des Digitaltextkorpus, ein Bestimmen von Ähnlichkeitskennwerten für mehrere Korpuseinbettungen in Bezug auf einen kontextualisierten Merkmalsvektor, der einem bestimmten in dem Digitalvideo benutzten Wort zugeordnet ist, und ein als themaspezifische Einbettungen für das bestimmte Wort erfolgendes Auswählen eines Teilsatzes der mehreren Korpuseinbettungen mit Ähnlichkeitskennwerten, die eine Ähnlichkeitsschwelle erfüllen. Implizieren kann die Handlung 1410 ein Bestimmen von mehreren n-Grammen, die den Worten aus dem Digitaltextkorpus zugeordnet sind, und ein Extrahieren der mehreren Korpuseinbettungen aus den mehreren n-Grammen, die den Worten aus dem Digitaltextkorpus zugeordnet sind.
Des Weiteren beinhaltet die Handlung 1406 eine Handlung 1412 des Generierens von themaspezifischen Merkmalsvektoren aus den themaspezifischen Einbettungen. Insbesondere impliziert die Handlung 1412 ein Generieren der themaspezifischen Merkmalsvektoren aus den themaspezifischen Einbettungen unter Einsatz der zweiten LSTM-Schicht. Die Handlung 1412 impliziert beispielsweise ein Generieren der themaspezifischen Merkmalsvektoren in einer sequenziellen Reihenfolge, die durch die Worte des Digitalvideos definiert ist, unter Einsatz der zweiten LSTM-Schicht. Bei einigen Ausführungsformen beinhaltet die Abfolge von Handlungen 1400 (beispielsweise als Teil der Handlung 1412) eine Handlung des Generierens eines themaspezifischen Wissenspools für ein Wort des Digitalvideos durch unter den themaspezifischen Einbettungen für das Zielthema erfolgendes Auswählen eines Teilsatzes der themaspezifischen Einbettungen, die einem Wort zugeordnet sind, aus dem Digitalvideo und Max-Pooling des Teilsatzes der themaspezifischen Einbettungen, der für das Wort ausgewählt worden ist. Bei einigen Ausführungsformen impliziert die Handlung 1412 ein Generieren eines gesonderten themaspezifischen Merkmalsvektors für jedes Wort, das innerhalb des Digitalvideos benutzt wird.
In einigen Fällen beinhaltet die Abfolge von Handlungen 1400 Handlungen des Kombinierens der themaspezifischen Merkmalsvektoren und der kontextualisierten Merkmalsvektoren in verketteten Merkmalsvektoren, des Generierens von Wortmerkmalsvektoren aus den verketteten Merkmalsvektoren unter Einsatz einer ersten Feedforward-Schicht der Themaabweichungsklassifizierungsschicht und des Generierens der Themaabweichungsklassifizierung durch Generieren einer Wahrscheinlichkeitsverteilung aus den Wortmerkmalsvektoren unter Einsatz einer zweiten Feedforward-Schicht der Themaabweichungsklassifizierungsschicht.
Zusätzlich beinhaltet die Abfolge von Handlungen 1400 eine Handlung 1414 des Generierens einer Themaabweichungsklassifizierung für das Digitalvideo. Insbesondere impliziert die Handlung 1414 ein Generieren einer Themaabweichungsklassifizierung für das Digitalvideo unter Einsatz eines themaspezifisches Wissen codierenden neuronalen Netzwerkes aus den kontextualisierten Merkmalsvektoren aus den Worteinbettungen und den themaspezifischen Vektoren aus dem Digitaltextkorpus. Die Handlung 1414 impliziert beispielsweise ein Generieren der Themaabweichungsklassifizierung durch Einsetzen des themaspezifisches Wissen codierenden neuronalen Netzwerkes zum Bestimmen einer Wahrscheinlichkeit dafür, dass das Digitalvideo von dem Zielthema für das Digitalvideo abweicht. In einigen Fällen impliziert die Handlung 1414 ein unter Einsatz der Themaabweichungsklassifizierungsschicht erfolgendes Generieren einer Themaabweichungsklassifizierung für das Digitalvideo aus den themaspezifischen Merkmalsvektoren und den kontextualisierten Merkmalsvektoren. Bei gewissen Ausführungsformen impliziert die Handlung 1414 ein Klassifizieren des Digitalvideos als thematisch abweichendes Video, wodurch angegeben wird, dass das Digitalvideo von dem Zielthema abweicht.
15 zeigt eine exemplarische Abfolge von Handlungen 1500 zum Lernen von Parametern eines themaspezifisches Wissen codierenden neuronalen Netzwerkes. Die Abfolge von Handlungen 1500 beinhaltet beispielsweise eine Handlung 1502 des Generierens von synthetischen Transkripten. Insbesondere impliziert die Handlung 1502 ein Generieren von mehreren synthetischen Transkripten unter Einsatz eines generativen Sprachmodells, das Parameter umfasst, die aus Transkripten von thematisch abweichenden Videos eingestellt sind. In einigen Fällen beinhaltet die Handlung 1502 zusätzliche Handlungen, so beispielsweise eine Handlung 1504 des vorab erfolgenden Trainierens eines generativen Sprachmodells aus einem anfänglichen Datensatz und eine Handlung 1506 des Einsetzens des vorab trainierten generativen Sprachmodells zum Generieren von synthetischen Transkripten. Bei einigen Ausführungsformen impliziert die Handlung 1506 ein unter Einsatz des generativen Sprachmodells erfolgendes Bestimmen von Wahrscheinlichkeiten für einschlägige Worte bei jeweiligen Zeitschritten der mehreren synthetischen Transkripte und ein Auswählen von Worten zur Hinzufügung zu den mehreren synthetischen Transkripten entsprechend den Wahrscheinlichkeiten bei den jeweiligen Zeitschritten, bis ein Beendigungskriterium erfüllt ist.
Bei gewissen Ausführungsformen beinhaltet die Abfolge von Handlungen 1500 Handlungen des Generierens von Themaabweichungsklassifizierungen für die mehreren synthetischen Transkripte unter Einsatz des themaspezifisches Wissen codierenden neuronalen Netzwerkes und des Auswählens zur Aufnahme in einen Probedatensatz zum Lernen der Parameter des themaspezifisches Wissen codierenden neuronalen Netzwerkes, wobei eines oder mehrere der mehreren synthetischen Transkripte mit Themaabweichungsklassifizierungen eine Abweichung von einem Zielthema angeben.
Wie in 15 dargestellt ist, beinhaltet die Abfolge von Handlungen 1500 eine Handlung 1508 des Generierens von hybriden Transkripten. Insbesondere impliziert die Handlung 1508 ein Generieren von hybriden Transkripten durch Kombinieren eines oder mehrerer Transkripte von thematisch abweichenden Videos mit einem oder mehreren Transkripten von thematisch passenden Videos. Bei einigen Ausführungsformen beinhaltet die Handlung 1508 zusätzliche Handlungen, so beispielsweise die Handlung 1510 des Bestimmens von Sätzen zur Ersetzung in einem thematisch abweichenden Transkript und die Handlung 1512 des Ersetzens der Sätze in dem thematisch abweichenden Transkript durch Sätze aus einem thematisch passenden Transkript.
Wie weiter in 15 dargestellt ist, beinhaltet die Abfolge von Handlungen 1500 eine Handlung 1514 des Lernens von Parametern für ein themaspezifisches Wissen codierendes neuronales Netzwerk. Insbesondere impliziert die Handlung 1514 ein Lernen von Parametern für ein themaspezifisches Wissen codierendes neuronales Netzwerk unter Einsatz der synthetischen Transkripte und der hybriden Transkripte. In einigen Fällen impliziert die Handlung 1514 ein Zuweisen einer Ground-Truth-Themaabweichungsklassifizierung an ein hybrides Transkript entsprechend einem Prozentanteil von Sätzen, die durch Themasätze aus einem Transkript eines thematisch passenden Videos ersetzt sind, ein Generieren einer vorhergesagten Themaabweichungsklassifizierung für das hybride Transkript unter Einsatz des themaspezifisches Wissen codierenden neuronalen Netzwerkes und ein Vergleichen der vorhergesagten Themaabweichungsklassifizierung mit der Ground-Truth-Themaabweichungsklassifizierung. Bei diesen oder anderen Ausführungsformen impliziert die Handlung 1514 ein Einsetzen einer kombinierten Verlustfunktion, die eine synthetische Verlustfunktion, die den synthetischen Transkripten zugeordnet ist, und eine hybride Verlustfunktion, die den hybriden Transkripten zugeordnet ist, umfasst.
Ausführungsformen der vorliegenden Offenbarung können einen Spezialzweck- oder Allzweckcomputer, der Computerhardware beinhaltet, umfassen oder einsetzen, so beispielsweise einen oder mehrere Prozessoren und einen Systemspeicher, wie nachstehend noch detaillierter beschrieben wird. Ausführungsformen innerhalb des Umfanges der vorliegenden Offenbarung beinhalten zudem physische bzw. physikalische und andere computerlesbare Medien zum Tragen oder Speichern von computerausführbaren Anweisungen und/oder Datenstrukturen. Insbesondere können einer oder mehrere der hier beschriebenen Prozesse wenigstens teilweise als Anweisungen implementiert sein, die auf einem nichttemporären computerlesbaren Medium verkörpert und durch eine oder mehrere Rechenvorrichtungen (beispielsweise beliebige der hier beschriebenen Mediencontentzugriffsvorrichtungen) ausführbar sind. Allgemein empfängt ein Prozessor (beispielsweise ein Mikroprozessor) Anweisungen von einem nichttemporären computerlesbaren Medium (beispielsweise einem Speicher bzw. Memory) und führt diese Anweisungen aus, wodurch ein oder mehrere Prozesse, darunter einer oder mehrere der hier beschriebenen Prozesse, durchgeführt werden.
Computerlesbare Medien können beliebige verfügbare Medien sein, auf die ein Allzweck- oder Spezialzweckcomputersystem zugreifen kann. Computerlesbare Medien, die computerausführbare Anweisungen speichern, sind nichttemporäre computerlesbare Speichermedien (Vorrichtungen). Computerlesbare Medien, die computerausführbare Anweisungen tragen, sind Übertragungsmedien. Beispiels- und nicht beschränkungshalber können Ausführungsformen der Offenbarung wenigstens zwei eindeutig verschiedene Arten von computerlesbaren Medien umfassen, nämlich nichttemporäre computerlesbare Speichermedien (Vorrichtungen) und Übertragungsmedien.
Nichttemporäre computerlesbare Speichermedien (Vorrichtungen) beinhalten RAM, ROM, EEPROM, CD-ROM, SSDs (Solid State Drives) (beispielsweise auf Grundlage eines RAM), einen Flashspeicher, einen Phasenänderungsspeicher (PCM), andere Arten von Memory bzw. Speicher, einen anderen optischen Plattenspeicher, einen Magnetplattenspeicher oder andere magnetische Speichervorrichtungen oder ein beliebiges anderes Medium, das zum Speichern von gewünschten Programmcodemitteln in Form von computerausführbaren Anweisungen oder Datenstrukturen genutzt wird und auf das ein Allzweck- oder Spezialzweckcomputer zugreifen kann.
Ein „Netzwerk“ ist als ein oder mehrere Datenlinks definiert, die den Transport von elektronischen Daten zwischen Computersystemen und/oder Modulen und/oder anderen elektronischen Vorrichtungen ermöglichen. Wird Information über ein Netzwerk oder eine andere Kommunikationsverbindung (entweder festverdrahtet, drahtlos oder eine Kombination aus festverdrahtet oder drahtlos) an einen Computer übertragen oder für diesen bereitgestellt, so betrachtet der Computer die Verbindung in der Praxis als Übertragungsmedium. Übertragungsmedien können ein Netzwerk und/oder Datenlinks beinhalten, die zum Tragen von gewünschten Programmcodemitteln in Form von computerausführbaren Anweisungen oder Datenstrukturen genutzt werden können und auf die ein Allzweck- oder Spezialzweckcomputer zugreifen kann. Kombinationen des Vorbeschriebenen sollen ebenfalls im Umfang der computerlesbaren Medien beinhaltet sein.
Beim Verwirklichen von verschiedenen Computersystemkomponenten können Programmcodemittel zudem in Form von computerausführbaren Anweisungen oder Datenstrukturen automatisch von Übertragungsmedien auf nichttemporäre computerlesbare Speichermedien (Vorrichtungen) (oder umgekehrt) übertragen werden. Computerausführbare Anweisungen oder Datenstrukturen, die über ein Netzwerk oder einen Datenlink empfangen werden, können beispielsweise in einem RAM innerhalb eines Netzwerkschnittstellenmoduls (beispielsweise eines „NIC“) gepuffert und sodann gegebenenfalls an den Computersystem-RAM und/oder an weniger flüchtige Computerspeichermedien (Vorrichtungen) auf einem Computersystem übertragen werden. Es sollte daher einsichtig sein, dass nichttemporäre computerlesbare Speichermedien (Vorrichtungen) in Computersystemkomponenten beinhaltet sein können, die ebenfalls (oder sogar primär) Übertragungsmedien einsetzen.
Computerausführbare Anweisungen umfassen beispielsweise Anweisungen und Daten, die bei Ausführung durch einen Prozessor veranlassen, dass ein Allzweckcomputer, ein Spezialzweckcomputer oder eine Spezialzweckverarbeitungsvorrichtung eine bestimmte Funktion oder Gruppe von Funktionen übernehmen. Bei einigen Ausführungsformen werden computerausführbare Anweisungen auf einem Allzweckcomputer ausgeführt, um den Allzweckcomputer in einen Spezialzweckcomputer zu verwandeln, der Elemente der Offenbarung implementiert. Die computerausführbaren Anweisungen können beispielsweise Binaries, Anweisungen in einem Zwischenformat wie Assemblersprache oder sogar Quellcode sein. Obwohl der Erfindungsgegenstand in einer Sprache beschrieben worden ist, die für strukturelle Merkmale und/oder methodologische Handlungen spezifisch ist, sollte einsichtig sein, dass der in den beigefügten Ansprüchen definierte Erfindungsgegenstand nicht unbedingt auf die vorbeschriebenen Merkmale oder Handlungen beschränkt ist. Vielmehr sind die beschriebenen Merkmale und Handlungen als exemplarische Formen der Implementierung der Ansprüche offenbart.
Einem Fachmann auf dem Gebiet erschließt sich, dass die Offenbarung in Netzwerkrechenumgebungen mit vielen Arten von Computersystemkonfigurationen praktisch umgesetzt werden kann, darunter PCs, Desktopcomputer, Laptopcomputer, Nachrichtenprozessoren, Handvorrichtungen, Multiprozessorensysteme, mikroprozessorbasierte oder programmierbare Geräte der Unterhaltungselektronik, Netzwerk-PCs, Minicomputer, Mainframecomputer, Mobiltelefone, PDAs, Tablets, Pager, Router, Switches bzw. Schalter und dergleichen. Praktisch umgesetzt werden kann die Offenbarung auch in verteilten Systemumgebungen, wo lokale und entfernte (remote) Computersysteme, die (entweder durch festverdrahtete Datenlinks, drahtlose Datenlinks oder durch eine Kombination aus festverdrahteten und drahtlosen Datenlinks) über ein Netzwerk verbunden sind, gleichermaßen Aufgaben erledigen. In einer verteilten Systemumgebung können Programmmodule sowohl in lokalen wie auch entfernten (remote) Memoryspeichervorrichtungen befindlich sein.
Ausführungsformen der vorliegenden Offenbarung können zudem in Cloudrechenumgebungen implementiert sein. In der vorliegenden Beschreibung ist „Cloudcomputing bzw. Cloudrechnen“ als Modell definiert, das einen On-Demand-Netzwerkzugriff auf einen geteilten Pool von konfigurierbaren Rechenressourcen ermöglicht. Cloudcomputing bzw. Cloudrechnen kann beispielsweise auf einem Marktplatz eingesetzt werden, um einen umfassenden und bequemen On-Demand-Zugriff auf den geteilten Pool von konfigurierbaren Rechenressourcen anzubieten. Der geteilte Pool von konfigurierbaren Rechenressourcen kann über eine Virtualisierung schnell bereitgestellt und unter geringem Verwaltungsaufwand oder mit geringer Interaktion eines Dienstanbieters freigegeben und sodann entsprechend skaliert werden.
Ein Cloudrechenmodell kann aus verschiedenen Eigenschaften zusammengesetzt sein, so beispielsweise On-Demand Self-Service, Broad Network Access, Resource Pooling, Rapid Elasticity, Measured Service und dergleichen. Ein Cloudrechenmodell kann zudem verschiedene Dienstmodelle anbieten, so beispielsweise „Software as a Service“ („SaaS“), „Platform as a Service“ („PaaS“) und „Infrastructure as a Service“ („laaS“). Ein Cloudrechenmodell kann zudem unter Nutzung verschiedener Einsatzmodelle eingesetzt werden, so beispielsweise Private Cloud, Community Cloud, Public Cloud, Hybrid Cloud und dergleichen. In der vorliegenden Beschreibung und in den Ansprüchen ist eine „Cloudrechenumgebung“ eine Umgebung, in der Cloudrechnen bzw. Cloudcomputing eingesetzt wird.
16 zeigt in Form eines Blockdiagramms eine exemplarische Rechenvorrichtung 1600 (beispielsweise die Rechenvorrichtung 1300, die Clientvorrichtung 108 und/oder den Server / die Server 104), die dafür konfiguriert sein kann, einen oder mehrere der vorbeschriebenen Prozesse durchzuführen. Es sollte einsichtig sein, dass das Abweichungsvideoklassifizierungssystem 102 Implementierungen der Rechenvorrichtung 1600 umfassen kann. Wie in 16 gezeigt ist, kann die Rechenvorrichtung einen Prozessor 1602, einen Speicher (Memory) 1604, eine Speichervorrichtung 1606, eine I/O-Schnittstelle 1608 und eine Kommunikationsschnittstelle 1610 umfassen. Des Weiteren kann die Rechenvorrichtung 1600 eine Eingabevorrichtung, so beispielsweise einen berührungsempfindlichen Bildschirm, eine Maus, eine Tastatur und dergleichen, beinhalten. Bei gewissen Ausführungsformen kann die Rechenvorrichtung 1600 weniger oder mehr Komponenten als die in 16 gezeigten beinhalten. Die Komponenten der Rechenvorrichtung 1600, die in 16 gezeigt sind, werden nunmehr detaillierter beschrieben.
Bei bestimmten Ausführungsformen beinhaltet/beinhalten der Prozessor / die Prozessoren 1602 Hardware zum Ausführen von Anweisungen, so beispielsweise solchen, die ein Computerprogramm bilden. Bei einem Beispiel und nicht im Sinne einer Beschränkung kann/können der Prozessor / die Prozessoren 1602 zum Ausführen von Anweisungen die Anweisungen aus einem internen Register, einem internen Cache, dem Memory 1604 oder der Speichervorrichtung 1606 abrufen (oder holen) und sie decodieren und ausführen.
Die Rechenvorrichtung 1600 beinhaltet den Memory 1604, der mit dem Prozessor / den Prozessoren 1602 gekoppelt ist. Der Memory 1604 kann zum Speichern von Daten, Metadaten und Programmen zur Ausführung durch den Prozessor / die Prozessoren benutzt werden. Der Memory 1604 kann eines oder mehrere von flüchtigen und nichtflüchtigen Memorys beinhalten, so beispielsweise einen Speicher mit wahlfreiem Zugriff („RAM“), einen Nur-Lese-Speicher („ROM“), eine Solid-State-Disk („SSD“), einen Flash, einen Phasenänderungsspeicher („PCM“) oder andere Typen von Datenspeicher. Der Memory 1604 kann ein interner oder ein verteilter Memory sein.
Die Rechenvorrichtung 1600 beinhaltet eine Speichervorrichtung 1606 mit einem Speicher zum Speichern von Daten oder Anweisungen. Beispiels- und nicht beschränkungshalber kann die Speichervorrichtung 1606 ein nichttemporäres Speichermedium umfassen, wie es vorstehend beschrieben worden ist. Die Speichervorrichtung 1606 kann ein Festplattenlaufwerk (HDD), einen Flash-Speicher, ein USB-Laufwerk (Universeller Serieller Bus USB) oder eine Kombination aus diesen oder anderen Speichervorrichtungen beinhalten.
Die Rechenvorrichtung 1600 beinhaltet zudem eine oder mehrere 1/0-Vorrichtungen/Schnittstellen 1608 (I/O Input/Output), die dafür vorgesehen sind, einem Nutzer zu ermöglichen, eine Eingabe (so beispielsweise Nutzertastendrücke bzw. Nutzerstriche) für die Rechenvorrichtung 1600 bereitzustellen, eine Ausgabe von dieser zu empfangen und auf andere Weise Daten an diese und von dieser zu transferieren. Die I/O-Vorrichtungen/Schnittstellen 1608 können eine Maus, ein Tastenfeld (Keypad) oder eine Tastatur, einen berührungsempfindlichen Bildschirm (Touchscreen), eine Kamera, einen optischen Scanner, eine Netzwerkschnittstelle, ein Modem, andere bekannte I/O-Vorrichtungen oder eine Kombination aus derartigen I/O-Vorrichtungen/Schnittstellen 1608 beinhalten. Der berührungsempfindliche Bildschirm kann mit einer Schreibvorrichtung oder einem Finger aktiviert werden.
Die I/O-Vorrichtungen/Schnittstellen 1608 können eine oder mehrere Vorrichtungen zum Präsentieren einer Ausgabe gegenüber einem Nutzer beinhalten, darunter unter anderem eine Graphics Engine, eine Anzeige (beispielsweise einen Anzeigebildschirm), einen oder mehrere Ausgabetreiber (beispielsweise Anzeigetreiber), einen oder mehrere Audiolautsprecher und einen oder mehrere Audiotreiber. Bei gewissen Ausführungsformen sind die Vorrichtungen/Schnittstellen 1608 dafür konfiguriert, grafische Daten für eine Anzeige zur Präsentation gegenüber einem Nutzer bereitzustellen. Die grafischen Daten können eine oder mehrere grafische Nutzerschnittstellen und/oder beliebigen anderen grafischen Content, so er für eine bestimmte Implementierung dienlich ist, darstellen.
Die Rechenvorrichtung 1600 kann des Weiteren eine Kommunikationsschnittstelle 1610 beinhalten. Die Kommunikationsschnittstelle 1610 kann Hardware, Software oder beides beinhalten. Die Kommunikationsschnittstelle 1610 kann eine oder mehrere Schnittstellen zur Kommunikation (so beispielsweise zur paketbasierten Kommunikation) zwischen der Rechenvorrichtung und einer oder mehreren anderen Rechenvorrichtungen 1600 oder einem oder mehreren Netzwerken bereitstellen. Beispiels- und nicht beschränkungshalber kann die Kommunikationsschnittstelle 1610 einen Netzwerkschnittstellencontroller (NIC) oder einen Netzwerkadapter zur Kommunikation mit einem Ethernet oder einem anderen drahtbasierten Netzwerk oder einen drahtlosen NIC (WNIC) oder einen Drahtlosadapter zur Kommunikation mit einem Drahtlosnetzwerk, so beispielsweise einem Wl-Fl, beinhalten. Die Rechenvorrichtung 1600 kann des Weiteren einen Bus 1612 beinhalten. Der Bus 1612 kann Hardware, Software oder beides, die Komponenten der Rechenvorrichtung 1600 miteinander koppeln, beinhalten.
In der vorstehenden Beschreibung ist die Erfindung anhand spezifischer exemplarischer Ausführungsformen beschrieben worden. Verschiedene Ausführungsformen und Aspekte der Erfindung/Erfindungen werden anhand der hier erläuterten Details beschrieben, wobei die begleitende Zeichnung die verschiedenen Ausführungsformen zeigt. Die vorstehende Beschreibung und die Zeichnung sind für die Erfindung illustrativ und sollen nicht erfindungsbeschränkend gedeutet werden. Es sind zahlreiche spezifische Details beschrieben worden, um ein eingehendes Verständnis der verschiedenen Ausführungsformen der vorliegenden Erfindung zu ermöglichen.
Die vorliegende Erfindung kann in anderen spezifischen Formen verkörpert sein, ohne von ihrem Wesen oder ihren wesentlichen Eigenschaften abzugehen. Die beschriebenen Ausführungsformen sind in jeder Hinsicht nur als illustrativ und nicht als restriktiv zu betrachten. Die hier beschriebenen Verfahren können beispielsweise mit weniger oder mehr Schritten/Handlungen durchgeführt werden, oder es können die Schritte/Handlungen in anderen Reihenfolgen durchgeführt werden. Zusätzlich können die hier beschriebenen Schritte/Handlungen wiederholt oder parallel zueinander oder parallel zu anderen bzw. verschiedenen Versionen bzw. Instanzen derselben oder ähnlicher Schritte/Handlungen durchgeführt werden. Der Umfang der Erfindung ist daher durch die beigefügten Ansprüche und nicht durch die vorstehende Beschreibung gegeben. Alle Änderungen, die der Bedeutung und dem Äquivalenzbereich der Ansprüche entsprechen, sollen in deren Umfang umfasst sein.

Claims

Nichttransitorisches bzw. nichttemporäres computerlesbares Medium, das Anweisungen umfasst, die bei Ausführung durch wenigstens einen Prozessor eine Rechenvorrichtung veranlassen zum: Extrahieren von Worteinbettungen aus Worten eines Digitalvideos unter Einsatz eines Worteinbettungsmodells; Generieren von kontextualisierten Merkmalsvektoren aus den Worteinbettungen unter Einsatz einer ersten LSTM-Schicht (Long Short-Term Memory LSTM); Generieren von themaspezifischen Merkmalsvektoren aus einem Digitaltextkorpus, das einem Zielthema für das Digitalvideo zugeordnet ist, unter Einsatz einer zweiten LSTM-Schicht; und unter Einsatz eines themaspezifisches Wissen codierenden neuronalen Netzwerkes erfolgenden Generieren einer Themaabweichungsklassifizierung für das Digitalvideo aus den kontextualisierten Merkmalsvektoren aus den Worteinbettungen und den themaspezifischen Merkmalsvektoren aus dem Digitaltextkorpus.
Nichttemporäres computerlesbares Medium nach Anspruch 1, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor die Rechenvorrichtung veranlassen zum: Generieren von themaspezifischen Einbettungen für das Zielthema durch Vergleichen der kontextualisierten Merkmalsvektoren mit Worten aus dem Digitaltextkorpus; und Generieren der themaspezifischen Merkmalsvektoren aus den themaspezifischen Einbettungen unter Einsatz der zweiten LSTM-Schicht.
Nichttemporäres computerlesbares Medium nach Anspruch 2, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor die Rechenvorrichtung veranlassen zum: Generieren der themaspezifischen Einbettungen für das Zielthema durch: Bestimmen von n-Grammen aus den Worten des Digitaltextkorpus; Extrahieren von Korpuseinbettungen aus den n-Grammen, die den Worten des Digitaltextkorpus zugeordnet sind; und für ein bestimmtes Wort innerhalb des Digitalvideos erfolgendes Auswählen eines Teilsatzes der Korpuseinbettungen als themaspezifische Einbettungen, die dem bestimmten Wort zugeordnet sind.
Nichttemporäres computerlesbares Medium nach Anspruch 3, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor die Rechenvorrichtung veranlassen zum: Auswählen des Teilsatzes der Korpuseinbettungen durch: Bestimmen von Ähnlichkeitskennwerten für die Korpuseinbettungen zur Darstellung von Ähnlichkeiten der Korpuseinbettungen in Bezug auf einen kontextualisierten Merkmalsvektor, der dem bestimmten Wort zugeordnet ist; und entsprechend den Ähnlichkeitskennwerten erfolgendes Auswählen einer oder mehrerer Korpuseinbettungen mit Ähnlichkeitskennwerten, die eine Ähnlichkeitsschwelle erfüllen, derart, dass diese in den Teilsatz der Korpuseinbettungen für das bestimmte Wort aufgenommen werden.
Nichttemporäres computerlesbares Medium nach einem der Ansprüche 2 bis 4, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor die Rechenvorrichtung veranlassen zum: Generieren eines themaspezifischen Wissenspools für ein Wort des Digitalvideos durch: unter den themaspezifischen Einbettungen für das Zielthema erfolgendes Auswählen eines Teilsatzes der themaspezifischen Einbettungen, die einem Wort aus dem Digitalvideo zugeordnet sind; und Max-Pooling des Teilsatzes der themaspezifischen Einbettungen, die für das Wort ausgewählt sind.
Nichttemporäres computerlesbares Medium nach einem der Ansprüche 1 bis 5, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor die Rechenvorrichtung veranlassen zum: Generieren der themaspezifischen Merkmalsvektoren in einer sequenziellen Reihenfolge, die durch die Worte des Digitalvideos definiert ist, unter Einsatz der zweiten LSTM-Schicht.
Nichttemporäres computerlesbares Medium nach einem der Ansprüche 1 bis 6, des Weiteren umfassend Anweisungen, die bei Ausführung durch den wenigstens einen Prozessor die Rechenvorrichtung veranlassen zum: Generieren der Themaabweichungsklassifizierung durch Einsetzen des themaspezifisches Wissen codierenden neuronalen Netzwerkes zum Bestimmen einer Wahrscheinlichkeit dafür, dass das Digitalvideo von dem Zielthema für das Digitalvideo abweicht.
System, umfassend: eine oder mehrere Speichervorrichtungen, die ein Digitalvideo umfassen; ein Digitaltextkorpus, das einem Zielthema für das Digitalvideo zugeordnet ist; und ein themaspezifisches Wissen codierendes neuronales Netzwerk, das eine erste LSTM-Schicht, eine zweite LSTM-Schicht und eine Themaabweichungsklassifizierungsschicht umfasst; und eine oder mehrere Rechenvorrichtungen, die dafür konfiguriert sind, das System zu veranlassen zum: unter Einsatz der ersten LSTM-Schicht erfolgenden Generieren von kontextualisierten Merkmalsvektoren aus Worten, die innerhalb des Digitalvideos benutzt werden; Generieren von themaspezifischen Einbettungen durch Vergleichen der kontextualisierten Merkmalsvektoren mit Worten aus dem Digitaltextkorpus; Generieren von themaspezifischen Merkmalsvektoren unter Einsatz der zweiten LSTM-Schicht aus den themaspezifischen Einbettungen; und unter Einsatz der Themaabweichungsklassifizierungsschicht erfolgenden Generieren einer Themaabweichungsklassifizierung für das Digitalvideo aus den themaspezifischen Merkmalsvektoren und den kontextualisierten Merkmalsvektoren.
System nach Anspruch 8, wobei die eine oder die mehreren Rechenvorrichtungen des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: Generieren der kontextualisierten Merkmalsvektoren durch: Extrahieren von Worteinbettungen aus den Worten, die innerhalb des Digitalvideos benutzt werden, unter Einsatz eines Worteinbettungsmodells; und Bestimmen von verborgenen Zuständen, die aus den Worteinbettungen generiert werden, unter Einsatz der ersten LSTM-Schicht.
System nach Anspruch 8 oder 9, wobei die eine oder die mehreren Rechenvorrichtungen des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: Generieren der themaspezifischen Einbettungen durch: Extrahieren von mehreren Korpuseinbettungen aus den Worten des Digitaltextkorpus; Bestimmen von Ähnlichkeitskennwerten für mehrere Korpuseinbettungen in Bezug auf einen kontextualisierten Merkmalsvektor, der einem bestimmten Wort, das in dem Digitalvideo benutzt wird, zugeordnet ist; und als themaspezifische Einbettungen für das bestimmte Wort erfolgendes Auswählen eines Teilsatzes der mehreren Korpuseinbettungen mit Ähnlichkeitskennwerten, die eine Ähnlichkeitsschwelle erfüllen.
System nach Anspruch 10, wobei die eine oder die mehreren Rechenvorrichtungen des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: Bestimmen von mehreren n-Grammen, die den Worten aus dem Digitaltextkorpus zugeordnet sind; und Extrahieren der mehreren Korpuseinbettungen aus den mehreren n-Grammen, die den Worten aus dem Digitaltextkorpus zugeordnet sind.
System nach einem der Ansprüche 8 bis 11, wobei die eine oder die mehreren Rechenvorrichtungen des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: Kombinieren der themaspezifischen Merkmalsvektoren und der kontextualisierten Merkmalsvektoren in verketteten Merkmalsvektoren; Generieren von Wortmerkmalsvektoren aus den verketteten Merkmalsvektoren unter Einsatz einer ersten Feedforward-Schicht der Themaabweichungsklassifizierungsschicht; und Generieren der Themaabweichungsklassifizierung durch Generieren einer Wahrscheinlichkeitsverteilung aus den Wortmerkmalsvektoren unter Einsatz einer zweiten Feedforward-Schicht der Themaabweichungsklassifizierungsschicht.
System nach einem der Ansprüche 8 bis 12, wobei die eine oder die mehreren Rechenvorrichtungen des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: Generieren der themaspezifischen Merkmalsvektoren durch: Generieren eines gesonderten themaspezifischen Merkmalsvektors für jedes Wort, das innerhalb des Digitalvideos benutzt wird.
System nach einem der Ansprüche 8 bis 13, wobei die eine oder die mehreren Rechenvorrichtungen des Weiteren dafür konfiguriert sind, das System zu veranlassen zum: Generieren der Themaabweichungsklassifizierung durch: Klassifizieren des Digitalvideos als thematisch abweichendes Video, wodurch angegeben wird, dass das Digitalvideo von dem Zielthema abweicht.
Computerimplementiertes Verfahren, umfassend: Generieren von mehreren synthetischen Transkripten unter Einsatz eines generativen Sprachmodells, das Parameter umfasst, die aus Transkripten von thematisch abweichenden Videos eingestellt sind; Generieren von hybriden Transkripten durch Kombinieren eines oder mehrerer Transkripte von thematisch abweichenden Videos mit einem oder mehreren Transkripten von thematisch passenden Videos; und Lernen von Parametern für ein themaspezifisches Wissen codierendes neuronales Netzwerk unter Einsatz der synthetischen Transkripte und der hybriden Transkripte.
Computerimplementiertes Verfahren nach Anspruch 15, des Weiteren umfassend: Generieren von Themaabweichungsklassifizierungen für die mehreren synthetischen Transkripte unter Einsatz des themaspezifisches Wissen codierenden neuronalen Netzwerkes; und Auswählen eines oder mehrerer von den mehreren synthetischen Transkripten mit Themaabweichungsklassifizierungen, die die Abweichung von einem Zielthema angeben, zur Aufnahme in einen Probedatensatz zum Lernen der Parameter des themaspezifisches Wissen codierenden neuronalen Netzwerkes.
Computerimplementiertes Verfahren nach Anspruch 15 oder 16, wobei das Generieren der mehreren synthetischen Transkripte umfasst: unter Einsatz des generativen Sprachmodells erfolgendes Bestimmen von Wahrscheinlichkeiten für Worte, die zu jeweiligen Zeitschritten der mehreren synthetischen Transkripte gehören; und Auswählen von Worten zur Hinzufügung zu den mehreren synthetischen Transkripten entsprechend den Wahrscheinlichkeiten bei den jeweiligen Zeitschritten, bis ein Beendigungskriterium erfüllt ist.
Computerimplementiertes Verfahren nach einem der Ansprüche 15 bis 17, wobei das Generieren der hybriden Transkripte umfasst: Ersetzen von Sätzen aus Transkripten von thematisch abweichenden Videos durch Sätze aus Transkripten von thematisch passenden Videos.
Computerimplementiertes Verfahren nach einem der Ansprüche 15 bis 18, wobei das Lernen der Parameter für das themaspezifisches Wissen codierende neuronale Netzwerk umfasst: Zuweisen einer Ground-Truth-Themaabweichungsklassifizierung an ein hybrides Transkript entsprechend einem Prozentanteil von Sätzen, die durch Themasätze aus einem Transkript eines thematisch passenden Videos ersetzt worden sind; Generieren einer vorhergesagten Themaabweichungsklassifizierung für das hybride Transkript unter Einsatz des themaspezifisches Wissen codierenden neuronalen Netzwerkes; und Vergleichen der vorhergesagten Themaabweichungsklassifizierung mit der Ground-Truth-Themaabweichungsklassifizierung.
Computerimplementiertes Verfahren nach einem der Ansprüche 15 bis 19, wobei das Lernen der Parameter für das themaspezifisches Wissen codierende neuronale Netzwerk umfasst: Einsetzen einer kombinierten Verlustfunktion, die eine synthetische Verlustfunktion, die den synthetischen Transkripten zugeordnet ist, und eine hybride Verlustfunktion, die den hybriden Transkripten zugeordnet ist, umfasst.