DE102021209492A1

DE102021209492A1 - Verfahren zum erfassbar machen von gesprochenen Inhalten in Videos für Hörgeschädigte

Info

Publication number: DE102021209492A1
Application number: DE102021209492.9A
Authority: DE
Inventors: Konrad Groh; Matthias Woehrle
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-08-30
Filing date: 2021-08-30
Publication date: 2023-03-02

Abstract

Die Erfindung betrifft ein Verfahren zum erfassbar machen von gesprochenen Inhalten in Videos für Hörgeschädigte, wobei das Verfahren (1) folgende Schritte aufweist: Erfassen von in einem Video dargestellten Objekten (2), für jeden gesprochenen Inhalt in dem Video, Umwandeln des gesprochenen Inhalts in eine Textspur (3), für jede Textspur, Zuordnen der Textspur zu einem dargestellten Objekt, welches mit der Textspur in Zusammenhang steht (4), und für jede Textspur, Darstellen der Textspur während des Abspielen des Videos derart, dass erkennbar ist, dass diese mit dem der Textspur zugeordneten Objekt in Zusammenhang steht, um den gesprochenen Inhalt für Hörgeschädigte erfassbar zu machen (5).

Description

Die Erfindung betrifft ein Verfahren zum erfassbar machen von gesprochenen Inhalten in Videos für Hörgeschädigtem, mit welchem es Hörgeschädigten ermöglicht wird, visuell beispielsweise problemlos einer Konversation oder einem Erklärvideo folgen zu können.
Um es Hörgeschädigten zu ermöglichen, Videos folgen zu können bzw. gesprochene Inhalte in einem Video zu erfassen, ist es bekannt, Untertitel einzusetzen. Diese Untertitel werden dabei jedoch für gewöhnlich ohne Zuordnung zu einem Sprecher eingeblendet, was es Hörgeschädigten beispielsweise erschwert, einer Konversation in dem Video zu folgen.
Unter Video wir hierbei ein Film beziehungsweise ein Videoclip verstanden.
Dabei werden mehr und mehr auch Erklärvideos eingesetzt. Erklärvideos sind dabei Filme, in denen erläutert wird, wie man etwas macht oder wie etwas funktioniert, beziehungsweise in denen abstrakte Konzepte und Zusammenhänge erklärt werden. Beispielsweise können mit einem derartigen Erklärvideo auch die Funktionen einer Werkzeugmaschine oder eines autonom fahrenden Kraftfahrzeuges erläutert beziehungsweise erklärt werden, wobei derartige Erklärvideos für gewöhnlich visuelle Darstellungen beziehungsweise Inhalte und gesprochene Inhalte aufweisen.
Insbesondere bei derartigen Erklärvideos fällt es Hörgeschädigten für gewöhnlich jedoch schwer, den dargestellten Erklärungen zu folgen, insbesondere auch wenn Untertitel ohne Zuordnung zu einer Person beziehungsweise einem Sprecher oder einem beschriebenen Objekt dargestellt werden.
Aus der Druckschrift DE 4 322 562 A1 ist ein Verfahren zur Herstellung eines Filmes mit Untertiteln bekannt, wobei der Sprachtext eines fertigen Filmes digital erfasst, in Einzelworte oder Wortgruppen unterteilt und gespeichert wird, die Einzelworte oder vom Wortsinn her jeweils kleinsten Einheiten einer Wortgruppe mit einer optischen Hervorhebung versehen werden, pro optischer Hervorhebung ein Textbild mit dem jeweiligen Einzelwort oder der Wortgruppe erstellt und gespeichert wird, und der fertige Film mit den gespeicherten Textbildern unter Synchronisation von Sprache und Text gemischt wird.
Der Erfindung liegt somit die Aufgabe zugrunde, ein verbessertes Verfahren zum erfassbar machen von gesprochenem Inhalt in Videos für Hörgeschädigte anzugeben.
Die Aufgabe wird durch ein Verfahren zum erfassbar machen von gesprochenem Inhalt in Videos für Hörgeschädigte mit den Merkmalen des Patentanspruchs 1 gelöst.
Weiter wird die Aufgabe durch ein Steuergerät zum erfassbar machen von gesprochenem Inhalt in Videos für Hörgeschädigte mit den Merkmalen des Patentanspruchs 7 gelöst.
Auch wird die Aufgabe mit einem Computerprogramm mit den Merkmalen des Patentanspruchs 13 und einem computerlesbaren Datenträger mit den Merkmalen des Patentanspruchs 14 gelöst.
Offenbarung der Erfindung
Gemäß einer Ausführungsform der Erfindung wird diese Aufgabe gelöst durch ein Verfahren zum erfassbar machen von gesprochenen Inhalten in Videos für Hörgeschädigte, wobei in einem Video dargestellte Objekte erfasst werden, für jeden gesprochenen Inhalt in dem Video der gesprochenen Inhalt in eine Textspur umgewandelt wird, jede Textspur jeweils zu einem dargestellten Objekt zugeordnet wird, und jede Textspur jeweils während des Videos derart dargestellt wird, dass erkennbar ist, dass diese in Zusammenhang mit dem der Textspur zugeordneten Objekt steht, um den gesprochenen Inhalt für Hörgeschädigte erfassbar zu machen.
Unter Objekten in dem Video werden dabei in dem Video dargestellte Personen beziehungsweise Sprecher und/oder dargestellte Komponenten eines steuerbaren Systems, beispielsweise eines Robotiksystems verstanden.
Das Objekte in dem Video dabei erfasst werden bedeutet, dass in dem Video dargestellte Objekte erkannt werden. Dabei kann auch die Position, an denen die einzelnen Objekte jeweils in einzelnen Bilddaten, aus denen sich das Video zusammensetzt, auftauchen beziehungsweise wo diese positioniert beziehungsweise dargestellt werden, erfasst werden.
Unter Textspuren werden hierbei einzelne Teilsegmente einer Tonbeziehungsweise Audiodatei verstanden. Insbesondere werden dabei gesprochene Inhalte, insbesondere von einer Person zu einem gewissen Zeitpunkt gesprochene Inhalte, oder zu einem gewissen Zeitpunkt gesprochene Inhalte, welche mit einem dargestellten Objekt assoziiert sind, jeweils in eine Textspur beziehungsweise in Text umgewandelt.
Das jede Textspur jeweils einem dargestellten Objekt zugeordnet wird, welches mit der Textspur in Zusammenhang steht, bedeutet ferner, dass jede Textspur der Person beziehungsweise dem Sprecher, welche beziehungsweise welcher den entsprechenden gesprochenen Inhalt gesprochen hat, oder einem in dem entsprechenden gesprochenen Inhalt beschriebenen dargestellten Objekt, beispielsweise einer dargestellten Komponente eines steuerbaren Systems, zugeordnet wird.
Folglich wird somit ein Verfahren angegeben, welches es einem Hörgeschädigten ermöglicht, problemlos einer Konversation innerhalb des Videos zu folgen beziehungsweise problemlos zu erkennen, welches dargestellte Objekt gerade gemeint ist beziehungsweise aktuell beschrieben wird, indem die einzelnen Textspuren beziehungsweise Untertitel derart dargestellt werden, dass diese automatisch mit dem der Textspur zugeordneten Objekt, das heißt dem Sprecher beziehungsweise dem beschriebenen Objekt assoziiert beziehungsweise in Verbindung gebracht werden. Hierdurch wird es einem Hörgeschädigten ermöglicht, das gezeigte besser nachvollziehen zu können. Insgesamt wird somit ein verbessertes Verfahren zum erfassbar machen von gesprochenem Inhalt in Videos für Hörgeschädigte angegeben.
Dabei kann der Schritt des, für jede Textspur, Darstellens der Textspur während des Abspielens des Videos derart, dass erkennbar ist, dass diese mit dem der Textspur zugeordneten Objekt in Zusammenhang steht, ein graphisches und/oder haptisches Hervorheben des zugeordneten Objektes während des Darstellens der Textspur aufweisen. Das graphische Hervorheben kann dabei beispielsweise ein Ändern der Farbe des Objekts, ein Einrahmen des Objektes, oder ein Aufblinken des Objektes während des Darstellens der Textspur aufweisen. Auch kann die Textspur ein Overlay darstellen und das Objekt in der Darstellung überlagern. Ferner können das graphische Hervorheben aber auch ein graphisches Hervorheben des Objektes außerhalb der Videodaten aufweisen, beispielsweise ein Aufblinken oder Aufleuchten einer beschriebenen Komponente eines steuerbaren Systems während des Darstellens der Textspur. Das haptische Hervorheben des Objektes kann weiter beispielsweise ein Vibrieren einer beschriebenen Komponente eines steuerbaren Systems während des Darstellend der Textspur aufweisen.
In einer bevorzugten Ausführungsform wird die Textspur jeweils zeitlich synchronisiert mit dem entsprechenden gesprochenen Inhalt, das heißt dem gesprochenen Inhalt, von dem die Textspur abgeleitet wurde, dargestellt.
Dass die Textspur dabei synchron zu dem entsprechenden Text dargestellt wird bedeutet dabei, dass die einzelnen Textspuren jeweils insbesondere zeitlich auf den entsprechenden gesprochenen Inhalten abgestimmt werden, das heißt jeweils genau während des Zeitraums dargestellt werden, während welchem auch der entsprechende gesprochenen Inhalt gesprochen wird.
Hierdurch kann das Verfahren noch weiter optimiert werden und es Hörgeschädigten noch besser ermöglicht werden, einer Konversation innerhalb des Videos zu folgen beziehungsweise problemlos zu erkennen, welches dargestellte Objekt gerade gemeint ist beziehungsweise aktuell beschrieben wird.
Der Schritt des Erfassens von dargestellten Objekten innerhalb des Videos kann weiter ein Anwenden einer Instanzsegmentierung auf entsprechende Videodaten aufweisen.
Unter Instanzsegmentierung wird hierbei eine Segmentierung beziehungsweise eine Objekterkennung in Bild- beziehungsweise Videodaten verstanden, bei welcher jedem Pixel eine Klassenbezeichnung derart zugeordnet wird, dass mehrere Objekte derselben Klasse als einzelne Objekte/ separate Entitäten behandelt werden.
Hierdurch wird es ermöglicht, einzelne unterschiedlich Objekte in den entsprechenden Videodaten mit geringem Ressourcenverbrauch effizient zu ermitteln.
Zudem kann das Verfahren weiter, für jeden gesprochenen Inhalt in dem Video, ein Ermitteln einer dem gesprochenen Inhalt zugeordneten Emotion aufweisen, wobei der Schritt des Darstellens der Textspur während des Abspielens des Videos ein Darstellen der Textspur basierend auf der dem entsprechenden gesprochenen Inhalt zugeordneten Emotion aufweist.
Unter Emotion wird hierbei eine psychophysische Bewegtheit, welche durch die bewusste oder unbewusste Wahrnehmung eines Ereignisses oder einer Situation ausgelöst wird, verstanden.
Dass die Textspur dabei basierend auf der dem entsprechenden gesprochenen Inhalt zugeordneten Emotionen dargestellt wird bedeutet dabei, dass die Textspur derart dargestellt wird, dass ein Hörgeschädigter nicht nur den gesprochenen Inhalt, sondern auch Emotionen des Sprechers beim Sprechen des entsprechenden gesprochenen Inhalts erfassen beziehungsweise nachvollziehen kann. Beispielsweise kann die Textspur dabei je nach Emotion in einer anderen Schriftart oder in einer anderen Farbe dargestellt werden.
In einer Ausführungsform ist zudem allen in dem Video dargestellten Objekten jeweils wenigstens eine Funktion zugeordnet, wobei das Verfahren, für jede Textspur, ein Aktivieren der dem der Textspur zugeordneten Objekt zugeordneten wenigstens einen Funktion während des Darstellens der Textspur und ein gleichzeitiges Deaktivieren von anderen in dem Video dargestellten Objekten zugeordneten Funktionen während des Darstellens der Textspur aufweist.
Bei den Funktionen kann es sich dabei beispielsweise um Funktionen eines steuerbaren Systems, beispielsweise um Fahrerassistenzfunktionen eines autonom fahrenden Kraftfahrzeuges handeln.
Hierdurch wird erreicht, dass zu einem Zeitpunkt während des Ansehens eines Erklärvideos auch nur die aktuell in einem Erklärvideo, beispielsweise in einem zur Hilfe beim Betätigen einer Funktion eines steuerbaren Systems angebotenen Erklärvideos, tatsächlich beschriebe Funktion aktiviert beziehungsweise betätigt werden kann, wodurch weiter sichergestellt werden kann, dass auch wenn ein Hörgeschädigter die dargestellten Informationen, trotz allem, falsch verstehen sollte, dieser nicht versehentlich eine falsche beziehungsweise eine andere als die aktuell tatsächlich beschriebene Funktion aktivieren beziehungsweise betätigen kann.
Mit einer weiteren Ausführungsform der Erfindung wird weiter auch ein Steuergerät zum erfassbar machen von gesprochenem Inhalt in Videos für Hörgeschädigte angegeben, wobei das Steuergerät eine Erfassungseinheit, welche ausgebildet ist, in einem Video dargestellte Objekte zu erfassen, eine Spracherkennungseinheit, welche ausgebildet ist, für jeden gesprochenen Inhalt in dem Video, den gesprochenen Inhalt in eine Textspur umzuwandeln, eine Zuordnungseinheit, welche ausgebildet ist, für jede Textspur, die Textspur zu einem dargestellten Objekt zuzuordnen, welches mit der Textspur in Zusammenhang steht, und eine Darstellungseinheit, welche ausgebildet ist, für jede Textspur, die Textspur während des Abspielens des Videos derart darzustellen, dass erkennbar ist, dass diese mit dem der Textspur zugeordneten Objekt in Zusammenhang, um den gesprochenen Inhalt für Hörgeschädigte erfassbar zu machen, aufweist.
Somit wird ein Steuergerät angegeben, welches ausgebildet ist, es einem Hörgeschädigten zu ermöglichen, problemlos einer Konversation innerhalb eines Videos zu folgen beziehungsweise problemlos zu erkennen, welches dargestellte Objekt gerade gemeint ist beziehungsweise aktuell beschrieben wird, indem die einzelnen Textspuren beziehungsweise Untertitel derart dargestellt werden, dass diese automatisch mit dem der Textspur zugeordneten Objekt, das heißt dem Sprecher beziehungsweise dem beschriebenen Objekt assoziiert beziehungsweise in Verbindung gebracht werden. Hierdurch wird es einem Hörgeschädigten ermöglicht, das gezeigte besser nachvollziehen zu können. Insgesamt wird somit ein verbessertes Steuergerät zum erfassbar machen von gesprochenem Inhalt in Videos für Hörgeschädigte angegeben.
Dabei kann die Darstellungseinheit ausgebildet sein, für jede Textspur, dass der Textspur zugeordnete Objekt während des Darstellens der Textspur graphisch und/oder haptisch hervorzuheben. Die Darstellungseinheit kann dabei beispielsweise wiederum derart ausgebildet sein, das Objekt beispielsweise durch Ändern der Farbe des Objekts, Einrahmen des Objektes, oder Aufblinken lassen des Objektes während der Darstellung der Textspur graphisch hervorzuheben. Auch kann die Textspur ein Overlay darstellen und das Objekt in der Darstellung überlagern. Ferner kann das graphische Hervorheben aber auch ein graphisches Hervorheben des Objektes außerhalb der Videodaten aufweisen, beispielsweise ein Aufblinken oder Aufleuchten einer in einem Erklärvideo aktuell beschriebenen Komponente eines steuerbaren Systems. Das haptische Hervorheben des Objektes kann weiter beispielsweise ein Vibrieren einer in einem Erklärvideo aktuell beschriebenen Komponente eines steuerbaren Systems aufweisen.
In einer Ausführungsform ist die Darstellungseinheit weiter ausgebildet, jede Textspur innerhalb des Videos jeweils derart darzustellen, dass diese zeitlich synchron, mit dem entsprechende gesprochenen Inhalt dargestellt wird. Hierdurch kann das Steuergerät noch weiter optimiert werden und es Hörgeschädigten noch besser ermöglicht werden, einer Konversation innerhalb des Videos zu folgen beziehungsweise problemlos zu erkennen, welches dargestellte Objekt gerade gemeint ist beziehungsweise aktuell beschrieben wird.
Die Erfassungseinheit kann weiter ausgebildet sein, eine Instanzsegmentierung auf entsprechende Videodaten anzuwenden. Die Erfassungseinheit kann somit ausgebildet sein, einzelne unterschiedlich Objekte in den Videodaten mit geringem Ressourcenverbrauch effizient zu ermitteln.
Zudem kann das Steuergerät weiter eine Ermittlungseinheit zum Ermitteln von, für jeden gesprochenen Inhalt, einer dem gesprochenen Inhalt zugeordneten Emotion aufweisen, wobei die Darstellungseinheit ausgebildet ist, für jede Textspur, die Textspur während des Abspielens des Videos basierend auf der dem entsprechenden gesprochenen Inhalt zugeordneten Emotion darzustellen. Dass die Textspur dabei basierend auf der dem entsprechenden gesprochenen Inhalt zugeordneten Emotionen dargestellt wird bedeutet dabei wiederum, dass die Textspur derart dargestellt wird, dass ein Hörgeschädigter nicht nur den gesprochenen Inhalt, sondern auch Emotionen des Sprechers beim Sprechen des entsprechenden gesprochenen Inhalts erfassen beziehungsweise nachvollziehen kann.
Auch kann allen in dem Video dargestellten Objekten jeweils wenigstens eine Funktion zugeordnet sein, wobei das Steuergerät weiter eine Aktivierungseinheit, welche ausgebildet ist, für jede Textspur, die dem der Textspur zugeordneten Objekt zugeordnete wenigstens eine Funktion während des Darstellens der Textspur zu aktivieren und gleichzeitig anderen in dem Video dargestellten Objekten zugeordnete Funktionen während des Darstellens der Textspur zu deaktivieren, aufweist. Hierdurch wird wiederum erreicht, dass zu einem Zeitpunkt während des Ansehens eines Erklärvideos auch nur die aktuell in einem Erklärvideo, beispielsweise in einem zur Hilfe beim Betätigen einer Funktion eines steuerbaren Systems angebotenen Erklärvideo, tatsächlich beschriebe Funktion aktiviert beziehungsweise betätigt werden kann, wodurch weiter sichergestellt werden kann, dass auch wenn ein Hörgeschädigter die dargestellten Informationen, trotz allem, falsch verstehen sollte, dieser nicht versehentlich eine falsche beziehungsweise eine andere als die aktuell tatsächlich beschriebene Funktion aktivieren beziehungsweise betätigen kann.
Mit einer weiteren Ausführungsform der Erfindung wird weiter auch ein Computerprogramm mit Programmcode, um ein obenstehend beschriebenes Verfahren zum erfassbar machen von gesprochenem Inhalt in Videos für Hörgeschädigte auszuführen, wenn das Computerprogramm auf einem Computer ausgeführt wird, angegeben.
Mit einer weiteren Ausführungsform der Erfindung wird zudem auch ein computerlesbarer Datenträger mit Programmcode eines Computerprogramms, um ein obenstehend beschriebenes Verfahren zum erfassbar machen von gesprochenem Inhalt in Videos für Hörgeschädigte auszuführen, wenn das Computerprogramm auf einem Computer ausgeführt wird, angegeben.
Ein derartiges Computerprogramm beziehungsweise ein derartiger computerlesbarer Datenträger haben dabei den Vorteil, dass mit diesen jeweils ein verbessertes Verfahren zum erfassbar machen von gesprochenem Inhalt in Videos für Hörgeschädigte ausgeführt werden kann. Insbesondere kann mit diesen ein Verfahren ausgeführt werden, welches es einem Hörgeschädigten ermöglicht, problemlos einer Konversation innerhalb des Videos zu folgen beziehungsweise problemlos zu erkennen, welches dargestellte Objekt gerade gemeint ist beziehungsweise aktuell beschrieben wird, indem die einzelnen Textspuren beziehungsweise Untertitel derart dargestellt werden, dass diese automatisch mit dem der Textspur zugeordneten Objekt, das heißt dem Sprecher beziehungsweise dem beschriebenen Objekt assoziiert beziehungsweise in Verbindung gebracht werden können. Hierdurch wird es einem Hörgeschädigten ermöglicht, das Gezeigte besser nachvollziehen zu können.
Zusammenfassend ist festzustellen, dass mit der vorliegenden Erfindung ein Verfahren zum erfassbar machen von gesprochenen Inhalten in Videos für Hörgeschädigtem angegeben wird, mit welchem es Hörgeschädigten ermöglicht wird, visuell beispielsweise problemlos einer Konversation oder einem Erklärvideo folgen zu können.
Die beschriebenen Ausgestaltungen und Weiterbildungen lassen sich beliebig miteinander kombinieren.
Weitere mögliche Ausgestaltungen, Weiterbildungen und Implementierungen der Erfindung umfassen auch nicht explizit genannte Kombinationen von zuvor oder im Folgenden bezüglich der Ausführungsbeispiele beschriebenen Merkmale der Erfindung.
Figurenliste
Die beiliegenden Zeichnungen sollen ein weiteres Verständnis der Ausführungsformen der Erfindung vermitteln. Sie veranschaulichen Ausführungsformen und dienen im Zusammenhang mit der Beschreibung der Erklärung von Prinzipien und Konzepten der Erfindung.
Andere Ausführungsformen und viele der genannten Vorteile ergeben sich im Hinblick auf die Zeichnungen. Die dargestellten Elemente der Zeichnungen sind nicht notwendigerweise maßstabsgetreu zueinander gezeigt.
Es zeigen:

1 ein Flussdiagramm eines Verfahrens zum erfassbar machen von gesprochenen Inhalten in Videos für Hörgeschädigte gemäß Ausführungsformen der Erfindung; und
2 ein schematisches Blockschaltbild eines Steuergerätes zum erfassbar machen von gesprochenen Inhalten in Videos für Hörgeschädigte gemäß Ausführungsformen der Erfindung.

In den Figuren der Zeichnungen bezeichnen gleiche Bezugszeichen gleiche oder funktionsgleiche Elemente, Bauteile oder Komponenten, soweit nichts Gegenteiliges angegeben ist.
1 zeigt ein Flussdiagramm eines Verfahrens 1 zum erfassbar machen von gesprochenen Inhalten in Videos für Hörgeschädigte gemäß Ausführungsformen der Erfindung.
Um es Hörgeschädigten zu ermöglichen, Videos zu folgen beziehungsweise gesprochenen Inhalten in einem Video zu erfassen, ist es bekannt, Untertitel einzusetzen. Diese Untertitel werden dabei jedoch für gewöhnlich ohne Zuordnung zu einem Sprecher eingeblendet, was es Hörgeschädigten beispielsweise erschwert, einer Konversation in dem Video zu folgen.
Unter Video wir hierbei ein Film beziehungsweise ein Videoclip verstanden.
Dabei werden mehr und mehr auch Erklärvideos eingesetzt. Erklärvideos sind dabei Filme, in denen erläutert wird, wie man etwas macht oder wie etwas funktioniert, beziehungsweise in denen abstrakte Konzepte und Zusammenhänge erklärt werden. Beispielsweise können mit einem derartigen Erklärvideo auch die Funktionen einer Werkzeugmaschine oder eines autonom fahrenden Kraftfahrzeuges erläutert beziehungsweise erklärt werden, wobei derartige Erklärvideos für gewöhnlich visuelle Darstellungen beziehungsweise Inhalte und gesprochene Inhalte aufweisen.
Insbesondere bei derartigen Erklärvideos fällt es Hörgeschädigten für gewöhnlich jedoch schwer, den dargestellten Erklärungen zu folgen, insbesondere wenn Untertitel ohne Zuordnung zu einer Person beziehungsweise einem Sprecher oder einem beschriebenen Objekt dargestellt werden.
1 zeigt dabei ein Verfahren 1 zum erfassbar machen von gesprochenen Inhalten in Videos für Hörgeschädigte, wobei in einem ersten Schritt 2 dargestellte Objekte in einem Video erfasst werden, in einem Schritt 3 für jeden gesprochenen Inhalt in dem Video der gesprochenen Inhalt in eine Textspur umgewandelt wird, in einem Schritt 4 jede Textspur jeweils zu einem dargestellten Objekt zugeordnet wird, und in einem Schritt 5 jede Textspur beim Abspielen jeweils des Videos derart dargestellt wird, dass erkennbar ist, dass diese mit dem der Textspur zugeordneten Objekt in Zusammenhang steht, um den gesprochenen Inhalt für Hörgeschädigte erfassbar zu machen.
Unter Objekten in dem Video werden dabei wiederum dargestellte Personen und/oder dargestellte Komponenten eines steuerbaren Systems, beispielsweise eines Robotiksystems verstanden.
Dabei kann das Erfassen von Objekten in Schritt 2 ein jeweiliges Erkennen von Objekten in den einzelnen Bilddaten, aus denen sich das Video zusammensetzt, beispielsweise mittels eines Erkennungs- oder Bildklassifizierungsalgorithmus aufweisen, wobei anschließend auch jeweils die Position des erkannten Objektes in den entsprechenden Bilddaten abgeleitet werden kann. Sollte sich die Position, an welcher ein Objekt dargestellt ist, über die Zeit beziehungsweise die Dauer des Videos ändern, können die einzelnen Positionen dabei getrackt beziehungsweise über die Zeit erfasst und zusammen mit entsprechenden Zeitinformationen, beispielsweise jeweils einem Zeitstempel, abgespeichert werden.
Zum Umwandeln von gesprochenem Inhalt in eine Textspur in Schritt 3 kann weiter ein Spracherkennungsalgorithmus verwendet werden. Ferner können die einzelnen Textspuren aber auch aus einem Manuskript beziehungsweise dem Video zugrundeliegenden Drehbuch abgeleitet werden, soweit dieses vorliegt.
Die Zuordnung von Textspuren zu dargestellten Objekten in Schritt 4 kann weiter beispielsweise basierend auf dem Inhalt und/oder dem Kontext des gesprochen Inhalts beziehungsweise der Textspur, basierend auf dem Manuskript oder dem, dem Video zugrundeliegendem Drehbuch, oder auch basierend auf beispielsweise basierend auf dem Kontext oder Gesten erkannten, dargestellten Emotionen, beispielsweise Mundbewegungen einzelner dargestellter Personen oder anderen Algorithmen zur Sprecherkennung erfolgen.
Gemäß den Ausführungsformen der 1 wird somit folglich ein Verfahren 1 angegeben, welches es einem Hörgeschädigten ermöglicht, problemlos einer Konversation innerhalb des Videos zu folgen beziehungsweise problemlos zu erkennen, welches dargestellte Objekt gerade gemeint ist beziehungsweise aktuell beschrieben wird, indem die einzelnen Textspuren beziehungsweise Untertitel derart dargestellt werden, dass erkennbar ist, dass eine Textspur mit dem der Textspur zugeordneten Objekt, das heißt dem Sprecher beziehungsweise dem beschriebenen Objekt in Zusammenhang steht und diese folglich automatisch mit dem Objekt assoziiert beziehungsweise in Verbindung gebracht werden kann. Hierdurch wird es einem Hörgeschädigten ermöglicht, das Gezeigte besser nachvollziehen zu können. Insgesamt wird somit ein verbessertes Verfahren 1 zum erfassbar machen von gesprochenem Inhalt in Videos für Hörgeschädigte angegeben.
Beispielsweise kann dabei ein Video, welches eine Videosequenz und eine Tonspur aufweist, bereitgestellt werden, wobei aus den einzelnen Bildern beziehungsweise Bilddaten der Videosequenz Sprecher identifiziert und jeweils die Positionen der identifizierten Sprechern bestimmt werden, aus der Tonspur beziehungsweise gesprochenen Inhalten jeweils die Textspur eines Sprechers sowie gegebenenfalls noch den gesprochenen Text beschreibende Merkmale extrahiert werden, und wobei anschließend die identifizierten Sprecher mit den entsprechenden Textspuren in Zusammenhang gebracht werden und der Zusammenhang anschließend beim Abspielen des Videos beispielsweise graphisch symbolisiert beziehungsweise verdeutlicht wird, indem beispielsweise der jeweilige Sprecher graphisch hervorgehoben, beispielsweise eingefärbt wird.
Auch können in einem Erklärvideo während einzelner Textspuren beschriebene Objekte, beispielsweise Funktionen oder Komponenten eines steuerbaren Systems identifiziert werden, können die Textspuren anschließend mit den entsprechenden Objekten assoziiert beziehungsweise in Zusammenhang gebracht werden, und kann während des Abspielens des Erklärvideos dieser Zusammenhang jeweils symbolisiert beziehungsweise hervorgehoben werden, indem beispielsweise eine aktuell beschriebene Komponente des steuerbaren Systems aufleuchtet oder vibriert.
Gemäß den Ausführungsformen der 1 weist der Schritt 5 des, für jede Textspur, Darstellens der Textspur während des Abspielens des Videos derart, dass der Zusammenhang zwischen der Textspur und dem der Textspur zugeordneten Objekt erkennbar ist, ein graphisches und/oder haptisches Hervorheben des zugeordneten Objektes während der Darstellung der Textspur auf. Das graphische Hervorheben kann dabei beispielsweise ein Ändern der Farbe des Objekts, ein Einrahmen des Objektes, oder ein Aufblinken lassen des Objektes während des Abspielens des Videos aufweisen. Auch kann die Textspur ein Overlay darstellen und das Objekt in der Darstellung überlagern. Ferner können das graphische Hervorheben aber auch ein graphisches Hervorheben des Objektes außerhalb der Videodaten aufweisen, beispielsweise ein Aufblinken oder Aufleuchten einer in einem Erklärvideo aktuell beschriebenen Komponente eines steuerbaren Systems. Das haptische Hervorheben des Objektes kann weiter beispielsweise ein Vibrieren einer in einem Erklärvideo aktuell beschriebenen Komponente eines steuerbaren Systems aufweisen.
Gemäß den Ausführungsform ist die Darstellung der Textspuren zudem jeweils zeitlich mit der entsprechenden Textspur synchronisiert beziehungsweise zeitlich auf diese abgestimmt, was beispielsweise basierend auf entsprechenden Zeitstempeln erfolgen kann.
Gemäß den Ausführungsformen der 1 weist der Schritt 2 des Erfassens von dargestellten Objekten innerhalb des Videos zudem ein Anwenden einer Instanzsegmentierung auf entsprechende Videodaten auf.
Weiter zeigt 1 einen Schritt 6 einen Schritt eines, für jeden gesprochenen Inhalt in dem Video, Ermittelns einer dem gesprochenen Inhalt zugeordneten Emotion, wobei der Schritt 5 des Darstellens der Textspur während des Abspielens des Videos ein Darstellen der Textspur basierend auf der dem entsprechenden gesprochenen Inhalt zugeordneten Emotion aufweist. Die Emotionen können dabei wieder beispielsweise basierend auf einem Manuskript beziehungsweise zugrundeliegenden Drehbuch, oder beispielsweise basierend auf dem Kontext oder Gesten erkannten, dargestellten Emotionen erfasst werden.
Gemäß den Ausführungsformen der 1 ist zudem allen in dem Video dargestellten Objekten jeweils wenigstens eine Funktion zugeordnet, wobei das Verfahren weiter einen Schritt 7 eines, für jede Textspur, Aktivieren der dem der Textspur zugeordneten Objekt zugeordneten wenigstens einen Funktion während des Darstellens der Textspur und eines gleichzeitigen Deaktivierens von anderen in dem Video dargestellten Objekten zugeordneten Funktionen während des Darstellens der Textspur, aufweist.
2 zeigt ein schematisches Blockschaltbild eines Steuergerätes 10 zum erfassbar machen von gesprochenen Inhalten in Videos für Hörgeschädigte gemäß Ausführungsformen der Erfindung.
Wie 2 zeigt, weist das Steuergerät 10 dabei eine Erfassungseinheit 11, welche ausgebildet ist, in einem Video dargestellte Objekte zu erfassen und diese gegebenenfalls auch zu lokalisieren, eine Spracherkennungseinheit 12, welche ausgebildet ist, für jeden gesprochenen Inhalt in dem Video, den gesprochenen Inhalt in eine Textspur umzuwandeln, eine Zuordnungseinheit 13, welche ausgebildet ist, für jede Textspur, die Textspur zu einem dargestellten Objekt zuzuordnen, welches mit der Textspur in Zusammenhang steht, und eine Darstellungseinheit 14, welche ausgebildet ist, für jede Textspur, die Textspur während des Abspielens des Videos derart darzustellen, dass erkennbar ist, dass diese mit dem der Textspur zugeordneten Objekt in Zusammenhang steht, um den gesprochenen Inhalt für Hörgeschädigte erfassbar zu machen, auf.
Die Erfassungseinheit kann dabei beispielsweise basierend auf entsprechendem in einem Speicher hinterlegten und durch einen Prozessor ausführbaren Code realisiert werden, wobei der Code beispielsweise ausgebildet sein kann, eine Instanzsegmentierung auszuführen. Bei der Spracherkennungseinheit kann es sich weiter beispielsweise um ein computerimplementiertes Spracherkennungsmodul handeln, wohingegen die Zuordnungseinheit wiederum beispielsweise basierend auf entsprechendem in einem Speicher hinterlegten und durch einen Prozessor ausführbaren Code realisiert werden kann. Bei dem Anzeigemodul kann es sich ferner beispielsweise um eine Anzeige mit einem Anzeigesteuergerät handeln.
Gemäß den Ausführungsformen der 2 ist die Darstellungseinheit 14 dabei insbesondere ausgebildet, für jede Textspur das der Textspur zugeordnete Objekt während des Darstellens der Textspur graphisch und/oder haptisch hervorzuheben. Insbesondere ist die Darstellungseinheit 13 ausgebildet, in einem Erklärvideo beschriebenen Komponente eines steuerbaren Systems aufleuchten oder vibrieren zu lassen.
Auch ist die dargestellte Darstellungseinheit 14 wiederum ausgebildet, jede Textspur innerhalb des Videos jeweils derart darzustellen, dass diese zeitlich synchron mit dem entsprechende gesprochenen Inhalt dargestellt wird.
Wie 2 weiter zeigt, weist das Steuergerät 10 weiter eine Ermittlungseinheit 15, welche ausgebildet ist, für jeden gesprochenen Inhalt, eine dem gesprochenen Inhalt zugeordnete Emotion zu ermitteln, auf, wobei die Darstellungseinheit 14 ausgebildet ist, für jede Textspur, die Textspur innerhalb des Videos basierend auf der dem entsprechenden gesprochenen Inhalt zugeordneten Emotion darzustellen.
Die Ermittlungseinheit kann dabei beispielsweise wiederum basierend auf entsprechendem in einem Speicher hinterlegten und durch einen Prozessor ausführbaren Code realisiert werden, wobei der Code beispielsweise ausgebildet sein kann, die Emotionen aus einem Manuskript oder einem dem Video zugrundeliegenden Drehbuch abzuleiten. Ferner kann die Ermittlungseinheit aber beispielsweise auch eine Gestenerfassungseinheit aufweisen.
Gemäß den Ausführungsformen der 2 ist zudem allen in dem Video dargestellten Objekten jeweils wenigstens eine Funktion zugeordnet, wobei das Steuergerät 10 weiter eine Aktivierungseinheit 16, welche ausgebildet ist, für jede Textspur, die dem der Textspur zugeordneten Objekt zugeordnete wenigstens eine Funktion während des Darstellens der Textspur zu aktivieren und gleichzeitig anderen in dem Video dargestellten Objekten zugeordnete Funktionen während des Darstellens der Textspur zu deaktivieren, aufweist.
Die Aktivierungseinheit kann dabei wiederum beispielsweise basierend auf entsprechendem in einem Speicher hinterlegten und durch einen Prozessor ausführbaren Code realisiert werden.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

DE 4322562 A1 [0006]

Claims

Verfahren zum erfassbar machen von gesprochenen Inhalten in Videos für Hörgeschädigte, wobei das Verfahren (1) folgende Schritte aufweist: - Erfassen von in einem Video dargestellten Objekten (2); - Für jeden gesprochenen Inhalt in dem Video, Umwandeln des gesprochenen Inhalts in eine Textspur (3); - Für jede Textspur, Zuordnen der Textspur zu einem dargestellten Objekt, welches mit der Textspur in Zusammenhang steht (4); und - Für jede Textspur, Darstellen der Textspur während des Abspielens des Videos derart, dass erkennbar ist, dass diese mit dem der Textspur zugeordneten Objekt in Zusammenhang steht, um den gesprochenen Inhalt für Hörgeschädigte erfassbar zu machen (5).
Verfahren nach Anspruch 1, wobei der Schritt (5) des, für jede Textspur, Darstellens der Textspur während des Abspielens des Videos derart, dass erkennbar ist, dass diese mit dem der Textspur zugeordneten Objekt in Zusammenhang steht, ein graphisches und/oder haptisches Hervorheben des der Textspur zugeordneten Objektes während des Darstellens der Textspur aufweist.
Verfahren nach Anspruch 1 oder 2, wobei der Schritt (5) des, für jede Textspur, Darstellens der Textspur ein Darstellen der Textspur während des Abspielens des Videos derart, dass diese zeitlich synchronisiert mit dem entsprechenden gesprochenen Inhalt dargestellt wird, aufweist.
Verfahren nach einem der Ansprüche 1 bis 3, wobei der Schritt (2) des Erfassens von dargestellten Objekten innerhalb des Videos ein Anwenden einer Instanzsegmentierung auf entsprechende Videodaten aufweist.
Verfahren nach einem der Ansprüche 1 bis 4, wobei das Verfahren (1) weiter einen Schritt (6) eines, für jeden gesprochenen Inhalt in dem Video, Ermittelns einer dem gesprochenen Inhalt zugeordneten Emotion aufweist, und wobei, für jede Textspur, der Schritt (5) des Darstellens der Textspur während des Abspielens des Videos ein Darstellen der Textspur basierend auf der dem entsprechenden gesprochenen Inhalt zugeordneten Emotion aufweist.
Verfahren nach einem der Ansprüche 1 bis 5, wobei allen in dem Video dargestellten Objekten jeweils wenigstens eine Funktion zugeordnet ist, und wobei das Verfahren (1) weiter folgenden Schritt aufweist: - Für jede Textspur, Aktivieren der dem der Textspur zugeordneten Objekt zugeordneten wenigstens einen Funktion während des Darstellens der Textspur und gleichzeitiges Deaktivieren von anderen in dem Video dargestellten Objekten zugeordneten Funktionen während des Darstellens der Textspur (7).
Steuergerät zum erfassbar machen von gesprochenem Inhalt in Videos für Hörgeschädigte, wobei das Steuergerät (10) eine Erfassungseinheit (11), welche ausgebildet ist, in einem Video dargestellte Objekte zu lokalisieren, eine Spracherkennungseinheit (12), welche ausgebildet ist, für jeden gesprochenen Inhalt in dem Video, den gesprochenen Inhalt in eine Textspur umzuwandeln, eine Zuordnungseinheit (13), welche ausgebildet ist, für jede Textspur, die Textspur zu einem dargestellten Objekt zuzuordnen, welches mit der Textspur in Zusammenhang steht, und eine Darstellungseinheit (14), welche ausgebildet ist, für jede Textspur, die Textspur während des Abspielens des Videos derart darzustellen, dass erkennbar ist, dass diese mit dem der Textspur zugeordneten Objekt in Zusammenhang steht, um den gesprochenen Inhalt für Hörgeschädigte erfassbar zu machen, aufweist.
Steuergerät nach Anspruch 7, wobei die Darstellungseinheit (14) weiter ausgebildet ist, für jede Textspur, dass der Textspur zugeordnete Objekt während der Darstellung der Textspur graphisch und/oder haptisch hervorzuheben.
Steuergerät nach Anspruch 7 oder 8, wobei die Darstellungseinheit (14) weiter ausgebildet ist, jede Textspur während des Abspielens des Videos jeweils derart darzustellen, dass diese zeitlich synchron mit dem entsprechend gesprochenen Inhalt dargestellt wird.
Steuergerät nach einem der Ansprüche 7 bis 9, wobei die Erfassungseinheit (11) ausgebildet ist, eine Instanzsegmentierung auf entsprechende Videodaten anzuwenden.
Steuergerät nach einem der Ansprüche 7 bis 10, wobei das Steuergerät (10) weiter eine Ermittlungseinheit (15), welche ausgebildet ist, für jeden gesprochenen Inhalt, eine dem gesprochenen Inhalt zugeordnete Emotion zu ermitteln, aufweist, und wobei die Darstellungseinheit (14) ausgebildet ist, für jede Textspur, die Textspur während des Abspielens des Videos basierend auf der dem entsprechenden gesprochenen Inhalt zugeordneten Emotion darzustellen.
Steuergerät nach einem der Ansprüche 7 bis 11, wobei allen in dem Video dargestellten Objekten jeweils wenigstens eine Funktion zugeordnet ist, und wobei das Steuergerät (10) weiter eine Aktivierungseinheit (16), welche ausgebildet ist, für jede Textspur, die dem der Textspur zugeordneten Objekt zugeordnete wenigstens eine Funktion während des Darstellens der Textspur zu aktivieren und gleichzeitig anderen in dem Video dargestellten Objekten zugeordnete Funktionen während des Darstellens der Textspur zu deaktivieren.
Computerprogramm mit Programmcode, um ein Verfahren nach einem der Ansprüche 1 bis 6 auszuführen, wenn das Computerprogramm auf einem Computer ausgeführt wird.
Computerlesbarer Datenträger mit Programmcode eines Computerprogramms, um ein Verfahren nach einem der Ansprüche 1 bis 6 auszuführen, wenn das Computerprogramm auf einem Computer ausgeführt wird.