DE102019126688A1 - System und verfahren zur automatischen untertitelanzeige - Google Patents

System und verfahren zur automatischen untertitelanzeige Download PDF

Info

Publication number
DE102019126688A1
DE102019126688A1 DE102019126688.2A DE102019126688A DE102019126688A1 DE 102019126688 A1 DE102019126688 A1 DE 102019126688A1 DE 102019126688 A DE102019126688 A DE 102019126688A DE 102019126688 A1 DE102019126688 A1 DE 102019126688A1
Authority
DE
Germany
Prior art keywords
display
subtitle data
room
language
display content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102019126688.2A
Other languages
English (en)
Inventor
Girisha Ganapathy
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harman International Industries Inc
Original Assignee
Harman International Industries Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harman International Industries Inc filed Critical Harman International Industries Inc
Publication of DE102019126688A1 publication Critical patent/DE102019126688A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/41422Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance located in transportation means, e.g. personal vehicle
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/4302Content synchronisation processes, e.g. decoder synchronisation
    • H04N21/4307Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen
    • H04N21/43074Synchronising the rendering of multiple content streams or additional data on devices, e.g. synchronisation of audio on a mobile phone with the video output on the TV screen of additional data with content streams on the same device, e.g. of EPG data or interactive icon with a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4856End-user interface for client configuration for language selection, e.g. for the menu or subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling

Abstract

Die vorliegende Offenbarung betrifft Systeme, Vorrichtungen und Verfahren zur automatischen Untertitelanzeige. In einer Ausführungsform wird ein Verfahren bereitgestellt, beinhaltend Bestimmen einer Unterhaltungssprache für einen Raum und Identifizieren von Anzeigeinhalt, der in dem Raum auf einer Anzeige dargestellt wird. Das Verfahren kann auch das Anfordern von Untertiteldaten für den Anzeigeinhalt basierend auf der für den Raum bestimmten Unterhaltungssprache und Steuern, durch die Steuervorrichtung, der Darstellung von Untertiteldaten für den Anzeigeinhalt zur Ausgabe auf der Vorrichtung beinhalten, wobei die dargestellten Untertiteldaten für die bestimmte Unterhaltungssprache ausgewählt werden. Prozesse und Konfigurationen können das Bestimmen der Unterhaltungssprache durch eine oder mehrere der Einstellungen für Spracherkennung, Gesichtserkennung und Benutzerprofil beinhalten. Darüber hinaus kann eine automatische Untertitelanzeige für Anzeigen in einer Fahrzeugkabine und Sichtbereiche einer Anzeigevorrichtung im Allgemeinen vorgesehen werden.

Description

  • GEBIET
  • Die vorliegende Offenbarung betrifft Systeme, Verfahren und Vorrichtungen zum Steuern von Anzeigeelementen, insbesondere die Darstellung der automatischen Untertitelanzeige für Anzeigevorrichtungen und Fahrzeuge.
  • ALLGEMEINER STAND DER TECHNIK
  • Medieninhalt beinhaltet typischerweise Ton in einer einzigen Sprache. Manchmal werden Audiodaten für den Medieninhalt so synchronisiert, dass zusätzliche oder ergänzende Aufnahmen in einem Nachbearbeitungsprozess den ursprünglichen Produktionston ersetzen. Die Synchronisation von Ton für Medieninhalte kann arbeitsintensiv sein. Darüber hinaus wird die Tonqualität der Medien oft beeinträchtigt. Für viele Arten von Medien wünschen sich die Betrachter die Fähigkeit, die Stimme oder Sprache der Medien zu verstehen. Einige Sendeformate beinhalten sekundäres Audio, das die Medien begleitet, und die Medienabspielvorrichtung kann so eingestellt werden, dass sie Untertitel beinhaltet. Es besteht die Notwendigkeit, Anzeigevorrichtungen zusätzliche Untertitelinformationen bereitzustellen, die nicht auf einen festen Satz von Untertitelinformationen beschränkt sind, die mit den Medien bereitgestellt werden.
  • Viele Anzeigevorrichtungen sind nicht dazu konfiguriert, andere Inhalte als Informationen bereitzustellen, die von einer Eingabe empfangen werden. Herkömmliche Anzeigevorrichtungen sind in der Regel für einen bestimmten Satz von Bediensprachen programmiert. Es besteht der Wunsch, Anzeigevorrichtungen die Möglichkeit bereitzustellen, in einer gewünschten Sprache auf Medien zuzugreifen und sie darzustellen.
  • KURZDARSTELLUNG DER AUSFÜHRUNGSFORMEN
  • Hierin werden Verfahren, Vorrichtungen und Systeme zur automatischen Untertitelanzeige offenbart. Eine Ausführungsform bezieht sich auf ein Verfahren, beinhaltend Bestimmen, durch eine Steuervorrichtung, einer Unterhaltungssprache für einen Raum. Das Verfahren beinhaltet außerdem Identifizieren, durch die Steuervorrichtung, von Anzeigeinhalt, der in dem Raum auf einer Anzeige dargestellt wird, und Anfordern, durch die Steuervorrichtung, von Untertiteldaten für den Anzeigeinhalt basierend auf der für den Raum bestimmten Unterhaltungssprache. Das Verfahren beinhaltet außerdem Steuern, durch die Steuervorrichtung, der Darstellung von Untertiteldaten für den Anzeigeinhalt zur Ausgabe auf der Vorrichtung, wobei die dargestellten Untertiteldaten für die bestimmte Unterhaltungssprache ausgewählt werden.
  • In einer Ausführungsform beinhaltet das Bestimmen der Unterhaltungssprache das Durchführen eines Spracherkennungsvorgangs anhand der im Raum detektieren Stimmendaten des Fahrgasts.
  • In einer Ausführungsform beinhaltet das Bestimmen der Unterhaltungssprache das Durchführen eines Gesichtserkennungsvorgangs anhand der im Raum detektieren Bilddaten.
  • In einer Ausführungsform beinhaltet das Bestimmen der Unterhaltungssprache das Bestimmen eines Benutzerprofils, das für einen Fahrgast in dem Raum eingestellt wurde.
  • In einer Ausführungsform ist der Raum eine Fahrzeugkabine und beinhaltet die Unterhaltungssprache Stimmendaten des Fahrgasts, die für einen Fahrgast in der Fahrzeugkabine detektiert wurden.
  • In einer Ausführungsform ist der Raum mit einem Betrachtungsbereich einer Anzeigevorrichtung assoziiert und beinhaltet die Unterhaltungssprache Stimmendaten, die in dem Betrachtungsbereich detektiert wurden.
  • In einer Ausführungsform beinhaltet das Identifizieren des Anzeigeinhalts das Bestimmen von mindestens einem von Titel, Quelle und Kennung für den Anzeigeinhalt.
  • In einer Ausführungsform beinhalten Untertiteldaten mindestens eines von einer textuellen und grafischen Darstellung von Audio- und Sprachdaten für den Anzeigeinhalt.
  • In einer Ausführungsform beinhaltet das Steuern der Darstellung der Untertiteldaten das Synchronisieren der Ausgabe der Untertiteldaten mit dem Timing des Anzeigeinhalts.
  • In einer Ausführungsform beinhaltet das Verfahren das Anzeigen einer Benachrichtigung für die Untertiteldaten und das Empfangen von Benutzereingaben für die Untertiteldaten, wobei die Darstellung der Untertiteldaten als Reaktion auf empfangene Benutzereingaben erfolgt.
  • Eine weitere Ausführungsform bezieht sich auf ein System, das eine Anzeige und eine an die Anzeige gekoppelte Steuervorrichtung beinhaltet. Die Steuervorrichtung ist dazu konfiguriert, eine Unterhaltungssprache für einen Raum zu bestimmen, den in dem Raum auf einer Anzeige dargestellten Anzeigeinhalt zu identifizieren und Untertiteldaten für den Anzeigeinhalt anzufordern, und zwar basierend auf der für den Raum bestimmten Unterhaltungssprache. Die Steuerung ist außerdem dazu konfiguriert, die Darstellung von Untertiteldaten für den Anzeigeinhalt zur Ausgabe auf der Vorrichtung zu steuern, wobei die dargestellten Untertiteldaten für die bestimmte Unterhaltungssprache ausgewählt werden.
  • Andere Aspekte, Merkmale und Techniken liegen für den einschlägigen Fachmann angesichts der folgenden detaillierten Beschreibung der Ausführungsformen auf der Hand.
  • Figurenliste
  • Die Merkmale, Aufgaben und Vorteile der vorliegenden Offenbarung gehen aus der unten aufgeführten detaillierten Beschreibung in Verbindung mit den Zeichnungen deutlicher hervor, in denen gleiche Bezugszeichen durchgehend Entsprechendes kennzeichnen und wobei:
    • 1A-1B stellen grafische Darstellungen von Untertiteldaten gemäß einer oder mehreren Ausführungsformen dar;
    • 2 stellt einen Prozess zur automatischen Untertitelanzeige gemäß einer oder mehreren Ausführungsformen dar;
    • 3 stellt eine grafische Darstellung von Vorrichtungskomponenten gemäß einer oder mehreren Ausführungsformen dar;
    • 4 stellt einen Prozess für Untertitelvorgänge gemäß einer oder mehreren Ausführungsformen dar; und
    • 5 stellt einen weiteren Prozess für Untertitelvorgänge gemäß einer oder mehreren Ausführungsformen dar.
  • DETAILLIERTE BESCHREIBUNG DER AUSFÜHRUNGSBEISPIELE
  • Überblick und Terminologie
  • Ein Aspekt der Offenbarung bezieht sich auf Steuervorgänge einer Anzeigevorrichtung. Es werden Prozesse und Vorrichtungskonfigurationen bereitgestellt, die eine automatische Untertitelanzeige ermöglichen. In einer Ausführungsform wird ein Prozess bereitgestellt, der das Steuern der Darstellung von Untertiteldaten zur Anzeigeinhaltsausgabe auf einer Vorrichtung beinhaltet. Der Prozess kann das Durchführen mindestens eines Vorgangs zum Bestimmen einer Unterhaltungssprache in Bezug auf die Anzeige beinhalten. In einer Ausführungsform werden Untertiteldaten für die bestimmte Unterhaltungssprache in einem Fahrzeug dargestellt. Weitere Ausführungsformen beziehen sich auf die Darstellung von Untertiteldaten für Anzeigevorrichtungen im Allgemeinen.
  • In einer Ausführungsform wird ein System bereitgestellt, das eine Anzeige und eine an die Anzeige gekoppelte Steuervorrichtung beinhaltet. Die Steuervorrichtung ist dazu konfiguriert, eine Unterhaltungssprache für einen Raum zu bestimmen und den auf einer Anzeige dargestellten Anzeigeinhalt zu identifizieren. Basierend auf der Unterhaltungssprache kann die Steuervorrichtung Untertiteldaten für den Anzeigeinhalt anfordern. Die Steuervorrichtung kann auch dazu konfiguriert sein, die Darstellung von Untertiteldaten für den Anzeigeinhalt zur Ausgabe auf der Vorrichtung zu steuern. Die von der Anzeige dargestellten Untertiteldaten können von der Steuereinrichtung für die bestimmte Unterhaltungssprache ausgewählt werden.
  • Die hierin beschriebenen Prozesse und Konfigurationen können dazu konfiguriert sein, den im Raum dargestellten Anzeigeinhalt zu identifizieren und Untertiteldaten für den Anzeigeinhalt anzufordern, und zwar basierend auf der für den Raum bestimmten Unterhaltungssprache. In einer Ausführungsform kann das Bestimmen von Unterhaltungssprachen auf einem Raum relativ zu einer Anzeige basieren. Beispielsweise kann sich die Unterhaltungssprache auf einen Raum oder einen Bereich innerhalb einer Fahrzeugkabine beziehen. In anderen Ausführungsformen kann das Bestimmen der Unterhaltungssprache eines Raums relativ zu einem Betrachtungsbereich einer Anzeigevorrichtung (z. B. Fernseher, Projektor usw.) erfolgen. Die Darstellung von Untertiteldaten für den Anzeigeinhalt kann zur Ausgabe auf der Vorrichtung gesteuert werden.
  • Gemäß einer Ausführungsform kann die Unterhaltungssprache in einer Fahrzeugkabine durch einen oder mehrere Vorgänge bestimmt werden, einschließlich Spracherkennung, Verarbeitung natürlicher Sprache und/oder künstlicher Intelligenz (KI). In bestimmten Ausführungsformen beinhalten ein oder mehrere Parameter zum Bestimmen der Unterhaltungssprache das Bestimmen einer in einem Benutzerprofil identifizierten Sprache. In anderen Ausführungsformen kann das Bestimmen der Unterhaltungssprache auch die Durchführung von Gesichtserkennungsvorgängen beinhalten. Die Gesichtserkennung kann durchgeführt werden, um die Nationalität einer oder mehrerer Personen in einem Raum relativ zur Anzeige zu identifizieren. Die bestimmte Unterhaltungssprache kann verwendet werden, um den relevantesten Untertitel zu identifizieren. Die hierin beschriebenen Vorgänge dienen auch dazu, Untertiteldaten mit Anzeigeinhalt, wie etwa Video, automatisch herunterzuladen. In Bezug auf Fahrzeugkonfigurationen, wie etwa eine Fahrzeuganzeige für die Fahrzeugkabine, kann das Bestimmen der Unterhaltungssprache, wie hierin erörtert, Probleme mit der Ablenkung des Fahrers lösen. Beispielsweise können Anforderungen durch Fahrzeuginsassen, wie etwa Kleinkinder, zur Bereitstellung von Untertiteldaten durch Prozesse und Konfigurationen gehandhabt werden, ohne dass der Fahrer die Untertiteldaten einstellen muss.
  • Gemäß einer Ausführungsform können Vorgänge und Konfigurationen Verbesserungen an Anzeigevorrichtungen, wie etwa Fernsehern, bereitstellen. Für Rundfunkprogramme (z. B. Live-TV) können die hierin beschriebenen Vorgänge Funktionen bereitstellen, um die Bestimmung einer Unterhaltungssprache relativ zu der Anzeigevorrichtung und die Darstellung von Untertiteldaten zu ermöglichen.
  • Im vorliegenden Zusammenhang sollen die Ausdrücke „ein“ oder „eine“ eins oder mehr als eins bedeuten. Der Ausdruck „Vielzahl“ soll zwei oder mehr als zwei bedeuten. Der Ausdruck „ein anderes“ ist als zweites oder mehr definiert. Die Ausdrücke „beinhaltend“ und/oder „aufweisend“ sind nicht ausschließlich (z. B. umfassend). Der Ausdruck „oder“ ist im hier verwendeten Sinne als einschließend oder ein beliebiges oder eine beliebige Kombination bedeutend auszulegen. So bedeutet „A, B oder C“ „ein beliebiges der Folgenden: A; B; C; A und B; A und C; B und C; A, B und C“. Eine Ausnahme dieser Definition liegt nur dann vor, wenn sich eine Kombination aus Elementen, Funktionen, Schritten oder Handlungen an sich auf eine Art gegenseitig ausschließt.
  • In dieser Schrift bedeuten Bezugnahmen auf „eine Ausführungsform“, „bestimmte Ausführungsformen“ oder einen ähnlichen Ausdruck, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder Eigenschaft, das bzw. die in Verbindung mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform enthalten ist. So bezieht sich das Auftreten derartiger Formulierungen an verschiedenen Stellen dieser Beschreibung nicht unbedingt immer auf dieselbe Ausführungsform. Des Weiteren können die bestimmten Merkmale, Strukturen oder Eigenschaften auf jede geeignete Weise in einer oder mehreren Ausführungsformen ohne Einschränkung kombiniert werden.
  • Ausführungsbeispiele
  • Unter Bezugnahme auf die Figuren stellen die 1A-1B grafische Darstellungen von Untertiteldaten gemäß einer oder mehreren Ausführungsformen dar. 1A stellt eine grafische Darstellung eines Systems 100 für das Fahrzeug 105, das die Anzeige 110 beinhaltet, dar. Gemäß einer Ausführungsform kann der Innenraum des Fahrzeugs 100 einen oder mehrere Fahrgäste aufnehmen. Darüber hinaus kann das Fahrzeug 105 eine Steuervorrichtung (nicht in 1A gezeigt) beinhalten, die zum Steuern des Betriebs der Anzeige 110 konfiguriert ist. Gemäß einer Ausführungsform kann die Anzeige 110 dazu konfiguriert sein, Anzeigeinhalt 120 darzustellen. Gemäß einer weiteren Ausführungsform kann eine Steuervorrichtung des Fahrzeugs 105, wie etwa die Steuervorrichtung 305 aus 3, dazu konfiguriert sein, eine Unterhaltungssprache innerhalb des Fahrgastraums oder der Kabine des Fahrzeugs 105 zu bestimmen. Wie hierin erörtert, werden Konfigurationen und Prozesse bereitgestellt, um Untertiteldaten für den Anzeigeinhalt 120 anzufordern, und zwar basierend auf einer bestimmten Unterhaltungssprache in einem Raum, wie etwa im Fahrzeug 105.
  • Das Fahrzeug 105 kann dazu konfiguriert sein, die Darstellung von Untertiteldaten, wie etwa Untertiteltext 115, mit dem Anzeigeinhalt 120 zu steuern. Wie im Folgenden näher erläutert, kann eine Steuervorrichtung (z. B. die Steuervorrichtung 305 aus 3) dazu konfiguriert sein, eine Unterhaltungssprache im Fahrzeug 105 zu detektieren. 1A beinhaltet Darstellungen der Fahrgastsprache 125 und 130. In einer Ausführungsform kann sich die Fahrgastsprache 125 und 130 auf regelmäßige oder nicht befehlende Unterhaltungen zwischen den Insassen beziehen. Gemäß einer Ausführungsform ist die Steuervorrichtung des Fahrzeugs 105 dazu konfiguriert, die Fahrgastsprache 125 und 130 zu detektieren und eine Unterhaltungssprache basierend auf der Fahrgastsprache zu bestimmen. Der Untertiteltext 115 kann basierend auf der bestimmten Unterhaltungssprache dargestellt werden. Wie im Folgenden näher erläutert wird, kann der Untertiteltext 115 basierend auf einer Unterhaltungssprache, die anhand der Abbildung von Fahrgästen und/oder einer oder mehreren Benutzereinstellungen für die Untertitelsprache bestimmt wird, dargestellt werden. Die Steuereinheit der Anzeige 110 und/oder des Fahrzeugs 105 kann dazu konfiguriert sein, die hierin beschriebenen Prozesse (z. B. Prozess 200, Prozess 400, Prozess 500 usw.) zur Darstellung von Untertiteltext 115 durchzuführen.
  • In einer Ausführungsform kann sich die Fahrgastsprache 125 und 130 auf regelmäßige oder nicht befehlende Unterhaltungen zwischen den Insassen beziehen. Gemäß einer Ausführungsform kann die Bestimmung der Unterhaltungssprache auf Anweisungen mit natürlicher Sprache von einem oder mehreren Insassen des Fahrzeugs basieren. Beispielsweise kann die Fahrgastsprache, wie etwa die Fahrgastsprache 125 und 130, detektiert und derart interpretiert werden, dass Befehle zur Darstellung von Untertiteldaten in einer oder mehreren Sprachen interpretiert werden können. In einer Ausführungsform kann sich die Fahrgastsprache 125 und 130 auf eine Unterhaltungssprache, wie z. B. „hier abbiegen“, „haben Sie einen schönen Tag“ und „ich biege hier ab“, in einer oder mehreren Sprachen beziehen. In einer Ausführungsform können sich die Fahrgastsprachen 125 und 130 auf einen oder mehrere Befehle beziehen, einschließlich der Identifizierung einer gewünschten Sprache. Beispielsweise kann ein Befehl mit natürlicher Sprache von „englischen Untertiteln“ dazu führen, dass die Steuervorrichtung die Sprache als Englisch identifiziert und die Steuerung Untertitelinformationen in der detektieren Sprache präsentiert. Alternative Beispiele für von der Steuervorrichtung detektierte Befehle mit natürlicher Sprache können Folgende beinhalten: „Untertitelsprache ändern“ und „Untertitel in meiner Sprache anzeigen“. Die Fahrgastsprache 125 und 130 kann Befehle zum Bedienen mit einer oder mehreren Funktionen der Anzeige 110 und des grafischen Elements 116 beinhalten. Somit kann die Sprache, die für Befehle mit natürlicher Sprache verwendet wird, identifiziert werden, um eine Unterhaltungssprache für Untertiteldaten zu bestimmen.
  • 1A zeigt außerdem das grafische Element 116, das auf der Anzeige 120 dargestellt werden kann, um eine oder mehrere der automatischen Untertitelanzeigen und die Verfügbarkeit von Untertiteldaten basierend auf der Unterhaltungssprache anzuzeigen. Gemäß einer Ausführungsform kann das grafische Element 116 ein auswählbares Element sein, das zur Aktivierung, Modifikation und/oder Beendigung der Untertiteldarstellung des Untertiteltextes 115 konfiguriert ist.
  • 1B stellt eine grafische Darstellung eines Systems 150 für die Anzeige 155 in einem Betrachtungsbereich oder Raum 151 dar. Gemäß einer Ausführungsform kann der Raum 151, der mit der Anzeige 155 assoziiert ist, einen oder mehrere Betrachter, wie beispielsweise die Betrachter 1701-n , aufnehmen. Die Anzeige 155 kann eine Steuervorrichtung (nicht in 1B gezeigt) beinhalten, die zum Steuern des Betriebs der Anzeige 155 konfiguriert ist. Gemäß einer Ausführungsform kann die Anzeige 155 dazu konfiguriert sein, Anzeigeinhalt 160 darzustellen. Gemäß einer weiteren Ausführungsform kann eine Steuervorrichtung der Anzeige 155, wie etwa die Steuervorrichtung 305 aus 3, dazu konfiguriert sein, eine Unterhaltungssprache im Raum 151 zu bestimmen. Wie hierin erörtert, werden Konfigurationen und Prozesse bereitgestellt, um Untertiteldaten für den Anzeigeinhalt 160 anzufordern, und zwar basierend auf einer bestimmten Unterhaltungssprache in dem Raum 151. Die Steuereinheit der Anzeige 155 kann dazu konfiguriert sein, die hierin beschriebenen Prozesse (z. B. Prozess 200, Prozess 400, Prozess 500 usw.) zur Darstellung von Untertiteltext 165 durchzuführen.
  • Die Anzeige 155 kann dazu konfiguriert sein, die Darstellung von Untertiteldaten, wie etwa Untertiteltext 165, mit dem Anzeigeinhalt 160 zu steuern. Wie im Folgenden näher erläutert, kann eine Steuervorrichtung (z. B. die Steuervorrichtung 305 aus 3) dazu konfiguriert sein, eine Unterhaltungssprache im Raum 151 zu detektieren. 1B beinhaltet Darstellungen der Betrachtersprache 175 und 180. Gemäß einer Ausführungsform ist die Steuervorrichtung der Anzeige 155 dazu konfiguriert, die Betrachtersprache 175 und 180 zu detektieren und eine Unterhaltungssprache basierend auf der Betrachtersprache zu bestimmen. Der Untertiteltext 165 kann basierend auf der bestimmten Unterhaltungssprache der Betrachtersprache 175 und 180 dargestellt werden. Wie im Folgenden näher erläutert wird, kann der Untertiteltext 165 basierend auf einer Unterhaltungssprache, die anhand der Abbildung von Betrachtern 1701-n und/oder einer oder mehreren Benutzereinstellungen für die Untertitelsprache bestimmt wird, dargestellt werden.
  • 1B zeigt außerdem das grafische Element 166, das auf der Anzeige 155 dargestellt werden kann, um eine oder mehrere der automatischen Untertitelanzeigen und die Verfügbarkeit von Untertiteldaten basierend auf der Unterhaltungssprache anzuzeigen. Gemäß einer Ausführungsform kann das grafische Element 166 ein auswählbares Element sein, das zur Aktivierung, Modifikation und/oder Beendigung der Untertiteldarstellung des Untertiteltextes 165 konfiguriert ist.
  • 2 stellt einen Prozess zur automatischen Untertitelanzeige gemäß einer oder mehreren Ausführungsformen dar. Gemäß einer Ausführungsform kann der Prozess 200 von einer Steuervorrichtung eines Fahrzeugs (z. B. Fahrzeug 105), das eine Anzeige (z. B. Anzeige 110) zur Darstellung von Anzeigeinhalt mit Untertiteldaten beinhaltet, durchgeführt werden. Gemäß einer weiteren Ausführungsform kann der Prozess 200 von einer Steuervorrichtung einer Anzeigevorrichtung (z. B. einer Anzeigevorrichtung 160) zur Darstellung von Untertiteldaten durchgeführt werden.
  • Der Prozess 200 kann bei Block 205 eingeleitet werden, wobei die Sprache für einen Raum bestimmt wird. In einer Ausführungsform beinhaltet das Bestimmen der Sprache das Bestimmen einer Unterhaltungssprache für den Raum. Im vorliegenden Zusammenhang kann die Unterhaltungssprache das Bestimmen der gesprochenen menschlichen Sprache für die Unterhaltung einschließlich der Verwendung von Wörtern auf strukturierte und konventionelle Weise beinhalten. In einigen Ausführungsformen kann eine Unterhaltungssprache durch die Analyse gesprochener Wörter bestimmt werden. Die Unterhaltungssprache kann bei Block 205 vor der Anzeige des Inhalts bestimmt werden. In anderen Ausführungsformen kann die Unterhaltungssprache bei Block 205 als Reaktion auf die Anzeige des Inhalts bestimmt werden.
  • Gemäß einer Ausführungsform beinhaltet das Bestimmen der Unterhaltungssprache bei Block 205 das Durchführen eines Spracherkennungsvorgangs anhand der im Raum detektierten Stimmendaten des Fahrgasts. Jeder Befehl kann identifiziert werden, indem eine Aktion und Referenz für die Aktion identifiziert werden.
  • Gemäß einer Ausführungsform kann das Bestimmen der Unterhaltungssprache bei Block 205 das Bestimmen von mehr als einer Sprache beinhalten. Als Reaktion auf das Detektieren von mehr als einer Sprache kann eine Steuervorrichtung eine Unterhaltungssprache auswählen. Die Auswahl der Unterhaltungssprache kann auf der Wortzahl von jeder Unterhaltungssprache basieren. Beispielsweise kann eine detektierte Unterhaltungssprache mit einer größeren Wortzahl für die Fahrgastsprache ausgewählt werden. In anderen Ausführungsformen kann der Prozess 200 einen oder mehrere andere Faktoren berücksichtigen, wenn es um mehrere Sprachen geht. Eine oder mehrere Benutzereingabeeinstellungen für die Sprache der Untertiteldarstellung und Gesichtserkennung, die im Raum durchgeführt werden, können eingesetzt werden, um eine Sprache vor einer anderen Sprache auszuwählen, wenn mehrere Sprachen identifiziert werden. In noch einer weiteren Ausführungsform kann ein grafisches Element (z. B. grafisches Element 116, grafisches Element 166 usw.) auf einer Anzeige dargestellt werden, um einem Benutzer zu ermöglichen, eine detektierte Sprache auszuwählen.
  • Das Bestimmen der Unterhaltungssprache bei Block 205 kann das Durchführen eines oder mehrerer Vorgänge zur Charakterisierung der in einem Raum detektierten Sprache beinhalten. In einer Ausführungsform werden ein oder mehrere Ton- und Schlüsselworterkennungen verwendet, um mögliche Sprachen zu identifizieren. Neben der Wortbestimmung können auch Wortgruppen und Sätze bestimmt werden. Der Prozess 200 kann Parameter für die Verarbeitung natürlicher Sprache beinhalten. Darüber hinaus kann der Prozess 200 eine Vielzahl von Sprach- und Tondatensätzen als Referenz laden. Sprachen und Tonparameter können Kennungen zugeordnet werden, die es einer Steuervorrichtung ermöglichen, Untertiteldaten basierend auf einer bestimmten Sprache anzufordern.
  • In einer Ausführungsform kann das Bestimmen der Unterhaltungssprache bei Block 205 das Durchführen eines Stimmenerkennungsprozesses beinhalten, der mindestens eines von akustischer und sprachlicher Modellierung beinhaltet. Die akustische Modellierung kann das Empfangen von Audiodaten, das Detektieren von Stimmeneingaben und das Identifizieren einer oder mehrerer linguistischer Einheiten des Stimmenteils von Audiodaten beinhalten. Die linguistischen Einheiten können für die Sprachmodellierung verwendet werden, einschließlich der Übereinstimmung von mindestens einem von Tönen und Sequenzen von Tönen mit Begriffen oder Wörtern. Darüber hinaus können Sprachmuster, wie etwa ein zeitliches Muster, verwendet werden, um eine gesprochene Sprache zu identifizieren.
  • In einer Ausführungsform kann das Bestimmen der Unterhaltungssprache bei Block 205 das Identifizieren einer gesprochenen Sprache zwischen mehreren Fahrgästen unter Verwendung von mindestens einer Stimmenunterscheidung und einer Stimmenposition im Raum beinhalten. Ein oder mehrere Mikrofone, die mit der Anzeige oder dem Raum assoziiert sind, können verwendet werden, um menschliche Sprache und Charakteristika der Sprache zu detektieren. Sprache, die in einem ersten Bereich des Raums detektiert wird, kann mit einem ersten Fahrgast/Betrachter/Menschen assoziiert werden, wobei Sprache, die mit einem zweiten Bereich assoziiert ist, der nicht überlappend oder in einer zweiten anderen Position angeordnet sein kann, mit einem zweiten Fahrgast/Betrachter/Menschen assoziiert sein kann. Durch die Zuordnung von detektierten Audiodaten zu einer bestimmenden Sprache mit mindestens einer der ersten Positionen des Raums und einer zweiten Position des Raums kann Sprache von jeder Position aus sequenziert werden. Die Sequenzen der Sprache können verwendet werden, um Begriffe oder Sprache zu identifizieren.
  • Gemäß einer Ausführungsform beinhaltet das Bestimmen der Unterhaltungssprache bei Block 205 das Durchführen eines Gesichtserkennungsvorgangs anhand der im Raum detektierten Bilddaten. Die Unterhaltungssprache kann sich auf ein Kommunikationssystem beziehen, das von einer bestimmten Gemeinschaft oder einem bestimmten Land verwendet wird. Darüber hinaus können Parameter, die mit Personen aus einer bestimmten Gemeinschaft oder einem bestimmten Land assoziiert sind, mit einer oder mehreren Landessprachen assoziiert werden. Gemäß einer Ausführungsform kann eine Steuereinheit einen oder mehrere Prozesse beinhalten, die einen gelernten Datensatz zur Gesichtserkennung verwenden. Der gelernte Datensatz kann auf einem maschinell erlernten Prozess zur Identifizierung von Gesichtsmerkmalen und zur Korrelation von Gesichtsmerkmalen mit einer oder mehreren Sprachen basieren. Ein gelernter Datensatz und ein oder mehrere Prozesse zur Merkmalserkennung können durch den Prozess 200 durchgeführt werden.
  • In einer Ausführungsform beinhaltet das Bestimmen der Unterhaltungssprache bei Block 205 das Bestimmen eines Benutzerprofils, das für einen Fahrgast in dem Raum eingestellt wurde. Eine Anzeige kann ein grafisches Anzeigeelement (z. B. grafisches Element 116, grafisches Element 166 usw.) bereitstellen, das als Benutzeroberfläche dient, über die ein Benutzer eine gewünschte Unterhaltungssprache seiner Wahl identifizieren kann.
  • In einer Ausführungsform beinhaltet das Bestimmen der Unterhaltungssprache bei Block 205 das Senden von einem oder mehreren von Audiodaten, einer Benutzereinstellung und optischen Merkmalen an einen Server zur Verarbeitung. Die Steuervorrichtung kann mit einer Netzwerkvorrichtung, wie etwa einem Server, über ein Kommunikationsnetzwerk kommunizieren, um eine Unterhaltungssprache für den Raum zu bestimmen. In einer Ausführungsform ist der Raum eine Fahrzeugkabine und beinhaltet die Unterhaltungssprache Stimmendaten des Fahrgasts, die für einen Fahrgast in der Fahrzeugkabine detektiert wurden. Gemäß einer weiteren Ausführungsform ist der Raum mit einem Betrachtungsbereich einer Anzeigevorrichtung assoziiert und beinhaltet die Unterhaltungssprache Stimmendaten, die in dem Betrachtungsbereich detektiert wurden.
  • Bei Block 210 kann der Prozess 200 das Identifizieren von Anzeigeinhalt beinhalten, der in dem Raum auf einer Anzeige dargestellt wird. In einer Ausführungsform identifiziert eine Steuervorrichtung Anzeigeinhalt durch das Bestimmen von mindestens einem von Titel, Quelle und Kennung für den Anzeigeinhalt. Bei Block 215 fordert die Steuervorrichtung Untertiteldaten für den Anzeigeinhalt basierend auf der für den Raum bestimmten Unterhaltungssprache an. Mindestens eines von dem identifizierten Inhalt und einem Titel des Anzeigeinhalts kann mit einer bestimmten Unterhaltungssprache an einen Server übertragen werden, um Untertiteldaten für den Anzeigeinhalt zu erhalten. In einer Ausführungsform beinhalten Untertiteldaten mindestens eines von einer textuellen und grafischen Darstellung von Audio- und Sprachdaten für den Anzeigeinhalt.
  • Bei Block 220 beinhaltet der Prozess 200 das Steuern der Darstellung von Untertiteldaten für den Anzeigeinhalt zur Ausgabe auf der Vorrichtung. Die Steuervorrichtung kann Untertiteldaten für die Darstellung für die bestimmte Unterhaltungssprache mit dem Anzeigeinhalt ausgeben. In einer Ausführungsform beinhaltet das Steuern der Darstellung der Untertiteldaten das Synchronisieren der Ausgabe der Untertiteldaten mit dem Timing des Anzeigeinhalts. Die Untertiteldaten können ausgegeben werden, um auf dem Anzeigeinhalt angezeigt zu werden oder in einem gewünschten Bereich der Anzeige dargestellt zu werden.
  • In bestimmten Ausführungsformen kann das Steuern der Darstellung das Anzeigen einer Benachrichtigung für die Untertiteldaten und das Empfangen von Benutzereingaben für die Untertiteldaten beinhalten. Die Darstellung der Untertiteldaten kann als Reaktion auf Benutzereingaben erfolgen, die bei dem optionalem Block 225 empfangen wurden. Der Prozess 200 kann durchgeführt werden, um eine automatische Untertiteldarstellung bereitzustellen. Die automatische Untertiteldarstellung kann die Detektion von einem oder mehreren Parametern zur Identifizierung der Unterhaltungssprache ohne die Kenntnis über die Personen im Raum beinhalten. Die Steuerung und Ausgabe der Untertiteldaten kann dann synchronisiert und angezeigt werden. In einer Ausführungsform beinhaltet der Prozess 200 das Detektieren von Stimme und Ton von Medien zusätzlich zur Sprache in einem Raum. Detektiertes Audio der Medien kann gefiltert (z. B. ignoriert) werden, um die Identifizierung der Fahrgastsprache zu ermöglichen. In anderen Ausführungsformen kann die Detektion von Audiomedien identifiziert werden, und es kann ein Spracherkennungsprozess für Medienaudio durchgeführt werden, um das Timing für die Darstellung von Untertitelinformationen zu bestimmen.
  • Gemäß einer Ausführungsform beinhaltet der Prozess 200 das Empfangen von Benutzereingaben bei Block 225. Benutzereingaben, die bei Block 225 empfangen werden, können sich auf eine Anzeige beziehen, wie etwa Eingaben in ein grafisches Anzeigeelement (z. B. grafisches Element 116, grafisches Element 166 usw.). In einer Ausführungsform beinhaltet die Benutzereingabe bei Block 225 eine Benutzerauswahl eines grafischen Anzeigeelements der Anzeige, um Untertiteldaten für eine identifizierte Sprache zu bestätigen.
  • Gemäß einer Ausführungsform beinhaltet der Prozess 200 das Empfangen von Untertiteldaten bei Block 230. Untertiteldaten können Text und/oder Daten beinhalten, um Text mit Anzeigeinhalt darzustellen. In bestimmten Ausführungsformen können Untertiteldaten Metadaten beinhalten, um die Untertiteldaten mit dem Anzeigeinhalt zu synchronisieren. Beispielsweise können eines oder mehrere von einem Zeitbasis- und Synchronisationsrahmen bereitgestellt werden, um die Darstellung des Untertiteltextes zu steuern.
  • Der Prozess 200 ermöglicht einer Anzeige, Inhalts- und Untertiteldaten darzustellen, ohne dass es einer Aktivierung durch den Benutzer bedarf. Auf diese Weise stellt der Prozess 200 die automatische Darstellung von Untertitelinformationen bereit. Für den Einsatz in einem Fahrzeug eliminiert der Prozess 200 die Notwendigkeit, dass ein Fahrer einen Untertitelsatz auswählen muss, und vermeidet so die Ablenkung des Fahrers. Für den Betrieb von Anzeigevorrichtungen mit anderen Einstellungen, wie z. B. beim Fernsehen, stellt der Prozess 200 eine Funktionalität bereit, die von herkömmlichen Vorrichtungen nicht bereitgestellt wird.
  • 3 stellt eine grafische Darstellung von Anzeigevorrichtungskomponenten gemäß einer oder mehreren Ausführungsformen dar. Gemäß einer Ausführungsform betrifft die Anzeigevorrichtung 300 eine Anzeigevorrichtung, wie etwa einen Fernseher. In bestimmten Ausführungsformen kann die Anzeigevorrichtung 300 eine Anzeigevorrichtung sein, die für den Betrieb in einem Fahrzeug konfiguriert ist. Die Anzeigevorrichtung 300 beinhaltet die Steuervorrichtung 305, eine Datenspeichereinheit 315, ein Eingabe-/Ausgabemodul 320, ein Mikrofon 321, einen Lautsprecher 322 und eine Anzeige 325. Gemäß einer Ausführungsform beinhaltet die Anzeigevorrichtung 300 eine optionale Kamera 310. Gemäß einer weiteren Ausführungsform betrifft die Anzeigevorrichtung 300 eine Fahrzeuganzeigevorrichtung und kann daher mit einer oder mehreren Komponenten eines optionalen Fahrzeugsystems 330 zusammenarbeiten, um Steuersignale bereitzustellen.
  • Gemäß einer Ausführungsform betrifft die Anzeigevorrichtung 300 ein System, das die Anzeige 325 und die Steuervorrichtung 305 beinhaltet. Die Steuervorrichtung 305 kann dazu konfiguriert sein, eine Unterhaltungssprache für einen Raum zu bestimmen, den in dem Raum auf der Anzeige 325 dargestellten Anzeigeinhalt zu identifizieren und Untertiteldaten für den Anzeigeinhalt anzufordern, und zwar basierend auf der für den Raum bestimmten Unterhaltungssprache. Die Steuervorrichtung 305 kann außerdem dazu konfiguriert sein, die Darstellung von Untertiteldaten für den Anzeigeinhalt zur Ausgabe durch die Anzeige 325 zu steuern, wobei die dargestellten Untertiteldaten für die bestimmte Unterhaltungssprache ausgewählt werden.
  • Die Steuervorrichtung 305 kann ein Prozessor sein und ist dazu konfiguriert, den Betrieb der Anzeigevorrichtung 300 zu steuern. Gemäß einer Ausführungsform kann die Steuervorrichtung 305 dazu konfiguriert sein, ein Steuermodul 306 bereitzustellen, um Steuerbefehle für die Anzeigevorrichtung zu erzeugen. Die Steuervorrichtung 305 kann dazu konfiguriert sein, ein Sprachdetektionsmodul 307 bereitzustellen, wobei Daten von mindestens einem von dem Mikrofon 321 und der optionalen Kamera 310 empfangen werden. In weiteren Ausführungsformen können das Steuermodul 306 und das Sprachdetektionsmodul 307 physische Hardwareeinheiten der Vorrichtung 300 sein.
  • Die Steuervorrichtung 305 kann basierend auf ausführbarem Code des Steuermoduls 306, des Sprachdetektionsmoduls 307 und der Datenspeichereinheit 315 betrieben werden, um Funktionen der Anzeigevorrichtung 300 auszuführen und zu steuern. Beispielsweise kann die Steuervorrichtung 305 den Prozess 200 aus 2, den Prozess 400 aus 4 und den Prozess 500 aus 5 ausführen. Die Steuervorrichtung 305 kann einen oder mehrere hierin beschriebene Prozesse und Funktionsblöcke für den Betrieb der Anzeigevorrichtung ausführen und steuern, einschließlich der Darstellung von Untertiteldaten.
  • In bestimmten Ausführungsformen kann die Steuervorrichtung 305 einen oder mehrere Prozesse zur Identifizierung der Unterhaltungssprache basierend auf den von der Datenspeichereinheit 315 gespeicherten Parametern verwenden. Beispielsweise können Schlüsselwörter, Begriffe und Wortgruppen zum Vergleich gespeichert werden, um die Sprache für die Anforderung von Untertiteldaten zu identifizieren. Stimmen- und/oder Sprachdaten, die von dem Eingabe-/Ausgabemodul 320 detektiert werden, können in Text oder maschinenlesbare Darstellungen umgewandelt werden, um die Sprache zu interpretieren.
  • Die optionale Kamera 310 kann derart montiert werden, dass sie einen oder mehrere Betrachter in einem Raum abbildet, um Bilddaten für das Objektdetektionsmodul 307 bereitzustellen. Die Datenspeichereinheit 315 kann dazu konfiguriert sein, ausführbaren Code zum Betreiben der Steuervorrichtung 305 und der Anzeigevorrichtung 300 zu speichern. Das Eingabe-/Ausgabemodul (E/A-Modul) 320 kann dazu konfiguriert sein, Eingaben von einer Steuerung oder einer Eingabefläche (z. B. Touchscreen, Eingabetasten usw.) auf der Anzeige 325 zu empfangen und Anzeigeinhalt auf der Anzeige 325 auszugeben. Das Eingabe-/Ausgabemodul (E/A-Modul) 320 kann die Anzeige 325 und den Lautsprecher 326 bedienen, um die Bestätigung einer oder mehrerer Führungsanweisungen in natürlicher Sprache auszugeben.
  • In bestimmten Ausführungsformen können die Anzeigevorrichtung 300 und die Steuervorrichtung 305 dazu konfiguriert sein, mit Komponenten eines Fahrzeugs, wie etwa dem optionalen Fahrzeugsystem 330, zu kommunizieren. Beispielsweise das optionale Fahrzeugsystem 330 dazu konfiguriert sein, eine direkte Beziehung zu einem Benutzerschnittstellensystem eines Fahrzeugs herzustellen, das eine(n) oder mehrere Sensoren, Funktionen und Datenfähigkeiten beinhaltet.
  • 4 stellt einen Prozess für Untertitelvorgänge gemäß einer oder mehreren Ausführungsformen dar. Gemäß einer Ausführungsform kann das Bestimmen der Sprache für Untertiteldaten auf einem oder mehreren Attributen und Datentypen basieren, die von einer Vorrichtung detektiert werden. Gemäß einer Ausführungsform kann der Prozess 400 von einer Steuervorrichtung eines Fahrzeugs (z. B. Fahrzeug 105), das eine Anzeige (z. B. Anzeige 110) zur Darstellung von Untertiteldaten beinhaltet, durchgeführt werden. Gemäß einer weiteren Ausführungsform kann der Prozess 400 von einer Steuervorrichtung einer Anzeigevorrichtung (z. B. einer Anzeigevorrichtung 160) zur Darstellung von Untertiteldaten durchgeführt werden. In 4 kann der Prozess 400 mindestens eine der folgenden Funktionen beinhalten: Detektieren von Stimme (z. B. Sprache) bei Block 405, Detektieren von Bilddaten bei Block 410 und Empfangen von Benutzereingaben bei Block 415. Es können eine oder mehrere Quellen bereitgestellt werden, um die Sprache zu bestimmen und Untertitelanforderungen bei Block 420 durchzuführen. Stimmendaten können bei Block 405 detektiert werden, während eine Anzeigevorrichtung Inhalte darstellt. Bilddaten können von Betrachtern einer Anzeigevorrichtung bei Block 410 detektiert werden. Die Benutzereingabe bei Block 415 kann Benutzereinstellungen und/oder Interaktionen mit einer Anzeige beinhalten.
  • Die Synchronisierung von Untertiteldaten bei Block 425 kann auf Untertiteldaten basieren, die von einer anderen Quelle als der Quelle des Anzeigeinhalts empfangen wurden. In einer Ausführungsform kann der Anzeigeinhalt von einer für die Anzeige lokalen Vorrichtung, wie etwa einer Medienabspielvorrichtung, empfangen oder ausgegeben werden. Die in Block 425 verwendeten Untertiteldaten können über eine Netzwerkkommunikation, wie etwa die Kommunikation mit einem Server, empfangen werden. Die Untertiteldaten können so synchronisiert werden, dass die grafischen Elemente der dargestellten Untertiteldaten mit dem Auftreten von Stimme und anderem Ton im Anzeigeinhalt übereinstimmen.
  • 5 stellt einen weiteren Prozess für Untertitelvorgänge gemäß einer oder mehreren Ausführungsformen dar. Gemäß einer Ausführungsform kann die Benutzereingabe dabei helfen, eine Unterhaltungssprache und/oder einen Untertitel zu identifizieren. Gemäß einer Ausführungsform kann der Prozess 500 von einer Steuervorrichtung eines Fahrzeugs (z. B. Fahrzeug 105), das eine Anzeige (z. B. Anzeige 110) zur Darstellung von Untertiteldaten beinhaltet, durchgeführt werden. Gemäß einer weiteren Ausführungsform kann der Prozess 500 von einer Steuervorrichtung einer Anzeigevorrichtung (z. B. einer Anzeigevorrichtung 160) zur Darstellung von Untertiteldaten durchgeführt werden.
  • Der Prozess 500 kann durch Detektieren von Anzeigeinhalt bei Block 505 und Identifizieren von Untertiteldaten bei Block 510 eingeleitet werden. In bestimmten Ausführungsformen können mehrere Quellen oder Sätze von Untertiteln verfügbar sein. Beispielsweise kann sich der Anzeigeinhalt bei Block 505 auf beliebten Inhalt beziehen, wie etwa einen bekannten Film. Daher können Untertiteldaten, die bei Block 510 identifiziert wurden, zur Identifizierung mehrerer Dateien oder Quellen von Daten führen. Alternativ stimmen Untertiteldaten, die bei Block 510 identifiziert wurden, womöglich nicht mit einer identifizierten Unterhaltungssprache überein. Dementsprechend beinhaltet der Prozess 500 Vorgänge zum Anfordern von Benutzereingaben bei Block 515. Benutzereingaben können durch die Anzeige eines grafischen Elements (z. B. grafischen Elements 116, grafischen Elements 166 usw.), hörbaren Tons und Rückmeldung einer Vorrichtung im Allgemeinen angefordert werden. Beispielsweise kann die Benutzereingabe die Auswahl von Untertiteldaten für eine Sprache beinhalten, die nicht im Anzeigeinhalt gesprochen wird. Die Benutzereingabe kann die Auswahl eines bestimmten Datensatzes für Untertitel beinhalten, der mit einer identifizierten Sprache oder Quelle assoziiert ist. Die Benutzereingabe kann von der Steuervorrichtung empfangen und verwendet werden, um die Anzeigeausgabe bei Block 520 zu steuern. Untertiteldaten, die als Reaktion auf die Anzeigeausgabe bei Block 520 dargestellt werden, können auf Benutzereingaben basieren.
  • Während diese Offenbarung unter Bezugnahme auf Ausführungsbeispiele davon näher veranschaulicht und beschrieben wurde, liegt für den Fachmann auf der Hand, dass verschiedene Änderungen an Form und Details vorgenommen werden können, ohne vom Umfang der beanspruchten Ausführungsformen abzuweichen.

Claims (20)

  1. Verfahren zur automatischen Untertitelanzeige, wobei das Verfahren Folgendes umfasst: Bestimmen, durch eine Steuervorrichtung, einer Unterhaltungssprache für einen Raum; Identifizieren, durch die Steuervorrichtung, von Anzeigeinhalt, der in dem Raum auf einer Anzeige dargestellt wird; Anfordern, durch die Steuervorrichtung, von Untertiteldaten für den Anzeigeinhalt basierend auf der für den Raum bestimmten Unterhaltungssprache; und Steuern, durch die Steuervorrichtung, der Darstellung von Untertiteldaten für den Anzeigeinhalt zur Ausgabe auf der Vorrichtung, wobei die dargestellten Untertiteldaten für die bestimmte Unterhaltungssprache ausgewählt werden.
  2. Verfahren nach Anspruch 1, wobei das Bestimmen der Unterhaltungssprache das Durchführen eines Spracherkennungsvorgangs anhand der im Raum detektieren Stimmendaten des Fahrgasts beinhaltet.
  3. Verfahren nach Anspruch 1, wobei das Bestimmen der Unterhaltungssprache das Durchführen eines Gesichtserkennungsvorgangs anhand der im Raum detektieren Bilddaten beinhaltet.
  4. Verfahren nach Anspruch 1, wobei das Bestimmen der Unterhaltungssprache das Bestimmen eines Benutzerprofils, das für einen Fahrgast in dem Raum eingestellt wurde, beinhaltet.
  5. Verfahren nach Anspruch 1, wobei der Raum eine Fahrzeugkabine ist und die Unterhaltungssprache Stimmendaten des Fahrgasts, die für einen Fahrgast in der Fahrzeugkabine detektiert wurden, beinhaltet.
  6. Verfahren nach Anspruch 1, wobei der Raum mit einem Betrachtungsbereich einer Anzeigevorrichtung assoziiert ist und die Unterhaltungssprache Stimmendaten, die in dem Betrachtungsbereich detektiert wurden, beinhaltet.
  7. Verfahren nach Anspruch 1, wobei das Identifizieren des Anzeigeinhalts das Bestimmen von mindestens einem von Titel, Quelle und Kennung für den Anzeigeinhalt beinhaltet.
  8. Verfahren nach Anspruch 1, wobei Untertiteldaten mindestens eines von einer textuellen und grafischen Darstellung von Audio- und Sprachdaten für den Anzeigeinhalt beinhalten.
  9. Verfahren nach Anspruch 1, wobei das Steuern der Darstellung der Untertiteldaten das Synchronisieren der Ausgabe der Untertiteldaten mit dem Timing des Anzeigeinhalts beinhaltet.
  10. Verfahren nach Anspruch 1, ferner umfassend das Anzeigen einer Benachrichtigung für die Untertiteldaten und das Empfangen von Benutzereingaben für die Untertiteldaten, wobei die Darstellung der Untertiteldaten als Reaktion auf empfangene Benutzereingaben erfolgt.
  11. System, umfassend: eine Anzeige; und eine Steuervorrichtung, die an die Anzeige gekoppelt ist, wobei die Steuervorrichtung ferner zu Folgendem konfiguriert ist: Identifizieren von Anzeigeinhalt, der in dem Raum auf einer Anzeige dargestellt wird; Anfordern von Untertiteldaten für den Anzeigeinhalt basierend auf der für den Raum bestimmten Unterhaltungssprache; und Steuern der Darstellung von Untertiteldaten für den Anzeigeinhalt zur Ausgabe auf der Vorrichtung, wobei die dargestellten Untertiteldaten für die bestimmte Unterhaltungssprache ausgewählt werden.
  12. System nach Anspruch 11, wobei das Bestimmen der Unterhaltungssprache das Durchführen eines Spracherkennungsvorgangs anhand der im Raum detektieren Stimmendaten des Fahrgasts beinhaltet.
  13. System nach Anspruch 11, wobei das Bestimmen der Unterhaltungssprache das Durchführen eines Gesichtserkennungsvorgangs anhand der im Raum detektieren Bilddaten beinhaltet.
  14. System nach Anspruch 11, wobei das Bestimmen der Unterhaltungssprache das Bestimmen eines Benutzerprofils, das für einen Fahrgast in dem Raum eingestellt wurde, beinhaltet.
  15. System nach Anspruch 11, wobei der Raum eine Fahrzeugkabine ist und die Unterhaltungssprache Stimmendaten des Fahrgasts, die für einen Fahrgast in der Fahrzeugkabine detektiert wurden, beinhaltet.
  16. System nach Anspruch 11, wobei der Raum mit einem Betrachtungsbereich einer Anzeigevorrichtung assoziiert ist und die Unterhaltungssprache Stimmendaten, die in dem Betrachtungsbereich detektiert wurden, beinhaltet.
  17. System nach Anspruch 11, wobei das Identifizieren des Anzeigeinhalts das Bestimmen von mindestens einem von Titel, Quelle und Kennung für den Anzeigeinhalt beinhaltet.
  18. System nach Anspruch 11, wobei Untertiteldaten mindestens eines von einer textuellen und grafischen Darstellung von Audio- und Sprachdaten für den Anzeigeinhalt beinhalten.
  19. System nach Anspruch 11, wobei das Steuern der Darstellung der Untertiteldaten das Synchronisieren der Ausgabe der Untertiteldaten mit dem Timing des Anzeigeinhalts beinhaltet.
  20. System nach Anspruch 11, wobei die Steuervorrichtung ferner dazu konfiguriert ist, die Anzeige einer Benachrichtigung für die Untertiteldaten und das Empfangen von Benutzereingaben für die Untertiteldaten zu steuern, wobei die Darstellung der Untertiteldaten als Reaktion auf empfangene Benutzereingaben erfolgt.
DE102019126688.2A 2018-10-02 2019-10-02 System und verfahren zur automatischen untertitelanzeige Pending DE102019126688A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/149,996 US11178465B2 (en) 2018-10-02 2018-10-02 System and method for automatic subtitle display
US16/149,996 2018-10-02

Publications (1)

Publication Number Publication Date
DE102019126688A1 true DE102019126688A1 (de) 2020-04-02

Family

ID=69781693

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102019126688.2A Pending DE102019126688A1 (de) 2018-10-02 2019-10-02 System und verfahren zur automatischen untertitelanzeige

Country Status (3)

Country Link
US (1) US11178465B2 (de)
CN (1) CN110996163B (de)
DE (1) DE102019126688A1 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017163719A1 (ja) * 2016-03-23 2017-09-28 日本電気株式会社 出力制御装置、出力制御方法、およびプログラム
US11341961B2 (en) * 2019-12-02 2022-05-24 National Cheng Kung University Multi-lingual speech recognition and theme-semanteme analysis method and device
CN111526382B (zh) * 2020-04-20 2022-04-29 广东小天才科技有限公司 一种直播视频文本生成方法、装置、设备及存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100739680B1 (ko) * 2004-02-21 2007-07-13 삼성전자주식회사 스타일 정보를 포함하는 텍스트 기반 서브타이틀을 기록한저장 매체, 재생 장치 및 그 재생 방법
JP4736511B2 (ja) 2005-04-05 2011-07-27 株式会社日立製作所 情報提供方法および情報提供装置
US8156114B2 (en) * 2005-08-26 2012-04-10 At&T Intellectual Property Ii, L.P. System and method for searching and analyzing media content
CN101615387B (zh) * 2008-06-24 2012-09-05 深圳Tcl新技术有限公司 一种解决字幕冲突的系统及其方法
US20110020774A1 (en) * 2009-07-24 2011-01-27 Echostar Technologies L.L.C. Systems and methods for facilitating foreign language instruction
US20120169583A1 (en) * 2011-01-05 2012-07-05 Primesense Ltd. Scene profiles for non-tactile user interfaces
US8260615B1 (en) * 2011-04-25 2012-09-04 Google Inc. Cross-lingual initialization of language models
CN102802044A (zh) * 2012-06-29 2012-11-28 华为终端有限公司 视频处理方法、终端及字幕服务器
US9466310B2 (en) * 2013-12-20 2016-10-11 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Compensating for identifiable background content in a speech recognition device
CN104978015B (zh) 2014-04-14 2018-09-18 博世汽车部件(苏州)有限公司 具有语种自适用功能的导航系统及其控制方法
US9635392B2 (en) 2014-04-16 2017-04-25 Sony Corporation Method and system for displaying information
US20150325268A1 (en) * 2014-05-12 2015-11-12 Penthera Partners, Inc. Downloading videos with commercials to mobile devices
US9179184B1 (en) * 2014-06-20 2015-11-03 Google Inc. Methods, systems, and media for detecting a presentation of media content on a display device
US10321204B2 (en) * 2014-07-11 2019-06-11 Lenovo (Singapore) Pte. Ltd. Intelligent closed captioning
US9571870B1 (en) * 2014-07-15 2017-02-14 Netflix, Inc. Automatic detection of preferences for subtitles and dubbing
US20160127807A1 (en) * 2014-10-29 2016-05-05 EchoStar Technologies, L.L.C. Dynamically determined audiovisual content guidebook
CN104681023A (zh) * 2015-02-15 2015-06-03 联想(北京)有限公司 一种信息处理方法及电子设备
US10685665B2 (en) * 2016-08-17 2020-06-16 Vocollect, Inc. Method and apparatus to improve speech recognition in a high audio noise environment
CN106331893B (zh) * 2016-08-31 2019-09-03 科大讯飞股份有限公司 实时字幕显示方法及系统
CN106504754B (zh) * 2016-09-29 2019-10-18 浙江大学 一种根据音频输出的实时字幕生成方法
US9934785B1 (en) * 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
US10762891B2 (en) * 2017-02-10 2020-09-01 Synaptics Incorporated Binary and multi-class classification systems and methods using connectionist temporal classification
CN106864358A (zh) * 2017-03-17 2017-06-20 东莞市立敏达电子科技有限公司 一种车辆与车辆之间字幕对话系统
US11056104B2 (en) * 2017-05-26 2021-07-06 International Business Machines Corporation Closed captioning through language detection
US10490188B2 (en) * 2017-09-12 2019-11-26 Toyota Motor Engineering & Manufacturing North America, Inc. System and method for language selection
US20190197430A1 (en) * 2017-12-21 2019-06-27 Lyft, Inc. Personalized ride experience based on real-time signals
CN108600773B (zh) * 2018-04-25 2021-08-10 腾讯科技(深圳)有限公司 字幕数据推送方法、字幕展示方法、装置、设备及介质
US20200007946A1 (en) * 2018-06-29 2020-01-02 Rovi Guides, Inc. Selectively delivering a translation for a media asset based on user proficiency level in the foreign language and proficiency level required to comprehend the media asset

Also Published As

Publication number Publication date
US11178465B2 (en) 2021-11-16
CN110996163A (zh) 2020-04-10
CN110996163B (zh) 2023-08-01
US20200107078A1 (en) 2020-04-02

Similar Documents

Publication Publication Date Title
DE60120062T2 (de) Sprachsteuerung von elektronischen Geräten
DE60012065T2 (de) Verfahren und Vorrichtung zur Fernsehkanalauswahl unter Verwendung von Sprachverständnis
DE102019126688A1 (de) System und verfahren zur automatischen untertitelanzeige
DE60320414T2 (de) Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
Nahorna et al. Audio-visual speech scene analysis: characterization of the dynamics of unbinding and rebinding the McGurk effect
DE112020002858T5 (de) Synchronisierte tonerzeugung aus videos
DE102013202420A1 (de) Bild- und tonsteuerung
DE102017209585A1 (de) System und verfahren zur selektiven verstärkung eines akustischen signals
DE112017005879T5 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
DE112017008305T5 (de) Spracherkennungsvorrichtung, Spracherkennungssystem und Spracherkennungsverfahren
DE10123823A1 (de) System und Verfahren zur parallelen Darbietung von mehreren Audioinformationsquellen
DE102014217422A1 (de) Verfahren zum Steuern eines Datenflusses eines Spiegel-Verbindungsabschnittsystems
DE112020002743T5 (de) Informationsverarbeitungsvorrichtung
DE102019218630A1 (de) Aktives steuersystem eines fahrzeugdoppelmikrofons und ein steuerverfahren dafür
DE102021123284A1 (de) Automatisierte erzeugung von plänen für selbstgeleitete augmented-reality-sitzungen aus ferngeleiteten augmented-reality-sitzungen
DE10060587A1 (de) Verfahren und System zur automatischen Aktionssteuerrung bei Vorträgen
DE102007039603A1 (de) Verfahren zum Synchronisieren von medialen Datenströmen
DE102019133133A1 (de) Assistenzsystem, durch welches in einem Raum die Ausgabe von zumindest einem Medieninhalt gesteuert wird, Kraftfahrzeug und Betriebsverfahren für das Assistenzsystem
DE102018133453A1 (de) Verfahren und Vorrichtung zum Überwachen eines Insassen eines Fahrzeugs
DE112012004975T5 (de) Informationsverarbeitungssystem und Informationsverarbeitungsverfahren
DE102022214313A1 (de) Spracherkennungssystem und verfahren zur bereitstellung eines spracherkennungsdienstes
DE19948546A1 (de) Verfahren und Vorrichtung zur darstellungsoptimierten Übertragung von Video- und Audiodaten
DE102022116004A1 (de) Techniken zum Generieren von Gesprächsthemen in einer virtuellen Umgebung
DE102014108371B4 (de) Verfahren zur Sprachsteuerung von unterhaltungselektronischen Geräten
DE102021126741A1 (de) Verfahren zur aggregierten Ausgabe von Medieninhalten

Legal Events

Date Code Title Description
R163 Identified publications notified
R012 Request for examination validly filed