DE102015110621A1 - Intelligente Untertitel - Google Patents

Intelligente Untertitel Download PDF

Info

Publication number
DE102015110621A1
DE102015110621A1 DE102015110621.3A DE102015110621A DE102015110621A1 DE 102015110621 A1 DE102015110621 A1 DE 102015110621A1 DE 102015110621 A DE102015110621 A DE 102015110621A DE 102015110621 A1 DE102015110621 A1 DE 102015110621A1
Authority
DE
Germany
Prior art keywords
data
context
instructions
audio
subtitle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102015110621.3A
Other languages
English (en)
Other versions
DE102015110621B4 (de
Inventor
Neal Robert Caliendo
Russell Speight VanBlon
Arnold S. Weksler
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo PC International Ltd
Original Assignee
Lenovo Singapore Pte Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Singapore Pte Ltd filed Critical Lenovo Singapore Pte Ltd
Publication of DE102015110621A1 publication Critical patent/DE102015110621A1/de
Application granted granted Critical
Publication of DE102015110621B4 publication Critical patent/DE102015110621B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4318Generation of visual interfaces for content selection or interaction; Content or additional data rendering by altering the content in the rendering process, e.g. blanking, blurring or masking an image region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4396Processing of audio elementary streams by muting the audio signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42201Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] biosensors, e.g. heat sensor for presence detection, EEG sensors or any limb activity sensors worn by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42204User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor
    • H04N21/42206User interfaces specially adapted for controlling a client device through a remote control device; Remote control devices therefor characterized by hardware details

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • User Interface Of Digital Computer (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurosurgery (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)

Abstract

Ein Aspekt stellt ein Verfahren bereit, das folgende Schritte umfasst: Wiedergeben von Videoinhalt auf einem Anzeigegerät; unter Verwendung mindestens eines Lautsprechers, Bereitstellen von Audioinhalt, der mit dem Videoinhalt verknüpft ist; Beziehen von Daten bezüglich des Wiedergabekontextes von einer externen Quelle; unter Verwendung eines Prozessors Bestimmen, dass die Daten bezüglich des Wiedergabekontextes mit einem Kontext mit reduzierter Hörbarkeit verknüpft sind; und Bereitstellen von Textdaten auf dem Anzeigegerät, die mit dem Dialog des Videoinhalts verknüpft sind. Es werden weitere Aspekte beschrieben und beansprucht.

Description

  • HINTERGRUND
  • Informationshandhabungsgeräte („elektronische Geräte” bzw. „Geräte”), zum Beispiel Smart-TVs, Fachbildschirme, Smartphones, Tablet-Geräte, Laptop-Computer und dergleichen, werden regelmäßig zum Anschauen von Videos (Audio- und Videoinhalt) verwendet. Häufig verpasst ein Benutzer einen Ton, beispielsweise wenn ein plötzliches Umgebungsgeräusch vorkommt oder ein Schauspieler den Dialog leise ausspricht.
  • Inhaltsanbieter versuchen, Videoinhalt besser zugänglich zu machen, indem sie Untertiteldaten bereitstellen, die dem Dialog folgen. Dies ist unter Umständen hilfreich, obwohl es häufig nicht richtig auf diverse Situationen des Medienkonsums abgestimmt ist. Beispielsweise sind die Untertiteldaten hilfreich, müssen aber manuell aktiviert werden. Somit schalten die Benutzer die Untertitel oft nicht ein, bis sie erhebliche Teile des Dialogs verpasst haben. Ähnlich stört einen Benutzer, der nicht hörbehindert ist, das ständige Anlassen der Untertiteloption, die zwar nützlich ist, um beim Verstehen unhörbarer Dialoge zu helfen, jedoch oft das Betrachtungserlebnis unnötig stört.
  • KURZDARSTELLUNG
  • Kurz gesagt stellt ein Aspekt ein Verfahren bereit, das folgende Schritte umfasst: Wiedergeben von Videoinhalt auf einem Anzeigegerät; unter Verwendung mindestens eines Lautsprechers, Bereitstellen von Audioinhalt, der mit dem Videoinhalt verknüpft ist; Beziehen von Daten bezüglich des Wiedergabekontextes von einer externen Quelle; unter Verwendung eines Prozessors Bestimmen, dass die Daten bezüglich des Wiedergabekontextes mit einem Kontext reduzierter Hörbarkeit verknüpft sind; und Bereitstellen von Textdaten auf dem Anzeigegerät, die mit einem Dialog in dem Videoinhalt verknüpft sind.
  • Ein anderer Aspekt stellt ein elektronisches Gerät bereit, das Folgendes umfasst: ein Anzeigegerät; eine Eingabekomponente; mindestens einen Lautsprecher; einen oder mehrere Prozessoren; und einen Speicher, der operativ mit dem einen oder den mehreren Prozessoren, dem Anzeigegerät, dem mindestens einen Lautsprecher und der Eingabekomponente gekoppelt ist, wobei der Speicher Anweisungen speichert, die durch den einen oder die mehreren Prozessoren ausführbar sind, wobei die Anweisungen durch den einen oder die mehreren Prozessoren ausführbar sind zum: Wiedergeben von Videoinhalt auf dem Anzeigegerät; unter Verwendung des mindestens einen Lautsprechers, Bereitstellen von Audioinhalt, der mit dem Videoinhalt verknüpft ist; Beziehen von Daten bezüglich des Wiedergabekontextes von einer externen Quelle; Bestimmen, dass die Daten bezüglich des Wiedergabekontextes mit einem Kontext mit reduzierter Hörbarkeit verknüpft sind; und Bereitstellen von Textdaten auf dem Anzeigegerät, die mit dem Dialog in dem Videoinhalt verknüpft sind.
  • Ein weiterer Aspekt stellt ein Computerprogrammprodukt bereit, das Folgendes umfasst: eine Speichervorrichtung, die Anweisungen speichert, die durch einen Prozessor ausführbar sind, wobei die Anweisungen Folgendes umfassen: Anweisungen, die Videoinhalt auf einem Anzeigegerät wiedergeben; Anweisungen, die unter Verwendung des mindestens einen Lautsprechers Audioinhalt bereitstellen, der mit dem Videoinhalt verknüpft ist; Anweisungen, die von einer externen Quelle Daten bezüglich des Wiedergabekontextes beziehen; Anweisungen, die unter Verwendung eines Prozessors bestimmen, dass die Daten bezüglich des Wiedergabekontextes mit einem Kontext mit reduzierter Hörbarkeit verknüpft sind; und Anweisungen, die Textdaten auf dem Anzeigegerät bereitstellen, die mit einem Dialog in dem Videoinhalt verknüpft sind.
  • Das Vorstehende ist eine Zusammenfassung und kann somit Vereinfachungen, Verallgemeinerungen und fehlende Einzelheiten umfassen; folglich wird der Fachmann verstehen, dass die Kurzdarstellung rein erläuternd ist und keineswegs dazu gedacht ist, einschränkend zu sein.
  • Zum besseren Verständnis der Ausführungsformen zusammen mit anderen und weiteren Merkmalen und Vorteilen derselben wird auf die nachstehende Beschreibung in Verbindung mit den beiliegenden Zeichnungen Bezug genommen. Der Umfang der Erfindung wird in den beiliegenden Ansprüchen ausgewiesen.
  • KURZE BESCHREIBUNG DER VERSCHIEDENEN ANSICHTEN DER ZEICHNUNGEN
  • Es zeigen:
  • 1 ein beispielhaftes Informationshandhabungsgerät.
  • 2 ein anderes beispielhaftes Informationshandhabungsgerät.
  • 3 ein beispielhaftes Verfahren für intelligente Untertitel.
  • AUSFÜHRLICHE BESCHREIBUNG
  • Es versteht sich ohne Weiteres, dass die Komponenten der Ausführungsformen, wie sie hier allgemein beschrieben werden und in den Figuren abgebildet sind, zusätzlich zu den beschriebenen Ausführungsbeispielen in vielen verschiedenen Konfigurationen angeordnet und ausgelegt sein können. Somit ist die nachstehende ausführlichere Beschreibung der Ausführungsbeispiele, wie in den Figuren dargestellt, nicht dazu gedacht, den Umfang der beanspruchten Ausführungsformen einzuschränken, sondern ist nur für Ausführungsbeispiele repräsentativ.
  • Eine Bezugnahme in der gesamten vorliegenden Beschreibung auf „eine Ausführungsform” (oder dergleichen) bedeutet, dass ein bestimmtes Merkmal, eine bestimmte Struktur oder ein bestimmtes Kennzeichen, das bzw. die in Verbindung mit der Ausführungsform beschrieben wird, in mindestens einer Ausführungsform enthalten ist. Somit bezieht sich das Vorkommen der Redewendungen „bei einer Ausführungsform” und dergleichen an verschiedenen Stellen in der gesamten vorliegenden Beschreibung nicht unbedingt immer auf die gleiche Ausführungsform.
  • Ferner können die beschriebenen Merkmale, Strukturen oder Kennzeichen in einer beliebigen geeigneten Art in einer oder mehreren Ausführungsformen kombiniert werden. In der nachstehenden Beschreibung werden zahlreiche spezifische Einzelheiten bereitgestellt, um ein gründliches Verständnis der Ausführungsformen bereitzustellen. Der Fachmann auf diesem Gebiet wird jedoch erkennen, dass die diversen Ausführungsformen ohne eine oder mehrere der spezifischen Einzelheiten oder mit anderen Verfahren, Bauteilen, Materialien und so weiter in die Praxis umgesetzt werden können. In anderen Fällen werden hinlänglich bekannte Strukturen, Materialien oder Vorgänge der Übersichtlichkeit halber nicht gezeigt oder ausführlich beschrieben.
  • Die Untertitelung ist typischerweise eine Bildoption. D.h. der Zuschauer wählt, ob sie während der gesamten Videowiedergabe ein- oder ausgeschaltet ist. Ein Zuschauer kann die Untertitelung normalerweise einschalten, wenn er hörbehindert ist, die Hauptsprache des Audiodialogs nicht versteht oder sich in einer Umgebung befindet, in welcher der Ton nicht ausreichend erhöht werden kann (z.B. eine ruhige Umgebung, in der lauter Ton nicht erlaubt ist, oder eine laute Umgebung, in der das Erhöhen des Tons sinnlos ist).
  • Manchmal können jedoch nur bestimmte Teile des Videos schwer zu verstehen sein. Beispielsweise kann es eine kurze Zeit lang übermächtige Hintergrundgeräusche geben, oder ein Schauspieler spricht vielleicht in einem kurzen Stück der Videowiedergabe nicht deutlich. In diesen Situationen kann der Zuschauer das Video manuell zurücklaufen lassen, versuchen, die Lautstärke schnell zeitweilig zu erhöhen, oder die Untertitel zeitweilig einschalten und die Szene erneut wiedergeben.
  • Untertitel sind manchmal enthalten, z.B. angezeigt, wenn der Inhaltsproduzent davon ausgeht, dass die meisten Zuschauer die Sprache oder den Akzent zwar hören aber nicht verstehen können. Beispielsweise kann eine Person in einer Fernsehsendung oder einem Dokumentarfilm etwas im Hintergrund murmeln oder in einer anderen Sprache als der Hauptsprache sagen. In solchen Fällen kann der Produzent erzwingen, dass ein Untertitel angezeigt wird, so dass die Zuschauer verstehen können, was gesagt wird. Solche Untertitel sind jedoch vorbestimmt und nicht spezifisch anpassbar.
  • Entsprechend stellt eine Ausführungsform Verfahren zum Umsetzen einer intelligenten Untertitelung in Kontexten mit reduzierter Hörbarkeit bereit. Beispielsweise durch Überwachen von Kontextdaten, z.B. einem Audiodialog, der durch ein Mikrofon während der Videowiedergabe ermittelt werden kann und unter Verwendung von Spracherkennung verarbeitet wird, kann eine Ausführungsform automatisch Text, z.B. den entsprechenden Untertiteltext, für Teile des Videos, die schwer verständlich sind, anzeigen. Eine Bestimmung bezüglich der Textdaten (z.B. der Untertiteldaten), die anzuzeigen sind, kann auf mehreren Faktoren basieren.
  • Beispielsweise kann bei einer Ausführungsform eine Spracherkennungs-Maschinb das Umgebungsaudiomaterial verarbeiten und bestimmen, dass das Audiomaterial nicht gedeutet werden kann. Dies kann beispielsweise dadurch abgeleitet werden, dass eine Fehlerantwort durch die Spracherkennungs-Maschine erzielt wird, d.h. eine Bestimmung durch die Spracherkennungs-Maschine, dass der Dialog praktisch unverständlich ist. Dies kann verfeinert werden, z.B. kann die Spracherkennungs-Maschine kalibriert werden, um eine statistische Wahrscheinlichkeit der Erkennung zu verwenden, z.B. kann die Spracherkennungs-Maschine, wenn die Erkennungsgenauigkeit statistisch gering oder von reduzierter Zuverlässigkeit ist, eine Bestimmung bereitstellen, dass die Untertiteldaten anzuzeigen sind.
  • Als anderes Beispiel kann eine Ausführungsform eine einfache Bestimmung verwenden, um einen Kontext mit reduzierter Hörbarkeit zu identifizieren, z.B. eine Angabe, dass die Lautstärkenregelung des Anzeigegerätes auf einem Pegel liegt, der als zu niedrig angesehen wird, um hörbar zu sein. Unter solchen Bedingungen kann eine Ausführungsform Untertiteldaten derart anzeigen, dass der Benutzer den Dialog lesen kann. Bei einem anderen Beispiel kann eine Ausführungsform eine Umgebung mit reduzierter Hörbarkeit unter Verwendung von anderen Daten zum Steuern des Anzeigegerätes als einer Lautstärkeneinstellung ermitteln. Falls beispielsweise ein Benutzer die Videowiedergabe einmal oder mehrmals zurücklaufen lässt, kann dies einem Kontext mit reduzierter Hörbarkeit zugeordnet werden, z.B. dass sich der Benutzer eine Szene erneut ansehen muss, um sie richtig zu hören.
  • Bei einem anderen Beispiel kann eine Ausführungsform ermitteln, dass Umgebungsgeräusche in der Betrachtungsumgebung eine Schwellenlautstärke überschreiten (z.B. ein bellender Hund, eine sprechende Person, eine Klimaanlage, die sich einschaltet, usw.). Ein Benutzer kann eine Geräuschschwelle konfigurieren (z.B. eine Einstellung bereitstellen, um Untertiteldaten zu zeigen, wenn ein bestimmter dB-Pegel überschritten wird, ein bestimmter hoher/tiefer Ton vorkommt, usw.).
  • Bei einem anderen Beispiel können bestimmte Geräusche, die häufig in der Betrachtungsumgebung vorkommen (z.B. vorbeifahrende Krankenwagen, bellende Hunde usw.), unabhängig von ihrem Ausmaß, als Auslöser zum Anzeigen von Text, der mit dem Dialog verknüpft ist, verwendet werden. Ein Benutzer kann diese Einstellungen anpassen, um sorgfältig bestimmte Geräuscharten zu hören.
  • Eine andere Quelle von Daten eines Kontextes mit reduzierter Hörbarkeit kann der Benutzer selber sein. Wenn beispielsweise eine Ausführungsform ermittelt, dass ein Benutzer einen bestimmten Auslöseausdruck, wie etwa „Was hat er gesagt?”, „Konntest du das verstehen?” oder dergleichen, ausspricht, kann eine Ausführungsform dies als eine Angabe verwenden, dass die Textanzeige des Dialogs hilfreich wäre. Eine Sammlung von Weckwörtern oder Redewendungen in natürlicher Sprache kann in dieser Hinsicht eingesetzt werden, damit das System die Untertitelanzeige automatisch umsetzen kann und der Benutzer nicht manuell eingreifen muss, um diese Funktion zu verwenden. In manchen Zusammenhängen kann man Kontexte mit reduzierter Hörbarkeit über Auswahlen oder Eingaben ermitteln, die vom Benutzer bereitgestellt werden, z.B. das Einschalten der Untertitel mit der Audioeingabe oder eine Gesteneingabe.
  • Obwohl eine Ausführungsform die Videowiedergabe als Reaktion auf eine Bestimmung, dass eine Videowiedergabe in einer Umgebung mit reduzierter Hörbarkeit erfolgt, automatisch zurücklaufen lassen kann, kann eine Ausführungsform auch eine Textreferenz auf einen vorhergehenden Audioteil umfassen. Somit kann der Benutzer darüber benachrichtigt werden, dass das System den zuvor gesprochenen Dialog aufholt, indem es ihn später in einem Textformat vorlegt. Dies kann verschiedenartig erfolgen, beispielsweise als eine einfache Referenz darauf, dass sich der als Text angezeigte Dialog auf eine zuvor gesprochene Dialogzeile zurückbezieht. Des Weiteren kann je nach den verfügbaren Daten und/oder Verarbeitungskapazitäten eine Ausführungsform eine spezifische Referenz umfassen, z.B. „Schauspieler A sagte 'XYZ'”. Falls somit die Zuverlässigkeit hoch ist, dass ein bestimmtes Wort/ eine bestimmte Redewendung schwer zu hören/verstehen ist (Hörbarkeitszuverlässigkeit ist gering), kann es sein, dass die Untertiteldaten als für den Dialog von vor einigen Sekunden geltend markiert werden müssen, so dass der Benutzer nicht zurücklaufen lassen und erneut zuhören muss. Der Untertiteltext kann eine Grafik, Sonderzeichen usw. zeigen, um den Benutzer darüber zu informieren, dass die angezeigten Untertitel für einen vorhergehenden Dialog bestimmt sind. Dies kann beispielsweise hilfreich sein, wenn ein plötzliches Geräusch während des Dialogs vorkommt, das im Audio-Stream nicht im Voraus ermittelt werden konnte.
  • Zusätzlich kann der Zuschauer das System selektiv konfigurieren, um die Untertitelung nur für einen bestimmten Schauspieler/ eine bestimmte Schauspielerin in dem Video, den bzw. die er schlecht verstehen kann, einzuschalten. Das System kann die Stimme des Schauspielers unter Verwendung der Sprechererkennung automatisch erkennen und die Untertitel einschalten, während dieser Schauspieler spricht. Alternativ kann eine Ausführungsform die Untertiteldaten untersuchen, um zu bestimmen, wann der Dialog des Schauspielers erscheint und angezeigt werden sollte.
  • Die abgebildeten Ausführungsbeispiele sind am besten mit Bezug auf die Figuren zu verstehen. Die nachstehende Beschreibung ist dazu gedacht, rein beispielhaft zu sein und bildet nur gewisse Ausführungsbeispiele ab.
  • Obwohl diverse andere Schaltungen, Schaltkreise oder Bauteile in Informationshandhabungsgeräten verwendet werden können, umfasst, mit Bezug auf die Schaltungen 100 von Smartphones, Tablets oder Smart-TVs, ein in 1 abgebildetes Beispiel eine Systembauform, die beispielsweise bei Tablets oder anderen mobilen Computerplattformen vorzufinden ist. Die Software und der oder die Prozessoren sind in einer einzigen Einheit 110 kombiniert. Interne Busse und dergleichen sind von verschiedenen Herstellern abhängig, doch im Wesentlichen können alle Peripheriegeräte (120) mit einer einzigen Einheit 110 verbunden werden. Die Schaltungen 100 kombinieren den Prozessor, die Speichersteuerung und den E/A-Controller-Hub alle zusammen zu einer einzigen Einheit 110. Derartige Systeme 100 verwenden typischerweise auch kein SATA, PCI oder LPC. Übliche Schnittstellen umfassen beispielsweise SDIO und I2C.
  • Es gibt Stromverwaltungsschaltungen 130, z.B. eine Batterieverwaltungseinheit, BMU, die den Strom verwalten, der beispielsweise über eine aufladbare Batterie 140 zugeführt wird, die durch Anschließen an eine Stromquelle (nicht gezeigt) aufgeladen werden kann. Bei mindestens einer Bauform wird eine einzige Einheit, wie etwa 110, verwendet, um eine BIOS-artige Funktionalität und einen DRAM-Speicher bereitzustellen.
  • Das System 100 umfasst typischerweise einen oder mehrere von einem WWAN-Transceiver 150 und einem WLAN-Transceiver 160 zum Anschließen an diverse Netzwerke, wie etwa Telekommunikationsnetzwerke und drahtlose Internet-Vorrichtungen, z.B. Zugangspunkte. Zusätzliche Vorrichtungen 120 sind gewöhnlich enthalten, beispielsweise ein Mikrofon, eine Kamera, ein IR-Empfänger usw. Die zusätzlichen Geräte 120 können auch Kurzstrecken-Radios, wie etwa BLUETOOTH-Radios, zum Kommunizieren mit anderen Geräten über verschiedenartige Netzwerke, z.B. Kurzstreckenfunk- oder Personennetzwerke, umfassen. Es können auch Nahbereichs-Kommunikationselemente als zusätzliche Netzwerkkomponenten 120 enthalten sein. Gewöhnlich umfasst das System 100 einen berührungsempfindlichen Bildschirm/Controller 170 zur Dateneingabe und Anzeige. Das System 100 umfasst typischerweise auch diverse Speichergeräte, beispielsweise einen Flash-Speicher 180 und einen SDRAM 190.
  • 2 wiederum bildet ein Blockdiagramm eines anderen Beispiels der Schaltkreise, Schaltungen oder Bauteile eines Informationshandhabungsgerätes ab. Das in 2 abgebildete Beispiel kann Computersystemen, wie etwa der THINKPAD-Serie von PCs, die von Lenovo (US) Inc. aus Morrisville, NC, verkauft wird, oder anderen Vorrichtungen entsprechen. Wie es aus der vorliegenden Beschreibung hervorgeht, können die Ausführungsformen andere Merkmale oder nur einige der Merkmale des in 2 abgebildeten Beispiels umfassen.
  • Das Beispiel aus 2 umfasst einen Satz 210 (eine Gruppe integrierter Schaltungen, die zusammenarbeiten) mit einer Architektur, die je nach Hersteller (beispielsweise INTEL, AMD, ARM usw.) unterschiedlich sein kann. INTEL ist ein eingetragenes Warenzeichen von Intel Corporation in den Vereinigten Staaten und anderen Zuständigkeitsbereichen. AMD ist ein eingetragenes Warenzeichen von Advanced Micro Devices, Inc. in den Vereinigten Staaten und anderen Zuständigkeitsbereichen. ARM ist ein Warenzeichen von ARM Holdings plc in diversen Zuständigkeitsbereichen.
  • Die Architektur des Satzes 210 umfasst eine Kern- und Speichersteuerungsgruppe 220 und einen E/A-Controller-Hub 250, der Informationen (beispielsweise Daten, Signale, Befehle usw.) über eine direkte Verwaltungsschnittstelle (DMI) 242 oder einen Link-Controller 244 austauscht. In 2 ist die DMI 242 eine Schnittstelle (gelegentlich als Verknüpfung zwischen einer „Northbridge” und einer „Southbridge” bezeichnet). Die Kern- und Speichersteuerungsgruppe 220 umfasst einen oder mehrere Prozessoren 222 (beispielsweise Einzel- oder Mehrkern) und einen Speicher-Controller-Hub 226, die Informationen über einen Front-Side Bus (FSB) 224 austauschen; es sei zu beachten, dass Bauteile der Gruppe 220 in eine Einheit integriert sein können, welche die herkömmliche „Northbridge-” Architektur ersetzt.
  • In 2 bildet der Speicher-Controller-Hub 226 eine Schnittstelle mit dem Speicher 240 (um beispielsweise eine Unterstützung für eine Art von RAM bereitzustellen, die man als „Systemspeicher” bzw. „Speicher” bezeichnen kann). Der Speicher-Controller-Hub 226 umfasst ferner eine LVDS-Schnittstelle 232 für ein Anzeigegerät 292 (z.B. einen CRT, einen Flachbildschirm, einen berührungsempfindlichen Bildschirm usw.). Ein Block 238 umfasst eine gewisse Technik, die über die LVDS-Schnittstelle 232 unterstützt werden kann (z.B. serielles digitales Video, HDMI/DVI, Display-Anschluss). Der Speicher-Controller-Hub 226 umfasst auch eine PCI-Express-Schnittstelle (PCI-E) 234, die diskrete Grafik 236 unterstützen kann.
  • In 2 umfasst der E/A-Hub-Controller 250 eine SATA-Schnittstelle 251 (beispielsweise für HDDs, SDDs, 280 usw.), eine PCI-E-Schnittstelle 252 (beispielsweise für drahtlose Verbindungen 282), eine USB-Schnittstelle 253 (beispielsweise für Geräte 284, wie etwa einen Digitalisierer, eine Tastatur, Mäuse, Kameras, Telefone, Mikrofone, Speichermittel, andere angeschlossene Geräte usw.), eine Netzwerkschnittstelle 254 (beispielsweise LAN), eine GPIO-Schnittstelle 255, eine LPC-Schnittstelle 270 (für ASICs 271, einen TPM 272, einen Super-E/A 273, einen Firmware-Hub 274, eine BIOS-Unterstützung 275 sowie diverse Arten von Speichern 276, wie etwa einen ROM 277, einen Flash 278 und einen NVRAM 279), eine Stromverwaltungsschnittstelle 261, eine Taktgeberschnittstelle 262, eine Audioschnittstelle 263 (beispielsweise für die Lautsprecher 294), eine TCO-Schnittstelle 264, eine Systemverwaltungsbus-Schnittstelle 265 und SPI-Flash 266, die ein BIOS 268 und Boot-Code 290 umfassen können. Der E/A-Hub-Controller 250 kann Gigabit-Ethernet-Unterstützung umfassen.
  • Beim Einschalten kann das System konfiguriert sein, um den Boot-Code 290 für das BIOS 268 auszuführen, der in dem SPI-Flash 266 gespeichert ist, und verarbeitet anschließend Daten unter der Kontrolle von einem oder mehreren Betriebssystemen und Anwendungs-Software (wie beispielsweise im Systemspeicher 240 gespeichert). Ein Betriebssystem kann an einer beliebigen von diversen Stellen gespeichert sein und kann beispielsweise gemäß den Anweisungen des BIOS 268 zugänglich sein. Wie hierin beschrieben, kann ein Gerät eine geringere oder größere Anzahl von Merkmalen umfassen als sie in dem System aus 2 gezeigt werden.
  • Schaltungen von Informationshandhabungsgeräten, wie beispielsweise in 1 oder 2 angesprochen, können bei Geräten, wie etwa Tablets, Smartphones, persönlichen Computergeräten allgemein und/oder anderen elektronischen Geräten, über die Benutzer Audio- und Videoinhalt konsumieren, verwendet werden. Beispielsweise können die in 1 angesprochenen Schaltungen in einer Tablet- oder Smartphone-Ausführungsform umgesetzt werden, wohingegen die in 2 angesprochenen Schaltungen in einer Laptop-PC-Ausführungsform umgesetzt werden können. Bei bestimmten Zusammenhängen kann mehr als ein Gerät verwendet werden, z.B. in einem Kontext mit verteilter Verarbeitung. Beispielsweise kann das Smartphone eines Benutzers Umgebungsaudiomaterial aufnehmen und dieses an ein Gerät, welches die Anzeige und Lautsprecher umfasst, zur weiteren Verarbeitung zurückgeben, wie es hierin angesprochen wird. Es sind andere Beispiele von verteilten Systemen möglich.
  • Wie hier beschrieben, kann eine Ausführungsform z.B. auf der Anzeige 170 oder 292 jeweils aus 1 und 2 Videoinhalt anzeigen. In Verbindung mit der Anzeige des Videoinhalts kann eine Ausführungsform beispielsweise unter Verwendung mindestens eines Lautsprechers, wie etwa der Lautsprecher 294 aus 2, Audioinhalt bereitstellen, der mit dem Videoinhalt, z.B. mit dem Dialog des Videoinhalts, verknüpft ist.
  • Wie in 3 abgebildet, geht das Wiedergeben von Audio- und Videoinhalt bei 301 gemäß einer Ausführungsform mit dem Erzielen von Wiedergabekontextdaten bei 302 einher. Diese Wiedergabekontextdaten, die bei 302 erzielt werden, können aus verschiedenen externen Quellen abgeleitet werden, die beispielsweise Gestendaten, die von einer Kamera aufgenommen werden (z.B. ein Benutzer, der mit seiner Hand auf sein Ohr zeigt), biometrische Daten, die mit einer Kamera, einem Mikrofon oder einer anderen Vorrichtung aufgenommen werden (z.B. zum Identifizieren eines spezifischen Benutzers oder eines Schauspielers/ einer Schauspielerin), Umgebungsaudiodaten, die mit einem Mikrofon aufgenommen werden (z.B. zum Ermitteln eines plötzlichen Umgebungsgeräuschs, das die Hörbarkeit stört, zum Ermitteln eines bestimmten Sprechers in der Umgebung oder in den Video- und Audiodaten usw.), und/oder Daten zum Steuern des Anzeigegerätes (z.B. niedrige Lautstärkeneinstellung, wiederholte Pausen- und Rücklaufereignisse usw.), wie es hier näher beschrieben wird, umfassen.
  • Somit kann nach dem Erzielen von Kontextdaten bezüglich eines Wiedergabekontextes des Videoinhalts und des Audioinhalts aus einer externen Quelle bei 302 eine Ausführungsform bei 303 bestimmen, dass die Daten einem Kontext mit reduzierter Hörbarkeit zugeordnet sind. Bei 303 können diverse Techniken verwendet werden, um zu bestimmen, ob die Daten alleine oder kombiniert einen Kontext mit reduzierter Hörbarkeit angeben.
  • Bei 303 kann eine Ausführungsform beispielsweise Umgebungsaudiodaten unter Verwendung einer Spracherkennungs-Maschine analysieren, um eine Zuverlässigkeitsquote zuzuteilen, die sich auf die Erkennung der Umgebungsaudiodaten bezieht. Dies kann der Tatsache entsprechen, dass das System bestimmt, ob der gesprochene Dialog der Video- und Audiodaten, die beispielsweise von einem Mikrofon aufgenommen werden und von der Spracherkennungs-Maschine verarbeitet werden, verständlich ist. Eine Ausführungsform kann demnach bei 304 den Dialog des Audioinhalts mit den Umgebungsaudiodaten verknüpfen, die eine niedrige Zuverlässigkeitsquote aufweisen, und falls die Zuverlässigkeitsquote eine vorbestimmte Schwelle nicht überschreitet, auf Untertiteldaten zugreifen und bei 305 die Untertiteldaten, die mit dem Dialog verknüpft sind, der die niedrige Zuverlässigkeitsquote aufweist, für die Anzeige bereitstellen.
  • Da wiederum die Sprachverarbeitung durch die Spracherkennungs-Maschine mitlaufend oder in Echtzeit erfolgen kann, kann es eine geringe Verzögerung zwischen dem Vorkommen der Ermittlung des Kontextes mit reduzierter Hörbarkeit und dem Vorlegen der Untertiteldaten geben. Somit kann eine Ausführungsform eine Referenz auf zuvor angezeigte Videodaten umfassen, die z.B. angibt, dass die Untertiteldaten zuvor von einer bestimmten Figur ausgesprochen wurden, usw.
  • Als ein anderes Beispiel kann die Bestimmung bei 303 das Analysieren unter Verwendung einer Spracherkennungs-Maschine der Umgebungsaudiodaten umfassen, um einen vorbestimmten Auslöseausdruck in den erkannten Umgebungsaudiodaten, z.B. „Ich höre nichts”, zu identifizieren. Falls ein derartiger Auslöseausdruck ermittelt wird, kann eine Ausführungsform ebenso auf Untertiteldaten zugreifen und bei 304 die Untertiteldaten mit dem Dialog und den Umgebungsaudiodaten, die den vorbestimmten Auslöseausdruck enthalten, verknüpfen. Somit kann eine Ausführungsform bei 305 Textdaten anzeigen oder bereitstellen, die dem Dialog entsprechen, der während eines Kontextes mit reduzierter Hörbarkeit gesprochen wurde. Beispielhaft kann der vorbestimmte Auslöseausdruck unter Verwendung einer Verarbeitung von natürlicher Sprache ermittelt und einer vom Benutzer bereitgestellten Angabe eines unzulänglichen Audiomaterials zugeordnet werden. Dies macht das System auf den Zustand oder Kontext, in dem ein Benutzer eine Eingabe bereitstellt, die angibt, dass eine Textpräsentation von Dialog für das Video hilfreich sein kann, aufmerksam.
  • Als ein anderes Beispiel kann das Analysieren bei 303 das Analysieren von Gestendaten unter Verwendung einer Gestenerkennungs-Maschine, ähnlich wie das Analysieren von Audiodaten für einen Auslöseausdruck, umfassen, z.B. ein Benutzer, der mit seiner Hand gestikuliert, dass er den Audioinhalt nicht hören kann. Somit kann eine Ausführungsform bei 303 eine vorbestimmte Auslösegeste in den Gestendaten identifizieren und bei 304 auf entsprechende Untertiteldaten zugreifen, die z.B. zeitlich mit dem Gestenausdruck verknüpft sind. Eine Ausführungsform kann dann bei 305 die Untertiteldaten, die mit dem Dialog und der vorbestimmten Auslösegeste verknüpft sind, als Textanzeige bereitstellen, wieder vielleicht mit einer Referenz auf den vorhergehenden Audiodialog.
  • Bei einem anderen Beispiel kann das System an einen bestimmten Benutzer und/oder einen bestimmten Sprecher des Dialogs angepasst sein. Beispielhaft kann eine Ausführungsform bei 303 aufgenommene biometrische Daten, z.B. ein Bild, das von einer Kamera aufgenommen wird, analysieren, um eine spezifische Person zu identifizieren, z.B. einen bestimmten Benutzer, der sich das Video ansieht und sich den Audioinhalt anhört. Als Reaktion auf das Identifizieren der spezifischen Person kann eine Ausführungsform bei 304 auf entsprechende Untertiteldaten zugreifen, die z.B. zeitlich mit der Identifizierung der spezifischen Person verknüpft sind. Somit kann eine Ausführungsform bei 305 die Untertiteldaten bereitstellen, die mit dem Dialog und der Identifizierung der spezifischen Person zur Textanzeige verknüpft sind. Dies kann nützlich sein, wenn von einem bestimmten Benutzer bekannt ist, dass er schlecht hört, und/oder wenn von einem bestimmten Benutzer bekannt ist, dass er hörbare Unterbrechungen verursachen kann (z.B. kleine Kinder).
  • Bei einem derartigen Beispiel können die Sprecher des Dialogs (z.B. ein Schauspieler) unter Verwendung einer biometrischen Analyse spezifisch identifiziert werden, um eine Textanzeige des Dialogs, der mit dieser bestimmten Person verknüpft ist, bereitzustellen. Dies kann automatisch erreicht werden (z.B. durch Berücksichtigen eines Dialogverlaufs) und/oder kann eine manuelle Eingabe unterstützen (z.B. kann ein Benutzer angeben, dass ein bestimmter Schauspieler, z.B. auf Grund eines Akzents, eines reduzierten Tons usw., schwer zu verstehen ist).
  • Als weiteres Beispiel kann eine Ausführungsform bei 303 Daten zum Steuern des Anzeigegeräts, z.B. eine reduzierte Lautstärkeneinstellung, wiederholte Pausen- und Rücklaufereignisse usw., analysieren, um einen Anzeigesteuerungskontext zu identifizieren, der einen Kontext mit reduzierter Hörbarkeit angibt. Dies kann man sich so vorstellen, dass das System die Benutzerrückmeldung (z.B. Erhöhen der Lautstärke, Zurücklaufen lassen und erneutes Wiedergeben von Videosegmenten, um das Audiomaterial noch einmal zu hören, usw.) überwacht, um einen Kontext mit reduzierter Hörbarkeit abzuleiten. Falls ein derartiger Kontext durch die Verwendung von Daten zum Steuern des Anzeigegerätes bei 303 ermittelt wird, kann eine Ausführungsform dann auf Untertiteldaten zugreifen, die zeitlich mit dem Anzeigesteuerungskontext verknüpft sind, was einen Kontext mit reduzierter Hörbarkeit bei 304 angibt, und anschließend bei 305 die Untertiteldaten zur Textanzeige des Dialogs bereitstellen.
  • Falls bei 303 kein derartiger Kontext mit reduzierter Hörbarkeit bestimmt wird, kann eine Ausführungsform die Textanzeige von Daten einfach abgeschaltet lassen. Somit kann eine unnötige Anzeige von Untertiteldaten vermieden werden, was das Betrachtererlebnis eines Benutzers verbessert, ohne ihn mit dem manuellen Steuern der Videowiedergabe zu belasten.
  • Kurz zusammengefasst überwacht eine Ausführungsform den Hörbarkeitskontext einer Medienkonsumsituation, um die Textanzeige von Dialogen, die häufig aus schon bereitgestellten (jedoch nicht angezeigten) Untertiteldaten verfügbar ist, intelligent und automatisch umzusetzen. Für den Fall, dass die Untertiteldaten nicht verfügbar sind, kann eine Ausführungsform die Textanzeige lokal bereitstellen, z.B. über Spracherkennung und Sprache-zu-Text-Verarbeitung. In dem Ausmaß wie eine Verzögerung eingeführt wird, kann eine Ausführungsform wieder eine Referenz umfassen, so dass der Benutzer darüber benachrichtigt wird, welchem Audiodialog die Textanzeige entspricht. Bei einigen Ausführungsformen können Benutzereingaben und/oder ein Benutzerrückmeldungsverlauf verwendet werden, um die Genauigkeit und die Zeiteinstellung zu verfeinern, mit denen die automatisierten Textanzeigen für Dialoge vorgelegt werden.
  • Wie es der Fachmann ferner verstehen wird, können diverse Aspekte als System, Verfahren oder Geräteprogrammprodukt ausgebildet sein. Entsprechend können Aspekte die Form einer Ausführungsform ganz aus Hardware oder einer Ausführungsform mit Software, die hier allgemein als „Schaltung”, „Modul” oder „System” bezeichnet wird, annehmen. Ferner können Aspekte die Form eines Geräteprogrammprodukts annehmen, das als ein oder mehrere gerätelesbare Medien ausgebildet ist, in dem bzw. denen Gerätelesbarer Programmcode verkörpert ist.
  • Alle Kombinationen von einem oder mehreren Medien, das bzw. die für Nicht-Signal gerätelesbare Speichermedien lesbar ist bzw. sind, können verwendet werden. Ein Speichermedium kann beispielsweise ein elektronisches, magnetisches, optisches, elektromagnetisches, infrarotes oder Halbleitersystem, eine Vorrichtung oder ein Gerät oder eine geeignete Kombination derselben sein. Genauere Beispiele eines Speichermediums würden Folgendes umfassen: eine tragbare Computerdiskette, eine Festplatte, einen Arbeitsspeicher (RAM), einen Festwertspeicher (ROM), einen löschbaren programmierbaren Arbeitsspeicher (EPROM oder Flash-Speicher), eine Lichtleitfaser, einen tragbaren Compact Disk Arbeitsspeicher (CD-ROM), ein optisches Speichergerät, ein magnetisches Speichergerät oder eine beliebige geeignete Kombination derselben. In Zusammenhang mit der vorliegenden Druckschrift ist ein Speichermedium kein Signal, ist nicht vorübergehend, und der Begriff „nicht vorübergehend” umfasst alle Medien außer Signalmedien.
  • Programmcode, der in einem Speichermedium verkörpert ist, kann unter Verwendung eines beliebigen geeigneten Mediums, einschließlich ohne Einschränkung drahtlos, drahtgebunden, über Glasfaserkabel, HF usw. oder eine beliebige geeignete Kombination derselben, übertragen werden.
  • Programmcode zum Ausführen von Vorgängen kann in einer Kombination von einer oder mehreren Programmiersprachen verfasst sein. Der Programmcode kann vollständig auf einem einzigen Gerät, teilweise auf einem einzigen Gerät, als selbstständiges Software-Paket, teilweise auf einem einzigen Gerät und teilweise auf einem anderen Gerät oder vollständig auf dem anderen Gerät ablaufen. Manchmal können die Geräte über eine beliebige Art von Verbindung oder Netzwerk angeschlossen sein, wozu ein lokales Netzwerk (LAN) oder ein Weitverkehrsnetz (WAN) gehören, oder der Anschluss kann über andere Geräte (beispielsweise über das Internet unter Verwendung eines Internet-Anbieters), über drahtlose Verbindungen, z.B. Nahfeldkommunikation oder Kurzstrecken-Funkkommunikation, oder über eine verkabelte Verbindung, wie etwa über eine USB-Verbindung, erfolgen.
  • Es werden hier Ausführungsbeispiele mit Bezug auf die Figuren beschrieben, die beispielhafte Verfahren, Geräte und Programmprodukte gemäß diversen Ausführungsbeispielen abbilden. Es versteht sich, dass die Aktionen und die Funktionalität mindestens teilweise durch Programmanweisungen umgesetzt werden können. Diese Programmanweisungen können einem Prozessor eines universellen Informationshandhabungsgerätes, eines speziellen Informationshandhabungsgerätes oder eines anderen programmierbaren Datenverarbeitungsgerätes bereitgestellt werden, um eine Maschine zu ergeben, so dass die Anweisungen, die über einen Prozessor des Gerätes ausgeführt werden, die vorgegebenen Funktionen/Aktionen umsetzen.
  • Es sei zu beachten, dass obwohl spezifische Blöcke in den Figuren verwendet werden und eine bestimmte Reihenfolge von Blöcken abgebildet wurde, diese keine einschränkenden Beispiele sind. In bestimmten Zusammenhängen können zwei oder mehrere Blöcke kombiniert werden, ein Block kann in zwei oder mehrere Blöcke unterteilt werden, oder bestimmte Blöcke können je nach Bedarf umgeordnet oder umgestellt werden, da die ausdrücklich abgebildeten Beispiele nur zur Beschreibung verwendet werden und nicht als einschränkend auszulegen sind.
  • Wie sie hier verwendet wird, kann die Singularform „ein” als die Pluralform umfassend ausgelegt werden, soweit nicht eindeutig anderweitig angegeben.
  • Die vorliegende Offenbarung wurde zum Zweck der Erläuterung und Beschreibung vorgelegt, ist aber nicht dazu gedacht, ausschöpfend oder einschränkend zu sein. Zahlreiche Modifikationen und Variationen werden für den Fachmann ersichtlich sein. Die Ausführungsbeispiele wurden gewählt und beschrieben, um die Grundlagen und die praktische Anwendung zu erklären, und um es anderen Fachleuten zu ermöglichen, die Offenbarung für diverse Ausführungsformen zu verstehen, wie sie für die bestimmte beabsichtigte Verwendung geeignet sind.
  • Obwohl somit hier erläuternde Ausführungsbeispiele mit Bezug auf die beiliegenden Figuren beschrieben wurden, versteht es sich, dass diese Beschreibung nicht einschränkend ist und dass diverse andere Änderungen und Modifikationen hier vom Fachmann vorgenommen werden können, ohne den Umfang oder Geist der Offenbarung zu verlassen.

Claims (22)

  1. Verfahren, umfassend folgende Schritte: Wiedergeben von Videoinhalt auf einem Anzeigegerät; unter Verwendung mindestens eines Lautsprechers, Bereitstellen von Audioinhalt, der mit dem Videoinhalt verknüpft ist; Beziehen von Daten bezüglich des Wiedergabekontextes von einer externen Quelle; unter Verwendung eines Prozessors Bestimmen, dass die Daten bezüglich des Wiedergabekontextes mit einem Kontext mit reduzierter Hörbarkeit verknüpft sind; und Bereitstellen von Textdaten auf dem Anzeigegerät, die mit dem Dialog des Videoinhalts verknüpft sind.
  2. Verfahren nach Anspruch 1, ferner umfassend, unter Verwendung eines Prozessors, Verknüpfen der Daten, die mit einem Kontext mit reduzierter Hörbarkeit verknüpft sind, mit dem Dialog des Audioinhalts.
  3. Verfahren nach Anspruch 1, wobei die Daten bezüglich des Wiedergabekontextes aus der Gruppe ausgewählt werden, die aus Gestendaten, biometrischen Daten, Umgebungsaudiodaten und Daten zum Steuern des Anzeigegerätes besteht.
  4. Verfahren nach Anspruch 3, ferner umfassend folgende Schritte: Analysieren der Umgebungsaudiodaten unter Verwendung einer Spracherkennungs-Maschine Zuteilen einer Zuverlässigkeitsquote bezüglich der Erkennung der Umgebungsaudiodaten; Verknüpfen des Dialogs des Audioinhalts mit den Umgebungsaudiodaten, die eine niedrige Zuverlässigkeitsquote aufweisen; und als Reaktion darauf, dass die Zuverlässigkeitsquote eine vorbestimmte Schwelle nicht überschreitet, Zugreifen auf Untertiteldaten; wobei das Bereitstellen ein Bereitstellen von Untertiteldaten, die mit dem Dialog verknüpft sind, der die niedrige Zuverlässigkeitsquote aufweist, umfasst.
  5. Verfahren nach Anspruch 4, wobei die Untertiteldaten eine Referenz auf zuvor angezeigte Videodaten umfassen.
  6. Verfahren nach Anspruch 5, wobei die Referenz einen bestimmten Sprecher innerhalb der Videodaten angibt.
  7. Verfahren nach Anspruch 3, ferner umfassend folgende Schritte: Analysieren der Umgebungsaudiodaten unter Verwendung einer Spracherkennungs-Maschine; Identifizieren eines vorbestimmten Auslöseausdrucks in den erkannten Umgebungsaudiodaten; und als Reaktion auf das Identifizieren des vorbestimmten Auslöseausdrucks, Zugreifen auf Untertiteldaten; wobei das Bereitstellen ein Bereitstellen von Untertiteldaten, die mit dem Dialog und den Umgebungsaudiodaten, die den vorbestimmten Auslöseausdruck enthalten, verknüpft sind, umfasst.
  8. Verfahren nach Anspruch 7, wobei der vorbestimmte Auslöseausdruck unter Verwendung einer Verarbeitung natürlicher Sprache mit einer vom Benutzer bereitgestellten Angabe von unzulänglichem Audiomaterial verknüpft wird.
  9. Verfahren nach Anspruch 3, ferner umfassend folgende Schritte: Analysieren der Gestendaten unter Verwendung einer Gestenerkennungs-Maschine; Identifizieren einer vorbestimmten Auslösegeste in den Gestendaten; und als Reaktion auf das Identifizieren der vorbestimmten Auslösegeste, Zugreifen auf Untertiteldaten; wobei das Bereitstellen ein Bereitstellen von Untertiteldaten, die mit dem Dialog und der vorbestimmten Auslösegeste verknüpft sind, umfasst.
  10. Verfahren nach Anspruch 3, ferner umfassend folgende Schritte: Analysieren der biometrischen Daten, um eine spezifische Person zu identifizieren; und als Reaktion auf das Identifizieren der spezifischen Person, Zugreifen auf Untertiteldaten; wobei das Bereitstellen ein Bereitstellen von Untertiteldaten, die mit dem Dialog und der Identifizierung der spezifischen Person verknüpft sind, umfasst.
  11. Verfahren nach Anspruch 3, ferner umfassend folgende Schritte: Analysieren von Anzeigesteuerungsdaten, um einen Anzeigesteuerungskontext zu identifizieren, der einen Kontext mit reduzierter Hörbarkeit angibt; und Zugreifen auf Untertiteldaten, die zeitlich mit dem Anzeigesteuerungskontext, der einen Kontext mit reduzierter Hörbarkeit angibt, verknüpft sind; wobei das Bereitstellen ein Bereitstellen von Untertiteldaten, die mit dem Dialog und dem Anzeigesteuerungskontext, der einen Kontext mit reduzierter Hörbarkeit angibt, verknüpft sind, umfasst.
  12. Elektronisches Gerät, umfassend: ein Anzeigegerät; eine Eingabekomponente; mindestens einen Lautsprecher; einen oder mehrere Prozessoren; und einen Speicher, der operativ mit dem einen oder den mehreren Prozessoren, dem Anzeigegerät, dem mindestens einen Lautsprecher und der Eingabekomponente gekoppelt ist, wobei der Speicher Anweisungen speichert, die durch den einen oder die mehreren Prozessoren ausführbar sind, wobei die Anweisungen durch den einen oder die mehreren Prozessoren ausführbar sind zum: Wiedergeben von Videoinhalt auf dem Anzeigegerät; unter Verwendung des mindestens einen Lautsprechers, Bereitstellen von Audioinhalt, der mit dem Videoinhalt verknüpft ist; Beziehen von Daten bezüglich des Wiedergabekontextes von einer externen Quelle; Bestimmen, dass die Daten bezüglich des Wiedergabekontextes mit einem Kontext mit reduzierter Hörbarkeit verknüpft sind; und Bereitstellen von Textdaten auf dem Anzeigegerät, die mit dem Dialog des Videoinhalts verknüpft sind.
  13. Elektronisches Gerät nach Anspruch 12, wobei die Anweisungen ferner von dem einen oder den mehreren Prozessoren ausführbar sind, um die Daten, die mit einem Kontext mit reduzierter Hörbarkeit verknüpft sind, mit dem Dialog des Audioinhalts zu verknüpfen.
  14. Elektronische Vorrichtung nach Anspruch 12, wobei die Daten bezüglich des Wiedergabekontextes aus der Gruppe ausgewählt werden, die aus Gestendaten, biometrischen Daten, Umgebungsaudiodaten und Daten zum Steuern des Anzeigegerätes besteht.
  15. Verfahren nach Anspruch 14, wobei die Anweisungen ferner durch den einen oder die mehreren Prozessoren ausführbar sind zum: Analysieren der Umgebungsaudiodaten unter Verwendung einer Spracherkennungs-Maschine; Zuteilen einer Zuverlässigkeitsquote bezüglich der Erkennung der Umgebungsaudiodaten; Verknüpfen des Dialogs des Audioinhalts mit den Umgebungsaudiodaten, welche die niedrige Zuverlässigkeitsquote aufweisen; und als Reaktion darauf, dass die Zuverlässigkeitsquote eine vorbestimmte Schwelle nicht überschreitet, Zugreifen auf Untertiteldaten; wobei das Bereitstellen ein Bereitstellen von Untertiteldaten, die mit dem Dialog verknüpft sind, der die niedrige Zuverlässigkeitsquote aufweist, umfasst.
  16. Elektronisches Gerät nach Anspruch 15, wobei die Untertiteldaten eine Referenz auf zuvor angezeigte Videodaten umfassen.
  17. Elektronisches Gerät nach Anspruch 16, wobei die Referenz einen bestimmten Sprecher innerhalb der Videodaten angibt.
  18. Elektronisches Gerät nach Anspruch 14, wobei die Anweisungen ferner durch den einen oder die mehreren Prozessoren ausführbar sind zum: Analysieren der Umgebungsaudiodaten unter Verwendung einer Spracherkennungs-Maschine; Identifizieren eines vorbestimmten Auslöseausdrucks in den erkannten Umgebungsaudiodaten; und als Reaktion auf das Identifizieren des vorbestimmten Auslöseausdrucks, Zugreifen auf Untertiteldaten; wobei das Bereitstellen ein Bereitstellen von Untertiteldaten, die mit dem Dialog und den Umgebungsaudiodaten, die den vorbestimmten Auslöseausdruck enthalten, verknüpft sind, umfasst.
  19. Elektronisches Gerät nach Anspruch 18, wobei der vorbestimmte Auslöseausdruck unter Verwendung einer Verarbeitung natürlicher Sprache einer vom Benutzer bereitgestellten Angabe von unzulänglichem Audiomaterial zugeordnet ist.
  20. Elektronisches Gerät nach Anspruch 14, wobei die Anweisungen ferner durch den einen oder die mehreren Prozessoren ausführbar sind zum: Analysieren der Gestendaten unter Verwendung einer Gestenerkennungs-Maschine; Identifizieren einer vorbestimmten Auslösegeste in den Gestendaten; und als Reaktion auf das Identifizieren der vorbestimmten Auslösegeste, Zugreifen auf Untertiteldaten; wobei das Bereitstellen ein Bereitstellen von Untertiteldaten, die mit dem Dialog und der vorbestimmten Auslösegeste verknüpft sind, umfasst.
  21. Elektronisches Gerät nach Anspruch 14, wobei die Anweisungen ferner durch den einen oder die mehreren Prozessoren ausführbar sind zum: Analysieren der biometrischen Daten, um eine spezifische Person zu identifizieren; und als Reaktion auf das Identifizieren der spezifischen Person, Zugreifen auf Untertiteldaten; wobei das Bereitstellen ein Bereitstellen von Untertiteldaten, die mit dem Dialog und der Identifizierung der spezifischen Person verknüpft sind, umfasst.
  22. Computerprogrammprodukt, umfassend: eine Speichervorrichtung, die Anweisungen speichert, die durch einen Prozessor ausführbar sind, wobei die Anweisungen Folgendes umfassen: Anweisungen, die Videoinhalt auf einem Anzeigegerät wiedergeben; Anweisungen, die unter Verwendung mindestens eines Lautsprechers Audioinhalt, der mit dem Videoinhalt verknüpft ist, bereitstellen; Anweisungen, die von einer externen Quelle Daten bezüglich des Wiedergabekontextes beziehen; Anweisungen, die unter Verwendung eines Prozessors bestimmen, dass die Daten bezüglich des Wiedergabekontextes mit einem Kontext mit reduzierter Hörbarkeit verknüpft sind; und Anweisungen, die Textdaten auf dem Anzeigegerät, die mit dem Dialog des Videoinhalts verknüpft sind, bereitstellen.
DE102015110621.3A 2014-07-11 2015-07-01 Intelligente Untertitel Active DE102015110621B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/329,374 US10321204B2 (en) 2014-07-11 2014-07-11 Intelligent closed captioning
US14/329,374 2014-07-11

Publications (2)

Publication Number Publication Date
DE102015110621A1 true DE102015110621A1 (de) 2016-01-14
DE102015110621B4 DE102015110621B4 (de) 2020-07-09

Family

ID=54867053

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102015110621.3A Active DE102015110621B4 (de) 2014-07-11 2015-07-01 Intelligente Untertitel

Country Status (3)

Country Link
US (1) US10321204B2 (de)
CN (1) CN105323648B (de)
DE (1) DE102015110621B4 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3531707A1 (de) * 2018-02-21 2019-08-28 Comcast Cable Communications LLC Audio-inhaltswiedergabesteuerung

Families Citing this family (134)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10199051B2 (en) 2013-02-07 2019-02-05 Apple Inc. Voice trigger for a digital assistant
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
EP3480811A1 (de) 2014-05-30 2019-05-08 Apple Inc. Verfahren zur eingabe von mehreren befehlen mit einer einzigen äusserung
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR102187195B1 (ko) * 2014-07-28 2020-12-04 삼성전자주식회사 주변 소음에 기초하여 자막을 생성하는 동영상 디스플레이 방법 및 사용자 단말
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) * 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10057532B2 (en) * 2016-04-01 2018-08-21 Comcast Cable Communications, Llc Methods and systems for environmental noise compensation
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10771853B2 (en) * 2016-12-01 2020-09-08 Arris Enterprises Llc System and method for caption modification
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
WO2018112789A1 (en) * 2016-12-21 2018-06-28 Arris Enterprises Llc Automatic activation of closed captioning for low volume periods
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US9854324B1 (en) 2017-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for automatically enabling subtitles based on detecting an accent
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US11064264B2 (en) * 2018-09-20 2021-07-13 International Business Machines Corporation Intelligent rewind function when playing media content
US10848819B2 (en) * 2018-09-25 2020-11-24 Rovi Guides, Inc. Systems and methods for adjusting buffer size
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11178465B2 (en) * 2018-10-02 2021-11-16 Harman International Industries, Incorporated System and method for automatic subtitle display
US11265597B2 (en) 2018-10-23 2022-03-01 Rovi Guides, Inc. Methods and systems for predictive buffering of related content segments
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11372965B2 (en) 2019-05-10 2022-06-28 Microsoft Technology Licensing, Llc Application with self-configuring accessibility settings
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11468890B2 (en) 2019-06-01 2022-10-11 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11558658B2 (en) * 2020-11-02 2023-01-17 Rovi Guides, Inc. Systems and methods for handling audio disruptions
WO2022186827A1 (en) * 2021-03-03 2022-09-09 Google Llc Multi-party optimization for audiovisual enhancement

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6480819B1 (en) * 1999-02-25 2002-11-12 Matsushita Electric Industrial Co., Ltd. Automatic search of audio channels by matching viewer-spoken words against closed-caption/audio content for interactive television
US6993246B1 (en) * 2000-09-15 2006-01-31 Hewlett-Packard Development Company, L.P. Method and system for correlating data streams
US20040044532A1 (en) * 2002-09-03 2004-03-04 International Business Machines Corporation System and method for remote audio caption visualizations
JP4128916B2 (ja) * 2003-08-15 2008-07-30 株式会社東芝 字幕制御装置および方法ならびにプログラム
US8736761B2 (en) 2006-06-09 2014-05-27 Thomson Licensing System and method for closed captioning
US8041025B2 (en) * 2006-08-07 2011-10-18 International Business Machines Corporation Systems and arrangements for controlling modes of audio devices based on user selectable parameters
US9282377B2 (en) * 2007-05-31 2016-03-08 iCommunicator LLC Apparatuses, methods and systems to provide translations of information into sign language or other formats
US7487096B1 (en) * 2008-02-20 2009-02-03 International Business Machines Corporation Method to automatically enable closed captioning when a speaker has a heavy accent
US9131191B2 (en) * 2008-09-18 2015-09-08 VIZIO Inc. Synchronizing operational states of closed captioning and audio mute
KR102003267B1 (ko) * 2011-12-30 2019-10-02 삼성전자주식회사 전자 장치 및 그의 제어 방법
US20130242189A1 (en) * 2012-03-13 2013-09-19 Verizon Patent And Licensing Inc. Method and system for providing synchronized playback of media streams and corresponding closed captions
US9210360B2 (en) * 2012-12-28 2015-12-08 Echostar Uk Holdings Limited Volume level-based closed-captioning control

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3531707A1 (de) * 2018-02-21 2019-08-28 Comcast Cable Communications LLC Audio-inhaltswiedergabesteuerung

Also Published As

Publication number Publication date
CN105323648B (zh) 2019-10-29
CN105323648A (zh) 2016-02-10
US20160014476A1 (en) 2016-01-14
DE102015110621B4 (de) 2020-07-09
US10321204B2 (en) 2019-06-11

Similar Documents

Publication Publication Date Title
DE102015110621B4 (de) Intelligente Untertitel
DE102011054197B4 (de) Selektive Übertragung von Sprachdaten
DE102016122708A1 (de) Verlängern des Spracherkennungszeitraums
DE102016125068B4 (de) Verfahren und Vorrichtung zum Handhaben von Audioausgaben
CN111683263B (zh) 直播指导方法、装置、设备及计算机可读存储介质
US10250925B2 (en) Determining a playback rate of media for a requester
DE102015100900A1 (de) Einstellen einer Spracherkennung unter Verwendung einer Kontextinformation
DE102019112380A1 (de) Verfahren und System zur robusten Sprechererkennungsaktivierung
DE202017104895U1 (de) Hotword-Detektion bei mehreren Vorrichtungen
US20180152163A1 (en) Noise control method and device
DE102016103218A1 (de) Blickbasierte Benachrichtigungsantwort
DE102016103216A1 (de) Serielle visuelle Präsentation für tragbare Anzeigen
DE102017122427A1 (de) Automatische Anpassung einer Lautstärke eines Lautsprechers eines Gerätes basierend auf einer Amplitude einer Spracheingabe in das Gerät
DE112016005688T5 (de) System zur Tonerfassung und -erzeugung über Nasalvibration
DE102018114658A1 (de) Eingabe während einer Unterhaltungssitzung
DE102017115936A1 (de) Systeme und Verfahren zum Aktivieren eines Sprachassistenten und Bereitstellen eines Indikators, dass der Sprachassistent Hilfe zu leisten hat
DE102018114453A1 (de) Interaktive Sessions
CN111541904A (zh) 直播过程中的信息提示方法、装置、设备及存储介质
DE102016113914A1 (de) Einfügung von Zeichen bei Spracherkennung
DE102017115383A1 (de) Audio-slicer
US20170169857A1 (en) Method and Electronic Device for Video Play
DE102017126306A1 (de) Kontextabhängiger Koversionsmodus für digitalen Assistenten
WO2015088789A1 (en) Audio keyword based control of media output
DE102018119101A1 (de) Durchführen einer handlung auf aktiven medieninhalt
EP4184310A1 (de) Volumenempfehlungsverfahren und -vorrichtung, vorrichtung und speichermedium

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R081 Change of applicant/patentee

Owner name: LENOVO PC INTERNATIONAL LIMITED, HK

Free format text: FORMER OWNER: LENOVO (SINGAPORE) PTE. LTD., SINGAPUR, SG

R082 Change of representative

Representative=s name: SCHWEIGER, MARTIN, DIPL.-ING. UNIV., DE