DE60005422T2 - Automatische Suche nach Tonkanälen mittels Vergleich von vom Benutzer gesprochenen Wörtern im Untertiteltext oder Audioinhalt für interaktives Fernsehen - Google Patents

Automatische Suche nach Tonkanälen mittels Vergleich von vom Benutzer gesprochenen Wörtern im Untertiteltext oder Audioinhalt für interaktives Fernsehen Download PDF

Info

Publication number
DE60005422T2
DE60005422T2 DE60005422T DE60005422T DE60005422T2 DE 60005422 T2 DE60005422 T2 DE 60005422T2 DE 60005422 T DE60005422 T DE 60005422T DE 60005422 T DE60005422 T DE 60005422T DE 60005422 T2 DE60005422 T2 DE 60005422T2
Authority
DE
Germany
Prior art keywords
word
user
information
semantic analyzer
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60005422T
Other languages
English (en)
Other versions
DE60005422D1 (de
Inventor
Robert C. Boman
Jean-Claude Junqua
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE60005422D1 publication Critical patent/DE60005422D1/de
Application granted granted Critical
Publication of DE60005422T2 publication Critical patent/DE60005422T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Systems (AREA)
  • User Interface Of Digital Computer (AREA)

Description

  • Hintergrund und Zusammenfassung der Erfindung
  • Die vorliegende Erfindung bezieht sich allgemein auf interaktives Fernsehen und insbesondere auf ein System, das dem Benutzer gestattet Kanäle mittels einer gesprochenen Aufforderung zu wählen.
  • Interaktives Fernsehen verspricht dialogfähige Kommunikation zwischen dem Zuschauer/der Zuschauerin und seinem bzw. ihrem Fernsehapparat zu ermöglichen. Obwohl die Technologie noch in ihren Kinderschuhen steckt, erwartet man vom Digitalfernsehen, dass es die Aussichten für interaktives Fernsehen stark bereichert, weil die Digitaltechnologie eine viel wirksamere Verwendung der verfügbaren Kanalbandbreite möglich macht. Mittels Digitaltechnologie, können Rundfunkanstalten eine signifikant höhere Zahl von Programmen in die verfügbare Bandbreite der Lieferinfrastruktur (z.B. Kabel oder Satellit) packen.
  • Obwohl die neue, interaktive, digitale Fernsehtechnologie, sowohl den Zuschauern als auch den Rundfunkanstalten, eine signifikante Reihe von Vorteilen bietet, ist sie nicht ohne Probleme. Die Aussicht 200 oder mehr Kanäle gleichzeitig zum Schauen verfügbar zu haben, kann man sich kaum ausmalen. Konventionelle elektronische Bildschirm-Programmführer werden sich wahrscheinlich unzureichend erweisen den Zuschauern zu helfen Programme zu finden, an denen sie interessiert sind. Interaktives Digitalfernsehen verlangt ein höher entwickeltes Dialogsystem, wenn die Zuschauer jemals fähig sein sollen diese reiche, neue Ressource voll zu nutzen.
  • Die vorliegende, wie in Anspruch 1 definierte, Erfindung stellt ein sprachaktiviertes Dialogsystem bereit, durch das ein Benutzer einen gewünschten Programminhalt mittels gesprochener natürlicher Sprache spezifizieren kann. Das System entnimmt der Sprache des Benutzers sowohl semantischen als auch Schlüsselwortinhalt, und in einem bevorzugten Ausführungsbeispiel fordert es den Benutzer auf zusätzliche Information bereitzustellen, falls die Bedeutung unklar ist.
  • Das System überwacht dann Untertitelinformation auf Mehrkanälen gleichzeitig und schaltet den aktiven Kanaltuner oder Zusatztuner auf den Kanal, der die Information trägt, die dem Wunsch des Benutzers entspricht. Wenn Untertitelinformation nicht verfügbar ist, wird das System, als Alternative, Spracherkennung auf das Audiosignal der überwachten Kanäle anwenden. Sobald der Kanal geschaltet worden ist, kann das Programm im Modus Vollbild oder „Split-Screen" oder als „Bild in Bild" angezeigt oder für spätere Wiedergabe aufgezeichnet werden. Solch ein System ist in der Europäischen Patentanmeldung EP 0 754 670 A2 offenbart.
  • Das Spracherkennungssystem arbeitet mit einem semantischen Analysator, der in der Lage ist zwischen Sprache, die beabsichtigt ist einen Programminhalt zu beschreiben, und Sprache, die beabsichtigt ist Metabefehle an das System zu liefern, zu unterscheiden. Durch Herausarbeiten von Sinn als auch Schlüsselwörtern und Phrasen aus der gesprochenen Eingabe, wird das System passenden Inhalt finden, selbst wenn die gesprochenen Wörter dem Untertiteltext nicht wortwörtlich entsprechen. Systeme zur Durchführung gemessener Ausblendung einer gesprochenen Suchfrage unter Einsatz semantischer Analyse sind in P. J. Wyard et al „Spoken language systems – beyond prompt and response" B T Technology Journal 14 (1996) p. 187–205 besprochen.
  • Um die Erfindung, ihre Ziele und Vorteile vollkommener zu verstehen, beziehen Sie sich bitte auf die folgende Spezifikation und die zugehörigen Zeichnungen.
  • Kurzbeschreibung der Zeichnungen
  • 1 ist ein Blockdiagramm eines gegenwärtig bevorzugten Ausführungsbeispiels der Erfindung. 2 ist ein Datenflussdiagramm, das den Wortwähler und die semantische Analysatorkomponente des bevorzugten Ausführungsbeispiels zeigt.
  • Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
  • Bezugnehmend auf die 1, kann das interaktive Inhaltsuchsystem der Erfindung vielleicht in das Fernsehgerät 10 oder in eine „Set-Top-Box" 12 integriert werden. In beiden Ausführungsbeispielen ist das System konzipiert, einen oder mehrere Kanäle zu überwachen, die momentan nicht benutzt werden, um Untertiteltext oder Tonkanalsprache festzustellen, die dem zuvor vom Benutzer gesprochenen Wunsch entspricht. In der 1 wurde eine Vielheit von Tunern einschließlich eines aktiven Kanaltuners 14 und einer Vielheit von Zusatztunern 16 illustriert. Im illustrierten Ausführungsbeispiel wird angenommen, dass n Zusatztuner vorhanden sind (wobei n eine ganze Zahl größer als 0 ist). In ihrer einfachsten Form lässt sich die Erfindung möglicherweise unter Verwendung eines einzigen Zusatztuners implementieren.
  • Der aktive Kanaltuner 14 ist auf einen vom Benutzer eingestellten Kanal abgestimmt, und dieser Tuner wählt deshalb den Kanal, den sich der Benutzer momentan auf dem Fernsehgerät 10 ansieht. Wenn erwünscht, können einer oder mehrere Zusatztuner ebenfalls Programminhalt zum Betrachten auf einem Fernsehgerät 10, wie beispielsweise in einem „Split-Screen" Modus oder in einem „Bild in Bild" Modus, liefern. In der 1, ist der Zusatztuner, als Tuner n markiert, angeschlossen Programminhalt zum Fernsehgerät 10 zu liefern.
  • Unter Einsatz aktueller Tunertechnologie, wählen der aktive Kanaltuner 14 und die Zusatztuner 16 den gewünschten Kanal, indem sie das entsprechende Frequenzband durch Bandpassfilterung des RF-Signals wählen. Während Tuner dieses Typs dazu verwendet werden können die Erfindung zu implementieren, werden auch andere Formen digitaler „Kanal"-Wahl ins Auge gefasst, wodurch der gewünschte Programminhalt dem Videodatenstrom im digitalen Wertebereich entnommen wird. Für Implementierungszwecke der Erfindung hängt die Art der Kanalwahl von der Art und Weise ab, in der die Fernsehsignale codiert und gesendet werden.
  • Ungeachtet der Form der zum Senden des Programmmaterials verwendeten Signale, sind die Zusatztuner 16 jeweils eingestellt einen anderen Programmkanal zu überwachen, so dass die Untertiteltextinformation und das Audiosignal vom System überwacht werden kann. Der Benutzer wählt die zu überwachenden Kanäle, indem er entweder Bildschirmmenüwahl oder gesprochene Metabefehle verwendet.
  • Das System verwendet einen Spracherkenner 18, mit dem der Benutzer durch ein geeignetes Mikrofon 20 kommuniziert. Das Mikrofon 20 kann vielleicht in das Fernsehgerät oder die „Set-Top-Box" eingebaut sein, jedoch ist beim gegenwärtig bevorzugten Ausführungsbeispiel das Mikrofon in eine handgehaltene Fernbedienungseinheit 22 eingebaut, die mit dem Fernsehgerät oder der „Set-Top-Box" durch eine geeignete Verbindung, wie beispielsweise eine Infrarotverbindung oder eine festverdrahtete Verbindung kommuniziert.
  • Der Spracherkennen 18 arbeitet mit einem Satz Sprachmodellen 24 zusammen, die alle vom System erkennbaren Wörter repräsentieren. Der Spracherkennen kann vielleicht auf „Hidden Markov Model"(HMM)-Technologie, oder anderer Erkennungstechnologie auf Modellbasis beruhen. Das Wörterbuch bzw. Lexikon von Wörtern, die für das System erkennbar sind, kann vielleicht nicht nur Wörter, sondern Buchstaben des Alphabets einschließen, und dadurch dem System gestatten vom Benutzer gesprochene Buchstaben beim Buchstabieren anderer neuer Wörter zu erkennen. Wie unten ausführlicher erläutert werden wird, gestattet der Einschluss von Sprachmodellen für Buchstaben des Alphabets dem Benutzer den Spracherkennen zu trainieren neue Wörter zu lernen, selbst wenn keine Tastatur zum Tippen verfügbar ist.
  • Der Spracherkenner 18, verwandelt, in der Tat, gesprochene Äußerungen zu Text, der den wahrscheinlichsten Wort- oder Phrasenkandidaten (oder Buchstabenkandidaten) entspricht, die vom System erkannt werden. Im gegenwärtig bevorzugten Ausführungsbeispiel gibt der Spracherkennen 18 den N-Besten Satzkandidaten für jede vom Benutzer gesprochene Satzäußerung aus. Der Spracherkenner generiert ein Wahrscheinlichkeitsergebnis für jeden Satz, das auf die Likelihood schließen lässt, dass der Satz der gesprochenen Äußerung entspricht. Die Top-N-Kandidaten werden selektiert und zur Weiterverarbeitung in den Wortwähler und den semantischen Analysatorblock 26 gespeist.
  • Der Wortwähler und semantische Analysatorblock 26 führen mehrere Funktionen aus. Erstens löst er welcher der N-Besten-Erkennungskandidaten vom Benutzer tatsächlich beabsichtigt war. Zweitens analysiert er den semantischen Inhalt der ganzen Äußerung des Benutzers, um zusätzliche Information über den Wunsch des Benutzers zu ermitteln, die möglicherweise nicht den einzelnen Wörter selbst zu entnehmen ist. Drittens analysiert der semantische Analysator außerdem die Eingabe des Benutzers, um Erkennungsfehler zu lösen und zu bestimmen ob die Eingabesprache des Benutzers die Beschreibung von Programminhalt repräsentiert oder Metabefehle repräsentiert, die als Instruktionen beabsichtigt sind, um Systembetrieb zu bewirken.
  • Der Wortwähler und semantische Analysator verwenden einen kombinierten lokalen Parser und globalen Parser, um den korrekten Kandidaten aus den N-Besten-Kandidaten zu selektieren und außerdem semantische Analyse auszuführen. Die Details dieser Parserkomponenten sind nachstehend eingehender beschrieben. Der Wortwähler und semantische Analysator arbeitet mit einem Dialogmanager 28, der hilft Zweideutigkeiten zu lösen, indem er den Benutzer auffordert zusätzliche Information zu liefern, um entweder den Programminhalt oder den Metabefehl zu spezifizieren.
  • Der Dialogmanager 28 kann entweder Text-Bedienerhinweise oder stimmhafte Bedienerhinweise liefern. Text-Bedienerhinweise werden als alphanumerischer Text generiert, der zur Anzeige am Bildschirm passend in das Videosignal injiziert wird. Stimmhafte Bedienerhinweise werden innerhalb des Dialogmanagers durch einen Sprachsynthesizer bereitgestellt und können vielleicht zur Wiedergabe durch das Lautsprechersystem des Fernsehgeräts in den Audiostrom injiziert werden.
  • Falls erwünscht, kann ein Wort-Ereignisdatenspeicher 30 bereitgestellt werden, um eine Aufzeichnung bisherig gelöster Wortzweideutigkeiten zu speichern, was dem System ermöglicht die Fernsehgewohnheiten des Benutzers zu „lernen", und dadurch den Wortwähler beim Lösen nachfolgender Worterkennungszweideutigkeiten zu unterstützen.
  • Der Wortwähler und semantische Analysator ist konzipiert die Bedeutung zu entnehmen, die hinter dem Wunsch des Benutzers für eine Kanalwahl steckt, und wird automatisch anwendbare Synonyme wählen, um den Textanpassungsprozess zu verbessern. Wenn der Wortwähler und semantische Analysator daher ermittelt, dass der Benutzer daran interessiert ist sich ein Spiel von Fußball anzuschauen, werden Synonyme und verwandte Wörter, wie beispielsweise „touch down," „kick-off," „NFL," „Superbowl", und dergleichen der Synonym-Datenbank 32 des Wortwählers entnommen.
  • Die entnommenen Wörter werden dann zusammen mit dem ursprünglich vom Benutzer gesprochenen Wort zu einem Wortlistenpuffer 34 gesendet, der als dynamisches Wörterbuch für den Textanpassungsprozessor 36 dient. Der Textanpassungsprozessor 36 empfängt individuelle Ströme von Untertiteltextdaten und/oder Audiodaten ab den Zusatztunern 16 sowie jene Information „live" gesendet und von den jeweiligen Tunern gewählt wird. Falls Audiodaten durch einen Zusatztuner bereitgestellt werden, verwendet der Textanpassungsprozessor 36 die Dienste des Spracherkenners 18, um den Audiostrom in Textdaten umzuwandeln.
  • Der Textanpassungsprozessor 36 vergleicht jeden der ab den Zusatztunern 16 ankommenden Textströme mit den im Wortlistenpuffer 34 enthaltenen Wörtern. Wird eine Übereinstimmung festgestellt, signalisiert der Prozessor 36 dem Kanalschalter 38, der seinerseits eine Reihe verschiedener Aktionen, in Abhängigkeit von dem vom Benutzer eingestellten Modus, auslöst.
  • In einem ersten Modus, sendet der Kanalschalter 38 einen Befehl an den aktiven Kanaltuner 14, was bewirkt, dass der aktive Kanaltuner sofort auf den Kanal schaltet, auf dem die festgestellte Wortübereinstimmung auftrat. Der Benutzer/die Benutzerin wird somit sofort auf den Kanal geschaltet, der den Inhalt enthält, um den er bzw. sie zuvor ersucht hat.
  • In einem zweiten Modus, schaltet der Schalter 38 einen der Zusatztuner (z.B. Tuner n) auf den Kanal, der die Wortübereinstimmung ausgelöst hat. In diesem Modus, fährt der Zuschauer mit dem Anschauen des aktiven Kanals fort, es wird ihm aber auch ein „Bild in Bild" oder eine „Split-Screen" Ansicht des festgestellten anderen Kanals präsentiert.
  • In einem dritten Modus, aktiviert der Kanalschalter einen Recorder 40, wie beispielsweise einen DVD-Recorder, der das Programm auf dem Tuner aufzeichnen wird, der die Wortübereinstimmung ausgelöst hat. Dieser Modus ermöglicht dem Zuschauer sich den aktiven Kanal weiter anzusehen, während das System den anderen gewählten Kanal für spätere Wiedergabe aufzeichnet.
  • Der Spracherkennen, der das Herz des Worterkennungssystems der Erfindung bildet, wird vorzugsweise mit einem Satz Sprachmodellen 24 versehen, der sprecherunabhängige Wort- und Buchstabenschablonen für die populärsten Wörter repräsentiert, die zum Beschreiben von Programminhalt benutzt werden. Um aber dem System zusätzliche Flexibilität zu verleihen, kann ein Modell-Trainingsprozessor 42 bereitgestellt werden, damit einem individuellen Benutzer ermöglicht wird dem Sprachmodellwörterbuch Wörter hinzuzufügen. Der Modell-Trainingsprozessor 42 nimmt zwei Stücke Information als seine Eingabe: (a) Sprachinformation, die neuen Wörtern entspricht, die der Benutzer dem Wörterbuch hinzufügen möchte und (b) Textinformation, die das Buchstabieren jener neuen Wörter repräsentiert. Sprachinformation wird via Mikrofon 20 auf dieselbe Weise bereitgestellt wie Sprachinformation dem Spracherkennen 18 bereitgestellt wird. Textinformation kann via eine Tastatur 44 oder ein anderes geeignetes Texteingabegerät, einschließlich einem Bildschirm-Texteingabesystem bereitgestellt werden, das die Kleintastaturtasten der Fernbedienung 22 verwendet.
  • Als ein alternatives Mittel der Eingabe von Textinformation, lässt sich der Spracherkennen 18 verwenden. In diesem alternativen Modus spricht der Sprecher das neue Wort und buchstabiert es dann, indem er ins Mikrofon 20 spricht. Der Spracherkennen 18 verwendet seine Sprachmodelle buchstabierter Buchstaben, um die buchstabierte Worteingabe zu interpretieren und diese mit der gesprochenen Äußerung zu korrelieren, die das Wort selbst repräsentiert. Der Modell-Trainingsprozessor 42 konstruiert dann Sprachmodelle und verwendet dieselben Modellparameter auf denen die anfänglich gelieferten Sprachmodelle beruhen.
  • Der Wortwähler und semantische Analysator 26 führen die wichtige Funktion aus, Sinn aus der gesprochenen Eingabe der natürlichen Sprache des of Benutzers zu machen. Die Aufgabe des Wortwählers und semantischen Analysators ist daher komplizierter als bloß Schlüsselwörter innerhalb eines Stroms spracherkannten Texts auszumachen. Der Analysator entnimmt nicht nur die wichtigen Schlüsselwörter, sondern ebenso den Kontext jener Wörter, so dass der semantische Inhalt bzw. die Bedeutung der gesprochenen Eingabe bestimmt werden kann. Der Wortwähler und semantische Analysator verwendet für diesen Zweck ein duales Parsersystem. Das System ist in der 2 in Diagrammform veranschaulicht.
  • Bezugnehmend auf die 2, unterhält der Analysator einen Rahmendatenspeicher 50, in dem eine Vielheit von aufgabenbasierten Rahmen oder Schablonen gespeichert ist. Die Datenstruktur dieser Schablonen ist diagrammatisch bei 52 illustriert. Jeder Rahmen umfasst eine Vielheit von Schlitzen 54, in die entnommene Schlüsselwörter platziert werden sowie der Wortwähler und semantische Analysator arbeitet.
  • Ein lokaler Parser 56, der auf einer LR-Grammatik 58 beruht, analysiert den vom Spracherkennen 18 (1) gelieferten Textdatenstrom 60 grammatisch. Die LR-Grammatik ermöglicht dem lokalen Parser Satzfragmente im Textstrom festzustellen und zu markieren, die Schlüsselwörter enthalten, die dazu verwendet wurden Wörter zum Füllen des Wortlistenpuffers 34 (1) zu wählen. Beispielsweise enthält der lokale Parser 56 eine LR-Grammatik, um aus dem folgenden Satz das Schlüsselwort „Fußball" herauszuziehen:
    „Ich denke, dass ich mir heute Abend gerne ein Fußballspiel anschauen möchte."
  • Mit Hilfe seiner LR-Grammatik decodiert der lokale Parser den obigen Satz, indem er die Struktur des Satzes untersucht und ermittelt, dass das Objekt des Satzes „Fußballspiel" ist und, dass der Benutzer außerdem einen Zeitrahmenparameter spezifiziert hat, nämlich „heute Abend".
  • Der lokale Parser 56 verschafft sich dann Zugriff auf einen Datenspeicher von Schlüsselwortetiketten 62, um den Schlüsselwörtern und Phrasen den Sinn zu entnehmen. Der Schlüsselwortetiketten-Datenspeicher kann vielleicht strukturiert sein für jede Phrase oder jedes Schlüsselwort einen Rahmenetiketten- und Schlitzetikettenkennzeichner zu geben. Das Schlüsselwort „Fußball" könnte eine Rahmenetikette „Sport" und eine Schlitzetikette „Sportart" haben. Diese Schlüsseletiketten erlauben dem lokalen Parser zu bestimmen, welchen Rahmen im Datenspeicher 52 er benutzen soll und welchem Schlitz 54 die identifizierte Phrase oder das identifizierte Schlüsselwort zugeordnet werden sollte.
  • Jeder der Rahmen im Rahmendatenspeicher 50 ist zielorientiert. Das heißt jeder Rahmen entspricht einer anderen Medieninhaltswahlaufgabe oder Systembetriebsaufgabe. Der Bereich von Aufgaben kann so verschieden wie die Wünsche des Benutzers sein. In einem typischen, für Konsumentenanwendungen geeigneten, Ausführungsbeispiel kann das System möglicherweise mit einem festgelegten Satz von Rahmen versehen sein, die jedem der verfügbaren Systembetriebsbefehle und einer Reihe von typischen Programminhaltswünschen entsprechen. Der Benutzer könnte somit in das System sprechen, um einen Systembefehl auszuführen, wie beispielsweise das System anzuweisen ein identifiziertes Programm aufzuzeichnen, statt es durch den aktiven Kanaltuner anzuzeigen. Ein Benutzerbefehl wie beispielsweise: „Ich möchte die Seinfeld-Wiederholung morgen Abend aufzeichnen." würde bewirken, dass sich das System in einen Aufzeichnungsmodus begibt. Der obige Befehl würde außerdem vom lokalen Parser semantisch analysiert werden, um den vom Benutzer gewünschten Programminhalt, nämlich die Seinfeld-Wiederholung, zu identifizieren.
  • Ähnlich könnte der Benutzer von sich geben:
    „Ich möchte mir Seinfeld jetzt ansehen."
  • Dies würde bewirken, dass das System sofort Kanäle auf den einen schaltet, der die Seinfeld-Sendung trägt.
  • In einigen Fällen könnte die LR-Grammatik des lokalen Parsers vielleicht nicht ausreichend sein die Benutzereingabe ohne Zweideutigkeit zu lösen. Dies wird geschehen, wo der lokale Parser Satzfragmente identifiziert, die, aus dem Kontext herausgenommen, mehrere Bedeutungen haben können. Beispielsweise die folgende Eingabe: „Ich möchte mir Seinfeld ansehen und es aufzeichnen." präsentiert folgende Zweideutigkeit. Der lokale Parser könnte mit gleicher Stichhaltigkeit bestimmen, dass das vom Benutzer gewünschte Programm entweder (a) „Seinfeld" oder (b) „Seinfeld und es aufzeichnen" ist.
  • Um derartige Zweideutigkeiten zu lösen, schließt das System einen zweiten Parser, den globalen Parser 70 ein. Der globale Parser 70 überwacht außerdem den Textstrom und empfängt auch Eingabe vom lokalen Parser 56. Der globale Parser besitzt einen Satz von Entscheidungsbäumen 72, die er dazu verwendet Zweideutigkeiten wie die oben illustrierte zu lösen. Insbesondere besitzt der globale Parser 70 einen Satz Entscheidungsbäume 72, d.h. einen Entscheidungsbaum für jede Bedeutung. Jeder Entscheidungsbaum ist außerdem für die Lösung von Zweideutigkeiten in der repräsentierten Bedeutung verantwortlich. Jeder Entscheidungsbaum ist eine binäre Baumstruktur, in welcher der Wurzelknoten und die Zwischenknoten jeweils eine Frage enthalten, die mit JA oder NEIN beantwortet werden kann.
  • Beantworten einer gegebenen Frage verzweigt sich nach links oder rechts zu einem sukzessiv niedrigeren Knoten, abhängig davon ob die Antwort JA oder NEIN war. Die endgültigen Knoten oder Blattknoten enthalten die Bestimmung der zum Ausdruck gebrachten Bedeutung. Das System verwendet diese Entscheidungsinformation zum Lösen von Zweideutigkeiten, indem es den richtigen Rahmen aus dem Rahmendatenspeicher 50 wählt und Schlüsselwörter den richtigen Schlitzen zuordnet.
  • Nach dem der Rahmendatenspeicher durch die lokalen und globalen Parser bestückt worden ist, verschafft sich das Wortwählermodul 74 Zugriff auf den Datenspeicher 50, um die Liste der anwendbaren Schlüsselworte zur Übertragung an den Wortlistenpuffer 34 zu erhalten. Das Wählermodul kann vielleicht die Dienste eines elektronischen Thesaurus 76 einsetzen, um Synonyme oder zusätzliche Wörter zu generieren, um die an den Wortlistenpuffer gelieferte Schlüsselwortliste zu bereichern. Das Wortlistenwählermodul könnte, beispielsweise, dem Rahmendatenspeicher 50 das Wort „Fußball" entnehmen und zusätzliche Wörter wie beispielsweise „touchdown," „Green Bay Packers," oder „NFL" vom Thesaurus 76 erhalten. In dieser Hinsicht soll man zur Kenntnis nehmen, dass die zusätzlichen gewählten Wörter nicht notwendigerweise Synonyme im Wörterbuchsinn konstituieren müssen. Vielmehr können sie zusätzliche Wörter oder verwandte Wörter konstituieren, die häufig in natürlich gesprochener Sprache vorzufinden sind und das Subjekt des benutzerspezifizierten Schlüsselworts involvieren.
  • Aus dem Vorgenannten wird man erkennen, dass der automatische Suchmechanismus der Erfindung die Aufgabe viel leichter macht, Programmmaterial in einem Fernsehsystem zu identifizieren, das Zugriff auf viele Informationskanäle hat. Obwohl die Erfindung in ihrem gegenwärtig bevorzugtem Ausführungsbeispiel beschrieben worden ist, wird mit einbegriffen sein, dass die Erfindung zu Modifikation und Änderung fähig ist, ohne vom Umfang der Erfindung abzuweichen wie sie in den angehängten Ansprüchen dargelegt ist.

Claims (9)

  1. System, das Eingabe ab einer Telekommunikationsinfrastruktur erhält und die Information auf einem Display (10) darstellt, wobei das Eingabesignal eine Vielheit von Informationskomponenten aufweist, und besagtes System umfasst: einen Spracherkennen (18) zum Empfangen einer vom Benutzer gesprochenen Aufforderung und Produzieren einer ersten Ausgabe; einen semantischen Analysator (26) zur Verarbeitung der ersten Ausgabe, um eine Wortliste verbundener Wörter zu produzieren; und einen Textmusteranpasser (36) zum vergleichen der Wortliste mit der Vielheit von Informationskomponenten.
  2. System nach Anspruch 1, das weiter eine Vielheit digitaler Tuner (16) zum Entnehmen der Informationskomponenten aus dem Eingangssignal umfasst.
  3. System nach Anspruch 2, in dem der Spracherkenner (18) weiter eine Vielheit von Sprachmodellen (24) enthält, wobei jedes Modell entweder eine Subworteinheit oder eine Buchstabenschablone repräsentiert.
  4. System nach Anspruch 3, in dem der semantische Analysator (26) einen Analysator für natürliche Sprache enthält, der wenigstens eins von folgendem erkennt: Synonyme, buchstabiertes Wort, Systembefehle.
  5. System nach Anspruch 4, in dem der Spracherkennen (18) die wahrscheinlichsten Wort- bzw. Phrasenkandidaten bereitstellt und der Wortwähler (26) bestimmt welcher Kandidat bei der Suche verwendet werden wird.
  6. System nach Anspruch 5, in dem der semantische Analysator (26) historische Information (30) oder vorherige Suchen speichert und historische Information (30) bei seiner Festlegung verwendet welche Wörter aus den Kandidaten durchforscht werden.
  7. System nach Anspruch 5, in dem der Wortwähler und semantische Analysator (26) einen lokalen Parser (56) und einen globalen Parser (56) enthält.
  8. System nach Anspruch 5, in dem der Wortwähler und semantische Analysator (26) Synonyme von Suchausdrücken gemäß dem Textmusteranpasser (36) bereitstellt.
  9. System nach Anspruch 5, in dem der Textmusteranpasser (36) die Wortliste mit Daten ab der Vielheit von Tunern (16) vergleicht.
DE60005422T 1999-02-25 2000-02-23 Automatische Suche nach Tonkanälen mittels Vergleich von vom Benutzer gesprochenen Wörtern im Untertiteltext oder Audioinhalt für interaktives Fernsehen Expired - Fee Related DE60005422T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US09/258,115 US6480819B1 (en) 1999-02-25 1999-02-25 Automatic search of audio channels by matching viewer-spoken words against closed-caption/audio content for interactive television
US258115 1999-02-25

Publications (2)

Publication Number Publication Date
DE60005422D1 DE60005422D1 (de) 2003-10-30
DE60005422T2 true DE60005422T2 (de) 2004-07-01

Family

ID=22979158

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60005422T Expired - Fee Related DE60005422T2 (de) 1999-02-25 2000-02-23 Automatische Suche nach Tonkanälen mittels Vergleich von vom Benutzer gesprochenen Wörtern im Untertiteltext oder Audioinhalt für interaktives Fernsehen

Country Status (5)

Country Link
US (1) US6480819B1 (de)
EP (1) EP1031964B1 (de)
JP (1) JP3657844B2 (de)
DE (1) DE60005422T2 (de)
ES (1) ES2207463T3 (de)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19933524A1 (de) * 1999-07-16 2001-01-18 Nokia Mobile Phones Ltd Verfahren zur Eingabe von Daten in ein System
GB2358938A (en) * 1999-09-08 2001-08-08 Tveyes Com Inc Keyword searching of closed caption television programming on multiple channels
US7010485B1 (en) * 2000-02-03 2006-03-07 International Business Machines Corporation Method and system of audio file searching
EP1338141A2 (de) * 2000-09-05 2003-08-27 Koninklijke Philips Electronics N.V. Empfänger für die anzeige von zwei fernsehsignalen, wo ein teil des ersten signals durch das zweite signal ersetzt wird
US7027987B1 (en) 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
US7013273B2 (en) * 2001-03-29 2006-03-14 Matsushita Electric Industrial Co., Ltd. Speech recognition based captioning system
US20030099402A1 (en) * 2001-07-02 2003-05-29 Baylis Charles M. Method for conducting and categorizing data
US7111319B1 (en) * 2001-09-10 2006-09-19 Lsi Logic Corporation Set top box access hub system
WO2003030150A1 (fr) * 2001-09-27 2003-04-10 Matsushita Electric Industrial Co., Ltd. Dispositif de dialogue, dispositif de dialogue pere, dispositif de dialogue fils, methode de commande de dialogue et programme de commande de dialogue
US7324947B2 (en) 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
US20030093794A1 (en) * 2001-11-13 2003-05-15 Koninklijke Philips Electronics N.V. Method and system for personal information retrieval, update and presentation
WO2004015990A1 (en) * 2002-08-12 2004-02-19 Koninklijke Philips Electronics N.V. Method to process two audio input signals
US7269563B2 (en) * 2003-05-12 2007-09-11 Motorola, Inc. String matching of locally stored information for voice dialing on a cellular telephone
WO2005024780A2 (en) * 2003-09-05 2005-03-17 Grody Stephen D Methods and apparatus for providing services using speech recognition
US7593845B2 (en) * 2003-10-06 2009-09-22 Microsoflt Corporation Method and apparatus for identifying semantic structures from text
US8954325B1 (en) * 2004-03-22 2015-02-10 Rockstar Consortium Us Lp Speech recognition in automated information services systems
CN100349109C (zh) * 2005-01-27 2007-11-14 台达电子工业股份有限公司 手持随身装置的语音输入方法及系统
JP4779481B2 (ja) * 2005-07-19 2011-09-28 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2007142840A (ja) 2005-11-18 2007-06-07 Canon Inc 情報処理装置及び情報処理方法
US7996228B2 (en) * 2005-12-22 2011-08-09 Microsoft Corporation Voice initiated network operations
US8739240B2 (en) * 2006-09-12 2014-05-27 At&T Intellectual Property I, L.P. Authoring system for IPTV network
US9311394B2 (en) * 2006-10-31 2016-04-12 Sony Corporation Speech recognition for internet video search and navigation
CN101674422B (zh) * 2008-09-10 2013-05-01 新奥特(北京)视频技术有限公司 一种在线节目单驱动的字幕播出列表的更新方法
US8510317B2 (en) * 2008-12-04 2013-08-13 At&T Intellectual Property I, L.P. Providing search results based on keyword detection in media content
US8730301B2 (en) 2010-03-12 2014-05-20 Sony Corporation Service linkage to caption disparity data transport
US8738377B2 (en) 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
KR101252397B1 (ko) * 2011-06-02 2013-04-08 포항공과대학교 산학협력단 웹을 이용한 정보 검색 방법 및 이를 사용하는 음성 대화 방법
US8959082B2 (en) 2011-10-31 2015-02-17 Elwha Llc Context-sensitive query enrichment
KR20130125067A (ko) * 2012-05-08 2013-11-18 삼성전자주식회사 전자 장치 및 그의 제어 방법
WO2013179275A2 (en) * 2012-06-01 2013-12-05 Donald, Heather June Method and system for generating an interactive display
KR102081925B1 (ko) 2012-08-29 2020-02-26 엘지전자 주식회사 디스플레이 디바이스 및 스피치 검색 방법
CN103117058B (zh) * 2012-12-20 2015-12-09 四川长虹电器股份有限公司 基于智能电视平台的多语音引擎切换系统及方法
US9805718B2 (en) * 2013-04-19 2017-10-31 Sri Internaitonal Clarifying natural language input using targeted questions
US9600227B2 (en) 2013-11-21 2017-03-21 Google Technology Holdings LLC System and method for speech-based navigation and interaction with a device's visible screen elements using a corresponding view hierarchy
US10321204B2 (en) * 2014-07-11 2019-06-11 Lenovo (Singapore) Pte. Ltd. Intelligent closed captioning
CN107690089A (zh) 2016-08-05 2018-02-13 阿里巴巴集团控股有限公司 数据处理方法、直播方法及装置
KR102375800B1 (ko) 2017-04-28 2022-03-17 삼성전자주식회사 음성 인식 서비스를 제공하는 전자 장치 및 그 방법
US10885903B1 (en) * 2018-12-10 2021-01-05 Amazon Technologies, Inc. Generating transcription information based on context keywords
JP7406921B2 (ja) * 2019-03-25 2023-12-28 株式会社Nttデータグループ 情報処理装置、情報処理方法およびプログラム
CN112885340A (zh) * 2019-11-29 2021-06-01 阿里巴巴集团控股有限公司 设备控制方法、装置和系统

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4305131A (en) 1979-02-05 1981-12-08 Best Robert M Dialog between TV movies and human viewers
JPS5631220A (en) * 1979-08-22 1981-03-30 Sanyo Electric Co Ltd Remote control type receiver system
JPS58139747U (ja) * 1982-03-17 1983-09-20 日産自動車株式会社 車両用自動選局ラジオ
KR0178536B1 (ko) * 1991-03-11 1999-04-15 강진구 동종 프로그램 채널 선택방법
JPH05197389A (ja) 1991-08-13 1993-08-06 Toshiba Corp 音声認識装置
US5369440A (en) * 1992-11-19 1994-11-29 Sussman; Barry System and method for automatically controlling the audio output of a television
CA2151458C (en) * 1992-12-09 2004-02-24 John S. Hendricks An operation center for a television program packaging and delivery system
US5748841A (en) * 1994-02-25 1998-05-05 Morin; Philippe Supervised contextual language acquisition system
JP3572658B2 (ja) * 1994-04-21 2004-10-06 松下電器産業株式会社 番組選択支援装置と番組選択支援方法
DE19548957C2 (de) * 1994-12-28 1999-12-16 Lg Electronics Inc Automatisches Kanalsuchverfahren für einen Fernsehempfänger
US5774859A (en) 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
GB9504376D0 (en) * 1995-03-04 1995-04-26 Televitesse Systems Inc Automatic broadcast monitoring system
US5890123A (en) 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5729659A (en) 1995-06-06 1998-03-17 Potter; Jerry L. Method and apparatus for controlling a digital computer using oral input
US5680511A (en) * 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
JPH098683A (ja) * 1995-06-15 1997-01-10 Nec Home Electron Ltd 番組自動選択聴取装置
US5799276A (en) 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US5809471A (en) 1996-03-07 1998-09-15 Ibm Corporation Retrieval of additional information not found in interactive TV or telephony signal by application using dynamically extracted vocabulary
JPH1098655A (ja) * 1996-09-25 1998-04-14 Sharp Corp 番組検索装置
US5924068A (en) * 1997-02-04 1999-07-13 Matsushita Electric Industrial Co. Ltd. Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion
EP0862159A1 (de) 1997-03-01 1998-09-02 Agfa-Gevaert N.V. Spracherkennungssystem für eine medizinische Röntgenapparatur
US6138098A (en) * 1997-06-30 2000-10-24 Lernout & Hauspie Speech Products N.V. Command parsing and rewrite system
US6246672B1 (en) * 1998-04-28 2001-06-12 International Business Machines Corp. Singlecast interactive radio system
US6320623B1 (en) * 1998-11-13 2001-11-20 Philips Electronics North America Corporation Method and device for detecting an event in a program of a video and/ or audio signal and for providing the program to a display upon detection of the event
US6243676B1 (en) * 1998-12-23 2001-06-05 Openwave Systems Inc. Searching and retrieving multimedia information
JP4210877B2 (ja) * 1999-01-26 2009-01-21 ソニー株式会社 受信装置、受信装置の制御方法、送信装置及び送信方法

Also Published As

Publication number Publication date
DE60005422D1 (de) 2003-10-30
EP1031964B1 (de) 2003-09-24
US6480819B1 (en) 2002-11-12
EP1031964A2 (de) 2000-08-30
JP3657844B2 (ja) 2005-06-08
EP1031964A3 (de) 2001-01-24
JP2000250591A (ja) 2000-09-14
ES2207463T3 (es) 2004-06-01

Similar Documents

Publication Publication Date Title
DE60005422T2 (de) Automatische Suche nach Tonkanälen mittels Vergleich von vom Benutzer gesprochenen Wörtern im Untertiteltext oder Audioinhalt für interaktives Fernsehen
DE60012065T2 (de) Verfahren und Vorrichtung zur Fernsehkanalauswahl unter Verwendung von Sprachverständnis
DE60217579T2 (de) Automatische Steuerung von Hausgeräten mittels Erkennung von natürlicher Sprache
DE60120062T2 (de) Sprachsteuerung von elektronischen Geräten
DE69923191T2 (de) Interaktive anwenderschnittstelle mit spracherkennung und natursprachenverarbeitungssystem
JP4459267B2 (ja) 辞書データ生成装置及び電子機器
DE60114924T2 (de) Rundfunkempfänger, Rundfunksteuerverfahren und vom Computer lesbares Aufnahmemedium
DE60204827T2 (de) Anhebungsdetektion zur automatischen Sprachzusammenfassung
DE69914131T2 (de) Positionshandhabung bei der Spracherkennung
EP1282112B1 (de) Verfahren zur Unterstützung des Korrekturlesens eines spracherkannten Textes mit an die Erkennungszuverlässigkeit angepasstem Wiedergabegeschwindigkeitsverlauf
DE60213595T2 (de) Hintergrundlernen von sprecherstimmen
DE69937001T2 (de) Bereitstellung von nach benutzer-interesse gefilterten werken
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE69721939T2 (de) Verfahren und System zur Auswahl alternativer Wörter während der Spracherkennung
DE60203705T2 (de) Umschreibung und anzeige eines eingegebenen sprachsignals
DE69531106T2 (de) Verfahren zum interaktiven programmieren
DE69814458T2 (de) Zensurvorrichtung zum zensieren von videosignaluntertiteln
US10225625B2 (en) Caption extraction and analysis
DE60316912T2 (de) Verfahren zur Spracherkennung
DE19510083C2 (de) Verfahren und Anordnung zur Spracherkennung bei Wortkomposita enthaltenden Sprachen
DE60023736T2 (de) Verfahren und vorrichtung zur spracherkennung mit verschiedenen sprachmodellen
DE19615437C1 (de) Verfahren und Einrichtung zur Programmierung eines Videorecorders
DE202013100036U1 (de) Bildverarbeitungsvorrichtung und Bildverarbeitungssystem
CN111541904A (zh) 直播过程中的信息提示方法、装置、设备及存储介质
DE60319710T2 (de) Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee