DE60005422T2

DE60005422T2 - Automatische Suche nach Tonkanälen mittels Vergleich von vom Benutzer gesprochenen Wörtern im Untertiteltext oder Audioinhalt für interaktives Fernsehen

Info

Publication number: DE60005422T2
Application number: DE60005422T
Authority: DE
Inventors: Robert C. Boman; Jean-Claude Junqua
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1999-02-25
Filing date: 2000-02-23
Publication date: 2004-07-01
Anticipated expiration: 2020-02-24
Also published as: DE60005422D1; EP1031964B1; US6480819B1; EP1031964A2; JP3657844B2; EP1031964A3; JP2000250591A; ES2207463T3

Description

Hintergrund und Zusammenfassung der Erfindung
Die vorliegende Erfindung bezieht sich allgemein auf interaktives Fernsehen und insbesondere auf ein System, das dem Benutzer gestattet Kanäle mittels einer gesprochenen Aufforderung zu wählen.
Interaktives Fernsehen verspricht dialogfähige Kommunikation zwischen dem Zuschauer/der Zuschauerin und seinem bzw. ihrem Fernsehapparat zu ermöglichen. Obwohl die Technologie noch in ihren Kinderschuhen steckt, erwartet man vom Digitalfernsehen, dass es die Aussichten für interaktives Fernsehen stark bereichert, weil die Digitaltechnologie eine viel wirksamere Verwendung der verfügbaren Kanalbandbreite möglich macht. Mittels Digitaltechnologie, können Rundfunkanstalten eine signifikant höhere Zahl von Programmen in die verfügbare Bandbreite der Lieferinfrastruktur (z.B. Kabel oder Satellit) packen.
Obwohl die neue, interaktive, digitale Fernsehtechnologie, sowohl den Zuschauern als auch den Rundfunkanstalten, eine signifikante Reihe von Vorteilen bietet, ist sie nicht ohne Probleme. Die Aussicht 200 oder mehr Kanäle gleichzeitig zum Schauen verfügbar zu haben, kann man sich kaum ausmalen. Konventionelle elektronische Bildschirm-Programmführer werden sich wahrscheinlich unzureichend erweisen den Zuschauern zu helfen Programme zu finden, an denen sie interessiert sind. Interaktives Digitalfernsehen verlangt ein höher entwickeltes Dialogsystem, wenn die Zuschauer jemals fähig sein sollen diese reiche, neue Ressource voll zu nutzen.
Die vorliegende, wie in Anspruch 1 definierte, Erfindung stellt ein sprachaktiviertes Dialogsystem bereit, durch das ein Benutzer einen gewünschten Programminhalt mittels gesprochener natürlicher Sprache spezifizieren kann. Das System entnimmt der Sprache des Benutzers sowohl semantischen als auch Schlüsselwortinhalt, und in einem bevorzugten Ausführungsbeispiel fordert es den Benutzer auf zusätzliche Information bereitzustellen, falls die Bedeutung unklar ist.
Das System überwacht dann Untertitelinformation auf Mehrkanälen gleichzeitig und schaltet den aktiven Kanaltuner oder Zusatztuner auf den Kanal, der die Information trägt, die dem Wunsch des Benutzers entspricht. Wenn Untertitelinformation nicht verfügbar ist, wird das System, als Alternative, Spracherkennung auf das Audiosignal der überwachten Kanäle anwenden. Sobald der Kanal geschaltet worden ist, kann das Programm im Modus Vollbild oder „Split-Screen" oder als „Bild in Bild" angezeigt oder für spätere Wiedergabe aufgezeichnet werden. Solch ein System ist in der Europäischen Patentanmeldung EP 0 754 670 A2 offenbart.
Das Spracherkennungssystem arbeitet mit einem semantischen Analysator, der in der Lage ist zwischen Sprache, die beabsichtigt ist einen Programminhalt zu beschreiben, und Sprache, die beabsichtigt ist Metabefehle an das System zu liefern, zu unterscheiden. Durch Herausarbeiten von Sinn als auch Schlüsselwörtern und Phrasen aus der gesprochenen Eingabe, wird das System passenden Inhalt finden, selbst wenn die gesprochenen Wörter dem Untertiteltext nicht wortwörtlich entsprechen. Systeme zur Durchführung gemessener Ausblendung einer gesprochenen Suchfrage unter Einsatz semantischer Analyse sind in P. J. Wyard et al „Spoken language systems – beyond prompt and response" B T Technology Journal 14 (1996) p. 187–205 besprochen.
Um die Erfindung, ihre Ziele und Vorteile vollkommener zu verstehen, beziehen Sie sich bitte auf die folgende Spezifikation und die zugehörigen Zeichnungen.
Kurzbeschreibung der Zeichnungen
1 ist ein Blockdiagramm eines gegenwärtig bevorzugten Ausführungsbeispiels der Erfindung. 2 ist ein Datenflussdiagramm, das den Wortwähler und die semantische Analysatorkomponente des bevorzugten Ausführungsbeispiels zeigt.
Detaillierte Beschreibung der bevorzugten Ausführungsbeispiele
Bezugnehmend auf die 1, kann das interaktive Inhaltsuchsystem der Erfindung vielleicht in das Fernsehgerät 10 oder in eine „Set-Top-Box" 12 integriert werden. In beiden Ausführungsbeispielen ist das System konzipiert, einen oder mehrere Kanäle zu überwachen, die momentan nicht benutzt werden, um Untertiteltext oder Tonkanalsprache festzustellen, die dem zuvor vom Benutzer gesprochenen Wunsch entspricht. In der 1 wurde eine Vielheit von Tunern einschließlich eines aktiven Kanaltuners 14 und einer Vielheit von Zusatztunern 16 illustriert. Im illustrierten Ausführungsbeispiel wird angenommen, dass n Zusatztuner vorhanden sind (wobei n eine ganze Zahl größer als 0 ist). In ihrer einfachsten Form lässt sich die Erfindung möglicherweise unter Verwendung eines einzigen Zusatztuners implementieren.
Der aktive Kanaltuner 14 ist auf einen vom Benutzer eingestellten Kanal abgestimmt, und dieser Tuner wählt deshalb den Kanal, den sich der Benutzer momentan auf dem Fernsehgerät 10 ansieht. Wenn erwünscht, können einer oder mehrere Zusatztuner ebenfalls Programminhalt zum Betrachten auf einem Fernsehgerät 10, wie beispielsweise in einem „Split-Screen" Modus oder in einem „Bild in Bild" Modus, liefern. In der 1, ist der Zusatztuner, als Tuner n markiert, angeschlossen Programminhalt zum Fernsehgerät 10 zu liefern.
Unter EinsatzaktuellerTunertechnologie, wählen der aktive Kanaltuner 14 und die Zusatztuner 16 den gewünschten Kanal, indem sie das entsprechende Frequenzband durch Bandpassfilterung des RF-Signals wählen. Während Tuner dieses Typs dazu verwendet werden können die Erfindung zu implementieren, werden auch andere Formen digitaler „Kanal"-Wahl ins Auge gefasst, wodurch der gewünschte Programminhalt dem Videodatenstrom im digitalen Wertebereich entnommen wird. Für Implementierungszwecke der Erfindung hängt die Art der Kanalwahl von der Art und Weise ab, in der die Fernsehsignale codiert und gesendet werden.
Ungeachtet der Form der zum Senden des Programmmaterials verwendeten Signale, sind die Zusatztuner 16 jeweils eingestellt einen anderen Programmkanal zu überwachen, so dass die Untertiteltextinformation und das Audiosignal vom System überwacht werden kann. Der Benutzer wählt die zu überwachenden Kanäle, indem er entweder Bildschirmmenüwahl oder gesprochene Metabefehle verwendet.
Das System verwendet einen Spracherkenner 18, mit dem der Benutzer durch ein geeignetes Mikrofon 20 kommuniziert. Das Mikrofon 20 kann vielleicht in das Fernsehgerät oder die „Set-Top-Box" eingebaut sein, jedoch ist beim gegenwärtig bevorzugten Ausführungsbeispiel das Mikrofon in eine handgehaltene Fernbedienungseinheit 22 eingebaut, die mit dem Fernsehgerät oder der „Set-Top-Box" durch eine geeignete Verbindung, wie beispielsweise eine Infrarotverbindung oder eine festverdrahtete Verbindung kommuniziert.
Der Spracherkennen 18 arbeitet mit einem Satz Sprachmodellen 24 zusammen, die alle vom System erkennbaren Wörter repräsentieren. Der Spracherkennen kann vielleicht auf „Hidden Markov Model"(HMM)-Technologie, oder anderer Erkennungstechnologie auf Modellbasis beruhen. Das Wörterbuch bzw. Lexikon von Wörtern, die für das System erkennbar sind, kann vielleicht nicht nur Wörter, sondern Buchstaben des Alphabets einschließen, und dadurch dem System gestatten vom Benutzer gesprochene Buchstaben beim Buchstabieren anderer neuer Wörter zu erkennen. Wie unten ausführlicher erläutert werden wird, gestattet der Einschluss von Sprachmodellen für Buchstaben des Alphabets dem Benutzer den Spracherkennen zu trainieren neue Wörter zu lernen, selbst wenn keine Tastatur zum Tippen verfügbar ist.
Der Spracherkenner 18, verwandelt, in der Tat, gesprochene Äußerungen zu Text, der den wahrscheinlichsten Wort- oder Phrasenkandidaten (oder Buchstabenkandidaten) entspricht, die vom System erkannt werden. Im gegenwärtig bevorzugten Ausführungsbeispiel gibt der Spracherkennen 18 den N-Besten Satzkandidaten für jede vom Benutzer gesprochene Satzäußerung aus. Der Spracherkenner generiert ein Wahrscheinlichkeitsergebnis für jeden Satz, das auf die Likelihood schließen lässt, dass der Satz der gesprochenen Äußerung entspricht. Die Top-N-Kandidaten werden selektiert und zur Weiterverarbeitung in den Wortwähler und den semantischen Analysatorblock 26 gespeist.
Der Wortwähler und semantische Analysatorblock 26 führen mehrere Funktionen aus. Erstens löst er welcher der N-Besten-Erkennungskandidaten vom Benutzer tatsächlich beabsichtigt war. Zweitens analysiert er den semantischen Inhalt der ganzen Äußerung des Benutzers, um zusätzliche Information über den Wunsch des Benutzers zu ermitteln, die möglicherweise nicht den einzelnen Wörter selbst zu entnehmen ist. Drittens analysiert der semantische Analysator außerdem die Eingabe des Benutzers, um Erkennungsfehler zu lösen und zu bestimmen ob die Eingabesprache des Benutzers die Beschreibung von Programminhalt repräsentiert oder Metabefehle repräsentiert, die als Instruktionen beabsichtigt sind, um Systembetrieb zu bewirken.
Der Wortwähler und semantische Analysator verwenden einen kombinierten lokalen Parser und globalen Parser, um den korrekten Kandidaten aus den N-Besten-Kandidaten zu selektieren und außerdem semantische Analyse auszuführen. Die Details dieser Parserkomponenten sind nachstehend eingehender beschrieben. Der Wortwähler und semantische Analysator arbeitet mit einem Dialogmanager 28, der hilft Zweideutigkeiten zu lösen, indem er den Benutzer auffordert zusätzliche Information zu liefern, um entweder den Programminhalt oder den Metabefehl zu spezifizieren.
Der Dialogmanager 28 kann entweder Text-Bedienerhinweise oder stimmhafte Bedienerhinweise liefern. Text-Bedienerhinweise werden als alphanumerischer Text generiert, der zur Anzeige am Bildschirm passend in das Videosignal injiziert wird. Stimmhafte Bedienerhinweise werden innerhalb des Dialogmanagers durch einen Sprachsynthesizer bereitgestellt und können vielleicht zur Wiedergabe durch das Lautsprechersystem des Fernsehgeräts in den Audiostrom injiziert werden.
Falls erwünscht, kann ein Wort-Ereignisdatenspeicher 30 bereitgestellt werden, um eine Aufzeichnung bisherig gelöster Wortzweideutigkeiten zu speichern, was dem System ermöglicht die Fernsehgewohnheiten des Benutzers zu „lernen", und dadurch den Wortwähler beim Lösen nachfolgender Worterkennungszweideutigkeiten zu unterstützen.
Der Wortwähler und semantische Analysator ist konzipiert die Bedeutung zu entnehmen, die hinter dem Wunsch des Benutzers für eine Kanalwahl steckt, und wird automatisch anwendbare Synonyme wählen, um den Textanpassungsprozess zu verbessern. Wenn der Wortwähler und semantische Analysator daher ermittelt, dass der Benutzer daran interessiert ist sich ein Spiel von Fußball anzuschauen, werden Synonyme und verwandte Wörter, wie beispielsweise „touch down," „kick-off," „NFL," „Superbowl", und dergleichen der Synonym-Datenbank 32 des Wortwählers entnommen.
Die entnommenen Wörter werden dann zusammen mit dem ursprünglich vom Benutzer gesprochenen Wort zu einem Wortlistenpuffer 34 gesendet, der als dynamisches Wörterbuch für den Textanpassungsprozessor 36 dient. Der Textanpassungsprozessor 36 empfängt individuelle Ströme von Untertiteltextdaten und/oder Audiodaten ab den Zusatztunern 16 sowie jene Information „live" gesendet und von den jeweiligen Tunern gewählt wird. Falls Audiodaten durch einen Zusatztuner bereitgestellt werden, verwendet der Textanpassungsprozessor 36 die Dienste des Spracherkenners 18, um den Audiostrom in Textdaten umzuwandeln.
Der Textanpassungsprozessor 36 vergleicht jeden der ab den Zusatztunern 16 ankommenden Textströme mit den im Wortlistenpuffer 34 enthaltenen Wörtern. Wird eine Übereinstimmung festgestellt, signalisiert der Prozessor 36 dem Kanalschalter 38, der seinerseits eine Reihe verschiedener Aktionen, in Abhängigkeit von dem vom Benutzer eingestellten Modus, auslöst.
In einem ersten Modus, sendet der Kanalschalter 38 einen Befehl an den aktiven Kanaltuner 14, was bewirkt, dass der aktive Kanaltuner sofort auf den Kanal schaltet, auf dem die festgestellte Wortübereinstimmung auftrat. Der Benutzer/die Benutzerin wird somit sofort auf den Kanal geschaltet, der den Inhalt enthält, um den er bzw. sie zuvor ersucht hat.
In einem zweiten Modus, schaltet der Schalter 38 einen der Zusatztuner (z.B. Tuner n) auf den Kanal, der die Wortübereinstimmung ausgelöst hat. In diesem Modus, fährt der Zuschauer mit dem Anschauen des aktiven Kanals fort, es wird ihm aber auch ein „Bild in Bild" oder eine „Split-Screen" Ansicht des festgestellten anderen Kanals präsentiert.
In einem dritten Modus, aktiviert der Kanalschalter einen Recorder 40, wie beispielsweise einen DVD-Recorder, der das Programm auf dem Tuner aufzeichnen wird, der die Wortübereinstimmung ausgelöst hat. Dieser Modus ermöglicht dem Zuschauer sich den aktiven Kanal weiter anzusehen, während das System den anderen gewählten Kanal für spätere Wiedergabe aufzeichnet.
Der Spracherkennen, der das Herz des Worterkennungssystems der Erfindung bildet, wird vorzugsweise mit einem Satz Sprachmodellen 24 versehen, der sprecherunabhängige Wort- und Buchstabenschablonen für die populärsten Wörter repräsentiert, die zum Beschreiben von Programminhalt benutzt werden. Um aber dem System zusätzliche Flexibilität zu verleihen, kann ein Modell-Trainingsprozessor 42 bereitgestellt werden, damit einem individuellen Benutzer ermöglicht wird dem Sprachmodellwörterbuch Wörter hinzuzufügen. Der Modell-Trainingsprozessor 42 nimmt zwei Stücke Information als seine Eingabe: (a) Sprachinformation, die neuen Wörtern entspricht, die der Benutzer dem Wörterbuch hinzufügen möchte und (b) Textinformation, die das Buchstabieren jener neuen Wörter repräsentiert. Sprachinformation wird via Mikrofon 20 auf dieselbe Weise bereitgestellt wie Sprachinformation dem Spracherkennen 18 bereitgestellt wird. Textinformation kann via eine Tastatur 44 oder ein anderes geeignetes Texteingabegerät, einschließlich einem Bildschirm-Texteingabesystem bereitgestellt werden, das die Kleintastaturtasten der Fernbedienung 22 verwendet.
Als ein alternatives Mittel der Eingabe von Textinformation, lässt sich der Spracherkennen 18 verwenden. In diesem alternativen Modus spricht der Sprecher das neue Wort und buchstabiert es dann, indem er ins Mikrofon 20 spricht. Der Spracherkennen 18 verwendet seine Sprachmodelle buchstabierter Buchstaben, um die buchstabierte Worteingabe zu interpretieren und diese mit der gesprochenen Äußerung zu korrelieren, die das Wort selbst repräsentiert. Der Modell-Trainingsprozessor 42 konstruiert dann Sprachmodelle und verwendet dieselben Modellparameter auf denen die anfänglich gelieferten Sprachmodelle beruhen.
Der Wortwähler und semantische Analysator 26 führen die wichtige Funktion aus, Sinn aus der gesprochenen Eingabe der natürlichen Sprache des of Benutzers zu machen. Die Aufgabe des Wortwählers und semantischen Analysators ist daher komplizierter als bloß Schlüsselwörter innerhalb eines Stroms spracherkannten Texts auszumachen. Der Analysator entnimmt nicht nur die wichtigen Schlüsselwörter, sondern ebenso den Kontext jener Wörter, so dass der semantische Inhalt bzw. die Bedeutung der gesprochenen Eingabe bestimmt werden kann. Der Wortwähler und semantische Analysator verwendet für diesen Zweck ein duales Parsersystem. Das System ist in der 2 in Diagrammform veranschaulicht.
Bezugnehmend auf die 2, unterhält der Analysator einen Rahmendatenspeicher 50, in dem eine Vielheit von aufgabenbasierten Rahmen oder Schablonen gespeichert ist. Die Datenstruktur dieser Schablonen ist diagrammatisch bei 52 illustriert. Jeder Rahmen umfasst eine Vielheit von Schlitzen 54, in die entnommene Schlüsselwörter platziert werden sowie der Wortwähler und semantische Analysator arbeitet.
Ein lokaler Parser 56, der auf einer LR-Grammatik 58 beruht, analysiert den vom Spracherkennen 18 (1) gelieferten Textdatenstrom 60 grammatisch. Die LR-Grammatik ermöglicht dem lokalen Parser Satzfragmente im Textstrom festzustellen und zu markieren, die Schlüsselwörter enthalten, die dazu verwendet wurden Wörter zum Füllen des Wortlistenpuffers 34 (1) zu wählen. Beispielsweise enthält der lokale Parser 56 eine LR-Grammatik, um aus dem folgenden Satz das Schlüsselwort „Fußball" herauszuziehen:
„Ich denke, dass ich mir heute Abend gerne ein Fußballspiel anschauen möchte."
Mit Hilfe seiner LR-Grammatik decodiert der lokale Parser den obigen Satz, indem er die Struktur des Satzes untersucht und ermittelt, dass das Objekt des Satzes „Fußballspiel" ist und, dass der Benutzer außerdem einen Zeitrahmenparameter spezifiziert hat, nämlich „heute Abend".
Der lokale Parser 56 verschafft sich dann Zugriff auf einen Datenspeicher von Schlüsselwortetiketten 62, um den Schlüsselwörtern und Phrasen den Sinn zu entnehmen. Der Schlüsselwortetiketten-Datenspeicher kann vielleicht strukturiert sein für jede Phrase oder jedes Schlüsselwort einen Rahmenetiketten- und Schlitzetikettenkennzeichner zu geben. Das Schlüsselwort „Fußball" könnte eine Rahmenetikette „Sport" und eine Schlitzetikette „Sportart" haben. Diese Schlüsseletiketten erlauben dem lokalen Parser zu bestimmen, welchen Rahmen im Datenspeicher 52 er benutzen soll und welchem Schlitz 54 die identifizierte Phrase oder das identifizierte Schlüsselwort zugeordnet werden sollte.
Jeder der Rahmen im Rahmendatenspeicher 50 ist zielorientiert. Das heißt jeder Rahmen entspricht einer anderen Medieninhaltswahlaufgabe oder Systembetriebsaufgabe. Der Bereich von Aufgaben kann so verschieden wie die Wünsche des Benutzers sein. In einem typischen, für Konsumentenanwendungen geeigneten, Ausführungsbeispiel kann das System möglicherweise mit einem festgelegten Satz von Rahmen versehen sein, die jedem der verfügbaren Systembetriebsbefehle und einer Reihe von typischen Programminhaltswünschen entsprechen. Der Benutzer könnte somit in das System sprechen, um einen Systembefehl auszuführen, wie beispielsweise das System anzuweisen ein identifiziertes Programm aufzuzeichnen, statt es durch den aktiven Kanaltuner anzuzeigen. Ein Benutzerbefehl wie beispielsweise: „Ich möchte dieSeinfeld-Wiederholung morgen Abend aufzeichnen." würde bewirken, dass sich das System in einen Aufzeichnungsmodus begibt. Der obige Befehl würde außerdem vom lokalen Parser semantisch analysiert werden, um den vom Benutzer gewünschten Programminhalt, nämlich die Seinfeld-Wiederholung, zu identifizieren.
Ähnlich könnte der Benutzer von sich geben:
„Ich möchte mir Seinfeld jetzt ansehen."
Dies würde bewirken, dass das System sofort Kanäle auf den einen schaltet, der die Seinfeld-Sendung trägt.
In einigen Fällen könnte die LR-Grammatik des lokalen Parsers vielleicht nicht ausreichend sein die Benutzereingabe ohne Zweideutigkeit zu lösen. Dies wird geschehen, wo der lokale Parser Satzfragmente identifiziert, die, aus dem Kontext herausgenommen, mehrere Bedeutungen haben können. Beispielsweise die folgende Eingabe: „Ich möchte mir Seinfeld ansehen und es aufzeichnen." präsentiert folgende Zweideutigkeit. Der lokale Parser könnte mit gleicher Stichhaltigkeit bestimmen, dass das vom Benutzer gewünschte Programm entweder (a) „Seinfeld" oder (b) „Seinfeld und es aufzeichnen" ist.
Um derartige Zweideutigkeiten zu lösen, schließt das System einen zweiten Parser, den globalen Parser 70 ein. Der globale Parser 70 überwacht außerdem den Textstrom und empfängt auch Eingabe vom lokalen Parser 56. Der globale Parser besitzt einen Satz von Entscheidungsbäumen 72, die er dazu verwendet Zweideutigkeiten wie die oben illustrierte zu lösen. Insbesondere besitzt der globale Parser 70 einen Satz Entscheidungsbäume 72, d.h. einen Entscheidungsbaum für jede Bedeutung. Jeder Entscheidungsbaum ist außerdem für die Lösung von Zweideutigkeiten in der repräsentierten Bedeutung verantwortlich. Jeder Entscheidungsbaum ist eine binäre Baumstruktur, in welcher der Wurzelknoten und die Zwischenknoten jeweils eine Frage enthalten, die mit JA oder NEIN beantwortet werden kann.
Beantworten einer gegebenen Frage verzweigt sich nach links oder rechts zu einem sukzessiv niedrigeren Knoten, abhängig davon ob die Antwort JA oder NEIN war. Die endgültigen Knoten oder Blattknoten enthalten die Bestimmung der zum Ausdruck gebrachten Bedeutung. Das System verwendet diese Entscheidungsinformation zum Lösen von Zweideutigkeiten, indem es den richtigen Rahmen aus dem Rahmendatenspeicher 50 wählt und Schlüsselwörter den richtigen Schlitzen zuordnet.
Nach dem der Rahmendatenspeicher durch die lokalen und globalen Parser bestückt worden ist, verschafft sich das Wortwählermodul 74 Zugriff auf den Datenspeicher 50, um die Liste der anwendbaren Schlüsselworte zur Übertragung an den Wortlistenpuffer 34 zu erhalten. Das Wählermodul kann vielleicht die Dienste eines elektronischen Thesaurus 76 einsetzen, um Synonyme oder zusätzliche Wörter zu generieren, um die an den Wortlistenpuffer gelieferte Schlüsselwortliste zu bereichern. Das Wortlistenwählermodul könnte, beispielsweise, dem Rahmendatenspeicher 50 das Wort „Fußball" entnehmen und zusätzliche Wörter wie beispielsweise „touchdown," „Green Bay Packers," oder „NFL" vom Thesaurus 76 erhalten. In dieser Hinsicht soll man zur Kenntnis nehmen, dass die zusätzlichen gewählten Wörter nicht notwendigerweise Synonyme im Wörterbuchsinn konstituieren müssen. Vielmehr können sie zusätzliche Wörter oder verwandte Wörter konstituieren, die häufig in natürlich gesprochener Sprache vorzufinden sind und das Subjekt des benutzerspezifizierten Schlüsselworts involvieren.
Aus dem Vorgenannten wird man erkennen, dass der automatische Suchmechanismus der Erfindung die Aufgabe viel leichter macht, Programmmaterial in einem Fernsehsystem zu identifizieren, das Zugriff auf viele Informationskanäle hat. Obwohl die Erfindung in ihrem gegenwärtig bevorzugtem Ausführungsbeispiel beschrieben worden ist, wird mit einbegriffen sein, dass die Erfindung zu Modifikation und Änderung fähig ist, ohne vom Umfang der Erfindung abzuweichen wie sie in den angehängten Ansprüchen dargelegt ist.

Claims

System, das Eingabe ab einer Telekommunikationsinfrastruktur erhält und die Information auf einem Display (10) darstellt, wobei das Eingabesignal eine Vielheit von Informationskomponenten aufweist, und besagtes System umfasst: einen Spracherkennen (18) zum Empfangen einer vom Benutzer gesprochenen Aufforderung und Produzieren einer ersten Ausgabe; einen semantischen Analysator (26) zur Verarbeitung der ersten Ausgabe, um eine Wortliste verbundener Wörter zu produzieren; und einen Textmusteranpasser (36) zum vergleichen der Wortliste mit der Vielheit von Informationskomponenten.
System nach Anspruch 1, das weiter eine Vielheit digitaler Tuner (16) zum Entnehmen der Informationskomponenten aus dem Eingangssignal umfasst.
System nach Anspruch 2, in dem der Spracherkenner (18) weiter eine Vielheit von Sprachmodellen (24) enthält, wobei jedes Modell entweder eine Subworteinheit oder eine Buchstabenschablone repräsentiert.
System nach Anspruch 3, in dem der semantische Analysator (26) einen Analysator für natürliche Sprache enthält, der wenigstens eins von folgendem erkennt: Synonyme, buchstabiertes Wort, Systembefehle.
System nach Anspruch 4, in dem der Spracherkennen (18) die wahrscheinlichsten Wort- bzw. Phrasenkandidaten bereitstellt und der Wortwähler (26) bestimmt welcher Kandidat bei der Suche verwendet werden wird.
System nach Anspruch 5, in dem der semantische Analysator (26) historische Information (30) oder vorherige Suchen speichert und historische Information (30) bei seiner Festlegung verwendet welche Wörter aus den Kandidaten durchforscht werden.
System nach Anspruch 5, in dem der Wortwähler und semantische Analysator (26) einen lokalen Parser (56) und einen globalen Parser (56) enthält.
System nach Anspruch 5, in dem der Wortwähler und semantische Analysator (26) Synonyme von Suchausdrücken gemäß dem Textmusteranpasser (36) bereitstellt.
System nach Anspruch 5, in dem der Textmusteranpasser (36) die Wortliste mit Daten ab der Vielheit von Tunern (16) vergleicht.