-
Die
Erfindung betrifft ein Verfahren und eine Anordnung zum Hören einer
Elektronischen Tageszeitung mit sprachgesteuerter Bedienerführung.
-
Die
der Erfindung zugrunde liegende Lösung ist insbesondere als Informationsmedium
für Blinde und
Sehschwache konzipiert, da diesem Personenkreis aktuelle Tagesinformationen,
die üblicherweise in
Form von Schrift und Bild angeboten werden, nicht oder nur schwer
zugänglich
sind. Dieser Personenkreis ist daher überwiegend auf zum Gesichtssinn
alternative Sinne, wie Tasten und Hören, angewiesen. Zu diesem
Zweck existieren eine Vielzahl von Hilfsmittel, die Blinden oder
sehschwachen Personen alternative Zugänge zu aktuellen Informationen
ermöglichen.
-
Das
klassische Mittel zum Lesen ist für Blinde und Sehschwache die
sog. Braille-Schrift,
die aus fühlbaren
Erhebungen auf einem Trägermaterial
zu einer Information zusammengesetzt wird. Buchstaben oder Zahlen
können
so ertastet werden. Die klassische Braille-Schrift wird in Karton
geprägt
und ist damit nur für
statische Inhalte (z. B. für
Bücher)
geeignet. Die moderne Version hiervon ist die Braille-Zeile, die
die gleiche Funktion an einem Computer als Bildschirmersatz erfüllt. Hier
werden die Erhebungen durch elektronisch steuerbare Stifte gebildet,
die auf diese Weise dynamische Inhalte wiedergeben können.
-
In
letzter Zeit nehmen Publikationen in Hörform zu. Am weitesten verbreitet
ist das sog. Hörbuch.
Hier werden die Texte von geschulten Sprechern vorgetragen und auf
einer Audio-Kassette oder CD gespeichert (z. B. das Wochenmagazin „Die Zeit").
-
Ein
Lösungsansatz
für eine
derartige Lösung wird
beispielsweise in
DE
102 43 098 A1 beschrieben. Die Lösung bezieht sich auf eine
Zeitung, die als Tonträger
ausgebildet ist. Der Tonträger
kann beispielsweise als Tonbandkassette oder als Audio-CD ausgebildet
sein, welche sich auf normalen Abspielgeräten abspielen lassen, so dass
keine zusätzlichen Kosten
für spezielle
Wiedergabeapparaturen entstehen. Zur Auswahl liegen die einzelnen
Artikel auf dem Tonträger
als Tracks vor. Beispielsweise kann Track Nr. 1 ein gesprochenes
Inhaltsverzeichnis enthalten, welches die Track Nummern aller auf
der CD enthaltenen Artikel enthält.
Diese Lösung,
die als Offline-Lösung
konzipiert ist, erspart zwar das mühselige Tasten auf einer Braille-Unterlage,
ist aber dennoch hinsichtlich des Contents statisch. Damit sind die
beschriebenen Lösungen
sowohl wegen ihres statischen Charakters, als auch wegen ihrer hohen Erstellungskosten,
die bei der Bereitstellung von tagesaktuellen Nachrichten entstehen
würden,
nicht für die
Verbreitung von tagaktuellen Informationen geeignet.
-
Andere
bekannte Lösungen
beruhen auf der Benutzung der modernen Sprachsynthese (Text-to-Speech).
Mittels einer entsprechenden Software, die auf einen Computer geladen
wird, können auf
dem Computer vorliegende Texte in Sprachinformationen umgewandelt
werden. Nachteilig an der lokalen Nutzung auf einem Computer ist,
dass die Texte ohne Bilder oder Tabellen vorliegen müssen, da diese
von der Software nicht umgesetzt werden können. Angebote, die diese Bedingung
erfüllen,
werden barrierefrei genannt. Ein weiterer Nachteil ist in der zwingend
erforderlichen Verfügbarkeit
eines Computers, in der Regel mit Internetzugang, zu sehen. Damit
ist aber wieder eine Einschränkung
des Nutzerkreises verbunden, die ca. 50% der Blinden und Sehschwachen
betrifft, die nicht über
einen Computer mit Internetzugang verfügen. Produkte dieser Art sind zahlreich
am Markt verfügbar.
Hier seien stellvertetend z.B. IBM Home Page Reader 3.0 von der
Fa. IBM oder die LeseFix CeBox der Firma AUDIODATA GmbH, Oberhausen-Rheinhausen
angeführt.
-
Eine
weitere Möglichkeit
der Nutzung der modernen Sprachsynthese-Technologie ist die Aufbereitung
des Textes als Sprachsignal am Ort des Informationsanbieters. Ausgangsdaten
für dieses
Verfahren sind die redaktionell erstellten Datensätze für die Web-Ausgaben
von Tageszeitungen. Die Nachrichten liegen auf diese Weise bereits
in elektronischer Form vor und müssen
nur noch in Teilen modifiziert werden, um z. B. Bilder oder Tabellen
in geeigneter Weise sprachlich umsetzen zu können. Da dies am Entstehungsort
des Contents geschieht, ist dies einfach durch die Redaktion selbst
auszuführen.
Anschließend
werden alle Texte mittels Text-to-Speech in hörbare menschliche Sprache umgewandelt.
Allerdings entstehen so erhebliche Datenmengen in der Größenordnung
von mehreren Gigabyte, da das Vorlesen einer kompletten Zeitung
Sprachsignale von mehreren Stunden Dauer produziert. Um diesen Mangel
zu umgehen, wird das so gewonnene Sprachsignal einer Kompression
unterworfen, die das Datenvolumen um ca. 90% reduzieren kann. Auf der
Wiedergabeseite, also beim Behinderten, muss die Kompression rückgängig gemacht
werden, damit dieser das Angebot abhören kann. Sowohl die Übertragung
als auch die Dekompression benötigen
das Internet und Computer mit geeigneter Software, was zu den bereits
erwähnten
Einschränkungen
des Nutzerkreises führt.
-
Eine
Lösung
dieser Art wird in der Schrift
DE 199 63 060 A1 beschrieben, obwohl hier
nicht der komplette Inhalt einer Zeitungsausgabe, sondern nur eine
vom Nutzer vorab geforderte inhaltliche Auswahl bereitgestellt wird.
Es kann angenommen werden, dass eine Kompression entsprechend des GSM-Standards
vorgenommen wird. Mit dem beim Stand der Technik üblichen
MP3-Kompressionsalgorithmus wären
noch größere Reduktionen
des Datenflusses möglich.
-
Eine
andere Anwendung findet diese Lösung in
einem Produktvorschlag von Herrn Joachim Jakobs, Freier Journalist
(www.earnews.de). Das EarNews genannte Produkt wird als PlugIn auf
den lokalen Computer des Nutzers geladen und kann fortan komprimierte
Soundfiles aus dem Internat laden und lokal hörbar machen.
-
In
WO 97/20274 A1 wird ein persönliches elektronisches
Buchsystem beschrieben, das ein herkömmliches Buch durch ein elektronisches Äquivalent
ersetzen soll. Beim geöffneten
elektronischen Buchsystem sieht der Anwender zwei gegenüberliegende
seitenähnliche,
berührungsempfindliche
Anzeigeflächen.
Symbole repräsentieren
das gespeicherte Material, wie beispielsweise auch Bücher, Zeitschriften
und Zeitungen, die durch Berühren
des jeweiligen Symbols ausgewählt
werden. Wird eine Zeitschrift oder Ähnliches ausgewählt, wird
das zugehörige
Inhaltsverzeichnis angezeigt. Der Anwender kann dann Seite für Seite
lesen oder eine bestimmte Seite direkt durch Berühren der entsprechenden Position
im Inhaltsverzeichnis aufrufen. Neues Druck- oder Multimediamaterial
kann von einem entfernten Server, einem so genannten „Bookstore" heruntergeladen
werden. Altes Material kann gelöscht
werden.
-
DE 197 55 863 C2 beschreibt
ein Verfahren zur Auswahl von Objekten und zur Auslösung von
zugeordneten Prozessen in einer Benutzeroberfläche, insbesondere nach Art
von Computermenüs,
wobei die Benutzeroberfläche
eine dreidimensional dargestellte Tonkulisse ist, in der die auswählbaren
Objekte als unterschiedliche Tonelemente räumlich hörbar angeordnet werden. Zur
Objektauswahl und Prozessauslösung
wird ein Zeigegerät
verwendet, welches einen imaginären
Zeiger, der in die dreidimensionale Tonkulisse hineingerichtet ist,
nach Richtung und Länge
bestimmt, wobei das der Spitze des Zeigers jeweils am nächsten liegende
Objekt akustisch hervorgehoben dargestellt wird. Die übrigen Objekte
der Tonkulisse bleiben unverändert.
Die Lösung
ist beispielsweise geeignet, aus mehreren gleichzeitig vorgelesenen
Zeitungsartikeln einen zu selektieren. Auf diese Weise lässt sich
auch ein paralleles Überfliegen
mehrerer Artikel realisieren.
-
Aus
US 5 924 068 A ist
ein elektronisches Nachrichtenempfangsgerät bekannt, das abends Textdaten
für die
elektronische Ausgabe einer Zeitung empfängt und sie dem Anwender der
Zeitung am nächsten
Tag vorliest. Das Nachrichtenlesegerät ist mit einem Empfänger zum
Empfang der elektronischen Ausgabe einer Zeitung ausgestattet, die
von einem Sender am Standort des Nachrichtenproduzenten übertragen
wird. Der Nachrichtenproduzent kann Wörter mit Aussprachemarkierungen
versehen und die Aussprachedaten zusammen mit der elektronischen
Zeitung übertragen.
Als Übertragungskanal kann
eine Telefonleitung, die Vertikalaustastlücke eines Fernsehsignals, ein
Kabelfernsehkanal, ein Mittelwellen- oder UKW-Zwischenträgersignal oder ein Satellitenkanal
dienen. Die empfangene elektronische Zeitungsausgabe wird von einem
Abschnittfilter verarbeitet, wobei die erwünschten Abschnitte der Zeitung
aufbewahrt und in einem Speicher abgelegt werden. Ein Sprachsynthesesystem
erzeugt eine akustische Ausgabe, die dem gesprochenen Text der Nachrichtenartikel
entspricht. Anwender können
ein oder mehrere Stichwörter
eingeben, damit das Gerät selektiv
Artikel vorliest, in denen die Stichwörter enthalten sind. Der Anwender
kann mit Hilfe von manuellen Steuerelementen oder Sprachbefehlen
bestimmen, welche Artikel mit welcher Geschwindigkeit vorgelesen
werden.
-
Aus
DE 199 30 277 A1 ist
eine Lösung
für ein System
von elektronischem Tonträger
und Abspielgerät
mit der Möglichkeit
des selektiven Zugriffs auf gespeicherte akustisch-verbale Informationen,
sowie Vertrieb des Tonträgers
durch Datenfernübertragung bekannt.
Bei dieser Lösung
wird die Information, beispielsweise einer Tageszeitung, auf einem
elektronischen Tonträger
akustisch- verbal so gespeichert, dass durch ein entsprechend eingerichtetes
Abspielgerät
mittels Signal die gewünschte
Informationsstelle ausgewählt
und wahlweise detailliert abgerufen werden kann. Dabei laufen auf
einem dafür
ausgerüsteten
oder modifizierten Abspielgerät über Lautsprecher
zunächst
alle Überschriften
der Nachrichtenpakete (Artikel) ab, danach die zu den Überschriften
gehörenden
Detailtexte. Der Hörer
hat nun während
der Abfolge der Überschriften
die Möglichkeit, durch
elektrische Signale (Taste) oder akustische Signale (z. B. Codewörter) die
Möglichkeit
- – direkt
nach angehörter Überschrift
den zugehörigen
Detailtext abzurufen und danach den „Normal" Ablauf weitergehen zu lassen, oder
- – den
gerade laufenden Detailtext abzubrechen und den folgenden laufen
zu lassen, oder
- – den
gerade laufenden Detailtext wiederholen zu lassen.
-
Das
beschriebene Verfahren arbeitet offline. Zeitungsinhalte werden
komplett in Sprache gewandelt und anschließend auf einem Tonträger, z.
B. einer CD, gespeichert. Für
tagesaktuelle Informationen ist diese Lösung nur bedingt geeignet (Vertriebsproblem
und Aktualität).
Für die
Wiedergabe sind besonders ausgerüstete
und für
den speziellen Einsatzfall modifizierte Endgeräte vorgesehen. Die Auswahl
des gewünschten
Inhaltes erfolgt über
das Markieren der gewünschten
Passagen in Verbindung mit einem Inhaltsverzeichnis oder einer Reihe
von vorgelesenen Überschriften
durch Anklicken oder anhand von Codeworten. Bei der Markierung anhand
von Codeworten muss das Endgerät
entsprechend modifiziert sein. Beim Stand der Technik kommen hierfür nur Spracherkennungslösungen mit
einem festen Wortschatz in Frage, was den Einsatz der Codeworte
auf Navigationszwecke einschränkt.
Ein derartig ausgebildetes Endgerät ist zudem wesentlich teurer
als ein herkömmliches
Endgerät,
da die zusätzliche
Komponente „Spracherkennung" nicht standardmäßig zu Wiedergabegeräten gehört.
-
Die
bereits genannte Schrift
DE
199 63 060 A1 beschreibt ein Telekommunikationssystem zum Bereitstellen
vertonter Artikel in einem Datennetz. Bei dieser Lösung werden
vorab ausgewählte
Artikel aus Zeitungen und Zeitschriften zeitnah zu ihrem Erscheinen
vertont. Eine unmittelbare Interaktion ist nicht vorgesehen. Ein
Programm, welches die vertonten Artikel umfasst, wird in ein elektronisches
Datennetz eingespeist. Über
das elektronische Datennetz kann das eingespeiste Programm, beispielsweise über Download,
vom Kunden auf einen PC geladen werden. Es kann danach vom Kunden
entweder direkt oder mit Multi-Media-Einrichtungen des PC gehört werden.
-
Die
Auswahl der Inhalte erfolgt bei dieser Lösung vorzugsweise im Rahmen
einer Vorauswahl nach Vorgaben des Nutzers auf dem Wege einer Beauftragung.
Das heißt
der Kunde wählt
vorab die für ihn
interessanten Themen aus. Das Verfahren arbeitet damit ebenfalls
im Offline- Modus. Damit ist nachteilig verbunden, dass der Nutzer Änderungen
seiner Vorgaben stets als Auftrag an den Provider geben muss.
-
DE 101 02 591 A1 bezieht
sich auf die Bereitstellung, Auswahl und Distribution von Audiodaten, die
vorzugsweise von Rundfunksendern produziert worden sind, über das
Internet. Die zur Verfügung stehenden
Informationen, die in Form von Ton-, Text und/oder Bildinformationen
vorliegen, werden in Informationsblöcken erfasst. Die zeitliche
Abfolge der gesendeten Informationsblöcke ist vom Adressaten frei
wählbar.
Dabei kann sich der Anwender eine „Playliste", die die angebotenen Inhalte darlegt,
anhören
und mittels Spracherkennung vorab eine Auswahl treffen. Die entsprechend
den Wünschen
des Kunden zusammengesetzten Beiträge werden per Radio oder Internet
an den Kunden geliefert. Eine Navigation mittels Sprachsteuerung
im ausgewählten
Informationsangebot ist möglich.
Nachteilig an dieser Lösung
ist, dass wiederum spezielles Equipment (Internet und PC bzw. speziell
ausgestattete Rundfunkempfänger)
erforderlich ist. Weiterhin erfolgt die Auswahl des Inhaltes in
nachteiliger Weise vorab, so dass der Nutzer nicht unmittelbar seine
einmal getroffene Auswahl aktuellen Bedürfnissen anpassen kann.
-
Ein
grundlegender Mangel der bekannten Lösungen beruht darauf, dass
sie entweder speziell ausgebildete Wiedergabegeräte oder zumindest einen Computer
mit Internet-Zugang
erfordern und dass die Informationen zumeist nicht tagaktuell angeboten
werden können.
-
Mittels
der bekannten Lösungen
ist es auch nicht möglich,
einen im Laufe eines Tages oder in noch kürzeren Intervallen kontinuierlich
aktualisierten Informationsfluss von Nachrichten in Sprachform anzubieten.
-
Ein
weiterer Mangel aller bekannten, auf dem Hörsinn beruhenden Verfahren
ist in der unzureichenden Auswahlmöglichkeit der Inhalte zu sehen.
Bei allen bekannten Lösungen
erfolgt die Auswahl der gewünschten
Informationen zumeist nur anhand eines Inhaltsverzeichnisses. Inhaltsverzeichnisse
können
jedoch immer nur sequentiell vorgelesen werden, so dass sich der
Nutzer nur durch ein zeitaufwändiges,
elementares Navigieren von Verzeichniseintrag zu Verzeichniseintrag
bewegen kann – das
Nennen einer Überschrift
oder eines tagesaktuellen Bezuges ist dabei ausgeschlossen. Das
Navigieren erfolgt dabei entweder über eine Tastatur (z.B. CD-Player:
Track-Liste, schneller vor- oder Rücklauf) oder über Sprachsteuerung
(Nennung der Track-Nummer oder Kommandos wie „vorwärts", „zurück" o.ä.).
-
Der
Erfindung liegt die Aufgabe zugrunde, ein Verfahren und eine Anordnung
zum Hören
einer Elektronischen Tageszeitung, auch über herkömmliche Kommunikations-Endeinrichtungen
anzugeben, das insbesondere auch für blinde bzw. sehschwache Personen
geeignet ist. Die Lösung
soll so ausgebildet sein, dass beim Nutzer weder besondere Endgeräte noch
besondere Fertigkeiten vorausgesetzt werden müssen. Das Navigieren bzw. das
Aussuchen der Inhalte soll dabei gegenüber den bekannten Lösungen verbessert
werden. Weiterhin soll den Informationsanbietern (z. B. den Zeitungsverlagen)
die Möglichkeit
eröffnet
werden, wichtige Informationen auch in kürzeren Zeitintervallen, als
durch das Erscheinen der Papierausgabe vorgegeben, an die Nutzer
zu bringen. Diese Aufgabe wird durch die im Patentanspruch 1 bzw.
die im Patentanspruch 14 angegebenen Merkmale gelöst.
-
Die
Erfindung beruht darauf, tagaktuelle oder aktuellere Informationen,
vorzugsweise Zeitungsinhalte, die in den Redaktionen der Verlage
bereits vor Erscheinen der Papierausgabe der Zeitung in elektronischer
Form vorliegen, den Kunden im Rahmen eines Diensteangebotes, vorzugsweise über herkömmliche
Telekommunikationseinrichtungen, als Hörinformationen anzubieten.
Zu diesem Zweck werden die in den Redaktionen bereits in elektronischer Form
vorliegenden Zeitungsinhalte in eine Content-Datenbank eines Diensteanbieters,
der die Hörinformationen
anbietet, übernommen
und zeitaktuell in bekannter Weise mittels Sprachsynthese erst auf Anforderung
durch den Nutzer in hörbare
Sprachsignale umgewandelt. Der Diensteanbieter kann auch der Verlag
selber sein. Aufgrund der unterschiedlichen technologischen Prozesse
sowie der unterschiedlichen Distributionswege, die für die Erstellung einer
elektronischen Ausgabe bzw. einer Ausgabe in Papierform zu durchlaufen
sind, kann die elektronische Ausgabe dem Nutzer früher zur
Verfügung
gestellt werden und ebenfalls häufiger
aktualisiert werden als die Zeitung in Papierform. Von diesem Aktualitätsvorteil
profitiert auch die erfindungsgemäße Lösung, da sie auf den Datenbestand
der elektronischen Ausgabe aufsetzt. In der Regel hat der Nutzer der
erfindungsgemäßen Lösung sofort
nach Bereitstellung der elektronischen Ausgabe sprachlichen Zugriff
auf die aktuelle Ausgabe. Da die Text-zu-Sprache-Synthese (Text-to-Speech)
stets in real time erfolgen kann, entfällt auch jegliche Vorbereitungszeit
für die
Wandlung der Inhalte in die Sprachform. Dadurch ist ein Höchstmaß an Aktualität der abgehörten Zeitungsnachrichten
gewährleistet. In
einer Ausprägung
der Erfindung kann das gewandelte Sprachsignal digital gespeichert
werden, um so dem nächsten
Anrufer zur Verfügung
gestellt werden zu können,
ohne dass eine erneute Sprachsynthese für den gleichen Inhalt aktiviert
werden muss. Diese Ausprägung
kann kosten- bzw. ressourcenschonend sein, wenn große Zugriffszahlen
zu erwarten sind.
-
Die
Benutzung des Diensteangebotes erfolgt vom Nutzer von ihm zur Verfügung stehenden
geeigneten Telekommunikations-Endeinrichtungen über das öffentliche Netz, beispielsweise
das Festnetz oder das Mobilfunknetz. Während der Nutzer über den
einen Kommunikationskanal (Rückkanal)
dieser Kommunikationseinrichtungen Bedienhinweise oder den ausgewählten Inhalt
der Zeitungsausgabe abhört,
kann er über
den anderen Kanal mittels Sprachsteuerung Sprachkommandos eingeben.
Diese Sprachkommandos werden einer Spracherkennung zugeführt und
dienen entweder der Auswahl (Selektion) des von ihm gewünschten
Inhaltes bzw. der Navigation in diesen Inhalten während der
laufenden Sprachwiedergabe. Mittels einer Text zu Sprache Synthese
(Text-to-Speech) werden die zuvor vom Nutzer ausgewählten und
als Text vorliegenden Inhalte in ein menschliches Sprachsignal umgewandelt.
Die eingegebenen Nutzerkommandos werden von einer Spracherkennungssoftware
verstanden und interpretiert. Moderne Spracherkennungslösungen basieren
auf dem Prinzip des natürlichen Sprachverstehens
(NLU – natural
language understanding), das weitestgehend eine freie Formulierung der
Kommandos sprecherunabhängig
erlaubt. Mittels sog. Grammatiken wird das Vokabular definiert,
das der Spracherkenner im Einsatz verstehen soll. Kommandoworte,
die nicht in dieser Grammatik definiert worden sind, können nicht
verstanden werden und werden als Fehler zurückgewiesen. Daher müssen also
alle Formulierungen, die der Nutzer gebrauchen könnte, im Voraus definiert worden
sein. Im zwischenmenschlichen Sprachgebrauch ist eine sehr große Varianz
von Formulierungen zu beobachten. Um eine hohe Erkennungsrate und
damit eine große Nutzerzufriedenheit
zu erzielen, ist diese Varianz bestmöglich in der Grammatik zu modellieren.
Aus technischen Gründen
ist es derzeitig außerdem
zwingend, den Umfang einer Grammatik auf einige 1.000 bis max. 10.000
unterschiedliche Kommandos zu limitieren. Gerade im Zusammenhang
mit tagesaktuellen Publikationen ist es daher wegen des sich ständig ändernden
Inhalts sehr schwer, solche Grammatiken im Voraus zu formulieren.
Es gibt die prinzipielle Möglichkeit,
Grammatiken auch dynamisch zu bilden, dann ist es aber nicht möglich, den
gesamten Inhalt einer Zeitungsausgabe und gleichzeitig die Varianz
aller Nutzeräußerungen
hinreichend zu berücksichtigen.
Dies hätte
erhebliche Einschränkungen
in der Benutzungsfreundlichkeit zur Folge, weil dann die Kommandos
im korrekten und vollständigen Wortlaut
zu geben wären.
Aus diesem Grund werden dem Nutzer gleichzeitig mehrere alternative
Navigationsmöglichkeiten
angeboten.
-
Jede
Tageszeitung verfügt über weitestgehend
feststehende Rubriken, wie z. B. Politik, Wirtschaft, Sport, Lokales
etc. Erfindungsgemäß werden diese
Rubriken dem Nutzer im Rahmen einer Rubrikenliste zu einer Vorselektion
des Inhaltes durch Sprachkommandos angeboten. Wegen ihres statischen
Charakters können
diese Begriffe sorgfältig
in die Grammatik eingearbeitet werden. Auch kann die Varianz der üblichen
Nutzeräußerungen
ausreichend berücksichtigt
werden. Daher bilden die Bezeichnungen der Rubriken eine der wesentlichen
Säulen
der Selektion des Inhalts.
-
Weiterhin
ist es üblich,
den Inhalt von Publikationen wie Tageszeitungen in Kurznachrichten
mit geeigneten Überschriften
zusammenzufassen. Davon profitiert die Erfindung, indem diese Überschriften
für die
Navigation in einer Überschriftenliste
zusammengefasst und mittels Sprachsynthese vorgelesen werden. Wenn
der Nutzer diese Liste akustisch angeboten bekommt, kann er durch
das einfache Kommando „vorlesen!" zu den Details,
die unter der gewählten Überschrift
subsummiert sind, gelangen. Auf diese Weise wird der stark dynamische
Inhalt durch ein Set statischer Kommandos selektierbar.
-
Eine
dritte Alternative, die zusätzlich
die Navigation vereinfacht und in bezug auf den Ausgangspunkt der
Suche die starre listenorientierte Navigationsstruktur durchbricht,
basiert auf der Suche nach Schlagworten, die sich auf aktuelle und
aktuellste Informationsinhalte beziehen. Anders als bei den weitestgehend
feststehenden Rubriken können
Schlagworte in der Grammatik des Spracherkenners in beschränkten Umfang
dynamisch generiert werden. Mit der kurzfristigen redaktionellen
oder auch automatischen Erstellung und Einbindung einer Schlagwortliste
in die aktuell verwendete Grammatik können spezifische aktuelle Ereignisse
(z. B. in der Politik, der Umwelt o.ä.) oder Namen von Personen
(Politiker, Sportler etc.) gezielt vom Nutzer angesprochen werden.
Zu diesen per Schlagwort gefundenen Inhalten wird erst in einem
zweiten Schritt wieder zu der Listenstruktur zurückgegriffen, indem zu den Begriffen
die betreffenden Artikel, wieder in Form einer Liste, dem Nutzer
angeboten werden. Diese Art der Navigation entspricht dem Prinzip
der Suche im Internet mittels Suchmaschine.
-
Während die
Nennung einer Rubrik grundsätzlich
alle Inhalte indirekt, d.h. durch Abhören der Angebote innerhalb
dieser Rubrik und anschließendes
Auswählen
durch ein statisches Navigationskommando wie „vorlesen" erlaubt, führt die Schlagwortsuche sofort
zu dem gewünschten
Inhalt, wenn dieses Schlagwort in der Liste für Schlagworte enthalten ist.
Aus dieser Einschränkung
folgt, dass die Schlagwortsuche nicht immer erfolgreich sein muss.
-
Die
einzelnen Navigationsmöglichkeiten
sowie die Ausgabe der gewünschten
Informationen sind nicht als statische, in sich abgeschlossene Prozesse
zu sehen. Es wird innerhalb eines Suchvorganges immer wieder Übergänge von
einer Navigationsform zu einer anderen Navigationsform in Verbindung
mit Informationsausgaben geben. Im Gesamtdialog werden sich die
unterschiedlichsten Mischformen der Prinziplösungen zu individuell praktizierten Navigationsmöglichkeiten
in Verbindung mit Informationsausgaben ergeben. So können sich
beispielsweise unter einer Rubrik wie „Sport" wieder mehrere dynamische Inhalte verbergen,
die
- a) vollständig vorgelesen werden, wenn
weiter keine Untergliederung vorliegt,
- b) in weiteren Rubriken untergliedert sind (z.B. „Sport" → „Fußball" → „Ergebnisse
des letzten Spieltages")
und so wieder mit Standardkommandos ansprechbar sind
- c) oder aber in einer Subliste zusammengefasst, vorgelesen und
damit wieder selektierbar gemacht werden.
-
Ein
gleiches gilt für
die Schlagwortsuche. Auch hier besteht die Möglichkeit, dass zunächst nur ein
Oberbegriff, z. B. der Name eines Fußballvereins, gefunden wird,
wenn dieser Name als Schlagwort in die aktuelle Schlagwortliste
aufgenommen wurde. Danach können
wieder einzelne Nachrichten folgen, die nach den oben beschriebenen
Prinzipien zu selektieren sind.
-
Eine
vierte Möglichkeit,
die Navigation bei der Suche nach Informationen zu verbessern, bzw. nach
weiterführenden
Informationsinhalte zu erweitern, besteht darin, dem Nutzer im Text
vorhandene Links zu verknüpften
Inhalten zu erschließen.
Dabei werden alle im laufenden Text der elektronischen Ausgabe einer
Zeitung vorhandenen Links die zu weiterführenden Inhalten weisen, erfasst
und so aufbereitet, dass Sie dem Nutzer als Information für die Navigation
zur Verfügung
stehen. Ein akustisches Äquivalent
zu den einzelnen Links wird erfindungsgemäß wie folgt gelöst:
Alle
Links eines ausgewählten
Inhalts werden in einer Liste zusammengefasst und am Ende der Wiedergabe
des Inhaltes mit einer geeigneten Einleitung vorgelesen. Diese Liste
kann dann wieder zu einer Selektion von Inhalten herangezogen werden
usw.
-
Eine
besonders aktuelle Form der Inhaltswiedergabe ist der sog. News-Ticker.
Zunächst
unterscheiden sich die anderen Angebote vom News-Ticker in ihrer
Aktualität.
Die Rubriken und deren Inhalte werden im Rahmen einer Tageszeitung üblicherweise
einmal je Tag aktualisiert, der News-Ticker hingegen laufend. Dies
hat Folgen für
die Content-Bereitstellung und seine Aufbereitung für eine Sprachausgabe.
Die hohe Änderungsfrequenz
erfordert eine real time Umsetzung der textuell vorliegenden Nachrichten
in Sprachsignale. Eine Vorabproduktion verbietet sich daher von
selbst. Weiterhin ist der News-Ticker aber selbst wie eine Liste
strukturiert. Damit beschränkt
sich die Selektion des Inhalts auf das Kommando „vorlesen" oder „Details", sofern die Ticker-Überschriften noch mit weiterführenden
Detailinformationen hinterlegt sind. Die Wiedergabe des Inhalts
beschränkt
sich in diesem Fall auf das Vorlesen der Nachrichten. Auch die Navigation
vereinfacht sich. Der Inhalt des News-Tickers wird zyklisch wiederholt,
so dass die Navigation sich auf den Abbruch des Tickers beschränken kann.
Die „weiter"- und „zurück"-Kommandos können optional verwendet werden.
-
Die Überschaubarkeit
von Inhalten ist optisch viel einfacher als akustisch zu verwirklichen. Während eines
Hörerlebnisses
wird der Inhalt linear wiedergeben. Ein Zurückverfolgen bzw. Überspringen
von in Schriftform vorliegenden Informationen wie das mit den Augen
möglich
ist, gibt es akustisch nicht. Dafür wird alternativ die Navigation
in Informationsinhalten angeboten. Mit den einfachen Kommandos „vorwärts" oder „zurück" wird beispielsweise der
Inhalt einer Information satzweise wiederholt oder satzweise übersprungen,
mit dem Kommando „weiter" wird die Wiedergabe
der aktuellen Information abgebrochen und zur Wiedergabe des Inhaltes der
nachfolgenden Information übergegangen.
Zudem ist es jederzeit möglich,
andere Rubriken anzusprechen oder das Hauptmenü oder seine Unterpunkte zu
verlangen.
-
Eine
individuelle Vereinfachung bei der Auswahl eines Wunschinhaltes
besteht in der Definition von Vorlieben. Nutzerabhängig gibt
es Themengebiete (z.B. Fußballergebnisse
oder der Straßenzustandsbericht),
die ein Nutzer immer zu Beginn einer Session hören möchte. So erspart er sich die
Navigation zu diesem Wunschinhalt, was zu einer Steigerung der Effizienz
führen
kann. Für
das Festlegen der Vorlieben gibt es prinzipiell zwei verschiedene
Methoden:
- 1. der Nutzer definiert seine Vorlieben
in einem Sprachdialog und positioniert diese bewusst in einer individuellen
Reihung oder
- 2. ein im Hintergrund ablaufendes Programm analysiert die Nutzergewohnheiten
und erstellt so automatische eine Reihung, die sich im Laufe der Zeit
auch an sich ändernde
Nutzergewohnheiten anpassen kann.
-
Auch
Wiedergabeeigenschaften können
mittels Sprachkommando gesteuert werden. Dies betrifft insbesondere
die Sprechgeschwindigkeit und die Wiedergabelautstärke als
Merkmal. Diese Merkmale können
mit den Kommandos „schneller" bzw. „langsamer" und „lauter" bzw. „leiser" gesteuert werden. Grundsätzlich gibt
es auch die Möglichkeit,
die Stimme (männlich/weiblich
oder jugendlich/seriös)
bzw. deren Tonhöhe
(hoch/tief) steuerbar zu machen.
-
Individuelle
Einstellungen wie die Stimme, deren Tonhöhe, die Sprechgeschwindigkeit
oder die Wiedergabelautstärke,
aber auch die Vorzugsrubriken eines Nutzers und deren Reihung, können bei Bedarf
gespeichert werden. Bei jedem neuen Dialog werden dann diese Einstellungen
oder Vorlieben als default-Werte benutzt. Dies führt zu einer weiteren Vereinfachung
und Beschleunigung des Dialoges.
-
Zu
den individuellen Einstellungen, die in der lokalen Kundendatenbank 8 gespeichert
sind, zählen auch
Daten für
die Prüfung
der Nutzerberechtigung (Identifizierung) sowie abrechnungstechnische
Einzelheiten. In der Regel wird ein Nutzer eines solchen Hörangebotes
kostenpflichtig gegenüber
dem externen Diensteanbieter bzw. einem Verlag, der den Dienst anbietet,
sein. Mit den Billing-Informationen kann
der Nutzungsumfang festgestellt oder in Form eines im Voraus bezahlten
Guthabens zeitbegrenzt werden.
-
Die
Erfindung wird nachfolgend an einem Ausführungsbeispiel erläutert.
-
1 zeigt
ein Blockschaltbild der Lösung.
-
2 zeigt
ein anhand eines Ablaufdiagramms eine mögliche Ausführungsform der Lösung
-
Nachfolgend
wird anhand eines Ausführungsbeispiels
entsprechend 1 in Verbindung mit 2 die
Informationsanfrage eines Nutzers im Rahmen der Hörzeitung
näher erläutert.
-
Der
Zugriff eines Nutzers auf das Diensteangebot der Hörzeitung
ist erst möglich,
nachdem eine lokale Content-Datenbank 7 mit den aktuellen
Nachrichteninhalten des entsprechenden Publikationsorgans geladen
ist. Dazu erfolgt nach Produktion der elektronischen Ausgabe der
Tageszeitung zu dem frühestmöglichen
Zeitpunkt, u. U. noch vor Erscheinen der Papierausgabe, ein Datentransfer
vom Verlag über
ein Datennetz, z. B. Internet, zum Dateninterface 5 eines
Diensteanbieters, der die betreffende Tageszeitung als Hörlösung anbietet.
Auch wenn verlagsseitig alle Grafiken und sonstigen nicht vorlesbaren
Informationen in Texte umgewandelt oder eliminiert worden sind,
ist eine Filterung der angelieferten Daten über ein Text-Filter 6 in
jedem Falle notwendig. Mit Hilfe des Text-Filters 6 werden
die eingegangenen Daten noch einmal einer automatischen Überarbeitung
unterzogen, wobei textliche Mehrdeutigkeiten eliminiert werden.
Beispiele für
die Überarbeitung sind
u.a. Abkürzungen
in die Langform bringen und numerische Datumsangaben in Text zu
wandeln. In der einfachsten Ausführung
besteht das Text-Filter 6 aus einer Look-up-table, die in einer
1:1-Zuordnung Abkürzungen
und deren Langformen oder Fremdworte bzw. Eigennamen und deren phonetische Übersetzung
beinhaltet. Hochwertigere Filter überprüfen zudem noch den Kontext,
in dem bestimmte Textelemente stehen. Beispielhaft sei hier die
korrekte Umsetzung von Ordinalzahlen genannt. Die alleinige Betrachtung
der Zeichenfolge „1." führt nicht
zum Ziel, da noch der Genus des folgenden Substantivs betrachtet
werden muss: „erste
Frau" bzw. „erster Mann".
-
Nach
der Überarbeitung
werden die gefilterten Daten in der lokalen Content-Datenbank 7 abgespeichert.
Damit steht das gesamte Informationsangebot der entsprechenden Tageszeitung
tagaktuell zur weiteren Verfügung.
-
In
bestimmten Situationen ist das Eingreifen eines Redakteurs in die
Arbeit des sonst automatisch agierenden Text-Filters 6 erforderlich:
- – die
automatische Textfilterung wird dann nicht erfolgreich sein, wenn
in den Tagesereignissen neue Eigennamen von Personen oder geografische
Details erstmalig auftreten. Diese Begriffe werden nicht in der
Look-up-table des Text-Filters 6 gefunden
und müssen
vom Redakteur in einer manuell durchgeführten Graphem-Phonem-Umsetzung
des unbekannten Begriffes nachgetragen werden. Dabei wird das Text-Filter 6 modifiziert, das
zukünftig
diese Begriffe immer korrekt umsetzen werden.
- – des
weiteren muss die Schlagwortliste aktualisiert werden. In den seltensten
Fällen
wird dies automatisch erfolgen können,
denn die Auswahl eines Schlagwortes ist eine Intelligenzleistung, die
Automaten nicht ausführen
können.
Die Wahl eines Schlagwortes ist nicht nur abhängig von einer Bewertung der
Situation oder der Nachricht, sondern auch eine Frage der Wortwahl.
Schlagworte entstammen sehr häufig
der Umgangssprache und unterscheiden sich daher von den Begriffen,
die im Zeitungstext verwendet werden.
-
Ein
Teilnehmer, der das Hörangebot
der Tageszeitung nutzen möchte,
wird über
das öffentliche Telefonnetz,
hier Festnetz, nach der Anwahl der betreffenden Zugangsnummer für das Dienstangebot mit
dem Telefonie-Interface 1 verbunden. Aus der lokalen Kunden-Datenbank 8 werden
die für
die Identifikation und das Billing des Nutzers notwendigen Informationen
ausgelesen und für
die Identifikationsprozedur, die durch die Dialogsteuerung Dialog-Control 2 vorgenommen
wird, bereitgestellt. Weiterhin werden aus der lokalen Kunden-Datenbank 8 die
in einem kundenspezifischen Nutzerprofil gespeicherten nutzerspezifischen
Dialog-Daten, wie z. B. Daten zur Sprechgeschwindigkeit, zur Lautstärke und
zu andere vom Kunden für
die Dialogführung
gewünschte
individuellen Einstellungen, wie z.B. die Reihung der Informationsangebote
entsprechend der Vorlieben des Nutzers, ausgelesen und der Dialogsteuerung
Dialog-Control 2 übergeben.
Diese individuell gewählten
Merkmale betreffen zum einen die Synthesecharakteristiken zum anderen
aber die inhaltliche Reihenfolge der Sprachsynthese. Daher werden
diese Informationen zu Beginn eines jeden Dialoges, der von einem
bereits administrierten Nutzer geführt wird, von der Dialogsteuerung
Dialog-Control 2 zum einen an die Sprachsynthese-Einheit
Text-to-Speech 4 übergeben
zum anderen aber zur Beeinflussung (Reihung) der Datenbank-Requests
an die Content-Datenbank 7 verwendet. In der Sprachsynthese-Einheit
Text-to-Speech 4 werden die
gesetzten Parameter für
die folgende Synthese berücksichtigt,
während
die Reihung die Sortierung der Listen für die Rubriken und damit auch
für die Überschriften,
sofern sie Rubriken zuordenbar sind, betrifft.
-
Der
Dialog beginnt mit der Begrüßung des Anrufers.
Dazu aktiviert die Dialogsteuerung Dialog-Control 2 die
Sprachsynthese-Einheit Text-to-Speech 4. Das daraufhin
produzierte Sprachsignal wird dem Nutzer über das Telefonie-Interface 1 und
das öffentliche
Netz zugeführt.
Nach der Begrüßung wird
der Nutzer zur Eingabe seines Informationswunsches aufgefordert.
Die Äußerung des
Nutzers wird dem Spracherkenner 3 zugeführt und interpretiert. Je nach
Komplexität
und Inhalt der Antwort verzweigt die Dialogsteuerung, Dialog-Control 2 entweder
in das Hauptmenü,
die Hilfestellung oder direkt zur Abfrage der lokalen Content-Datenbank 7.
In der Dialogsteuerung Dialog-Control 2 liegen sämtliche Dialogsituationen,
vorausschauend programmiert, in Form eines Computerprogramms vor.
Anhand des vom Spracherkenner 3 erkannten und an die Dialogsteuerung,
Dialog-Control 2 zur Auswertung übergebenen Nutzerkommandos
entscheidet das Programm ob das Kommando des Nutzers ein Menübefehl (z.B. „Hilfe"), ein Auswahlkommando
(„z.
B. „Lokales") oder ein Navigationskommando
(z.B. „vorlesen") ist. Im Falle,
das kein Kommando erkannt wurde, verzweigt die Dialogsteuerung,
Dialog-Control 2 in ein Hilfemenü, in dem der Nutzer Hinweise
zur Bedienung bekommt. Da das Informationsangebot in mehreren Ebenen
strukturiert ist, erfolgt die Dialogführung ebenso strukturiert.
Ein ungeübter
Nutzer wird den Dialog mit relativ einfachen Kommandos (z. B. „Lokales!") zu steuern versuchen.
Hingegen wird der geübte
Nutzer die Vorteile der modernen Spracherkennungstechnologie (NLU)
nutzen und komplexe Eingaben (z. B. „Ich möchte gern die Lokalnachrichten
von Ort A haben!")
vornehmen.
-
In
beiden Fällen
werden die vom Nutzer gewünschten
Informationen nach der Selektion aus der lokalen Content-Datenbank 7 zur
Synthese an die Sprachsynthese-Einheit
Text-to-Speech 4 geleitet, von wo aus sie hörbar gemacht
und über
das Telefonie-Interface 1 in Form einer Sprachinformation
an den Nutzer ausgegeben werden. Die Navigation im Inhalt wird prinzipiell
ebenso durchgeführt.
Während die
Selektionskommandos eine absolute Adressierung des Inhaltes zur
Folge haben, führt
die Navigation zu relativen Adressierungen des Inhaltes.
-
Eine
Sonderrolle nehmen die Steuerkommandos für Stimme, Tonhöhe, Sprechgeschwindigkeit
und Lautstärke
ein. Erkennt der Spracherkenner 3 ein solches Kommando,
so wird es über
die Dialogsteuerung Dialog-Control 2 an die Sprachsynthe-Einheit
Text-to-Speech 4 geleitet, wo auch deren Realisierung erfolgt.
Gleichzeitig erfolgt aber auch eine Abspeicherung der Parameter,
die diese Steuerkommandos modifiziert haben, in der lokalen Kunden-Datenbank 8 für den späteren Gebrauch.
-
Die
Erfassung der Vorlieben eines administrierten Nutzers kann auf zwei
Wegen erfolgen. Entweder wird ein gesonderter Dialogzweig eröffnet, in dem
der Nutzer seine Vorlieben explizit nennt. Dann werden die so erfassten
Wünsche
in der lokalen Nutzerdatenbank 8 sofort gespeichert und
stehen dann für
zukünftige
Nutzungen bis auf Widerruf durch den Nutzer zur Verfügung. Oder
die Vorlieben werden automatisch auf der Grundlage des Nutzerverhaltens erfasst.
Dieser Prozess erstreckt sich über
mehrere Nutzungsperioden und passt sich immer den laufenden Nutzerwünschen an.
Die Speicherung der automatisch gewonnenen Nutzervorlieben erfolgt
ebenfalls in der lokalen Nutzerdatenbank 8.
-
- 1
- Telefonie-Interface
- 2
- Dialogsteuerung
Dialog-Control
- 3
- Spracherkenner
- 4
- Sprachsynthese-Einheit
Text-to-Speech
- 5
- Daten-Interface
- 6
- Text-Filter
- 7
- Lokale
Content-Datenbank
- 8
- Lokale
Kunden-Datenbank