DE10143292B4 - Sprachfenster - Google Patents

Sprachfenster Download PDF

Info

Publication number
DE10143292B4
DE10143292B4 DE10143292.5A DE10143292A DE10143292B4 DE 10143292 B4 DE10143292 B4 DE 10143292B4 DE 10143292 A DE10143292 A DE 10143292A DE 10143292 B4 DE10143292 B4 DE 10143292B4
Authority
DE
Germany
Prior art keywords
vocabulary
information
block
speech recognition
listener
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE10143292.5A
Other languages
English (en)
Other versions
DE10143292A1 (de
Inventor
Marian Trinkel
Bertram Lutz
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Priority to DE10143292.5A priority Critical patent/DE10143292B4/de
Publication of DE10143292A1 publication Critical patent/DE10143292A1/de
Application granted granted Critical
Publication of DE10143292B4 publication Critical patent/DE10143292B4/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Verfahren zur interaktiven Unterstützung einer sich an einen Hörer richtenden Darbietung von Information einschließlich Unterhaltung, die von einem Anbieter über ein Medium verbreitet wird, wobei der Hörer durch Vorgabe eines gesprochenen Wortes oder einer Wortfolge vermittels einer Spracherkennung Informationen erlangen kann, wobei die darzubietende Information in Informationsblöcke aufgeteilt wird, wobei einem Block ein Teil-Wortschatz einer Menge an Wörtern beigeordnet wird, die bezüglich der Vorgabe für die Spracherkennung zur Verfügung stehen und der Teil-Wortschatz von Block zu Block wechselt, dadurch gekennzeichnet, dass der Hörer vermittels der Spracherkennung individuell Hintergrundinformation bezüglich des Inhaltes der Darbietung erlangen kann, wobei die Hintergrundinformation einem erkannten Wort zugeordnet wird.

Description

  • Die vorliegende Erfindung betrifft ein Verfahren zur interaktiven Unterstützung einer sich an einen Hörer richtenden Darbietung von Information einschließlich Unterhaltung, die von einem Anbieter (”Content Provider”), insbesondere einem Rundfunksender, einem Fernsehsender, einem Internetanbieter oder einem Verlag für Printmedien, wobei damit auch Audiosysteme mit Tonträgern (Band, Kassette oder CD) gemeint sind, über ein Medium verbreitet wird, wobei der Hörer durch Vorgabe eines gesprochenen Wortes oder einer Wortfolge vermittels einer Spracherkennung Informationen erlangen kann, wobei die darzubietende Information in Informationsblöcke aufgeteilt wird, wobei einem Block ein Teil-Wortschatz einer Menge an Wörtern beigeordnet wird, die bezüglich der Vorgabe für die Spracherkennung zur Verfügung stehen und der Teil-Wortschatz von Block zu Block wechselt.
  • Jedermann ist der Umgang mit derart dem menschlichen Ohr dargebotener Information, die auch von Bildern unterlegt sein kann (audiovisuell) zur Genüge bekannt. Bis auf wenige Ausnahmen, bei denen der Hörer durch einfache Kurzanweisungen einen Effekt, beispielsweise ein Vor- oder Zurückspulen bei Diktiersystemen, bewirken kann, lassen diese Informationen bloß eine passive Beteiligung des Nutzers zu. Diese Tatsache ist mitunter unbefriedigend, wenn der Zuhörer sich weitere Information erwünscht, die ihm im regulären Programm nicht geboten wird.
  • Die Publikation US 5 774 859 A beschreibt bereits ein Verfahren der eingangs genannten gattungsgemäßen Art mit welchem ein Nutzer sprachgesteuerten Zugang zu Informationen erhält, jedoch ohne inhaltsbezogene Interaktion.
  • Aufgabe der vorliegenden Erfindung ist es nunmehr, ein Verfahren zu schaffen, das bei einfacher und kostengünstiger Realisierung dem Nutzer eine komfortable Möglichkeit zur Interaktion, insbesondere zum Dialog, mit dem vom Anbieter dargebotenen Programm bietet.
  • Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Anspruchs 1 gelöst, gemäß dem weiterhin der Hörer vermittels der Spracherkennung individuell Hintergrundinformation bezüglich des Inhaltes der Darbietung erlangen kann, wobei die Hintergrundinformation einem erkannten Wort zugeordnet wird.
  • Das Verfahren erlaubt dem Hörer, durch Vorgabe eines gesprochenen Wortes vermittels einer Spracherkennung individuell weitere Hintergrundinformation bezüglich des Inhaltes der Darbietung zu erlangen. Da es die Kapazitäten eines jeden Systems sprengen würde, den gesamten zu erwartenden Wortschatz für die Spracherkennung bereitzustellen, wird die dargebotene Information in mehrere Informationsblöcke aufgeteilt, wobei einem Block eine Menge an Wörtern (Teil-Wortschatz) beigeordnet wird. Einem Kapitel wird sozusagen nur der darin relevante Wortschatz beigeordnet. Auch wenn der Teil-Wortschatz auch nur aus einem Wort oder einem Phonem bestehen kann, wird er in den meisten Fällen eine überschaubare Menge von Begriffen aufweisen. Jeder dieser Begriffe steht bezüglich der Vorgabe für die Spracherkennung zur Verfügung, wobei einem erkannten Wort (Begriff) Hintergrundinformation zugeordnet wird und wobei der Teil-Wortschatz von Block zu Block wechselt.
  • Der wesentliche Gedanke der Erfindung ist also, daß der Wortschatz nicht als Ganzes vorgehalten und bearbeitet werden muß, sondern daß er in Teile aufgeteilt wird, die in direktem Bezug zu der jeweils aktuellen Darbietung stehen. So kann beispielsweise eine Meldung innerhalb der Nachrichten einen Block bilden, für den ein (Teil)-Wortschatz zur Spracherkennung zur Verfügung steht. Nach Beendigung der Darbietung dieser Nachricht, wird ein anderer Wortschatz aktiv geschaltet, der entsprechend der nächsten Meldung zugeordnet wird. Die Vorteile der Erfindung sind offensichtlich: Während der Wortschatz bei derartigen Anwendungen nach dem Stand der Technik bei höchstens 5000 Wörtern lag und die Spracherkennung entsprechend unbefriedigend war, kann der Wortschatz erfindungsgemäß durch die Aufteilung vervielfacht werden. Dadurch ist eine wesentlich verbesserte Erkennungsrate bei höherer Flexibilität und schnellerer Verarbeitung möglich. Die reduzierte Datenmenge erlaubt es, das Verfahren auch auf kleinen, dem Kunden zur Verfügung stehenden Endgeräten (Computern) zu realisieren. Da der Wortschatz im Hinblick auf den Informationsinhalt zugeschnitten ist, also die benutzten Wärter und Wörter aus dem Umfeld beinhaltet, ist die Spracherkennung auf den Content optimiert. Die Spracherkennung kann dabei der Weg sein, dem Nutzer zu den ihn interessierenden Begriffen Hintergrundinformation zu bieten oder ihn an der Sendung zu beteiligen, insbesondere seine Kaufwünsche als Bestellungen entgegen zu nehmen.
  • So ist es für den Hörer mit entsprechender Ausstattung seines Endgerätes, insbesondere eines dialogfähigen Computers, möglich, im Laufe der Darbietung (”Content”) inhaltliche Fragen beantwortet zu bekommen. Zu diesem Zweck wird ein Spracherkennungssystem eingesetzt, das mit dem Teil-Wortschatz arbeitet. Damit kann der Kunde z. B. während eines TV-Shopping Fragen zum präsentierten Produkt stellen, die automatisiert beantwortet werden. Der zur Verfügung gestellte (vorgehaltene) Wortschatz braucht dabei nur relativ klein zu sein, damit das System eine hohe Treffer- und/oder Erkennerquote bezüglich der Fragen der Hörer aufweist. Ein solches System braucht auch nicht lange trainiert werden, um die Quote zu erhöhen. Durch den relativ kleinen Bestand aktiver Worte ist das System flexibel und schnell. Zudem ist das System komfortabel, da der Hörer die zum Dialog befähigende Software nicht selber auf seinem Computer installieren muß, sondern ihm diese zugespielt werden kann.
  • Wie dargelegt, wird erfindungsgemäß die darzubietende Information in mehrere Informationsblöcke aufgeteilt, wobei einem jedem Block ein Teil-Wortschatz an Wörtern beigeordnet wird. Dieser Teil-Wortschatz steht bezüglich der Vorgabe eines vom Nutzer gesprochenen Wortes zur Spracherkennung für eine gewisse Dauer zur Verfügung. Der Teil-Wortschatz wechselt von Block zu Block, wobei die Länge eines Blockes letztendlich durch seinen ihm zur Verfügung gestellten Wortschatz definiert wird.
  • Diese erfindungsgemäße Technik eignet sich dabei nicht nur für die Darbietung von Information über die Medien (Web)-Radio und TV (”Streaming”-Technik), es ist auch möglich, diese Technik in Lehrprogramme zu implementieren, die auf CD oder Kassette zur Verfügung stehen (”Audio-Technik”). Während der Darbietung einer Unterrichtseinheit kann diesem Block der entsprechende Wortschatz zur Stellung von Fragen zur Verfügung gestellt werden. Wie schon betont, ist es selbstverständlich erforderlich, daß dem Nutzer ein kommunikationsfähiges Endgerät zur Verfügung steht. Hat der Nutzer beispielsweise einen mit Mikrophon und Lautsprecher ausgestatteten Computer, so bedarf es keiner weiteren Hardware. Über einen Anschluß eines Kommunikationsnetzes ist es generell möglich, dem Kunden aktuell die benötigten Daten für die dem Content zugeordnete Spracherkennung zur Verfügung zu stellen. Eine Wartung des Systems kann zentral erfolgen. Ein Eingriff in das Gerät des Kunden ist dazu nicht erforderlich. Dabei bietet die Erfindung neue Möglichkeiten beispielsweise für Shopping-Systeme und insbesondere im E-Commerce oder generell für ”Content”-Darbietungen.
  • Auch wenn die Umsetzung der Erfindung im Rahmen der Darbietung analoger Information möglich ist, so ergeben sich die besonderen Vorteile dann, wenn die Information in digital vorliegenden Dateien kodiert ist, die dem Nutzer über sein Endgerät ausgegeben werden. In diesen Fällen ist es besonders vorteilhaft, wenn einer den darzubietenden Informationsblock repräsentierenden Datei ein Kopfteil (”Header”) zugeordnet wird, wobei der Header den Wortschatz oder einen auf den Wortschatz weisenden Zeiger aufweist. Die Information beinhaltenden Dateien transportieren somit ihren eigenen Wortschatz. Diese Technik bietet im Hinblick auf eine kundenorientierte Darbietung die höchste Flexibilität und läßt sich einfach und systemunabhängig realisieren.
  • Generell ist es vorteilhaft, während der Sendung eines Informationsblockes ein Zeitfenster zu öffnen, in dem der dem Block zugeordnete Wortschatz für eine Spracherkennung aktiv gehalten wird, so daß der Hörer sich im Rahmen dieses Wortschatz an die Darbietung wenden kann. Diese Maßnahme kann ganz unauffällig erfolgen oder dem Kunden durch einen Vorspann mitgeteilt werden. So ist es möglich, z. B. die Nachricht ”Der XY AG steht eine feindliche Übernahme durch die YZ AG bevor”, für die Dauer der Nachricht mit Hintergrundinformation zu unterlegen. Spricht der Nutzer das Wort ”Übernahme” in sein Endgerät, so wird er darüber informiert, was unter diesem Terminus zu verstehen ist. Nach Ablauf der Darbietung dieser Nachricht hat sich der Nutzer der Möglichkeit begeben dazu weitere Information zu bekommen. Nach Ablauf des Zeitfensters wird auf den Wortschatz der nächsten Nachricht gewechselt.
  • Besonders vorteilhaft ist es, wenn der Teilwortschatz automatisch aus einer großen Datenbank generiert wird. Diese Datei ist statisch in einem zentralen Rechner oder dem Rechner des Nutzers hinterlegt und enthält den ”kompletten” benötigten Wortschatz, wobei es besondere Algorithmen möglich machen könnten, daß sich der Wortschatz nach und nach entsprechend dem Bedarf erweitert. Die Art der automatischen Generierung kann dann derart erfolgen, daß ein Programm vor der Darbietung der Nachricht diese auf die ”Keywords” hin untersucht und die Keywords in den Header schreibt. Vorteilhafter Weise sind den Keywords Zeiger (”Pointer”) zugeordnet, die auf die entsprechenden Fundstellen der Hintergrundinformation in einer Bibliotheks-Datei verweisen. So können die Wörter des Informationsblockes als Grundlage der Generierung verwendet werden.

Claims (6)

  1. Verfahren zur interaktiven Unterstützung einer sich an einen Hörer richtenden Darbietung von Information einschließlich Unterhaltung, die von einem Anbieter über ein Medium verbreitet wird, wobei der Hörer durch Vorgabe eines gesprochenen Wortes oder einer Wortfolge vermittels einer Spracherkennung Informationen erlangen kann, wobei die darzubietende Information in Informationsblöcke aufgeteilt wird, wobei einem Block ein Teil-Wortschatz einer Menge an Wörtern beigeordnet wird, die bezüglich der Vorgabe für die Spracherkennung zur Verfügung stehen und der Teil-Wortschatz von Block zu Block wechselt, dadurch gekennzeichnet, dass der Hörer vermittels der Spracherkennung individuell Hintergrundinformation bezüglich des Inhaltes der Darbietung erlangen kann, wobei die Hintergrundinformation einem erkannten Wort zugeordnet wird.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Information als digitale Datei zur Verfügung gestellt wird, wobei einem Block eine extra Datei mit eigenem Kopfteil zugeordnet wird, wobei der Header den Teil-Wortschatz oder einen auf den Teil-Wortschatz weisenden Zeiger aufweist.
  3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß während der Sendung eines Informationsblockes ein Zeitfenster geöffnet wird, in dem der dem Block zugeordnete Teil-Wortschatz für eine Spracherkennung aktiv gehalten wird, so daß der Hörer sich im Rahmen dieses Teil-Wortschatzes an die Darbietung wenden kann.
  4. Verfahren nach Anspruch 3, dadurch gekennzeichnet, daß nach Ablauf des Zeitfensters auf einen anderen Teil-Wortschatz gewechselt wird.
  5. Verfahren nach einem der vorherigen Ansprüche, dadurch gekennzeichnet, daß der Teil-Wortschatz automatisch aus einer zur Verfügung stehenden statischen Datei, die einen nahezu kompletten Wortschatz enthält, generiert wird, wobei die Wörter des Informationsblockes als Grundlage der Generierung verwendet werden.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß den Wörtern des Teil-Wortschatzes Zeiger zugeordnet werden, die auf die Fundstelle der entsprechenden Hintergrundinformation in einer Bibliotheks-Datei hinweisen.
DE10143292.5A 2001-09-04 2001-09-04 Sprachfenster Expired - Lifetime DE10143292B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE10143292.5A DE10143292B4 (de) 2001-09-04 2001-09-04 Sprachfenster

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10143292.5A DE10143292B4 (de) 2001-09-04 2001-09-04 Sprachfenster

Publications (2)

Publication Number Publication Date
DE10143292A1 DE10143292A1 (de) 2003-03-20
DE10143292B4 true DE10143292B4 (de) 2015-06-03

Family

ID=7697652

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10143292.5A Expired - Lifetime DE10143292B4 (de) 2001-09-04 2001-09-04 Sprachfenster

Country Status (1)

Country Link
DE (1) DE10143292B4 (de)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0718823A2 (de) * 1994-12-23 1996-06-26 Siemens Aktiengesellschaft Verfahren zur Umwandlung von sprachlich eingegebenen Informationen in maschinenlesbare Daten
DE4243181C2 (de) * 1991-12-31 1996-12-19 Mitel Corp Sprachgesteuerte Vorrichtung und Verfahren zu deren Betrieb
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US6112174A (en) * 1996-11-13 2000-08-29 Hitachi, Ltd. Recognition dictionary system structure and changeover method of speech recognition system for car navigation
EP1083405A1 (de) * 1999-09-09 2001-03-14 Xanavi Informatics Corporation Sprachreferenzapparat, Steuerungsprogramm für Sprachreferenzen auf einem Aufzeichnungsmedium und Navigationsapparat mit Spracherkennung

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4243181C2 (de) * 1991-12-31 1996-12-19 Mitel Corp Sprachgesteuerte Vorrichtung und Verfahren zu deren Betrieb
EP0718823A2 (de) * 1994-12-23 1996-06-26 Siemens Aktiengesellschaft Verfahren zur Umwandlung von sprachlich eingegebenen Informationen in maschinenlesbare Daten
US5774859A (en) * 1995-01-03 1998-06-30 Scientific-Atlanta, Inc. Information system having a speech interface
US6112174A (en) * 1996-11-13 2000-08-29 Hitachi, Ltd. Recognition dictionary system structure and changeover method of speech recognition system for car navigation
EP1083405A1 (de) * 1999-09-09 2001-03-14 Xanavi Informatics Corporation Sprachreferenzapparat, Steuerungsprogramm für Sprachreferenzen auf einem Aufzeichnungsmedium und Navigationsapparat mit Spracherkennung

Also Published As

Publication number Publication date
DE10143292A1 (de) 2003-03-20

Similar Documents

Publication Publication Date Title
DE10085178B4 (de) Verfahren für Internetradio und Übertragung
DE69737987T2 (de) Verfahren und System zum Puffern erkannter Wörter während der Spracherkennung
DE60305458T2 (de) System und verfahren zur bereitstellung einer nachrichtengestützten kommunikationsinfrastruktur für einen automatisierten anrufzentralenbetrieb
CA2324389A1 (en) Nonlinear video editor
DE60302640T2 (de) Nachrichtenrundfunksystem in einem Funkkommunikationsnetz
George Re-reading the notion of “Convergence” in light of recent changes to the culture and communication industries in Canada
US20030196198A1 (en) System and method for scheduling news stories based upon voting by viewers/listeners
Miller Watching viewers watch TV: Processing live, breaking, and emotional news in a naturalistic setting
DE10143292B4 (de) Sprachfenster
US12010161B1 (en) Browser-based video production
DE10197182T5 (de) Verfahren zum Codieren und Decodieren von Digital-Audiodaten
EP0913974B1 (de) Verfahren zur Erstellung von Sendeplänen für Multi Media Daten
US11770422B2 (en) Real-time engagement analytics for communication sessions
Austin Rating the movies
Koenig Enhancement of forensic audio recordings
DE10239860A1 (de) Verfahren und Vorrichtung zum Aufzeichnen und Wiedergeben von Inhalten
DE202020101973U1 (de) System, Endgerät und Auswahleinrichtung für ein Echtzeit-Feedback
Fazal et al. Evaluation of information comprehension in concurrent speech-based designs
DE10001216A1 (de) Verfahren zum Aufbringen von reproduzierbaren Daten
DE112012004975T5 (de) Informationsverarbeitungssystem und Informationsverarbeitungsverfahren
Perrin et al. Progression analysis: tracing journalistic language awareness
Burger et al. The nespole! voip dialogue database
Afonso et al. Combining Text-to-Speech Services with Conventional Voiceover for News Oralization
US20080127256A1 (en) System and method for deploying a virtual dialogue
DE10220519B4 (de) Verfahren und System zur Verarbeitung von Sprachinformation

Legal Events

Date Code Title Description
OM8 Search report available as to paragraph 43 lit. 1 sentence 1 patent law
8110 Request for examination paragraph 44
R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final
R071 Expiry of right