DE19910234A1 - Verfahren mit mehreren Spracherkennern - Google Patents

Verfahren mit mehreren Spracherkennern

Info

Publication number
DE19910234A1
DE19910234A1 DE19910234A DE19910234A DE19910234A1 DE 19910234 A1 DE19910234 A1 DE 19910234A1 DE 19910234 A DE19910234 A DE 19910234A DE 19910234 A DE19910234 A DE 19910234A DE 19910234 A1 DE19910234 A1 DE 19910234A1
Authority
DE
Germany
Prior art keywords
speech
client
user
voice input
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19910234A
Other languages
English (en)
Inventor
Meinhard Ullrich
Eric Thelen
Stefan Besling
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Philips Corporate Intellectual Property GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Corporate Intellectual Property GmbH filed Critical Philips Corporate Intellectual Property GmbH
Priority to DE19910234A priority Critical patent/DE19910234A1/de
Priority to PCT/EP2000/001145 priority patent/WO2000054252A2/en
Priority to EP00905058A priority patent/EP1163660A2/de
Priority to JP2000604400A priority patent/JP2002539481A/ja
Priority to CN00807383.XA priority patent/CN1350685A/zh
Priority to AU26721/00A priority patent/AU2672100A/en
Priority to KR1020017011408A priority patent/KR20010108330A/ko
Publication of DE19910234A1 publication Critical patent/DE19910234A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Computer And Data Communications (AREA)

Abstract

Die Erfindung bezieht sich auf ein Verfahren, bei dem eine eine Spracheingabe ermöglichende Informationseinheit (3) auf einem Server (1) gespeichert und von einem Client (2) abrufbar ist und der Client (2) per Kommunikationsnetzwerk (6) mit mehreren Spracherkennern (7-9) koppelbar ist und eine von einem Benutzer abgegebene Spracheingabe wenigstens einem Spracherkenner (7-9) zur Erzeugung wenigstens eines Erkennungsergebnisses (11-13) zugeführt wird und das Erkennungsergebnis (11-13) in mehreren unabhängigen Prozessen interpretiert wird und mehrere Interpretationsergebnisse (22-24) erzeugt werden, die einem Benutzer ausgegeben werden. Damit werden dem Benutzer in kurzer Zeit mehrere qualifizierte Informationen übermittelt, für die er sonst mehrmals eine per Spracheingabe eingegebene Anfrage in Datenbanken hätte vornehmen müssen.

Description

Die Erfindung bezieht sich auf ein Verfahren, bei dem eine eine Spracheingabe ermög­ lichende Informationseinheit auf einem Server gespeichert und von einem Client abrufbar ist.
Die Möglichkeit, eine Kommunikation mit einem Computer per Spracheingabe statt per Tastatur oder Maus vorzunehmen, erleichtert dem Benutzer den Umgang mit Computern und erhöht oft die Schnelligkeit bei der Eingabe. Spracherkennung kann in vielen Berei­ chen eingesetzt werden, in denen heute eine Eingabe per Tastatur erfolgt.
In der EP 0872 827 wird ein System und ein Verfahren zur Spracherkennung beschrieben. Ein Client, auf dem eine eingeschränkte Software zur Spracherkennung ausgeführt wird, wird über ein Netzwerk mit einem Spracherkennungsserver verbunden.
Der Client sendet dem Spracherkennungsserver die Spracherkennungsgrammatik und die Daten der Spracheingabe. Der Spracherkennungsserver führt die Spracherkennung durch und sendet das Erkennungsergebnis an den Client zurück.
Wenn ein Benutzer an Informationen interessiert ist, sucht er an einer ihm bekannten Auskunftstelle nach dieser Information. Daß es mehrere Informationsanbieter für ein betreffendes Gebiet gibt, ist dem Benutzer häufig nicht bekannt. Unterschiedliche Infor­ mationsanbieter liefern dem Benutzer auf entsprechende Anfragen unterschiedliche Ant­ worten. Meist weiß der Benutzer jedoch nicht, wo eine weitere Informationsquelle exi­ stiert. Selbst wenn er es wüßte, müßte er eine erneute Anfrage stellen. Dies ist zeitauf­ wendig.
Aufgabe der Erfindung ist es deshalb, den Benutzer in kurzer Zeit mit möglichst viel quali­ fizierten Informationen zu versorgen.
Diese Aufgabe wird dadurch gelöst, daß der Client per Kommunikationsnetzwerk mit mehreren Spracherkennern koppelbar ist und eine Spracheingabe eines Benutzers wenig­ stens einem Spracherkenner zur Erzeugung eines Erkennungsergebnisses zugeführt wird und das Erkennungsergebnis in mehreren unabhängigen Prozessen interpretiert wird und mehrere Interpretationsergebnisse erzeugt werden, die an den Benutzer ausgegeben werden.
Auf einem Server wird von einem Anbieter eine Informationseinheit abgespeichert, die eine Eingabe per Sprache ermöglicht. Ein Client lädt von diesem Server die eine Sprach­ eingabe ermöglichende Informationseinheit. Ein Server ist ein Computer innerhalb eines Kommunikationsnetzwerkes, beispielsweise dem Internet, auf dem Informationen von Anbietern gespeichert und von Clients abrufbar sind. Ein Client ist ein Computer, der zum Abruf von Informationen aus dem Internet mit einem Server verbunden wird und die Informationseinheit, die auf dem Server abgespeichert ist, herunterlädt, um sie mittels einer Software darzustellen. Diese Informationseinheit wird vom Client ausgegeben, so daß der Benutzer den Inhalt dieser Informationseinheit wahrnehmen kann. Der Benutzer wird entweder von der Informationseinheit aufgefordert eine Spracheingabe abzugeben oder ist durch häufiges Aufrufen dieser Informationseinheit über die Spracheingabemöglichkeit informiert. Nachdem der Benutzer eine Spracheingabe abgegeben hat, wird diese einem oder mehreren Spracherkennern zugeführt. Die einzelnen Spracherkenner nehmen eine Spracherkennung vor und erzeugen jeweils ein Erkennungsergebnis. Diese mehreren Er­ kennungsergebnisse werden jeweils einer Interpretation unterzogen. Mit den Erkennungs­ ergebnissen werden in unabhängigen Prozessen Interpretationsergebnisse erzeugt. Für eine Interpretation eines Erkennungsergebnisses wird das Erkennungsergebnis analysiert. Dafür wird das Erkennungsergebnis in seine Bestandteile zerlegt und beispielsweise nach Schlüs­ selwörtern durchsucht. Dabei werden Bestandteile des Erkennungsergebnisses, die für eine spätere Anfrage uninteressant sind, weggelassen. Die Analyse kann vom Spracherkenner oder von einer Datenbank durchgeführt werden. Zur Analyse des Erkennungsergebnisses ist es deshalb erforderlich, Informationen über den Inhalt der Spracheingabe zu haben. Ein möglicher Inhalt der Spracheingabe wird durch den Inhalt der Informationseinheit festge­ legt. Mittels dieser Analyse wird eine Anfrage für einen Datenbestand erzeugt. Diese An­ frage wird dann zu unterschiedlichen Datenbanken gesendet, die darauf mehrere unab­ hängig erzeugte Interpretationsergebnisse liefern. Ein wichtiger Aspekt mit entscheidendem Einfluß auf die Qualität der Antwort auf die vom Benutzer getätigte Spracheingabe ist der Datenbestand, der zur Auffindung einer Antwort auf eine Anfrage herangezogen wird. Die Zahl unabhängiger Datenbanken steigt ständig. Außerdem existieren umfassende Daten­ banken von Firmen, die ebenso zur Auffindung einer Antwort beitragen können. Diese unterschiedlichen Datenbestände werden durch eine Zuweisung der Erkennungsergebnisse zu den Datenbanken zur mehrfachen Interpretation in die Auffindung von Antworten ein­ gebunden.
Die Spracherkennung zur Erzeugung des Erkennungsergebnisses kann hierbei mit unter­ schiedlich hohem Aufwand betrieben werden. Spracherkenner unterscheiden sich nicht nur im Umfang und der Spezialisierung des Vokabulars, sondern auch in den Algorithmen, mit denen sie die Spracherkennung vornehmen. Eine gute Datenbankanfrage setzt eine gute Erkennung dieser per Spracheingabe vom Benutzer getätigten Anfrage voraus.
Die Interpretationsergebnisse werden entweder automatisch vom Spracherkenner oder der Datenbank zum Client zurückgesendet oder durch den Server bereitgestellt, so daß sich der Benutzer die einzelnen Interpretationsergebnisse bei Bedarf abrufen kann. In beiden Fällen werden die Interpretationsergebnisse in einer Form vom Client ausgegeben, die der Be­ nutzer wahrnehmen kann.
Durch die Verknüpfung der Informationseinheit mit einem oder mehreren Spracher­ kennern wird dem Benutzer eine mehrfache Antwort für seine per Spracheingabe getätigte Anfrage geliefert. Dadurch erhält er Informationen, für die er ohne dieses Verfahren mehrere Anfragen mit erheblichem Zeitaufwand starten müßte.
Abgesehen von unterschiedlichen Erkennungsergebnissen bei der Spracherkennung werden durch das unabhängige Interpretieren der einzelnen Erkennungsergebnisse, basierend auf unterschiedlichen Datenbeständen, unterschiedliche Interpretationsergebnisse erzeugt, die jeweils eine Antwort auf die vom Benutzer eingegebene Spracheingabe geben. Bei einer einmaligen Interpretation der Spracheingabe würden entweder nur eine begrenzte Menge der wahrscheinlichsten Antworten auf die Anfrage an den Client zurückgesendet werden oder dem Benutzer würden Antworten gegeben, die mit ihrem Inhalt weit von der Anfrage entfernt sind. Durch das mehrfache Interpretieren eines oder mehrerer Erkennungsergeb­ nisse wird dem Benutzer innerhalb der gleichen Zeit wenigstens die doppelte Menge an Informationen mitgeteilt.
Bei der Zuordnung der Spracheingabe zu nur einem Spracherkenner wird das Erkennungs­ ergebnis mehreren Interpretationsprozessen zugeführt, die alle ein Interpretationsergebnis liefern, welches jeweils dem Client zurückgesendet oder von ihm abgerufen wird und so dem Benutzer auf seine Anfrage eine mehrfache Antwort unterbreiten.
In einer weiteren Ausgestaltung der Erfindung erweist es sich als vorteilhaft, eine Vorverar­ beitung der Spracheingabe auf der Clientseite vorzunehmen. Dazu wird auf dem Client beim Laden der Informationseinheit eine Zusatzsoftware gestartet, die eine Extraktion der Merkmale der Spracheingabe vornimmt. Die als elektrisches Signal vorliegende Sprachein­ gabe wird von dieser Zusatzsoftware digitalisiert, quantisiert und entsprechenden Analysen unterzogen, die Komponenten liefern, die Merkmalsvektoren zugeordnet werden. Diese Merkmalsvektoren werden dann zu dem gekoppelten Spracherkenner übertragen. Der Spracherkenner nimmt die rechenintensive Erkennung vor. Durch die auf dem Client durchgeführte Extraktion der Merkmale wird die Spracheingabe komprimiert und codiert, so daß die Menge der zu übertragenden Daten verringert wird. Außerdem wird der zeit­ liche Aufwand für die Merkmalsextraktion auf die Clientseite verlagert, so daß der Sprach­ erkenner nur noch die Erkennung der ihm zugeführten Merkmalsvektoren vornimmt. Bei häufig benutzten Spracherkennern kann diese Verlagerung vorteilhaft sein. Bei Zuordnung der Spracheingabe zu mehreren Spracherkennern ergibt sich der Vorteil, daß die Vorverar­ beitung nur einmal vorgenommen werden muß. Ohne die Extraktion der Merkmale auf det Clientseite würde jeder beauftrage Spracherkenner eine derartige Extraktion vor­ nehmen.
Als weitere Ausgestaltung der Erfindung wird vorgeschlagen, daß der Client die Informa­ tionseinheit als HTML-Seite (Hyper Text Markup Language) vom Server lädt. Diese HTML Seite wird von einem auf dem Client ausgeführten Web-Browser dargestellt. Der Client baut eine Verbindung mittels eines Links zum Server auf, auf dem die den Benutzer interessierende HTML-Seite abgespeichert ist. Die HTML-Seite kann neben darzustel­ lendem Text, auch Graphiksymbole, Audio und/oder Videodaten enthalten. Die HTML- Seite fordert durch einen Hinweis den Benutzer auf, eine Spracheingabe vorzunehmen. Nachdem der Benutzer diese Spracheingabe abgegeben hat, wird diese Spracheingabe vom Client an einen oder mehrere Spracherkenner weitergeleitet. Dort wird jeweils eine Sprach­ erkennung vorgenommen. Die Qualität des Erkennungsergebnisses hängt dabei in ent­ scheidenem Maße von der Spezialisierung des Spracherkenners ab. Spracherkenner arbei­ ten mit einem bestimmten endlichen Vokabular, welches meist auf spezielle Anwendungs­ gebiete begrenzt ist. Deshalb ist es für ein verwertbares Erkennungsergebnis wichtig, daß die Spracherkenner, zu denen die Spracheingabe weitergeleitet wird, entsprechend speziali­ siert sind. Das Erkennungsergebnis oder gegebenenfalls mehrere Erkennungsergebnisse werden je einem Prozeß zur Interpretation unterzogen. Dafür wird beispielsweise die er­ kannte Spracheingabe für eine Datenbank analysiert und anhand dieser Analyse eine An­ frage an den Datenbestand dieser Datenbank vorgenommen. Das daraus resultierende Interpretationsergebnis wird an den Client automatisch zurückgesendet oder von ihm abgerufen und dort mittels des Web- Browsers dargestellt. Der Benutzer kann nun unter den unterschiedlichen Interpretationsergebnissen auswählen. Dieser Vorgang ist vergleich­ bar mit dem Nachschlagen in unterschiedlichen Lexika, mit dem Vorteil der Zeitein­ sparung.
In einer weiteren Ausgestaltung der Erfindung ist vorgesehen, mehrere Objekte, z. B. Werbeanzeigen von Firmen, auf einer HTML-Seite darzustellen, die je eine Spracheingabe ermöglichen. Jedem Objekt ist ein über das Kommunikationsnetzwerk verbundener Spracherkenner zugeordnet, zu dem die vom Benutzer abgegebene Spracheingabe gesendet wird. Die Spracherkenner nehmen die Spracherkennung vor und führen die einzelnen Erkennungsergebnisse unabhängigen Interpretationsprozessen zu. Die an den Client zu­ rückgesendeten oder von ihm abgerufenen Interpretationsergebnisse werden dem Benutzer in Form von graphischer Darstellung oder als Audiosignal dargeboten.
Falls die Objekte, die beispielsweise als Werbebanner realisiert sein können, von Firmen geschaltet werden, die auf gleichen Geschäftsfeldern tätig sind, werden einem Benutzer durch die Spracheingabe und deren mehrfachen parallelen Verarbeitung, z. B. mehrere Angebote der konkurrierenden Firmen unterbreitet.
Bei Werbebannern von nicht konkurrierenden Firmen, die auf einer HTML-Seite darge­ stellt werden, wird eine Spracheingabe eines Benutzers, die sich auf ein spezifisches Werbe­ banner bezieht, mittels Anklicken des Werbebanners mit der Maus oder durch Blickpunkt­ verfolgung des Benutzers oder durch Prioritätenvergabe unter den mehreren Sprachein­ gabenmöglichkeiten der einzelnen Objekte, an den diesem Objekt zugeordneten Spracher­ kenner weitergeleitet. Dabei erweist es sich als vorteilhaft, entweder die Spracheingabe oder die vorgearbeitete Spracheingabe in einem auf dem Client befindlichen Speicher abzu­ speichern, oder das Erkennungsergebnis an den Client zurückzusenden, so daß der Be­ nutzer für einen weiteren Interpretationsvorgang dieses schon vorhandene Zwischener­ gebnis nutzen kann. Die gespeicherte Spracheingabe oder das Erkennungsergebnis werden dann im Falle einer gespeicherten Spracheingabe an einen anderen Spracherkenner oder im Falle eines gespeicherten Erkennungsergebnisses an eine andere Datenbank geleitet, um mit weiteren Interpretationen die Erzeugung von weiteren Interpretationsergebnissen vor­ nehmen zu können.
Bei einer weiteren Ausgestaltung wird unter mehreren vom Web Browser dargestellten Objekten, die eine Spracheingabe ermöglichen, eine Auswahl getroffen. Der Benutzer wählt aus der Gesamtmenge der dargestellten Objekte beispielsweise durch Anklicken mit der Maus einige Objekte aus. Eine Spracheingabe wird dann nur zu den Spracherkennern dieser ausgewählten Objekte gesendet.
In einer weiteren Ausgestaltung der Erfindung ist vorgesehen, daß ein Server jedem Objekt eine Zusatzinformation in Form eines HTML-Tags zur Verknüpfung des Objekts mit einem Spracherkenner zuweist. Dadurch wird dem Objekt schon beim Laden der HTML- Seite mitgeteilt, zu welchem Spracherkenner im Internet die Spracheingabe zur Verarbei­ tung gesendet werden soll.
Außerdem kann mit dieser Zusatzinformation auch eine Zuweisung der Datenbanken erfolgen, auf denen die Interpretation der Erkennungsergebnisse erfolgen soll. Dadurch wird vom Anbieter der HTML-Seite festgelegt, zu welcher Datenbank das Erkennungser­ gebnis oder die Anfrage zu senden ist.
Eine weitere vorteilhafte Ausgestaltung der Erfindung ergibt sich aus der Möglichkeit, dem Spracherkenner die Entscheidung zu überlassen, zu welchen Datenbanken das Erken­ nungsergebnis gesendet wird. Dadurch wird eine Verschiebung der Entscheidung erreicht, auf welcher Datenbank die Anfrage des Benutzers bearbeitet werden soll. Wenn der Anbie­ ter der HTML-Seite, der dem entsprechendem Objekt den Spracherkenner zuweist, nicht auf dem aktuellsten Stand bezüglich der Datenbanken ist, der Betreiber der Spracherken­ ner darüber jedoch informiert ist und dieser die Datenbanken zuweist, wird die Qualität der Antwort auf die Anfrage dadurch erhöht.
Bei einer HTML-Seite die über Neuerscheinungen von Büchern informiert und auf der mehrere Werbebanner von unterschiedlichen Verlagen geschaltet sind, kann der von den Verlagen unabhängige Anbieter dieser HTML-Seite ein Erkennungsergebnis aus einer An­ frage eines Benutzers über Neuerscheinungen auf einem entsprechenden Gebiet an alle Datenbanken senden, die ihm zur Verfügung stehen. Der Benutzer erhält dadurch schnell und umfassend Informationen über Neuerscheinungen von Büchern aus einem entspre­ chenden Gebiet.
Außerdem wird die Aufgabe auch noch durch einen Server gelöst, auf dem eine Informa­ tionseinheit gespeichert ist, die von einem Client abrufbar ist, wobei vorgesehen ist,
  • - daß der Client mit einem oder mehreren Spracherkennern zur Erzeugung von mehreren einem Benutzer ausgegebenen Interpretationsergebnissen koppelbar ist und,
  • - eine Spracheingabe wenigstens einem Spracherkenner zur Erzeugung von Erkennungs­ ergebnissen zuzuführen und die Erkennungsergebnisse in mehreren unabhängigen Prozessen zu interpretieren und
  • - daß zur Bestimmung einer Verknüpfung von einem eine Spracheingabe ermögli­ chenden Objekt mit einem Spracherkenner zur Erzeugung eines Erkennungser­ gebnisses eine Zuweisung einer Zusatzinformation zum Objekt erfolgt.
Ausführungsbeispiele der Erfindung werden im folgenden anhand der Zeichnungen näher erläutert. Es zeigen.
Fig. 1 Blockschaltbild für eine Anordnung zur Ausführung des erfindungs­ gemäßen Verfahrens
Fig. 2 Blockschaltbild für das erfindungsgemäße Verfahren mit einem Spracher­ kenner
Fig. 3 Blockschaltbild für das erfindungsgemäße Verfahren mit parallelen Sprach­ erkennern
Fig. 4 Blockschaltbild für das erfindungsgemäße Verfahren mit parallelen Sprach­ erkennern mit integrierter Datenbank.
In Fig. 1 ist beispielhaft eine Anordnung zur Durchführung des erfindungsgemäßen Verfahrens dargestellt. Auf einem Server 1 ist eine Informationseinheit 3 abgespeichert. Der Server 1 ist über ein Kommunikationsnetzwerk 6 mit einem Client 2 koppelbar. Über dieses Kommunikationsnetzwerk 6, im folgenden Internet 6, sind Spracherkenner 7-9 mit dem Client 2 koppelbar. Ebenfalls über das Internet 6 sind Datenbanken 5 mit dem Client 2, mit den Spracherkennern 7-9 und dem Server 1 koppelbar.
Die Informationseinheit 3 ist vom einem Anbieter auf dem Server 1 abgespeichert, um einem Benutzer Informationen, beispielsweise über diesen Anbieter, zugänglich zu machen. Die Informationseinheit 3 enthält neben einem darzustellenden Inhalt und Formatierungsbefehlen eine Zusatzinformation 4. Der Benutzer lädt sich eine ihn interes­ sierende Informationseinheit 3, im folgenden als HTML-Seite 3 bezeichnet, von dem Server 1. Dazu wird eine auf dem TCP/IP-Protokoll basierende Verbindung zum Server 1 aufgebaut. Auf dem Client 2 wird eine Software ausgeführt, die beispielsweise durch einen Web-Browser realisiert sein kann und mit der dem Benutzer die HTML-Seite 3 angezeigt wird. Im Client 2 ist ein Speicher 25 angeordnet in dem eine vom Benutzer geäußerte Spracheingabe oder ein von einem Spracherkenner 7-9 zurückgesendetes Erkennungser­ gebnis gespeichert wird.
In Fig. 2 ist die Informationseinheit 3 dargestellt, die dem Benutzer eine Interaktivität in Form eine Spracheingabemöglichkeit bietet. Die Objekte 19, 20 und 21 sind Werbe­ banner, die dem Benutzer beispielsweise Anzeigen von Autohäusern offerieren.
Desweiteren zeigen sie dem Benutzer an, daß diese HTML-Seite 3 eine Möglichkeit zur Spracheingabe bietet, indem der Benutzer beispielsweise durch blinkenden Text aufgefor­ dert wird - z. B. "Sagen Sie uns, welches Auto Sie interessiert" -, eine Spracheingabe zu äußern. In diesem Ausführungsbeispiel erwarten alle drei Werbebanner 19, 20 und 21 eine ähnliche Spracheingabe. Deshalb wird die Spracheingabe an nur einen Spracherkenner 7 über das Internet 6 weitergeleitet. Der Benutzer kann, um beispielsweise weiter nach einem Auto zu suchen, ihn interessierende Begriffe oder Wortgruppen sprechen, die dem Client 2 mittels eines Eingabegerätes 10 zugeführt werden und an den Spracherkenner 7 weiterge­ leitet werden. Mit einer nicht dargestellten Zusatzsoftware kann eine Extraktion der Merk­ male einer Spracheingabe auf dem Client 2 vorgenommen werden, so daß dem Spracher­ kenner 7 nur noch die in Merkmalsvektoren angeordneten Merkmale der Spracheingabe in komprimierter Form übermittelt werden. Der Spracherkenner 7 nimmt die Spracherken­ nung vor und erzeugt ein Erkennungsergebnis 11. Dieses Erkennungsergebnis 11 wird analysiert und als Anfrage vom Spracherkenner 7 jeweils an die Datenbanken 14, 15 und 16 gesendet. Die Anfragen, die in diesem Fall an die Datenbanken 14, 15 und 16 gesendet werden, sind die gleichen.
Die Datenbanken können sich auch auf dem gleichen Server befinden, wie der Spracher­ kenner 7. Es ist aber ebenso denkbar, die Anfragen an Datenbanken zu schicken, die sich auf unterschiedlichen Servern befinden. Dabei ist zu bemerken, daß der Spracherkenner 7 dem Anbieter der HTML-Seite 3 gehört oder von diesem gemietet ist. Da der Anbieter weiß, daß auf dieser HTML-Seite 3 nach Autos gefragt wird, wird der Client zur Erken­ nung det Spracheingabe mit einem spezialisierten Spracherkenner verbunden. Die Daten­ bank 14 enthält Daten aus dem Bestand des Autohauses von Werbebanner 19. Datenbank 15 enthält Daten vom Autohaus mit Werbebanner 20 und die Datenbank 16 vom Auto­ haus von Werbebanner 21. Die Datenbanken 14, 15 und 16 werden daraufhin nach Infor­ mationen durchsucht, die der Anfrage weitestgehend entsprechen. Dieser Vorgang wird auch als Interpretation bezeichnet. Die Datenbanken 14, 15 und 16 liefern jeweils ein Interpretationsergebnis 22, 23 und 24, welches nach einer Übertragung über das Internet 6 auf dem Client 2 dargestellt wird. Dabei wird mit dem Interpretationsergebnis 22 dem Benutzer ein Angebot vom Autohaus mit Werbebanner 19, mit dem Interpretationsergeb­ nis 23 ein Angebot vom Autohaus mit Werbebanner 20 und mit dem Interpretationsergeb­ nis 24 ein Angebot vom Autohaus mit Werbebanner 21 unterbreitet.
Dem Benutzer werden auf diesem Wege Informationen aus drei verschiedenen Daten­ banken 14-16 zur Verfügung gestellt. Er bekommt jetzt beispielsweise je ein Angebot über ein Auto aus dem Bestand der Firma mit Werbebanner 19, eines der Firma mit Werbe­ banner 20 und eines Angebot der Firma mit Werbebanner 21.
Die Information, zu welchen Spracherkennern und/oder Datenbanken eine Spracheingabe und/oder Erkennungsergebnis weitergeleitet werden soll, wird vom Anbieter der HTML- Seite vergeben, wobei dieser die Information vom Auftraggeber für die Werbebanner erhält.
Der Anbieter der HTML-Seite kann Informationen, die zur Analyse eines Erkennungser­ gebnisses wichtig sind, an die Spracherkenner oder Datenbanken übergeben.
Mit dem Speicher 25 wird die Anordnung insofern erweitert, daß bei nacheinanderfol­ genden Anfragen die Spracheingabe in dem Speicher 25 gespeichert wird. Es ist auch möglich das schon einmal erzeugte Erkennungsergebnis in diesem Speicher 25 zu spei­ chern. Der Benutzer kann in diesem Fall bei mehreren Datenbanken nacheinander Anfra­ gen starten, ohne jedesmal die Spracheingabe oder auch die Spracherkennung zu wieder­ holen.
In Fig. 3 wird eine Anordnung für ein Verfahren dargestellt, bei dem eine Spracheingabe an drei verschiedene Spracherkenner 7, 8 und 9 weitergeleitet wird. Dabei wird der Be­ nutzer von den Objekten 19, 20 und 21 in entsprechender Weise aufgefordert, eine Spracheingabe zu äußern. Diese Spracheingabe wird zur Erzeugung je eines Erkennungs­ ergebnisses 11, 12 und 13 an die Spracherkenner 7, 8 und 9 weitergeleitet. Die Spracher­ kenner 7-9 analysieren die Erkennungsergebnisse 11, 12 und 13 und bereiten je eine An­ frage für die Datenbanken 14, 15 und 16 vor. Da sich einerseits die Erkennungsergebnisse 11, 12 und 13 voneinander unterscheiden, da sie von unterschiedlichen Spracherkennern 7-9 erzeugt wurden und andererseits mit diesen unterschiedlichen Erkennungsergebnissen 11, 12 und 13 unterschiedliche Anfragen bei der Analyse erzeugt werden, die unterschied­ lichen Datenbanken 14, 15 und 16 zugeführt werden, erhält der Benutzer mit den nach Übertragung auf den Client 2 zurückgesendeten Interpretationsergebnissen 22, 23 und 24 drei auf unterschiedlichen Datenbeständen basierende Antworten.
Wenn die Analyse der Erkennungsergebnisse nicht im Spracherkenner, sondern in der Datenbank durchgeführt wird, ergibt sich eine weitere Ausgestaltung. Dabei können die Datenbanken 14-16 die Analysen der einzelnen Erkennungsergebnisse 11, 12 und 13 nach Stichwörtern durchführen, die speziell in ihrem Datenbestand vertreten sind.
In Fernsehprogrammen werden einzelne Rubriken bei den einzelnen Sendern unterschied­ lich bezeichnet. So könnte z. B. bei einem Sender die Rubrik "Kinderfilme" bei einem an­ deren Sender mit Trickfilmen bezeichnet werden. Sagt ein Benutzer nun, daß er einen Trickfilm sehen möchte, wird diese Spracheingabe von dem zugeordneten Spracherkenner erkannt und in der entsprechenden Datenbank ähnlich interpretiert, so daß dem Benutzer letztendlich von beiden Sendern die als Trick- oder Kinderfilme bezeichneten Filme ange­ zeigt werden.
In Fig. 4 ist eine Anordnung dargestellt, bei der die Datenbänke 14-16 in die Spracher­ kenner 7-9 integriert sind. Bei kleinerer Datenbeständen ist es möglich die Datenbänke 14-16 in den jeweiligen Spracherkenner 7-9 zu integrieren. Außerdem ist hier dargestellt, die Verbindung der einzelnen Werbebanner 19-21 mit den dazugehörigen Interpretations­ ergebnissen 22-24 mit den dazugehörigen Datenbanken 14-16 bidirektional zu gestalten. Es ist möglich, daß eine Antwort auf eine Anfrage in einer der Datenbank 14-1 G so um­ fangreich ist, daß eine Darstellung des Interpretationsergenisses 22-24 auf dem Client nicht sinnvoll ist. In einem solchen Fall wird beispielsweise nur die Anzahl der gefundenen Antworten auf die Spracheingabe zum Client zurückgesendet und dargestellt. Wenn der Benutzer nun die Interpretationsergebnisse 21 der Firma mit beispielsweise Werbebanner 19 sehen möchte, kann er diese anfordern und von der Datenbank 14 abrufen. Diese werden dann auf dem Client 2 dargestellt.

Claims (8)

1. Verfahren bei dem eine eine Spracheingabe ermöglichende Informationseinheit (3) auf einem Server (1) gespeichert und von einem Client (2) abrufbar ist und der Client (2) per Kommunikationsnetzwerk (6) mit mehreren Spracherkennern (7-9) koppelbar ist und eine Spracheingabe eines Benutzers wenigstens einem Spracherkenner (7-9) zur Erzeugung eines Erkennungsergebnisses (11-13) zugeführt wird und das Erkennungsergebnis (11-13) in mehreren unabhängigen Prozessen interpretiert wird und mehrere Interpretationsergebnisse (22-24) erzeugt werden, die an den Benutzer ausgegeben werden.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Interpretationsergebnisse (22-24) an den Client (2) automatisch zurückgesendet oder von diesem abgerufen werden.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß die Spracheingabe mehreren Spracherkennern (7-9) parallel zur Erzeugung von Erkennungsergebnissen (11-13) zugeführt wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß auf dem Client (2) eine Zusatzsoftware zur Extraktion von Merkmalen der Spracheingabe ausgeführt wird und dem/den zugeordneten Spracherkenner(n) (7-9) die extrahierten Merkmale zugeführt werden.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Informationseinheit (3) als HTML-Seite (3) realisiert ist und sich auf einer HTML-Seite (3) mehrere Objekte (19-21) befinden, die eine Spracheingabe ermöglichen, wobei jedes Objekt (19-21) mit einem Spracherkenner (7-9) verknüpft ist.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß den Objekten (19-21) vom Server (1) eine Zusatzinformation (4) zur Verknüpfung der Objekte (19-21) mit jeweils einem der Spracherkenner (7-9) zugewiesen wird.
7. Verfahren nach einem oder mehreren der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß eine Spracheingabe oder das Erkennungsergebnis (11-13) in einem Speicher (25) zwischengespeichert werden, um mehrere Interpretationsprozesse auf der Basis der zwischengespeicherten Daten nacheinander vorzunehmen.
8. Server (1), auf dem eine eine Spracheingabe ermöglichende Informationseinheit (3) gespeichert ist, die von einem Client (2) abrufbar ist, wobei vorgesehen ist,
  • - daß der Client (2) mit einem oder mehreren Spracherkennern (7-9) zur Erzeugung von mehreren einem Benutzer ausgegebenen Interpretationsergebnissen (11-13) koppelbar ist und
  • - eine Spracheingabe wenigstens einem Spracherkenner (7-9) zur Erzeugung von Erkennungsergebnissen (11-13) zuzuführen und die Erkennungsergebnisse (11-13) in mehreren unabhängigen Prozessen zu interpretieren und
  • - daß zur Bestimmung einer Verknüpfung von einem eine Spracheingabe ermöglichenden Objekt mit einem Spracherkenner (7-9) zur Erzeugung eines Erkennungsergebnisses (11-13) eine Zuweisung einer Zusatzinformation (4) zum Objekt (19-21) erfolgt.
DE19910234A 1999-03-09 1999-03-09 Verfahren mit mehreren Spracherkennern Withdrawn DE19910234A1 (de)

Priority Applications (7)

Application Number Priority Date Filing Date Title
DE19910234A DE19910234A1 (de) 1999-03-09 1999-03-09 Verfahren mit mehreren Spracherkennern
PCT/EP2000/001145 WO2000054252A2 (en) 1999-03-09 2000-02-10 Method with a plurality of speech recognizers
EP00905058A EP1163660A2 (de) 1999-03-09 2000-02-10 Mehrere spracherkenner verwendendes verfahren
JP2000604400A JP2002539481A (ja) 1999-03-09 2000-02-10 複数の音声認識器を用いる方法
CN00807383.XA CN1350685A (zh) 1999-03-09 2000-02-10 采用多个语音识别器的方法
AU26721/00A AU2672100A (en) 1999-03-09 2000-02-10 Method with a plurality of speech recognizers
KR1020017011408A KR20010108330A (ko) 1999-03-09 2000-02-10 복수의 음성 인식자를 구비한 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19910234A DE19910234A1 (de) 1999-03-09 1999-03-09 Verfahren mit mehreren Spracherkennern

Publications (1)

Publication Number Publication Date
DE19910234A1 true DE19910234A1 (de) 2000-09-21

Family

ID=7900178

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19910234A Withdrawn DE19910234A1 (de) 1999-03-09 1999-03-09 Verfahren mit mehreren Spracherkennern

Country Status (7)

Country Link
EP (1) EP1163660A2 (de)
JP (1) JP2002539481A (de)
KR (1) KR20010108330A (de)
CN (1) CN1350685A (de)
AU (1) AU2672100A (de)
DE (1) DE19910234A1 (de)
WO (1) WO2000054252A2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10339973A1 (de) * 2003-08-29 2005-03-17 Daimlerchrysler Ag Intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002103675A1 (en) * 2001-06-19 2002-12-27 Intel Corporation Client-server based distributed speech recognition system architecture
US7133829B2 (en) 2001-10-31 2006-11-07 Dictaphone Corporation Dynamic insertion of a speech recognition engine within a distributed speech recognition system
US7146321B2 (en) 2001-10-31 2006-12-05 Dictaphone Corporation Distributed speech recognition system
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US7236931B2 (en) 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7292975B2 (en) 2002-05-01 2007-11-06 Nuance Communications, Inc. Systems and methods for evaluating speaker suitability for automatic speech recognition aided transcription
KR100723404B1 (ko) * 2005-03-29 2007-05-30 삼성전자주식회사 음성 인식 및 반응을 위한 음성 처리 장치와 방법
US8775189B2 (en) * 2005-08-09 2014-07-08 Nuance Communications, Inc. Control center for a voice controlled wireless communication device system
US9152982B2 (en) 2005-08-19 2015-10-06 Nuance Communications, Inc. Method of compensating a provider for advertisements displayed on a mobile phone
US8032372B1 (en) 2005-09-13 2011-10-04 Escription, Inc. Dictation selection
DE102006029755A1 (de) * 2006-06-27 2008-01-03 Deutsche Telekom Ag Verfahren und Vorrichtung zur natürlichsprachlichen Erkennung einer Sprachäußerung
CN101853253A (zh) * 2009-03-30 2010-10-06 三星电子株式会社 在移动终端中管理多媒体内容的设备和方法
US8930179B2 (en) * 2009-06-04 2015-01-06 Microsoft Corporation Recognition using re-recognition and statistical classification
CN107767872A (zh) * 2017-10-13 2018-03-06 深圳市汉普电子技术开发有限公司 语音识别方法、终端设备及存储介质
CN108573707B (zh) * 2017-12-27 2020-11-03 北京金山云网络技术有限公司 一种语音识别结果的处理方法、装置、设备及介质
EP3716267B1 (de) 2018-03-07 2023-04-12 Google LLC Erleichterung der ende-zu-ende-kommunikation mit automatisierten assistenten in mehreren sprachen
US11354521B2 (en) 2018-03-07 2022-06-07 Google Llc Facilitating communications with automated assistants in multiple languages

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0830960B2 (ja) * 1988-12-06 1996-03-27 日本電気株式会社 高速音声認識装置
JP3265701B2 (ja) * 1993-04-20 2002-03-18 富士通株式会社 多判定器によるパターン認識装置
JPH10177469A (ja) * 1996-12-16 1998-06-30 Casio Comput Co Ltd 移動端末音声認識/データベース検索/リソースアクセス通信システム
JPH10214258A (ja) * 1997-01-28 1998-08-11 Victor Co Of Japan Ltd データ処理システム
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
GB2323693B (en) * 1997-03-27 2001-09-26 Forum Technology Ltd Speech to text conversion
US6078886A (en) * 1997-04-14 2000-06-20 At&T Corporation System and method for providing remote automatic speech recognition services via a packet network
JP3767091B2 (ja) * 1997-06-12 2006-04-19 富士通株式会社 画面対話処理装置
JPH1145271A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 検索条件の入力方法およびその方法の各工程をコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10339973A1 (de) * 2003-08-29 2005-03-17 Daimlerchrysler Ag Intelligentes akustisches Mikrofon-Frontend mit Spracherkenner-Feedback
US7505901B2 (en) 2003-08-29 2009-03-17 Daimler Ag Intelligent acoustic microphone fronted with speech recognizing feedback

Also Published As

Publication number Publication date
WO2000054252A2 (en) 2000-09-14
CN1350685A (zh) 2002-05-22
JP2002539481A (ja) 2002-11-19
AU2672100A (en) 2000-09-28
EP1163660A2 (de) 2001-12-19
WO2000054252A3 (en) 2000-12-28
KR20010108330A (ko) 2001-12-07

Similar Documents

Publication Publication Date Title
DE19910234A1 (de) Verfahren mit mehreren Spracherkennern
DE60007620T2 (de) Spracherkennungsverfahren
DE69814114T2 (de) Natürliche sprache verstehendes verfahren und verstehende vorrichung zur sprachsteuerung einer anwendung
DE60015531T2 (de) Client-server spracherkennungssystem
DE102013003055A1 (de) Verfahren und Vorrichtung zum Durchführen von Suchen in natürlicher Sprache
EP1361739A1 (de) Verfahren und System zur Verarbeitung von Sprachdaten mit vorausgehender Erkennung der Sprache
DE60202847T2 (de) Abfragesystem in natürlicher sprache für den zugriff auf ein informationssystem
DE10323444A1 (de) Verfahren und Vorrichtung zum Kategorisieren und Darstellen von Dokumenten einer verteilten Datenbank
DE60123153T2 (de) Sprachgesteuertes Browsersystem
DE19706419A1 (de) Verfahren und Vorrichtung zur Steuerung von Prozessen unter Verwendung einer Technologie zur maschinellen Sprachverarbeitung
EP1361737A1 (de) Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE60214850T2 (de) Für eine benutzergruppe spezifisches musterverarbeitungssystem
WO2001013362A1 (de) Verfahren zur unterstützung eines dialogs
EP1361738A1 (de) Verfahren und System zur Verarbeitung von Sprachdaten mittels Spracherkennung und Frequenzanalyse
DE60125597T2 (de) Vorrichtung für die Dienstleistungsvermittlung
DE10325998A1 (de) Verfahren zum Optimieren eines auf eine erste Netzwerkseite verweisenden Verweises
DE60201907T2 (de) Darstellung einer komprimierten liste für sprachgesteuerte benutzerschnittstellen
DE19930407A1 (de) Verfahren zur sprachbasierten Navigation in einem Kommunikationsnetzwerk und zur Implementierung einer Spracheingabemöglichkeit in private Informationseinheiten
EP1363271A1 (de) Verfahren und System zur Verarbeitung und Speicherung von Sprachinformationen eines Dialogs
EP1094405A2 (de) Verfahren zum Erzeugen einer dynamischen Auswahlmaske für den Abruf von Daten aus einer Datenbank
DE10127852A1 (de) Verfahren zur Erkennung von Sprachinformationen
EP3531300A1 (de) Computerimplementiertes verfahren zum beschaffen von informationen
EP3570189B1 (de) Computerimplementiertes verfahren zum bereitstellen eines adaptiven dialogsystems und ein adaptives dialogsystem
DE10160920B4 (de) Verfahren und Vorrichtung zur Erzeugung eines Extrakts von Dokumenten
DE102005037505B4 (de) Netzwerk

Legal Events

Date Code Title Description
8127 New person/name/address of the applicant

Owner name: PHILIPS INTELLECTUAL PROPERTY & STANDARDS GMBH, 20

8127 New person/name/address of the applicant

Owner name: SCANSOFT, INC. (N.D.GES.D. STAATES DELAWARE), PEAB

8139 Disposal/non-payment of the annual fee