DE102015106280A1

DE102015106280A1 - Systeme und Verfahren zum Kompensieren von Sprachartefakten in Spracherkennungssystemen

Info

Publication number: DE102015106280A1
Application number: DE102015106280.1A
Authority: DE
Inventors: Cody Hansen; Timothy Grost; Ute Winter
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2014-04-25
Filing date: 2015-04-23
Publication date: 2015-10-29
Anticipated expiration: 2035-04-24
Also published as: US20150310853A1; DE102015106280B4; CN105047196A; CN105047196B

Abstract

Ein Verfahren zur Spracherkennung umfasst das Generieren einer Sprachaufforderung, das Empfangen einer gesprochenen Äußerung von einem Benutzer als Antwort auf die Sprachaufforderung, wobei die gesprochene Äußerung ein Sprachartefakt umfasst, und das Kompensieren des Sprachartefakts. Das Kompensieren des Sprachartefakts kann beispielsweise das Verwenden einer Erkennungsgrammatik, die das Sprachartefakt als Sprachkomponente umfasst, oder das Ändern der gesprochenen Äußerung umfassen, um das Sprachartefakt zu eliminieren.

Description

TECHNISCHES GEBIET
Das technische Gebiet betrifft im Allgemeinen Sprachsysteme und betrifft genauer gesagt Verfahren und Systeme zum Verbessern der Spracherkennung in Gegenwart von Sprachartefakten.
HINTERGRUND
Fahrzeugsysteme mit gesprochenen Dialogen (bzw. „Sprachsysteme”) führen unter anderem eine Spracherkennung basierend auf der Sprache aus, die von den Insassen eines Fahrzeugs geäußert wird. Die Sprachäußerungen umfassen typischerweise Befehle, die mit einem Bedienelement oder einem oder mehreren Merkmalen des Fahrzeugs sowie mit anderen Systemen, die für das Fahrzeug zugänglich sind, kommunizieren. Ein Sprachsystem generiert gesprochene Befehle als Antwort auf die Sprachäußerungen, und in manchen Fällen werden die gesprochenen Befehle als Reaktion darauf generiert, dass das Sprachsystem weitere Informationen benötigt, um die Spracherkennung auszuführen.
Bei vielen Spracherkennungssystemen wird einem Benutzer eine Aufforderung bereitgestellt, die von einem Sprachgenerierungssystem generiert wird, das in dem Fahrzeug bereitgestellt wird. Bei derartigen Systemen (z.B. „hineinsprechenden” Stimmsystemen) kann der Benutzer in Situationen, in denen das System nicht schnell genug ist, um seine Sprachausgabe abzuschalten, während einer Aufforderung mit dem Sprechen beginnen. Demnach sprechen kurzfristig beide. Der Benutzer kann dann aufhören zu sprechen und entweder fortfahren oder wiederholen, was er zuvor gesagt hat. Im letzteren Fall kann die gesprochene Äußerung von dem Benutzer ein Sprachartefakt umfassen (in diesem Fall einen so genannten „Stotter-” Effekt) zu Beginn der Äußerung, wodurch der Stimmbefehl des Benutzers schwierig oder unmöglich zu deuten ist. Derartige Fehler reduzieren die Erkennungsgenauigkeit und die Benutzerzufriedenheit und können auch das Ablenkungsniveau des Fahrers erhöhen.
Entsprechend ist es wünschenswert, verbesserte Verfahren und Systeme zum Verbessern der Spracherkennung in Gegenwart von Sprachartefakten bereitzustellen. Ferner werden andere wünschenswerte Merkmale und Kennzeichen der vorliegenden Erfindung aus der nachstehenden ausführlichen Beschreibung und den beiliegenden Ansprüchen zusammen mit den beiliegenden Zeichnungen und dem vorstehenden technischen Gebiet und Hintergrund gesehen hervorgehen.
KURZDARSTELLUNG
Ein Verfahren zur Spracherkennung gemäß einer Ausführungsform umfasst das Generieren einer Sprachaufforderung, das Empfangen einer gesprochenen Äußerung von einem Benutzer als Antwort auf die Sprachaufforderung und das Kompensieren des Sprachartefakts.
Ein Spracherkennungssystem gemäß einer Ausführungsform umfasst ein Sprachgenerierungsmodul, das konfiguriert ist, um eine Sprachaufforderung für einen Benutzer zu generieren, und ein Sprachverständnissystem, das konfiguriert ist, um eine gesprochene Äußerung, die ein Sprachartefakt umfasst, von einem Benutzer als Antwort auf die Sprachaufforderung zu empfangen und das Sprachartefakt zu kompensieren.
BESCHREIBUNG DER ZEICHNUNGEN
Die beispielhaften Ausführungsformen werden nachstehend in Verbindung mit den folgenden Zeichnungsfiguren beschrieben, wobei die gleichen Bezugszeichen die gleichen Elemente bezeichnen. Es zeigen:
1 ein Funktionsblockdiagramm eines Fahrzeugs, das ein Sprachsystem umfasst, gemäß diversen Ausführungsbeispielen.
2 ein konzeptuelles Diagramm, das eine generierte Sprachaufforderung und eine sich ergebende gesprochene Äußerung gemäß diversen Ausführungsbeispielen abbildet.
3 ein konzeptuelles Diagramm, das die Kompensation eines Sprachartefakts für eine generierte Sprachaufforderung und eine sich ergebende gesprochene Äußerung gemäß diversen Ausführungsbeispielen abbildet.
4 ein konzeptuelles Diagramm, das die Kompensation eines Sprachartefakts für eine generierte Sprachaufforderung und eine sich ergebende gesprochene Äußerung gemäß diversen Ausführungsbeispielen abbildet.
5 ein konzeptuelles Diagramm, das die Kompensation eines Sprachartefakts für eine generierte Sprachaufforderung und eine sich ergebende gesprochene Äußerung gemäß diversen Ausführungsbeispielen abbildet.
6 ein konzeptuelles Diagramm, das die Kompensation eines Sprachartefakts für eine generierte Sprachaufforderung und eine sich ergebende gesprochene Äußerung gemäß diversen Ausführungsbeispielen abbildet.
7 bis 12 Ablaufschemata, die Verfahren zum Kompensieren von Sprachartefakten gemäß diversen Ausführungsformen abbilden.
AUSFÜHRLICHE BESCHREIBUNG
Der hier beschriebene Gegenstand betrifft im Allgemeinen Systeme und Verfahren zum Empfangen und Kompensieren einer gesprochenen Äußerung von der Art, die ein Sprachartefakt umfasst (wie etwa ein Stotter-Artefakt), die von einem Benutzer als Antwort auf eine Sprachaufforderung empfangen wird. Das Kompensieren des Sprachartefakts kann beispielsweise das Verwenden einer Erkennungsgrammatik, die das Sprachartefakt als Sprachkomponente umfasst, oder das Ändern der gesprochenen Äußerung auf diverse Art und Weise, um das Sprachartefakt zu eliminieren, umfassen.
Die nachstehende ausführliche Beschreibung ist rein beispielhafter Art und nicht dazu bestimmt, die Anwendung und Verwendungen einzuschränken. Ferner ist es nicht beabsichtigt, durch eine ausgedrückte oder bedingte Theorie gebunden zu sein, die in dem vorstehenden technischen Gebiet, dem Hintergrund, der Kurzdarstellung oder der nachstehenden ausführlichen Beschreibung vorgelegt wird. Wie er hier verwendet wird, bezieht sich der Begriff „Modul” auf eine anwendungsspezifische integrierte Schaltung (ASIC), eine elektronische Schaltung, einen Prozessor (geteilt, dediziert oder als Gruppe) und einen Speicher, der eines oder mehrere von Software- oder Firmware-Programmen ausführt, eine kombinatorische logische Schaltung und/oder andere geeignete Komponenten, welche die beschriebene Funktion bereitstellen.
Nun mit Bezug auf 1 wird gemäß den Ausführungsbeispielen des hier beschriebenen Gegenstandes ein System mit gesprochenen Dialogen (bzw. einfach ein „Sprachsystem”) 10 in einem Fahrzeug 12 bereitgestellt. Im Allgemeinen stellt das Sprachsystem 10 eine Spracherkennung, eine Dialogverwaltung und eine Sprachgenerierung für ein oder mehrere Fahrzeugsysteme über ein Mensch-Maschine-Schnittstellen-(HMI)Modul 14 bereit, das konfiguriert ist, um von einem oder mehreren Benutzern 40 (z.B. einem Fahrer, einem Beifahrer usw.) bedient zu werden (oder ansonsten eine Schnittstelle damit zu bilden). Derartige Fahrzeugsysteme können beispielsweise ein Telefonsystem 16, ein Navigationssystem 18, ein Mediensystem 20, ein Telematik-System 22, ein Netzwerksystem 24 und ein beliebiges anderes Fahrzeugsystem umfassen, das eine sprachabhängige Anwendung umfassen kann. Bei einigen Ausführungsformen ist bzw. sind ein oder mehrere der Fahrzeugsysteme kommunikationsmäßig mit einem Netzwerk (z.B. einem proprietären Netzwerk, einem 4G-Netzwerk oder dergleichen) gekoppelt, das eine Datenkommunikation mit einem oder mehreren Back-end-Servern 26 bereitstellt.
Eine oder mehrere mobile Vorrichtungen 50 könnten ebenfalls in dem Fahrzeug 12 vorliegen, umfassend ein oder mehrere Smartphones, Tablet-Computer, Feature-Phones usw. Die mobile Vorrichtung 50 kann auch kommunikationsmäßig mit der HMI 14 über eine geeignete drahtlose Verbindung (z.B. Bluetooth oder WiFi) gekoppelt sein, so dass eine oder mehrere Anwendungen, die auf der mobilen Vorrichtung 50 speicherresident sind, für den Benutzer 40 über die HMI 14 zugänglich sind. Somit hat ein Benutzer 40 typischerweise Zugriff auf Anwendungen, die auf drei unterschiedlichen Plattformen laufen: Anwendungen, die in den Fahrzeugsystemen selber ausgeführt werden, Anwendungen, die auf der mobilen Vorrichtung 50 installiert sind, und Anwendungen, die auf dem Back-end-Server 26 speicherresident sind. Ferner kann bzw. können eine oder mehrere dieser Anwendungen gemäß ihren eigenen jeweiligen gesprochenen Dialogsystemen funktionieren, und somit könnten mehrere Vorrichtungen mehr oder weniger in der Lage sein, auf eine Anfrage zu antworten, die von dem Benutzer 40 ausgesprochen wird.
Das Sprachsystem 10 kommuniziert mit den Fahrzeugsystemen 14, 16, 18, 20, 22, 24 und 26 über einen Kommunikationsbus und/oder ein anderes Datenkommunikationsnetzwerk 29 (z.B. drahtgebunden, Kurzstreckenfunk oder Langstreckenfunk. Der Kommunikationsbus kann beispielsweise ein Steuergerätenetz-(CAN)Bus, ein lokaler Zusammenschaltungsnetz-(LIN)Bus oder dergleichen sein. Es versteht sich, dass das Sprachsystem 10 in Verbindung sowohl mit fahrzeugbasierten Umgebungen als auch mit nicht fahrzeugbasierten Umgebungen verwendet werden kann, die eine oder mehrere sprachabhängige Anwendungen umfassen, und die hier bereitgestellten fahrzeugbasierten Beispiele werden ohne Verlust an Allgemeingültigkeit dargelegt.
Wie abgebildet, umfasst das Sprachsystem 10 ein Sprachverständnismodul 32, ein Dialogverwaltungsmodul 34 und ein Sprachgenerierungsmodul 35. Diese Funktionsmodule können als getrennte Systeme oder als ein kombiniertes, integriertes System umgesetzt werden. Im Allgemeinen empfängt das HMI-Modul 14 von dem Benutzer 40 ein akustisches Signal (bzw. eine „Sprachäußerung”) 41, das dem Sprachverständnismodul 32 bereitgestellt wird.
Das Sprachverständnismodul 32 umfasst eine beliebige Kombination von Hardware und/oder Software, die konfiguriert ist, um die Sprachäußerung von dem HMI-Modul 14 (die über ein oder mehrere Mikrofone 52 empfangen wird) unter Verwendung geeigneter Spracherkennungstechniken, einschließlich beispielsweise einer automatischen Spracherkennung und einer semantischen Decodierung (oder Verständnis für gesprochene Sprache (SLU)) zu verarbeiten. Unter Verwendung derartiger Techniken generiert das Sprachverständnismodul 32 eine Liste (oder mehrere Listen) 33 mit möglichen Ergebnissen aus der Sprachäußerung. Bei einer Ausführungsform umfasst die Liste 33 eine oder mehrere Satzhypothesen, die eine Wahrscheinlichkeitsverteilung über den Satz von Äußerungen darstellt bzw. darstellen, die der Benutzer 40 vielleicht ausgesprochen hat (d.h. Äußerung 41). Die Liste 33 könnte beispielsweise die Form einer N-Besten-Liste annehmen. Bei diversen Ausführungsformen generiert das Sprachverständnismodul 32 eine Liste 33 unter Verwendung vordefinierter Möglichkeiten, die in einem Datenbestand gespeichert sind. Beispielsweise könnten die vordefinierten Möglichkeiten Namen oder Zahlen sein, die in einem Telefonbuch gespeichert sind, Namen oder Adressen, die in einem Adressbuch gespeichert sind, Liedtitel, Alben oder Interpreten, die in einem Musikverzeichnis gespeichert sind, usw. Bei einer Ausführungsform verwendet das Sprachverständnismodul 32 eine vorgeschaltete Merkmalsextraktion, gefolgt von einem Hidden-Markov-Model (HMM) und einem Bewertungsmechanismus.
Das Sprachverständnismodul 32 umfasst auch ein Modul zum Kompensieren von Sprachartefakten 31, das konfiguriert ist, um zum Verbessern der Spracherkennung beizutragen, wie es nachstehend ausführlicher beschrieben wird. Bei einigen Ausführungsformen wird das Sprachverständnismodul 32 jedoch von einem beliebigen der diversen anderen Module, die in 1 abgebildet sind, umgesetzt.
Das Dialogverwaltungsmodul 34 umfasst eine beliebige Kombination von Hardware und/oder Software, die konfiguriert ist, um eine Interaktionssequenz und eine Auswahl von Sprachaufforderungen 42 zu verwalten, die dem Benutzer gesagt werden sollen, basierend auf der Liste 33. Wenn eine Liste 33 mehr als ein mögliches Ergebnis enthält, verwendet das Dialogverwaltungsmodul 34 Desambiguierungsstrategien, um einen Dialog von Aufforderungen mit dem Benutzer 40 zu verwalten, so dass ein erkanntes Ergebnis bestimmt werden kann. Gemäß den Ausführungsbeispielen ist das Dialogverwaltungsmodul 34 in der Lage, Dialogzusammenhänge zu verwalten, wie es nachstehend ausführlicher beschrieben wird.
Das Sprachgenerierungsmodul 35 umfasst eine beliebige Kombination von Hardware und/oder Software, die konfiguriert ist, um gesprochene Aufforderungen 42 für einen Benutzer 40 basierend auf dem Dialog zu generieren, der von dem Dialogverwaltungsmodul 34 bestimmt wird. In dieser Hinsicht stellt das Sprachgenerierungsmodul 35 im Allgemeinen eine natürliche Sprachgenerierung (NLG) und eine Sprachsynthese oder Text-Sprachumwandlung (TTS) bereit.
Die Liste 33 umfasst ein oder mehrere Elemente, das bzw. die ein mögliches Ergebnis darstellen. Bei diversen Ausführungsformen umfasst jedes Element der Liste 33 eine oder mehrere „Spalten”, die jeweils in Abhängigkeit von der Anwendung mit einer Spaltenart verknüpft sind. Falls beispielsweise die Anwendung das Tätigen von Anrufen an Telefonbuchkontakte (z.B. „Ruf Martin Müller an”) unterstützt, dann kann jedes Element Spalten mit den Spaltenarten eines Vornamens, eines zweiten Vornamens und/oder eines Nachnamens umfassen. Falls bei einem anderen Beispiel die Anwendung die Navigation unterstützt (z.B. „Fahre zur Königsallee 100”), dann kann jedes Element Spalten mit Spaltenarten einer Hausnummer und eines Straßennamens usw. umfassen. Bei diversen Ausführungsformen können die Spalten und Spaltenarten in einem Datenbestand gespeichert sein und für jedes der erläuterten Systeme zugänglich sein. Jedes Element bzw. jede Spalte der Liste 33 ist mit einer Vertrauensquote verknüpft.
Zusätzlich zu dem gesprochenen Dialog könnten die Benutzer 40 mit der HMI 14 auch über diverse Tasten, Schalter, Benutzerschnittstellenelemente mit Berührungsbildschirm, Gesten (z.B. Handgesten, die von einer oder mehreren Kameras erkannt werden, die in dem Fahrzeug 12 bereitgestellt wird bzw. werden) und dergleichen, interagieren. Bei einer Ausführungsform wird eine Taste 54 (z.B. eine „Wechselsprechtaste” oder einfach eine „Sprechtaste”) in bequemer Reichweite für einen oder mehrere Benutzer 40 bereitgestellt. Beispielsweise kann die Taste 54 in ein Lenkrad 56 eingebaut sein.
Wie zuvor erwähnt, kann der Benutzer in Fällen, bei denen das Sprachsystem 10 (z.B. über das Sprachgenerierungsmodul 35) eine Aufforderung für den Benutzer generiert, mit dem Sprechen beginnen und erwarten, dass die Aufforderung abgeschaltet wird. Wenn dies nicht schnell genug geschieht, kann sich der Benutzer aufregen und zeitweise die Äußerung anhalten, bevor er weiter spricht. Daher kann zu Beginn der Äußerung ein Sprachartefakt (ein „Stottern”) vorliegen, gefolgt von einer Pause und der tatsächlichen Äußerung. In einer anderen Situation schaltet das System die Aufforderung nicht ab. In diesem Fall hören die meisten Benutzer kurz danach auf zu sprechen, wobei sie ein unvollständiges Stotter-Artefakt hinterlassen, und wiederholen die Äußerung erst, nachdem die Aufforderung beendet ist. Dies führt zu zwei unabhängigen Äußerungen, von denen die erste ein Stottern oder eine unvollständige Äußerung ist. Je nach dem Systembetrieb kann dies als eine Äußerung mit einer sehr langen Pause oder als zwei Äußerungen behandelt werden.
Ein derartiger Fall ist in 2 abgebildet, die ein konzeptuelles Diagramm zeigt, das eine beispielhafte generierte Sprachaufforderung und eine gesprochene Äußerung (einschließlich eines Sprachartefakts), die sich daraus ergeben könnte, abbildet. Insbesondere wird ein generierter Dialog mit Sprachaufforderung (oder einfach („Aufforderungsdialog”) 200 als eine Reihe von gesprochenen Wörtern 201 bis 209 abgebildet (durch die schattierten Ovale dargestellt), und die sich ergebende generierte Wellenform der Sprachaufforderung (oder einfach „Aufforderungswellenform”) 210 ist schematisch unter den entsprechenden Wörtern 201 bis 209 abgebildet, wobei die waagerechte Achse der Zeit entspricht und die senkrechte Achse der Lautstärke entspricht. Ähnlich ist die gesprochene Äußerung vom Benutzer (als Antwort auf die Aufforderung) als Antwortdialog 250 abgebildet, der eine Reihe von gesprochenen Wörtern 251 bis 255 zusammen mit ihren dazugehörigen Wellenformen der gesprochenen Äußerungen 260 umfasst. In dieser Hinsicht versteht es sich, dass die Wellenformen 210 und 260, sowie eventuelle andere Wellenformen, die in den Figuren abgebildet sind, als rein schematische Darstellungen präsentiert werden können und nicht dazu gedacht sind, wörtliche Entsprechungen zwischen Wörtern und Lautstärke zu zeigen. Der Kürze halber können die Elemente 200 und 210 zusammen einfach als „Aufforderung” bezeichnet werden, und die Elemente 250 und 260 können einfach als „gesprochene Äußerung” bezeichnet werden.
Man nehme den Fall, bei dem der Aufforderungsdialog 200 in Zusammenhang mit der Audioanlage des Fahrzeugs generiert wird und dem Satz mit acht Wörtern „Sagen Sie 'Einstellen', gefolgt von Stationsnummer ... oder Titel” entspricht, so dass das Wort 201 „Sagen Sie” ist, das Wort 202 „Einstellen” ist, das Wort 203 „gefolgt” ist, usw. Wie es ersichtlich ist, ist der Zeitraum zwischen den Wörtern 207 und 208 („Nummer” und „oder”) lang genug (und vervollständigt einen semantisch vollständigen imperativen Satz), damit der Benutzer die Sprachäußerung nach dem Wort „Nummer” beginnen kann, statt darauf zu warten, dass die gesamte Aufforderung beendet ist. Die sich ergebende Zeit, die dem Zeitpunkt entspricht, an dem der Benutzer meint, dass er sprechen darf, kann als Übergangsrelevanzstelle (TRP) bezeichnet werden. Nehmen wir beispielsweise an, dass der Benutzer mit dem Satz „Einstellen auf Kanal neunundneunzig” antworten möchte. Zum Zeitpunkt 291, d.h. in der Mitte der Aufforderung (zwischen den Wörtern 207 und 208), könnte der Benutzer mit dem Satz beginnen, indem er das ganze Wort „Einstellen” (251) oder einen Teil davon ausspricht, nur um plötzlich mit dem Sprechen aufzuhören, wenn klar wird, dass die Aufforderung nicht beendet ist. Dann kann er kurz nach dem Zeitpunkt 292, und nachdem er die letzten Wörter 208 bis 209 („oder Titel”) gehört hat, wieder mit dem Sprechen beginnen. Somit entsprechen die Wörter 252 bis 255 dem gewünschten Satz „Einstellen auf Kanal neunundneunzig”. Wie zuvor erwähnt, wird diese Situation häufig als „Stottereffekt” bezeichnet, da die gesamte Wellenform 266 der Sprachäußerung von dem Benutzer das Wort „Einstellen” zweimal umfasst, an den Wörtern 251 und 252 – d.h. „Einstellen ... Einstellen auf Kanal neunundneunzig”. Das wiederholte Wort wird in der Wellenform 260 als Bezugszeichen 262 (das Sprachartefakt) und 264 (der eigentliche Beginn der beabsichtigten Äußerung) angegeben. Wie zuvor erwähnt, ist es für derzeit bekannte Spracherkennungssysteme schwierig oder gar unmöglich, eine gesprochene Äußerung wie bei 266 angegeben zu parsen und zu deuten, weil sie das Artefakt 262 umfasst.
Gemäß dem hier beschriebenen Gegenstand werden Systeme und Verfahren zum Empfangen und Kompensieren einer gesprochenen Äußerung von der Art, die ein Sprachartefakt umfasst, die von einem Benutzer als Antwort auf eine Sprachaufforderung empfangen wird, bereitgestellt. Das Kompensieren des Sprachartefakts kann beispielsweise das Verwenden einer Erkennungsgrammatik umfassen, die das Sprachartefakt als Sprachkomponente umfasst, oder das verschiedenartige Ändern der gesprochenen Äußerung (z.B. ein Zwischenspeicher für gesprochene Äußerungen, der die gespeicherte gesprochene Äußerung enthält), um das Sprachartefakt zu eliminieren und die Antwort basierend auf der geänderten gesprochenen Äußerung zu erkennen.
Im Allgemeinen und kurz mit Bezug auf das in 7 gezeigte Ablaufschema umfasst ein Verfahren 700 gemäß diversen Ausführungsformen das Generieren einer Sprachaufforderung (702), das Empfangen einer gesprochenen Äußerung von einem Benutzer als Antwort auf die Sprachaufforderung, wobei die gesprochene Äußerung ein Sprachartefakt (704) umfasst, und dann das Kompensieren dieses Sprachartefakts (706). In dieser Hinsicht zeigen die in 3 bis 6 gezeigten konzeptuellen Diagramme zusammen mit den jeweiligen in 8 bis 11 gezeigten Ablaufschemata vier Ausführungsbeispiele zum Umsetzen des Verfahrens aus 7. Jedes davon wird der Reihe nach beschrieben.
Zunächst mit Bezug auf 3 zusammen mit dem Ablaufschema von 8 verwendet das abgebildete Verfahren eine Erkennungsgrammatik, die das Sprachartefakt als Sprachkomponente umfasst. D.h. das Sprachverständnissystem 32 aus 1 (und/oder das Modul zum Kompensieren eines Sprachartefakts 31) umfasst die Möglichkeit, die Arten von Sätzen zu verstehen, die sich aus der Einführung von Sprachartefakten ergeben könnten. Dies kann beispielsweise durch die Verwendung eines statistischen Sprachmodells oder einer finiten Zustandsgrammatik erreicht werden, wie es in der Technik bekannt ist.
Zum Beispiel könnte die Erkennungsgrammatik Phonetik umfassen oder anderweitig konfiguriert sein, um Sätze zu verstehen, in denen das erste Wort zweimal vorkommt (z.B. „Einstellen Einstellen auf Kanal neunundneunzig”, „Suche Suche Tankstellen” und dergleichen). Wie in 3 abgebildet, wird somit die sich ergebende Wellenform 362 der gesprochenen Äußerung als Ganzes berücksichtigt, ohne irgendwelche Artefakte zu entfernen oder die Wellenform anderweitig zu verändern. Mit Bezug auf 8 umfasst ein Verfahren 800 gemäß dieser Ausführungsform im Allgemeinen das Bereitstellen einer Erkennungsgrammatik, die eine Vielzahl von Sprachartefakten als Sprachkomponenten (802) umfasst, das Generieren einer Sprachaufforderung (804), das Empfangen einer gesprochenen Äußerung, die ein Sprachartefakt (806) umfasst, und das Erkennen der gesprochenen Äußerung basierend auf der Erkennungsgrammatik (808). Bei einigen Ausführungsformen kann das System einen „ersten Durchgang” ohne die geänderte Grammatik versuchen (d.h. die Grammatik, die Sprachartefakte umfasst), und dann einen „zweiten Durchgang” vornehmen, falls bestimmt wird, dass die gesprochene Äußerung nicht erkannt werden konnte. Bei einer anderen Ausführungsform sind Wortteile als Teil der Erkennungsgrammatik enthalten (z.B. „ein”, „stellen”, „einstellen” usw.).
Mit Bezug auf 4 zusammen mit dem Ablaufschema aus 9 bildet das abgebildete Verfahren eine Ausführungsform ab, die das Ändern der gesprochenen Äußerung umfasst, um das Sprachartefakt zu eliminieren, indem ein Teil der gesprochenen Äußerung, der vor einer vorbestimmten Zeit vorkommt, mit Bezug auf das Ende der Sprachaufforderung (beispielsweise basierend auf der typischen Reaktionszeit eines Systems) eliminiert wird. Dies ist in 4 als ausgeblendeter (eliminierter) Bereich 462 der Wellenform 464 abgebildet. Mit anderen Worten geht das System bei dieser Ausführungsform davon aus, dass es nach einer vorbestimmten Zeit (z.B. 0 bis 250 ms) nach dem Ende (402) der Wellenform 210 reagiert hätte. Bei der abgebildeten Ausführungsform geht man davon aus, dass die gesprochene Äußerung an einem Zeitpunkt 404 (der nach einer vorbestimmten Zeit mit Bezug auf das Ende 402 vorkommt) statt dem Zeitpunkt 291, als der Benutzer tatsächlich zu sprechen anfing, beginnt. Um die „geänderte” Wellenform zu erzeugen (d.h. den Bereich 464 in 4), kann ein Zwischenspeicher oder ein anderer Speicher (z.B. ein Zwischenspeicher in dem Modul 31 aus 1), der eine Darstellung der Wellenform 260 enthält (z.B. eine digitale Darstellung), entsprechend geändert werden. Mit Bezug auf 9 umfasst dann ein Verfahren 900 gemäß dieser Ausführungsform im Allgemeinen das Generieren einer Sprachaufforderung (902), das Empfangen einer gesprochenen Äußerung, die ein Sprachartefakt (904) umfasst, das Eliminieren eines Teils der gesprochenen Äußerung, die mit Bezug auf das Ende der Sprachaufforderung (906) vor einem vorbestimmten Zeitpunkt vorkam, und das Erkennen der gesprochenen Äußerung basierend auf der geänderten gesprochenen Äußerung.
Mit Bezug auf 5 zusammen mit dem Ablaufschema aus 10 bildet das abgebildete Verfahren eine andere Ausführungsform ab, die das Ändern der gesprochenen Äußerung umfasst, um das Sprachartefakt zu eliminieren, indem ein Teil der gesprochenen Äußerung eliminiert wird, der einem Muster entspricht, das aus einem kurzen Sprachstoß gefolgt von wesentlicher Stille besteht. Dies ist in 5 abgebildet, die einen Teil 562 der Wellenform 260 zeigt, der einen Sprachstoß (565) gefolgt von einem Abschnitt wesentlicher Stille (566) umfasst. Die verbleibende geänderte Wellenform (Abschnitt 564) würde dann zur Erkennung verwendet. Das bestimmte Modell, das zum Ermitteln von Stoßmustern verwendet wird (z.B. Stoßstärke, Stoßlänge, Dauer der Stille usw.), kann empirisch (z.B. durch Testen mehrerer Benutzer) oder auf eine beliebige andere herkömmliche Art und Weise bestimmt werden. Dieser kurze Sprachstoß gefolgt von wesentlicher Stille würde auch nicht zu eventuell erwarteten Befehlen passen, die in der aktiven Grammatik oder dem SLM zu finden sind. Mit Bezug auf 10 umfasst ein Verfahren 1000 gemäß dieser Ausführungsform im Allgemeinen das Generieren einer Sprachaufforderung (1002), das Empfangen einer gesprochenen Äußerung, die ein Sprachartefakt (1004) umfasst, das Eliminieren eines Teils der gesprochenen Äußerung, der einem unerwarteten Muster entspricht, das aus einem kurzen Sprachstoß gefolgt von wesentlicher Stille (1006) besteht, und das Erkennen der gesprochenen Äußerung basierend auf der geänderten gesprochenen Äußerung (1008).
Nun mit Bezug auf 6 zusammen mit dem Ablaufschema aus 11 bildet das abgebildete Verfahren eine andere Ausführungsform ab, die das Ändern der gesprochenen Äußerung umfasst, um das Sprachartefakt zu eliminieren, indem ein Teil der gesprochenen Äußerung basierend auf einem Vergleich eines ersten Teils der gesprochenen Äußerung mit einem nachfolgenden Teil der gesprochenen Äußerung, der ähnlich wie der erste Teil ist, eliminiert wird. Mit anderen Worten bestimmt das System durch einen geeigneten Musterabgleichalgorithmus und einen Satz von Kriterien, dass ein vorhergehender Teil der Wellenform im Wesentlichen ähnlich wie ein nachfolgender (eventuell angrenzender) Teil ist, und dass der vorhergehende Teil zu eliminieren ist. Dies ist in 6 abgebildet, die einen Teil 662 der Wellenform 260 zeigt, der im Wesentlichen ähnlich wie ein nachfolgender Teil 666 ist (nach einem im Wesentlichen stillen Bereich 664). Der Musterabgleich kann beispielsweise durch herkömmliche Spracherkennungsalgorithmen ausgeführt werden, die konfiguriert sind, um eine neue akustische Sequenz mit mehreren vortrainierten akustischen Sequenzen abzugleichen, und die Ähnlichkeit mit jeder davon zu bestimmen. Die ähnlichste akustische Sequenz ist dann die wahrscheinlichste. Das System kann beispielsweise das Stotter-Artefakt betrachten und es mit dem Anfang der akustischen Äußerung nach der Pause abgleichen und eine Ähnlichkeitsquote bestimmen. Falls die Quote höher ist als eine Ähnlichkeitsschwelle, kann der erste Teil als ein Stottern des zweiten identifiziert werden. Einer der herkömmlichen Ansätze für die Spracherkennung umfasst das Nehmen der akustischen Äußerung, das Ausführen einer Merkmalsextraktion, z.B. durch MFCC (Mel-Frequenz-Cepstrum-Koeffizienten) und das Senden dieser Merkmale über ein Netz von HMM (Hidden-Markov-Modellen). Das Ergebnis ist eine n-Besten-Liste von Äußerungssequenzen mit Ähnlichkeitsquoten der akustischen Äußerung, die durch MFCC-Werte dargestellt sind, gegenüber Äußerungssequenzen aus dem HMM-Netz.
Mit Bezug auf 11 umfasst ein Verfahren 1100 gemäß dieser Ausführungsform im Allgemeinen das Generieren einer Sprachaufforderung (1102), das Empfangen einer gesprochenen Äußerung, die ein Sprachartefakt (1104) umfasst, das Eliminieren eines Teils der gesprochenen Äußerung basierend auf einem Vergleich eines ersten Teils der gesprochenen Äußerung mit einem nachfolgenden Teil der gesprochenen Äußerung, der ähnlich wie der erste Teil ist (1106), und das Erkennen der gesprochenen Äußerung basierend auf der geänderten gesprochenen Äußerung (1108).
Gemäß einigen Ausführungsformen können zwei oder mehrere der zuvor beschriebenen Verfahren zusammen verwendet werden, um Sprachartefakte zu kompensieren. Beispielsweise könnte ein System eine Erkennungsgrammatik umfassen, die das Sprachartefakt als Sprachkomponente umfasst, und gegebenenfalls die gesprochene Äußerung auf eine oder mehrere Arten ändern, die zuvor beschrieben wurden, um das Sprachartefakt zu eliminieren. Mit Bezug auf das in 12 abgebildete Ablaufschema wird nun ein derartiges Verfahren beschrieben. Anfänglich bei 1202 versucht das System, die Sprachäußerung zu erkennen, indem es eine normale Grammatik (d.h. eine Grammatik, die nicht konfiguriert ist, um Artefakte zu erkennen) verwendet. Falls die Sprachäußerung verstanden wird („Y”-Verzweigung des Entscheidungsblocks 1204), endet der Prozess (1216); ansonsten verwendet das System bei 1206 eine Grammatik, die konfiguriert ist, um Sprachartefakte zu erkennen. Falls die Sprachäußerung mit dieser geänderten Grammatik verstanden wird („Y”-Verzweigung des Entscheidungsblocks 1208), fährt das System mit 1216 fort, wie zuvor; ansonsten ändert das System bei 1210 die Sprachäußerung auf eine oder mehrere der zuvor beschriebenen Arten. Falls die geänderte Sprachäußerung erkannt wird („Y”-Verzweigung des Entscheidungsblocks 1212), endet der Prozess bei 1216. Falls die geänderte Sprachäußerung nicht erkannt wird („N”-Zweig des Entscheidungsblocks 1214), werden entsprechende Korrekturmaßnahmen getroffen. D.h. das System stellt zusätzliche Aufforderungen für den Benutzer bereit oder versucht anderweitig, eine erkennbare Sprachäußerung von dem Benutzer zu empfangen.
Beispiele
Beispiel 1. Ein Verfahren zur Spracherkennung, umfassend folgende Schritte:
Generieren einer Sprachaufforderung;
Empfangen einer gesprochenen Äußerung von einem Benutzer als Antwort auf die Sprachaufforderung, wobei die gesprochene Äußerung ein Sprachartefakt umfasst; und
Kompensieren des Sprachartefakts.
Beispiel 2. Das Verfahren nach Beispiel 1, wobei das Sprachartefakt ein Stotter-Artefakt ist.
Beispiel 3. Das Verfahren nach Beispiel 1 oder 2, wobei das Kompensieren des Sprachartefakts das Bereitstellen einer Erkennungsgrammatik umfasst, die das Sprachartefakt als Sprachkomponente umfasst.
Beispiel 4. Das Verfahren nach einem der Beispiele 1 bis 3, wobei das Kompensieren des Sprachartefakts das Ändern der gesprochenen Äußerung umfasst, um das Sprachartefakt zu eliminieren.
Beispiel 5. Das Verfahren nach Beispiel 4, wobei das Ändern der gesprochenen Äußerung das Eliminieren eines Teils der gesprochenen Äußerung umfasst, die mit Bezug auf das Ende der Sprachaufforderung vor einer vorbestimmten Zeit vorkam.
Beispiel 6. Das Verfahren nach Beispiel 4 oder 5, wobei das Ändern der gesprochenen Äußerung das Eliminieren eines Teils der gesprochenen Äußerung umfasst, der zu einem Muster passt, das aus einem kurzen Sprachstoß gefolgt von wesentlicher Stille besteht.
Beispiel 7. Das Verfahren nach einem der Beispiele 4 bis 6, wobei das Ändern der gesprochenen Äußerung das Eliminieren eines Teils der gesprochenen Äußerung umfasst, basierend auf einem Vergleich eines ersten Teils der gesprochenen Äußerung mit einem nachfolgenden Teil der gesprochenen Äußerung, der ähnlich wie der erste Teil ist.
Beispiel 8. Ein Spracherkennungssystem, umfassend:
ein Sprachgenerierungsmodul, das konfiguriert ist, um eine Sprachaufforderung für einen Benutzer zu generieren; und
ein Sprachverständnissystem, das konfiguriert ist, um eine Sprachaufforderung von einem Benutzer als Antwort auf die Sprachaufforderung zu empfangen, und konfiguriert ist, um das Sprachartefakt auszugleichen.
Beispiel 9. Das Spracherkennungssystem nach Beispiel 8, wobei das Sprachartefakt ein hineinsprechendes Stotter-Artefakt ist.
Beispiel 10. Das Spracherkennungssystem nach Beispiel 9, wobei das Sprachverständnissystem das Sprachartefakt durch Bereitstellen einer Erkennungsgrammatik, die das Sprachartefakt als Sprachkomponente umfasst, kompensiert.
Beispiel 11. Das Spracherkennungssystem nach einem der Beispiele 8 bis 10, wobei das Sprachverständnissystem das Sprachartefakt durch Ändern der gesprochenen Äußerung kompensiert, um das Sprachartefakt zu eliminieren.
Beispiel 12. Das Spracherkennungssystem nach Beispiel 11, wobei das Ändern der gesprochenen Äußerung das Eliminieren eines Teils der gesprochenen Äußerung umfasst, der mit Bezug auf das Ende der Sprachaufforderung vor einer vorbestimmten Zeit vorkam.
Beispiel 13. Das Spracherkennungssystem nach Beispiel 11 oder 12, wobei das Ändern der gesprochenen Äußerung das Eliminieren eines Teils der gesprochenen Äußerung umfasst, der zu einem Muster passt, das aus einem kurzen Sprachstoß gefolgt von wesentlicher Stille besteht.
Beispiel 14. Das Spracherkennungssystem nach einem der Beispiele 11 bis 13, wobei das Ändern der gesprochenen Äußerung das Eliminieren eines Teils der gesprochenen Äußerung umfasst, basierend auf einem Vergleich eines ersten Teils der gesprochenen Äußerung mit einem nachfolgenden Teil der gesprochenen Äußerung, der ähnlich wie der erste Teil ist.
Beispiel 15. Ein nicht vorübergehendes, computerlesbares Medium, das Software-Anweisungen trägt, die konfiguriert sind, um zu bewirken, dass ein Prozessor folgende Schritte ausführt:
Generieren einer Sprachaufforderung;
Empfangen einer gesprochenen Äußerung von einem Benutzer als Antwort auf die Sprachaufforderung, wobei die gesprochene Äußerung ein Sprachartefakt umfasst; und
Kompensieren des Sprachartefakts.
Beispiel 16. Das nicht vorübergehende, computerlesbare Medium nach Beispiel 15, wobei das Kompensieren des Sprachartefakts das Bereitstellen einer Erkennungsgrammatik umfasst, die das Sprachartefakt als Sprachkomponente umfasst.
Beispiel 17. Das nicht vorübergehende, computerlesbare Medium nach Beispiel 15 oder 16, wobei das Kompensieren des Sprachartefakts das Ändern der gesprochenen Äußerung umfasst, um das Sprachartefakt zu eliminieren.
Beispiel 18. Das nicht vorübergehende, computerlesbare Medium nach Beispiel 17, wobei das Ändern der gesprochenen Äußerung das Eliminieren eines Teils der gesprochenen Äußerung umfasst, die mit Bezug auf das Ende der Sprachaufforderung vor einer vorbestimmten Zeit vorkam.
Beispiel 19. Das nicht vorübergehende, computerlesbare Medium nach Beispiel 17 oder 18, wobei das Ändern der gesprochenen Äußerung das Eliminieren eines Teils der gesprochenen Äußerung umfasst, der zu einem Muster passt, das aus einem kurzen Sprachstoß gefolgt von wesentlicher Stille besteht.
Beispiel 20. Das nicht vorübergehende, computerlesbare Medium nach einem der Beispiele 17 bis 19, wobei das Ändern der gesprochenen Äußerung das Eliminieren eines Teils der gesprochenen Äußerung umfasst, basierend auf einem Vergleich eines ersten Teils der gesprochenen Äußerung mit einem nachfolgenden Teil der gesprochenen Äußerung, der ähnlich wie der erste Teil ist.
Obwohl mindestens ein Ausführungsbeispiel in der vorstehenden ausführlichen Beschreibung vorgelegt wurde, versteht es sich, dass es zahlreiche Variationen gibt. Es versteht sich ebenfalls, dass das Ausführungsbeispiel oder die Ausführungsbeispiele rein erläuternd sind und nicht dazu gedacht sind, den Umfang, die Anwendbarkeit oder die Konfiguration der Offenbarung auf irgendeine Art und Weise einzuschränken. Vielmehr wird die vorstehende ausführliche Beschreibung dem Fachmann eine praktische Anleitung bereitstellen, um das Ausführungsbeispiel oder die Ausführungsbeispiele umzusetzen. Es versteht sich, dass diverse Änderungen an der Funktion und Anordnung der Elemente vorgenommen werden können, ohne den Umfang der Offenbarung zu verlassen, wie er in den beiliegenden Ansprüchen und ihren rechtlichen Äquivalenten dargelegt wird.

Claims

Verfahren zur Spracherkennung, umfassend folgende Schritte: – Generieren einer Sprachaufforderung; – Empfangen einer gesprochenen Äußerung von einem Benutzer als Antwort auf die Sprachaufforderung, wobei die gesprochene Äußerung ein Sprachartefakt umfasst; und – Kompensieren des Sprachartefakts.
Verfahren nach Anspruch 1, wobei das Sprachartefakt ein Stotter-Artefakt ist.
Verfahren nach Anspruch 1 oder 2, wobei das Kompensieren des Sprachartefakts das Bereitstellen einer Erkennungsgrammatik umfasst, die das Sprachartefakt als Sprachkomponente umfasst.
Verfahren nach einem der Ansprüche 1 bis 3, wobei das Kompensieren des Sprachartefakts das Ändern der gesprochenen Äußerung umfasst, um das Sprachartefakt zu eliminieren.
Verfahren nach Anspruch 4, wobei das Ändern der gesprochenen Äußerung das Eliminieren eines Teils der gesprochenen Äußerung umfasst, die mit Bezug auf das Ende der Sprachaufforderung vor einer vorbestimmten Zeit vorkam.
Spracherkennungssystem, umfassend: – ein Sprachgenerierungsmodul, das konfiguriert ist, um eine Sprachaufforderung für einen Benutzer zu generieren; und – ein Sprachverständnissystem, das konfiguriert ist, um eine Sprachaufforderung von einem Benutzer als Antwort auf die Sprachaufforderung zu empfangen, wobei die gesprochene Äußerung ein Sprachartefakt umfasst, und konfiguriert ist, um das Sprachartefakt zu kompensieren.
Spracherkennungssystem nach Anspruch 6, wobei das Sprachartefakt ein hineinsprechendes Stotter-Artefakt ist.
Spracherkennungssystem nach Anspruch 6 oder 7, wobei das Sprachverständnissystem das Sprachartefakt durch Bereitstellen einer Erkennungsgrammatik, die das Sprachartefakt als Sprachkomponente umfasst, kompensiert.
Spracherkennungssystem nach einem der Ansprüche 6 bis 8, wobei das Sprachverständnissystem das Sprachartefakt durch Ändern der gesprochenen Äußerung kompensiert, um das Sprachartefakt zu eliminieren.
Spracherkennungssystem nach Anspruch 9, wobei das Ändern der gesprochenen Äußerung das Eliminieren eines Teils der gesprochenen Äußerung umfasst, der mit Bezug auf das Ende der Sprachaufforderung vor einer vorbestimmten Zeit vorkam.