DE102013216427A1 - Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung - Google Patents

Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung Download PDF

Info

Publication number
DE102013216427A1
DE102013216427A1 DE102013216427.0A DE102013216427A DE102013216427A1 DE 102013216427 A1 DE102013216427 A1 DE 102013216427A1 DE 102013216427 A DE102013216427 A DE 102013216427A DE 102013216427 A1 DE102013216427 A1 DE 102013216427A1
Authority
DE
Germany
Prior art keywords
speech signal
association
user
speech
corrected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102013216427.0A
Other languages
English (en)
Other versions
DE102013216427B4 (de
Inventor
Karsten Knebel
Wolfgang Haberl
Martin Wöllmer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bayerische Motoren Werke AG
Original Assignee
Bayerische Motoren Werke AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bayerische Motoren Werke AG filed Critical Bayerische Motoren Werke AG
Priority to DE102013216427.0A priority Critical patent/DE102013216427B4/de
Publication of DE102013216427A1 publication Critical patent/DE102013216427A1/de
Application granted granted Critical
Publication of DE102013216427B4 publication Critical patent/DE102013216427B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

Es werden eine Vorrichtung sowie ein Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung vorgeschlagen. Dabei wird ein Befehl von einem Anwender zur Korrektur eines mit einem Textbestandteil assoziierten Sprachsignals empfangen. Das vom Anwender gesprochene korrigierte Sprachsignal wird elektroakustisch gewandelt. Anschließend wird zumindest ein Teil des gewandelten Sprachsignals an einen stationären Server gesendet und dort mit dem Textbestandteil assoziiert. Anschließend wird die Assoziation bei der nachfolgenden Sprachsignalwandlung verwendet.

Description

  • Die vorliegende Erfindung betrifft eine Vorrichtung sowie ein Verfahren zur Fortbewegungsmittel-basierten Sprachverarbeitung. Insbesondere betrifft die vorliegende Erfindung Verbesserungen bei der Spracherkennung in Verbindung mit Phonemen, welche einem anderen Sprachraum als einem Sprachraum, für welchen das Sprachverarbeitungssystem konfiguriert ist, angehören.
  • Unter einer ”Sprachverarbeitung” wird im Zusammenhang mit der vorliegenden Erfindung eine Wandlung von gesprochener Sprache in maschinenlesbare Datenformate verstanden, wie sie als Sprachbefehle oder Spracheingaben interpretiert und beispielsweise als Text ausgegeben werden können. Auch der umgekehrte Fall, nämlich dass aus maschinenlesbaren Sinneinheiten akustische („gesprochene”) Sprache erzeugt wird, sei im Rahmen der vorliegenden Erfindung als ”Sprachverarbeitung” zu verstehen. Bei den Sprachbediensystemen, wie sie z. B. in aktuellen Kraftfahrzeugen verfügbar sind, wird zwischen lokalen (Onboard)-Sprachbediensystemen und Server-basierten Sprachbediensystemen unterschieden. Vorteil von Onboard-Systemen ist ihre permanente Verfügbarkeit, da eine Datenkommunikation außerhalb des Fahrzeugs nicht erforderlich ist. Server-basierte Systeme sind hingegen leistungsfähiger, da hier eine erheblich höhere Rechenleistung und ein größerer, fest hinterlegter Wortschatz verfügbar sind. Dies bezieht sich sowohl auf Spracheingaben als auch auf Sprachausgaben. Ein Sprachbediensystem wird (speziell im Onboard-Fall) üblicherweise für eine bestimmte Sprache (z. B. die Muttersprache eines Anwenders) ausgelegt und lediglich im Bedarfsfall um wenige Worte in fremden Sprachen und solche mit abweichender Aussprache ergänzt. Um auch diese Worte erkennen und ausgeben zu können, nutzen Sprachbediensysteme sogenannte Phoneme, da die üblichen G2P-Algorithmen für die automatisierte Analyse der Aussprache fehlschlagen. Diese können als maschinenlesbare Lautschrift verstanden werden. Da im Fahrzeug der Speicherplatz jedoch stark begrenzt und kostspielig ist, werden derzeit nur wenige, sehr häufige benötigte Phoneme offline im Fahrzeug abgelegt. Alle anderen Worte werden in der Regel algorithmisch aus der Schriftform des jeweiligen Wortes abgeleitet und generiert. Dies ist jedoch nur für die jeweils gewählte (vorkonfigurierte) Sprache möglich. Folglich werden Fremdworte, die nicht als Phonem-String abgespeichert sind, auch automatisch abgeleitet, was zu fehlerhafter Erkennung oder Aussprache führt. Mit anderen Worten kann eine korrekte Assoziation eines gesprochenen Wortes bzw. eines Phonem-Strings und einer zugehörigen Bedeutung nicht hergestellt werden. Dieser ”Schlüssel” fehlt der Sprachverarbeitung für eine korrekte Wandlung des fraglichen Phonem-Strings. Von Fehlern abgesehen, leidet zudem der Komfort für den Anwender.
  • Erfindungsgemäß wird daher vorgeschlagen, die größere Speicherkapazität des Backends (z. B. Server und Rechner) zu nutzen, um die Sprachverarbeitung in hybriden Sprachbediensystemen zu verbessern. Im Backend kann eine umfassende Phonem-String-Datenbank für alle erdenklichen Sprachen und Namen (z. B. Personen), wichtige Punkte (Points of Interest, „POI”) etc. angelegt werden, so dass Backend-Sprachverarbeitungskomponenten alle Wörter korrekt erkennen und sprechen können. Damit das Onboard-System dieselbe Qualität bietet, können Phoneme dynamisch aus dem Backend in einen Cache im Fahrzeug kopiert werden. Wenn z. B. im Fahrzeug das Mobiltelefon-Adressbuch des Kunden ausgelesen wird, könnte das Onboard-Sprachbediensystem entsprechend schon die nötigen Phoneme für die Kontakte aus dem Backend in den Onboard-Cache kopieren. Ebenso könnten POI-Namen bei ihrer ersten Nutzung/Suche im Fahrzeug aus dem Backend in den Fahrzeug-Cache kopiert werden. Des Weiteren könnte die Backend-Datenbank mit Nutzer-Äußerungen aus den Fahrzeugen trainiert werden, um weitere Phoneme zu ”lernen”.
  • Es wird daher ein Verfahren zur Fortbewegungsmittel-basierten Sprachverarbeitung mit den folgenden Schritten vorgeschlagen: Zunächst wird ein Befehl von einem Anwender zur Korrektur eines mit einem Textbestandteil (bzw. ”Sinneinheit”) assoziierten Sprachsignals empfangen. Dies kann beispielsweise dann stattfinden, wenn ein Anwender mit einer bereits erfolgten Sprachausgabe (z. B. ein Name aus dem Adressbuch) nicht einverstanden ist. Der Befehl kann beispielsweise durch Betätigen eines Schalters oder Anwählen einer entsprechenden Option in einem Menü einer Mensch-Maschine-Schnittstelle (HMI) empfangen werden. Anschließend spricht der Anwender das korrigierte Sprachsignal, welches elektroakustisch gewandelt und in maschinenlesbaren Code gewandelt werden kann. Zumindest ein Teil des gewandelten Sprachsignals wird anschließend an einen stationären Server gesendet. Ein Teil des Sprachsignals kann beispielsweise ein Phonem-String sein, welcher in dem korrigierten Sprachsignal enthalten ist. Bevor der Teil des gewandelten Sprachsignals gesendet wird, kann er informationstechnisch aufbereitet werden, um Speicherplatz zu sparen und die Anwendbarkeit bei der Sprachverarbeitung zu erhöhen. Beispielsweise kann eine maschinenlesbare Lautschrift (G2P-Alorithmen) hierbei Verwendung finden. Anschließend wird das gesendete Sprachsignal mit dem Textbestandteil assoziiert. Dies kann beispielsweise im stationären Server erfolgen. Alternativ oder zusätzlich kann das Assoziieren bereits im Fortbewegungsmittel erfolgen. Danach wird die vorgenommene Assoziation bei der Sprachsignalwandlung verwendet. Dies kann beispielsweise im Ansprechen auf die Notwendigkeit erfolgen, dass ein Sprachverarbeitungssystem eine Sinneinheit auralisieren soll, für welche das gespeicherte korrigierte Sprachsignal assoziiert worden ist. Alternativ kann ein Sprachsignal eines Anwenders erneut das korrigierte Sprachsignal enthalten, wobei das Sprachverarbeitungssystem die enthaltene Sinneinheit anhand des assoziierten korrigierten Sprachsignals besser erkennen kann. Auf diese Weise werden Fehlerkennungen und mangelnder Komfort bei der Sprachverarbeitung verringert.
  • Die Unteransprüche betreffen bevorzugte Weiterbildungen der Erfindung, Bevorzugt kann die oben beschriebene erste Assoziation weiter eine Anwenderidentifikation umfassen, wobei entweder die Person des Anwender und/oder das von ihm verwendete Sprachverarbeitungssystem identifiziert wird. Auf diese Weise trägt die vom Anwender vorgenommene Assoziation einen Hinweis darauf, dass (zumindest) dieser Anwender das korrigierte Sprachsignal gegenüber einem zuvor verwendeten Sprachsignal bevorzugt. Einerseits kann auf diese Weise sichergestellt werden, dass bei der Sprachverarbeitung für den Anwender das korrigierte Sprachsignal bevorzugt verwendet wird. Andererseits können weitere Anwender anhand vordefinierter Eigenschaften (bzw. Ähnlichkeiten) ebenfalls das korrigierte Sprachsignal verwenden, sofern vorbestimmte Eigenschaften des Anwenders gegeben sind. Beispielsweise kann die Herkunft eines Anwenders, sein überwiegender Aufenthaltsort o. Ä. ausgewertet werden, und, sofern ein zweiter Anwender ähnliche Eigenschaften aufweist, das korrigierte Sprachsignal mit einer höheren Wahrscheinlichkeit auch bei einer Sprachverarbeitung für den zweiten Anwender Verwendung finden. Auf diese Weise wird eine stetige Verbesserung der Sprachverarbeitung mit reduzierten Lernvorgängen ermöglicht.
  • Weiter bevorzugt umfasst die erste Assoziation weiter eine Zuordnung einer aktuellen geographischen Position des Fortbewegungsmittels. Mit anderen Worten kann ein während der Korrektur des Sprachsignals bereister Ort dahingehend Berücksichtigung finden, dass er in irgendeiner Form in der Assoziation zwischen der Sinneinheit und dem korrigierten Sprachsignal gespeichert wird. Sofern das korrigierte Sprachsignal beispielsweise ein Städtename, ein Straßenname, ein POI o. Ä. ist, kann auf diese Weise eine Wahrscheinlichkeit einer Verwendung des korrigierten Sprachsignals für den Fall erhöht werden, dass der Anwender erneut an dieser Position die Sprachverarbeitung bedient oder zweite Anwender an derselben geographischen Position die Sprachverarbeitung verwenden. Dies verringert die Anzahl erforderlicher Lernvorgänge und stellt den Vorteil des korrigierten Sprachsignals auch anderen Anwendern zur Verfügung.
  • In einer vorteilhaften Ausgestaltung vergleicht das Verfahren die erste Assoziation mit einer von einem zweiten Anwender erhaltenen zweiten Assoziation und verändert eine Gewichtung für eine Verwendung der ersten Assoziation mit weiteren Anwendern im Ansprechen auf ein Ergebnis des Vergleichens. Dieser Aspekt könnte als ”Crowd-Sourcing-Aspekt” der vorliegenden Erfindung verstanden werden. Er führt dazu, dass in Abhängigkeit der Anzahl unterschiedliche Anwender, welche eine identische oder ähnliche Sprachsignalkorrektur vornehmen, die Wahrscheinlichkeit erhöht wird, das korrigierte Sprachsignal auch für die Sprachverarbeitung im Auftrag weiterer Anwender zu verwenden. Auf diese Weise wird nach dem Prinzip der ”Intelligenz der Masse” sichergestellt, dass eine rasche und grundlegende Verbesserung der Sprachverarbeitung erfolgen kann. Zusätzlich kann hierbei eine jeweilige geographische Position der Fortbewegungsmittel zum Zeitpunkt der Korrektur des jeweiligen Sprachsignals berücksichtigt werden und bei einem Übereinstimmen der geographischen Position die Gewichtung erhöht werden, um auch bei lediglich lokal auftretenden Inkongruenzen zwischen korrektem und bislang vordefinierten Sprachsignal der Sprachverarbeitung rasch Verbesserungen der Sprachverarbeitung herbeizuführen.
  • Weiter bevorzugt repräsentiert das Vergleichsergebnis zwischen einer ersten Assoziation und einer zweiten Assoziation ein vordefiniertes Maß an Übereinstimmung zwischen dem jeweiligen Textbestandteil und/oder dem jeweiligen korrigierten Sprachsignal. Je ähnlicher die Textbestandteile bzw. die korrigierten Sprachsignale einander sind, desto stärker kann die Gewichtung angehoben werden, da sich die Korrektur mit einer hohen Wahrscheinlichkeit auf dieselbe Assoziation bezieht.
  • Wie eingangs angemerkt, kann der Textbestandteil, dessen zugeordnetes Sprachsignal zu korrigieren ist, einem außerhalb eines für die Sprachverarbeitung vordefinierten Wortschatzes liegenden Wortschatz entstammen. Beispielsweise können französische Worte von für die deutsche Sprache konfigurierten Sprachverarbeitungssystemen oftmals nur schlecht bis gänzlich unverständlich wiedergegeben werden. Unter Verwendung der vorliegenden Erfindung wird in diesem Zusammenhang die Sprachverarbeitung deutlich verbessert, was die Funktionssicherheit und den Anwenderkomfort erhöht.
  • Bevorzugt kann das gewandelte Sprachsignal bereits im Fortbewegungsmittel mit dem Textbestandteil assoziiert werden. Bevorzugt kann, da es sich um einen anwenderspezifisch hergestellten Zusammenhang zwischen dem korrigierten Sprachsignal und dem Textbestandteil handelt, die Assoziation Fortbewegungsmitte-basiert gespeichert werden. Dies hat den Vorteil, dass unabhängig von einer Datenverbindung zu einem Server (z. B. bei einer Auslandsreise ohne Datenroaming) die Assoziation zur Sprachverarbeitung bereitsteht. In einer Ausgestaltung kann die erfindungsgemäße Verbesserung in einem Sprachbediensystem eines Fortbewegungsmittels Verwendung finden, um beispielsweise Navigationsausgaben korrekt klingen zu lassen. Auch andere Befehle und beispielsweise Namen, deren Telefonnummern angerufen werden, können auf diese Weise berücksichtigt und bei einer entsprechenden Sprachausgabe für einen Anwender angenehmer klingend auralisiert werden.
  • Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird eine Vorrichtung zur Sprachverarbeitung in einem Fortbewegungsmittel vorgeschlagen. Die Vorrichtung umfasst einen elektroakustischen Schallwandler, der als Lautsprecher und/oder Mikrophon ausgestaltet sein kann. Optional können auch ein Lautsprecher und ein Mikrophon als separate Bauteile vorgesehen sein. Zusätzlich umfasst die Vorrichtung eine Kommunikationseinrichtung, mittels welcher die Vorrichtung eingerichtet ist, mit einem stationären Server in Informationsaustausch zu treten. Zudem ist eine Verarbeitungseinrichtung vorgesehen, welche eingerichtet ist, in Verbindung mit dem Schallwandler bzw. den Schallwandlern und der Kommunikationseinrichtung ein Verfahren auszuführen, wie es in Verbindung mit dem erstgenannten Erfindungsaspekt im Detail beschrieben worden ist. Dabei kann die Vorrichtung fest im Fortbewegungsmittel integriert sein, so dass die Komponenten auch für weitere Funktionen des Fortbewegungsmittels verwendet werden können. Dies ermöglicht eine kostengünstige und bauraumoptimierte Realisierung der vorliegenden Erfindung.
  • Weitere Einzelheiten, Merkmale und Vorteile der Erfindung ergeben sich aus der nachfolgenden Beschreibung und den Figuren. Es zeigen:
  • 1 eine schematische Ansicht mehrerer Fahrzeug 2, welche im Informationsaustausch mit einem stationären Server stehen;
  • 2 eine schematische Detailansicht zu Komponenten eines Ausführungsbeispiels der vorliegenden Erfindung; und
  • 3 ein Flussdiagramm, veranschaulichend Schritte eines Ausführungsbeispiels eines erfindungsgemäßen Verfahrens.
  • 1 zeigt einen stationären Server 1, der zur Durchführung Server-basierter Sprachverarbeitung eingerichtet ist. Drei Fahrzeuge 2a, 2b, 2c als Fortbewegungsmittel sind eingerichtet, über eine Datenwolke 10 (z. B. das Internet) auf Sprachsignalen basierende Dateien an den Server 1 zu senden und von diesem erkannte Sinneinheiten zu empfangen. Erfindungsgemäß ist der stationäre Server 1 auch eingerichtet, von einem Anwender bereitgestellte korrigierte Sprachsignale zu empfangen und an einen anderen Anwender zu senden, um dessen Sprachverarbeitung zu optimieren.
  • 2 zeigt eine Detailansicht des stationären Servers 1, in welchem maschinenlesbare Textbestandteile T1, T2 mit jeweiligen Phonemen P1, P2 assoziiert sind. Die Phoneme P1, P2 sind jeweils mit einer Gewichtung W1, W2 assoziiert, welche für eine Wahrscheinlichkeit ihrer Verwendung steht. Ein Fahrzeug 2 ist über eine Datenwolke 10 (z. B. umfassend das Internet) mit dem stationären Server 1 verbunden. Innerhalb des Fahrzeugs 2 ist ein Cache 6 als Datenspeicher vorgesehen und mit einer Verarbeitungseinrichtung 7 verbunden. Zur Ausgabe von Sprachsignalen ist die Verarbeitungseinrichtung 7 mit einem Lautsprecher 4 verbunden. Zur Eingabe von Sprachsignalen ist ein Mikrofon 3 mit der Verarbeitungseinrichtung 7 verbunden. Eine Kommunikationseinrichtung 5 ermöglicht es der Verarbeitungseinrichtung 7, über eine Antenne 8 mit dem stationären Server 1 in Verbindung zu treten. Zur Veranschaulichung der Erfindung ist ein vom Lautsprecher 4 ausgegebener, mit einem ersten Textbestandteil T1 assoziierter Phonem-String P1 (durchgestrichen) von einem Anwender abgelehnt worden. Nach Auffassung des Anwenders ist die Auralisierung eines von ihm beabsichtigten Textbestandteils T1 also nicht zufriedenstellend durch die Sprachverarbeitung erfolgt. Über das Mikrofon 3 gibt der Anwender daher ein korrigiertes Sprachsignal P11 in die Sprachverarbeitung ein, im Ansprechen worauf diese neue Assoziation zwischen dem Textbestandteil T1 und dem korrigierten Sprachsignal P11 einerseits im Cache 6 abgespeichert, andererseits über die Kommunikationseinrichtung 5 an den stationären Server 1 gesendet und zusätzlich mit dem Textbestandteil T1 assoziiert wird. Dabei erhält das korrigierte Sprachsignal P11 eine eigene Gewichtung W11, welche eine Verwendungswahrscheinlichkeit gegenüber dem bereits assoziierten Sprachsignal P1 bestimmt. Zusätzlich ist das korrigierte Sprachsignal P11 mit einer geographischen Position G11 assoziiert und weist eine Anwenderidentifikation A11 auf. In Abhängigkeit der Anwenderidentifikation A11, der geographischen Position G11 und der Gewichtung W11 wird nachfolgend bestimmt, ob das assoziierte korrigierte Sprachsignal P11 in einem jeweiligen Anwendungsfall gegenüber dem vordefinierten Sprachsignal P1 bevorzugt zu verwenden ist. Hierbei kann berücksichtigt werden, wo sich ein auf die erste Assoziation zugreifendes Sprachverarbeitungssystem derzeit befindet und welche Eigenschaften sein Anwender aufweist.
  • 3 zeigt ein Flussdiagramm, veranschaulichend Schritte eines Ausführungsbeispiels eines erfindungsgemäßen Verfahrens. In Schritt 100 gibt ein Sprachverarbeitungssystem eine Sprachausgabe aus. Der Anwender ist der Auffassung, dass diese Sprachausgabe nicht akzeptabel ist. Er gibt daher in Schritt 200 einen Korrekturbefehl durch Drücken eines Knopfes, Sprechen eines Sprachkommandos oder durch Anwahl eines entsprechenden Anzeigeelementes auf einer MMI (Mensch-Maschine-Interface). Nach der Aufforderung zum Sprechen des korrigierten Sprachsignals wird in Schritt 300 das vom Anwender auralisierte korrigierte Sprachsignal gewandelt und dabei in ein maschinenlesbares Format gebracht. In Schritt 400 wird die gewandelte Datei an einen stationären Server gesendet und in Schritt 500 von diesem mit dem zugehörigen Textbestandteil assoziiert. Wie in 2 dargestellt, kann das Senden in Schritt 400 auch eine Übermittlung einer Anwenderidentifikation sowie einer geographischen Position des Fortbewegungsmittels umfassen. In Schritt 600 wird eine Gewichtung der Assoziation zwischen dem Textbestandteil und dem korrigierten Sprachsignal im Ansprechen auf die vom stationären Server empfangene neue Assoziation verändert. Dieser Schritt könnte als ”Crowd-Sourcing” bzw. als Anwenderanzahl-basierter Lernprozess beschrieben werden.
  • In Schritt 700 wird untersucht, ob eine entsprechende Assoziation bereits auf dem stationären Server vorhanden ist. Wird festgestellt, dass die Assoziation bereits vorhanden ist, wird in Schritt 700 die Gewichtung der vorhandenen Assoziation entsprechend erhöht. Anschließend wird in Schritt 800 die Assoziation im Cache des Fahrzeugs gespeichert, um für die Offline-Verwendung des Sprachverarbeitungssystems bereitgestellt werden zu können. Dabei kann auch eine Information vom stationären Server assoziiert werden, sofern beispielsweise mehrere Anwender eine korrespondierende Assoziation (z. B. auch mit ähnlichen geographischen Positionen und/oder ähnlichen Anwenderprofilen) zur Verfügung gestellt haben. Anschließend wird in Schritt 900 die erste Assoziation bei der Sprachausgabe sowie bei der Wandlung von Sprache in maschinenlesbare Formate verwendet.
  • Auf diese Weise wird das Fahrzeug befähigt, Fremdworte, ungewöhnliche Namen, Wichtige Punkte (POI) etc. korrekt auszusprechen und zu erkennen. Dies bedeutet eine deutliche Steigerung der Qualität des Sprachbediensystems bei der Sprachein- und -ausgabe. Gleichzeitig steigt der Speicherbedarf im Fahrzeug nur unwesentlich, da es möglich ist, lediglich die für den jeweiligen Kunden benötigten Phoneme ins Fahrzeug zu kopieren. Im Gegensatz zur Menge aller auf dem stationären Server verfügbaren Phoneme (Sprachsignale) ist der Umfang sehr gering und damit Speicherung onboard problemlos möglich. Durch den Zusatz, dass auch reale Nutzeräußerungen in die Backend-Datenbank eingepflegt werden, wächst der Wortschatz dieser Datenbank ständig und die Aussprache einzelner Worte wird durch reale Nutzer-Daten landesspezifisch weiter verfeinert. Somit ließen sich auch lokal geprägte Aussprachen (Dialekte) lernen.
  • Auch wenn die erfindungsgemäßen Aspekte und vorteilhaften Ausführungsformen anhand der in Verbindung mit den beigefügten Zeichnungsfiguren erläuterten Ausführungsbeispiele im Detail beschrieben worden sind, sind für den Fachmann Modifikationen und Kombinationen von Merkmalen der dargestellten Ausführungsbeispiele möglich, ohne den Bereich der vorliegenden Erfindung zu verlassen, deren Schutzbereich durch die beigefügten Ansprüche definiert wird.
  • Bezugszeichenliste
  • 1
    Stationärer Server
    2, 2a, 2b, 2c
    Fahrzeug
    3
    Mikrofon
    4
    Lautsprecher
    5
    Kommunikationseinrichtung
    6
    Cache
    7
    Verarbeitungseinrichtung
    8
    Antenne
    10
    Datenwolke
    100 bis 900
    Verfahrensschritte
    A11
    Anwenderidentifikation
    G11
    Geographische Position
    P1, P2
    Vordefiniertes Sprachsignal
    P11
    Korrigiertes Sprachsignal
    T1, T2
    Textbestandteil
    W1, W2, W11
    Gewichtung

Claims (10)

  1. Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung umfassend die Schritte: – Empfangen (200) eines Befehls von einem Anwender zur Korrektur eines mit einem Textbestandteil (T1) assoziierten Sprachsignals (P1), – Elektroakustisches Wandeln (300) eines vom Anwender gesprochenen korrigierten Sprachsignals (P11), – Senden (400) zumindest eines Teils des gewandelten Sprachsignals (P11) an einen stationären Server (1), – Assoziieren (500) des gesendeten Sprachsignals (P11) mit dem Textbestandteil (T1), und – Verwenden (900) dieser ersten Assoziation bei der Sprachsignalwandlung.
  2. Verfahren nach Anspruch 1, wobei die erste Assoziation weiter eine Anwenderidentifikation (A11) umfasst.
  3. Verfahren nach Anspruch 1 oder 2, wobei die erste Assoziation weiter eine Zuordnung einer aktuellen geographischen Position (G11) des Fortbewegungsmittels (2) umfasst.
  4. Verfahren nach einem der vorstehenden Ansprüche, weiter umfassend die Schritte – Vergleichen (700) der ersten Assoziation mit einer von einem zweiten Anwender erhaltenen zweiten Assoziation, und – Verändern (800) einer Gewichtung für eine Verwendung der ersten Assoziation mit weiteren Anwendern im Ansprechen auf ein Ergebnis des Vergleichens (700).
  5. Verfahren nach Anspruch 4, wobei das Vergleichsergebnis ein vordefiniertes Maß an Übereinstimmung zwischen dem jeweiligen Textbestandteil (T1) und dem jeweiligen korrigierten Sprachsignal (P11) repräsentiert.
  6. Verfahren nach einem der vorstehenden Ansprüche, wobei der Textbestandteil (T1) einem, insbesondere sprachlich und/oder geographisch, außerhalb eines für die Sprachverarbeitung vordefinierten Wortschatzes liegenden Wortschatz entstammt.
  7. Verfahren nach einem der vorstehenden Ansprüche, wobei das gewandelte Sprachsignal mit dem Textbestandteil (T1) assoziiert und fortbewegungsmittelbasiert gespeichert wird.
  8. Verfahren nach einem der vorstehenden Ansprüche, wobei das Verwenden (900) der ersten Assoziation ein Auralisieren des Textbestandteils (T1) und/oder ein Erkennen eines mit dem korrigierten Sprachsignal (P11) assoziierten Textbestandteils (T1) umfasst.
  9. Verfahren nach einem der vorstehenden Ansprüche, wobei die fortbewegungsmittelbasierte Sprachverarbeitung zur Wandlung gesprochener, an die Fahrzeugelektronik gerichteter Befehle eingerichtet ist.
  10. Vorrichtung zur Sprachverarbeitung in einem Fortbewegungsmittel (2, 2a, 2b, 2c) umfassend – einen elektroakustischen Schallwandler (3, 4), – eine Kommunikationseinrichtung (5), und – eine Verarbeitungseinrichtung (7), wobei die Vorrichtung eingerichtet ist, in Verbindung mit einem stationären Server (1) ein Verfahren gemäß einem der vorstehenden Ansprüche auszuführen.
DE102013216427.0A 2013-08-20 2013-08-20 Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung Active DE102013216427B4 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102013216427.0A DE102013216427B4 (de) 2013-08-20 2013-08-20 Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102013216427.0A DE102013216427B4 (de) 2013-08-20 2013-08-20 Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung

Publications (2)

Publication Number Publication Date
DE102013216427A1 true DE102013216427A1 (de) 2015-03-12
DE102013216427B4 DE102013216427B4 (de) 2023-02-02

Family

ID=52478409

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102013216427.0A Active DE102013216427B4 (de) 2013-08-20 2013-08-20 Vorrichtung und Verfahren zur fortbewegungsmittelbasierten Sprachverarbeitung

Country Status (1)

Country Link
DE (1) DE102013216427B4 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015213720A1 (de) * 2015-07-21 2017-01-26 Volkswagen Aktiengesellschaft Verfahren zum Erfassen einer Eingabe durch ein Spracherkennungssystem und Spracherkennungssystem

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3608497A1 (de) * 1986-03-14 1987-09-17 Standard Elektrik Lorenz Ag Verfahren fuer und einrichtung zum sprachgesteuerten bedienen eines fernmeldeendgeraetes
US20030125955A1 (en) * 2001-12-28 2003-07-03 Arnold James F. Method and apparatus for providing a dynamic speech-driven control and remote service access system
EP1463032A1 (de) * 2003-03-24 2004-09-29 Microsoft Corporation Verteilte Spracherkennung für mobile Kommunikationsgeräte
DE69922872T2 (de) * 1998-04-30 2005-12-29 Matsushita Electric Industrial Co., Ltd., Kadoma Automatischer Hotelportier mit Spracherkennung
DE69917112T2 (de) * 1998-03-27 2006-03-30 International Business Machines Corp. Erweiterung des Wortschatzes eines Client-Server-Spracherkennungssystems
DE60111775T2 (de) * 2000-12-14 2006-05-04 Telefonaktiebolaget Lm Ericsson (Publ) Sprachgesteuertes tragbares endgerät
EP1739546A2 (de) * 2005-07-01 2007-01-03 Bose Corporation Automobilschnittstelle
DE60222093T2 (de) * 2001-02-13 2008-06-05 Thomson Licensing Verfahren, modul, vorrichtung und server zur spracherkennung
US20080221879A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
DE102009017177A1 (de) * 2008-04-23 2009-10-29 Volkswagen Ag Spracherkennungsanordnung zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3608497A1 (de) * 1986-03-14 1987-09-17 Standard Elektrik Lorenz Ag Verfahren fuer und einrichtung zum sprachgesteuerten bedienen eines fernmeldeendgeraetes
DE69917112T2 (de) * 1998-03-27 2006-03-30 International Business Machines Corp. Erweiterung des Wortschatzes eines Client-Server-Spracherkennungssystems
DE69922872T2 (de) * 1998-04-30 2005-12-29 Matsushita Electric Industrial Co., Ltd., Kadoma Automatischer Hotelportier mit Spracherkennung
DE60111775T2 (de) * 2000-12-14 2006-05-04 Telefonaktiebolaget Lm Ericsson (Publ) Sprachgesteuertes tragbares endgerät
DE60222093T2 (de) * 2001-02-13 2008-06-05 Thomson Licensing Verfahren, modul, vorrichtung und server zur spracherkennung
US20030125955A1 (en) * 2001-12-28 2003-07-03 Arnold James F. Method and apparatus for providing a dynamic speech-driven control and remote service access system
EP1463032A1 (de) * 2003-03-24 2004-09-29 Microsoft Corporation Verteilte Spracherkennung für mobile Kommunikationsgeräte
EP1739546A2 (de) * 2005-07-01 2007-01-03 Bose Corporation Automobilschnittstelle
US20080221879A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile environment speech processing facility
DE102009017177A1 (de) * 2008-04-23 2009-10-29 Volkswagen Ag Spracherkennungsanordnung zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015213720A1 (de) * 2015-07-21 2017-01-26 Volkswagen Aktiengesellschaft Verfahren zum Erfassen einer Eingabe durch ein Spracherkennungssystem und Spracherkennungssystem
DE102015213720B4 (de) 2015-07-21 2020-01-23 Volkswagen Aktiengesellschaft Verfahren zum Erfassen einer Eingabe durch ein Spracherkennungssystem und Spracherkennungssystem

Also Published As

Publication number Publication date
DE102013216427B4 (de) 2023-02-02

Similar Documents

Publication Publication Date Title
DE102018128006B4 (de) Verfahren zum erzeugen von ausgaben natürlichsprachlicher generierung basierend auf dem benutzersprachstil
DE102019105269B4 (de) Verfahren zur spracherkennung mit spracherkennungs-arbitrierungslogik
DE102019111529A1 (de) Automatisierte spracherkennung unter verwendung einer dynamisch einstellbaren hörzeitüberschreitung
DE202016008260U1 (de) Erlernen von Aussprachen einer personalisierten Entität
DE102018103188B4 (de) Verfahren zur spracherkennung in einem fahrzeug zur verbesserung der aufgabenerledigung
DE102009017177B4 (de) Spracherkennungsanordnung und Verfahren zur akustischen Bedienung einer Funktion eines Kraftfahrzeuges
DE102011120315B4 (de) Anpassung männlicher Akustikmodelle auf der Basis von sprachunabhängigen weiblichen Sprechdaten
DE102017121059A1 (de) Identifikation und erzeugung von bevorzugten emoji
DE102012217160B4 (de) Verfahren zum Korrigieren unverständlicher synthetischer Sprache
DE102017102392A1 (de) Automatische spracherkennung bei stockender sprechweise
DE102012220796B4 (de) Verfahren zum Initiieren eines Freisprechkonferenzgesprächs
DE102014109121A1 (de) Systeme und Verfahren zur Arbitrierung eines Sprachdialogdienstes
DE102010034433B4 (de) Verfahren zum Erkennen von Sprache
EP3095114B1 (de) Verfahren und system zur erzeugung eines steuerungsbefehls
DE10334400A1 (de) Verfahren zur Spracherkennung und Kommunikationsgerät
EP0852051A1 (de) Verfahren zur automatischen steuerung eines oder mehrerer geräte durch sprachkommandos oder per sprachdialog im echtzeitbetrieb und vorrichtung zum ausführen des verfahrens
DE102018125966A1 (de) System und verfahren zur erfassung von stichworten in einer unterhaltung
DE102015106280B4 (de) Systeme und Verfahren zum Kompensieren von Sprachartefakten in Spracherkennungssystemen
DE102017121054A1 (de) Remote-spracherkennung in einem fahrzeug
DE102014111816A1 (de) Fahrzeugtelematikeinheit und Verfahren zum Bedienen dieser
DE102006029251B4 (de) Verfahren und System für einen Telefonbuchtransfer
DE102015109379A1 (de) Systeme und Verfahren für ein Navigationssystem, das eine Suche mit Diktieren und Teilübereinstimmung verwendet
DE102016125141B4 (de) Suchergebnis unter vorherigem Abrufen von Sprachanfragen
DE102018128003A1 (de) Neuronales netzwerk zum anwenden bei der spracherkennungsarbitrierung
DE102015117380A1 (de) Selektive Geräuschunterdrückung während automatischer Spracherkennung

Legal Events

Date Code Title Description
R163 Identified publications notified
R012 Request for examination validly filed
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015220000

Ipc: G10L0015065000

R016 Response to examination communication
R018 Grant decision by examination section/examining division
R020 Patent grant now final