DE112015006831T5

DE112015006831T5 - Dynamisches Akustikmodell für Fahrzeug

Info

Publication number: DE112015006831T5
Application number: DE112015006831.7T
Authority: DE
Inventors: Pramita Mitra; Gary Steven Strumolo; Craig John Simonds; Ali Hassani; Mark A. Cuddihy; David Melcher
Original assignee: Ford Global Technologies LLC
Current assignee: Ford Global Technologies LLC
Priority date: 2015-08-24
Filing date: 2015-08-24
Publication date: 2018-05-24
Also published as: US10593335B2; RU2704746C2; GB201803532D0; MX2018001996A; RU2018106645A3; GB2557132B; WO2017034536A1; US20180286413A1; GB2557132A; RU2018106645A; CN108292507A

Abstract

Ein Fahrzeug-Sprachprozessor umfasst eine Verarbeitungsvorrichtung und ein Datenspeichermedium. Die Verarbeitungsvorrichtung ist programmiert, um von einer tragbaren Vorrichtung Identifizierungsangaben zu empfangen, anhand der Identifizierungsangaben einen Sprecher zu identifizieren, einen dem Sprecher zugeordneten Dialekt anhand der Identifizierungsangaben zu identifizieren, ein vorgegebenes Akustikmodell zu wählen und das vorgegebene Akustikmodell beruhend zumindest zum Teil auf dem identifizierten Dialekt anzupassen.

Description

HINTERGRUNG
Fahrzeuge mit Spracherkennung ermöglichen einem Insassen das Steuern bestimmter Fahrzeugfunktionen mithilfe von Sprachbefehlen. Sprachbefehle ermöglichen dem Insassen das Steuern des Infotainment-Systems, des Entertainment-Systems, der Klimaanlage, etc., indem er bestimmte Befehle ausspricht, die für das Fahrzeug verständlich sind. Das Fahrzeug verarbeitet und führt die Sprachbefehle aus, indem es gemäß den erhaltenen Sprachbefehlen verschiedene Steuersignale ausgibt.
Figurenliste

1 zeigt ein beispielhaftes Fahrzeug mit einem Sprachverarbeitungssystem, das mit einer tragbaren Vorrichtung in kommunikativer Verbindung steht.
2 ist ein Blockdiagramm, das beispielhafte Komponenten des Sprachverarbeitungssystems zeigt.
3 ist ein Blockdiagramm, das einen beispielhaften Datenfluss zeigt.
4 ist ein Blockdiagramm, das eine beispielhafte Anpassung eines Akustikmodells zeigt, das in das Sprachverarbeitungssystem integriert werden kann.
5 ist ein Flussdiagramm eines beispielhaften Prozesses, der von dem Sprachverarbeitungssystem ausgeführt werden kann, um Sprachmuster eines bestimmten Nutzers zu berücksichtigen.

EINGEHENDE BESCHREIBUNG
Ein Verbessern, wie Insassen mit Fahrzeugen mittels Sprache interagieren, würde das Erlebnis im Fahrzeuginnenraum steigern. Ein natürliches Sprachmodell, bei dem Insassen das Gefühl haben, als ob sie mit ihrem Fahrzeug kommunizieren, statt ihm einfach einen Befehl zu geben, ist eine Möglichkeit, die Interaktion von Insasse und Fahrzeug zu verbessern. Bevor sich natürliche Sprachmodelle in Fahrzeugen durchsetzen können, muss das Fahrzeug Sprache einheitlicher und präziser erkennen.
Eine Möglichkeit zum Verbessern der Einheitlichkeit und Genauigkeit der Spracherkennungssysteme von Fahrzeugen umfasst das Abwandeln der Art und Weise, wie das Spracherkennungssystem Sprache verarbeitet. Herkömmliche Akustikmodelle sind statisch und werden unter verschiedensten Bedingungen eingelernt, die für Anwendungsfälle der automatischen Spracherkennung (ASR) als typisch betrachtet werden würden. D.h. herkömmliche Akustikmodelle werden gemäß erwarteten Sprachmustern einer generischen Person eingelernt. Es wäre unerschwinglich teuer, wenn nicht unmöglich, ein Akustikmodell für jeden möglichen Dialekt und Akzent aufzunehmen. Bei herkömmlichen Akustikmodellen erschweren Hintergrundgeräusche zudem das präzise Verarbeiten von Sprache.
Tragbare Vorrichtungen können dem Fahrzeug ein besseres Identifizieren und Verstehen von Sprachmustern eines bestimmten Insassen erlauben. Ein beispielhafter Sprachprozessor eines Fahrzeugs, der ein Akustikmodell für eine bestimmte Person beruhend auf Daten von der tragbaren Vorrichtung dieser Person individuell anpassen kann, umfasst eine Verarbeitungsvorrichtung und ein Datenspeichermedium. Die Verarbeitungsvorrichtung ist programmiert, um von der tragbaren Vorrichtung Identifizierungsangaben zu empfangen, einen Sprecher anhand der Identifizierungsangaben zu identifizieren, einen dem Sprecher zugeordneten Dialekt anhand der Identifizierungsangaben zu identifizieren, ein vorgegebenes Akustikmodell zu wählen und das vorgegebene Akustikmodell beruhend zumindest zum Teil auf dem identifizierten Dialekt anzupassen.
Demgemäß kann der Sprachprozessor das Akustikmodell als Funktion von Identifizierungsangaben von der tragbaren Vorrichtung dynamisch neu gewichten. Da herkömmliche Akustikmodelle als lineare Kombination von Merkmalsvektoren gebaut sind, die aus Trainingssets unter verschiedenen geeigneten Kombinationen gewonnen werden, und da viele statische Modelle akzentbehaftete Sprache nur schwer verstehen können, kann der Sprachprozessor das Akustikmodell auf den von der tragbaren Vorrichtung identifizierten bestimmten Sprecher kalibrieren. Das Kalibrieren des Akustikmodells kann z.B. das Wählen und Gewichten von zutreffenden Merkmalsvektoren umfassen.
Somit kann der Sprachprozessor von der tragbaren Vorrichtung gesammelte Daten nutzen. Die Daten können grundlegende Klassifizierungsangaben umfassen, etwa Rasse, Ethnie, Erstsprache, etc., die von dem Nutzer bei Einrichten der tragbaren Vorrichtung freiwillig bereitgestellt werden. Alternativ oder zusätzlich können die Daten Klassifizierungen umfassen, die von Maschineneinlernalgorithmen vorgenommen werden, um spezifisch festzustellen, welche Bevorzugungen es bei den Phonemverteilungen des Nutzers gibt. Mit diesen Informationen kann der Sprachprozessor das Akustikmodell neu auf die optimale lineare Kombination von Merkmalsvektoren für den Sprecher gewichten, was Spracherkennung stark verbessert. Zusätzlich könnte Spracherkennung (Identifizierung des Sprechers anhand von Sprache) mit adaptiven Lernparadigmen, die z.B. in das Infotainment-System eingebaut sind, verwendet werden, um Erkennung weiter zu verbessern, da das Infotainment-System ein Profil aufbauen kann, das die Merkmalsvektorgewichtungen ständig verbessert.
Die gezeigten Elemente können viele unterschiedliche Formen annehmen und mehrere und/oder alternative Komponenten und Einrichtungen umfassen. Die dargestellten beispielhaften Komponenten sollen nicht einschränkend sein. Vielmehr können zusätzliche oder alternative Komponenten und/oder Umsetzungen genutzt werden. Ferner sind die gezeigten Elemente nicht unbedingt maßstabsgetreu eingezeichnet, sofern dies nicht ausdrücklich angegeben wird.
Wie in 1 gezeigt ist, umfasst das Trägerfahrzeug 100 ein Sprachverarbeitungssystem 105, das mit einer tragbaren Vorrichtung 110 in kommunikativer Verbindung steht. Auch wenn das Trägerfahrzeug 100 als Limousine gezeigt ist, kann es ein beliebiges Personen- oder Nutzfahrzeug, etwa ein Auto, einen Lastwagen, einen SUV, ein Crossover-Fahrzeug, einen Lieferwagen, einen Kleinbus, ein Taxi, einen Bus, etc. umfassen. Bei einigen möglichen Vorgehensweisen ist das Trägerfahrzeug 100 ein autonomes Fahrzeug, das ausgelegt ist, um in einem autonomen (z.B. fahrerlosen) Modus, einem teilautonomen Modus und/oder einem nicht autonomen Modus zu fahren.
Die tragbare Vorrichtung 110 kann eine beliebige Anzahl an Schaltungen oder Komponenten umfassen, die der tragbaren Vorrichtung 110 das drahtlose Kommunizieren mit dem Sprachverarbeitungssystem 105 ermöglichen. Die tragbare Vorrichtung 110 kann ausgelegt sein, um mithilfe einer beliebigen Anzahl an Funkkommunikationstechnologien, etwa z.B. Bluetooth®, Bluetooth Low Energy®, Wi-Fi, Wi-Fi Direct, etc., zu kommunizieren. Die tragbare Vorrichtung 110 kann für ein Paaren mit dem Sprachverarbeitungssystem 105 programmiert sein, was der tragbaren Vorrichtung 110 und dem Sprachverarbeitungssystem 105 Datenaustausch ermöglicht. Beispielsweise kann die tragbare Vorrichtung 110 programmiert sein, um Identifizierungsangaben, die der Person zugeordnet sind, die die tragbare Vorrichtung 110 trägt, zu dem Sprachverarbeitungssystem 105 zu senden. Die Identifizierungsangaben können z.B. eine Identität des Sprechers umfassen. Die Identität des Sprechers kann z.B. auf Angaben beruhen, die von dem Sprecher bei Einrichten der tragbaren Vorrichtung 110 bereitgestellt werden. Das Einrichten der tragbaren Vorrichtung 110 kann das Erzeugen eines Profils und das Zuordnen des Profils zu der tragbaren Vorrichtung 110 umfassen. Die Identifizierung kann z.B. einen einzigartigen Identifikator umfassen, der dem Sprecher zugeordnet ist, und der einzigartige Identifikator kann zusammen mit den Identifizierungsangaben dem Trägerfahrzeug 100 übermittelt werden.
Die Identifizierungsangaben können weiterhin Dialektangaben umfassen. Beispielsweise kann die tragbare Vorrichtung 110 eine fortlaufende „Schulungs“-Funktion durchlaufen, bei der die tragbare Vorrichtung 110 ständig versucht, die Sprache des Nutzers zu verstehen, indem sie z.B. gesprochene Phoneme mit erwarteten Phonemen abgleicht. Die Unterschiede zwischen den gesprochenen Phonemen und den erwarteten Phonemen kann als Dialekt des Sprechers bezeichnet werden. Die Dialektangaben können daher den Dialekt des Sprechers oder eine andere Darbietung der gesprochenen Phoneme relativ zu den erwarteten Phonemen identifizieren.
Das Sprachverarbeitungssystem 105 kann programmiert sein, um sich mit der tragbaren Vorrichtung 110 zu paaren und von dieser Identifizierungsangaben zu empfangen. Das Sprachverarbeitungssystem 105 kann die Identifizierungsangaben verarbeiten, um den Sprecher zu identifizieren. Ist der Sprecher identifiziert, kann das Sprachverarbeitungssystem 105 ein Akustikmodell wählen. Das Akustikmodell, das als „vorgegebenes Akustikmodell“ bezeichnet werden kann, kann ein Standardmodell sein, das in dem Sprachverarbeitungssystem 105 enthalten ist.
Das Sprachverarbeitungssystem 105 kann weiterhin einen Dialekt des Sprechers identifizieren. Der Dialekt kann anhand der Identität des Sprechers oder anderer Angaben über den Sprecher, einschließlich Dialektangaben, die von der tragbaren Vorrichtung 110 gesendet werden, ermittelt werden. Beispielsweise können Dialekte unterschiedlichen geographischen Regionen zugeordnet sein, die eine derzeitige geographische Region des Sprechers oder eine frühere geographische Region des Sprechers (die geographische Region, in der der Sprecher aufwuchs oder die meiste Zeit verbrachte) umfassen könnten. Zum Beispiel kann für einen Sprecher, der den größten Teil seines Lebens nahe Boston verbracht hat, ein Dialekt gewählt werden, und für einen Sprecher, der den größten Teil seines Lebens im Süden der USA verbracht hat, kann ein anderer Dialekt gewählt werden. Statt oder zusätzlich zu Geographie kann das Sprachverarbeitungssystem 105 den Dialekt des Sprechers beruhend auf der „Schulung“ ermitteln, die von der tragbaren Vorrichtung 110 durchgeführt wird.
Das Sprachverarbeitungssystem 105 kann das vorgegebene Akustikmodell anpassen, um beruhend auf dem identifizierten Dialekt ein kalibriertes Akustikmodell zu erzeugen. Das Anpassen des vorgegebenen Akustikmodells kann z.B. das Wählen eines Sprachmerkmals aus mehreren Sprachmerkmalen umfassen. Jedes Sprachmerkmal kann einem bestimmten Phonem zugeordnet sein. Das Anpassen des vorgegebenen Akustikmodells kann weiterhin das Anpassen einer Gewichtung umfassen, die auf das gewählte Sprachmerkmal angewendet wird. Die angewendete Gewichtung kann angeben, wie viel Einfluss ein bestimmtes Phonem beim Interpretieren der Sprache des Sprechers erhalten sollte. Das Steigern der Gewichtung kann damit das Merkmal einflussreicher machen, während das Verringern der Gewichtung das Merkmal weniger einflussreich machen kann.
Das Sprachverarbeitungssystem 105 kann ein akustisches Signal (z.B. eine Sprachäußerung der Person, die die tragbare Vorrichtung 110 trägt) empfangen und das kalibrierte Akustikmodell auf das akustische Signal anwenden. Das Sprachverarbeitungssystem 105 kann das akustische Signal gemäß dem kalibrierten Akustikmodell verarbeiten und geeignete Befehle, die mit den durch das akustische Signal repräsentierten Sprachbefehlen im Einklang stehen, zu einem oder mehreren Fahrzeug-Subsystemen 115 erzeugen (siehe 2).
2 ist ein Blockdiagramm, das beispielhafte Komponenten des Sprachverarbeitungssystems 105 zeigt. Wie gezeigt umfasst das Sprachverarbeitungssystem 105 eine Kommunikationsvorrichtung 120, ein Mikrofon 125, ein Datenspeichermedium 130 und einen Sprachprozessor 135.
Die Kommunikationsvorrichtung 120 kann eine beliebige Anzahl von Schaltungen oder Komponenten umfassen, die Kommunikation zwischen der tragbaren Vorrichtung 110 und dem Sprachprozessor 135 erleichtern. Die Kommunikationsvorrichtung 120 kann programmiert sein, um mithilfe einer beliebigen Anzahl an Funkkommunikationstechnologien, etwa z.B. Bluetooth®, Bluetooth Low Energy®, Wi-Fi, Wi-Fi Direct, etc., mit der tragbaren Vorrichtung 110 zu kommunizieren. Die Kommunikationsvorrichtung 120 kann programmiert sein, um sich mit der tragbaren Vorrichtung 110 zu paaren und Identifizierungsangaben, einschließlich Dialektangaben, von der tragbaren Vorrichtung 110 drahtlos zu empfangen. Die Kommunikationsvorrichtung 120 kann programmiert sein, um die Identifizierungsangaben z.B. zu dem Sprachprozessor 135 zu senden.
Das Mikrofon 125 kann eine beliebige Anzahl von Schaltungen oder Komponenten umfassen, die ein akustisches Signal, etwa Sprache, empfangen und das akustische Signal in ein elektrisches Signal, welches als „analoges akustisches Signal“ bezeichnet werden kann, umwandeln können. Beispielsweise kann das Mikrofon 125 einen Wandler umfassen, der das analoge akustische Signal entsprechend der Sprache erzeugt. Das Mikrofon 125 kann sich z.B. in dem Fahrgastraum des Trägerfahrzeugs 100 befinden. In manchen möglichen Umsetzungen kann das Mikrofon 125 ausgelegt oder programmiert sein, um das analoge akustische Signal z.B. zu einem Signalwandler auszugeben, so dass das analoge akustische Signal in ein digitales akustisches Signal umgewandelt werden kann.
Das Datenspeichermedium 130 kann eine beliebige Anzahl von Schaltungen oder Komponenten umfassen, die elektronische Daten speichern können. Bei einer möglichen Vorgehensweise kann das Datenspeichermedium 130 von einem Rechner ausführbare Befehle umfassen. Das Datenspeichermedium 130 kann ebenfalls oder alternativ Akustikmodelle speichern. Die Akustikmodelle können z.B. eine beliebige Anzahl von vorgegebenen Akustikmodellen umfassen, die wie vorstehend erläutert Standardmodelle sein können, die in dem Sprachverarbeitungssystem 105 enthalten sind. Ferner kann das Datenspeichermedium 130 programmiert oder ausgelegt sein, um ein oder mehrere kalibrierte Akustikmodelle zu speichern.
Der Sprachprozessor 135 kann eine beliebige Anzahl an Schaltungen oder Komponenten umfassen, die ausgelegt oder programmiert sind, um Sprache zu verarbeiten. Bei einer möglichen Vorgehensweise kann der Sprachprozessor 135 programmiert sein, um die Identifizierungsangaben von der Kommunikationsvorrichtung 120 zu empfangen und einen Sprecher (d.h. die Person, die die tragbare Vorrichtung 110 trägt) anhand der Identifizierungsangaben zu identifizieren. Der Sprachprozessor 135 kann weiterhin ausgelegt sein, um einen dem Sprecher zugeordneten Dialekt zu identifizieren. Der Dialekt kann anhand der Identifizierungsangaben ermittelt werden, die wie vorstehend erläutert Dialektangaben enthalten können. Der Sprachprozessor 135 kann programmiert sein, um eines der vorgegebenen Akustikmodelle zu wählen, die in dem Datenspeichermedium 130 gespeichert sind. Die Auswahl des vorgegebenen Akustikmodells kann z.B. auf den Identifizierungsangaben beruhen. Ferner kann der Sprachprozessor 135 programmiert sein, um das gewählte vorgegebene Akustikmodell beruhend auf z.B. den Dialektangaben, die entweder von der tragbaren Vorrichtung 110 empfangen oder anhand der Identifizierungsangaben gefolgert wurden (z.B. aus einer geographischen Region, die der die tragbare Vorrichtung 110 tragenden Person zugeordnet ist, gefolgert wurden), anzupassen. Wie vorstehend erläutert kann das angepasste vorgegebene Akustikmodell als kalibriertes Akustikmodell bezeichnet werden, und der Sprachprozessor 135 kann programmiert sein, um das kalibrierte Akustikmodell in dem Datenspeichermedium 130 zu speichern. Nachdem das kalibrierte Akustikmodell erzeugt ist, kann der Sprachprozessor 135 analoge oder digitale akustische Signale in Echtzeit empfangen und das kalibrierte Akustikmodell auf empfangene Akustiksignale anwenden, um die Äußerungen der sprechenden Person besser zu verstehen. Wenn die Sprache Sprachbefehle umfasst, kann der Sprachprozessor 135 Befehlssignale erzeugen und zu einem oder mehreren Fahrzeug-Subsystemen 115 ausgeben, die den Sprachbefehl ausführen.
3 ist ein Blockdiagramm 300, das einen beispielhaften Datenfluss zeigt. Die tragbare Vorrichtung 110 sendet die Identifizierungsangaben zu dem Sprachverarbeitungssystem 105. Bei Block 305 identifiziert das Sprachverarbeitungssystem 105 den Sprecher, und bei Block 310 ermittelt das Sprachverarbeitungssystem 105 den Dialekt des Sprechers. Bei Block 315 passt das Sprachverarbeitungssystem 105 das Akustikmodell gemäß dem Dialekt an, um das kalibrierte Akustikmodell zu erzeugen, das bei Block 320 gezeigt ist. Sprache wird an dem Sprachverarbeitungssystem 105 mittels des Mikrofons 125 empfangen und in das akustische Signal umgewandelt. Das akustische Signal wird durch das kalibrierte Akustikmodell geleitet, was dem Sprachverarbeitungssystem 105 hilft, die Sprache besser zu verarbeiten und zu interpretieren. Wenn die Sprache einen Sprachbefehl enthält, kann das Sprachverarbeitungssystem 105 einen Befehl zu einem oder mehreren Fahrzeug-Subsystemen 115 ausgeben.
4 ist ein Blockdiagramm 400, das eine beispielhafte Anpassung eines Akustikmodells zeigt, das in das Sprachverarbeitungssystem 105 integriert werden kann. Das kalibrierte (d.h. angepasste) Akustikmodell wird bei Block 405 gezeigt. Der Sprachprozessor 135 kann an dem vorgegebenen Akustikmodell ein Kalibrierungssignal 410 anlegen. Das Kalibrierungssignal kann bestimmte Änderungen identifizieren, die an der Gewichtung vorzunehmen sind, die an einem oder mehreren Merkmalen angelegt wird, was in Blöcken 415A-415N gezeigt ist. Block 420 zeigt die Programmierung des Sprachprozessors 135, um jedes der Merkmale 415A-415N gemäß dem Kalibrierungssignal neu zu gewichten. Wie vorstehend erläutert kann das Neugewichten der Merkmale 415A-415N das Wählen eines oder mehrerer der Sprachmerkmale 415A-415N, wobei jedes Sprachmerkmal einem bestimmten Phonem zugeordnet ist, und das Anpassen einer Gewichtung, die an einem der gewählten Sprachmerkmale angelegt wird, umfassen. Die verwendete Gewichtung kann angeben, wie viel Einfluss ein bestimmtes Phonem beim Interpretieren der Sprache des Sprechers erhalten sollte. Das Steigern der Gewichtung kann damit das Merkmal einflussreicher machen, während das Verringern der Gewichtung das Merkmal weniger einflussreich machen kann. Das akustische Signal, das durch Block 425 dargestellt ist, kann durch das kalibrierte Akustikmodell geleitet werden, und die Ausgabe des kalibrierten Akustikmodells 405, die bei Block 430 gezeigt wird, kann die erkannte Sprache umfassen.
5 ist ein Flussdiagramm eines beispielhaften Prozesses 500, der von dem Sprachverarbeitungssystem 105 ausgeführt werden kann, um Sprachmuster eines bestimmten Nutzers zu berücksichtigen. Der Prozess 500 kann ausgeführt werden, während das Trägerfahrzeug 100 fährt. Beispielsweise kann der Prozess 500 einsetzen, wenn das Trägerfahrzeug 100 erstmals eingeschaltet wird, und kann weiter ausgeführt werden, bis das Trägerfahrzeug 100 abgeschaltet wird, bis alle Insassen aus dem Trägerfahrzeug 100 ausgestiegen sind, bis keine tragbaren Vorrichtungen 110 mehr mit dem Trägerfahrzeug 100 gepaart sind oder bis das Trägerfahrzeug 100 anderweitig nicht länger in der Lage ist, Sprachbefehle zu empfangen und zu verarbeiten.
Bei Block 505 kann sich das Sprachverarbeitungssystem 105 mit der tragbaren Vorrichtung 110 paaren.
Das Sprachverarbeitungssystem 105 kann sich mit der tragbaren Vorrichtung 110, das z.B. dem Fahrer oder einem anderen Fahrzeuginsassen zugeordnet ist, paaren. Das Paaren kann z.B. durch die Kommunikationsvorrichtung 120 erleichtert werden.
Bei Block 510 kann das Sprachverarbeitungssystem 105 Identifizierungsangaben von der tragbaren Vorrichtung 110 empfangen. Die Identifizierungsangaben können bei einer möglichen Vorgehensweise Dialektangaben umfassen. Die Identifizierungsangaben können mittels der Kommunikationsvorrichtung 120 empfangen und z.B. zu dem Sprachprozessor 135 gesendet werden.
Bei Block 515 kann das Sprachverarbeitungssystem 105 den Sprecher identifizieren. D.h. das Sprachverarbeitungssystem 105 kann die Identifizierungsangaben verarbeiten, um zu ermitteln, wer die tragbare Vorrichtung 110 trägt. In manchen Fällen kann der Sprachprozessor 135 den Sprecher identifizieren und aus dem Datenspeichermedium ein Profil wählen, das dem Sprecher zugeordnet ist.
Bei Block 520 kann das Sprachverarbeitungssystem 105 einen Dialekt identifizieren, der der bei Block 515 identifizierten Person zugeordnet ist. Der Sprachprozessor 135 kann bei einer möglichen Umsetzung den Dialekt z.B. aus den Identifizierungsangaben ermitteln.
Bei Block 525 kann das Sprachverarbeitungssystem 105 eines der vorgegebenen Akustikmodelle wählen. In dem Datenspeichermedium 130 können mehrere vorgegebene Akustikmodelle gespeichert sein, und der Sprachprozessor 135 kann aus den gespeicherten vorgegebenen Akustikmodellen eines auswählen.
Bei Block 530 kann das Sprachverarbeitungssystem 105 das bei Block 525 gewählte vorgegebene Akustikmodell anpassen. Beispielsweise kann der Sprachprozessor 135 mithilfe des bei Block 520 identifizierten Dialekts oder möglicherweise anderer Angaben, die von der tragbaren Vorrichtung 110 empfangen wurden, das vorgegebene Akustikmodell anpassen, um das kalibrierte Akustikmodell zu erzeugen. Eine Möglichkeit zum Anpassen des vorgegebenen Akustikmodells umfasst das Wählen eines oder mehrerer Sprachmerkmale aus mehreren Sprachmerkmalen und das Anpassen der Gewichtung, die an dem einen oder den mehreren der Sprachmerkmale angelegt wird. Wie vorstehend erläutert ist jedes Sprachmerkmal einem Phonem zugeordnet, so dass ein Anpassen der Gewichtung für ein Sprachmerkmal die Größe des Einflusses angibt, der jedem Phonem zugeteilt werden sollte. Das Steigern der Gewichtung kann ein einflussreicheres Phonem bedeuten, während das Verringern der Gewichtung ein weniger einflussreiches Phonem anzeigen kann.
Bei Block 535 kann das Sprachverarbeitungssystem 105 ein akustisches Signal empfangen. Das akustische Signal kann mittels des Mikrofons 125 empfangen werden und kann eine Sprachäußerung in dem Fahrgastraum des Trägerfahrzeugs 100 darstellen.
Bei Block 540 kann das Sprachverarbeitungssystem 105 das kalibrierte Modell bei dem akustischen Signal anwenden. Beispielsweise kann der Sprachprozessor 135 das akustische Signal von dem Mikrofon empfangen und das bei Block 530 erzeugte kalibrierte Akustikmodell an dem akustischen Signal anwenden.
Bei Entscheidungsblock 545 kann das Sprachverarbeitungssystem 105 ermitteln, ob das akustische Signal Sprachbefehle umfasst. Der Sprachprozessor 135 kann beispielsweise durch Vergleichen von Äußerungen, die durch das akustische Signal repräsentiert werden, mit den gewichteten Merkmalen und Ermitteln, ob die Äußerungen Sprachbefehlen zugeordnete Phoneme darstellen, eine solche Ermittlung vornehmen. Wenn das akustische Signal Sprachbefehle umfasst, kann der Prozess 500 zu Block 550 vorrücken. Ansonsten kann der Prozess 500 zu Block 535 zurückkehren.
Bei Block 550 kann das Sprachverarbeitungssystem 105 ein entsprechendes Befehlssignal erzeugen und ausgeben. Der Sprachprozessor 135 kann das Befehlssignal, das dem bei Block 545 detektierten Sprachbefehl zugeordnet ist, erzeugen. Ferner kann der Sprachprozessor 135 das Befehlssignal zu dem entsprechenden Fahrzeug-Subsystem ausgeben, damit der Sprachbefehl ausgeführt werden kann. Bei Block 535 kann der Prozess 500 fortgesetzt werden.
Demgemäß kann das offenbarte Sprachverarbeitungssystem 105 das vorgegebene Akustikmodell als Funktion von Identifizierungsangaben, die von der tragbaren Vorrichtung 110 bereitgestellt werden, dynamisch neu gewichten. Da herkömmliche Akustikmodelle als lineare Kombination von Merkmalsvektoren gebaut sind, die aus Trainingssets unter verschiedenen geeigneten Kombinationen gewonnen werden, und da viele statische Modelle akzentbehaftete Sprache nur schwer verstehen können, kann das Sprachverarbeitungssystem 105 das Akustikmodell auf den von der tragbaren Vorrichtung 110 identifizierten bestimmten Sprecher kalibrieren. Das Kalibrieren des Akustikmodells kann z.B. das Wählen und Gewichten von zutreffenden Merkmalsvektoren umfassen.
Im Allgemeinen können die beschriebenen Rechnersysteme und/oder Vorrichtungen beliebige aus einer Reihe von Rechnerbetriebssystemen nutzen, einschließlich, aber keinesfalls ausschließlich Versionen und/oder Varianten des Ford Sync®-Betriebssystems, des Betriebssystems Microsoft WindowsⓇ, des Betriebssystems Unix (z.B. des Betriebssystems Solaris®, das von Oracle Corporation aus Redwood Shores, Kalifornien, vertrieben wird), des Betriebssystems AIX UNIX, das von International Business Machines aus Armonk, New York, vertrieben wird, des Betriebssystems Linux, der Betriebssysteme Mac OSX und iOS, die von Apple Inc. aus Cupertino, Kalifornien, vertrieben werden, des BlackBerry OS, das von Blackberry, Ltd. aus Waterloo, Kanada, vertrieben wird, und des Android-Betriebssystems, das von Google, Inc. und der Open Handset Alliance vertrieben wird. Beispiele für Rechnervorrichtungen umfassen, ohne Einschränkung, einen Fahrzeugbordrechner, einen Arbeitsplatzrechner, einen Server, einen Desktoprechner, ein Notebook, einen Laptop oder einen Taschencomputer oder ein anderes Rechnersystem und/oder eine andere Rechnervorrichtung.
Rechnervorrichtungen umfassen allgemein von Rechner ausführbare Befehle, wobei die Befehle von einer oder mehreren Rechnervorrichtungen, wie den vorstehend aufgeführten, ausführbar sind. Von einem Rechner ausführbare Befehle können von Computerprogrammen, die mithilfe verschiedener Programmiersprachen und/oder Technologien erzeugt werden, einschließlich, aber nicht ausschließlich und entweder allein oder kombiniert Java™, C, C++, Visual Basic, Java Script, Perl, etc., kompiliert oder interpretiert werden. Im Allgemeinen empfängt ein Prozessor (z.B. ein Mikroprozessor) Befehle von z.B. einem Speicher, einem von einem Rechner lesbaren Medium etc. und führt diese Befehle aus, wodurch ein oder mehrere Prozesse, einschließlich ein oder mehrere der hierin beschriebenen Prozesse, ausgeführt werden. Solche Befehle und andere Daten können mithilfe verschiedenster von einem Rechner lesbarer Medien gespeichert und gesendet werden.
Ein von einem Rechner lesbares Medium (auch als ein von einem Prozessor lesbares Medium bezeichnet) umfasst ein nicht flüchtiges (z.B. greifbares) Medium, das am Bereitstellen von Daten (z.B. Befehlen) mitwirkt, die von einem Rechner (z.B. von einem Prozessor eines Rechners) gelesen werden können. Ein solches Medium kann viele Formen annehmen, einschließlich aber nicht ausschließlich nicht flüchtige Medien und flüchtige Medien. Nicht flüchtige Medien können beispielsweise Bild- oder Magnetplatten und andere dauerhafte Speicher umfassen. Flüchtige Medien können beispielsweise dynamischen Arbeitsspeicher (DRAM), der typischerweise einen Hauptspeicher bildet, umfassen. Solche Befehle können von einem oder mehreren Übermittlungsmedien, einschließlich Koaxialkabeln, Kupferdraht- und Faseroptik, einschließlich der Drähte, die einen mit einem Prozess eines Rechners gekoppelten Systembus umfassen, übermittelt werden. Übliche Formen von von einem Rechner lesbaren Medien umfassen beispielsweise eine Floppydisk, eine flexible Disk, eine Festplatte, ein Magnetband, ein beliebiges anderes magnetisches Medium, eine CD-ROM, eine DVD, ein beliebiges anderes optisches Medium, Lochkarten, Lochstreifen, ein beliebiges anderes physisches Medium mit Lochmustern, einen RAM, einen PROM, einen EPROM, einen FLASH EEPROM, einen beliebigen anderen Speicherchip oder Speicherkassette oder ein beliebiges anderes Medium, das von einem Rechner gelesen werden kann.
Datenbanken, Datenpools oder andere Datenspeicher, die hierin beschrieben sind, können verschiedene Arten von Mechanismen zum Speichern, Zugreifen auf und Abrufen von verschiedenen Arten von Daten umfassen, einschließlich einer hierarchischen Datenbank, eines Satzes von Dateien in einem Dateisystem, einer Anwendungsdatenbank in einem geschützten Format, eines relationalen Datenbankmanagementsystems (RDBMS), etc. Jeder solche Datenspeicher ist im Allgemeinen in einer Rechnervorrichtung enthalten, die ein Rechnerbetriebssystem wie etwa eines der vorstehend erwähnten nutzt, worauf mit einer oder mehreren verschiedenen Methoden mittels eines Netzwerks zugegriffen wird. Auf ein Dateisystem kann von einem Rechnerbetriebssystem zugegriffen werden, und dieses kann in verschiedenen Formaten gespeicherte Dateien umfassen. Ein RDBMS nutzt im Allgemeinen Structured Query Language (SQL) zusätzlich zu einer Sprache zum Erzeugen, Speichern, Bearbeiten und Ausführen von gespeicherten Abläufen, etwa die vorstehend erwähnte Sprache PL/SQL.
In manchen Beispielen können Systemelemente als von einem Rechner lesbare Befehle (z.B. Software) auf einer oder mehreren Rechnervorrichtungen (z.B. Servern, PCs, etc.) implementiert werden, auf von einem Rechner lesbaren Medien gespeichert werden, die diese zugeordnet sind (z.B. Laufwerke, Speicher, etc.). Ein Rechnerprogrammprodukt kann solche Befehle, die auf von einem Rechner lesbaren Medien gespeichert sind, zum Ausführen der hierin beschriebenen Funktionen umfassen.
Bezüglich der Prozesse, Systeme, Verfahren, Heuristik etc., die hierin beschrieben sind, versteht sich, dass die Schritte solcher Prozesse etc. zwar gemäß einer bestimmten geordneten Reihenfolge erfolgend beschrieben wurden, solche Prozesse aber unter Ausführen der beschriebenen Schritte in einer anderen Reihenfolge als hierin beschrieben umgesetzt werden könnten. Ferner versteht sich, dass bestimmte Schritte gleichzeitig durchgeführt werden könnten, dass andere Schritte hinzugefügt werden könnten oder dass bestimmte hierin beschriebene Schritte übergangen werden könnten. Die Beschreibungen von Prozessen werden hierin mit anderen Worten zwecks Veranschaulichung bestimmter Ausführungsformen vorgesehen und sollten in keiner Weise als Einschränkung der Ansprüche ausgelegt werden.
Demgemäß versteht sich, dass die vorstehende Beschreibung veranschaulichend und nicht einschränkend sein soll. Bei Lesen der vorstehenden Beschreibung könnten viele Ausführungsformen und Anwendungen neben den vorgesehenen Beispielen nahe liegen. Der Schutzumfang sollte nicht anhand der vorstehenden Beschreibung ermittelt werden, sondern sollte stattdessen anhand der beigefügten Ansprüche zusammen mit dem vollen Schutzumfang von Äquivalenten, den solche Ansprüche beanspruchen können, ermittelt werden. Es wird erwartet und es ist beabsichtigt, dass es bei den hier diskutierten Technologien zu künftigen Entwicklungen kommt und dass die offenbarten Systeme und Verfahren in solche künftigen Ausführungsformen integriert werden. Zusammenfassend versteht sich, dass die Anmeldung Abwandlung und Änderung unterliegen kann.
Alle in den Ansprüchen genutzten Begriffe sollen ihre gewöhnliche Bedeutung haben, wie sie Fachleuten der hierin beschriebenen Technologien bekannt ist, sofern hierin nicht ausdrücklich das Gegenteil angegeben wird. Insbesondere sollte die Nutzung von Artikeln im Singular wie „ein“, „der, die, das“, „besagte(r)“, etc. so zu verstehen sein, dass ein oder mehrere der genannten Elemente beansprucht werden, sofern ein Anspruch nicht eine ausdrückliche gegenteilige Beschränkung enthält.
Die Zusammenfassung ist vorgesehen, um dem Leser ein schnelles Erkennen der Natur der technischen Offenbarung zu ermöglichen. Sie wird mit der Maßgabe vorgelegt, dass sie nicht zur Auslegung oder Einschränkung des Schutzumfangs oder der Bedeutung der Ansprüche genutzt wird. Ferner ist aus der vorstehenden eingehenden Beschreibung ersichtlich, dass verschiedene Merkmale in verschiedenen Ausführungsformen zum Zweck des Straffens der Offenbarung in Gruppen zusammengefasst sind. Dieses Verfahren der Offenbarung ist nicht so auszulegen, dass gewollt ist, dass die beanspruchten Ausführungsformen mehr Merkmale erfordern, als ausdrücklich in jedem Anspruch beansprucht sind. Vielmehr liegt der erfinderische Gegenstand in weniger als allen Merkmalen einer einzigen offenbarten Ausführungsform, wie die folgenden Ansprüche widerspiegeln. Die folgenden Ansprüche werden somit in die eingehende Beschreibung mitaufgenommen, wobei jeder Anspruch für sich allein als separat beanspruchter Gegenstand steht.

Claims

Fahrzeug-Sprachprozessor, welcher eine Verarbeitungsvorrichtung und ein Datenspeichermedium umfasst, wobei die Verarbeitungsvorrichtung programmiert ist, um: Identifizierungsangaben von einer tragbaren Vorrichtung zu erhalten; einen Sprecher anhand der Identifizierungsangaben zu identifizieren; einen dem Sprecher zugeordneten Dialekt anhand der Identifizierungsangaben zu identifizieren; ein vorgegebenes Akustikmodell zu wählen; und das vorgegebene Akustikmodell beruhend zumindest zum Teil auf dem identifizierten Dialekt anzupassen.
Fahrzeug-Sprachprozessor nach Anspruch 1, wobei die Verarbeitungsvorrichtung programmiert ist, um beruhend zumindest zum Teil auf dem vorgegebenen Akustikmodell, das gemäß dem anhand der Identifizierungsangaben identifizierten Dialekt angepasst wurde, ein kalibriertes Akustikmodell zu erzeugen.
Fahrzeug-Sprachprozessor nach Anspruch 1, wobei die Verarbeitungsvorrichtung programmiert ist, um das kalibrierte Akustikmodell bei einem akustischen Signal anzuwenden.
Fahrzeug-Sprachprozessor nach Anspruch 3, wobei die Verarbeitungsvorrichtung programmiert ist, um beruhend zumindest zum Teil auf dem akustischen Signal und dem kalibrierten Akustikmodell einen Fahrzeugbefehl auszugeben.
Fahrzeug-Sprachprozessor nach Anspruch 1, wobei das Anpassen des vorgegebenen Akustikmodells das Wählen eines Sprachmerkmals aus mehreren Sprachmerkmalen umfasst.
Fahrzeug-Sprachprozessor nach Anspruch 5, wobei das Anpassen des vorgegebenen Akustikmodells das Anpassen einer dem gewählten Sprachmerkmal zugeordneten Gewichtung umfasst.
Fahrzeug-Sprachprozessor nach Anspruch 1, wobei das Anpassen des vorgegebenen Akustikmodells das Anpassen einer mindestens einem von mehreren Sprachmerkmalen zugeordneten Gewichtung umfasst.
Fahrzeug-Sprachprozessor nach Anspruch 7, wobei jedes der mehreren Sprachmerkmale einem Phonem zugeordnet ist.
Fahrzeug-Sprachprozessor nach Anspruch 1, welcher weiterhin eine Kommunikationsvorrichtung umfasst, die programmiert ist, um sich mit der tragbaren Vorrichtung zu paaren.
Fahrzeug-Sprachprozessor nach Anspruch 1, welcher weiterhin ein Mikrofon umfasst, das ausgelegt ist, um ein analoges akustisches Signal zu empfangen.
Verfahren, umfassend: Empfangen von Identifizierungsangaben von einer tragbaren Vorrichtung; Identifizieren eines Sprechers anhand der Identifizierungsangaben; Identifizieren eines dem Sprecher zugeordneten Dialekts anhand der Identifizierungsangaben; Wählen eines vorgegebenes Akustikmodells; und Anpassen des vorgegebene Akustikmodells beruhend zumindest zum Teil auf dem identifizierten Dialekt.
Verfahren nach Anspruch 11, welches weiterhin das Erzeugen eines kalibrierten Akustikmodells beruhend zumindest zum Teil auf dem vorgegebenen Akustikmodell, das gemäß dem anhand der Identifizierungsangaben identifizierten Dialekt angepasst wurde, umfasst.
Verfahren nach Anspruch 11, welches weiterhin das Anwenden des kalibrierten Akustikmodells bei einem akustischen Signal umfasst.
Verfahren nach Anspruch 13, welches einen Fahrzeugbefehl beruhend zumindest zum Teil auf dem akustischen Signal und dem kalibrierten Akustikmodell umfasst.
Verfahren nach Anspruch 11, wobei das Anpassen des vorgegebenen Akustikmodells das Wählen eines Sprachmerkmals aus mehreren Sprachmerkmalen umfasst.
Verfahren nach Anspruch 11, wobei das Anpassen des vorgegebenen Akustikmodells das Anpassen einer mindestens einem von mehreren Sprachmerkmalen zugeordneten Gewichtung umfasst.
Verfahren nach Anspruch 16, wobei jedes der mehreren Sprachmerkmale einem Phonem zugeordnet ist.
Fahrzeugsystem, umfassend: eine Kommunikationsvorrichtung, welche programmiert ist, um sich mit der tragbaren Vorrichtung zu paaren; ein Mikrofon, welches ausgelegt ist, um ein akustisches Signal zu empfangen; und einen Sprachprozessor, welcher programmiert ist, um von der tragbaren Vorrichtung Identifizierungsangaben zu empfangen, anhand der Identifizierungsangaben einen Sprecher zu identifizieren, einen dem Sprecher zugeordneten Dialekt anhand der Identifizierungsangaben zu identifizieren, ein vorgegebenes Akustikmodell zu wählen, das vorgegebene Akustikmodell beruhend zumindest zum Teil auf dem identifizierten Dialekt anzupassen, um ein kalibriertes Akustikmodell zu erzeugen, und das kalibrierte Akustikmodell bei dem akustischen Signal anzuwenden.