DE19962218A1

DE19962218A1 - Verfahren und System zum Autorisieren von Sprachbefehlen

Info

Publication number: DE19962218A1
Application number: DE19962218A
Authority: DE
Inventors: Goetz Roderer; Dirk Groeger
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1999-12-22
Filing date: 1999-12-22
Publication date: 2001-07-05
Anticipated expiration: 2019-12-23
Also published as: DE19962218C2

Abstract

In einer mit Sprachbefehlen arbeitenden Einrichtung werden Sprachbefehle dadurch autorisiert, daß vorbestimmten Sprachbefehlen vorbestimmte Orte zugeordnet werden, in denen sich eine den Befehl sprechende Person befinden muß, damit der Sprachbefehl ausgeführt wird. Der Sprachbefehl wird von einem Mikrofon erfaßt. Gleichzeitig wird von einer dem vorbestimmten Ort zugeordneten Kamera die Mundbewegung einer dort sprechenden Person erfaßt und der Befehl zur Ausführung nur freigegeben, wenn die Mundbewegung mit dem vom Mikrofon erfaßten Audiosignal korreliert.

Description

Die Erfindung betrifft ein Verfahren zum Autorisieren von Sprachbefehlen sowie ein System zum Autorisieren von Sprach befehlen in einer mittels Sprachbefehlen gesteuerten Einrich tung.

Fortschritte auf dem Gebiet der Spracherkennung ermöglichen in zunehmendem Maß eine komfortable Steuerung von Funktions einheiten über Sprachbefehle. Dazu wird über ein Mikrofon aufgenommene Sprache zunächst im Hinblick auf darin enthalte ne typische Laute, Worte oder Wortfolgen analysiert und die festgestellten Laute, Worte oder Wortfolgen werden anschlie ßend mit in einem Befehlsspeicher abgelegten Befehlen vergli chen, die in Form von typischen Lauten, Worten oder Wortfol gen abgelegt sind. Bei Übereinstimmung wird der jeweilige Be fehl aktiviert.

Aus der EP 0 082 304 A1 ist bekannt, Sprache in Verbindung mit Gesichtserkennung als biometrische Merkmalskombination zu verwenden, um eine Person zu identifizieren und dadurch bei spielsweise zu überprüfen, ob eine Person zur Überwindung ei nes Zugangskontrollsystems autorisiert ist. Dazu werden stimmspezifische Merkmale der zu überprüfenden Person, die ein Schlüsselwort in ein Mikrofon spricht, in einem Korrela tionsrechner mit früher gespeicherten stimmspezifischen Merk malen einer bekannten Person verglichen, die dasselbe Schlüs selwort äußert. Dadurch wird eine erste Korrelationsrate er halten. Zur gleichen Zeit und zwar wenn ein Schlüsselereignis in der Äußerung des Schlüsselwortes durch die zu überprüfende Person entsteht, wird ein Momentanbild der Mundregion der Person aufgenommen, auf die vorher ein Gittermuster proji ziert worden ist. Dieses Momentanbild wird mit einem vorher gespeicherten, entsprechenden Momentanbild der bekannten Per son verglichen, um eine zweite Korrelationsrate zu erhalten.

Die beiden Korrelationsraten werden analysiert, um festzu stellen, ob die zu überprüfende Person mit der bekannten Per son übereinstimmt.

Bei Einrichtungen, die über Sprachbefehle gesteuert werden, insbesondere wenn solche Einrichtungen in Kraftfahrzeugen verwendet werden, besteht ein Problem dahingehend, daß eine andere Person als die Fahrerin oder der Fahrer des Fahrzeugs Sprachbefehle spricht, die dann als Befehle erkannt werden und zur Auslösung bestimmter Funktionen führen. Dies kann zu für den Fahrer verwirrenden oder sogar gefährlichen Zuständen führen.

Der Erfindung liegt die Aufgabe zugrunde, Abhilfe für das vorgenannte Problem zu schaffen.

Gegenstand des Anspruchs 1 ist ein Verfahren zur Lösung die ser Aufgabe.

Erfindungsgemäß wird festgestellt, an welchem Ort sich eine einen Sprachbefehl sprechende Person befindet und werden Sprachbefehle, die diesem Ort zugeordnet sind, nur dann frei gegeben, wenn die den jeweiligen Befehl sprechende Person als an dem Ort befindlich erkannt ist. Für die Ortserkennung gibt es unterschiedlichste Möglichkeiten, beispielsweise indem die Sprache von mehreren Mikrofonen erfaßt wird, so daß über ein Triangulationsverfahren der Ort des Sprechers erkannt werden kann.

Ein anderes Verfahren zur Ortserkennung des Sprechers ist im Anspruch 2 angegeben, wobei dieses Verfahren gemäß dem An spruch 3 zusätzlich dazu verwendet werden kann, die Spracher kennung sicherer zu machen.

Ein System zur Lösung der Erfindungsaufgabe ist im Anspruch 4 angegeben.

Dieses System wird mit den Merkmalen der Ansprüche 5 bis 8 in vorteilhafter Weise weitergebildet.

Die Erfindung ist überall dort mit Vorteil einsetzbar, wo Sprachsteuersysteme eingesetzt werden, bei denen vorbestimmte Befehle nur dann aktiviert werden sollen, wenn sich eine den Befehl sprechende Person innerhalb eines vorbestimmten örtli chen Bereiches befindet.

Die Erfindung kann in Verbindung mit Personenidentifizie rungssystemen eingesetzt werden, wie sie beispielsweise in der eingangs genannten EP 0 082 304 A1 beschrieben sind. Auf diese Weise kann zusätzlich überprüft werden, ob die in einem vorbestimmten örtlichen Bereich befindliche Person eine auto risierte Person ist.

Die Erfindung wird im folgenden anhand schematischer Zeich nungen beispielsweise und mit weiteren Einzelheiten erläu tert.

Es stellen dar:

Fig. 1 eine Aufsicht auf einen vereinfacht dargestellten Innenraum eines Kraftfahrzeugs, und

Fig. 2 ein Blockschaltbild des erfindungsgemäßen Systems. Gemäß Fig. 1 sind im Innenraum eines Kraftfahrzeugs ein Fah rersitz 2, ein Beifahrersitz 4 und eine Fondsitzbank 6 ange ordnet.

Im Dachbereich oberhalb der Windschutzscheibe befindet sich eine Kameraeinrichtung 10 mit Kameras 12 und 14. Der Bildwin kel Ω₁ der Kamera 12 überstreicht einen Bereich, in dem sich normalerweise der Kopf des Fahrers befindet. Der Bildwinkel Ω₂ der Kamera 14 überstreicht einen Bereich, in dem sich nor malerweise der Beifahrer befindet.

Im Dachbereich vor dem Fondraum ist eine weitere Kamera 16 angeordnet, deren Bildwinkel Ω₃ den mittleren Bereich des Fondraums überstreicht. Weiter sind Mikrofone 18 und 20 vor gesehen, wobei das Mikrofon 18 dem Fahrer/Beifahrerraum zuge ordnet ist und das Mikrofon 20 dem Fondraum zugeordnet ist.

Fig. 2 zeigt ein Blockschaltbild der Anordnung gemäß Fig. 1.

Das Mikrofon 18 ist an eine Sprachanalyseeinrichtung 22 ange schlossen, in der die empfangene Sprache durch Korrelation mit in einem Sprachspeicher 24 abgelegten typischen Sprach lauten und Worten analysiert wird und an deren Ausgang den analysierten Lauten bzw. Worten entsprechende Signale erzeugt werden.

Die Kamera 12, die das Gesicht der Fahrerin oder des Fahrers 26 erfaßt, ist mit einer Bewegungsanalyseeinrichtung 26 ver bunden, in der die von der Kamera 12 erfaßten Mundbewegungen im Hinblick auf typische Mundbewegungen analysiert werden und auf ihre Korrelation mit typischen Mundbewegungen zugeordne ten, im Sprachspeicher 24 vorher gespeicherten typischen Lau ten oder Worten überprüft werden. Bei positiver Korrelation erscheinen am Ausgang der Bewegungsanalyseeinrichtung 26 den typischen Lauten und/oder Worten entsprechende Signale.

Die Ausgangssignale der Sprachanalyseeinrichtung 22 und der Bewegungsanalyseeinrichtung 26 werden einer Synchronprüfein richtung 30 zugeführt, die nur solche Laute und/oder Worte durchläßt und einer Korrelationseinrichtung 32 zuführt, die zeitgleich aus der Sprachanalyseeinrichtung 22 und der Bewe gungsanalyseeinrichtung 26 ausgegeben werden.

In der Korrelationseinrichtung 32 werden die empfangenen ty pischen Laute und/oder Worte mit in einer Sektion I eines Be fehlsspeichers 34 abgelegten Befehlen verglichen. Bei positi vem Vergleich wird am Ausgang der Korrelationseinrichtung 32 ein entsprechendes Befehlssignal erzeugt und in einer Steuer einrichtung 36 in ein entsprechendes Steuersignal zum Steuern einer Funktion umgewandelt.

Die dem Beifahrer 40 zugeordnete Kamera 14 ist mit einer wei teren Bewegungsanalyseeinrichtung 42 verbunden, der eine Syn chronprüfeinrichtung 44 nachgeschaltet ist, die mit der Sprachanalyseeinrichtung 22 und einer weiteren Korrelations einrichtung 46 verbunden ist, die mit einer Sektion II des Befehlsspeichers 34 und mit der Steuereinrichtung 36 verbun den ist.

Die Kamera 16 des Fondraums ist der Einfachheit halber nicht in das Blockschaltbild eingezeichnet. Sie ist ähnlich ge schaltet wie die Kamera 14 bzw. die Kamera 12. Das Fondraum mikrofon 20 kann unmittelbar an die Sprachanalyseeinrichtung 22 angeschlossen sein.

Die Funktionen der einzelnen entsprechend fortschrittlichen gängigen Verfahren der Spracherkennung, der Bildverarbeitung und der Informationskorrelationen arbeitenden Komponenten so wie deren Aufbau sind an sich bekannt und werden daher nicht erläutert.

Im folgenden wird daher lediglich das erfindungsgemäße Zusam menwirken der Komponenten beschrieben:
Es sei angenommen, der Fahrer 26 spräche das Befehlswort "Scheibenwischer an". Das Sprechen dieses Sprachbefehls wird zum einen vom Mikrofon 18 erfaßt und zum anderen von der Ka mera 12. In der Sprachanalyseeinrichtung 22 wird durch Ver gleich mit im Sprachspeicher 24 abgelegter Information ermit telt, daß die Wortgruppe "Scheibenwischer an" gesprochen wur de und am Ausgang der Sprachanalyseeinrichtung 22 erscheint ein entsprechendes Signal. In der Bewegungsanalyseeinrichtung 26 werden die Mundbewegungen analysiert, die dem Sprechen der Wortfolge "Scheibenwischer an" entsprechen und durch Korrela tion mit im Sprachspeicher 24 abgelegten Informationen fest gestellt, daß diese Wortfolge gesprochen wurde, so daß am Ausgang der Bewegungsanalyseeinrichtung 26 ein entsprechendes Signal erzeugt wird. In der Synchronprüfeinrichtung 30 wird überprüft, ob beide Signale synchron zueinander sind, so daß das synchrone Signal zu der Korrelationseinrichtung 32 durch gelassen wird, in der überprüft wird, ob dem Signal ein im Befehlsspeicher 34 abgelegter Befehl entspricht. Ist im Be fehlsspeicher 34 ein entsprechender Befehl "Scheibenwischer an" abgelegt, so sendet die Korrelationseinrichtung 32 ein entsprechendes Signal an die Steuereinrichtung 26, in der ein Steuersignal zum Inbetriebsetzen des Scheibenwischers erzeugt wird.

Wird die Wortfolge "Scheibenwischer an" vom Beifahrer 40 ge sprochen, so läuft der geschilderte Vorgang in der Sprachana lyseeinrichtung 22, der Bewegungsanalyseeinrichtung 42, der Synchronprüfeinrichtung 44 und der Korrelationseinrichtung 46 ab. In der Korrelationseinrichtung 46 erfolgt keine positive Korrelation mit einem in der Sektion II des Befehlsspeichers 34 abgelegten Befehl, da in der Sektion II nur solche Befehle abgelegt sind, die für den Beifahrer erlaubte Befehle sind. Entsprechend wird die Steuereinrichtung 36 nicht aktiv, wenn der Beifahrer 40 den Befehl "Scheibenwischer an" spricht.

Durch Segmentierung der in dem Befehlsspeicher 34 abgelegten Befehle in einzelne Sektionen, die unterschiedlichen Kameras bzw. örtlichen Bereichen im Fahrzeuginneren zugeordnet sind, wird somit ermöglicht, daß Sprachbefehle nur dann ausgeführt werden, wenn sie aus einem, dem jeweiligen Sprachbefehl zuge ordneten räumlichen Bereich des Fahrzeuginnenraums kommen. Dabei können bestimmte Befehle durchaus allen Bereichen des Fahrzeuginnenraums zugeordnet sein beispielsweise "Innenbe leuchtung an" oder "Radio aus" und so weiter. Weiter ist es möglich, daß ein Befehl "Temperatur höher" unterschiedliche Funktionen auslöst, je nachdem, ob er vom Fahrer, Beifahrer oder aus dem Fond gesprochen wird. In einer Heizungs-/Klimaanlage werden dann entsprechende Funktionen ausgelöst, die den örtlichen Bereichen zugeordnet sind.

Es versteht sich weiter, daß der Fahrer beispielsweise mit tels einer nicht dargestellten Bedieneinheit Befehle einzel nen örtlichen Bereichen zuordnen kann; beispielsweise kann er Telefonfunktionen für den gesamten Innenraum freigeben, nur für den Beifahrer freigeben usw.

In der bzw. den Synchronprüfeinrichtungen 30, 44 können ver stümmelte Worte, die bezüglich ihrer Synchronisierung noch erkennbar sind, die aber nicht vollständig aufgenommen sind, beispielsweise weil der Mund der sprechenden Person teilweise verdeckt wird oder ein Geräusch das gesprochene Wort über deckt, durch gegenseitige Korrelation ergänzt werden, so daß die Qualität der der Korrelationseinrichtung 32 zugeordneten Information bzw. Worte verbessert ist.

Die Erfindung kann in vielfältiger Weise abgeändert werden. Beispielsweise können die den unterschiedlichen Kameras zuge ordneten Sprachanalyseeinrichtungen, Synchronprüfeinrichtun gen und Korrelationseinrichtungen in einem gemeinsamen Hard ware-Baustein zusammengefaßt sein, wobei die von der jeweili gen Kamera erfaßte optische Information hinsichtlich ihrer Kamerazuordnung gekennzeichnet wird. Die verschiedenen Sek tionen des Befehlsspeichers 34 können dadurch ausgebildet sein, daß den insgesamt im Befehlsspeicher 34 befindlichen Befehlen Informationen hinsichtlich der jeweiligen örtlichen Bereiche bzw. Kameras zugefügt sind. Die Synchronprüfung zwi schen optischen und akustischen Informationen kann bereits vor der Analyse hinsichtlich vorbestimmter Sprachbausteine erfolgen, da zwischen der gesprochenen Sprache und den erfaß ten Mundbewegungen Grundkorrelationen bestehen beispielsweise zwischen Sprachbeginn und Beginn einer Mundbewegung. Der In nenraum des Fahrzeugs kann in mehrere Bereiche aufgeteilt sein, beispielsweise der Fondraum in drei nebeneinander ange ordnete Bereiche. Das System kann auf den Außenraum erweitert werden, der von einer oder mehreren Kameras bereichsweise überdeckt wird.

In vereinfachter Ausführungsform kann das System dazu verwen det werden festzustellen, ob eine Sprache überhaupt von einer im Sichtfeld einer Kamera befindlichen Person ausgeht, indem eine Synchronizität zwischen akustisch aufgenommener Sprache und optisch erfaßter Mundbewegung festgestellt oder nur fest gestellt wird, ob sich ein Mund bewegt. Liegt keine Mundbewe gung vor, so wird eine Sprachauswertung gar nicht aktiviert, so daß Rechnerleistung eingespart bzw. nicht unnötig ver braucht wird.

Claims

1. Verfahren zum Autorisieren von Sprachbefehlen, bei wel chem Verfahren vorbestimmten Sprachbefehlen wenigstens ein vorbestimmter Ort zugeordnet wird, an dem sich eine die Be fehle sprechende Person befinden muß, damit die Sprachbefehle ausgeführt werden, festgestellt wird, ob sich eine einen Sprachbefehl sprechende Person an dem Ort befindet und bei positiver Feststellung die Ausführung der Sprachbefehle freigegeben wird.

2. Verfahren nach Anspruch 1, wobei
Sprache akustisch aufgenommen und hinsichtlich typischer Lau te analysiert wird, wenigstens eine Kamera Mundbewegungen ei ner an einem vorbestimmten Ort befindlichen Person erfaßt,
die aufgenommenen Mundbewegungen hinsichtlich typischer Mund bewegungen analysiert werden,
die typischen Mundbewegungen und die typischen Laute hin sichtlich ihrer zeitlichen Übereinstimmung verglichen werden und
bei positivem Vergleich der Ort des Sprechers als der Ort der mit der Kamera aufgenommenen Person identifiziert wird.

3. Verfahren nach Anspruch 2, wobei typischen Mundbewegungen typische Laute zugeordnet sind und akustisch schlecht aufgenommene Laute durch typische Laute ersetzt werden, die zeitgleich aufgenommenen, typischen Mund bewegungen zugeordnet sind.

4. System zum Autorisieren von Sprachbefehlen in einer mit tels Sprachbefehlen gesteuerten Einrichtung, enthaltend ein Mikrofon (18, 20) zur Aufnahme von Sprache,
eine dem Mikrofon nachgeschaltete Sprachanalyseeinrichtung (22) zur Analyse der Sprache hinsichtlich typischer Laute und/oder Worte,
eine Kameraeinrichtung (12, 14, 16), die Mundbewegungen einer an einem vorbestimmten Ort befindlichen Person aufnimmt,
eine der Kamera nachgeschalteten Bewegungsanalyseeinrichtung (28, 42), die die aufgenommenen Mundbewegungen hinsichtlich typischer Mundbewegungen und/oder diesen zugeordneten typi schen Lauten und/oder Worten analysiert,
eine Synchronprüfeinrichtung (30, 44), die die typischen Mundbewegungen und/oder die aus diesen abgeleiteten typischen Laute und/oder Worte hinsichtlich ihrer zeitlichen Überein stimmung mit aus der Sprachanalyse hergeleiteten typischen Lauten und/oder Worten vergleicht und bei Übereinstimmung weiterleitet, und eine Korrelationseinrichtung (32, 46), die durch Vergleich der weitergeleiteten typischen Laute und/oder Worte mit in einem Befehlsspeicher (34) gespeicherten Befeh len Befehlssignale an eine Steuereinrichtung (36) weitergibt, die die Befehle in diesen zugeordnete Steuersignale umsetzt.

5. System nach Anspruch 4, wobei die Kameraeinrichtung (12, 14, 16) derart ausgebildet ist, daß die Mundbewegungen von an unterschiedlichen vorbe stimmten Orten befindlichen Orten erfaßbar sind und den un terschiedlichen Orten vorbestimmte zulässige Befehle zugeord net sind.

6. System nach Anspruch 4 oder 5, wobei eine Speichereinrichtung (24) vorgesehen ist, in der typi schen Mundbewegungen zugeordnete typische Laute und/oder Wor te abgelegt sind, und die Korrelationseinrichtung (32, 46) bei schlechter Qualität der akustisch aufgenommenen typischen Laute und/oder Worte die den zeitgleich aufgenommenen Mundbe wegungen zugeordneten typischen Laute und/oder Worte weiter leitet.

7. System nach einem der Ansprüche 4 bis 6, wobei die Kamera (12, 14, 16) den Fahrer- und Beifahrerraum in einem Kraftfahrzeug erfaßt und die Steuersignale zur Steuerung von Funktionen vorgesehen sind.

8. System nach Anspruch 7, wobei eine Kamera (16) den Fond raum des Kraftfahrzeugs erfaßt.