-
Die Erfindung betrifft ein Verfahren zum Erfassen einer Sprachäußerung einer sprechenden Person in einem Kraftfahrzeug. Die Sprachäußerung soll insbesondere bei ungünstigen akustischen Verhältnissen, beispielsweise lauten Fahrgeräuschen, möglich sein. Zu der Erfindung gehören auch eine Erfassungsvorrichtung zum Durchführen des Verfahrens sowie ein Kraftfahrzeug mit der erfindungsgemäßen Erfassungsvorrichtung.
-
Durch hohe Nebengeräusche kann die Kommunikation zwischen Personen in einem Kraftfahrzeug und auch bei einem Telefonat auch zwischen einer Person im Kraftfahrzeug und dem fahrzeugexternen Gesprächspartner sehr schwierig sein. Bei der Kommunikation zwischen Personen im Kraftfahrzeug ist insbesondere ein Gespräch zwischen Passagieren im Fond und Passagieren auf den Vordersitzen aufgrund der Sitzposition und Kopfhaltung schwierig. Vor allem bei einer Fahrt bei hoher Geschwindigkeit und/oder bei einer Fahrt mit einem offenen Cabriodach können die Nebengeräusche sehr laut sein. Die vorhandene Elektronik, wie beispielsweise eine Freisprecheinrichtung und Lautsprecher der Audio-Anlage (Radio, Medienwiedergabegerät) kann zur Unterstützung eines Gesprächs innerhalb des Kraftfahrzeugs genutzt werden.
-
Hierzu ist beispielsweise aus der
DE 199 38 171 A1 bekannt, für eine gute Kommunikation zwischen allen Insassen die Freisprechanlage des Kraftfahrzeugs zu nutzen, sodass mittels Mikrofonen der Freisprechanlage personennah eine jeweilige Sprachäußerung erfasst und diese dann über einen Lautsprecher für die übrigen Personen ausgegeben werden kann.
-
Aus der
WO 2008/061205 A2 ist hierzu bekannt, dies insbesondere für eine Kommunikation zwischen Personen auf dem Vordersitz einerseits und Personen auf dem Rücksitz andererseits zu nutzen. Zudem wird das System auch zur Sprachsteuerung von Geräten genutzt, wozu eine Spracherkennungseinrichtung in dem Kraftfahrzeug bereitgestellt sein kann.
-
Das Erfassen einer Sprachäußerung mittels Mikrofonen weist allerdings den Nachteil auf, dass bei hohen Nebengeräuschen ein Mikrofon auch in Sprachpausen ein Mikrofonsignal mit einem Pegel erzeugt, der ähnlich dem Pegel bei erfasster Sprachäußerung ist. Aus der
DE 10 2010 009 888 A1 ist hierzu eine Erkennung bekannt, die überprüft, ob der aufgefangene Schall eine Sprachäußerung enthält oder lediglich die Nebengeräusche darstellt.
-
Die aus dem Stand der Technik bekannten Lösungen verlassen sich vollständig auf die Erfassung der Sprachäußerung mittels eines akustischen Mikrofons. Dies birgt prinzipiell den Nachteil, dass auch die im Kraftfahrzeug vorhandenen Nebengeräusche oder Umgebungsgeräusche stets miterfasst werden.
-
Der Erfindung liegt die Aufgabe zugrunde, in einem Kraftfahrzeug eine Sprachäußerung einer sprechenden Person zu erfassen, um insbesondere eine Kommunikation zwischen Personen im Kraftfahrzeug zu unterstützen.
-
Die Aufgabe wird durch die Gegenstände der unabhängigen Patentansprüche gelöst. Vorteilhafte Weiterbildungen der Erfindung sind durch die Merkmale der abhängigen Patentansprüche, die folgende Beschreibung sowie die Figur offenbart.
-
Durch die Erfindung ist ein Verfahren zum Erfassen einer Sprachäußerung einer sprechenden Person in einem Kraftfahrzeug bereitgestellt. Das Verfahren wird durch eine Erfassungsvorrichtung durchgeführt, die ebenfalls Bestandteil der Erfindung ist.
-
Durch zumindest ein Sensorelement der Erfassungsvorrichtung wird jeweils ein Abstandssignal erzeugt, welches von einem Abstand zwischen dem Sensorelement und einer Körperoberfläche der Person abhängig ist. Die Abstandsmessung ist dabei insbesondere derart genau, dass eine Abstandsänderung kleiner als 1 Millimeter durch das Abstandssignal repräsentiert oder wiedergegeben wird. Des Weiteren erfolgt die Abstandsmessung insbesondere mit einer Abtastrate oder Messrate, die größer als 1 Kilohertz, insbesondere größer als 2 Kilohertz ist. Mit anderen Worten werden also Vibrationen an der Körperoberfläche durch das Abstandssignal repräsentiert oder abgebildet. Es kann aber auch vorgesehen sein, dass das Abstandssignal beispielsweise eine Lippenbewegung der Person repräsentiert.
-
Durch eine Steuereinrichtung der Erfassungsvorrichtung wird auf der Grundlage eines zeitlichen Verlaufs des Abstandssignals ein Audiosignal erzeugt, welches die Sprachäußerung repräsentiert. Das Audiosignal kann beispielsweise ein elektrisches, analoges Signal oder ein digitales Signal sein. Mit Audiosignal ist insbesondere ein Signal gemeint, das Frequenzanteile oder spektrale Anteile in einem Frequenzbereich von 0 Hertz bis 20 Kilohertz, insbesondere von 0 Hertz bis 15 Kilohertz umfasst.
-
Durch die Erfindung ergibt sich der Vorteil, dass das Audiosignal nicht akustisch erfasst oder erzeugt wird, sondern durch eine Abstandsmessung und damit unabhängig von einem Geräuschpegel eines Umgebungsgeräuschs in dem Kraftfahrzeug, z. B. unabhängig von einem Fahrgeräusch und/oder Windgeräusch und/oder Motorgeräusch. Die Sprachäußerung lässt sich aus dem Abstandssignal rekonstruieren oder ermitteln, auf welches das Umgebungsgeräusch in dem Kraftfahrzeug keinen Einfluss hat.
-
Zu der Erfindung gehört auch die Erfassungsvorrichtung zum Erzeugen des Audiosignals. Die Erfassungsvorrichtung umfasst in der beschriebenen Weise das zumindest eine Sensorelement zum Erzeugen des Abstandssignals in Abhängigkeit von dem Abstand zwischen dem Sensorelement und der Körperoberfläche der Person sowie die Steuereinrichtung zum Erzeugen des die Sprachäußerung repräsentierenden oder enthaltenden Audiosignals auf der Grundlage eines zeitlichen Verlaufs des Abstandssignals. Die Erfassungsvorrichtung ist dazu eingerichtet, eine Ausführungsform des erfindungsgemäßen Verfahrens durchzuführen.
-
Zu der Erfindung gehören auch optionale Weiterbildungen, durch deren Merkmale sich zusätzliche Vorteile ergeben.
-
Um das Abstandssignal zu erzeugen, das heißt den Abstand zu messen, kann als Sensorelement beispielsweise eine Time-of-Flight-Kamera (TOF-Kamera) genutzt werden, die in bekannter Weise zum Erfassen eines jeweiligen Abstands zwischen einzelnen Pixelsensoren des TOF-Sensors einerseits und Objekten in der Umgebung der Kamera andererseits ausgelegt ist. Um allerdings mit hoher Abtastrate auch kleine Abstandsänderungen zu erfassen, sieht eine Weiterbildung vor, dass das Abstandssignal durch ein Laservibrometer als das Sensorelement erzeugt wird. Hierdurch ergibt sich der Vorteil, dass Vibrationen beispielsweise auf einer Haut der Person durch das Abstandssignal beschrieben oder wiedergegeben werden können. Solche Vibrationen entstehen beim Sprechen, wenn der Stimmapparat der Person die Haut durch Körperschall in Schwingung oder Vibration versetzt.
-
Eine Weiterbildung sieht vor, dass das Sensorelement den Abstand zu einer Gesichtshaut der Person erfasst. Diese wird aufgrund von Resonanzeffekten im Mund- und Rachenraum der Person besonders deutlich zu Schwingungen angeregt, wenn die Person spricht. Besonders bevorzugt ist es, mittels des Sensorelements den Abstand zu einer Nase der Person zu erfassen. Die Nase einer Person ist ein besonders schwingungsfähiges Organ, an welchem sich ein besonders ausgeprägtes Abstandssignal erfassen lässt.
-
Um eine jeweilige Sprachäußerung von mehreren Personen erfassen zu können, sieht eine Weiterbildung vor, dass durch die Erfassungsvorrichtung zumindest zwei auswählbare Sensorelemente für unterschiedliche Sitzplätze in dem Kraftfahrzeug bereitgestellt werden. Nun werden aber nicht beide Sensorelemente zugleich genutzt, sondern zum Erzeugen des Abstandssignals wird aus den auswählbaren Sensorelementen eines in Abhängigkeit von einem Aktivitätssignal ausgewählt. Dieses Aktivitätssignal kann beispielsweise durch eine Taste erzeugt werden, welche eine Person betätigen kann, um einen Sprechwunsch zu signalisieren.
-
Eine Weiterbildung sieht jedoch vor, dass das Auswählen des Sensorelements automatisiert erfolgt. Bei dieser Weiterbildung umfasst das besagte Aktivitätssignal ein Sitzbelegungssignal einer Belegungserkennungseinrichtung der Sitzplätze. Hierdurch werden prinzipiell nur solche Sensorelemente ausgewählt, die auch zu tatsächlich belegten Sitzplätzen gehören. Um bei mehreren belegten Sitzplätzen die gerade sprechende Person zu detektieren, sieht eine Weiterbildung vor, dass zusätzlich oder alternativ zur Sitzplatzbelegung ein Gestiksignal und/oder ein Mimiksignal einer Erkennungseinrichtung als Aktivitätssignal vorgesehen ist. Die Erkennungseinrichtung überwacht bevorzugt auf der Grundlage von Kamerabildern einer Kamera die Sitzplätze auf sprechende Personen hin. Es werden also mittels einer Bildverarbeitungseinrichtung beispielsweise Gesichtszüge und/oder Bewegungen der jeweils auf dem Sitzplatz befindlichen Person auf ein Sprechkriterium hin überprüft. Ist das Sprechkriterium erfüllt, also beispielsweise eine Lippenbewegung erkannt, so wird das Sensorelement, welches auf diese Person gerichtet ist, ausgewählt, um das Audiosignal zu erzeugen.
-
Das besagte Audiosignal kann beispielsweise über eine Telefonverbindung an den besagten fahrzeugexternen Gesprächspartner eines Telefonats ausgesendet werden. Eine Weiterbildung betrifft allerdings die Nutzung der Erfassungsvorrichtung zum Unterstützen einer Kommunikation innerhalb des Kraftfahrzeugs. Bei dieser Weiterbildung wird das erzeugte Audiosignal über zumindest einen Lautsprecher in dem Kraftfahrzeug wiedergegeben. So kann eine andere Person, die dem Lautsprecher näher sitzt als der sprechenden Person, die sprechende Person z. B. besser verstehen.
-
Allerdings bleibt bei der Ausgabe über Lautsprecher das Problem, dass das Verständnis der Sprachäußerung weiterhin durch Nebengeräusche beeinträchtigt sein kann, die ja auch dem Lautsprecherschall überlagert sind. Eine Weiterbildung sieht deshalb vor, dass durch eine Spracherkennungseinrichtung der Erfassungsvorrichtung auf der Grundlage des Audiosignals eine Spracherkennung zum Umwandeln der Sprachäußerung in eine Textform durchgeführt und die Sprachäußerung in Textform auf einer Anzeigeeinrichtung in dem Kraftfahrzeug angezeigt wird. Hierdurch wird die Sprachäußerung also optisch oder lesbar dargestellt. Damit kann eine Person sie visuell erfassen, was unabhängig von einem Geräuschpegel in dem Kraftfahrzeug möglich ist. Als Spracherkennungseinrichtung kann eine an sich aus dem Stand der Technik bekannte Variante verwendet werden, die beispielsweise auf der Grundlage von Hidden-Markov-Modellen (HMMs) bereitgestellt sein kann.
-
Eine Weiterbildung ermöglicht es, dennoch auch ein Mikrofon zu nutzen. Bei dieser Weiterbildung wird mittels des Audiosignals eine Gatingeinrichtung für zumindest ein Mikrofon gesteuert. Eine Gatingeinrichtung blockiert ein Mikrofonsignal des zumindest einen Mikrofons, falls das Audiosignal eine Sprachpause signalisiert, und leitet das Mikrofonsignal dagegen durch, falls das Audiosignal eine Sprachaktivität signalisiert. Hierdurch ergibt sich der Vorteil, dass die Sprachäußerung auch mittels zumindest eines Mikrofons erfasst werden kann, wodurch die erfassten Sprachfrequenzen, wie sie tatsächlich im Sprachschall enthalten sind, unverfälscht empfangen werden können. Um hierbei möglichst wenig von dem Umgebungsgeräusch mitzuerfassen, wird mittels der Gating-Einrichtung das Mikrofonsignal blockiert, das heißt verworfen oder nicht genutzt, falls gar keine Sprachaktivität vorliegt, das heißt eine Sprachpause erkannt wird. Das Erkennen einer Sprachpause kann mit einer Methode für die Sprachpausenerkennung oder Sprachaktivitätserkennung (VAD – voice activity detection) durchgeführt werden, wie sie an sich im Stand der Technik verfügbar ist. Diese Methoden sind auch auf das Audiosignal anwendbar, obwohl dieses auf der Grundlage einer Abstandsmessung gebildet ist. Da das Audiosignal prinzipiell frei von dem Umgebungsgeräusch ist, kann zur Sprachpausendetektion als Detektionskriterium festgelegt sein, dass bei einem Pegel oder bei einer Energie des Audiosignals kleiner als ein vorbestimmter Schwellenwert eine Sprachpause signalisiert oder erkannt wird.
-
Zu der Erfindung gehört auch ein Kraftfahrzeug, welches eine Ausführungsform der erfindungsgemäßen Erfassungsvorrichtung aufweist. Insbesondere ist für zumindest zwei Sitzplätze des Kraftfahrzeugs jeweils ein auswählbares Sensorelement bereitgestellt. Das erfindungsgemäße Kraftfahrzeug ist bevorzugt als Kraftwagen, insbesondere als Personenkraftwagen, ausgestaltet.
-
Im Folgenden ist ein Ausführungsbeispiel der Erfindung beschrieben. Hierzu zeigt die einzige Figur (Fig.) eine schematische Darstellung einer Ausführungsform des erfindungsgemäßen Kraftfahrzeugs.
-
Bei dem im Folgenden erläuterten Ausführungsbeispiel handelt es sich um eine bevorzugte Ausführungsform der Erfindung. Bei dem Ausführungsbeispiel stellen die beschriebenen Komponenten der Ausführungsform jeweils einzelne, unabhängig voneinander zu betrachtende Merkmale der Erfindung dar, welche die Erfindung jeweils auch unabhängig voneinander weiterbilden und damit auch einzeln oder in einer anderen als der gezeigten Kombination als Bestandteil der Erfindung anzusehen sind. Des Weiteren ist die beschriebene Ausführungsform auch durch weitere der bereits beschriebenen Merkmale der Erfindung ergänzbar.
-
Die Figur zeigt ein Kraftfahrzeug 1, bei dem es sich beispielsweise um einen Kraftwagen, insbesondere einen Personenkraftwagen handeln kann. In dem Kraftfahrzeug 1 können sich beispielsweise zwei Personen 2, 3 befinden. Beispielsweise kann die Person 3 ein Fahrer des Kraftfahrzeugs 1 sein und die Person 2 auf einem Rücksitz des Kraftfahrzeugs 1 sitzen, also im Fond. Für die folgende Erläuterung sei angenommen, dass die Person 2 der Person 3 etwas mitteilen möchte. Hierzu spricht die Person 2, um eine Sprachäußerung 4 zu machen. Ein Sprachschall 5 der Person 2, der beim Sprechen von dieser erzeugt wird, wird durch ein Umgebungsgeräusch 6 überlagert, das beispielsweise ein Motorengeräusch und/oder Windgeräusch sein kann. Der Fahrer 3 hört somit nur eine Überlagerung des Sprachschalls 5 mit dem Umgebungsgeräusch 6. Ist das Umgebungsgeräusch 6 lauter als der Sprachschall 5, so kann die Person 3 die Person 2 allein durch Hören nur schlecht verstehen.
-
Bei dem Kraftfahrzeug 1 wird allerdings die Kommunikation der Personen 2, 3 durch eine Erfassungsvorrichtung 7 unterstützt, welche die Sprachäußerung 4 der Person 3 beispielsweise auf einer Anzeigeeinrichtung 8 als geschriebenen Text 9 anzeigen kann, sodass die Person 3 die Sprachäußerung 4 lesen und damit visuell unabhängig vom Umgebungsgeräusch 6 erfassen kann.
-
Die Erfassungsvorrichtung 7 kann ein Sensorelement 10, eine Steuereinrichtung 11 und optional eine Spracherkennungseinrichtung 12 umfassen. Bei der Sensoreinrichtung 10 handelt es sich insbesondere um ein Laservibrometer. Als Laservibrometer kann das Sensorelement 10 mittels eines Laserstrahls 13 einen Abstand D des Sensorelements 10 zu einer Hautoberfläche 14 der Person 2 erfassen. Das Sensorelement 10 kann hierzu beispielsweise in einem Dachhimmel des Kraftfahrzeugs 1 angeordnet sein. Bevorzugt wird der Abstand D zu einer Nase 15 der Person 2 erfasst. In der Haut der Nase 15 wird durch die Person 2 beim Sprechen der Sprachäußerung 4 eine Vibration 16 erzeugt. Grund dafür ist, dass der Sprechapparat (Mundraum, Rachenraum) der Person 2 auch einen Körperschall im Körper der Person 2 erzeugt, welcher die Vibration 16 der Nase 15 hervorruft. Ein mit dem Abstand D korreliertes Abstandssignal 17 des Sensorelements 10 weist somit über der Zeit t einen Verlauf 17' auf, welcher sich gemäß der Bewegung der Hautoberfläche 14 durch die Vibration 16 verändert.
-
Durch die Steuereinrichtung 11 kann aus dem zeitlichen Verlauf 17' des Abstandssignals 17 ein Audioanteil als Audiosignal 18 beispielsweise als Amplitudenverlauf A ermittelt werden. Beispielsweise kann durch eine Tiefpassfilterung des Abstandssignals 17 ein Grundwert oder Offset 19 entfernt werden, welcher dem sprachunabhängigen Grundabstand der Person 2 zum Sensorelement 10 entspricht. Die Steuereinrichtung 11 kann beispielsweise auf der Grundlage einer Prozessoreinrichtung, wie beispielsweise eines Mikrocontrollers oder eines Mikroprozessors, realisiert sein.
-
Auf Grundlage des Audiosignals 18 kann durch die Spracherkennungseinrichtung 12 (beispielsweise mittels Hidden-Markov-Modellen 20) die Sprachäußerung 4 in dem Audiosignal erkannt und in eine Textform 21 umgewandelt oder als Textform 21 ausgegeben werden. Es steht somit durch die Textform 21 eine Zeichenfolge oder Buchstabenfolge bereit, die beispielsweise auf der Anzeigeeinrichtung 8 angezeigt werden kann.
-
Bei dem Kraftfahrzeug 1 können mehrere Sensorelemente 10 bereitgestellt sein, beispielsweise für zwei oder mehr Fahrzeugsitze jeweils ein Sensorelement. Durch eine Detektionseinrichtung 22 kann jeweils ein Aktivitätssignal 23 für die gerade sprechende Person 2 erzeugt werden, sodass nur das jeweils zugeordnete Sensorelement 10 den zeitlichen Verlauf 17' des Abstandssignals 17 der Steuereinrichtung 11 bereitstellt. Die Detektionseinrichtung 22 kann beispielsweise eine Belegungserkennungseinrichtung für Sitzplätze des Kraftfahrzeugs und/oder eine Gestenerkennung und/oder Mimikerkennung mittels der bereits beschriebenen Erkennungseinrichtung durchführen.
-
Der Sprachschall 5 kann auch mittels eines Mikrofons 24, beispielsweise eines Elektretmikrofons, erfasst werden, wobei eine Gatingeinrichtung 25 vorgesehen sein kann, welche mittels des Audiosignals 18 dahingehend gesteuert werden kann, dass durch einen Lautsprecher 28 nur dann ein Mikrofonsignal 29 wieder als Lautsprecherschall ausgegeben wird, falls anhand des Audiosignals 18 erkannt wird, dass die Person 2 gerade spricht, also Sprachaktivität und damit keine Sprachpause vorliegt.
-
Über den Lautsprecher 28 kann optional auch direkt das Audiosignal 18 ausgegeben werden.
-
Ist also durch hohe Nebengeräusche die Kommunikation in dem Kraftfahrzeug 1, beispielsweise zwischen einerseits Fahrer oder Beifahrer und andererseits Fond-Passagieren gestört, so kann beispielsweise durch die Anzeigeeinrichtung 8 oder mittels eines Lautsprechers 28 beispielsweise einer Freisprecheinrichtung und Radioanlage die Kommunikation zwischen den Personen 2, 3 gefördert oder unterstützt werden.
-
Hierzu werden Gespräche durch die im Kraftfahrzeug bereitgestellte Erfassungsvorrichtung 7 selektiv gefiltert und anschließend beispielsweise über den Lautsprecher 28 wiedergegeben oder als Text in der Anzeigeeinrichtung 8 angezeigt. Als Mikrofon wird hier ein Laservibrometer verwendet, das durch ein weiteres Akustikmikrofon 24 unterstützt werden kann. Das Mikrofon 24 kann beispielsweise Bestandteil in dem Kraftfahrzeug 1 bereitgestellten Freisprecheinrichtung sein.
-
Somit ergibt sich ein Mehrwert für die vorhandene Freisprecheinrichtung und die Audioanlage mit Lautsprechern 28 und die Anzeigeeinrichtung 8 für die Im-Fahrzeug-Kommunikation bei dem Kraftfahrzeug 1.
-
Insgesamt zeigt das Beispiel, wie durch die Erfindung eine vereinfachte Kommunikation innerhalb eines Kraftfahrzeugs bei hohen Nebengeräuschen ermöglicht werden kann.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- DE 19938171 A1 [0003]
- WO 2008/061205 A2 [0004]
- DE 102010009888 A1 [0005]