-
HINTERGRUND
-
Die genaue Erkennung der menschlichen Sprache durch einen Computer hat sich in den letzten Jahren verbessert, ist jedoch noch nicht einhundert Prozent genau. Ein bekanntes Problem bei Spracherkennungssystemen ist der Ausschluss von Geräuschen oder von Sprache, welche von irgendeiner anderen Person als der, deren Sprache beabsichtigt ist, erkannt zu werden, ausgeht, d. h. die Sprache eines Co-Sprechers bzw. Mitsprechers kann die Spracherkennungssysteme verwirren. Indem man in der Lage ist, Geräusche von einem Co-Sprecher zu lokalisieren und zu unterdrücken, würde dies eine Verbesserung gegenüber dem Stand der Technik sein.
-
KURZE BESCHREIBUNG DER ZEICHNUNGEN
-
1 ist eine schematische Darstellung einer Draufsicht auf einen Fahrzeuginsassenraum;
-
2 ist eine schematische Darstellung eines Paares von räumlich selektiven Mikrofon-Detektierstrahlen;
-
3 stellt Paare von Richtungskeulen dar, welche räumlich selektive virtuelle Mikrofone repräsentieren;
-
4 ist ein Blockdiagramm eines Audiosystems;
-
5 stellt Schritte eines Verfahrens dar, welches durch einen Sprachmusterprozessor auf einem einzelnen ”Strahl”-Paar durchgeführt wird und welches ein selektives Erfassen oder Hören von einem Fahrer ermöglicht;
-
6 ist ein Blockdiagramm eines Sprachmusterprozessors;
-
7 ist eine schematische Darstellung einer Draufsicht eines Fahrzeuginsassenraumes;
-
8 zeigt eine Wellenform, welche das elektrische Signal repräsentiert, welches von einem Mikrofon in dem Fahrzeuginsassenraum ausgegeben wird, welcher in 7 dargestellt ist, welches empfänglich für ein Sprachsignal von einem Fahrer ist;
-
9 stellt eine verzögerte Kopie der Wellenform dar, welche in 8 gezeigt wird;
-
10 zeigt eine Wellenform, welche das elektrische Signal repräsentiert, welches von einem Mikrofon ausgegeben ist, welches in 7 gezeigt wird, welches empfänglich für eine Sprachsignal-Klangwellenform von einem Insassen ist; und
-
11 ist eine verzögerte und invertierte bzw. umgekehrte Kopie der Wellenform, welche in 10 gezeigt ist.
-
DETAILLIERTE BESCHREIBUNG
-
Konstruktive und destruktive Interferenz von sich ausbreitenden Wellen, welche durch das Youngsche Experiment dargestellt werden, sind gut bekannt. Einfach ausgedrückt, wenn eine Lichtwelle durch zwei Schlitze hindurchgeht, welche in eine Platte geschnitten sind, werden die Lichtwellen, welche von den Schlitzen austreten, helle und dunkle Streifen auf einem Schirm bilden, welcher hinter der Platte platziert ist. Die sich ändernden Streifen, welche auf dem Schirm erzeugt werden, werden durch additive und destruktive Interferenz der Wellen erzeugt, welche von den Schlitzen ausgehen.
-
Additive und destruktive Interferenz von übertragenen bzw. gesendeten Radiowellen sind ebenfalls gut bekannt. Eine Anwendung dieses Phänomens ist Phasenfeldradar. Einfach ausgedrückt, Phasenfeldradar steuert ein RF-Signal, welches von zwei dicht benachbarten Antennen ausgesendet wird, und daher steuert es einen Radar-”Strahl” durch das Ändern der Phase des RF-Signals, welches zu einer Antenne gesendet ist, relativ zu dem Signal, welches zu einer zweiten Antenne gesendet ist.
-
Eine andere Anwendung der additiven und destruktiven Interferenz von sich ausbreitenden Wellen sind richtungsselektive oder ”strahlbildende” Mikrofone, welche auch gut bekannt sind. Siehe zum Beispiel
McCowan et al., "Near-field Adaptive Beam former for Robust Speech Recognition", Queensland University of Technologiy, Brisbane, Australien, dessen gesamter Inhalt hier als Referenz eingearbeitet ist. Wie nachfolgend beschriebe wird, lokalisieren und detektieren viele Paare von Super-Richtungs-Mikrofonen, von denen jedes durch das digitale Verzögern von Signalen aus zwei unterschiedlichen Mikrofonen durch progressiv unterschiedliche Zeitlängen bewirkt wird, Töne eines Fahrers und eines mitsprechenden Insassen genau. Töne von einem mitsprechenden Insassen, welche durch wenigstens ein Superrichtungs-Mikrofonpaar aufgegriffen sind, welches das stärkste Mitsprechende-Insassen-Audio besitzt, werden von den Tönen des Fahrers entfernt, welche durch das Superrichtungs-Mikrofonpaar aufgegriffen sind, welches das stärkste Fahrer-Audiosignal besitzt.
-
Mit Bezug auf die Figuren, ist 1 eine schematische Darstellung einer Draufsicht auf einen Fahrzeuginsassenraum 100, einen Fahrzeugfahrer 102, einen Fahrzeuginsassen 104 und Ton- bzw. Klangwellen, welche von jedem von diesen ausgesendet sind, wobei die Tonwellen durch konzentrische Kreisteilbereiche 106 repräsentiert sind. 1 zeigt auch die Platzierung von zwei Nichtrichtungs- und Allzweckmikrofonen 108, 110 relativ zu dem Fahrer 102 und dem Insassen 104. In 1 werden die Mikrofone 106, 108 gezeigt, wie sie an dem Rückspiegel 112 des Fahrzeugs befestigt sind, und somit durch einen verhältnismäßig kleinen Abstand 114 voneinander beabstandet sind, welcher typischerweise 10–14 inch beträgt.
-
Wie 1 zeigt, ist das Mikrofon 108 auf der rechten Seite weiter von dem Fahrer 102 entfernt als das Mikrofon 108 auf der linken Seite. In ähnlicher Weise ist das linksseitige Mikrofon 108 weiter von dem Insassen 104 entfernt als es das rechtsseitige Mikrofon 110 ist. Eine Klangwelle 106, welche von dem Fahrer 102 ausgesendet wird, wird demnach das linksseitige Mikrofon 108 erreichen, bevor die gleiche Klangwelle 108 von dem Fahrer 102 das rechtsseitige Mikrofon 110 erreicht. Eine Klangwelle 106, welche von dem Insassen 104 auf der anderen Seite ausgesendet wird, wird demnach das rechtsseitige Mikrofon 110 erreichen, bevor die gleiche Klangwelle 104 von dem Insassen 104 das linksseitige Mikrofon 108 erreicht.
-
Wenn der Fahrer 102 spricht, erreicht die entsprechende Klangwelle 106 von dem Fahrer 102 die zwei Mikrofone 108, 110 zu zwei unterschiedlichen Zeiten. Der Klang von dem Fahrer wird das linke Mikrofon 108 erreichen, bevor der Klang das rechte Mikrofon 110 erreicht. Das analoge elektrische Signal, welches durch das rechtsseitige Mikrofon erzeugt ist, wenn es die Klangwelle von dem Fahrer überträgt, wird einen Phasenwinkel besitzen, welcher dem Phasenwinkel des elektrischen Signals ”nacheilt” oder hinter diesem ist, welches durch das linksseitige Mikrofon erzeugt ist, wenn es die gleiche Klangwelle überträgt. Wenn der Insasse 104 spricht und die entsprechende Klangwelle 106 von dem Insassen 104 die zwei Mikrofone 108, 110 erreicht, wird das analoge elektrische Signal, welches durch das linksseitige Mikrofon erzeugt ist, wenn es die Klangwelle von dem Insassen überträgt, einen Phasenwinkel besitzen, welcher ”nacheilt” oder hinter dem Phasenwinkel des elektrischen Signals ist, welches durch das rechtsseitige Mikrofon erzeugt ist, wenn es die gleichen Insassenklangwelle überträgt.
-
Audiosignale von den zwei Mikrofonen werden abgetastet und in einen digitalen Wert gewandelt, welcher repräsentativ für Abtasttechniken ist, welche für Fachleute in der Signalverarbeitung gut bekannt sind. Um einen Superrichtungs-Mikrofon-”Strahl” herzustellen, d. h. ein Mikrofon, welches richtungsselektiv ist, ist es notwendig, ein Äquivalent zu der additiven und konstruktiven Interferenz von Wellen zu bewirken, welche von den unterschiedlichen Orten im Raum herrühren und welche unterschiedliche Abstände zu den zwei Mikrofonen zu überwinden haben. Als Äquivalent, um räumlich die Mikrofone an unterschiedlichen Orten zu platzieren, um eine Addition von Wellen zu erreichen, welche von einer speziellen Richtung kommen, wird der Digitalwert, welcher eine Abtastung von einem ersten Mikrofon repräsentiert, selektiv verzögert, in digitaler Weise, durch eine vorher festgelegte Zeitlänge und dann mit einer Abtastung kombiniert, welche von dem anderen Mikrofon erhalten ist. Wenn ein digitaler Wert, welcher für eine unverzögerte Abtastung repräsentativ ist, zu einem digitalen Wert addiert wird, welcher für eine zuvor erhaltene und verzögerte Abtastung repräsentativ ist, wird der resultierende Wert entweder eine additive oder eine destruktive Interferenz der Audiosignale sein, welche durch die Mikrofone detektiert sind. Mit anderen Worten, durch das selektive Verzögern und Kombinieren von Abtastungen aus unterschiedlichen Mikrofonen werden die Signale, welche durch die zwei Mikrofone bereitgestellt sind, mit einer additiven oder destruktiven ”Interferenz” der Audiosignale kombiniert, von welchen die Abtastungen erhalten wurden. Das selektive Verzögern und Kombinieren verzögerter Abtastungen, welche von den Mikrofonen erhalten sind, ermöglicht den zwei Mikrofonen, selektiv Audio von unterschiedlichen Orten zu empfangen. Die Mikrofone verhalten sich damit so, als ob sie Audio von nur einem Bereich oder einer Fläche empfangen, welche bei einem Abstand von beiden Mikrofonen platziert ist, so dass sich die Signale, welche an den Mikrofonen empfangen sind bzw. werden, additiv kombinieren werden. Audiosignale, welche von Orten in dem Fahrzeug ihren Ursprung haben, so dass sie, wenn sie kombiniert werden, destruktiv miteinander interferieren, können dadurch durch das additive oder destruktive Kombinieren von Abtastungen miteinander selektiv empfangen oder unterdrückt werden.
-
Signale von den zwei Mikrofonen 108, 110 können so manipuliert werden, um eine räumliche Selektivität oder einen ”Strahl” zu bewirken, von welchem die Klänge, welche durch beide Mikrofone detektiert sind, additiv oder kohärent miteinander kombiniert werden und damit für den nachfolgenden Gebrauch oder die Verarbeitung verfügbar sind.
-
2 ist eine schematische Darstellung eines Paares von räumlich-selektiven Mikrofondetektier-”Strahlen” 200, 204, welche auch hier als ein ”Strahlpaar” 206 bezeichnet werden. Die ”Strahlen” 202, 204 werden durch konstruktive und destruktive Interferenz von Klangwellen erzeugt, wie oben beschrieben. Eine linksseitige Mikrofonfläche bzw. -bereich der Empfindlichkeit oder des ”Strahles” 202 wird dorthin ”gerichtet”, wo der Fahrer 102 in einem Fahrgastraum 100 platziert ist, und detektiert selektiv Klänge, welche von dem Fahrer ausgesendet sind. Ein rechtsseitiger Mikrofon-”Strahl” 204 wird in die Richtung ”gerichtet”, wo der Insasse 104 platziert ist, detektiert selektiv Klänge, welche von dem Insassen 104 ausgesendet sind.
-
Fachleute in der Signalverarbeitung werden erkennen, dass ein gewisser Klang von dem Fahrer 102 das Mikrofon 110 erreicht und durch dieses detektiert wird, welches am nächsten zu dem Insassen 104 ist. In ähnlicher Weise wird auch Klang von einem Insassen 104 das Mikrofon 108 erreichen und durch dieses detektiert werden, welches am nächsten zu dem Fahrer 102 ist. Es ist deshalb wichtig, den Fahrer und den mitsprechenden Insassen so dicht als möglich zu platzieren, um in der Lage zu sein, den detektierten Mitsprecherklang von dem detektierten Fahrerklang zu unterdrücken. Sobald der mitsprechende Insasse platziert bzw. lokalisiert ist, kann die Sprache des Mitsprechers, welche durch einen Mikrofonstrahl aufgefangen ist bzw. wird, unterdrückt werden.
-
3 stellt ein Paar von Richtungskeulen dar, wobei die Paare durch Bezugsziffern 302A und 302B, 304A und 304B und 306A und 306B identifiziert sind. Die Keulen repräsentieren allgemein die räumlichen Bereiche des Insassenraumes 100, in welchen die Klänge selektiv detektiert werden, indem zwei physikalische Mikrofone 301, 312 benutzt werden, deren Ausgangsklänge digital bearbeitet werden, um eine Vielzahl von richtungsselektiven virtuellen Mikrofonen zu bewirken, wobei die Prinzipien der additiven und destruktiven Interferenz von ausbreitenden Radiowellen benutzt werden.
-
Unterschiedliche selektive Richtungen der Strahlpaare werden durch das Detektieren eines Klanges erreicht, welcher durch ein erstes virtuelles Mikrofon aufgefangen ist und durch ein zweites virtuelles Mikrofon aufgefangen ist. Klang von einem der virtuellen Mikrofone wird selektiv durch progressiv unterschiedliche Zeitlängen verzögert. Jede verzögerte Abtastung wird dann mit einer Abtastung eines Klanges kombiniert, welcher gleichzeitig durch die anderen Mikrofone detektiert wird. Da die Mikrofone durch geringfügig unterschiedliche Abstände weg von einer Klangquelle platziert sind, wird ein Klang, welcher durch ein Mikrofon aufgefangen ist, einen unterschiedlichen Phasenwinkel besitzen, gegenüber dem gleichen Klang, welcher durch ein unterschiedliches Mikrofon aufgefangen ist.
-
Wenn die Differenz zwischen den zwei Phasenwinkeln 180 Grad ist, wird das Zusammenaddieren der Klänge verursachen, dass sich die Klänge, welche durch die Mikrofone aufgefangen sind, auslöschen. Durch das Ändern der Längen der Zeitverzögerung des Klanges von einem Mikrofon und das Kombinieren der unterschiedlich verzögerten Klänge miteinander, wird das Kombinieren der unterschiedlich verzögerten Abtastungen mit einer unverzögerten Abtastung, unterschiedliche Grade von entweder additiver oder destruktiver Interferenz erzeugen. Derartige Interferenz tritt auf, als ob die detektierten Klänge von unterschiedlichen räumlichen Orten ihren Ursprung haben, was äquivalent zu einem ”Lenken” der Richtungen ist, von welchen das Audio detektiert wird. Ein Strahlpaar 302, 304, 306, welches konstruktive Interferenz von Signalen mit größter Amplitude von dem Fahrer bzw. dem Insassen erzeugt, bestimmt sowohl die Fahrer- als auch die Insassenorte genauer, als es möglich ist, indem nur ein einzelner Strahlt benutzt wird, jedoch auch ihre jeweiligen Sprachsignale genauer, als es möglich ist, wenn nur ein einzelner Strahl benutzt wird. Eine Entscheidung, ob ein Klang von einem Insassen oder einem Fahrer ist, wird basierend darauf durchgeführt, ob die Amplituden der Klänge, welche durch die Mikrofone detektiert sind, oberhalb oder unterhalb von vorher eingestellten Schwellwerte sind, wie dies nachfolgend dargelegt wird.
-
In einer anderen Ausführungsform können die elektrischen Signale, welche von den räumlich getrennten Mikrofonen ausgesendet sind, selektiv ”gegated” oder abgetastet werden, um Klangwellen, welche an den zwei Mikrofonen zu unterschiedlichen Zeiten ankommen, selektiv zu empfangen oder zu ignorieren. Beispielsweise können die elektrischen Signale von dem Mikrofon 108 zu dem ersten Zeitpunkt t1 abgetastet werden und danach vernachlässigt werden. Zu einer späteren Zeit t2 können die elektrischen Signale von dem anderen Mikrofon 110 abgetastet und danach vernachlässigt werden. Durch das Wählen von t1 und t2 derart, dass die Differenz zwischen ihnen gleich zu der Zeit ist, welche für eine Welle eines Klanges erforderlich ist, um sich von dem ersten Mikrofon zu dem zweiten Mikrofon auszubreiten, werden sich die zwei Abtastwerte konstruktiv addieren. Umgekehrt, wenn t1 und t2 so ausgewählt werden, dass ihre Differenz die Zeit ist, welche für eine halbe Wellenlänge eines Klanges notwendig ist, um sich von dem ersten Mikrofon zu dem zweiten Mikrofon auszubreiten, werden sich die zwei Abtastwerte destruktiv addieren. Das selektive Auswählen von t1 und t2 gestattet somit, dass die zwei räumlich getrennten Mikrofone richtungsmäßig Klänge unterscheiden, und zwar durch das Abtasten von Klängen von den Mikrofonen zu unterschiedlichen Zeiten.
-
Durch das Vergleichen der relativen Amplituden der Klänge, welche selektiv durch jedes Strahlpaar detektiert sind, und das Vergleichen dieser Amplituden mit experimentell bestimmten, vorher festgelegten Schwellwerten, weisen die Strahlpaare ein richtungsselektives Filter auf, mit welchem eine Platzierung eines Fahrers und das Audio des Fahrers genauer lokalisiert werden können, als es ohne das Benutzen vieler Strahlpaare möglich ist. Audiosignale von den Strahlpaaren 302, 304, 306 sind demnach in der Lage, einen Fahrer und einen Insassen zu lokalisieren. Strahlpaare, welche verglichen zu Schwellwerten die stärksten detektierten Signale bereitstellen, werden danach benutzt, um selektiv Insassen-Audiosignale von Fahrer-Audiosignalen zu trennen. Wie oben festgestellt, gestatten die Strahlpaare eine selektive Lokalisierung einer Sprache eines Fahrers und einer Sprache eines Insassen durch das Vergleichen von Ausgangssignalen, welche von jedem Strahlpaar erzeugt sind. Die vielen Strahlpaare gestatten auch die Unterdrückung von Sprachsignalen, welche von einem Insassen herrühren.
-
4 ist ein Blockdiagramm eines Audiosystems 400, welches durch Sprache gesteuert wird. Das System 400 weist auf: zwei herkömmliche, jedoch räumlich getrennte Mikrofone 402, 404, einen herkömmlichen Analog-zu-digital-(A/D-)Wandler 406, einen Schnelle-Fourier-Transformation-Prozessor 408, welcher konfiguriert ist, Fourier-Transformationen der digitalen Signale von dem A/D-Wandler 406 zu erzeugen, einen Sprachmuster- bzw. Sprachabtastungsprozessor 416, ein Spracherkennungsglied 418 und einen Befehlsprozessor 420. Der Befehlsprozessor 420 bildet einen Teil eines getrennten Fahrzeugsystems 422, zum Beispiel eine über Sprache aktivierte Navigation oder ”Infotainment”-Einrichtung oder -System.
-
In einer bevorzugten Ausführungsform ist das Fahrzeugsystem 422 durch Sprachbefehle steuerbar, welche durch den Sprachabtastprozessor bzw. Spracherfassungsprozessor 416 zuerst erkannt werden, dass sie von einem Fahrer kommen. Befehle, welche erkannt werden, wenn sie von einem Fahrer kommen, werden danach für ein Spracherkennungsglied bereitgestellt, welches konfiguriert ist, Klänge zu bearbeiten und Phänomene zu erkennen und elektrische Signale zu erzeugen, welche konfiguriert sind, einen Betrieb eines Fahrzeugsystems zu bewirken, wie zum Beispiel einen Befehl für ein Radio, ein Handy oder ein Navigationssystem. In einer bevorzugten Ausführungsform sind der Spracherfassungsprozessor 416 und das Spracherkennungsglied 418 in dem gleichen digitalen Signalprozessor (DSP) eingebettet.
-
Wie oben festgestellt, sind das Strahlformen und Mikrofonstrahlformen gut bekannt, jedoch ist das Strahlformen von vielen Strahlen und das selektive Detektieren und Unterdrücken von Klängen von jeweils einem Fahrer und einem Insassen bisher nicht bekannt. 5 stellt die Schritte eines Verfahrens dar, welches durch den Spracherfassungsprozessor an einem einzelnen ”Strahl”-Paar durchgeführt wird und welches das selektive Erfassen oder Audio von einem Fahrer und das gleichzeitige Reduzieren oder Unterdrücken von Audiosignalen von einem Insassen gestattet, wobei viele supergerichtete Paare von Mikrofon-”Strahlpaaren”, wie zum Beispiel das eine, welches in 3 dargestellt ist, benutzt werden. Die Schritte, welche in 5 gezeigt werden, werden demnach auf einer Strahlpaar-nach-Strahlpaar-Grundlage durchgeführt.
-
Schritte, welche in 5 präsentiert werden, sind nicht in einer speziellen Reihenfolge, in welcher die Schritte durchgeführt werden müssen. Beispielsweise können die Frequenzkomponenten einer FFT-Repräsentation einer Sprachabtastung von einem ersten Mikrofon zu jeder Zeit davor bestimmt werden, wenn die Frequenzkomponenten einer Abtastung von einer FFT-Repräsentation einer zweiten Abtastung von einem zweiten Mikrofon entfernt oder subtrahiert werden müssen.
-
In einem ersten Schritt 502, welcher in 5A gezeigt wird, wird eine Schnelle-Fourier-Transformation-(FFT-)Repräsentation einer Abtastung eines Signals, welches durch ein erstes der zwei Mikrofone übertragen ist, erzeugt. Die Abtastung wird in einem Register oder einer Speichereinrichtung im Schritt 504 gespeichert, um in der Lage zu sein, die Zeit zu steuern, so dass die digitale Repräsentation der Mikrofonabtastung mit einer Abtastung von einem anderen Mikrofon kombiniert werden wird.
-
Schritt 506 zeigt, dass es gestattet ist, dass ein vorher festgelegter Zeitbetrag durchläuft. Nachdem der vorher festgelegte Zeitbetrag verstrichen ist, werden die Frequenzkomponenten der FFT im Schritt 508 bestimmt. Wie oben festgestellt, kann die Bestimmung der FFT-Komponenten auch erfolgen, bevor die FFT gespeichert wird.
-
Im Schritt 510, welche in 5B gezeigt wird, wird ein maximaler Signalpegel für jede der Frequenzkomponenten in der FFT der ersten Abtastung bestimmt. Anders ausgedrückt, eine Maximalamplitude der Klänge, welche durch das Mikrofon aufgefangen ist, welches am nächsten zu dem Fahrer ist, wird bestimmt.
-
Im Schritt 512 werden Frequenzkomponenten der zweiten Abtastung bestimmt. Sozusagen werden die Frequenzkomponenten des Audio, welche durch das Mikrofon, welches am nächsten zu dem Insassen ist, aufgefangen sind, bestimmt.
-
Im Schritt 514 werden die Komponenten der Frequenzen, welche durch das Mikrofon aufgefangen sind, welches am nächsten an dem Fahrer ist, von den Frequenzkomponenten des Audios entfernt, welche durch das Mikrofon aufgefangen sind, welches am nächsten zu dem Fahrer ist. Die resultierende Differenz ist ein Nullen der Komponenten der Signale, welche durch das Mikrofon aufgefangen sind, welches am nächsten zu dem Insassen ist, von den Signalen, welche durch das Mikrofon aufgefangen sind, welches am nächsten zu dem Insassen ist.
-
Es ist wichtig, dass die Signale, welche durch das Mikrofon aufgefangen sind, welches am nächsten zu dem Insassen ist, und die Signale, welche durch das Mikrofon aufgefangen sind, welches am nächsten zu dem Fahrer ist, Signale sind, welche durch ein richtungsmäßig diskriminierendes virtuelles Mikrofon aufgefangen sind, welches hier als ein Mikrofon-”Strahl” bezeichnet wird. Anders ausgedrückt, die Signale, welche durch jedes Mikrofon aufgefangen sind, sind die Audiosignale, welche richtungsmäßig durch eine kohärente oder konstruktive Interferenz von Wellen ausgewählt sind, welche durch die zwei Mikrofone aufgefangen sind. Darüber hinaus werden viele Mikrofon-”Strahlen” in jeder Richtung benutzt, d. h. viele ”Strahlen” werden in Richtung des Fahrers und viele ”Strahlen” werden in Richtung des Insassen gerichtet bzw. gesteuert. Audiosignale, welche von den vielen Strahlen aufgefangen sind, welche in Richtung des Insassen gerichtet sind, von denen ein Strahl einen maximal detektierten Signalpegel haben wird, werden von den Audiosignalen unterdrückt, welche durch die vielen Strahlen aufgefangen sind, welche in Richtung des Fahrers gerichtet sind, wobei ein Strahl von diesen auch einen detektierten maximalen Signalpegel besitzen wird. Die vielen richtungsselektiven Mikrofon-Strahlpaare werden durch selektives Verzögern von Abtastungen von einem der zwei Mikrofone durch unterschiedliche Zeitlängen bereitgestellt.
-
Trotz der Richtungsselektivität, welche durch Empfangen von Audioabtastungen bei unterschiedlichen ausgewählten Zeiten an einem ersten Mikrofon und durch das Kombinieren dieser Abtastungen mit Abtastungen von einem zweiten Mikrofon erreicht werden können, ist es nicht möglich, vollständig das Detektieren von Klang zu vermeiden, welcher von Orten außerhalb eines Richtungsstrahls herrührt. Anders ausgedrückt, beide Mikrofone werden wenigstens einiges an Audio von sowohl einem Fahrer als auch einem Insassen detektieren. Das Detektieren von Sprache vorzugsweise von einer ersten Person, während eine zweite Person ebenfalls spricht, erfordert das Identifizieren von Sprache, welche von der zweiten Person kommt. Das Unterdrücken oder Nullen einer Sprache eines Mitsprechers, d. h. das Mitsprecher-Nullen (CT) weist im Wesentlichen drei Schritte auf, von denen einer optional ist.
-
Der erste Schritt besteht darin, den räumlichen Ort jeglicher Sprache zu identifizieren, was erreicht wird, indem die Methodologie und das oben beschriebene Gerät benutzt werden. Ein zweiter Schritt besteht darin, die Sprache abzuschwächen, für welche bestimmt wird, dass sie von einem anderen Ort als dem Fahrer kommen, d. h. Signale von der detektierten Sprache des Fahrers zu entfernen oder zu unterdrücken, welche von anderen Quellen als dem Fahrer kommen. In einem dritten und optionalen Schritt wird Komfortrauschen für jegliche Sprache injiziert, welche abgeschwächt ist.
-
In einer bevorzugten Ausführungsform, deren Operation bzw. Betrieb durch die nachfolgenden Gleichungen repräsentiert wird, sind wνD,k(f) und wνP,k(f) die k-ten, das virtuelle Mikrofon strahlbildenden Mikrofon-Wichtungsvektoren. Sie repräsentieren richtungsselektive Strahlen von strahlformenden Mikrofonen, welche auf den Fahrer bzw. den Beifahrer ”schauen”. Ausgangssignale von diesen zwei Wichtungsvektoren werden berechnet als: ZFD,k(f) = wν H / D,k(f)ZF(f) ZFP,k(f) = wν H / P,k(f)ZF(f) wobei H die Hermitian-Transponierte bezeichnet.
-
Eine Menge ζ wird benutzt, um die Quelle eines Signals aus vier Möglichkeiten zu bestimmen: 1. Fahrer, 2. Insasse, 3. gleichzeitig (Fahrer- + Insasse-Sprache überlappen sich in der Zeit) und 4. Sprache-Abwesenheit. Der Frequenzbereich, über welchen ζ berechnet wird, wird so gewählt, dass ein Strahlpaar wν
D,k(f) und wν
P,k(f) einen großen Kontrast/Unterscheidung in der Richtung aufweist. Die Menge ζ wird aus ZF
d(f) und ZF
p(f) wie folgt berechnet:
-
Maximale und minimale Werte von ζ werden berechnet als:
-
Ein Frequenzbereich ist von einem ersten ”bin”, N1 zu einem zweiten ”bin”, N2. Die Werte von N1 und N2 werden aus der Kenntnis der Mikrofon-Anordnungsgeometrie bestimmt.
-
Eingeschlossen in diesen Berechnungen ist eine Paarung zwischen fahrerseitigem Mikrofonpaaren, d. h. einer Paarung der Mikrofonstrahl-”Keulen” auf der Fahrerseite mit Mikrofonstrahl-”Keulen” auf der Insassenseite. Die Mikrofonpaarungen werden durch die Symmetrie der Mikrofonanordnung definiert. Zum Beispiel ist für den virtuellen Mikrofonindex k = 0 das fahrerseitige virtuelle Mikrofon der am meisten linke Strahl, und der insassenseitige Strahl ist der am meisten rechte Strahl, d. h. die gepaarten virtuellen Mikrofone sind Spiegelbilder um die Breitseite. Durch das Definieren von zwei Schwellwerten D
threshold und P
threshold wird der Ort einer Quelle der Sprache, vQuelle, entsprechend zu den Schritten bestimmt, welche in dem folgenden Pseudocode dargelegt sind:
wobei VAD ein Sprachaktivitätsdetektor ist, welcher für Fachleute gut bekannt ist.
-
Einfach ausgedrückt, wenn ein Detektor der Aktivität der Sprache eines Fahrers, VAD, wahr ist, ist Sprache detektiert worden. Die detektierte Sprache wird betrachtet, dass sie Sprache von dem Fahrer ist, wenn die Minimalamplitude der detektierten Sprache ζmin größer ist als ein erster experimentell bestimmter minimaler Schwellwert für die detektierte Sprache des Fahrers, d. h. Dthreshold. Wenn die Maximalamplitude der detektierten Sprach kleiner als ein zweiter experimentell bestimmter maximaler Schwellwert für die detektierte Sprach des Insassen ist, d. h. Pthreshold. Wenn die Maximalamplitude der detektierten Sprache größer als Pthreshold und kleiner als Dthreshold ist, wird die detektierte Sprache betrachtet, dass sie von sowohl dem Insassen als auch dem Fahrer kommt.
-
6 ist ein Blockdiagramm eines Gerätes 600, welches die Funktionalität eines Sprachabtastungsprozessors, welcher in 4 dargestellt ist, bereitstellt, dessen wenigstens einige Funktionalität oben beschrieben ist und in 5 dargestellt ist. Vereinfacht ausgedrückt, das Gerät wird vorzugsweise als ein digitaler Signalprozessor 602 eingebettet, wobei eines oder mehrere nicht-transitorische Speichereinrichtungen 604 und vorher festgelegte Instruktionen in der Speichereinrichtung gespeichert sind und deshalb nicht in 6 gezeigt werden.
-
Wenn die Instruktionen in der Speichereinrichtung 604 ausgeführt werden, veranlassen sie den DPS, die Verfahrensschritte durchzuführen, welche oben beschrieben sind, wobei die Verfahrensschritte beinhaltet sind, welche in 5 gezeigt werden. Der Speicher 604 ist an den DSP 602 über einen herkömmlichen Bus 606 gekoppelt.
-
Das Gerät und die Verfahrensweise, welche oben beschrieben sind, sind effektiv, Sprache von einem Fahrer und Null-Sprache von einem mitsprechenden Insassen zu detektieren, solange wie die Mikrofone, welche betrieben werden, um richtungsunterscheidende Mikrofonstrahlen bereitzustellen, relativ dicht zueinander sind, wobei eine bevorzugte Beabstandung von ungefähr zehn bis vierzehn Inch Trennung zwischen diesen vorhanden sind. Wenn der Trennungsabstand zwischen den Mikrofonen signifikant größer als z. B. ungefähr 30 inch oder mehr ist, wird das selektive Verzögern von Sprachabtastungen, um strahlbildende Mikrofone bereitzustellen, problematisch. Wenn der Mikrofonabstand ungefähr 30 inch oder mehr beträgt, wird ein unterschiedliches Gerät und Verfahren benutzt, um die Sprache von einem Fahrer und Null-Sprache von einem mitsprechenden Insassen zu detektieren.
-
In einer anderen Ausführungsform sind, wobei die Mikrofone relativ weit weg voneinander beabstandet sind, d. h. ungefähr 30 inch, zwei ”strahlbildende” Mikrofone angeordnet, so dass die akustische Energie, welche aus der Richtung eines gewünschten Lautsprechers austritt, eine Null-Grad-Phase zwischen den zwei Strahlen besitzt; akustische Energie, welche aus der Richtung eines Mitsprechers austritt, besitzt eine relative Phase von 180 Grad. Eine Phasenabschätzung der zwei Strahlen wird als Sprecher-Diskriminator bzw. -Unterscheidungsglied benutzt. Eine Phasenabschätzung der zwei Strahlen ist auch als ein Mitsprecher-Nullen-Mechanismus verwendbar.
-
7 ist eine schematische Darstellung einer Draufsicht eines Fahrzeuginsassenraumes 700, eines Fahrzeugfahrers 702, eines Fahrzeuginsassen 704 und von Klangwellen, welche von jedem von diesen ausgesendet werden, wobei die Klangwellen durch konzentrische Kreisteilbereiche 706 bzw. 708 repräsentiert werden. 7 zeigt auch das Platzieren von zwei Nicht-Richtungs- und Allgemeinzweck-Mikrofonen 710, 712 relativ zu dem Fahrer 702 und dem Insassen 704. In 7 sind die Mikrofone 710, 712 beide an den gleichen Digitalsignalprozessor (DSP) gekoppelt, und sind von jedem durch einen Trennungsabstand S getrennt, welcher ungefähr 30 inch beträgt. Die beiden Mikrofone und der DSP sind konfiguriert, so dass zwei richtungsselektive Mikrofone in der Lage sind, Klang von dem Fahrer und dem Insassen aufzunehmen.
-
8 zeigt eine erste Wellenform 800-1, welche das elektrische Signal repräsentiert, welches von dem ersten Mikrofon 710 ausgegeben ist, welches auf eine Sprachsignal-Klangwelle 706 anspricht, welche von einem Fahrer 102 ausgesendet wird und welche auf das erste Mikrofon 710 einwirkt. Eine zweite Wellenform 800-2, welche identisch zu der ersten Wellenform 800-1, jedoch geringfügig verzögert ist, repräsentiert das elektrische Signal, welches von dem zweiten Mikrofon 712 ausgegeben ist, welches für die gleiche Sprachsignal-Klangwelle 706 empfänglich ist, welche von einem Fahrer 102 ausgesendet wird, welche jedoch auf das zweite Mikrofon 712 einwirkt. Die zweite Wellenform 800-2 wird deshalb um eine kurze Zeitperiode geringfügig ”hinter” der ersten Wellenform 800-1 erzeugt. Die zweite Wellenform 800-2 und die erste Wellenform 800-1 unterscheiden sich demnach nur in der Zeit, wobei die Differenz zwischen den beiden Wellenformen, welche durch eine Phasenwinkeldifferenz gemessen wird, als ”ϕ” bezeichnet wird.
-
Wenn die erste Wellenform 800-1, welche durch das erste Mikrofon 710 erzeugt ist, durch eine sehr kurze Zeitperiode verzögert wird, welche gleich zu der Zeitdifferenz ist, welche ϕ entspricht, werden die verzögerte Wellenform 800-1 und die zweite Wellenform 800-2 dann in Phase miteinander sein. Wenn die zwei In-Phase-Wellenformen zusammenaddiert werden, werden sie sich konstruktiv zueinander addieren, wie es in 9 gezeigt wird, was die verzögerte erste Wellenform 800-1 darstellt, welche konstruktiv zu der zweiten Wellenform 800-2 addiert ist, um eine dritte Wellenform 900 zu bilden.
-
In einer bevorzugten Ausführungsform wird ein Digitalsignalprozessor (DSP) 714, welcher in 7 gezeigt ist, programmiert, um Abtastungen der Audiosignale, welche von den zwei Mikrofonen 710, 712 ausgegeben sind, zu empfangen. Der DSP ist programmiert, Zeitdomäne-Abtastungen, welche von den Mikrofonen herrühren, durch das Durchführen einer schnellen Fourier-Transformation in die Frequenzdomäne zu wandeln. Nachdem die Abtastungen, welche von den Mikrofonen in der Zeitdomäne erhalten sind, in die Frequenzdomäne gewandelt sind, werden individuelle Frequenzen oder Bereiche der Frequenzen, welche die Audiosignale repräsentieren, welche von einem ersten Mikrofon ausgegeben sind, selektiv um unterscheidende Zeitlängen verzögert, dann mit entsprechenden Frequenzdomäne-Repräsentationen bzw. -Wiedergaben der Abtastungen kombiniert, welche von dem zweiten Mikrofon erhalten sind, so dass die Audiosignale, welche durch die zeitverzögerten Abtastungen von dem ersten Mikrofon repräsentiert sind, in Phase mit Audiosignalen sind, welche durch die Abtastungen repräsentiert sind, welche von dem zweiten Mikrofon erhalten werden. Anders ausgedrückt, die Sprache, welche von dem einen der Mikrofone erhalten ist, wird vorzugsweise in der Frequenzdomäne um einen Zeitbetrag zeitverzögert, so dass sich, wenn die zeitverzögerte Sprache mit der Sprache kombiniert wird, welche von dem anderen Mikrofon erhalten ist, die kombinierten Sprachsignale kohärent addieren werden, wie dies in 9 gezeigt wird.
-
Mit Bezug nun auf 10 ist eine erste Wellenform 1000, welche das elektrische Signal repräsentiert, welches von dem zweiten Mikrofon 712 ausgegeben ist, empfänglich für eine Sprachsignal-Klangwelle 708, welche von einem Insassen 104 ausgesendet ist und welche auf ein zweites Mikrofon 712 einwirkt. 11 stellt eine zweite Wellenform 1100 dar, welche das Signal repräsentiert, welches von dem ersten Mikrofon 710 ausgegeben ist, welches empfänglich für die gleiche Sprachsignal-Klangwelle 708 ist, welche von einem Insassen 104 ausgesendet ist, welche jedoch auf das erste Mikrofon 710 eine kurze Zeit, nachdem die Klangwelle 708 das zweite Mikrofon 712 erreicht, einwirkt. Wie in 10 und 11 gesehen werden kann, sind die zwei Wellenformen 1000 und 1100 um einhundertachtzig Grad außer Phase zueinander. Die zwei Wellenformen, d. h. die Wellenform, welche bei dem zweiten Mikrofon 712 aufgefangen ist, welche außerhalb der Phase mit der Wellenform ist, welche bei dem ersten Mikrofon 710 aufgefangen ist, werden einander auslöschen, wenn sie addiert werden. Durch das Verzögern einer Abtastung der ersten Wellenform 1000, welche bei dem zweiten Mikrofon 712 erhalten ist, um einen Zeitbetrag gleich zu der Zeit, welche für eine halbe Wellenlänge der Klangwelle 108 erforderlich ist, um einen zusätzlichen Abstand d' zu dem ersten Mikrofon 710 zu überwinden, werden die Abtastungen außerhalb der Phase destruktiv miteinander interferieren, wodurch effektiv die Sprache von dem Insassen ausgelöscht wird.
-
Fachleute werden erkennen, dass das Bearbeiten von Sprachsignalen, wie es in 7–11 gezeigt wird, erreicht werden kann, indem der DSP, welcher in 6 gezeigt wird, benutzt wird, und durch ausführbare Instruktionen, welche in einer dazugehörigen, nichtflüchtigen Speichereinrichtung gespeichert sind, welche auch in 6 gezeigt wird. Durch das selektive Freigeben oder Konfigurieren von zwei Mikrofonen 710, 712 und ihrem zugehörigen DSP 714, um Klang aufzufangen und zu verzögern, welcher bei wenigstens einem Mikrofon aufgefangen ist durch die Zeit, welche erforderlich ist, um entweder eine Vollwelle oder eine Halbwellenlänge zu dem zweiten Mikrofon zurückzulegen, können die Ausgangssignale der Mikrofone 710, 712 oder digitale Repräsentationen bzw. Wiedergaben davon dazu gebracht werden, einander auf einer Frequenz-für-Frequenz-Basis zu addieren oder auszulöschen.
-
Die vorhergegangene Beschreibung dient zur dem Zwecke der Erläuterung. Der wahre Umfang der Erfindung wird in den folgenden Ansprüchen dargelegt.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Nicht-Patentliteratur
-
- McCowan et al., ”Near-field Adaptive Beam former for Robust Speech Recognition”, Queensland University of Technologiy, Brisbane, Australien [0015]