DE102014221059A1 - Co-sprecher-nullung, basierend auf vielfach-super-richtungs- strahlformer - Google Patents

Co-sprecher-nullung, basierend auf vielfach-super-richtungs- strahlformer Download PDF

Info

Publication number
DE102014221059A1
DE102014221059A1 DE201410221059 DE102014221059A DE102014221059A1 DE 102014221059 A1 DE102014221059 A1 DE 102014221059A1 DE 201410221059 DE201410221059 DE 201410221059 DE 102014221059 A DE102014221059 A DE 102014221059A DE 102014221059 A1 DE102014221059 A1 DE 102014221059A1
Authority
DE
Germany
Prior art keywords
sound
microphone
audio signal
driver
microphones
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE201410221059
Other languages
English (en)
Inventor
Jianming Song
Mike Reuter
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Continental Automotive Systems Inc
Original Assignee
Continental Automotive Systems Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Continental Automotive Systems Inc filed Critical Continental Automotive Systems Inc
Publication of DE102014221059A1 publication Critical patent/DE102014221059A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/08Mouthpieces; Microphones; Attachments therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

Sprache von einem Fahrer und Sprache von einem Insassen in einem Fahrzeug werden richtungsmäßig selektiert, wobei eine Vielzahl von Richtungsmikrofonen benutzt wird. Klänge, welche als von einem Passagier kommend aus einer Vielzahl von Richtungsmikrofonen detektiert sind, werden von Klängen, welche detektiert sind, dass sie von einem Fahrer kommen, durch eine zweite Vielzahl von Richtungsmikrofonen unterdrückt.

Description

  • HINTERGRUND
  • Die genaue Erkennung der menschlichen Sprache durch einen Computer hat sich in den letzten Jahren verbessert, ist jedoch noch nicht einhundert Prozent genau. Ein bekanntes Problem bei Spracherkennungssystemen ist der Ausschluss von Geräuschen oder von Sprache, welche von irgendeiner anderen Person als der, deren Sprache beabsichtigt ist, erkannt zu werden, ausgeht, d. h. die Sprache eines Co-Sprechers bzw. Mitsprechers kann die Spracherkennungssysteme verwirren. Indem man in der Lage ist, Geräusche von einem Co-Sprecher zu lokalisieren und zu unterdrücken, würde dies eine Verbesserung gegenüber dem Stand der Technik sein.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • 1 ist eine schematische Darstellung einer Draufsicht auf einen Fahrzeuginsassenraum;
  • 2 ist eine schematische Darstellung eines Paares von räumlich selektiven Mikrofon-Detektierstrahlen;
  • 3 stellt Paare von Richtungskeulen dar, welche räumlich selektive virtuelle Mikrofone repräsentieren;
  • 4 ist ein Blockdiagramm eines Audiosystems;
  • 5 stellt Schritte eines Verfahrens dar, welches durch einen Sprachmusterprozessor auf einem einzelnen ”Strahl”-Paar durchgeführt wird und welches ein selektives Erfassen oder Hören von einem Fahrer ermöglicht;
  • 6 ist ein Blockdiagramm eines Sprachmusterprozessors;
  • 7 ist eine schematische Darstellung einer Draufsicht eines Fahrzeuginsassenraumes;
  • 8 zeigt eine Wellenform, welche das elektrische Signal repräsentiert, welches von einem Mikrofon in dem Fahrzeuginsassenraum ausgegeben wird, welcher in 7 dargestellt ist, welches empfänglich für ein Sprachsignal von einem Fahrer ist;
  • 9 stellt eine verzögerte Kopie der Wellenform dar, welche in 8 gezeigt wird;
  • 10 zeigt eine Wellenform, welche das elektrische Signal repräsentiert, welches von einem Mikrofon ausgegeben ist, welches in 7 gezeigt wird, welches empfänglich für eine Sprachsignal-Klangwellenform von einem Insassen ist; und
  • 11 ist eine verzögerte und invertierte bzw. umgekehrte Kopie der Wellenform, welche in 10 gezeigt ist.
  • DETAILLIERTE BESCHREIBUNG
  • Konstruktive und destruktive Interferenz von sich ausbreitenden Wellen, welche durch das Youngsche Experiment dargestellt werden, sind gut bekannt. Einfach ausgedrückt, wenn eine Lichtwelle durch zwei Schlitze hindurchgeht, welche in eine Platte geschnitten sind, werden die Lichtwellen, welche von den Schlitzen austreten, helle und dunkle Streifen auf einem Schirm bilden, welcher hinter der Platte platziert ist. Die sich ändernden Streifen, welche auf dem Schirm erzeugt werden, werden durch additive und destruktive Interferenz der Wellen erzeugt, welche von den Schlitzen ausgehen.
  • Additive und destruktive Interferenz von übertragenen bzw. gesendeten Radiowellen sind ebenfalls gut bekannt. Eine Anwendung dieses Phänomens ist Phasenfeldradar. Einfach ausgedrückt, Phasenfeldradar steuert ein RF-Signal, welches von zwei dicht benachbarten Antennen ausgesendet wird, und daher steuert es einen Radar-”Strahl” durch das Ändern der Phase des RF-Signals, welches zu einer Antenne gesendet ist, relativ zu dem Signal, welches zu einer zweiten Antenne gesendet ist.
  • Eine andere Anwendung der additiven und destruktiven Interferenz von sich ausbreitenden Wellen sind richtungsselektive oder ”strahlbildende” Mikrofone, welche auch gut bekannt sind. Siehe zum Beispiel McCowan et al., "Near-field Adaptive Beam former for Robust Speech Recognition", Queensland University of Technologiy, Brisbane, Australien, dessen gesamter Inhalt hier als Referenz eingearbeitet ist. Wie nachfolgend beschriebe wird, lokalisieren und detektieren viele Paare von Super-Richtungs-Mikrofonen, von denen jedes durch das digitale Verzögern von Signalen aus zwei unterschiedlichen Mikrofonen durch progressiv unterschiedliche Zeitlängen bewirkt wird, Töne eines Fahrers und eines mitsprechenden Insassen genau. Töne von einem mitsprechenden Insassen, welche durch wenigstens ein Superrichtungs-Mikrofonpaar aufgegriffen sind, welches das stärkste Mitsprechende-Insassen-Audio besitzt, werden von den Tönen des Fahrers entfernt, welche durch das Superrichtungs-Mikrofonpaar aufgegriffen sind, welches das stärkste Fahrer-Audiosignal besitzt.
  • Mit Bezug auf die Figuren, ist 1 eine schematische Darstellung einer Draufsicht auf einen Fahrzeuginsassenraum 100, einen Fahrzeugfahrer 102, einen Fahrzeuginsassen 104 und Ton- bzw. Klangwellen, welche von jedem von diesen ausgesendet sind, wobei die Tonwellen durch konzentrische Kreisteilbereiche 106 repräsentiert sind. 1 zeigt auch die Platzierung von zwei Nichtrichtungs- und Allzweckmikrofonen 108, 110 relativ zu dem Fahrer 102 und dem Insassen 104. In 1 werden die Mikrofone 106, 108 gezeigt, wie sie an dem Rückspiegel 112 des Fahrzeugs befestigt sind, und somit durch einen verhältnismäßig kleinen Abstand 114 voneinander beabstandet sind, welcher typischerweise 10–14 inch beträgt.
  • Wie 1 zeigt, ist das Mikrofon 108 auf der rechten Seite weiter von dem Fahrer 102 entfernt als das Mikrofon 108 auf der linken Seite. In ähnlicher Weise ist das linksseitige Mikrofon 108 weiter von dem Insassen 104 entfernt als es das rechtsseitige Mikrofon 110 ist. Eine Klangwelle 106, welche von dem Fahrer 102 ausgesendet wird, wird demnach das linksseitige Mikrofon 108 erreichen, bevor die gleiche Klangwelle 108 von dem Fahrer 102 das rechtsseitige Mikrofon 110 erreicht. Eine Klangwelle 106, welche von dem Insassen 104 auf der anderen Seite ausgesendet wird, wird demnach das rechtsseitige Mikrofon 110 erreichen, bevor die gleiche Klangwelle 104 von dem Insassen 104 das linksseitige Mikrofon 108 erreicht.
  • Wenn der Fahrer 102 spricht, erreicht die entsprechende Klangwelle 106 von dem Fahrer 102 die zwei Mikrofone 108, 110 zu zwei unterschiedlichen Zeiten. Der Klang von dem Fahrer wird das linke Mikrofon 108 erreichen, bevor der Klang das rechte Mikrofon 110 erreicht. Das analoge elektrische Signal, welches durch das rechtsseitige Mikrofon erzeugt ist, wenn es die Klangwelle von dem Fahrer überträgt, wird einen Phasenwinkel besitzen, welcher dem Phasenwinkel des elektrischen Signals ”nacheilt” oder hinter diesem ist, welches durch das linksseitige Mikrofon erzeugt ist, wenn es die gleiche Klangwelle überträgt. Wenn der Insasse 104 spricht und die entsprechende Klangwelle 106 von dem Insassen 104 die zwei Mikrofone 108, 110 erreicht, wird das analoge elektrische Signal, welches durch das linksseitige Mikrofon erzeugt ist, wenn es die Klangwelle von dem Insassen überträgt, einen Phasenwinkel besitzen, welcher ”nacheilt” oder hinter dem Phasenwinkel des elektrischen Signals ist, welches durch das rechtsseitige Mikrofon erzeugt ist, wenn es die gleichen Insassenklangwelle überträgt.
  • Audiosignale von den zwei Mikrofonen werden abgetastet und in einen digitalen Wert gewandelt, welcher repräsentativ für Abtasttechniken ist, welche für Fachleute in der Signalverarbeitung gut bekannt sind. Um einen Superrichtungs-Mikrofon-”Strahl” herzustellen, d. h. ein Mikrofon, welches richtungsselektiv ist, ist es notwendig, ein Äquivalent zu der additiven und konstruktiven Interferenz von Wellen zu bewirken, welche von den unterschiedlichen Orten im Raum herrühren und welche unterschiedliche Abstände zu den zwei Mikrofonen zu überwinden haben. Als Äquivalent, um räumlich die Mikrofone an unterschiedlichen Orten zu platzieren, um eine Addition von Wellen zu erreichen, welche von einer speziellen Richtung kommen, wird der Digitalwert, welcher eine Abtastung von einem ersten Mikrofon repräsentiert, selektiv verzögert, in digitaler Weise, durch eine vorher festgelegte Zeitlänge und dann mit einer Abtastung kombiniert, welche von dem anderen Mikrofon erhalten ist. Wenn ein digitaler Wert, welcher für eine unverzögerte Abtastung repräsentativ ist, zu einem digitalen Wert addiert wird, welcher für eine zuvor erhaltene und verzögerte Abtastung repräsentativ ist, wird der resultierende Wert entweder eine additive oder eine destruktive Interferenz der Audiosignale sein, welche durch die Mikrofone detektiert sind. Mit anderen Worten, durch das selektive Verzögern und Kombinieren von Abtastungen aus unterschiedlichen Mikrofonen werden die Signale, welche durch die zwei Mikrofone bereitgestellt sind, mit einer additiven oder destruktiven ”Interferenz” der Audiosignale kombiniert, von welchen die Abtastungen erhalten wurden. Das selektive Verzögern und Kombinieren verzögerter Abtastungen, welche von den Mikrofonen erhalten sind, ermöglicht den zwei Mikrofonen, selektiv Audio von unterschiedlichen Orten zu empfangen. Die Mikrofone verhalten sich damit so, als ob sie Audio von nur einem Bereich oder einer Fläche empfangen, welche bei einem Abstand von beiden Mikrofonen platziert ist, so dass sich die Signale, welche an den Mikrofonen empfangen sind bzw. werden, additiv kombinieren werden. Audiosignale, welche von Orten in dem Fahrzeug ihren Ursprung haben, so dass sie, wenn sie kombiniert werden, destruktiv miteinander interferieren, können dadurch durch das additive oder destruktive Kombinieren von Abtastungen miteinander selektiv empfangen oder unterdrückt werden.
  • Signale von den zwei Mikrofonen 108, 110 können so manipuliert werden, um eine räumliche Selektivität oder einen ”Strahl” zu bewirken, von welchem die Klänge, welche durch beide Mikrofone detektiert sind, additiv oder kohärent miteinander kombiniert werden und damit für den nachfolgenden Gebrauch oder die Verarbeitung verfügbar sind.
  • 2 ist eine schematische Darstellung eines Paares von räumlich-selektiven Mikrofondetektier-”Strahlen” 200, 204, welche auch hier als ein ”Strahlpaar” 206 bezeichnet werden. Die ”Strahlen” 202, 204 werden durch konstruktive und destruktive Interferenz von Klangwellen erzeugt, wie oben beschrieben. Eine linksseitige Mikrofonfläche bzw. -bereich der Empfindlichkeit oder des ”Strahles” 202 wird dorthin ”gerichtet”, wo der Fahrer 102 in einem Fahrgastraum 100 platziert ist, und detektiert selektiv Klänge, welche von dem Fahrer ausgesendet sind. Ein rechtsseitiger Mikrofon-”Strahl” 204 wird in die Richtung ”gerichtet”, wo der Insasse 104 platziert ist, detektiert selektiv Klänge, welche von dem Insassen 104 ausgesendet sind.
  • Fachleute in der Signalverarbeitung werden erkennen, dass ein gewisser Klang von dem Fahrer 102 das Mikrofon 110 erreicht und durch dieses detektiert wird, welches am nächsten zu dem Insassen 104 ist. In ähnlicher Weise wird auch Klang von einem Insassen 104 das Mikrofon 108 erreichen und durch dieses detektiert werden, welches am nächsten zu dem Fahrer 102 ist. Es ist deshalb wichtig, den Fahrer und den mitsprechenden Insassen so dicht als möglich zu platzieren, um in der Lage zu sein, den detektierten Mitsprecherklang von dem detektierten Fahrerklang zu unterdrücken. Sobald der mitsprechende Insasse platziert bzw. lokalisiert ist, kann die Sprache des Mitsprechers, welche durch einen Mikrofonstrahl aufgefangen ist bzw. wird, unterdrückt werden.
  • 3 stellt ein Paar von Richtungskeulen dar, wobei die Paare durch Bezugsziffern 302A und 302B, 304A und 304B und 306A und 306B identifiziert sind. Die Keulen repräsentieren allgemein die räumlichen Bereiche des Insassenraumes 100, in welchen die Klänge selektiv detektiert werden, indem zwei physikalische Mikrofone 301, 312 benutzt werden, deren Ausgangsklänge digital bearbeitet werden, um eine Vielzahl von richtungsselektiven virtuellen Mikrofonen zu bewirken, wobei die Prinzipien der additiven und destruktiven Interferenz von ausbreitenden Radiowellen benutzt werden.
  • Unterschiedliche selektive Richtungen der Strahlpaare werden durch das Detektieren eines Klanges erreicht, welcher durch ein erstes virtuelles Mikrofon aufgefangen ist und durch ein zweites virtuelles Mikrofon aufgefangen ist. Klang von einem der virtuellen Mikrofone wird selektiv durch progressiv unterschiedliche Zeitlängen verzögert. Jede verzögerte Abtastung wird dann mit einer Abtastung eines Klanges kombiniert, welcher gleichzeitig durch die anderen Mikrofone detektiert wird. Da die Mikrofone durch geringfügig unterschiedliche Abstände weg von einer Klangquelle platziert sind, wird ein Klang, welcher durch ein Mikrofon aufgefangen ist, einen unterschiedlichen Phasenwinkel besitzen, gegenüber dem gleichen Klang, welcher durch ein unterschiedliches Mikrofon aufgefangen ist.
  • Wenn die Differenz zwischen den zwei Phasenwinkeln 180 Grad ist, wird das Zusammenaddieren der Klänge verursachen, dass sich die Klänge, welche durch die Mikrofone aufgefangen sind, auslöschen. Durch das Ändern der Längen der Zeitverzögerung des Klanges von einem Mikrofon und das Kombinieren der unterschiedlich verzögerten Klänge miteinander, wird das Kombinieren der unterschiedlich verzögerten Abtastungen mit einer unverzögerten Abtastung, unterschiedliche Grade von entweder additiver oder destruktiver Interferenz erzeugen. Derartige Interferenz tritt auf, als ob die detektierten Klänge von unterschiedlichen räumlichen Orten ihren Ursprung haben, was äquivalent zu einem ”Lenken” der Richtungen ist, von welchen das Audio detektiert wird. Ein Strahlpaar 302, 304, 306, welches konstruktive Interferenz von Signalen mit größter Amplitude von dem Fahrer bzw. dem Insassen erzeugt, bestimmt sowohl die Fahrer- als auch die Insassenorte genauer, als es möglich ist, indem nur ein einzelner Strahlt benutzt wird, jedoch auch ihre jeweiligen Sprachsignale genauer, als es möglich ist, wenn nur ein einzelner Strahl benutzt wird. Eine Entscheidung, ob ein Klang von einem Insassen oder einem Fahrer ist, wird basierend darauf durchgeführt, ob die Amplituden der Klänge, welche durch die Mikrofone detektiert sind, oberhalb oder unterhalb von vorher eingestellten Schwellwerte sind, wie dies nachfolgend dargelegt wird.
  • In einer anderen Ausführungsform können die elektrischen Signale, welche von den räumlich getrennten Mikrofonen ausgesendet sind, selektiv ”gegated” oder abgetastet werden, um Klangwellen, welche an den zwei Mikrofonen zu unterschiedlichen Zeiten ankommen, selektiv zu empfangen oder zu ignorieren. Beispielsweise können die elektrischen Signale von dem Mikrofon 108 zu dem ersten Zeitpunkt t1 abgetastet werden und danach vernachlässigt werden. Zu einer späteren Zeit t2 können die elektrischen Signale von dem anderen Mikrofon 110 abgetastet und danach vernachlässigt werden. Durch das Wählen von t1 und t2 derart, dass die Differenz zwischen ihnen gleich zu der Zeit ist, welche für eine Welle eines Klanges erforderlich ist, um sich von dem ersten Mikrofon zu dem zweiten Mikrofon auszubreiten, werden sich die zwei Abtastwerte konstruktiv addieren. Umgekehrt, wenn t1 und t2 so ausgewählt werden, dass ihre Differenz die Zeit ist, welche für eine halbe Wellenlänge eines Klanges notwendig ist, um sich von dem ersten Mikrofon zu dem zweiten Mikrofon auszubreiten, werden sich die zwei Abtastwerte destruktiv addieren. Das selektive Auswählen von t1 und t2 gestattet somit, dass die zwei räumlich getrennten Mikrofone richtungsmäßig Klänge unterscheiden, und zwar durch das Abtasten von Klängen von den Mikrofonen zu unterschiedlichen Zeiten.
  • Durch das Vergleichen der relativen Amplituden der Klänge, welche selektiv durch jedes Strahlpaar detektiert sind, und das Vergleichen dieser Amplituden mit experimentell bestimmten, vorher festgelegten Schwellwerten, weisen die Strahlpaare ein richtungsselektives Filter auf, mit welchem eine Platzierung eines Fahrers und das Audio des Fahrers genauer lokalisiert werden können, als es ohne das Benutzen vieler Strahlpaare möglich ist. Audiosignale von den Strahlpaaren 302, 304, 306 sind demnach in der Lage, einen Fahrer und einen Insassen zu lokalisieren. Strahlpaare, welche verglichen zu Schwellwerten die stärksten detektierten Signale bereitstellen, werden danach benutzt, um selektiv Insassen-Audiosignale von Fahrer-Audiosignalen zu trennen. Wie oben festgestellt, gestatten die Strahlpaare eine selektive Lokalisierung einer Sprache eines Fahrers und einer Sprache eines Insassen durch das Vergleichen von Ausgangssignalen, welche von jedem Strahlpaar erzeugt sind. Die vielen Strahlpaare gestatten auch die Unterdrückung von Sprachsignalen, welche von einem Insassen herrühren.
  • 4 ist ein Blockdiagramm eines Audiosystems 400, welches durch Sprache gesteuert wird. Das System 400 weist auf: zwei herkömmliche, jedoch räumlich getrennte Mikrofone 402, 404, einen herkömmlichen Analog-zu-digital-(A/D-)Wandler 406, einen Schnelle-Fourier-Transformation-Prozessor 408, welcher konfiguriert ist, Fourier-Transformationen der digitalen Signale von dem A/D-Wandler 406 zu erzeugen, einen Sprachmuster- bzw. Sprachabtastungsprozessor 416, ein Spracherkennungsglied 418 und einen Befehlsprozessor 420. Der Befehlsprozessor 420 bildet einen Teil eines getrennten Fahrzeugsystems 422, zum Beispiel eine über Sprache aktivierte Navigation oder ”Infotainment”-Einrichtung oder -System.
  • In einer bevorzugten Ausführungsform ist das Fahrzeugsystem 422 durch Sprachbefehle steuerbar, welche durch den Sprachabtastprozessor bzw. Spracherfassungsprozessor 416 zuerst erkannt werden, dass sie von einem Fahrer kommen. Befehle, welche erkannt werden, wenn sie von einem Fahrer kommen, werden danach für ein Spracherkennungsglied bereitgestellt, welches konfiguriert ist, Klänge zu bearbeiten und Phänomene zu erkennen und elektrische Signale zu erzeugen, welche konfiguriert sind, einen Betrieb eines Fahrzeugsystems zu bewirken, wie zum Beispiel einen Befehl für ein Radio, ein Handy oder ein Navigationssystem. In einer bevorzugten Ausführungsform sind der Spracherfassungsprozessor 416 und das Spracherkennungsglied 418 in dem gleichen digitalen Signalprozessor (DSP) eingebettet.
  • Wie oben festgestellt, sind das Strahlformen und Mikrofonstrahlformen gut bekannt, jedoch ist das Strahlformen von vielen Strahlen und das selektive Detektieren und Unterdrücken von Klängen von jeweils einem Fahrer und einem Insassen bisher nicht bekannt. 5 stellt die Schritte eines Verfahrens dar, welches durch den Spracherfassungsprozessor an einem einzelnen ”Strahl”-Paar durchgeführt wird und welches das selektive Erfassen oder Audio von einem Fahrer und das gleichzeitige Reduzieren oder Unterdrücken von Audiosignalen von einem Insassen gestattet, wobei viele supergerichtete Paare von Mikrofon-”Strahlpaaren”, wie zum Beispiel das eine, welches in 3 dargestellt ist, benutzt werden. Die Schritte, welche in 5 gezeigt werden, werden demnach auf einer Strahlpaar-nach-Strahlpaar-Grundlage durchgeführt.
  • Schritte, welche in 5 präsentiert werden, sind nicht in einer speziellen Reihenfolge, in welcher die Schritte durchgeführt werden müssen. Beispielsweise können die Frequenzkomponenten einer FFT-Repräsentation einer Sprachabtastung von einem ersten Mikrofon zu jeder Zeit davor bestimmt werden, wenn die Frequenzkomponenten einer Abtastung von einer FFT-Repräsentation einer zweiten Abtastung von einem zweiten Mikrofon entfernt oder subtrahiert werden müssen.
  • In einem ersten Schritt 502, welcher in 5A gezeigt wird, wird eine Schnelle-Fourier-Transformation-(FFT-)Repräsentation einer Abtastung eines Signals, welches durch ein erstes der zwei Mikrofone übertragen ist, erzeugt. Die Abtastung wird in einem Register oder einer Speichereinrichtung im Schritt 504 gespeichert, um in der Lage zu sein, die Zeit zu steuern, so dass die digitale Repräsentation der Mikrofonabtastung mit einer Abtastung von einem anderen Mikrofon kombiniert werden wird.
  • Schritt 506 zeigt, dass es gestattet ist, dass ein vorher festgelegter Zeitbetrag durchläuft. Nachdem der vorher festgelegte Zeitbetrag verstrichen ist, werden die Frequenzkomponenten der FFT im Schritt 508 bestimmt. Wie oben festgestellt, kann die Bestimmung der FFT-Komponenten auch erfolgen, bevor die FFT gespeichert wird.
  • Im Schritt 510, welche in 5B gezeigt wird, wird ein maximaler Signalpegel für jede der Frequenzkomponenten in der FFT der ersten Abtastung bestimmt. Anders ausgedrückt, eine Maximalamplitude der Klänge, welche durch das Mikrofon aufgefangen ist, welches am nächsten zu dem Fahrer ist, wird bestimmt.
  • Im Schritt 512 werden Frequenzkomponenten der zweiten Abtastung bestimmt. Sozusagen werden die Frequenzkomponenten des Audio, welche durch das Mikrofon, welches am nächsten zu dem Insassen ist, aufgefangen sind, bestimmt.
  • Im Schritt 514 werden die Komponenten der Frequenzen, welche durch das Mikrofon aufgefangen sind, welches am nächsten an dem Fahrer ist, von den Frequenzkomponenten des Audios entfernt, welche durch das Mikrofon aufgefangen sind, welches am nächsten zu dem Fahrer ist. Die resultierende Differenz ist ein Nullen der Komponenten der Signale, welche durch das Mikrofon aufgefangen sind, welches am nächsten zu dem Insassen ist, von den Signalen, welche durch das Mikrofon aufgefangen sind, welches am nächsten zu dem Insassen ist.
  • Es ist wichtig, dass die Signale, welche durch das Mikrofon aufgefangen sind, welches am nächsten zu dem Insassen ist, und die Signale, welche durch das Mikrofon aufgefangen sind, welches am nächsten zu dem Fahrer ist, Signale sind, welche durch ein richtungsmäßig diskriminierendes virtuelles Mikrofon aufgefangen sind, welches hier als ein Mikrofon-”Strahl” bezeichnet wird. Anders ausgedrückt, die Signale, welche durch jedes Mikrofon aufgefangen sind, sind die Audiosignale, welche richtungsmäßig durch eine kohärente oder konstruktive Interferenz von Wellen ausgewählt sind, welche durch die zwei Mikrofone aufgefangen sind. Darüber hinaus werden viele Mikrofon-”Strahlen” in jeder Richtung benutzt, d. h. viele ”Strahlen” werden in Richtung des Fahrers und viele ”Strahlen” werden in Richtung des Insassen gerichtet bzw. gesteuert. Audiosignale, welche von den vielen Strahlen aufgefangen sind, welche in Richtung des Insassen gerichtet sind, von denen ein Strahl einen maximal detektierten Signalpegel haben wird, werden von den Audiosignalen unterdrückt, welche durch die vielen Strahlen aufgefangen sind, welche in Richtung des Fahrers gerichtet sind, wobei ein Strahl von diesen auch einen detektierten maximalen Signalpegel besitzen wird. Die vielen richtungsselektiven Mikrofon-Strahlpaare werden durch selektives Verzögern von Abtastungen von einem der zwei Mikrofone durch unterschiedliche Zeitlängen bereitgestellt.
  • Trotz der Richtungsselektivität, welche durch Empfangen von Audioabtastungen bei unterschiedlichen ausgewählten Zeiten an einem ersten Mikrofon und durch das Kombinieren dieser Abtastungen mit Abtastungen von einem zweiten Mikrofon erreicht werden können, ist es nicht möglich, vollständig das Detektieren von Klang zu vermeiden, welcher von Orten außerhalb eines Richtungsstrahls herrührt. Anders ausgedrückt, beide Mikrofone werden wenigstens einiges an Audio von sowohl einem Fahrer als auch einem Insassen detektieren. Das Detektieren von Sprache vorzugsweise von einer ersten Person, während eine zweite Person ebenfalls spricht, erfordert das Identifizieren von Sprache, welche von der zweiten Person kommt. Das Unterdrücken oder Nullen einer Sprache eines Mitsprechers, d. h. das Mitsprecher-Nullen (CT) weist im Wesentlichen drei Schritte auf, von denen einer optional ist.
  • Der erste Schritt besteht darin, den räumlichen Ort jeglicher Sprache zu identifizieren, was erreicht wird, indem die Methodologie und das oben beschriebene Gerät benutzt werden. Ein zweiter Schritt besteht darin, die Sprache abzuschwächen, für welche bestimmt wird, dass sie von einem anderen Ort als dem Fahrer kommen, d. h. Signale von der detektierten Sprache des Fahrers zu entfernen oder zu unterdrücken, welche von anderen Quellen als dem Fahrer kommen. In einem dritten und optionalen Schritt wird Komfortrauschen für jegliche Sprache injiziert, welche abgeschwächt ist.
  • In einer bevorzugten Ausführungsform, deren Operation bzw. Betrieb durch die nachfolgenden Gleichungen repräsentiert wird, sind wνD,k(f) und wνP,k(f) die k-ten, das virtuelle Mikrofon strahlbildenden Mikrofon-Wichtungsvektoren. Sie repräsentieren richtungsselektive Strahlen von strahlformenden Mikrofonen, welche auf den Fahrer bzw. den Beifahrer ”schauen”. Ausgangssignale von diesen zwei Wichtungsvektoren werden berechnet als: ZFD,k(f) = wν H / D,k(f)ZF(f) ZFP,k(f) = wν H / P,k(f)ZF(f) wobei H die Hermitian-Transponierte bezeichnet.
  • Eine Menge ζ wird benutzt, um die Quelle eines Signals aus vier Möglichkeiten zu bestimmen: 1. Fahrer, 2. Insasse, 3. gleichzeitig (Fahrer- + Insasse-Sprache überlappen sich in der Zeit) und 4. Sprache-Abwesenheit. Der Frequenzbereich, über welchen ζ berechnet wird, wird so gewählt, dass ein Strahlpaar wνD,k(f) und wνP,k(f) einen großen Kontrast/Unterscheidung in der Richtung aufweist. Die Menge ζ wird aus ZFd(f) und ZFp(f) wie folgt berechnet:
    Figure DE102014221059A1_0002
  • Maximale und minimale Werte von ζ werden berechnet als:
    Figure DE102014221059A1_0003
  • Ein Frequenzbereich ist von einem ersten ”bin”, N1 zu einem zweiten ”bin”, N2. Die Werte von N1 und N2 werden aus der Kenntnis der Mikrofon-Anordnungsgeometrie bestimmt.
  • Eingeschlossen in diesen Berechnungen ist eine Paarung zwischen fahrerseitigem Mikrofonpaaren, d. h. einer Paarung der Mikrofonstrahl-”Keulen” auf der Fahrerseite mit Mikrofonstrahl-”Keulen” auf der Insassenseite. Die Mikrofonpaarungen werden durch die Symmetrie der Mikrofonanordnung definiert. Zum Beispiel ist für den virtuellen Mikrofonindex k = 0 das fahrerseitige virtuelle Mikrofon der am meisten linke Strahl, und der insassenseitige Strahl ist der am meisten rechte Strahl, d. h. die gepaarten virtuellen Mikrofone sind Spiegelbilder um die Breitseite. Durch das Definieren von zwei Schwellwerten Dthreshold und Pthreshold wird der Ort einer Quelle der Sprache, vQuelle, entsprechend zu den Schritten bestimmt, welche in dem folgenden Pseudocode dargelegt sind:
    Figure DE102014221059A1_0004
    Figure DE102014221059A1_0005
    wobei VAD ein Sprachaktivitätsdetektor ist, welcher für Fachleute gut bekannt ist.
  • Einfach ausgedrückt, wenn ein Detektor der Aktivität der Sprache eines Fahrers, VAD, wahr ist, ist Sprache detektiert worden. Die detektierte Sprache wird betrachtet, dass sie Sprache von dem Fahrer ist, wenn die Minimalamplitude der detektierten Sprache ζmin größer ist als ein erster experimentell bestimmter minimaler Schwellwert für die detektierte Sprache des Fahrers, d. h. Dthreshold. Wenn die Maximalamplitude der detektierten Sprach kleiner als ein zweiter experimentell bestimmter maximaler Schwellwert für die detektierte Sprach des Insassen ist, d. h. Pthreshold. Wenn die Maximalamplitude der detektierten Sprache größer als Pthreshold und kleiner als Dthreshold ist, wird die detektierte Sprache betrachtet, dass sie von sowohl dem Insassen als auch dem Fahrer kommt.
  • 6 ist ein Blockdiagramm eines Gerätes 600, welches die Funktionalität eines Sprachabtastungsprozessors, welcher in 4 dargestellt ist, bereitstellt, dessen wenigstens einige Funktionalität oben beschrieben ist und in 5 dargestellt ist. Vereinfacht ausgedrückt, das Gerät wird vorzugsweise als ein digitaler Signalprozessor 602 eingebettet, wobei eines oder mehrere nicht-transitorische Speichereinrichtungen 604 und vorher festgelegte Instruktionen in der Speichereinrichtung gespeichert sind und deshalb nicht in 6 gezeigt werden.
  • Wenn die Instruktionen in der Speichereinrichtung 604 ausgeführt werden, veranlassen sie den DPS, die Verfahrensschritte durchzuführen, welche oben beschrieben sind, wobei die Verfahrensschritte beinhaltet sind, welche in 5 gezeigt werden. Der Speicher 604 ist an den DSP 602 über einen herkömmlichen Bus 606 gekoppelt.
  • Das Gerät und die Verfahrensweise, welche oben beschrieben sind, sind effektiv, Sprache von einem Fahrer und Null-Sprache von einem mitsprechenden Insassen zu detektieren, solange wie die Mikrofone, welche betrieben werden, um richtungsunterscheidende Mikrofonstrahlen bereitzustellen, relativ dicht zueinander sind, wobei eine bevorzugte Beabstandung von ungefähr zehn bis vierzehn Inch Trennung zwischen diesen vorhanden sind. Wenn der Trennungsabstand zwischen den Mikrofonen signifikant größer als z. B. ungefähr 30 inch oder mehr ist, wird das selektive Verzögern von Sprachabtastungen, um strahlbildende Mikrofone bereitzustellen, problematisch. Wenn der Mikrofonabstand ungefähr 30 inch oder mehr beträgt, wird ein unterschiedliches Gerät und Verfahren benutzt, um die Sprache von einem Fahrer und Null-Sprache von einem mitsprechenden Insassen zu detektieren.
  • In einer anderen Ausführungsform sind, wobei die Mikrofone relativ weit weg voneinander beabstandet sind, d. h. ungefähr 30 inch, zwei ”strahlbildende” Mikrofone angeordnet, so dass die akustische Energie, welche aus der Richtung eines gewünschten Lautsprechers austritt, eine Null-Grad-Phase zwischen den zwei Strahlen besitzt; akustische Energie, welche aus der Richtung eines Mitsprechers austritt, besitzt eine relative Phase von 180 Grad. Eine Phasenabschätzung der zwei Strahlen wird als Sprecher-Diskriminator bzw. -Unterscheidungsglied benutzt. Eine Phasenabschätzung der zwei Strahlen ist auch als ein Mitsprecher-Nullen-Mechanismus verwendbar.
  • 7 ist eine schematische Darstellung einer Draufsicht eines Fahrzeuginsassenraumes 700, eines Fahrzeugfahrers 702, eines Fahrzeuginsassen 704 und von Klangwellen, welche von jedem von diesen ausgesendet werden, wobei die Klangwellen durch konzentrische Kreisteilbereiche 706 bzw. 708 repräsentiert werden. 7 zeigt auch das Platzieren von zwei Nicht-Richtungs- und Allgemeinzweck-Mikrofonen 710, 712 relativ zu dem Fahrer 702 und dem Insassen 704. In 7 sind die Mikrofone 710, 712 beide an den gleichen Digitalsignalprozessor (DSP) gekoppelt, und sind von jedem durch einen Trennungsabstand S getrennt, welcher ungefähr 30 inch beträgt. Die beiden Mikrofone und der DSP sind konfiguriert, so dass zwei richtungsselektive Mikrofone in der Lage sind, Klang von dem Fahrer und dem Insassen aufzunehmen.
  • 8 zeigt eine erste Wellenform 800-1, welche das elektrische Signal repräsentiert, welches von dem ersten Mikrofon 710 ausgegeben ist, welches auf eine Sprachsignal-Klangwelle 706 anspricht, welche von einem Fahrer 102 ausgesendet wird und welche auf das erste Mikrofon 710 einwirkt. Eine zweite Wellenform 800-2, welche identisch zu der ersten Wellenform 800-1, jedoch geringfügig verzögert ist, repräsentiert das elektrische Signal, welches von dem zweiten Mikrofon 712 ausgegeben ist, welches für die gleiche Sprachsignal-Klangwelle 706 empfänglich ist, welche von einem Fahrer 102 ausgesendet wird, welche jedoch auf das zweite Mikrofon 712 einwirkt. Die zweite Wellenform 800-2 wird deshalb um eine kurze Zeitperiode geringfügig ”hinter” der ersten Wellenform 800-1 erzeugt. Die zweite Wellenform 800-2 und die erste Wellenform 800-1 unterscheiden sich demnach nur in der Zeit, wobei die Differenz zwischen den beiden Wellenformen, welche durch eine Phasenwinkeldifferenz gemessen wird, als ”ϕ” bezeichnet wird.
  • Wenn die erste Wellenform 800-1, welche durch das erste Mikrofon 710 erzeugt ist, durch eine sehr kurze Zeitperiode verzögert wird, welche gleich zu der Zeitdifferenz ist, welche ϕ entspricht, werden die verzögerte Wellenform 800-1 und die zweite Wellenform 800-2 dann in Phase miteinander sein. Wenn die zwei In-Phase-Wellenformen zusammenaddiert werden, werden sie sich konstruktiv zueinander addieren, wie es in 9 gezeigt wird, was die verzögerte erste Wellenform 800-1 darstellt, welche konstruktiv zu der zweiten Wellenform 800-2 addiert ist, um eine dritte Wellenform 900 zu bilden.
  • In einer bevorzugten Ausführungsform wird ein Digitalsignalprozessor (DSP) 714, welcher in 7 gezeigt ist, programmiert, um Abtastungen der Audiosignale, welche von den zwei Mikrofonen 710, 712 ausgegeben sind, zu empfangen. Der DSP ist programmiert, Zeitdomäne-Abtastungen, welche von den Mikrofonen herrühren, durch das Durchführen einer schnellen Fourier-Transformation in die Frequenzdomäne zu wandeln. Nachdem die Abtastungen, welche von den Mikrofonen in der Zeitdomäne erhalten sind, in die Frequenzdomäne gewandelt sind, werden individuelle Frequenzen oder Bereiche der Frequenzen, welche die Audiosignale repräsentieren, welche von einem ersten Mikrofon ausgegeben sind, selektiv um unterscheidende Zeitlängen verzögert, dann mit entsprechenden Frequenzdomäne-Repräsentationen bzw. -Wiedergaben der Abtastungen kombiniert, welche von dem zweiten Mikrofon erhalten sind, so dass die Audiosignale, welche durch die zeitverzögerten Abtastungen von dem ersten Mikrofon repräsentiert sind, in Phase mit Audiosignalen sind, welche durch die Abtastungen repräsentiert sind, welche von dem zweiten Mikrofon erhalten werden. Anders ausgedrückt, die Sprache, welche von dem einen der Mikrofone erhalten ist, wird vorzugsweise in der Frequenzdomäne um einen Zeitbetrag zeitverzögert, so dass sich, wenn die zeitverzögerte Sprache mit der Sprache kombiniert wird, welche von dem anderen Mikrofon erhalten ist, die kombinierten Sprachsignale kohärent addieren werden, wie dies in 9 gezeigt wird.
  • Mit Bezug nun auf 10 ist eine erste Wellenform 1000, welche das elektrische Signal repräsentiert, welches von dem zweiten Mikrofon 712 ausgegeben ist, empfänglich für eine Sprachsignal-Klangwelle 708, welche von einem Insassen 104 ausgesendet ist und welche auf ein zweites Mikrofon 712 einwirkt. 11 stellt eine zweite Wellenform 1100 dar, welche das Signal repräsentiert, welches von dem ersten Mikrofon 710 ausgegeben ist, welches empfänglich für die gleiche Sprachsignal-Klangwelle 708 ist, welche von einem Insassen 104 ausgesendet ist, welche jedoch auf das erste Mikrofon 710 eine kurze Zeit, nachdem die Klangwelle 708 das zweite Mikrofon 712 erreicht, einwirkt. Wie in 10 und 11 gesehen werden kann, sind die zwei Wellenformen 1000 und 1100 um einhundertachtzig Grad außer Phase zueinander. Die zwei Wellenformen, d. h. die Wellenform, welche bei dem zweiten Mikrofon 712 aufgefangen ist, welche außerhalb der Phase mit der Wellenform ist, welche bei dem ersten Mikrofon 710 aufgefangen ist, werden einander auslöschen, wenn sie addiert werden. Durch das Verzögern einer Abtastung der ersten Wellenform 1000, welche bei dem zweiten Mikrofon 712 erhalten ist, um einen Zeitbetrag gleich zu der Zeit, welche für eine halbe Wellenlänge der Klangwelle 108 erforderlich ist, um einen zusätzlichen Abstand d' zu dem ersten Mikrofon 710 zu überwinden, werden die Abtastungen außerhalb der Phase destruktiv miteinander interferieren, wodurch effektiv die Sprache von dem Insassen ausgelöscht wird.
  • Fachleute werden erkennen, dass das Bearbeiten von Sprachsignalen, wie es in 711 gezeigt wird, erreicht werden kann, indem der DSP, welcher in 6 gezeigt wird, benutzt wird, und durch ausführbare Instruktionen, welche in einer dazugehörigen, nichtflüchtigen Speichereinrichtung gespeichert sind, welche auch in 6 gezeigt wird. Durch das selektive Freigeben oder Konfigurieren von zwei Mikrofonen 710, 712 und ihrem zugehörigen DSP 714, um Klang aufzufangen und zu verzögern, welcher bei wenigstens einem Mikrofon aufgefangen ist durch die Zeit, welche erforderlich ist, um entweder eine Vollwelle oder eine Halbwellenlänge zu dem zweiten Mikrofon zurückzulegen, können die Ausgangssignale der Mikrofone 710, 712 oder digitale Repräsentationen bzw. Wiedergaben davon dazu gebracht werden, einander auf einer Frequenz-für-Frequenz-Basis zu addieren oder auszulöschen.
  • Die vorhergegangene Beschreibung dient zur dem Zwecke der Erläuterung. Der wahre Umfang der Erfindung wird in den folgenden Ansprüchen dargelegt.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • McCowan et al., ”Near-field Adaptive Beam former for Robust Speech Recognition”, Queensland University of Technologiy, Brisbane, Australien [0015]

Claims (12)

  1. In einem Fahrzeug, welches einen Fahrer und einen Insassen und erste und zweite räumlich getrennte Mikrofone besitzt, von welchen beide Klänge sowohl von dem Insassen als auch von dem Fahrer detektieren, wobei das erste Mikrofon von dem Fahrer durch einen ersten Abstand getrennt ist, das zweite Mikrofon von dem Fahrer durch einen zweiten Abstand getrennt ist, existiert ein Verfahren, um die Klänge zu unterdrücken, welche von dem Insassen ausgehen, wobei das Verfahren aufweist: selektives Detektieren bei beiden Mikrofonen, eines ersten Klanges, welcher von dem Insassen ausgeht, wobei der erste Klang eine erste Vielzahl von Frequenzkomponenten aufweist, wobei jede Frequenzkomponente einen entsprechenden Signalpegel besitzt; Verarbeiten des ersten Klanges, um eine erste Frequenzkomponente des ersten Klanges zu identifizieren und um einen maximalen Signalpegel für die erste Frequenzkomponente zu bestimmen; selektives Detektieren an beiden Mikrofonen eines zweiten Klanges, welcher von dem Fahrer ausgeht, wobei der zweite Klang eine zweite Vielfalt von Frequenzkomponenten aufweist; und Verarbeiten von Repräsentationen bzw. Wiedergaben des ersten Klanges und Verarbeiten von Repräsentationen des zweiten Klanges, um von dem zweiten Klang Frequenzkomponenten zu unterdrücken, welche in dem ersten Klang detektiert sind und welche einen maximalen Signalpegel unterhalb eines vorher festgelegten Schwellwertpegels besitzen.
  2. Verfahren nach Anspruch 1, wobei der Schritt des selektiven Detektierens an beiden Mikrofonen, einen zweiten Klang aufweist, welcher von dem Fahrer ausgeht, welcher die Schritte aufweist von: Empfangen eines Audiosignals von dem ersten Mikrofon, welches näher an dem Fahrer ist als das zweite Mikrofon; Bearbeiten des Audiosignals, welches an dem ersten Mikrofon empfangen ist, um eine digitale Repräsentation eines ersten vorher festgelegten Teilbereichs des Audiosignales zu erzeugen, wobei die digitale Repräsentation des ersten vorher festgelegten Teilbereiches an einem ersten Zeitpunkt erzeugt wird; Speichern der digitalen Repräsentation des ersten vorher festgelegten Teilbereichs; Empfangen des Audiosignals an dem zweiten Mikrofon, welches räumlich von dem ersten Mikrofon um einen vorher festgelegten Abstand getrennt ist; Bearbeiten des Audiosignals, welches an dem zweiten Mikrofon empfangen ist, um eine digitale Repräsentation eines zweiten vorher festgelegten Teilbereiches des Audiosignales zu erzeugen, wobei die digitale Repräsentation der zweite vorher festgelegten Teilbereich ist, welcher zu einem späteren zweiten Zeitpunkt erzeugt ist; Speichern der digitalen Repräsentation des zweiten vorher festgelegten Teilbereiches des Audiosignals; und selektives Kombinieren der digitalen Repräsentation des zweiten vorher festgelegten Teilbereiches des Audiosignals mit der digitalen Repräsentation des ersten vorher festgelegten Teilbereiches zu vorher festgelegten unterschiedlichen Zeiten, um dadurch einen richtungsselektiven Empfang der Klänge aus einer Vielzahl von unterschiedlichen Richtungen zu bewirken.
  3. Verfahren nach einem der vorhergehenden Ansprüche, welches ferner aufweist: Empfangen an den ersten und zweiten Mikrofonen eines zweiten Audiosignals, welches von einem Insassen ausgesendet wird; Bearbeiten des zweiten Audiosignals, welches an den ersten und zweiten Mikrofonen empfangen ist, um ein richtungsselektives zweites Audiosignal von dem Insassen zu erzeugen; Bearbeiten des ersten Audiosignals, um Komponenten des zweiten Audiosignales davon zu entfernen.
  4. Verfahren nach einem der vorhergehenden Ansprüche, welches ferner den Schritt aufweist, selektiv von dem zweiten Klang Frequenzkomponenten des ersten Klanges zu unterdrücken.
  5. Verfahren nach einem der vorhergegangenen Ansprüche, wobei die Bearbeitung des ersten Audiosignals, welches an dem ersten Mikrofon empfangen ist, um eine digitale Repräsentation eines ersten vorher festgelegten Teilbereiches des ersten Audiosignales zu erzeugen, aufweist: richtungsmäßiges Selektieren von Klang, welcher von dem Fahrer ausgeht, welcher an den ersten und zweiten Mikrofonen empfangen wird.
  6. Verfahren nach einem der vorhergegangenen Ansprüche, wobei die Bearbeitung des ersten Audiosignals, welches an dem zweiten Mikrofon empfangen ist, um eine digitale Repräsentation eines zweiten vorher festgelegten Teilbereiches des ersten Audiosignales zu erzeugen, das richtungsmäßige Selektieren von Klang aufweist, welcher von einer einzelnen Quelle ausgeht, welcher an den ersten und zweiten Mikrofonen empfangen wird.
  7. Gerät für das selektive Empfangen von Sprache von einem Fahrer eines Fahrzeugs und selektives Unterdrücken von Sprache von einem mitsprechenden Insassen in dem Fahrzeug, wobei das Gerät aufweist: erste und zweite Mikrofone, welche innerhalb des Fahrzeugs an ersten und zweiten voneinander beabstandeten Orten befestigt sind, wobei die ersten und zweiten beabstandeten Orte in Front des Fahrers und eines mitsprechenden Insassen sind, wobei wenigstens eines der ersten und zweiten Mikrofone zwischen dem Fahrer und einem mitsprechenden Insassen platziert ist; einen Prozessor, welcher an die ersten und zweiten Mikrofone gekoppelt ist; eine nicht-transitorische Speichereinrichtung, welche an den Prozessor gekoppelt ist und welche ausführbaren Instruktionen speichert, welche, wenn sie ausgeführt werden, den Prozessor veranlassen zu: selektiv von beiden Mikrofonen zu detektieren, einen ersten Klang, welcher von einem Insassen ausgeht, wobei der erste Klang eine erste Vielzahl von Frequenzkomponenten aufweist, wobei jede Frequenzkomponente einen entsprechenden Signalpegel besitzt; den ersten Klang zu bearbeiten, um eine erste Frequenzkomponente des ersten Klanges zu identifizieren und um einen maximalen Signalpegel für die erste Frequenzkomponente zu bestimmen; selektiv von beiden Mikrofonen einen zweiten Klang zu detektieren, welcher von dem Fahrer ausgeht, wobei der zweite Klang eine zweite Vielzahl von Frequenzkomponenten aufweist; Repräsentationen des ersten Klanges zu bearbeiten und Repräsentationen des zweiten Klanges zu bearbeiten, um von dem zweiten Klang Frequenzkomponenten zu unterdrücken, welche durch den Prozessor in dem ersten Klang detektiert sind und wobei die Komponenten einen maximalen Signalpegel unterhalb eines vorher festgelegten Schwellwertpegels besitzen; und eine Repräsentation eines Klanges eines Fahrers für ein Spracherkennungsglied bereitzustellen.
  8. Gerät nach Anspruch 7, wobei die Speichereinrichtung zusätzliche Instruktionen speichert, welche, wenn sie ausgeführt werden, den Prozessor veranlassen, um: das erste Audiosignal von dem ersten Mikrofon zu empfangen; das erste Audiosignal zu bearbeiten, welches von dem ersten Mikrofon empfangen ist, um eine digitale Repräsentation eines ersten vorher festgelegten Teilbereiches des ersten Audiosignales zu erzeugen, wobei die digitale Repräsentation des ersten vorher festgelegten Teilbereiches an einem ersten Zeitpunkt erzeugt wird; die digitale Repräsentation des ersten vorher festgelegten Teilbereiches zu speichern; das erste Audiosignal von dem zweiten Mikrofon zu empfangen, wobei das zweite Mikrofon räumlich von dem ersten Mikrofon durch einen vorher festgelegten Abstand getrennt ist; das erste Audiosignal zu bearbeiten, welches an dem zweiten Mikrofon empfangen ist, um eine digitale Repräsentation eines zweiten vorher festgelegten Teilbereiches des ersten Audiosignales zu erzeugen, wobei die digitale Repräsentation des zweiten vorher festgelegten Teilbereiches zu einem späteren, zweiten Zeitpunkt erzeugt ist; die digitale Repräsentation des zweiten vorher festgelegten Teilbereiches zu speichern; und die ersten und zweiten vorher festgelegten Teilbereiche und den vorher festgelegten zweiten Zeitpunkt auszuwählen, so dass die ersten und zweiten vorher festgelegten Teilbereiche konstruktiv interferieren, wenn sie additiv kombiniert werden.
  9. Gerät nach Anspruch 7 oder 8, wobei die Speichereinrichtung zusätzliche Instruktionen speichert, welche, wenn sie ausgeführt werden, den Prozessor veranlassen, um: selektiv von dem zweiten Klang Frequenzkomponenten des ersten Klanges zu unterdrücken.
  10. Gerät nach einem der Ansprüche 7 bis 9, welches ferner einen Befehlsprozessor aufweist, welcher an das Spracherkennungsglied gekoppelt ist, wobei der Befehlsprozessor konfiguriert ist, das Implementieren eines gesprochenen Befehls zu bewirken, welcher durch das Spracherkennungsglied erkannt ist.
  11. Gerät nach Anspruch 10, welches ferner ein Fahrzeug-”Infotainment”-System aufweist, welches an den Befehlsprozessor gekoppelt ist und welches Befehle von diesem empfängt.
  12. Gerät nach Anspruch 11, wobei das Fahrzeug-”Infotainment”-System einen Zellenfunk aufweist.
DE201410221059 2013-11-07 2014-10-16 Co-sprecher-nullung, basierend auf vielfach-super-richtungs- strahlformer Pending DE102014221059A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/074,645 US9497528B2 (en) 2013-11-07 2013-11-07 Cotalker nulling based on multi super directional beamformer
US14/074,645 2013-11-07

Publications (1)

Publication Number Publication Date
DE102014221059A1 true DE102014221059A1 (de) 2015-05-07

Family

ID=50114725

Family Applications (1)

Application Number Title Priority Date Filing Date
DE201410221059 Pending DE102014221059A1 (de) 2013-11-07 2014-10-16 Co-sprecher-nullung, basierend auf vielfach-super-richtungs- strahlformer

Country Status (4)

Country Link
US (1) US9497528B2 (de)
CN (1) CN104640001B (de)
DE (1) DE102014221059A1 (de)
GB (1) GB2522009A (de)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102014002828B4 (de) * 2014-02-27 2022-02-17 Paragon Ag Vorrichtung zur Kopplung elektrischer Signale über den Körper eines Lebewesens
US10878832B2 (en) * 2016-02-16 2020-12-29 Nippon Telegraph And Telephone Corporation Mask estimation apparatus, mask estimation method, and mask estimation program
CN105976815A (zh) * 2016-04-22 2016-09-28 乐视控股(北京)有限公司 车载语音识别方法及装置
DE102016013042A1 (de) * 2016-11-02 2018-05-03 Audi Ag Mikrofonsystem für ein Kraftfahrzeug mit dynamischer Richtcharakteristik
CN108090393A (zh) * 2016-11-10 2018-05-29 厦门雅迅网络股份有限公司 基于音视频识别的出租车载客不打表的检测方法及系统
WO2018216694A1 (ja) * 2017-05-24 2018-11-29 株式会社トランストロン 車載装置
CN108399916A (zh) * 2018-01-08 2018-08-14 蔚来汽车有限公司 车载智能语音交互系统和方法、处理装置和存储装置
DE102018009487A1 (de) * 2018-12-03 2020-06-04 Daimler Ag Verfahren und Vorrichtung zur Einstellung einer Fahrzeugkomponente
CN109754803B (zh) * 2019-01-23 2021-06-22 上海华镇电子科技有限公司 车载多音区语音交互系统及方法
US11741529B2 (en) 2019-02-26 2023-08-29 Xenial, Inc. System for eatery ordering with mobile interface and point-of-sale terminal
US11170752B1 (en) * 2020-04-29 2021-11-09 Gulfstream Aerospace Corporation Phased array speaker and microphone system for cockpit communication
CN111696539A (zh) * 2020-06-29 2020-09-22 浙江吉利新能源商用车集团有限公司 对内部通话主动降噪的语音交互系统及车辆
CN111863012B (zh) * 2020-07-31 2024-07-16 北京小米松果电子有限公司 一种音频信号处理方法、装置、终端及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7243060B2 (en) 2002-04-02 2007-07-10 University Of Washington Single channel sound separation
US7424119B2 (en) * 2003-08-29 2008-09-09 Audio-Technica, U.S., Inc. Voice matching system for audio transducers
DE102004005998B3 (de) * 2004-02-06 2005-05-25 Ruwisch, Dietmar, Dr. Verfahren und Vorrichtung zur Separierung von Schallsignalen
JP4225430B2 (ja) 2005-08-11 2009-02-18 旭化成株式会社 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
JP5845090B2 (ja) * 2009-02-09 2016-01-20 ウェーブス・オーディオ・リミテッド 複数マイクロフォンベースの方向性音フィルタ
BR112012031656A2 (pt) * 2010-08-25 2016-11-08 Asahi Chemical Ind dispositivo, e método de separação de fontes sonoras, e, programa
CN103329565B (zh) * 2011-01-05 2016-09-28 皇家飞利浦电子股份有限公司 音频系统及其操作方法
JP6162220B2 (ja) * 2012-04-27 2017-07-12 ソニーモバイルコミュニケーションズ, エービー マイクロフォンアレイにおける音の相関に基づく雑音抑制

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
McCowan et al., "Near-field Adaptive Beam former for Robust Speech Recognition", Queensland University of Technologiy, Brisbane, Australien

Also Published As

Publication number Publication date
GB2522009A (en) 2015-07-15
US20150124988A1 (en) 2015-05-07
GB201322975D0 (en) 2014-02-12
CN104640001A (zh) 2015-05-20
CN104640001B (zh) 2020-02-18
US9497528B2 (en) 2016-11-15

Similar Documents

Publication Publication Date Title
DE102014221105A1 (de) Co-Sprecher-Nullung für automatische Spracherkennungssysteme
DE102014221059A1 (de) Co-sprecher-nullung, basierend auf vielfach-super-richtungs- strahlformer
DE60303338T2 (de) Orthogonales und kreisförmiges Gruppensystem von Mikrofonen und Verfahren zur Erkennung der dreidimensionalen Richtung einer Schallquelle mit diesem System
DE112009002617B4 (de) Wahlweises Schalten zwischen mehreren Mikrofonen
DE102004005998B3 (de) Verfahren und Vorrichtung zur Separierung von Schallsignalen
DE69805526T2 (de) Verfahren zur elektronischen auswahl der abhängigkeit eines ausgangssignals vom räumlichen winkel des akustischen aufprallsignals und hörhilfegerät
DE112017002299T5 (de) Stereotrennung und Richtungsunterdrückung mit Omni-Richtmikrofonen
DE112011105267T5 (de) Zielton-Verstärkungsvorrichtung und Fahrzeug-Navigationssystem
DE102014002899A1 (de) Verfahren, Vorrichtung und Herstellung zur Zwei-Mikrofon-Array-Sprachverbesserung für eine Kraftfahrzeugumgebung
DE102008004674A1 (de) Signalaufnahme mit variabler Richtcharakteristik
DE102015118445A1 (de) System und Verfahren zur Kommunikation in einer Fahrzeugkabine
DE102016010554A1 (de) Räumliches interpolationsverfahren und räumliche interpolationsvorrichtung für eine lineare phasengesteuerte gruppenantenne
DE102010056119A1 (de) Akustische Unterwasserantenne, U-Boot mit derartiger Antenne sowie Verfahren zum Peilen, Orten und/oder Klassifizieren eines Ziels mittels einer derartigen Antenne
DE102018117558A1 (de) Adaptives nachfiltern
EP3610289A1 (de) Verarbeitungseinheit für eine sonaranlage zum verarbeiten von hydrophonsignalen sowie sonaranlage und verfahren
EP0882244B1 (de) Verfahren zur richtstrahlbildung in peilanlagen
DE112018002744T5 (de) Schallerfassung
DE112017007051B4 (de) Signalverarbeitungsvorrichtung
DE10027538C1 (de) Verfahren zum Bestimmen der Einfallsrichtung von Schallwellen
DE102018117556B4 (de) Einzelkanal-rauschreduzierung
Borisovich et al. Improvement of microphone array characteristics for speech capturing
CN107167809A (zh) 一种基于信号子空间聚焦的宽带阻塞阵波束形成方法
DE102019214216A1 (de) Unterwasserschallempfänger
EP1916872B1 (de) Differentielles Richtmikrofonsystem und Hörhilfsgerät mit einem solchen differentiellen Richtmikrofonsystem
EP1307761B1 (de) Verfahren zur richtungsortung und ortungsanordnung

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: BONN, ROMAN, DIPL.-ING. DR.-ING., DE

R012 Request for examination validly filed