DE102022106036A1

DE102022106036A1 - Kontextabhängige signalaufbereitung für den sprachassistenten im fahrzeug

Info

Publication number: DE102022106036A1
Application number: DE102022106036.5A
Authority: DE
Inventors: Alaa M. Khamis; Gaurav Talwar; Romeo D. Garcia; Carmine F. D'agostino; Neeraj R. Gautama
Original assignee: GM Global Technology Operations LLC
Current assignee: GM Global Technology Operations LLC
Priority date: 2021-04-19
Filing date: 2022-03-15
Publication date: 2022-10-20
Also published as: US20220335934A1; US11600278B2; CN115223594A

Abstract

Ein Fahrzeug umfasst eine Vielzahl von Mikrofonen, um Sprache von einer Person außerhalb des Fahrzeugs als Eingangssignal zu erhalten, und ein Sensorsystem, um den Standort und die Ausrichtung der Person relativ zum Fahrzeug zu bestimmen. Das Fahrzeug enthält auch eine Steuereinheit, um die Eigenschaften des Eingangssignals zu bestimmen und um zu ermitteln, ob eine Sprachverbesserung des Eingangssignals auf der Grundlage einer oder mehrerer der Eigenschaften und des Standorts und der Ausrichtung der Person durchgeführt werden soll.

Description

EINFÜHRUNG
Der Gegenstand der Offenlegung bezieht sich auf die kontextabhängige Signalaufbereitung für einen Sprachassistenten im Fahrzeug.
Fahrzeuge (z. B. Pkw, Lkw, Baumaschinen, landwirtschaftliche Geräte, automatisierte Fabrikanlagen, Shuttlebusse) erleichtern zunehmend die Interaktion zwischen einem Fahrer und dem Fahrzeug, einschließlich der akustischen Interaktion. Ein externer Sprachassistent bezieht sich auf ein System mit Mikrofonen und Lautsprechern an der Außenseite eines Fahrzeugs. Der äußere Sprachassistent ermöglicht die verbale Kommunikation zwischen dem Fahrzeug und einer Person außerhalb des Fahrzeugs. Der äußere Sprachassistent kann reaktive Unterstützung, proaktive Unterstützung und soziale Interaktion ermöglichen. Reaktive Unterstützung bedeutet, dass der Sprachassistent auf eine Anfrage wie „Heckklappe öffnen“ antwortet. Proaktive Unterstützung bedeutet, dass der Sprachassistent vorausschauende Warnungen oder Empfehlungen ausspricht, wie z. B. „Sie haben ein Haustier im Fahrzeug gelassen“. Soziale Interaktion bezieht sich zum Beispiel auf eine Begrüßung oder Verabschiedung. Hintergrundgeräusche und Nachhall können die Qualität des Sprachsignals beeinträchtigen. Auch die Position, die Ausrichtung und die Sprechlautstärke der Person können das Sprachsignal beeinträchtigen. Dementsprechend ist es wünschenswert, eine kontextabhängige Signalaufbereitung für den Sprachassistenten im Fahrzeug vorzusehen.
BESCHREIBNG
In einer beispielhaften Ausführungsform umfasst ein Fahrzeug eine Vielzahl von Mikrofonen, um Sprache von einer Person außerhalb des Fahrzeugs als Eingangssignal zu erhalten, und ein Sensorsystem, um den Standort und die Ausrichtung der Person relativ zum Fahrzeug zu bestimmen. Das Fahrzeug umfasst auch ein Steuergerät, um die Eigenschaften des Eingangssignals zu bestimmen und zu entscheiden, ob eine Sprachverbesserung des Eingangssignals auf der Grundlage einer oder mehrerer der Eigenschaften sowie des Standorts und der Ausrichtung der Person durchgeführt werden soll.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale umfasst das Sensorsystem ein Array von Ultrabreitband- (UWB) oder Bluetooth Low Energy (BLE) Detektoren.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale kommuniziert jeder Detektor des Arrays von UWB- oder BLE-Detektoren mit einem Gerät, das sich im Besitz der Person befindet, um den Standort der Person relativ zum Fahrzeug zu bestimmen, und ein Pegel des Eingangssignals an jedem der mehreren Mikrofone an verschiedenen Stellen des Fahrzeugs wird verwendet, um die Ausrichtung der Person relativ zum Fahrzeug zu bestimmen.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale bestimmt das Steuergerät, ob die Person angewiesen werden soll, eine Maßnahme zur Verbesserung der Qualität des Eingangssignals zu ergreifen.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale weist das Steuergerät die Person an, sich einem der mehreren Mikrofone zu nähern oder die Ausrichtung zu ändern, um dem einen der mehreren Mikrofone gegenüberzustehen.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale bestimmt die Steuereinheit anhand der Lautstärke, die von einem der mehreren Mikrofone, dem die Person am nächsten ist, erfasst wird, ob die Person angewiesen werden soll, lauter zu sprechen.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale bestimmt das Steuergerät, ob die Sprachverbesserung am Eingangssignal auf der Grundlage von Fuzzy-Logik, Bayes'scher Wahrscheinlichkeit, Dempster-Shafer-Evidenzentscheidung oder statistischem maschinellem Lernen durchgeführt werden soll.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale führt das Steuergerät die Sprachverbesserung durch Rauschunterdrückung durch.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale führt das Steuergerät die Sprachverbesserung durch eine Nachhallreduzierung durch.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale führt das Steuergerät die Sprachverbesserung durch eine Kombination von Rauschunterdrückung, Nachhallreduzierung und Quellentrennung durch.
In einer anderen beispielhaften Ausführungsform umfasst ein Verfahren in einem Fahrzeug das Anordnen einer Vielzahl von Mikrofonen, um Sprache von einer Person außerhalb des Fahrzeugs als Eingangssignal zu erhalten, und das Anordnen eines Sensorsystems, um einen Standort und eine Ausrichtung der Person relativ zum Fahrzeug zu bestimmen. Das Verfahren umfasst auch das Konfigurieren eines Steuergeräts zum Bestimmen von Merkmalen des Eingangssignals und zum Bestimmen, ob eine Sprachverbesserung an dem Eingangssignal auf der Grundlage eines oder mehrerer der Merkmale und des Standorts und der Ausrichtung der Person durchgeführt werden soll.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale umfasst das Anordnen des Sensorsystems das Anordnen eines Arrays von Ultrabreitband- (UWB) oder Bluetooth Low Energy (BLE) Detektoren.
Zusätzlich zu einem oder mehreren der hierin beschriebenen Merkmale umfasst das Verfahren auch das Konfigurieren jedes Detektors des Arrays von UWB- oder BLE-Detektoren, um mit einem Gerät zu kommunizieren, das sich im Besitz der Person befindet, um den Standort der Person in Bezug auf das Fahrzeug zu bestimmen, und das Bestimmen der Ausrichtung der Person in Bezug auf das Fahrzeug auf der Grundlage eines Pegels des Eingangssignals an jedem der mehreren Mikrofone an verschiedenen Stellen des Fahrzeugs.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale umfasst das Konfigurieren des Steuergeräts das Konfigurieren des Steuergeräts, um zu bestimmen, ob die Person angewiesen werden soll, eine Maßnahme zur Verbesserung der Qualität des Eingangssignals zu ergreifen.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale umfasst das Konfigurieren des Steuergeräts das Konfigurieren des Steuergeräts, um die Person anzuweisen, sich näher an eines der mehreren Mikrofone zu bewegen oder die Ausrichtung zu ändern, um dem einen der mehreren Mikrofone gegenüberzustehen.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale umfasst das Konfigurieren des Steuergeräts das Konfigurieren des Steuergeräts, um zu bestimmen, ob die Person angewiesen werden soll, lauter zu sprechen, und zwar auf der Grundlage einer Lautstärke, die an einem der mehreren Mikrofone erfasst wird, dem die Person am nächsten ist.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale umfasst das Konfigurieren des Steuergeräts das Konfigurieren des Steuergeräts, um zu bestimmen, ob die Sprachverbesserung des Eingangssignals auf der Grundlage von Fuzzy-Logik, Bayes'scher Wahrscheinlichkeit, Dempster-Shafer-Evidenzentscheidung oder statistischem maschinellem Lernen durchgeführt werden soll.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale umfasst das Konfigurieren des Steuergeräts das Konfigurieren des Steuergeräts zur Durchführung der Sprachverbesserung durch Rauschunterdrückung.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale umfasst das Konfigurieren des Steuergeräts das Konfigurieren des Steuergeräts zur Durchführung der Sprachverbesserung durch die Durchführung der Nachhallreduzierung.
Zusätzlich zu einem oder mehreren der hier beschriebenen Merkmale umfasst das Konfigurieren des Steuergeräts das Konfigurieren des Steuergeräts zur Durchführung der Sprachverbesserung durch eine Kombination von Rauschunterdrückung, Nachhallreduzierung und Quellentrennung.
Die vorgenannten Merkmale und Vorteile sowie andere Merkmale und Vorteile der Offenbarung sind aus der folgenden detaillierten Beschreibung in Verbindung mit den beigefügten Zeichnungen ohne weiteres ersichtlich.
Figurenliste
Weitere Merkmale, Vorteile und Einzelheiten sind nur beispielhaft in der folgenden ausführlichen Beschreibung enthalten, die sich auf die Zeichnungen bezieht, in denen sie dargestellt sind:

1 zeigt ein Fahrzeug, das eine kontextabhängige Signalaufbereitung für einen fahrzeugexternen Sprachassistenten gemäß einer oder mehrerer Ausführungsformen implementiert;
2 ist ein Prozessablauf eines Verfahrens zur Durchführung einer kontextabhängigen Signalaufbereitung für einen fahrzeugexternen Sprachassistenten gemäß einer oder mehrerer Ausführungsformen;
3 illustriert eine Bestimmung, als Teil des Verfahrens von 2, ob eine Person Maßnahmen ergreifen kann, um das Eingangssignal gemäß einer beispielhaften Ausführungsform zu verbessern; und
4 ist ein Prozessablauf einer Bestimmung, als Teil des Verfahrens von 2, ob die Sprachverbesserung das Eingangssignal gemäß einer beispielhaften Ausführungsform verbessert.

AUSFÜHRLICHE BESCHREIBUNG
Die folgende Beschreibung ist lediglich beispielhaft und soll die vorliegende Offenbarung, ihre Anwendung oder Verwendung nicht einschränken. Es sollte verstanden werden, dass in den Zeichnungen entsprechende Referenznummern gleiche oder entsprechende Teile und Merkmale bezeichnen.
Wie bereits erwähnt, erleichtert ein externer Sprachassistent die verbale Interaktion zwischen einer Person außerhalb eines Fahrzeugs und dem Fahrzeug. Die Genauigkeit, mit der einer Person geholfen wird, kann zu einem großen Teil davon abhängen, wie genau die Person verstanden wird. Die hier beschriebenen Systeme und Verfahren beziehen sich auf die kontextabhängige Signalaufbereitung für einen fahrzeugexternen Sprachassistenten. Das Eingangssignal der Person kann einer Sprachverbesserung unterzogen werden. In manchen Situationen können Techniken zur Sprachverbesserung die Qualität des Eingangssignals verschlechtern, anstatt sie zu verbessern. In diesen Fällen kann die Signalverbesserung immer noch dadurch erreicht werden, dass die sprechende Person angewiesen wird, Abstand, Ausrichtung oder Lautstärke anzupassen. Wie im Detail beschrieben, wird das aktuelle Szenario (d. h. der Kontext) ermittelt, um den richtigen Ansatz zur Verbesserung der Qualität des Eingangssignals zu bestimmen.
In Übereinstimmung mit einer beispielhaften Ausführungsform zeigt 1 ein Fahrzeug 100, das eine kontextabhängige Signalaufbereitung für einen fahrzeugexternen Sprachassistenten 125 implementiert. Das in 1 dargestellte Beispielfahrzeug 100 ist ein Automobil 101. Das Fahrzeug 100 ist mit vier externen Mikrofonen 110 (d.h. Mikrofone, die so angeordnet sind, dass sie Audio von außerhalb des Fahrzeugs 100 erhalten) dargestellt, die sich an jeder Seite des Fahrzeugs 100 befinden. In alternativen Ausführungsformen sind die Anzahl und die Standorte der Mikrofone 110 durch die beispielhafte Darstellung nicht begrenzt. Gemäß beispielhaften Ausführungsformen können die Mikrofone 110 digitale Array-Mikrofone sein, z. B. ist das Fahrzeug 100 auch mit einem Lautsprecher 115 dargestellt. In alternativen Ausführungsformen kann eine beliebige Anzahl von Lautsprechern 115 um das Fahrzeug 100 herum angeordnet sein und beispielsweise zusammen mit den Mikrofonen 110 aufgestellt werden. Das Fahrzeug 100 ist auch mit einem Steuergerät 120 dargestellt. Das Steuergerät 120 kann Informationen von einem oder mehreren externen Sensoren 130 (z. B. Radarsystem, Lidarsystem, Kamera) und/oder einem oder mehreren Fahrzeugsensoren 135 (z. B. Inertialmesseinheit (IMU), Lenkwinkeldetektor, Beschleunigungsmesser) verwenden, um einen Aspekt des Betriebs des Fahrzeugs 100 zu steuern. So kann beispielsweise der teilautonome Betrieb (z. B. Kollisionsvermeidung, adaptiver Tempomat) durch das Steuergerät 120 gesteuert werden.
Das Steuergerät 120 kann zusammen mit den Mikrofonen 110 und dem Lautsprecher 115 Teil des fahrzeugexternen Sprachassistenten 125 sein. Das Steuergerät 120 kann Aspekte der Signalverbesserung für den fahrzeugexternen Sprachassistenten 125 implementieren, wie in 2 beschrieben. Das Steuergerät kann Verarbeitungsschaltungen enthalten, die eine anwendungsspezifische integrierte Schaltung (ASIC), eine elektronische Schaltung, einen Prozessor (gemeinsam, dediziert oder als Gruppe) und einen Speicher, der ein oder mehrere Software- oder Firmware-Programme ausführt, eine kombinatorische Logikschaltung und/oder andere geeignete Komponenten umfassen können, die die beschriebene Funktionalität bereitstellen.
Einige der externen Sensoren 130 können auch als Teil des externen Sprachassistenten 125 betrachtet werden. Zu den externen Sensoren 130 kann beispielsweise ein Ultrabreitband-(UWB) Detektor 305 (3) oder ein Bluetooth Low Energy (BLE) Detektor gehören. Diese oder andere bekannte externe Sensoren 130 können die Entfernung zu einer Person, die den externen Sprachassistenten 125 benutzt, auf der Grundlage eines von der Person getragenen Geräts 140 (z. B. Keyfob, Smartphone) erkennen. Das Gerät 140 kann die Person auch als Sprecher identifizieren, der berechtigt ist, mit dem externen Sprachassistenten 125 zu kommunizieren. Das heißt, ein Eingabesignal 145 kann nur dann erfasst und verarbeitet werden, wie in 2 beschrieben, wenn das Eingabesignal 145 eine Stimme ist, die der Person zugeordnet ist, die das Gerät 140 trägt. Andere Autorisierungsmechanismen (z. B. eine auf der Stimme basierende biometrische Autorisierung durch den externen Sprachassistenten) können alternativ verwendet werden und sind nicht Teil des hier beschriebenen Verfahrens zur Signalverbesserung. Die mit Bezug auf 2 diskutierten Verfahren gehen davon aus, dass ein autorisierter Sprecher das Eingangssignal 145 liefert.
Wenn mehrere externe Sensoren 130 (z. B. ein Array von UWB- oder BLE-Detektoren 305, die um das Fahrzeug 100 herum angeordnet sind) verwendet werden, kann zusätzlich zur Entfernung auch der Standort der Person (d. h. des Geräts 140) relativ zum Fahrzeug 100 bestimmt werden. Andernfalls kann das Array der Mikrofone 110 verwendet werden, um den Standort und die Ausrichtung der Person mit dem Gerät 140 zu bestimmen. Die Bestimmung des Abstands, des Standorts und der Ausrichtung kann gemäß einer Reihe von bekannten Techniken erfolgen und wird unter Bezugnahme auf 3 näher erläutert.
2 ist ein Prozessablauf eines Verfahrens 200 zur Durchführung einer kontextabhängigen Signalaufbereitung für einen fahrzeugexternen Sprachassistenten 125 gemäß einer oder mehrerer Ausführungsformen. Die Prozesse des Verfahrens 200 können nach der Erkennung eines Geräts 140 und/oder anderen Prozessen zur Identifizierung eines autorisierten Sprechers durchgeführt werden. Wie angegeben, wird das Verfahren 200 iterativ durchgeführt, während ein Spracheingabesignal 145 von einem autorisierten Sprecher an den fahrzeugexternen Sprachassistenten 125 geliefert wird. In Block 210 kann das Erhalten eines Spracheingabesignals 145 eines oder mehrere der Mikrofone 110 außerhalb des Fahrzeugs 100 verwenden, wie beispielsweise in 1 gezeigt. Wie bereits erwähnt, kann die Gewinnung des Eingabesignals 145 die Identifizierung der Stimme als die eines autorisierten Benutzers (z. B. einer Person mit dem richtigen Gerät 140 wie einem Schlüsselanhänger oder Smartphone) vor den Vorgängen in Block 210 umfassen.
In Block 220 umfassen die Prozesse die Ermittlung des Standorts und der Ausrichtung der Quelle des Eingangssignals 145 (d. h. des autorisierten Sprechers). Der Standort kann vor den Prozessen in Block 210 als Teil des Prozesses zur Identifizierung des autorisierten Sprechers bestimmt werden. Das heißt, dass beispielsweise das Gerät 140 erkannt werden kann, um den Autorisierungsprozess auszulösen. Der Standort des Geräts 140 und damit des autorisierten Sprechers kann im Rahmen dieser Erkennung bestimmt werden. Die Bestimmung des Standorts und der Ausrichtung der Person, die das Eingangssignal 145 liefert (d. h. des autorisierten Sprechers), kann ein Array von UWB- und/oder BLE-Detektoren 305 umfassen, wie unter Bezugnahme auf 3 weiter erläutert, oder die Mikrofone 110, eine Kombination aus den Mikrofonen 110 und den UWB- und/oder BLE-Detektoren 305 oder einen anderen bekannten Ansatz verwenden.
Beispielsweise kann eine Anordnung von UWB- und/oder BLE-Detektoren 305 zu den externen Sensoren 130 des Fahrzeugs 100 gehören. Die Laufzeit eines Signals von jedem UWB- oder BLE-Detektor 305 zum Gerät 140, das vom autorisierten Sprecher gehalten wird, und zurück kann verwendet werden, um den Abstand zwischen jedem UWB- oder BLE-Detektor 305 des Arrays und dem Sprecher zu bestimmen. Die relativen Abstände zu jedem der UWB- oder BLE-Detektoren 305 können dann (z. B. von der Steuereinheit 120) verwendet werden, um einen Standort des autorisierten Sprechers relativ zum Fahrzeug 100 unter Verwendung eines geometrischen Ansatzes zu bestimmen. Der relative Lautstärkepegel, der an jedem der Mikrofone 110 gemessen wird, kann zur Bestimmung der Ausrichtung verwendet werden. Die Lautstärke kann gemäß Gl. 4 bestimmt werden, wie hier beschrieben. Alternativ können sich unter den externen Sensoren 130 auch Kameras befinden, und es kann eine Bildverarbeitung durchgeführt werden, um die Ausrichtung des autorisierten Sprechers in Bezug auf das Fahrzeug 100 zu bestimmen.
In Block 230 bezieht sich die Charakterisierung des Eingangssignals 145 auf die Ermittlung mehrerer Signalqualitätsmaße oder, zusätzlich oder alternativ, auf die Ermittlung einer Standardschätzung der Sprachqualität unter Verwendung einer standardisierten Methodik (z. B. P.563). Wie bereits erwähnt, können der Standort und die Ausrichtung des autorisierten Sprechers (ermittelt in Block 220) zur Charakterisierung des Eingangssignals in Block 230 verwendet werden. Die Charakterisierung kann zum Beispiel die Ermittlung des Signal-Rausch-Verhältnisses (SNR) beinhalten. Gemäß einem beispielhaften Ansatz kann das Rauschen auf der Grundlage der Schätzung und Aktualisierung des Hintergrundrauschenspektrums während der Sprechpausen des autorisierten Sprechers geschätzt werden, wenn das Eingangssignal 145 nicht bereitgestellt wird. Das SNR kann als das Verhältnis der Leistung des Eingangssignals 145 zur Leistung des Hintergrundrauschens berechnet werden. Die Charakterisierung in Block 230 kann auch die Ermittlung des Verhältnisses von Quelle zu Artefakten (SAR) wie folgt umfassen: $S A R = 10 l o g_{10} \frac{{‖ s_{t a r g e t} + e_{i n t e r f} + e_{n o i s e} ‖}^{2}}{{‖ e_{a r t i f} ‖}^{2}}$
Die Gewinnung von SAR gemäß Gl. 1 ist ein Strahlformungsprozess, bei dem s_target die zulässige Verformung des Eingangssignals ist, e_interf die zulässige Verformung anderer Quellen als des autorisierten Sprechers ist, e_noise die zulässige Verformung von Störgeräuschen ist und e_artif Artefakten des Strahlformungsalgorithmus, wie z. B. Musikgeräuschen, oder durch den Strahlformungsalgorithmus induzierten Verformungen entsprechen kann, die nicht zulässig sind. Ein weiteres beispielhaftes Merkmal ist das Quellen-Verzerrungs-Verhältnis (SDR), das durch gegeben ist: $S D R = 10 l o g_{10} \frac{{‖ s_{t a r g e t} ‖}^{2}}{{‖ e_{i n t e r f} + e_{n o i s e} + e_{a r t i f} ‖}^{2}}$
Das SDR spiegelt die Differenz zwischen dem Eingangssignal des autorisierten Sprechers und dem geschätzten Signal im mittleren quadratischen Sinn wider. Ein weiteres beispielhaftes Merkmal ist das Quelle-Störungs-Verhältnis (SIR), das wie folgt angegeben wird: $S I R = 10 l o g_{10} \frac{{‖ s_{t a r g e t} ‖}^{2}}{{‖ e_{i n t e r f} ‖}^{2}}$
Der SIR-Wert bestimmt das Verhältnis der Energien des Eingangssignals des zugelassenen Lautsprechers und der Störungen im getrennten Signal. Die Lautstärke des autorisierten Lautsprechers kann auf der Grundlage des Schalldruckpegels (SPL) bestimmt werden, der durch gegeben ist: $L_{p} = 20 l o g_{10} (\frac{p}{p_{0}})$
In Gl. 4 ist p der quadratische Mittelwert des Schalldrucks, p₀ ist der Bezugsschalldruck (z. B. Bezugsschalldruck in Luft 20 Mikropascal) und SPL ist in Dezibel (dB) angegeben.
In Block 240 kann die Bestimmung, ob der autorisierte Sprecher Maßnahmen zur Verbesserung des Eingangssignals ergreifen kann, und/oder die Bestimmung, ob die Sprachverbesserung hilfreich ist, nacheinander und in beliebiger Reihenfolge erfolgen. Die Reihenfolge, in der die Bestimmung vorgenommen wird, kann von einer Bedingung abhängen und muss nicht immer gleich sein. Wenn zum Beispiel die Signalstärke des Eingangssignals 145 unter einem Schwellenwert liegt, kann gemäß einer beispielhaften Ausführungsform zuerst bestimmt werden, ob der autorisierte Sprecher Maßnahmen zur Verbesserung des Eingangssignals 145 ergreifen kann. Die Bestimmung, ob der autorisierte Sprecher Maßnahmen ergreifen kann, um das Eingangssignal 145 zu verbessern, bezieht sich auf die Bestimmung, ob der autorisierte Sprecher angewiesen werden soll, diese Maßnahmen zu ergreifen. Diese Bestimmung wird unter Bezugnahme auf 3 näher erläutert.
Gemäß einer beispielhaften Ausführungsform kann eine Entscheidung darüber, ob eine Sprachverbesserung hilfreich ist, getroffen werden, nachdem festgestellt wurde, dass der autorisierte Sprecher das Eingangssignal 145 nicht verbessern kann. Diese Bestimmung verwendet die Charakterisierung (in Block 230) und kann auf der Implementierung von Fuzzy-Logik, einem probabilistischen Ansatz wie der Bayes'schen Wahrscheinlichkeit, einem Dempster-Shafer-Ansatz zur Entscheidungsfindung, einem statistischen maschinellen Lernansatz oder einem anderen Entscheidungsalgorithmus basieren. Der beispielhafte Fall der Verwendung von Fuzzy-Logik wird unter Bezugnahme auf 4 näher erläutert. Ein Ergebnis dieser Bestimmung ist entweder, dass die Sprachverbesserung nicht durchgeführt werden sollte (d. h., sie wird nicht helfen) oder dass die Sprachverbesserung durchgeführt werden sollte (d. h., sie wird helfen). Im letzteren Fall kann auch die Art der Sprachverbesserung unter den bekannten Sprachverbesserungstechniken bestimmt werden, die durchgeführt werden sollte (in Block 260).
Die Bereitstellung einer Anleitung für den autorisierten Sprecher in Block 250 basiert auf der Feststellung (in Block 240), dass der autorisierte Sprecher Maßnahmen zur Verbesserung des Eingangssignals 145 ergreifen kann. Dies wird unter Bezugnahme auf 3 näher erläutert. Die Durchführung der Sprachverbesserung in Block 260 basiert auf der Feststellung (in Block 240), dass die Sprachverbesserung durchgeführt werden sollte. Wie bereits erwähnt, kann die Feststellung, dass eine Sprachverbesserung durchgeführt werden sollte, eine Feststellung darüber beinhalten, was die Sprachverbesserung beinhalten sollte. Beispielsweise kann die Sprachverbesserung bekannte Techniken wie Rauschunterdrückung, Nachhallreduzierung oder die gemeinsame Durchführung von Rauschunterdrückung, Nachhallreduzierung und Quellentrennung umfassen.
Die Rauschunterdrückung bezieht sich auf den Prozess der Reduzierung oder Entfernung von Rauschen aus akustischen Signalen. Zu den bekannten Entrauschungsalgorithmen mit unterschiedlichem Grad an Komplexität und Effizienz gehören die ideale Kanalauswahl oder die ideale binäre Maske, die spektrale Subtraktion, der Unterraum, die Rauschabschätzung und statistische Verfahren. Die Nachhallentfernung bezieht sich auf den Nachhall, d. h. die Mehrwegeausbreitung eines akustischen Signals von der Quelle bis zum Mikrofon 110. Befindet sich der autorisierte Sprecher zu nahe an einem Mikrofon 110, ist der resultierende Nachhall minimal, und herkömmliche Verfahren zur Nachhallreduzierung behandeln das Rauschen. Wenn der autorisierte Sprecher zu weit vom Mikrofon 110 entfernt ist, kann es zu starken Verzerrungen kommen, einschließlich eines hohen Rauschpegels und Nachhalls. Die Nachhallunterdrückung kann mit der bekannten akustischen Echokompensation (AEC) oder bekannten Techniken zur Unterdrückung des Nachhalls erfolgen. Die Quellentrennung bezieht sich auf die Wiederherstellung des ursprünglichen Sprachsignals aus einer konvolutiven Mischung von Sprachsignalen. Die bekannte Technik der blinden Quellentrennung (BSS) schätzt ein ursprüngliches Signal anhand der beobachteten Signale. Die blinde Signaltrennung (d. h. die blinde Strahlformung) nutzt wie BSS statistische Merkmale (ab Block 230).
3 zeigt eine Bestimmung in Block 240 (2), ob ein autorisierter Sprecher Maßnahmen ergreifen kann, um das Eingangssignal gemäß einer beispielhaften Ausführungsform zu verbessern. Es wird weiterhin auf die und verwiesen. Zwei Mikrofone 110a, 110b (allgemein als 110 bezeichnet) sind an Stellen des Fahrzeugs 100 dargestellt, die den Stellen von zwei UWB- oder BLE-Detektoren 305a, 305b (allgemein als 305 bezeichnet) entsprechen. Ein Bereich 310a ist so dargestellt, dass er dem Mikrofon 110a entspricht, und ein Bereich 310b ist so dargestellt, dass er dem Mikrofon 110b entspricht. Im Allgemeinen kann jedes Mikrofon 110 einen entsprechenden Bereich 310 haben. Für den autorisierten Sprecher, der das Gerät 140 trägt, ist ein Sprechbereich 320 angegeben. Der Sprechbereich 320 kann ein Bereich von Ausrichtungswinkeln und eine Entfernung sein, die von der für den Sprecher (in Block 220) festgelegten Ausrichtung ausgehen.
Idealerweise kann die Sprechzone 320 vollständig innerhalb eines Bereichs 310 liegen, der einem der Mikrofone 110 zugeordnet ist. Dies würde dem Standort und der Ausrichtung Rechnung tragen. Die Bestimmung, ob die Lautstärke des autorisierten Sprechers erhöht werden sollte, ist dann eine einfache Bestimmung auf der Grundlage des SPL, der an dem Mikrofon 110 gemessen wurde, in dessen Bereich 310 sich der Sprecher befindet. Basierend auf dem Standort und der Ausrichtung, die für den autorisierten Sprecher bestimmt wurden (in Block 220), kann das Steuergerät 120 bestimmen, ob die Sprechzone 320 des autorisierten Sprechers innerhalb der Region 310 eines beliebigen Mikrofons 110 liegt. Befindet sich die Sprechzone 320 nicht innerhalb eines Bereichs 310 eines beliebigen Mikrofons 110, kann in Block 240 bestimmt werden, dass der autorisierte Sprecher Maßnahmen zur Verbesserung des Eingangssignals 145 ergreifen kann.
Dann, in Block 250, kann eine Audioführung durch einen Lautsprecher 115 am oder im Fahrzeug 100 bereitgestellt werden. Die spezifische Führung kann auf der Nähe des autorisierten Sprechers zu einem Mikrofon 110 und der Sprechzone 320 mit einer bestimmten Region 310 basieren. Das heißt, wenn sich der autorisierte Sprecher in einer Entfernung befindet, die größer ist als ein Schwellenwert für die Entfernung zu einem Mikrofon 110, kann die Anweisung lauten, dass der autorisierte Sprecher sich einem bestimmten Mikrofon 110 nähern soll. Liegt der Abstand innerhalb des Schwellenwerts, aber die Sprechzone 320 befindet sich nicht in einem Bereich 310 des dem autorisierten Sprecher am nächsten gelegenen Mikrofons 110, kann die Anweisung an den autorisierten Sprecher lauten, seine Ausrichtung auf das nächstgelegene Mikrofon 110 zu ändern. In dem in 3 dargestellten Beispielfall kann der Sprecher aufgefordert werden, sich dem Fahrerseitenspiegel zu nähern und sich so zu drehen, dass er dem Spiegel zugewandt ist, in dem sich das Mikrofon 110a befindet, so dass sich die Sprechzone 320 innerhalb des dem Mikrofon 110a entsprechenden Bereichs 310a befindet.
4 ist ein Prozessablauf einer Bestimmung, in Block 240 des Verfahrens 200 von 2, ob die Sprachverbesserung das Eingangssignal 145 gemäß einer beispielhaften Ausführungsform verbessern wird. Der in 4 dargestellte beispielhafte Ansatz ist Fuzzy-Logik. Wie bereits erwähnt, können andere beispielhafte Ausführungsformen zur Durchführung der Bestimmung in Block 240 eine Bayes'sche Wahrscheinlichkeit, einen Dempster-Shafer-Ansatz zur Entscheidungsfindung, einen statistischen maschinellen Lernansatz oder einen anderen Entscheidungsalgorithmus verwenden. In Block 410 kann die Erzeugung linguistischer Variablen aus den in Block 230 erzeugten Merkmalen auch als Fuzzifizierung bezeichnet werden. In der Fuzzy-Logik bezieht sich die Fuzzifizierung auf die Umwandlung einer eindeutigen Größe in eine unscharfe Größe. Das heißt, Merkmale des (in Block 230 erhaltenen) Eingangssignals wie SNR, SAR und SDL werden von Werten, die anhand von Formeln wie Gl. 1-4, in unscharfe Größen (z. B. niedrig, mittel, hoch) umgewandelt.
Die Zuordnung der in Block 230 erhaltenen Schätzungen zu Fuzzy-Größen kann auf festgelegten Bereichen oder Regeln beruhen. Zum Beispiel kann jede linguistische Variable, die von jedem Merkmal abgeleitet wird, als Quintupel (x, T(x), U, G, S) ausgedrückt werden. Der Variablenname ist x und T(x) ist die Menge der linguistischen Werte, die die Variable mit dem Namen x annehmen kann. U ist das Universum des Diskurses, und G ist eine syntaktische Regel, die die Begriffe in T(x) erzeugt. S ist eine semantische Regel, die jedem linguistischen Wert seine Bedeutung zuordnet (d. h. eine auf U definierte Fuzzy-Menge). Die Menge der linguistischen Werte, die mit der Variable geschätzter SNR verbunden sind, kann zum Beispiel {sehr niedrig, niedrig, mittel, hoch, sehr hoch} sein.
In Block 420 stützt sich die Implementierung eines Inferenzmechanismus auf eine Regeldatenbank 430. Die Regeldatenbank 430 kann eine Regel für jede Kombination jedes linguistischen Wertes jeder Variablen enthalten. So kann es beispielsweise nur zwei charakterisierende Variablen aus Block 230 geben, nämlich SNR und Rauschquellenidentifikation (NSI). SNR kann mit fünf linguistischen Werten {sehr niedrig, niedrig, mittel, hoch, sehr hoch} assoziiert werden, die den Niveaus der SNR-Werte entsprechen, und NSI kann ebenfalls mit fünf linguistischen Werten {hoch statisch, statisch, normal, nicht statisch, sehr nicht statisch} assoziiert werden, die den Arten von NSI entsprechen. In diesem beispielhaften Fall würde die Regeldatenbank 430 fünfundzwanzig Regeln enthalten, die den fünfundzwanzig Kombinationen von linguistischen Werten für SNR und NSI zugeordnet sind. Beispielsweise kann eine der fünfundzwanzig Regeln einem SNR von „sehr niedrig“ und einem NSI von „normal“ entsprechen, während eine andere Regel einem SNR von „hoch“ und einem NSI von „statisch“ entspricht.
Die in Block 420 angewendete Regel kann auf der Kombination von linguistischen Werten basieren, die mit den in Block 230 sowie in Block 220 erhaltenen Merkmalen (z. B. Abstand, Ausrichtung) übereinstimmen. Die Regel führt zur Ausgabe einer Entscheidung in Block 240. Wie in 2 erläutert, kann die Entscheidung darin bestehen, dem Sprecher eine Anleitung zu geben (in Block 250), eine Sprachverbesserung durchzuführen (in Block 260) und, gemäß alternativen Ausführungsformen, festzulegen, welche Sprachverbesserungen durchgeführt werden sollen (z. B. Rauschunterdrückung, Nachhallreduzierung).
Obwohl die obige Offenbarung unter Bezugnahme auf beispielhafte Ausführungsformen beschrieben wurde, versteht der Fachmann, dass verschiedene Änderungen vorgenommen und gleichwertige Elemente durch andere ersetzt werden können, ohne den Anwendungsbereich der Offenbarung zu verletzen. Darüber hinaus können viele Modifikationen vorgenommen werden, um eine bestimmte Situation oder ein bestimmtes Material an die Lehren der Offenbarung anzupassen, ohne dass der wesentliche Umfang der Offenbarung verlassen wird. Daher soll die vorliegende Offenbarung nicht auf die einzelnen offengelegten Ausführungsformen beschränkt sein, sondern alle Ausführungsformen umfassen, die in ihren Anwendungsbereich fallen.

Claims

Fahrzeug, aufweisend: eine Vielzahl von Mikrofonen, die so konfiguriert sind, dass sie Sprache von einer Person außerhalb des Fahrzeugs als Eingangssignal erhalten; ein Sensorsystem, das so konfiguriert ist, dass es den Standort und die Ausrichtung der Person in Bezug auf das Fahrzeug bestimmt; und ein Steuergerät, das so konfiguriert ist, dass es Merkmale des Eingangssignals bestimmt und auf der Grundlage eines oder mehrerer der Merkmale und des Standorts und der Ausrichtung der Person bestimmt, ob eine Sprachverbesserung an dem Eingangssignal durchgeführt werden soll.
Fahrzeug nach Anspruch 1, wobei das Sensorsystem ein Array von Ultrabreitband-(UWB) oder Bluetooth-Low-Energy- (BLE) Detektoren umfasst und jeder des Arrays von UWB- oder BLE-Detektoren so konfiguriert ist, dass er mit einem Gerät kommuniziert, das sich im Besitz der Person befindet, um den Standort der Person relativ zum Fahrzeug zu bestimmen, und ein Pegel des Eingangssignals an jedem der mehreren Mikrofone an verschiedenen Stellen des Fahrzeugs verwendet wird, um die Ausrichtung der Person relativ zum Fahrzeug zu bestimmen.
Fahrzeug nach Anspruch 1, wobei das Steuergerät ferner konfiguriert ist, um zu bestimmen, ob die Person angewiesen werden soll, eine Maßnahme zur Verbesserung der Qualität des Eingangssignals zu ergreifen, und um die Person anzuweisen, sich näher an eines der mehreren Mikrofone heranzubewegen oder die Ausrichtung so zu ändern, dass sie dem einen der mehreren Mikrofone zugewandt ist, und wobei das Steuergerät konfiguriert ist, um zu bestimmen, ob die Person angewiesen werden soll, lauter zu sprechen, basierend auf einer Lautstärke, die an einem der mehreren Mikrofone erkannt wird, dem die Person am nächsten ist.
Fahrzeug nach Anspruch 1, wobei das Steuergerät so konfiguriert ist, dass es auf der Grundlage von Fuzzy-Logik, Bayes'scher Wahrscheinlichkeit, evidenzbasierter Entscheidungsfindung nach Dempster-Shafer oder statistischem maschinellem Lernen bestimmt, ob die Sprachverbesserung an dem Eingangssignal durchgeführt werden soll.
Fahrzeug nach Anspruch 1, wobei das Steuergerät so konfiguriert ist, dass es die Sprachverbesserung durch Entrauschung, Enthallung oder eine Kombination aus Entrauschung, Enthallung und Quellentrennung durchführt.
Verfahren in einem Fahrzeug, aufweisend: Anordnen einer Vielzahl von Mikrofonen, um Sprache von einer Person außerhalb des Fahrzeugs als Eingangssignal zu erhalten; Anordnen eines Sensorsystems zur Bestimmung des Standorts und der Ausrichtung der Person in Bezug auf das Fahrzeug; und Konfigurieren eines Steuergeräts zum Bestimmen von Merkmalen des Eingangssignals und zum Bestimmen, ob eine Sprachverbesserung auf dem Eingangssignal basierend auf einem oder mehreren der Merkmale und dem Standort und der Orientierung der Person durchgeführt werden soll.
Verfahren nach Anspruch 6, wobei das Anordnen des Sensorsystems das Anordnen eines Arrays von Ultrabreitband- (UWB) oder Bluetooth-Low-Energy- (BLE) Detektoren umfasst und das Verfahren das Konfigurieren jedes der Detektoren des Arrays von UWB- oder BLE-Detektoren umfasst, um mit einer Vorrichtung zu kommunizieren, die sich im Besitz der Person befindet, um den Standort der Person relativ zum Fahrzeug zu bestimmen, und das Bestimmen der Ausrichtung der Person relativ zum Fahrzeug auf der Grundlage eines Pegels des Eingangssignals an jedem der mehreren Mikrofone an verschiedenen Stellen des Fahrzeugs.
Verfahren nach Anspruch 6, wobei das Konfigurieren des Steuergeräts das Konfigurieren des Steuergeräts umfasst, um zu bestimmen, ob die Person angewiesen werden soll, eine Maßnahme zur Verbesserung der Qualität des Eingangssignals zu ergreifen, das Konfigurieren des Steuergeräts, um die Person anzuweisen, sich näher an eines der mehreren Mikrofone zu bewegen oder die Ausrichtung zu ändern, um dem einen der mehreren Mikrofone gegenüberzustehen, und das Konfigurieren des Steuergeräts, um zu bestimmen, ob die Person angewiesen werden soll, lauter zu sprechen, basierend auf einer Lautstärke, die an einem der mehreren Mikrofone, dem die Person am nächsten ist, erfasst wird.
Verfahren nach Anspruch 6, wobei das Konfigurieren des Steuergeräts das Konfigurieren des Steuergeräts beinhaltet, um zu bestimmen, ob die Sprachverbesserung auf dem Eingangssignal basierend auf Fuzzy-Logik, auf Bayes'scher Wahrscheinlichkeit, auf Dempster-Shafer-Evidenzentscheidung oder auf statistischem maschinellem Lernen durchgeführt werden soll.
Verfahren nach Anspruch 6, wobei das Konfigurieren des Steuergeräts das Konfigurieren des Steuergeräts zum Durchführen der Sprachverbesserung durch Durchführen von Rauschunterdrückung, durch Durchführen von Nachhallunterdrückung oder durch Durchführen einer Kombination von Rauschunterdrückung, Nachhallunterdrückung und Quellentrennung umfasst.