DE102019005149B4

DE102019005149B4 - Klassifizierung von Audiodaten

Info

Publication number: DE102019005149B4
Application number: DE102019005149.1A
Authority: DE
Inventors: Stefan Meier
Original assignee: eSolutions GmbH
Current assignee: eSolutions GmbH
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2024-02-15
Anticipated expiration: 2039-07-25
Also published as: DE102019005149A1

Abstract

Verfahren zur Klassifizierung von Audiodaten (24) mittels eines computerimplementierten Klassifikators, umfassend:Erhalten von Audiodaten (24), welche zumindest ein Audiosegment (26; 28) umfassen;Bestimmen eines ersten Klassifizierungsergebnisses und eines zweiten Klassifizierungsergebnisses für das zumindest eine Audiosegment (26; 28), wobei zumindest das erste Klassifizierungsergebnis einer ersten Raumposition einer Nutzsignalquelle zugeordnet ist und wobei dem zweiten Klassifizierungsergebnis eine zweite, von der ersten Raumposition verschiedene Raumposition der Nutzsignalquelle zugeordnet ist, oder Rauschen zugeordnet ist;Bestimmen einer Leistung des Audiosegments (26; 28);Normalisieren der Leistung zu einer Normleistung;Gewichten der Klassifizierungsergebnisse mit der Normleistung zu jeweils einem Gewichtungsergebnis; undAuswählen eines der Klassifizierungsergebnisse basierend auf den Gewichtungsergebnissen.

Description

Technisches Gebiet
Die vorliegende Offenbarung betrifft allgemein das Gebiet der Klassifizierung von Audiodaten. Ein Verfahren zur Klassifizierung von Audiodaten mittels eines computerimplementierten Klassifikators und ein Verfahren zum Einlernen eines computerimplementierten Klassifikators zur Klassifizierung von Audiodaten werden dargelegt. Ferner betrifft die Offenbarung einen Prozessor, ein Computerprogramm, ein Speichermedium und ein Datensignal.
Hintergrund
In Umgebungen wie beispielsweise in sich fortbewegenden Kraftfahrzeugen oder Flugzeugen ist es in bestimmten Situationen wünschenswert, ein in Audiodaten enthaltenes Audiosegment (beispielsweise gesprochene Worte) einer bekannten Raumposition zuzuordnen und/oder von Rauschen zu unterscheiden. Die bekannte Raumposition entspricht beispielsweise einem Sitzplatz in dem Kraftfahrzeug oder Flugzeug. Das Rauschen kann von akustischen Störsignalen oder von den die Audiodaten aufzeichnenden Geräten verursacht werden.
Das Audiosegment beschreibt zumindest ein erstes und ein zweites Audiosignal, welche zeitgleich von Mikrofonen an unterschiedlichen Positionen aufgenommen wurden. Ein Audiosignal ist ein elektrisches Signal, das durch ein Mikrofon aus Schall gewonnen wird, wobei der Schall beispielsweise aus einer klar definierten Schallquelle stammen kann. So kann ein Audiosignal gesprochene Worte einer Person wiedergeben, welche sich in einer lauten Umgebung, d. h. in einer Umgebung mit akustischen Störsignalen befindet. Dies kann beispielsweise der Fall sein, wenn eine Person ein Telefonat in einem fahrenden Kraftfahrzeug führen möchte, wobei beispielsweise der Motor und die Reifen des Kraftfahrzeugs akustische Störsignale abgeben, welche es einem Gesprächspartner der telefonierenden Person erschweren können, die Person zu verstehen. In diesem Beispiel stellt die Person eine Nutzsignalquelle dar und ein von der Nutzsignalquelle erzeugtes Schallsignal wird von den akustischen Störsignalen überlagert. Das von der Nutzsignalquelle erzeugte Schallsignal kann beispielsweise auch aus gesprochenen Worten bestehen, welche von einem Benutzer eines elektronischen Geräts gesprochen werden, um eine Sprachbedienungseinheit des Geräts oder ein mit dem Gerät gekoppeltes Fahrzeug zu steuern. Ferner kann das von der Nutzsignalquelle erzeugte Schallsignal beispielsweise auch der Klang eines Musikinstruments sein, welches live bei Umgebungsgeräuschen gespielt wird.
Die Druckschrift US 8,340,975 B1 offenbart ein drahtloses interaktives Spracherkennungssteuerungsgerät und -system. Wenn zwei oder mehr Geräte mit Mikrofon gleichzeitig von demselben Sprachbefehl ausgelöst werden, beispielsweise, wenn diese in demselben Wohnraum angeordnet sind, stellt eine Echtzeitkoordination sicher, dass nur ein Gerät auf den Befehl reagiert. Hierzu wird für jedes Gerät ein gewichtetes Signal gebildet auf Basis der jeweiligen Mikrofonsignalstärke und der jeweiligen Spracherkennungskonfidenz.
Im Stand der Technik sind verschiedene Möglichkeiten der Identifizierung eines Sprachsignals aus einem mit Störgeräuschen überlagerten Audiosignal und der Lokalisierung eines Sprechers bekannt. Allerdings weisen diese bekannten Verfahren noch erhebliche Mängel auf. Insbesondere die nach den bekannten Verfahren erhaltene Klassifizierung eines Audiosignals als Rauschen oder zu einer bestimmten Raumposition ist verbesserungswürdig.
Kurzer Abriss
Es ist daher eine Aufgabe der vorliegenden Erfindung, eine Technik bereitzustellen, welche es ermöglicht, Audiodaten effizient und zuverlässig zu klassifizieren und welche zumindest die oben genannten Nachteile des Standes der Technik beseitigt.
Gemäß einem ersten Aspekt ist ein Verfahren zur Klassifizierung von Audiodaten mittels eines computerimplementierten Klassifikators vorgesehen. Das Verfahren umfasst ein Erhalten von Audiodaten. Die Audiodaten umfassen zumindest ein Audiosegment. Das Verfahren umfasst ferner ein Bestimmen eines ersten Klassifizierungsergebnisses und eines zweiten Klassifizierungsergebnisses für das zumindest eine Audiosegment. Zumindest das erste Klassifizierungsergebnis ist einer ersten Raumposition einer Nutzsignalquelle zugeordnet. Das Verfahren umfasst des Weiteren ein Bestimmen einer Leistung des Audiosegments und ein Normalisieren der Leistung zu einer Normleistung. Ferner umfasst das Verfahren ein Gewichten der Klassifizierungsergebnisse mit der Normleistung zu jeweils einem Gewichtungsergebnis, und ein Auswählen eines der Klassifizierungsergebnisse basierend auf den Gewichtungsergebnissen.
Die Audiodaten können aus einer Speichervorrichtung geladen werden oder direkt von einer Aufnahmevorrichtung erhalten werden. Beispielsweise wird von zumindest einem Mikrofon ein Audiosignal aufgenommen und anschließend werden die Audiodaten berechnet, welche das Audiosignal umfassen. Es können mehrere Audiosignale aufgenommen werden, wobei die Audiodaten so berechnet werden, dass die Audiodaten die mehreren Audiosignale umfassen. Die Nutzsignalquelle ist beispielsweise ein Sprecher oder ein Musikinstrument, wobei sich die Nutzsignalquelle bei der Aufnahme des Audiosignals im Wesentlichen an einer Raumposition befindet. Das aufgenommene Audiosignal besteht beispielsweise aus einer Überlagerung eines Nutzsignals der Nutzsignalquelle mit Rauschen. Das Nutzsignal entspricht dabei einem in ein elektrisches Signal umgewandelten Schallsignal, wobei das Schallsignal von der Nutzsignalquelle ausgesendet wird. Die Umwandlung in das elektrische Signal erfolgt beispielsweise durch das zumindest eine Mikrofon. Das Rauschen entspricht dabei einem in ein elektrisches Signal umgewandelten Schallsignal, das von Rauschen verursacht wird. Es kann auch einem elektrischen Signal entsprechen, das von Rauschen elektrischer Bauteile hervorgerufen wird. Das Audiosignal kann ausschließlich aus Rauschen oder ausschließlich aus dem Nutzsignal bestehen. Ein Audiosegment beschreibt einen zeitlich begrenzten Abschnitt des Audiosignals, im Fall mehrerer Audiosignale einen zeitlich begrenzten Abschnitt der mehreren Audiosignale.
Das erste Klassifizierungsergebnis des zumindest einen Audiosegments ist beispielsweise ein erster Wahrscheinlichkeitswert. Der erste Wahrscheinlichkeitswert kann angeben, mit welcher Wahrscheinlichkeit das zumindest eine Audiosegment der ersten Raumposition zugeordnet ist.
Dem zweiten Klassifizierungsergebnis ist in einer Variante eine zweite, von der ersten Raumposition verschiedene Raumposition der Nutzsignalquelle zugeordnet. Das zweite Klassifizierungsergebnis des zumindest einen Audiosegments ist beispielsweise ein zweiter Wahrscheinlichkeitswert. Der zweite Wahrscheinlichkeitswert kann angeben, mit welcher Wahrscheinlichkeit das zumindest eine Audiosegment der zweiten Raumposition zugeordnet ist.
Dem zweiten Klassifizierungsergebnis ist in einer anderen Variante Rauschen zugeordnet. Der zweite Wahrscheinlichkeitswert kann dann angeben, mit welcher Wahrscheinlichkeit das zumindest eine Audiosegment Rauschen zugeordnet ist.
Das Bestimmen der Leistung des Audiosegments umfasst beispielsweise das Bestimmen der Leistung des Audiosegments in Watt. Das Normalisieren der Leistung zu einer Normleistung umfasst beispielsweise ein Berechnen einer Gesamtleistung des zumindest einen Audiosegments. Im Fall von einem einzigen Audiosegment entspricht die Gesamtleistung der bestimmten Leistung des Audiosegments, im Fall von mehreren Audiosegmenten wird die Gesamtleistung als Summe der Leistungen jedes Audiosegments bestimmt. Die Normleistung wird für ein Audiosegment bestimmt als das Ergebnis der Teilung der Leistung des Audiosegments durch die Gesamtleistung. Beispielsweise wird der Schritt des Normalisierens für jede Leistung derart ausgeführt, dass die Summe aller Normleistungen einem vorbestimmten Wert entspricht.
Der vorbestimmte Wert kann gleich 1 sein, wie im vorgenannten Beispiel der Normalisierung unter Verwendung der Gesamtleistung. Die Gewichtung eines Klassenergebnisses mit einer Normleistung kann durch Multiplikation der beiden Zahlenwerte erhalten werden. So kann ein Gewichtungsergebnis als Produkt aus einem Klassenergebnis und der zugehörigen Normleistung erhalten werden. Beispielsweise wird das Klassifizierungsergebnis ausgewählt, welches in dem größten Gewichtungsergebnis resultiert.
In einem Beispiel können zumindest die Schritte des Bestimmens des ersten und des zweiten Klassifizierungsergebnisses durch den computerimplementierten Klassifikator ausgeführt werden. Der computerimplementierte Klassifikator ist beispielsweise ein computerimplementiertes neuronale Netz, eine Support Vector Machine (SVM) oder basiert auf Gauß'schen Mischverteilungen (Gaussian Mixture Models, GMMs). Der Klassifikator kann ein (P+1)-Klassen Klassifikator und/oder Teil einer Sprecherlokalisierungseinheit sein. Das computerimplementierte neuronale Netz ist ein künstliches neuronales Netz, beispielsweise ein gefaltetes neuronales Netz (convolutional neural network, CNN).
Die Audiodaten umfassen beispielsweise zumindest zwei Audiosegmente. In dem Fall können die Schritte des Bestimmens des ersten und des zweiten Klassifizierungsergebnisses, des Bestimmens der Leistung, des Normalisierens der Leistung, und der Gewichtung für jedes der zumindest zwei Audiosegmente durchgeführt werden. So können für jedes Segment Gewichtungsergebnisse erhalten werden.
In einer Variante beschreibt das zumindest eine Audiosegment ein erstes und ein zweites Audiosignal. Das erste Audiosignal wurde beispielsweise von einem ersten Mikrofon aufgenommen. In einem Beispiel wurde das zweite Audiosignal gleichzeitig von einem zweiten Mikrofon aufgenommen, wobei das erste Mikrofon beim Aufnehmen des ersten Audiosignals von dem zweiten Mikrofon beabstandet war. Beispielsweise sind das erste und das zweite Mikrofon zueinander in einer festgelegten räumlichen Anordnung fixiert. Bei der Aufnahme aller Audiosignale sind das erste und das zweite Mikrofon in einem Beispiel zueinander in derselben festgelegten räumlichen Anordnung fixiert. Die festgelegte räumliche Anordnung kann so gewählt sein, dass das erste Mikrofon von dem zweiten Mikrofon räumlich beabstandet ist. Beispielsweise sind die Positionen der beiden Mikrofone so gewählt, dass die Entfernung des ersten Mikrofons zu der ersten Position unterschiedlich ist im Vergleich zu der Entfernung des zweiten Mikrofons zu der ersten Position und dass die Entfernung des ersten Mikrofons zu der zweiten Position unterschiedlich im Vergleich zu der Entfernung des zweiten Mikrofons zu der zweiten Position.
Das Auswählen des einen der Klassifizierungsergebnisse umfasst beispielsweise ein Bestimmen eines ersten Mittelwerts durch Bildung des Mittelwerts der Gewichtungsergebnisse aller ersten Klassifizierungsergebnisse. Das Auswählen kann ferner ein Bestimmen eines zweiten Mittelwerts durch Bildung des Mittelwerts der Gewichtungsergebnisse aller zweiten Klassifizierungsergebnisse umfassen. Das Auswählen umfasst in einem Beispiel ein Auswählen der Klassifizierungsergebnisse mit dem höchsten Mittelwert. Durch die Zuordnung aller ersten Klassifizierungsergebnisse zu der ersten Raumposition und die Zuordnung aller zweiten Klassifizierungsergebnisse zu einer zweiten Raumposition oder zu Rauschen bedarf es zur Klassifizierung der Audiodaten keiner weiteren Selektion eines einzelnen Klassifizierungsergebnisses. Vielmehr genügt die Auswahl entweder der ersten Klassifizierungsergebnisse oder der zweiten Klassifizierungsergebnisse zur Klassifizierung der Audiodaten. Selbstverständlich kann auch eine Selektion eines einzelnen Klassifizierungsergebnisses vorgenommen werden, beispielsweise die Selektion eines Klassifizierungsergebnisses, welches die Zuordnung beschreibt.
Das Bestimmen der Klassifizierungsergebnisse umfasst beispielsweise ein Extrahieren von zumindest einem Merkmal des zumindest einen Audiosegments und ein Bestimmen der Klassifizierungsergebnisse durch den computerimplementierten Klassifikator basierend auf dem zumindest einen Merkmal.
Der computerimplementierte Klassifikator, der wie oben erwähnt beispielsweise ein computerimplementiertes neuronales Netz ist, kann vor dem Bestimmen der Klassifizierungsergebnisse eingelernt werden. Das Einlernen umfasst beispielsweise ein Erhalten von Audiodaten, welche zumindest ein erstes Lernsegment umfassen. Das zumindest eine erste Lernsegment beschreibt ein drittes und ein viertes Audiosignal. Das dritte Audiosignal wurde beispielsweise von einem ersten Mikrofon aufgenommen. Hierbei kann es sich um das oben beschriebene erste Mikrofon handeln, welches zum Aufzeichnen des ersten Audiosignals herangezogen wird. In einem Beispiel wurde das vierte Audiosignal gleichzeitig von einem zweiten Mikrofon aufgenommen. Hierbei war vorzugsweise das erste Mikrofon beim Aufnehmen des dritten Audiosignals von dem zweiten Mikrofon beabstandet. Bei dem zweiten Mikrofon handelt es sich beispielsweise um das weiter oben beschriebene zweite Mikrofon, welches zur Aufnahme des zweiten Audiosignals verwendet wird. Das aufgenommene dritte Audiosignal und das aufgenommene vierte Audiosignal wurden von einer Nutzsignalquelle an einer ersten Raumposition verursacht. Das Einlernen kann ferner ein Zuordnen der ersten Raumposition zu dem zumindest einen ersten Lernsegment umfassen.
Beispielsweise umfasst das Einlernen ferner ein Erhalten von Audiodaten, welche zumindest ein Rauschsegment umfassen, wobei das zumindest eine Rauschsegment ein fünftes und ein sechstes Audiosignal beschreibt. Beispielsweise wurde das fünfte Audiosignal von dem ersten Mikrofon aufgenommen und das sechste Audiosignal gleichzeitig von dem zweiten Mikrofon aufgenommen. In einem Beispiel war das erste Mikrofon beim Aufnehmen des fünften Audiosignals von dem zweiten Mikrofon beabstandet. Das aufgenommene fünfte Audiosignal und das aufgenommene sechste Audiosignal wurden von Rauschen verursacht. Das Einlernen kann ferner ein Zuordnen des Rauschens zu dem zumindest einen Rauschsegment umfassen.
Das Einlernen des computerimplementierten Klassifikators umfasst beispielsweise ein Überlagern je eines Lernsegments und eines Rauschsegments zur Erzeugung von Überlagerungssegmenten. Es kann ferner ein Extrahieren eines Merkmals aus einem Überlagerungssegment und ein Assoziieren des extrahierten Merkmals mit der dem Lernsegment zugeordneten Raumposition umfassen. Das Einlernen umfasst in einem Beispiel ein Extrahieren eines Merkmals aus dem zumindest einen Rauschsegment und ein Assoziieren des extrahierten Merkmals mit dem Rauschen.
Beispielsweise umfassen die zum Einlernen erhaltenen Audiodaten zumindest ein zweites Lernsegment, wobei das zumindest eine zweite Lernsegment ein siebtes und ein achtes Audiosignal beschreibt. Das siebte Audiosignal wurde beispielsweise von dem ersten Mikrofon, und das achte Audiosignal gleichzeitig von dem zweiten Mikrofon aufgenommen. In einem Beispiel war das erste Mikrofon beim Aufnehmen des siebten Audiosignals von dem zweiten Mikrofon beabstandet. Das aufgenommene siebte Audiosignal und das aufgenommene achte Audiosignal wurden beispielsweise von einer Nutzsignalquelle an einer zweiten, von der ersten Raumposition verschiedenen Raumposition verursacht. Das Verfahren kann dann ferner ein Zuordnen der zweiten Raumposition zu dem zumindest einen zweiten Lernsegment umfassen.
Die erhaltenen Audiodaten umfassen in einer Variante ein erstes und ein zweites Rauschsegment. Das Rauschen kann dem ersten und dem zweiten Rauschsegment zugeordnet werden. Ferner kann das zumindest eine erste oder das zumindest eine zweite Lernsegment mit dem ersten Rauschsegment überlagert werden zur Erzeugung eines ersten Überlagerungssegments. Auch kann dasselbe Lernsegment mit dem zweiten Rauschsegment überlagert werden zur Erzeugung eines zweiten Überlagerungssegments. In anderen Worten kann ein Lernsegment mit verschiedenen Rauschsegmenten überlagert werden zur Erzeugung verschiedener Überlagerungssegmente. Außerdem können verschiedene Lernsegmente mit demselben Rauschsegment überlagert werden zur Erzeugung verschiedener Überlagerungssegmente.
Gemäß einem Beispiel beruht das Merkmal auf einer Phasenverschiebung in einem Audiosegment zwischen dem ersten Audiosignal und dem zweiten Audiosignal. Das Merkmal kann auch auf einer Phasenverschiebung in einem Lernsegment zwischen dem dritten Audiosignal und dem vierten Audiosignal beruhen. Darüber hinaus kann das Merkmal auf einer Phasenverschiebung in einem Rauschsegment zwischen dem fünften Audiosignal und dem sechsten Audiosignal beruhen.
Beispielsweise umfasst das Überlagern zur Erzeugung von Überlagerungssegmenten ein Überlagern des dritten Audiosignals mit dem fünften Audiosignal zur Erzeugung eines ersten Überlagerungssignals und ein Überlagern des vierten Audiosignals mit dem sechsten Audiosignal zur Erzeugung eines zweiten Überlagerungssignals. Das erste Überlagerungssignal und das zweite Überlagerungssignal werden von einem Überlagerungssegment beschrieben. In diesem Fall kann das Merkmal auf einer Phasenverschiebung in einem Überlagerungssegment zwischen dem ersten Überlagerungssignal und dem zweiten Überlagerungssignal beruhen.
Alle Audiosegmente, Lernsegmente und Rauschsegmente können jeweils als Segment bezeichnet werden. Die Phasenverschiebung in einem Segment ist beispielsweise eine Phasenverschiebung zwischen einem Frequenzspektrum eines von dem Segment beschriebenen Audiosignals und einem Frequenzspektrum eines weiteren von dem Segment beschriebenen Audiosignals. Aus diesen beiden Frequenzspektra kann eine Kreuzleistungsdichte bestimmt werden. Die Phasenverschiebung in dem Segment kann dann als die Phase des Kreuzleistungsdichtespektrums bestimmt werden. Das Kreuzleistungsdichtespektrum kann auch als spektrale Kreuzleistungsdichte bezeichnet werden. Das Merkmal kann alternativ aus Werten einer Kreuzkorrelation zwischen einem von dem Segment beschriebenen Audiosignal und einem weiteren von dem Segment beschriebenen Audiosignal sein. Das Kreuzleistungsdichtespektrum und die Kreuzkorrelation können mittels einer diskreten Fouriertransformation ineinander umgerechnet werden.
Gemäß einem Beispiel umfassen die zum Einlernen erhaltenen Audiodaten mehrere erste oder zweite Lernsegmente. Die einzelnen Schritte des Zuordnens der jeweiligen Raumposition zu dem jeweiligen Lernsegment, des Überlagerns zur Erzeugung von Überlagerungssegmenten, des Extrahierens eines Merkmals aus einem Überlagerungssegment und des Assoziierens des extrahierten Merkmals können dann jeweils für die mehreren ersten oder zweiten Lernsegmente durchgeführt werden.
Gemäß einem zweiten Aspekt wird ein Prozessor zur Klassifizierung von Audiodaten mittels eines computerimplementierten Klassifikators bereitgestellt. Der Prozessor ist eingerichtet, Audiodaten zu erhalten, welche zumindest ein Audiosegment umfassen. Der Prozessor ist ferner eingerichtet, ein erstes Klassifizierungsergebnis und eine zweites Klassifizierungsergebnis für das zumindest eine Audiosegment zu bestimmen, wobei zumindest das erste Klassifizierungsergebnis einer ersten Raumposition einer Nutzsignalquelle zugeordnet ist. Darüber hinaus ist der Prozessor eingerichtet, eine Leistung des Audiosegments zu bestimmen, die Leistung zu einer Normleistung zu normalisieren, die Klassifizierungsergebnisse mit der Normleistung zu jeweils einem Gewichtungsergebnis zu gewichten, und eines der Klassifizierungsergebnisse basierend auf den Gewichtungsergebnissen auszuwählen. Der Prozessor ist beispielsweise dazu eingerichtet, das Verfahren des ersten Aspekts durchzuführen.
Gemäß einem dritten Aspekt wird eine Vorrichtung bereitgestellt, welche den Prozessor gemäß dem zweiten Aspekt umfasst. Hierbei umfasst das zumindest eine Audiosegment ein erstes und ein zweites Audiosignal und die Vorrichtung umfasst ferner ein erstes Mikrofon zur Aufnahme des ersten Audiosignals und ein zweites Mikrofon zur gleichzeitigen Aufnahme des zweiten Audiosignals, wobei das erste Mikrofon von dem zweiten Mikrofon beabstandet ist.
Gemäß einem vierten Aspekt ist ein Verfahren zum Einlernen eines computerimplementierten Klassifikators zur Klassifizierung von Audiodaten vorgesehen. Das Verfahren umfasst ein Erhalten von Audiodaten, welche zumindest ein erstes Lernsegment umfassen, wobei das zumindest eine erste Lernsegment ein drittes und ein viertes Audiosignal beschreibt. Das dritte Audiosignal wurde von einem ersten Mikrofon aufgenommen und das vierte Audiosignal wurde gleichzeitig von einem zweiten Mikrofon aufgenommen wurde, wobei das erste Mikrofon beim Aufnehmen des dritten Audiosignals von dem zweiten Mikrofon beanstandet war. Das aufgenommene dritte Audiosignal und das aufgenommene vierte Audiosignal wurden von einer Nutzsignalquelle an einer ersten Raumposition verursacht. Das Verfahren umfasst ferner ein Zuordnen der ersten Raumposition zu dem zumindest einen ersten Lernsegment und ein Erhalten von Audiodaten, welche zumindest ein Rauschsegment umfassen. Das zumindest eine Rauschsegment beschreibt ein fünftes und ein sechstes Audiosignal. Das fünfte Audiosignal wurde von dem ersten Mikrofon aufgenommen und das sechste Audiosignal wurde gleichzeitig von dem zweiten Mikrofon aufgenommen. Das erste Mikrofon war beim Aufnehmen des fünften Audiosignals von dem zweiten Mikrofon beabstandet. Das aufgenommene fünfte Audiosignal und das aufgenommene sechste Audiosignal wurden von Rauschen verursacht. Das Verfahren umfasst ferner ein Zuordnen des Rauschens zu dem zumindest einen Rauschsegment. Darüber hinaus umfasst das Verfahren ein Überlagern je eines Lernsegments und eines Rauschsegments zur Erzeugung von Überlagerungssegmenten. Auch ein Extrahieren eines Merkmals aus einem Überlagerungssegment und ein Assoziieren des extrahierten Merkmals mit der dem Lernsegment zugeordneten Raumposition werden von dem Verfahren umfasst. Schließlich umfasst das Verfahren ein Extrahieren eines Merkmals aus dem zumindest einen Rauschsegment und ein Assoziieren des extrahierten Merkmals mit dem Rauschen. Das Verfahren nach dem vierten Aspekt kann einen oder mehrere der Merkmale des Verfahrens des ersten Aspekts umfassen, insbesondere die zum ersten Aspekt bezüglich des Einlernens genannten Schritte. So können die Audiodaten das erste und das zweite Lernsegment umfassen und/oder das erste und das zweite Rauschsegment umfassen. Die Audiodaten können auch mehrere erste oder zweite Lernsegmente umfassen. Das Merkmal kann auch im Verfahren nach dem vierten Aspekt auf einer Phasenverschiebung beruhen.
Gemäß einem fünften Aspekt wird ein Prozessor zum Einlernen eines computerimplementierten Klassifikators zur Klassifizierung von Audiodaten bereitgestellt. Der Prozessor ist eingerichtet, Audiodaten zu erhalten, welche zumindest ein erstes Lernsegment umfassen. Das zumindest eine erste Lernsegment beschreibt ein drittes und ein viertes Audiosignal, wobei das dritte Audiosignal von einem ersten Mikrofon aufgenommen wurde und das vierte Audiosignal gleichzeitig von einem zweiten Mikrofon aufgenommen wurde. Hierbei war das erste Mikrofon beim Aufnehmen des dritten Audiosignals von dem zweiten Mikrofon beanstandet. Das aufgenommene dritte Audiosignal und das aufgenommene vierte Audiosignal wurden von einer Nutzsignalquelle an einer ersten Raumposition verursacht. Der Prozessor ist ferner eingerichtet, die erste Raumposition zu dem zumindest einen ersten Lernsegment zuzuordnen und Audiodaten zu erhalten, welche zumindest ein Rauschsegment umfassen. Das zumindest eine Rauschsegment beschreibt ein fünftes und ein sechstes Audiosignal, wobei das fünfte Audiosignal von dem ersten Mikrofon aufgenommen wurde und das sechste Audiosignal gleichzeitig von dem zweiten Mikrofon aufgenommen wurde, wobei das erste Mikrofon beim Aufnehmen des fünften Audiosignals von dem zweiten Mikrofon beabstandet war. Das aufgenommene fünfte Audiosignal und das aufgenommene sechste Audiosignal wurden von Rauschen verursacht. Der Prozessor ist darüber hinaus eingerichtet, das Rauschen zu dem zumindest einen Rauschsegment zuzuordnen, je ein Lernsegment und ein Rauschsegment zur Erzeugung von Überlagerungssegmenten zu überlagern, ein Merkmal aus einem Überlagerungssegment zu extrahieren und das extrahierte Merkmal mit der dem Lernsegment zugeordneten Raumposition zu assoziieren, und ein Merkmal aus dem zumindest einen Rauschsegment zu extrahieren und das extrahierte Merkmal mit dem Rauschen zu assoziieren. Der Prozessor kann dazu eingerichtet sein, das Verfahren gemäß dem vierten Aspekt auszuführen. Er kann ferner dazu eingerichtet sein, das Verfahren gemäß dem ersten Aspekt auszuführen.
Gemäß einem sechsten Aspekt ist ein Computerprogramm vorgesehen, welches, wenn es auf einem Prozessor ausgeführt wird, den Prozessor dazu einrichtet, das Verfahren nach dem ersten oder dem vierten Aspekt auszuführen.
Gemäß einem siebten Aspekt wird ein Speichermedium bereitgestellt, auf welchem das Computerprogramm des sechsten Aspekts gespeichert ist.
Gemäß einem achten Aspekt wird ein Datensignal bereitgestellt, welches Daten überträgt, die das Computerprogramm des sechsten Aspekts repräsentieren.
Kurze Beschreibung der Zeichnungen
Weitere Merkmale und Vorteile der hier vorgestellten Technik werden aus den Zeichnungen sowie aus der nachfolgenden ausführlichen Beschreibung deutlich. Es zeigen:

1 eine schematische Darstellung eines Fahrzeugs mit einer Vorrichtung zum Ausführen eines Verfahrens gemäß der vorliegenden Offenbarung;
2 ein Flussdiagramm eines Verfahrens zur Klassifizierung von Audiodaten;
3 eine schematische Struktur von zu klassifizierenden Audiodaten;
4 ein Flussdiagramm eines Verfahrens zum Einlernen eines computerimplementierten Klassifikators;
5 eine schematische Darstellung einer Sprecherlokalisierungseinheit;
6 ein Flussdiagramm eines Verfahrens zum Einlernen eines computerimplementierten Klassifikators und zur Klassifizierung von Audiodaten;
7 ein Flussdiagramm eines Teils eines Verfahrens zur Klassifizierung von Audiodaten oder zum Einlernen eines computerimplementierten Klassifikators; und
8 ein Flussdiagramm eines Teils eines Verfahrens zur Klassifizierung von Audiodaten.

Detaillierte Beschreibung
1 zeigt eine schematische Darstellung eines Fahrzeugs 2. Das dargestellte Kraftfahrzeug 2 ist im Ausführungsbeispiel ein Pkw und umfasst neben einem Fahrersitz 4 einen Beifahrersitz 6 sowie in einer hinteren Sitzreihe drei weitere Rücksitze 8, 10, 12.
Es ist einen Vorrichtung 14 vorgesehen. Die Vorrichtung 14 ist mit einem ersten Mikrofon 16 und einem zweiten Mikrofon 18 verbunden. In einer alternativen Ausführungsform sind die beidem Mikrofone 16, 18 Teil der Vorrichtung 14. In jedem Fall sind die beiden Mikrofone 16, 18 an unterschiedlichen Orten im Fahrzeug 2 angeordnet. Darüber hinaus ist die Vorrichtung 14 mit wenigstens einer Gerätefunktion 20, 22 im Kraftfahrzeug 2 kommunikativ verbunden und dazu ausgebildet, diese Gerätefunktion 20, 22 anzusteuern.
Die Vorrichtung 14 kann einen digitalen Signalprozessor, DSP, oder eine anderweitige softwaregesteuerte Prozessoreinrichtung umfassen, die im Folgenden als Prozessor 15 bezeichnet werden. Die Vorrichtung 14 kann ferner eine Speichereinheit 17 und eine Steuerungseinrichtung 19 zum Ansteuern der wenigstens einen Gerätefunktion 20, 22 umfassen. Die Steuerungseinrichtung 19 ist beispielsweise als Steuergerät (Electronic Control Unit, ECU) konfiguriert.
2 zeigt ein Flussdiagramm eines Verfahrens zur Klassifizierung von Audiodaten. Das Verfahren kann von der in der 1 veranschaulichten Vorrichtung 14 durchgeführt werden. Unter Bezugnahme auf 2 ist die in 1 dargestellte Vorrichtung 14 dazu ausgebildet, zu klassifizierende Audiodaten 24 zu erhalten, welche zumindest ein Audiosegment 26, 28 umfassen (Schritt 202). Die Audiodaten 24 können von dem Prozessor 15 aus der Speichereinheit 17 geladen werden. Eine schematische Darstellung dieser Audiodaten 24 ist in 3 dargestellt.
Die Audiodaten 24 umfassen in dem dargestellten Beispiel ein erstes Audiosegment 26 und ein zweites Audiosegment 28. Das erste Audiosegment 26 beschreibt ein erstes Audiosignal 30 und ein zweites Audiosignal 32. Das zweite Audiosegment 28 beschreibt ein erstes Audiosignal 34 und ein zweites Audiosignal 36. Das erste Audiosignal 30, 34 wurde von dem ersten Mikrofon 16 aufgenommen. Das zweite Audiosignal 32, 36 wurde von dem zweiten Mikrofon 18 aufgenommen. Das erste Audiosegment beschreibt einen zeitlich begrenzten Abschnitt der Audiosignale 30, 32, das zweite Audiosegment beschreibt einen darauf folgenden zweiten Abschnitt der Audiosignale 34, 36. In anderen Worten ist das erste Audiosignal 30, 34 zeitlich in zwei Blöcke unterteilt und das zweite Audiosignal 32, 36 ebenso. Dies kann erreicht werden durch Segmentieren eines aufgenommenen Audiosignals in mehrere Segmente mit in zeitlicher Hinsicht beispielsweise gleicher Länge.
Es wird deutlich, dass zwischen dem ersten Audiosignal 30, 34 und dem zweiten Audiosignal 32, 36 in jedem der Audiosegmente 26 und 28 ein zeitlicher Versatz vorliegt. Dies liegt daran, dass das beschriebene erste Audiosignal 30, 34 und das beschriebene zweite Audiosignal 30, 36 im dargestellten Beispiel ein Sprachsignal einer Person darstellt, welche auf dem Rücksitz 12 sitzt. Das Sprachsignal der Person kann als Nutzsignal einer Nutzsignalquelle verstanden werden, wobei sich die Nutzsignalquelle im vorliegenden Beispiel an einer ersten Position befindet, die der des Rücksitzes 12 entspricht. Der Abstand der Nutzsignalquelle zu dem ersten Mikrofon 16 ist geringer als zu dem zweiten Mikrofon 18, wodurch sich die Laufzeit des Schalls von der Nutzsignalquelle bis zu dem jeweiligen Mikrofon unterscheidet. Dadurch wird der genannte zeitliche Versatz hervorgerufen. Je nach Position der Nutzsignalquelle kommt es zu einem anderen zeitlichen Versatz zwischen dem ersten Audiosignal 30, 34 und dem zweiten Audiosignal 32, 36. Die Mikrofone 16, 18 sind für diesen Zweck so im Fahrzeug angeordnet, dass für unterschiedliche Sitzplätze 4, 6, 8, 10, 12 der zeitliche Versatz hinreichend charakteristisch ist. Hinreichend charakteristisch bedeutet dabei, dass unter Berücksichtigung üblicher Schwankungen im genauen Ausgangsort eines Sprachbefehls die Differenz der Abstände zwischen dem Ausgangsort eines Sprachbefehls und jedem der Mikrofone 16, 18 eindeutig auf einen bestimmten Sitzplatz 4, 6, 8, 10, 12 hinweist, von dem aus der Sprachbefehl ausgegeben wurde. Hierbei sind insbesondere Schwankungen durch unterschiedliche Körperhaltungen, Körpergrößen, und Sprechrichtungen der Fahrzeuginsassen auf den jeweiligen Sitzplätzen 4, 6, 8, 10, 12 zu berücksichtigen. Es kann daher für eine zuverlässige Arbeitsweise des Verfahrens erforderlich sein, dass insbesondere bei einer größeren Anzahl von Sitzplätzen 4, 6, 8, 10, 12 in einem Fahrzeug, beispielsweise in einem Autobus, auch eine größere Zahl von Mikrofonen vorgesehen ist. Dieser Grundsatz ermöglicht die Zuordnung einer Raumposition zu den zu klassifizierenden Audiodaten 24, was einer Klassifizierung entspricht.
Zurückkommend auf 2 ist die Vorrichtung 14 ferner ausgelegt, ein erstes und ein zweites Klassifizierungsergebnis für jedes der Audiosegmente 26, 28 zu bestimmen (Schritt 204). Zumindest dieser Schritt kann durch einen computerimplementierten Klassifikator ausgeführt werden, welcher von zumindest dem Prozessor 15 der Vorrichtung 14 umgesetzt wird. Der computerimplementierte Klassifikator ist beispielsweise ein computerimplementiertes neuronale Netz, eine Support Vector Machine (SVM) oder basiert auf Gauß'schen Mischverteilungen (Gaussian Mixture Models, GMMs). Der Klassifikator kann ein ein (P+1)-Klassen Klassifikator sein. Das computerimplementierte neuronale Netz ist ein künstliches neuronales Netz, beispielsweise ein gefaltetes neuronales Netz (convolutional neural network, CNN). Beispielsweise beinhaltet der Schritt 204 einen weiteren Schritt 206, in dem ein Merkmal des Audiosegments 26, 34 extrahiert wird.
In einer beispielhaften Ausführungsform beruht das Merkmal auf einer Phasenverschiebung in dem ersten Audiosegment 26 zwischen dem ersten Audiosignal 30 und dem zweiten Audiosignal 32. Ebenso kann das Merkmal für das zweite Audiosegment 28 als Phasenverschiebung zwischen dem ersten Audiosignal 34 und dem zweiten Audiosignal 36 bestimmt werden. Die genannte Phasenverschiebung ist beispielsweise eine Phasenverschiebung zwischen dem von dem ersten Audiosegment 26 beschriebenen ersten Audiosignal 30 und dem von dem ersten Audiosegment 26 beschriebenen zweiten Audiosignal 32. Entsprechendes gilt für das zweite Audiosegment 28 bezüglich dem ersten Audiosignal 34 und dem zweiten Audiosignal 36. In einer vorteilhaften Weiterbildung entspricht das Merkmal des ersten Audiosegments 26 einer Phasenverschiebung zwischen einem Frequenzspektrum des ersten Audiosignals 30 des ersten Audiosegments 26 und einem Frequenzspektrum des zweiten Audiosignals 32 des ersten Audiosegments 26. Ebenso kann das Merkmal des zweiten Audiosegments 28 einer Phasenverschiebung zwischen einem Frequenzspektrum des ersten Audiosignals 34 des zweiten Audiosegments 28 und einem Frequenzspektrum des zweiten Audiosignals 36 des zweiten Audiosegments 28 entsprechen. In einem Beispiel entspricht das jeweilige Merkmal dem Sinuswert und/oder Cosinuswert der vorgenannten Phasenverschiebung zwischen den Frequenzspektra. Das Merkmal kann auch dem Cosinuswert der vorgenannten Phasenverschiebung entsprechen. Das Merkmal kann als Phase eines Kreuzleistungsdichtespektrums zweier Audiosignale eines Segments bestimmt werden. Alternativ zur Bestimmung einer Phasenverschiebung zwischen zwei Frequenzspektra kann das Merkmal aus Werten einer Kreuzkorrelation zwischen zwei Audiosignalen eines Segments bestehen.
Der computerimplementierte Klassifikator ist dazu eingerichtet, anhand des extrahierten Merkmals die Klassifizierungsergebnisse zu bestimmen. Hierzu wird das aus den Audiodaten 24 extrahierte Merkmal mit einer Vielzahl an bekannten Merkmalen verglichen, wobei jedes der bekannten Merkmale einer Raumposition oder Rauschen zugeordnet ist. Als erstes Klassifizierungsergebnis wird ein Wahrscheinlichkeitswert erhalten, mit welchem das erste Audiosegment 26 der ersten Raumposition zuzuordnen ist. Dieser Wert kann im Bereich zwischen 0 und 1 liegen. In anderen Worten wird durch das erste Klassifizierungsergebnis beschrieben, wie wahrscheinlich es ist, dass die Audiosignale 30, 32, 34 und 36 von einer Nutzsignalquelle an der ersten Raumposition hervorgerufen wurden.
Als zweites Klassifizierungsergebnis wird ein Wahrscheinlichkeitswert erhalten, mit welchem das erste Audiosegment einer zweiten Raumposition zuzuordnen ist, welche sich von der ersten Raumposition unterscheidet. Auch dieser Wert kann im Bereich zwischen 0 und 1 liegen. Die zweite Raumposition kann der Position des Fahrersitzes 4, des Beifahrersitzes 6 oder eines der Rücksitze 8 oder 10 entsprechen. Auch für das zweite Audiosegment 28 werden ein erstes und ein zweites Klassifizierungsergebnis erhalten.
Dem zweiten Klassifizierungsergebnis kann alternativ zu einer bestimmten Raumposition Rauschen zugeordnet sein. In diesem Fall wird als zweites Klassifizierungsergebnis ein Wahrscheinlichkeitswert erhalten, mit welchem das erste Audiosegment 26 bzw. das zweite Audiosegment 28 Rauschen zuzuordnen ist. Auch dieser Wahrscheinlichkeitswert kann im Bereich zwischen 0 und 1 liegen. Ein hoher Wahrscheinlichkeitswert wird beispielsweise dann erzielt, wenn das Nutzsignal von starkem Rauschen überlagert wird. Beispielsweise wird ein Sprachsignal eines Sprechers von Fahrtgeräuschen des Fahrzeugs 2 übertönt. In anderen Fällen liegt kein Sprachsignal vor und ausschließlich Rauschen wird aufgenommen als erstes und zweites Audiosignal 30, 32, 34, 36. Auch in diesen Fällen wird ein hoher Wahrscheinlichkeitswert ermittelt, der angibt, dass das erste Audiosegment 26 bzw. das zweite Audiosegment 28 mit hoher Wahrscheinlichkeit Rauschen zuzuordnen ist.
Die Vorrichtung 14 ist ausgebildet, weitere Schritte durchzuführen, bevor eines der Klassifizierungsergebnisse ausgewählt wird. So wird in Schritt 208 eine Leistung des ersten Audiosegments 26 und eine Leistung des zweiten Audiosegments 28 bestimmt. Diese Leistung kann beispielsweise als L_x nach Formel (1) bestimmt werden. $L_{x} = \sum_{l = 0}^{t = H} x^{2} (t)$
Hierbei steht H für den Zeitpunkt des Endes eines zeitabhängigen Signalwerts x(t) des jeweiligen Audiosegments und t für die Zeit. Selbstverständlich kann ein Segment auch in einzelne Untersegmente untergliedert werden und die Leistung L_x als Summe der einzelnen Leistungen der Untersegmente bestimmt werden. Solch ein Untersegment ist beispielsweise ein Audiosample innerhalb eines Audiosegments. Es können auch andere Formeln zur Bestimmung der Leistung des jeweiligen Audiosegments 26, 28 verwendet werden. Beispielsweise wird die Summe des ersten Audiosignals 30 und des zweiten Audiosignals 32 berechnet und die Leistung des ersten Audiosegments 26 anhand dieser Summe bestimmt durch Teilen der Summe durch die Anzahl der Audiosignale, hier also durch zwei. Ebenso kann die Summe des ersten Audiosignals 34 und des zweiten Audiosignals 36 berechnet und die Leistung des zweiten Audiosegments 26 anhand dieser Summe bestimmt werden durch Teilen der Summe durch zwei. Als Leistung eines Audiosegments kann der arithmetische Mittelwert der Leistungen der einzelnen Audiosignale verwendet werden.
Anschließend wird jede der bestimmten Leistungen zu jeweils einer Normleistung normalisiert (Schritt 210). Dieser Schritt kann für alle der bestimmten Leistungen derart ausgeführt werden, dass die Summe aller Normleistungen einem vorbestimmten Wert entspricht. Beispielsweise wird die Leistung des ersten Audiosegments 26 geteilt durch die Summe der Leistungen aller Audiosegmente 26 und 28, um die Normleistung des ersten Audiosegments 26 zu erhalten. Die Leistung des zweiten Audiosegments 28 kann entsprechend durch die Summe der Leistungen aller Audiosegmente 26 und 28 geteilt werden, um die Normleistung des zweiten Audiosegments 28 zu erhalten. Dadurch entspricht die Summe aller Normleistungen dem vorbestimmten Wert 1.
In einem Schritt 212 werden die Klassifizierungsergebnisse mit der jeweiligen Normleistung gewichtet. Das bedeutet, dass das erste Klassifizierungsergebnis des ersten Audiosegments 26 mit der Normleistung des ersten Audiosegments 26 zu einem ersten Gewichtungsergebnis multipliziert wird. Außerdem wird das zweite Klassifizierungsergebnis des ersten Audiosegments 26 mit der Normleistung des ersten Audiosegments 26 zu einem zweiten Gewichtungsergebnis multipliziert. Entsprechende Gewichtungen werden für das zweite Audiosegment 28 vorgenommen. Dadurch werden verschiedene Gewichtungsergebnisse erhalten. Dieser Schritt ermöglicht die Berücksichtigung der Leistung der unterschiedlichen Audiosegmente bei der Klassifizierung der Audiodaten.
Während manche Verfahren bereits nach dem Schritt 204 beendet sind, wird also gemäß der vorliegenden Offenbarung die Leistung der Audiosegmente für die Klassifizierung berücksichtigt durch die dem Schritt 204 folgenden weiteren Schritte. Die Berücksichtigung der Leistung der einzelnen Audiosignale 30, 32, 34, 36 ermöglicht eine zuverlässigere Klassifizierung der Audiodaten 24. So hat in dem in 3 dargestellten Beispiel das erste Audiosignal 30, 34 eine höhere Leistung als das zweite Audiosignal 32, 36, da die Nutzsignalquelle, welche für die beiden Audiosignale maßgeblich ursächlich ist, dem ersten Mikrofon 16 näher ist als dem zweiten Mikrofon 18. Außerdem werden durch die Gewichtung die Segmente stärker berücksichtigt, in denen ein starkes Signal, beispielsweise ein Sprachsignal, vorliegt im Vergleich zu Segmenten, in denen kein starkes Signal, also kein Sprachsignal vorliegt.
Basierend auf den Gewichtungsergebnissen kann eines der Klassifizierungsergebnisse ausgewählt werden (Schritt 116). Beispielsweise wird das Gewichtungsergebnis mit dem größten Wert selektiert und das diesem Gewichtungsergebnis zugrundeliegende Klassifizierungsergebnis ausgewählt. Da jedem Klassifizierungsergebnis entweder eine Raumposition oder Rauschen zugeordnet ist, lässt dieser Schritt 116 die Klassifizierung der Audiodaten 24 zu, und den Audiodaten 24 kann eine Raumposition oder Rauschen zugeordnet werden. Dies ermöglicht die Lokalisierung eines Sprechers als Nutzsignalquelle, also eine Sprecherlokalisierung.
Vorteilhafterweise ist die Vorrichtung 14 ferner dazu ausgelegt, einen Schritt 214 auszuführen. Hierbei wird ein erster Mittelwert der Gewichtungsergebnisse aller ersten Klassifizierungsergebnisse bestimmt. Außerdem wird ein zweiter Mittelwert der Gewichtungsergebnisse aller zweiten Klassifizierungsergebnisse bestimmt. Im vorliegenden Fall wird der erste Mittelwert bestimmt als arithmetischer Mittelwert aus dem Gewichtungsergebnis des ersten Klassifizierungsergebnisses des ersten Audiosegments 26 und dem Gewichtungsergebnis des ersten Klassifizierungsergebnisses des zweiten Audiosegments 28. Der zweite Mittelwert wird gebildet durch Berechnung des arithmetischen Mittelwerts aus dem Gewichtungsergebnis des zweiten Klassifizierungsergebnisses des ersten Audiosegments 26 und dem Gewichtungsergebnis des zweiten Klassifizierungsergebnisses des zweiten Audiosegments 28. In anderen Worten werden Mittelwerte aus den Gewichtungsergebnissen der unterschiedlichen Audiosegmente 26, 28 gebildet. Sofern die Audiodaten 24 nur ein Audiosegments 26 oder 28 umfassen, ist der Schritt 214 also hinfällig. Das Auswählen in Schritt 116 besteht nach dem Ausführen von Schritt 214 darin, entweder die ersten Klassifizierungsergebnisse oder die zweiten Klassifizierungsergebnisse zu selektieren, je nachdem welcher Mittelwert höher ist. Ist der erste Mittelwert höher als der zweite Mittelwert, werden die ersten Klassifizierungsergebnisse selektiert. Anschließend kann ein beliebiges Klassifizierungsergebnis aus den selektierten Klassifizierungsergebnissen ausgewählt werden, da alle ersten Klassifizierungsergebnisse der ersten Raumposition zugeordnet sind und alle zweiten Klassifizierungsergebnisse der zweiten Raumposition oder Rauschen zugeordnet sind. Auch so ist eine Klassifizierung der Audiodaten 24 möglich.
Nach der Klassifizierung der Audiodaten kann die Vorrichtung 14 eine Spracherkennung basierend auf den Audiodaten 24 vornehmen. Die Spracherkennung kann auch vor der Klassifizierung stattfinden. Beispielsweise wird von der Vorrichtung 14 durch die Spracherkennung ein Befehl erkannt, der auf eine der Gerätefunktionen 20, 22 gerichtet ist. Im vorliegenden Beispiel kann ein in den Audiodaten 24 enthaltener Sprachbefehl des Sprechers auf dem Rücksitz 12 lauten „Bitte Fenster öffnen“. Die Vorrichtung 14 erkennt den Befehl, benötigt allerdings weitere Informationen darüber, welches Fenster gemeint ist. Anhand der Klassifizierung der Audiodaten, durch welche den Audiodaten die erste Raumposition, also die Position des Rücksitzes 12 zugeordnet wird, kann darauf geschlossen werden, dass das dieser Position am nächsten liegende Fenster gemeint ist. Anschließend kann die Vorrichtung 14 durch die Steuerungseinrichtung 19 die Gerätefunktion 22 betätigen, im vorliegenden Fall einen elektrischen Fensteröffner.
Sollte die Spracherkennung einen Befehl erkennen, die Klassifizierung der Audiodaten 24 diesen jedoch Rauschen zuordnen, kann davon ausgegangen werden, dass das Ergebnis der Spracherkennung falsch ist. So wird eine Irrtümliche Steuerung der Gerätefunktionen 20, 22 vermieden. Ferner kann die Umsetzung eines von der Spracherkennung erkannten Befehls davon abhängig sein, ob die Audiodaten 24 einer bestimmten Raumposition zugeordnet sind. Wenn beispielsweise ein Befehl „Fahrersitz zurückfahren“ erkannt wird anhand der Audiodaten 24, diesen Audiodaten 24 durch die Klassifizierung aber nicht die Position des Fahrersitzes 4 zugeordnet wurde, wird dieser Befehl nicht ausgeführt.
Wie oben erwähnt kann die Vorrichtung 14 eingerichtet sein, zumindest Schritt 204 der vorgenannten Schritte 202-216 mittels eines computerimplementierten Klassifikators auszuführen. Dieser computerimplementierte Klassifikator kann vorher eingelernt werden. Hierzu kann die Vorrichtung 14 eingerichtet sein, ein Verfahren zum Einlernen des Klassifikators durchzuführen, welches im Folgenden anhand der 4 näher erläutert wird.
Die Vorrichtung 14 ist demnach eingerichtet, einen Schritt 402 auszuführen, in welchem zum Einlernen bereitgestellte Audiodaten erhalten werden, welche zumindest ein erstes Lernsegment umfassen. Das zumindest eine erste Lernsegment beschreibt ein drittes Audiosignal und ein viertes Audiosignal. Ähnlich wie bereits bezugnehmend auf 3 weiter oben erläutert, wurde das dritte Audiosignal von dem ersten Mikrofon 16 aufgenommen und das vierte Audiosignal von dem zweiten Mikrofon 18. Hierdurch kommt es zu einem zeitlichen Versatz zumindest zwischen den Teilen des dritten und des vierten Audiosignals, welche durch die Nutzsignalquelle hervorgerufen wurden. Bei der Aufnahme des dritten und des vierten Audiosignals befand sich die Schall aussendende Nutzsignalquelle an einer bestimmten Raumposition, im vorliegenden Beispiel an der ersten Raumposition, also an der Position des Rücksitzes 12. Es handelt sich bei dem dritten und dem vierten Audiosignal um reine Nutzsignale ohne überlagertes Rauschen. Beispielsweise wurden das dritte und das vierte Audiosignal durch Aufnehmen eines Sprachsignals eines Sprechers auf dem Rücksitz 12 im stillstehenden Fahrzeug 2 durch die Mikrofone 16, 18 erhalten.
In einem nächsten Schritt 404 wird die erste Raumposition, also die Position des Rücksitzes 12, dem ersten Lernsegment zugeordnet. Dies ist möglich, da bei dem Aufnehmen des dritten und vierten Audiosignals die Position des Sprechers, also die Position der Nutzsignalquelle, bekannt ist.
Die Vorrichtung 14 ist ferner eingerichtet, in einem Schritt 406 Audiodaten zu erhalten, die zumindest ein Rauschsegment umfassen. Das Rauschsegment beschreibt ein fünftes Audiosignal und ein sechstes Audiosignal. Das fünfte Audiosignal wurde von dem ersten Mikrofon 16 aufgenommen und das sechste Audiosignal wurde von dem zweiten Mikrofon 18 aufgenommen. Bei der Aufnahme lag lediglich Rauschen vor, also kein Signal der Nutzsignalquelle bzw. kein Sprachsignal des Sprechers. Beispielsweise wurden das fünfte und das sechste Audiosignal in dem fahrenden Fahrzeug 2 aufgenommen, ohne dass der Sprecher etwas sagte. In einem anderen Beispiel wurden das fünfte und das sechste Audiosignal in dem stillstehenden Fahrzeug 2 aufgenommen, ohne dass der Sprecher etwas sagte. Hierdurch wird ein Systemrauschen innerhalb der Vorrichtung 14 bzw. innerhalb des ersten Mikrofons 16 und des zweiten Mikrofons 18 als fünftes und sechstes Audiosignal erhalten, also ein fünftes und sechstes Audiosignal, welche kein Nutzsignal beinhalten.
In einem nächsten Schritt 408 wird dem ersten Rauschsegment Rauschen zugeordnet. Dies ist möglich, da bei der Aufnahme des fünften und sechsten Audiosignals bekannt ist, dass ausschließlich Rauschen und kein Nutzsignal vorliegt.
Die Vorrichtung 14 ist ferner eingerichtet, zum Einlernen des computerimplementierten Klassifikators je ein Lernsegment und ein Rauschsegment zu überlagern, um Überlagerungssegmente zu erzeugen (Schritt 410). Hierzu wird das dritte Audiosignal mit dem fünften Audiosignal überlagert, beispielsweise durch Bildung der Summe der beiden einzelnen Audiosignale, um ein erstes Überlagerungssignal zu erzeugen. Ebenso wird das vierte Audiosignal mit dem sechsten Audiosignal überlagert, z.B. durch Bildung der Summe der beiden einzelnen Audiosignale, um ein zweites Überlagerungssignal zu erzeugen. Die beiden Überlagerungssignale werden von einem Überlagerungssegment beschrieben. Falls mehrere Rauschsegmente zur Verfügung stehen, kann das Lernsegment mit jedem einzelnen Rauchsegment überlagert werden, wodurch eine Mehrzahl an Überlagerungssegmenten erhalten wird. Ebenso können mehrere erste Lernsegmente jeweils mit einem Rauchsegment überlagert werden, wodurch eine Mehrzahl an Überlagerungssegmenten erhalten wird.
Die Überlagerungssegmente simulieren beispielsweise Audiosignale, welche das erste Mikrofon 16 und das zweite Mikrofon 18 empfangen würden, wenn die Nutzsignalquelle nicht in einem stehenden Fahrzeug 2, sondern in einem fahrenden Fahrzeug 2 ein Schallsignal aussenden würde. Indem verschiedene Rauschsegmente mit dem zumindest einen ersten Lernsegment überlagert werden, können Audiosignale verschiedener Fahrsituationen simuliert werden, beispielsweise Audiosignale, die bei einer Fahrt durch einen Tunnel, einer Fahrt bei hoher Geschwindigkeit, einer Fahrt über unebenen Untergrund und so weiter erhalten würden. Es bedarf nur einer geringen Anzahl an ersten Lernsegmenten und einer geringen Anzahl an Rauschsegmenten, um eine große Anzahl an Überlagerungssegmenten zu erzeugen. Es werden also keine Audiosignale verwendet, welche bereits eine Überlagerung aus einem Nutzsignal und Rauschen darstellen, sondern es wird eine große Anzahl an Überlagerungssegmenten erzeugt. Hierdurch kann der Aufwand zur Aufzeichnung von zum Einlernen verwendeten Audiosignalen signifikant verringert werden.
Die verwendeten Audiodaten können auch zumindest ein zweites Lernsegment umfassen, welches ein siebtes und ein achtes Audiosignal beschreibt. Hierbei wurde das siebte Audiosignal von dem erst Mikrofon 16 aufgenommen und das achte Audiosignal gleichzeitig von dem zweiten Mikrofon 18 aufgenommen. Während der Aufnahme befand sich die Nutzsignalquelle an einer zweiten, von der ersten Raumposition verschiedenen Raumposition. Beispielsweise befand sich die Nutzsignalquelle nicht an der Position des Rücksitzes 12, sondern an der Position des Fahrersitzes 4. In diesem Fall kann dem zumindest einen zweiten Lernsegment im Schritt 404 als zweite Raumposition die Position des Fahrersitzes 4 zugeordnet werden. Auch das zumindest eine zweite Lernsegment kann mit jeweils einem Rauschsegment überlagert werden, um Überlagerungssegmente zu erhalten. Hierzu wird das siebte Audiosignal mit dem fünften Audiosignal summiert, um das erste Überlagerungssignal zu erhalten. Das achte Audiosignal wird mit dem sechsten Audiosignal summiert, um das zweite Überlagerungssignal zu erhalten.
Aus jedem der im Schritt 410 erhaltenen Überlagerungssegmente kann in einem nächsten Schritt 412 ein Merkmal extrahiert werden. Wie bereits weiter oben erwähnt handelt es sich bei dem Merkmal um eine Phasenverschiebung in einem Segment zwischen zwei unterschiedlichen Audiosignalen. Im Fall der Überlagerungssegmente ist das Merkmal eine Phasenverschiebung in einem Überlagerungssegment zwischen dem ersten Überlagerungssignal und den zweiten Überlagerungssignal. Das Merkmal kann auch der Sinuswert und/oder der Cosinuswert einer Phasenverschiebung zwischen einem Frequenzspektrum des ersten Überlagerungssignals und einem Frequenzspektrum des zweiten Überlagerungssignals sein.
Nach der Extraktion des Merkmals wird dieses in einem Schritt 414 mit der dem Lernsegment zugeordneten Raumposition assoziiert. In anderen Worten wird das aus einem bestimmten Überlagerungssegment extrahierte Merkmal mit der Raumposition assoziiert, welche dem Lernsegment zugeordnet ist, was zur Erzeugung des bestimmten Überlagerungssegments verwendet wurde. Durch mehrfaches Ausführen der Schritte 412 und 414 wird eine Vielzahl an extrahierten Merkmalen erhalten. Wenn das erste und das zweite Lernsegment zur Erzeugung der Überlagerungssegmente verwendet wurden, wird eine Vielzahl von extrahierten Merkmalen im Schritt 414 mit der ersten Raumposition assoziiert und eine Vielzahl von extrahierten Merkmalen mit der zweiten Raumposition oder Rauschen assoziiert. Die assoziierten Merkmale können dann verwendet werden, um der computerimplementierten Klassifikator zu trainieren bzw. einzulernen. Hierbei können Konfigurationsparameter des computerimplementierten Klassifikators angepasst werden, welche die Klassifizierung der Audiodaten 24 ermöglichen. Der computerimplementierte Klassifikator wird dadurch in die Lage versetzt, den Wahrscheinlichkeitswert zu berechnen, mit welchem ein bestimmtes Merkmal aus einem Audiosegment 26, 28 von zu klassifizierenden Audiodaten 24 der ersten Raumposition zuzuordnen ist. Ferner kann es nach dem Einlernen einen Wahrscheinlichkeitswert berechnen, mit welchem das bestimmte Merkmal der zweiten Raumposition zuzuordnen ist, wenn das zweite Klassifizierungsergebnis der zweiten Raumposition zugeordnet ist.
Auch aus einem Rauschsegment kann in einem Schritt 416 ein Merkmal extrahiert werden. Auch bei diesem Merkmal handelt es sich um eine Phasenverschiebung in einem Rauschsegment zwischen zwei unterschiedlichen Audiosignalen. Im Fall der Rauschsegmente ist das Merkmal eine Phasenverschiebung in einem Rauschsegment zwischen dem fünften Audiosignal und dem sechsten Audiosignal. Das Merkmal kann auch der Sinuswert und/oder der Cosinuswert einer Phasenverschiebung zwischen einem Frequenzspektrum des fünften Audiosignals und einem Frequenzspektrum des sechsten Audiosignals sein.
Dieses aus einem Rauschsegment extrahierte Merkmal kann anschließend in einem Schritt 418 mit dem Rauschen assoziiert werden. Hierdurch wird der computerimplementierte Klassifikator angepasst, sodass er eine Wahrscheinlichkeit berechnen kann, mit welcher ein bestimmtes Merkmal aus einem Audiosegment 26,28 von zu klassifizierenden Audiodaten 24 Rauschen zuzuordnen ist.
Das erste bzw. zweite Audiosegment 26,28 von den zu klassifizierenden Audiodaten 24 ist nicht in jedem Fall von Rauschen beeinflusst. Beispielsweise beschreibt das erste Audiosignal 30 und das zweite Audiosignal 32 ein Nutzsignal einer Nutzsignalquelle, welches nicht von Rauschen überlagert wird. Dies kann dann der Fall sein, wenn der Sprecher, also die Nutzsignalquelle, ein Sprachsignal ausgibt, während das Fahrzeug 2 im Stillstand ist. Um auch in einem solchen Fall eine zuverlässige Klassifizierung der Audiodaten 24 zu ermöglichen, kann, beispielsweise nach dem Schritt 404, ein Merkmal aus einem Lernsegment extrahiert werden (Schnitt 420). Das Merkmal ist eine Phasenverschiebung zwischen zwei Audiosignalen des Lernsegments, beispielsweise eine Phasenverschiebung zwischen einem Frequenzspektrum des dritten Audiosignals und einem Frequenzspektrum des vierten Audiosignals. Das aus einem Lernsegment extrahierte Merkmal kann anschließend mit der dem Lernsegment zugeordneten Raumposition assoziiert werden. Hierdurch wird der computerimplementierte Klassifikator angepasst, sodass er auch für Audiosignale ohne überlagertes Rauschen einen Wahrscheinlichkeitswert berechnen kann, mit welchem ein bestimmtes Merkmal aus einem Audiosegment 26, 28 von zu klassifizieren Audiodaten 24 einer bestimmten Raumposition zuzuordnen ist.
Wie bereits weiter oben erwähnt, können auch mehr als zwei Mikrofone 16, 18 bereitgestellt werden. Dies resultiert in mehr als zwei Audiosignalen die von dem ersten Audiosegment 26 und dem zweiten Audiosegment 28 beschrieben werden. In diesem Fall kann das Merkmal, also die Phasenverschiebung, für jedes mögliche Paar von Audiosignalen oder für vorbestimmte Paare der Audiosignale bestimmt werden. Die so bestimmten Merkmale können dann durch den computerimplementierten Klassifikator mit bekannten Merkmalen verglichen werden um die Klassifizierungsergebnisse zu erhalten. Vorzugsweise wird beim Einlernen des computerimplementierten Klassifikators eine erste Anzahl an Lernsignalen verwendet, und die zu klassifizierenden Audiodaten enthalten die erste Anzahl an Audiosignalen. In anderen Worten werden beim Einlernen dieselben Mikrofonkombinationen zum Erhalten der Merkmale verwendet, wie später beim Klassifizieren der Audiodaten 24. Das ermöglicht einen Vergleich von Merkmalen aus Überlagerungssegmenten mit Merkmalen aus Audiosegmenten 26, 28 von den zu klassifizierenden Audiodaten 24.
Gemäß den oben beschriebenen Schritten 402-422 kann der computerimplementierte Klassifikator eingelernt werden. Als Trainingsdaten wird eine Vielzahl von aus erzeugten Überlagerungssegmenten extrahierten Merkmalen verwendet, welche jeweils mit Rauschen oder mit einer Raumposition assoziiert sind. Die Erzeugung der Überlagerungssignale anstelle der Verwendung von Audiosignalen, welche bereits eine Überlagerung eines Nutzsignals mit Rauschen beinhalten, ermöglicht eine größtmögliche Anzahl an extrahierten Merkmalen und erhöht damit die Anzahl der Trainingsdaten für den computerimplementierten Klassifikator. Hierdurch kann eine verlässlichere Klassifizierung der Audiodaten ermöglicht werden.
5 zeigt eine Sprecherlokalisierungseinheit 502. Mikrofonsignale werden als Audiosignale in die Sprecherlokalisierungseinheit 502 eingespeist. Als Ausgabewerte wird als erstes Klassifizierungsergebnis S(Z₁) erhalten, als das zweite Klassifizierungsergebnis S(Z₂) und als das N-te Klassifizierungsergebnis S(N). Hierbei ist S(Z₁) der ersten Raumposition zugeordnet, S(Z₂) ist der zweiten, von der ersten verschiedenen Raumposition zugeordnet, und S(N) ist Rauschen zuggeordnet. Die Sprecherlokalisierungseinheit 502 ist ein Teil der Vorrichtung 14 und beinhaltet den computerimplementierten Klassifikator. Beispielsweise ist der Prozessor 15 die Sprecherlokalisierungseinheit 502.
6 zeigt ein Verfahren zum Einlernen des computerimplementierten Klassifikators, welches als Trainingsphase bezeichnet ist. Das Verfahren entspricht im Wesentlichen dem weiter oben beschriebenen Verfahren aus 4. Einzelne Schritte der Trainingsphase aus 6 können mit dem Verfahren aus 4 kombiniert werden und umgekehrt. Die Vorrichtung 14, beispielsweise die Sprecherlokalisierungseinheit 502 und/oder der Prozessor 15 ist eingerichtet, das Verfahren der 6 auszuführen.
In einem ersten Schritt 602 werden die Audiodaten zum Einlernen des computerimplementierten Klassifikators erhalten. Im dargestellten Beispiel beinhalten die Audiodaten Audiosignale, die für verschiedene Raumpositionen der Nutzsignalquelle aufgezeichnet wurden, wobei diese Raumpositionen als Pos. 1, Pos. 2, Pos. P bezeichnet sind. Diese Audiosignale sind nicht von Rauschen überlagert und entsprechen dem oben beschriebenen dritten und vierten bzw. siebten und achten Audiosignal. Diese Audiosignale sind im dargestellten Beispiel bereits mit der jeweiligen Raumposition zugeordnet, sodass keine Zuordnung wie im Fall der oben genannten Schritte 404, 408 mehr erforderlich ist. Außerdem beinhalten die Audiodaten Audiosignale, die ohne Nutzsignal aufgezeichnet wurden und die als Fahrtlärm bezeichnet sind. Diese Audiosignale entsprechen dem oben beschriebenen fünften und sechsten Audiosignal. Der Fahrtlärm kann auch aus Rauschen bezeichnet werden.
In einem nächsten Schritt 604 werden die jeweiligen Audiosignale segmentiert. Hierdurch werden aus den Aufnahmen der Nutzsignalquelle die Lernsegmente und aus den Aufnahmen des Fahrtlärms die Rauschsegmente erhalten. Die Segmente haben eine vorbestimmte Länge, z.B. 500 ms. Sofern die Audiodaten aus Schritt 602 bereits segmentiert sind, muss Schritt 604 nicht durchgeführt werden. Die Schritte 602 und 604 können Teil der oben erläuterten Schritte 402 und 406 sein.
In einem nächsten Schritt 606 wird eine Augmentierung vorgenommen. Diese kann auch als Überlagern bezeichnet werden. Hierbei wird jeweils ein Lernsegment mit einem Rauschsegment überlagert, um ein Überlagerungssegment zu erhalten. Hierdurch wird eine große Anzahl an Überlagerungssegmenten erhalten. Durch die Überlagerung eines Lernsegments mit verschiedenen Rauschsegmenten können unterschiedliche Überlagerungssegmente generiert werden. Der Schritt 606 entspricht also dem oben beschriebenen Schritt 410.
In einem nächsten Schritt 608 wird das Merkmal aus jedem der Überlagerungssegmente extrahiert. Dieser Schritt entspricht also dem obigen Schritt 412. Außerdem wird das Merkmal aus den Rauschsegmenten extrahiert, was dem obigen Schritt 416 entspricht. In einem letzten Schritt 610 der Trainingsphase werden die extrahierten Merkmale verwendet, um den computerimplementierten Klassifikator, welcher in dem dargestellten Beispiel eines (P+1)-Klassen Klassifikator ist, einzulernen. Die Anzahl P+1 ergibt sich hierbei aus der Anzahl der Raumpositionen P und dem Rauschen. Zum Einlernen können die extrahierten Merkmale wie in den Schritten 414, 418 der jeweiligen Raumposition bzw. Rauschen zugeordnet werden. Die assoziierten Merkmale können dann in der Speichereinheit 17 gespeichert werden.
Ein als Testphase bezeichnetes Verfahren aus 6 besteht aus einem Verfahren zur Klassifizierung von Audiodaten. Dieses Verfahren entspricht im Wesentlichen dem Verfahren aus 2. Einzelne Schritte des Verfahrens der Testphase aus 6 können mit dem Verfahren aus 2 kombiniert werden und umgekehrt. Die Vorrichtung 14, beispielsweise die Sprecherlokalisierungseinheit 502 und/oder der Prozessor 15 ist eingerichtet, das Verfahren der Testphase aus 6 auszuführen.
In einem ersten Schritt 612 werden Mikrofonsignale erhalten. Anschließend werden die erhaltenen Mikrofonsignale segmentiert in einem Schritt 614. Somit werden Audiosegmente 26, 28 erhalten. Die Schritte 612 und 614 können also als Teil des Schritts 202 angesehen werden.
In einem dem Schritt 206 entsprechenden nächsten Schritt 616 wird das Merkmal aus jedem der Audiosegmente 26, 28 extrahiert. Anschließend wird in einem Schritt 618 der (P+1)-Klassen Klassifikator, also der computerimplementierte Klassifikator, genutzt, um anhand der extrahierten Merkmale die Klassifizierungsergebnisse für jedes Audiosegment 26, 28 zu bestimmen. Dies entspricht dem Schritt 204. In 6 sind diese Klassifizierungsergebnisse als segmentielle Klassifizierungsergebnisse „Segm. Klassif.-erg.“ bezeichnet. Wie schematisch in 6 angedeutet ist, wurde der (P+1)-Klassen Klassifikator vor dem Ausführen der Testphase wie oben beschrieben in einer Trainingsphase eingelernt.
In einem nächsten Schritt 620 werden gewichtete Mittelwerte bestimmt. Hierzu werden die oben beschriebenen Schritte 208, 210, 212 und 214 ausgeführt. Für jede einzelne der trainierten Raumpositionen und für das Rauschen kann jeweils ein gewichteter Mittelwert erhalten werden. Dieser nach Ausführen des Schritts 214 erhaltene Wert kann wird in 6 als „Gewichtetes Klassifizierungsergebnis“ bezeichnet. In anderen Worten wird für jede der trainierten Raumpositionen und für das Rauschen jeweils ein Wahrscheinlichkeitswert erhalten, bei welchem die Leistung der Audiosegmente berücksichtigt wurde. Anschließend kann der Schritt 216 ausgeführt werden, beispielsweise wird der größte Wahrscheinlichkeitswert ausgewählt und die Audiodaten werden der entsprechenden Raumposition oder Rauschen zugeordnet.
7 zeigt ein Flussdiagramm eines Teils eines Verfahrens zur Klassifizierung von Audiodaten oder zum Einlernen eines computerimplementierten Klassifikators. Die dort dargestellten Schritte sind also Teil der oben beschriebenen Verfahren. Es werden Mikrofonsignalsegmente erhalten, was dem Schritt 202 entspricht. Alternativ können Überlagerungssegmente oder Rauschsegmente erhalten werden. In einem Schritt 702 wird für jedes Audiosignal in einem Mikrofonsignalsegment ein Frequenzspektrum bestimmt. Es wird eine Phasenverschiebung zwischen jeweils zwei Frequenzspektra bestimmt und in einem Schritt 704 der Sinuswert und / oder Cosinuswert der Phasenverschiebung berechnet. Diese Werte liegen naturgemäß in einem Bereich zwischen -1 und 1. Außerdem können durch Sinuswerte und Cosinuswerte Phasenunterschiede eindeutig erfasst werden, da gleiche Phasen (0 und 2π) auf denselben Wert 0 bzw. 1 abgebildet werden. Je nach Anordnung der Mikrofone relativ zu den trainierten Raumpositionen werden für eine eindeutige Repräsentation der Phasenunterschiede entweder nur Sinuswerte, nur Cosinuswerte oder beide Werte benötigt.
Die erhaltenen Sinus- und/oder Cosinuswerte stellen jeweils ein extrahiertes Merkmal dar. Somit entsprechen die Schritte 702 bis 704 dem Schritt 206, bzw. den Schritten 412, 416 oder 420. Die extrahierten Merkmale können zur Klassifizierung der Audiodaten 24 an einen Klassifikator übergeben werden, der in einem Schritt 706 die Klassifizierungsergebnisse S(C)t bestimmt. Alternativ werden die extrahierten Merkmale verwendet, um den Klassifikator einzulernen. Der Klassifikator ist der (P+1)-Klassen Klassifikator aus 6.
8 zeigt eine schematische Darstellung eines weiteren Teils des bzgl. 6 beschriebenen Verfahrens. Das erste und zweite Audiosignal wurde bereits segmentiert, sodass Audiosegmente x_m(k)_t=1 bis x_m(k)_t=τ erhalten wurden. Die Audiosegmente 26, 28 sind Teil dieser Audiosegmente x_m. Der Index t bezeichnet einen Zeitpunkt, an welchem das Audiosegment beginnt. Der Zeitpunkt ist bezüglich dem Beginn der Audiosignale angegeben. Alternativ kann der Index t eine Nummer eines Audiosegments bezeichnen. Der Index m bezeichnet das Mikrofon bzw. ein Audiosignal eines Mikrofons und der Index k bezeichnet den Zeitpunkt eines Audiosamples innerhalb des jeweiligen Audiosegments. In einem Schritt 802 wird die Leistung für jedes der Audiosegmente x_m(k) berechnet, indem das Betragsquadrat aller Audiosamples des jeweiligen Audiosegments berechnet wird. Anschließend wird eine Summierung über alle Mikrofone bzw. Audiosignale und alle Audiosamples vorgenommen in einem Schritt 804. Die Schritte 802 und 804 entsprechen somit dem Schritt 208.
In einem Schritt 806 wird die Summe aller in Schritt 804 bestimmten Leistungen gebildet. Anschließend wird in einem Schritt 808 die Inverse dieser Summe gebildet und mit jeder einzelnen der in Schritt 804 bestimmten Leistungen multipliziert (Schritt 810). Die Schritte 806 bis 810 entsprechen dem Schritt 210.
In einem anschließenden Schritt 812 werden die segmentiellen Klassifizierungsergebnisse, die oben bzgl. 6 erläutert wurden, mit den normalisierten Leistungen multipliziert. So werden die Gewichtungsergebnisse erhalten wie in Schritt 212. In dem dargestellten Beispiel entspricht das erste Klassifizierungsergebnis des ersten Audiosegments S(C=Z₁)_t=1. Das zweite Klassifizierungsergebnis des ersten Audiosegments entspricht S(C=Z₂)_t=1. Das Rauschen zugeordnete Klassifizierungsergebnis des zweiten Audiosegments entspricht S(C=N)_t=2. Der Index C bezeichnet also eine zugeordnete Raumposition bzw. zugeordnetes Rauschen.
In einem Schritt 814 werden aus den Gewichtungsergebnissen die Mittelwerte erhalten wie in Schritt 620 bzw. 214. Im vorliegenden Fall ist der Mittelwert als S(C) dargestellt. Dieser Mittelwert wurde aus basierend auf den Leistungen gewichteten Klassifizierungsergebnissen gewonnen und wird daher auch als gewichteter Mittelwert bezeichnet. Nach dem Schritt 814 kann der Schritt 216 durchgeführt werden.
Die Vorrichtung 14 ist eingerichtet, einen oder mehrere der vorgenannten Schritte 202-216, 402-422, 602-620, 702-706 und 802-814 auszuführen. Hierzu kann der Prozessor 15 eingerichtet sein, die jeweiligen Schritte auszuführen. Es wird ein Computerprogramm bereitgestellt, welches Instruktionen enthält, die, wenn sie auf dem Prozessor 15 ausgeführt werden, diesen dazu veranlassen, einen oder mehrere der Schritte 202-216, 402-422, 602-620, 702-706 und 802-814 auszuführen. Außerdem ist ein Speichermedium vorgesehen, welches das Computerprogramm bereithält. Das Speichermedium ist beispielsweise die Speichereinheit 17. Das Computerprogramm kann auch mittels eines Datensignals übertragen werden.
Die obigen Ausführungsbeispiele und Verfahren lassen sich natürlich auch untereinander kombinieren. Sofern möglich, kann die Reihenfolge der genannten Schritte auch geändert werden. So kann beispielsweise der Schritt 406 vor oder zusammen mit dem Schritt 402 ausgeführt werden. Die erhaltenen Audiodaten 24 können zumindest zwei von dem ersten Audiosegment 26, dem zweiten Audiosegment 28, dem ersten Lernsegment, dem zweiten Lernsegment und dem Rauschsegment enthalten. Manche Schritte können auch weggelassen werden, beispielsweise die Schritte 206, 214, 420 und 422. Der Prozessor 15 ist in einem Beispiel eingerichtet, einen, mehrere oder alle der Schritte 202-216 und 402-418 durchzuführen. Er kann eingerichtet sein, zuerst die Schritte 402-418 durchzuführen und danach die Schritte 202-216. Anstelle einer Durchführung der Schritte 402-416 kann der Prozessor 15 eingerichtet sein, zur Konfigurierung des computerimplementierten Klassifikators verwendete Konfigurationsparameter aus der Speichereinheit 16 zu laden. Einer oder mehrere der Schritte 202-216, 402-422, 602-620, 702-706 und 802-814 können auf einer externen Recheneinheit durchgeführt werden, die mit der Vorrichtung 14 beispielsweise drahtlos verbunden ist.
Das beschriebene Verfahren und die beschriebene Vorrichtung ermöglichen eine Klassifikation von Audiodaten 24. Den Audiodaten 24 kann eine Raumposition oder Rauschen zugeordnet werden unter Verwendung des computerimplementierten Klassifikators. Bei der Klassifizierung wird eine Leistung der in den Audiodaten 24 enthaltenen Audiosignale 30, 32 verwendet, um das erste und das zweite Klassifizierungsergebnis zu gewichten. Audiosegmente 26, 28, die ein Sprachsignal enthalten, fallen somit bei der Klassifizierung der Audiodaten 24 stärker ins Gewicht als solche, in denen kein Sprachsignal vorhanden ist sondern nur ein leises Audiosignal was z.B. durch Rauschen verursacht wird. Hierdurch wird die Zuverlässigkeit der erhaltenen Klassifikation erhöht.
Ferner kann gemäß dem beschriebenen Einlernen an Stelle einer großen Anzahl von aufgezeichneten Lernsegmenten eine geringere Anzahl verwendet werden. Durch das Überlagern mit verschiedenen Rauschsegmenten wird dennoch eine große Anzahl an Überlagerungssegmenten und schließlich eine große Anzahl an extrahierten Merkmalen erhalten, welche als Trainingswerte für den computerimplementierten Klassifikator verwendet werden können. Somit wird eine hohe Klassifizierungsgenauigkeit trotz der geringen Anzahl an Lernsegmenten erzielt.

Claims

Verfahren zur Klassifizierung von Audiodaten (24) mittels eines computerimplementierten Klassifikators, umfassend: Erhalten von Audiodaten (24), welche zumindest ein Audiosegment (26; 28) umfassen; Bestimmen eines ersten Klassifizierungsergebnisses und eines zweiten Klassifizierungsergebnisses für das zumindest eine Audiosegment (26; 28), wobei zumindest das erste Klassifizierungsergebnis einer ersten Raumposition einer Nutzsignalquelle zugeordnet ist und wobei dem zweiten Klassifizierungsergebnis eine zweite, von der ersten Raumposition verschiedene Raumposition der Nutzsignalquelle zugeordnet ist, oder Rauschen zugeordnet ist; Bestimmen einer Leistung des Audiosegments (26; 28); Normalisieren der Leistung zu einer Normleistung; Gewichten der Klassifizierungsergebnisse mit der Normleistung zu jeweils einem Gewichtungsergebnis; und Auswählen eines der Klassifizierungsergebnisse basierend auf den Gewichtungsergebnissen.
Verfahren nach Anspruch 1, wobei zumindest die Schritte des Bestimmens des ersten und des zweiten Klassifizierungsergebnisses durch den computerimplementierten Klassifikator ausgeführt werden.
Verfahren nach Anspruch 1 oder 2, wobei die Audiodaten (24) zumindest zwei Audiosegmente (26, 28) umfassen und die Schritte des Bestimmens des ersten und des zweiten Klassifizierungsergebnisses, des Bestimmens der Leistung, des Normalisierens der Leistung, und der Gewichtung für jedes der zumindest zwei Audiosegmente (26, 28) durchgeführt werden.
Verfahren nach Anspruch 3, wobei das zumindest eine Audiosegment (26; 28) ein erstes und ein zweites Audiosignal (30, 32; 34, 36) beschreibt, wobei das erste Audiosignal (30; 34) von einem ersten Mikrofon (16) aufgenommen wurde und das zweite Audiosignal gleichzeitig von einem zweiten Mikrofon (18) aufgenommen wurde, wobei das erste Mikrofon (16) beim Aufnehmen des ersten Audiosignals (30; 34) von dem zweiten Mikrofon (18) beabstandet war.
Verfahren nach Anspruch 3 oder 4, wobei der Schritt des Normalisierens für jede Leistung derart ausgeführt wird, dass die Summe aller Normleistungen einem vorbestimmten Wert entspricht.
Verfahren nach einem der Ansprüche 3 bis 5, wobei das Auswählen des einen der Klassifizierungsergebnisse umfasst: Bestimmen eines ersten Mittelwerts durch Bildung des Mittelwerts der Gewichtungsergebnisse aller ersten Klassifizierungsergebnisse; Bestimmen eines zweiten Mittelwerts durch Bildung des Mittelwerts der Gewichtungsergebnisse aller zweiten Klassifizierungsergebnisse; und Auswählen der Klassifizierungsergebnisse mit dem höchsten Mittelwert.
Verfahren nach einem der Ansprüche 1 bis 6, wobei das Bestimmen der Klassifizierungsergebnisse umfasst: Extrahieren von zumindest einem Merkmal des zumindest einen Audiosegments; und Bestimmen der Klassifizierungsergebnisse durch den computerimplementierten Klassifikator basierend auf dem zumindest einen Merkmal.
Verfahren nach Anspruch 7, wobei der computerimplementierte Klassifikator vor dem Bestimmen der Klassifizierungsergebnisse eingelernt wird, wobei das Einlernen umfasst: Erhalten von Audiodaten, welche zumindest ein erstes Lernsegment umfassen, wobei das zumindest eine erste Lernsegment ein drittes und ein viertes Audiosignal beschreibt, wobei das dritte Audiosignal von einem ersten Mikrofon (16) aufgenommen wurde und das vierte Audiosignal gleichzeitig von einem zweiten Mikrofon (18) aufgenommen wurde, wobei das erste Mikrofon (16) beim Aufnehmen des dritten Audiosignals von dem zweiten Mikrofon (18) beabstandet war, und wobei das aufgenommene dritte Audiosignal und das aufgenommene vierte Audiosignal von einer Nutzsignalquelle an einer ersten Raumposition verursacht wurden; Zuordnen der ersten Raumposition zu dem zumindest einen ersten Lernsegment; Erhalten von Audiodaten, welche zumindest ein Rauschsegment umfassen, wobei das zumindest eine Rauschsegment ein fünftes und ein sechstes Audiosignal beschreibt, wobei das fünfte Audiosignal von dem ersten Mikrofon (16) aufgenommen wurde und das sechste Audiosignal gleichzeitig von dem zweiten Mikrofon (18) aufgenommen wurde, wobei das erste Mikrofon (16) beim Aufnehmen des fünften Audiosignals von dem zweiten Mikrofon (18) beabstandet war, und wobei das aufgenommene fünfte Audiosignal und das aufgenommene sechste Audiosignal von Rauschen verursacht wurden; Zuordnen des Rauschens zu dem zumindest einen Rauschsegment; Überlagern je eines Lernsegments und eines Rauschsegments zur Erzeugung von Überlagerungssegmenten; Extrahieren eines Merkmals aus einem Überlagerungssegment und Assoziieren des extrahierten Merkmals mit der dem Lernsegment zugeordneten Raumposition; und Extrahieren eines Merkmals aus dem zumindest einen Rauschsegment und Assoziieren des extrahierten Merkmals mit dem Rauschen.
Verfahren nach Anspruch 8, wobei die Audiodaten zumindest ein zweites Lernsegment umfassen, wobei das zumindest eine zweite Lernsegment ein siebtes und ein achtes Audiosignal beschreibt, wobei das siebte Audiosignal von dem ersten Mikrofon (16) aufgenommen wurde und das achte Audiosignal gleichzeitig von dem zweiten Mikrofon (18) aufgenommen wurde, wobei das erste Mikrofon (16) beim Aufnehmen des siebten Audiosignals von dem zweiten Mikrofon (18) beabstandet war, und wobei das aufgenommene siebte Audiosignal und das aufgenommene achte Audiosignal von einer Nutzsignalquelle an einer zweiten, von der ersten Raumposition verschiedenen Raumposition verursacht wurden, und wobei das Verfahren ferner umfasst: Zuordnen der zweiten Raumposition zu dem zumindest einen zweiten Lernsegment.
Verfahren nach Anspruch 8 oder 9, wobei die erhaltenen Audiodaten ein erstes und ein zweites Rauschsegment umfassen, das Rauschen dem ersten und dem zweiten Rauschsegment zugeordnet wird, das zumindest eine erste oder das zumindest eine zweite Lernsegment mit dem ersten Rauschsegment überlagert wird zur Erzeugung eines ersten Überlagerungssegments, und dasselbe Lernsegment mit dem zweiten Rauschsegment überlagert wird zur Erzeugung eines zweiten Überlagerungssegments.
Verfahren nach einem der Ansprüche 8 bis 10, wobei das Merkmal auf einer Phasenverschiebung in einem Audiosegment zwischen dem ersten Audiosignal (30; 34) und dem zweiten Audiosignal (32; 36) beruht.
Verfahren nach einem der Ansprüche 8 bis 10, wobei das Merkmal auf einer Phasenverschiebung in einem Lernsegment zwischen dem dritten Audiosignal und dem vierten Audiosignal beruht.
Verfahren nach einem der Ansprüche 8 bis 10, wobei das Überlagern zur Erzeugung von Überlagerungssegmenten ein Überlagern des dritten Audiosignals mit dem fünften Audiosignal zur Erzeugung eines ersten Überlagerungssignals und ein Überlagern des vierten Audiosignals mit dem sechsten Audiosignal zur Erzeugung eines zweiten Überlagerungssignals umfasst, und wobei das Merkmal auf einer Phasenverschiebung in einem Überlagerungssegment zwischen dem ersten Überlagerungssignal und dem zweiten Überlagerungssignal beruht.
Verfahren nach einem der Ansprüche 8 bis 10, wobei das Merkmal auf einer Phasenverschiebung in einem Rauschsegment zwischen dem fünften Audiosignal und dem sechsten Audiosignal beruht.
Verfahren nach einem der Ansprüche 11 bis 14, wobei die Phasenverschiebung in einem Segment eine Phasenverschiebung zwischen einem Frequenzspektrum eines von dem Segment beschriebenen Audiosignals (30, 32; 34, 36) und einem Frequenzspektrum eines weiteren von dem Segment beschriebenen Audiosignals (30, 32; 34, 36) ist.
Verfahren nach einem der Ansprüche 8 bis 15, wobei die Audiodaten mehrere erste oder zweite Lernsegmente umfassen; und die einzelnen Schritte des Zuordnens der jeweiligen Raumposition zu dem jeweiligen Lernsegment, des Überlagerns der zur Erzeugung von Überlagerungssegmenten, des Extrahierens eines Merkmals und des Assoziierens des extrahierten Merkmals jeweils für die mehreren ersten oder zweiten Lernsegmente durchgeführt werden.
Prozessor (15) zur Klassifizierung von Audiodaten (24) mittels eines computerimplementierten Klassifikators, der eingerichtet ist, Audiodaten (24) zu erhalten, welche zumindest ein Audiosegment (26; 28) umfassen; ein erstes Klassifizierungsergebnis und eine zweites Klassifizierungsergebnis für das zumindest eine Audiosegment (26; 28) zu bestimmen, wobei zumindest das erste Klassifizierungsergebnis einer ersten Raumposition einer Nutzsignalquelle zugeordnet ist und wobei dem zweiten Klassifizierungsergebnis eine zweite, von der ersten Raumposition verschiedene Raumposition der Nutzsignalquelle zugeordnet ist, oder Rauschen zugeordnet ist; eine Leistung des Audiosegments zu bestimmen; die Leistung zu einer Normleistung zu normalisieren; die Klassifizierungsergebnisse mit der Normleistung zu jeweils einem Gewichtungsergebnis zu gewichten; und eines der Klassifizierungsergebnisse basierend auf den Gewichtungsergebnissen auszuwählen.
Vorrichtung (14) umfassend den Prozessor nach Anspruch 17, wobei das zumindest eine Audiosegment (26; 28) ein erstes und ein zweites Audiosignal (30, 32; 34, 36) umfasst und wobei die Vorrichtung (14) ferner umfasst: ein erstes Mikrofon (16) zur Aufnahme des ersten Audiosignals (30; 34); und ein zweites Mikrofon (18) zur gleichzeitigen Aufnahme des zweiten Audiosignals (32; 36), wobei das erste Mikrofon (16) von dem zweiten Mikrofon (18) beabstandet ist.
Computerprogramm, welches, wenn es auf einem Prozessor (15) ausgeführt wird, den Prozessor (15) dazu einrichtet, das Verfahren nach einem der Ansprüche 1 bis 16 auszuführen.
Speichermedium, auf welchem das Computerprogramm nach Anspruch 19 gespeichert ist.
Datensignal, welches Daten überträgt, die das Computerprogramm nach Anspruch 19 repräsentieren.