EP2680262B1

EP2680262B1 - Verfahren zur Geräuschdämpfung eines Audiosignals für eine Multimikrofon-Audiovorrichtung, die in lauten Umgebungen eingesetzt wird

Info

Publication number: EP2680262B1
Application number: EP13171948.6A
Authority: EP
Inventors: Charles Fox; Guillaume Vitte; Maurice Charbit; Jacques Prado
Original assignee: Parrot SA
Current assignee: Parrot SA
Priority date: 2012-06-26
Filing date: 2013-06-14
Publication date: 2015-05-13
Anticipated expiration: 2033-06-14
Also published as: US9338547B2; FR2992459B1; FR2992459A1; CN103517185B; CN103517185A; EP2680262A1; US20130343558A1

Claims

Verfahren zur Geräuschdämpfung eines verrauschten Audiosignals für eine Multimikrofon-Audiovorrichtung, die in einer lauten Umgebung eingesetzt wird,
wobei das verrauschte Audiosignal eine Nutzkomponente, die aus einer Sprachquelle stammt, und eine Störgeräuschkomponente aufweist,
wobei die Vorrichtung ein Netz von Sensoren aufweist, das aus mehreren Mikrofonsensoren (M₁ ... M₄) gebildet ist, die gemäß einer vorbestimmten Ausgestaltung angeordnet sind und geeignet sind, das verrauschte Signal zu erfassen,
wobei die Sensoren in zwei Unternetzen, mit einem ersten Unternetz (R₁) von Sensoren, das geeignet ist, einen Hochfrequenzteil des Spektrums zu erfassen, und einem zweiten Unternetz (R₂) von Sensoren, das geeignet ist, einen Niederfrequenzteil des Spektrums zu erfassen, der sich von dem Hochfrequenzteil unterscheidet, zusammengefasst sind,
wobei dieses Verfahren die folgenden Schritte aufweist:
a) Aufteilung des Spektrums des verrauschten Signals in den Hochfrequenzteil (HF) und den Niederfrequenzteil (NF) durch Filtern (10, 16) oberhalb beziehungsweise unterhalb einer vorbestimmten Schwenkfrequenz,

b) Geräuschdämpfung von jedem der zwei Teile des Spektrums mit Einsatz einer Schätzfunktion mit adaptivem Algorithmus; und

c) Rekonstruktion des Spektrums durch Kombination (22) der nach der Geräuschdämpfung der zwei Teile des Spektrums in den Schritten b1) und b2) gelieferten Signale,
wobei das Verfahren dadurch gekennzeichnet ist, dass der Schritt b) zur Geräuschdämpfung durch verschiedene Verarbeitungen für jeden der zwei Teile des Spektrums eingesetzt wird, mit:
b1) einer Geräuschdämpfung für den Hochfrequenzteil, die die vorhersagbare Eigenschaft des Nutzsignals eines Sensors gegenüber dem anderen unter Sensoren des ersten Unternetzes mittels einer ersten Schätzfunktion (14) mit adaptivem Algorithmus nutzt, und

b2) einer Geräuschdämpfung für den Niederfrequenzteil durch Vorhersage des Geräusches eines Sensors gegenüber dem anderen unter Sensoren des zweiten Unternetzes mittels einer zweiten Schätzfunktion (18) mit adaptivem Algorithmus.
Verfahren nach Anspruch 1, wobei das erste Unternetz von Sensoren (R₁), das geeignet ist, den Hochfrequenzteil des Spektrums zu erfassen, ein lineares Netz von mindestens zwei Sensoren (M₁, M₃, M₄) aufweist, die senkrecht zur Richtung (Δ) der Sprachquelle ausgerichtet sind.
Verfahren nach Anspruch 1, wobei das zweite Unternetz von Sensoren (R₂), das geeignet ist, den Niederfrequenzteil des Spektrums zu erfassen, ein lineares Netz von mindestens zwei Sensoren (M₁, M₂) umfasst, die parallel zur Richtung (Δ) der Sprachquelle ausgerichtet sind.
Verfahren nach Anspruch 2, wobei die Sensoren (M₁, M₃, M₄) des ersten Unternetzes von Sensoren (R₁) in einer einzigen Richtung in die Richtung (Δ) der Sprachquelle ausgerichtet sind.
Verfahren nach Anspruch 2, wobei die Verarbeitung zur Geräuschdämpfung des Hochfrequenzteils des Spektrums im Schritt b1) auf differenzierte Art und Weise für ein unteres Band und ein oberes Band dieses Hochfrequenzteils, mit einer Auswahl von unterschiedlichen Sensoren unter den Sensoren des ersten Unternetzes (R₁), eingesetzt wird, wobei der Abstand zwischen den Sensoren (M₁, M₄), die für die Geräuschdämpfung des oberen Bandes ausgewählt werden, kleiner ist als derjenige der Sensoren (M₃, M₄), die für die Geräuschdämpfung des unteren Bandes ausgewählt werden.
Verfahren nach Anspruch 1, das ferner nach dem Schritt c) der Rekonstruktion des Spektrums einen folgenden Schritt aufweist:
d) selektive Verringerung des Geräusches (24) durch eine Verarbeitung des Typs Verstärkung mit optimierter modifizierter logarithmischer Spektralamplitude, OM-LSA, ausgehend von dem im Schritt c) erzeugten rekonstruierten Signal und einer Wahrscheinlichkeit des Vorhandenseins von Sprache.
Verfahren nach Anspruch 1, wobei der Schritt b1) der Geräuschminderung des Hochfrequenzteils, der die von einem Sensor zum anderen vorhersehbare Eigenschaft des Nutzsignals nutzt, im Frequenzbereich eingesetzt wird.
Verfahren nach Anspruch 7, wobei der Schritt b1) der Geräuschminderung des Hochfrequenzteils, der die von einem Sensor zum anderen vorhersehbare Eigenschaft des Nutzsignals nutzt, durch Folgendes eingesetzt wird:
b11) Schätzung (34) einer Wahrscheinlichkeit des Vorhandenseins von Sprache (SPP) in dem erfassten verrauschten Signal;

b12) Schätzung (32) einer spektralen Kovarianzmatrix der durch die Sensoren des ersten Unternetzes erfassten Geräusche, wobei diese Schätzung durch die Wahrscheinlichkeit des Vorhandenseins von Sprache moduliert wird;

b13) Schätzung (30) der Übertragungsfunktion der Audiokanäle zwischen der Sprachquelle und mindestens einigen der Sensoren des ersten Unternetzes, wobei diese Schätzung in Bezug zu einer Referenz des Nutzsignals eingesetzt wird, die durch das durch einen der Sensoren des ersten Unternetzes erfasste Signal gebildet wird, und ferner durch die Wahrscheinlichkeit des Vorhandenseins von Sprache moduliert wird; und

b14) Berechnung (28) eines optimalen linearen Projektors, der ein einziges geräuschgedämpftes kombiniertes Signal ausgehend von den durch mindestens einige der Sensoren des ersten Unternetzes erfassten Signalen ergibt, von der in Schritt b12) geschätzten spektralen Kovarianzmatrix und der im Schritt b13) geschätzten Übertragungsfunktionen.
Verfahren nach Anspruch 8, wobei im Schritt b14) die Berechnung eines optimalen linearen Projektors (28) durch eine Schätzfunktion des Typs Beamforming mit verzerrungsfreier Antwort mit minimaler Varianz, MVDR, eingesetzt wird.
Verfahren nach Anspruch 9, wobei der Schritt b13) zur Schätzung der Übertragungsfunktion der Audiokanäle (30) durch ein adaptives Filter (36, 38, 40) mit linearer Prädiktion des Typs Least-Mean-Square, LMS, mit Modulation (42) durch die Wahrscheinlichkeit des Vorhandenseins von Sprache eingesetzt wird.
Verfahren nach Anspruch 10, wobei die Modulation durch die Wahrscheinlichkeit des Vorhandenseins von Sprache eine Modulation durch Änderung des Iterationsschritts des adaptiven LMS-Filters ist.
Verfahren nach Anspruch 1, wobei für die Geräuschdämpfung des Niederfrequenzteils im Schritt b2) die Vorhersage des Geräusches eines Sensors gegenüber dem anderen im Zeitbereich eingesetzt wird.
Verfahren nach Anspruch 12, wobei die Vorhersage des Geräusches von einem Sensor zum anderen durch ein Filter (44, 46, 48) des Typs Wiener-Mehrkanalfilter mit Gewichtung durch die Verzerrung der Sprache, SDW-MWF, eingesetzt wird.
Verfahren nach Anspruch 13, wobei das SDW-MWF-Filter auf adaptive Art und Weise durch einen Gradientenabstiegsalgorithmus geschätzt wird.