DE60316704T2 - Mehrkanalige spracherkennung in ungünstigen umgebungen - Google Patents

Mehrkanalige spracherkennung in ungünstigen umgebungen Download PDF

Info

Publication number
DE60316704T2
DE60316704T2 DE60316704T DE60316704T DE60316704T2 DE 60316704 T2 DE60316704 T2 DE 60316704T2 DE 60316704 T DE60316704 T DE 60316704T DE 60316704 T DE60316704 T DE 60316704T DE 60316704 T2 DE60316704 T2 DE 60316704T2
Authority
DE
Germany
Prior art keywords
sum
voice
signal
threshold
spectral power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60316704T
Other languages
English (en)
Other versions
DE60316704D1 (de
Inventor
Radu Victor Levittown BALAN
Justinian Princeton Junction ROSCA
Christophe Beaugeant
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens Corp
Original Assignee
Siemens Corporate Research Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens Corporate Research Inc filed Critical Siemens Corporate Research Inc
Application granted granted Critical
Publication of DE60316704D1 publication Critical patent/DE60316704D1/de
Publication of DE60316704T2 publication Critical patent/DE60316704T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • 1. Gebiet der Erfindung
  • Die Erfindung betrifft allgemein Digitalsignalverarbeitungssysteme und insbesondere ein System und ein Verfahren zur Stimmenaktivitätsermittlung in ungünstigen Umgebungen, z. B. lauten Umgebungen.
  • 2. Beschreibung des verwandten Standes der Technik
  • Die Ermittlung der Aktivität einer Stimme (und genauer gesagt einer akustischen Quelle) (voice activity detection, VAD) ist ein Eckpfeiler bei der Signalverarbeitungspraxis und hat oft einen stärkeren Einfluss auf die Gesamtleistung eines Systems als jede andere Komponente. Sprachencodierung, Multimediakommunikation (Stimme und Daten), Sprachenverstärkung unter lauten Bedingungen und Sprachenerkennung sind wichtige Anwendungen, bei denen ein gutes VAD-Verfahren oder -System die Leistung des jeweiligen Systems erheblich verbessern kann. Die Rolle eines VAD-Verfahrens besteht grundsätzlich in dem Extrahieren von Merkmalen eines akustischen Signals, die Unterschiede zwischen Sprache und Rauschen verstärken, und in ihrer anschließenden Klassifizieren, so dass eine endgültige VAD-Entscheidung getroffen wird. Die Vielfalt und variable Natur von Sprache und Hintergrundgeräuschen macht das VAD-Problem zu einer Herausforderung.
  • Üblicherweise verwenden VAD-Verfahren Energiekriterien, wie eine Abschätzung des SNR (Signal-Rauschen-Verhältnis) auf Basis einer Langzeitgeräuschbewertung, wie in K. Srinivasan und A. Gersho, Voice activity detection for cellular networks, in Proc. of the IEEE Speech Coding Workshop, Okt. 1993, S. 85–86 beschrieben. Verbesserungen schlugen die Verwendung eines statistischen Modells des Audiosignals und Ableitung des Wahrscheinlichkeitsverhältnisses vor, wie in Y. D. Cho, K. Al-Naimi und A. Kondoz, Improved voice activity detection based an a smoothed statistical likelihood ratio, in Proceedings ICASSP 2001, IEEE Press beschrieben, oder die Berechnung der Kurtose, wie in R. Goubran, E. Nemer und S. Mahmoud, Snr estimation of speech signals using subbands and fourth-order statistics, IEEE Signal Processing Letters, Bd. 6, Nr. 7, S. 171–174, Juli 1999. Ersatzweise versuchen andere VAD-Verfahren die Extraktion robuster Merkmale (z. B. das Vorliegen einer Abweichung in der Stimmhöhe, die Formantenform oder das Cepstrum), die dann mit einem Sprachenmodell verglichen werden- Vor kurzem hat man Mehrkanal- (z. B. mit mehreren Mikrophonen oder Sensoren) VAD-Algorithmen untersucht, um die von den zusätzlichen Sensoren gelieferte Extrainformation zu nutzen.
  • EP 0 081 985 offenbart ein Geräuschverringerungssystem, das arbeitet, wenn Sprache ermittelt wird. Das Geräuschverringerungssystem verarbeitet Signale von mehreren Mikrophonen unter Verwendung schneller Fourier-Transformationen und adaptiver Filter, so dass eine gefiltertes Signal erhalten wird, und unter Aufsummieren des Signals.
  • Balan R. et al.: "Microphone array speech enhancement by Bayesian estimation of spectral amplitude and Phase", SAM 2002, 4. August 2002, 209–213, XP010635740 rosslyv, VA, USA, offenbart eine Signalverarbeitung für Mikrophonreihen, die sich zur Abschätzung von Signalmerkmalen eignet.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Die Ermittlung, wann Stimmen vorhanden sind oder nicht, ist ein herausragendes Problem bei der Sprachenübertragung, -verstärkung und -erkennung. Hier wird ein neues Mehrkanal-Quellenaktivitätsermittlungssystem, z. B. ein Stimmenaktivitätsermittlung-(VAD-)System bereitgestellt, das die räumliche Position einer Zielaudioquelle nutzt. Das VAD-System verwendet eine Reihensignalverarbeitungstechnik zur Maximierung des Signal-Störungs-Verhältnisses für die Zielquelle, wodurch die Aktivitätsermittlungsfehlerrate kleiner wird. Das System nutzt Ausgaben von mindestens zwei Mikrophonen, die in einer lauten Umgebung, z. B. einem Auto, platziert sind. Es gibt ein binäres Signal (0/1) aus, das dem Fehlen (0) bzw. Vorhandensein (1) der Stimmensignale eines Fahrers und/oder Passagiers entspricht. Die VAD-Ausgabe kann von anderen Signalverarbeitungskomponenten verwendet werden, damit zum Beispiel das Stimmensignal verstärkt wird.
  • Die Erfindung ist in den unabhängigen Ansprüchen definiert, auf die jetzt verwiesen werden soll. Vorteilhafte Ausführungsformen sind in den abhängigen Ansprüchen dargelegt.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die vorstehenden und weitere Aufgaben, Merkmale und Vorteile der Erfindung werden angesichts der folgenden eingehenden Beschreibung zusammen mit den beigefügten Zeichnungen deutlicher. Es zeigt/zeigen:
  • 1A und 1B schematisch zwei Szenarien zur Implementierung des erfindungsgemäßen Systems und des erfindungsgemäßen Verfahrens. 1A veranschaulicht ein Szenario unter Verwendung von zwei festen Mikrophonen im Auto. 1B veranschaulicht das Szenario, bei dem ein festes Mikrophon und ein zweites Mikrophon in einem Mobiltelefon verwendet werden;
  • 2 ein Blockdiagramm von einem Stimmenaktivitätsermittlungs-(VAD-)System und -Verfahren nach einer ersten Ausführungsform der Erfindung;
  • 3 eine Tabelle mit den Fehlertypen, die bei der Bewertung von VAD-Verfahren berücksichtigt werden;
  • 4 ein Diagramm der Rahmenfehlerhäufigkeiten, bezogen auf den Fehlertyp, und des Gesamtfehlers für ein Szenario mit mittlerem Lärm und fernem Mikrophon;
  • 5 ein Diagramm der Rahmenfehlerhäufigkeiten, bezogen auf den Fehlertyp, und des Gesamtfehlers für ein Szenario mit hohem Lärm und fernem Mikrophon; und
  • 6 ein Blockdiagramm, das ein Stimmenaktivitätsermittlungs-(VAD-)System und -Verfahren nach einer zweiten Ausführungsform der Erfindung verdeutlicht.
  • EINGEHENDE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Im Folgenden werden bevorzugte Ausführungsformen der Erfindung anhand der beigefügten Zeichnungen beschrieben. In der folgenden Beschreibung sind bekannte Funktionen oder Konstruktionen nicht im Einzelnen beschrieben, damit sich die Erfindung nicht unnötig im Detail verliert.
  • Bereitgestellt wird ein Mehrkanal-VAD-(voice acitivity detection, Stimmenaktivitätsermittlungs-)System und -Verfahren, mit dem bestimmt wird, ob in einem Signal Sprache vorhanden ist oder nicht. Die räumliche Lokalisierung ist der Schlüssel der Erfindung und kann für Stimmen- als auch für Nicht-Stimmensignale von Interesse gleichermaßen verwendet werden. Zur Veranschaulichung der Erfindung wird folgendes Szenario angenommen: Die Zielquelle (beispielsweise ein sprechende Person) befindet sich in einer lauten Umgebung. Zwei oder mehr Mikrophone zeichnen ein Audiogemisch auf. Siehe zum Beispiel 1A und 1B: In einem Auto werden zwei Signale von zwei Mikrophonen gemessen, wobei ein Mikrophon 102 im Auto befestigt ist und das andere Mikrophon entweder fest im Auto installiert 104 oder sich in einem Mobiltelefon 106 befinden kann. Im Auto gibt es nur einen Sprecher. Sind mehrere Personen zugegen, spricht jeweils nur eine. Man nehme an, dass d die Anzahl an Benutzern ist. Von dem Geräusch wird angenommen, dass es verteilt, aber nicht notwendigerweise gleichmäßig ist, d. h. die Quellen des Geräuschs sind räumlich nicht gut lokalisiert, und die räumliche Kohärenzmatrix kann zeitvariabel sein. In diesem Szenario identifizierten das erfindungsgemäße System und Verfahren blind ein Mischmodell und gibt ein Signal aus, das einer räumlichen Signatur mit dem größtmöglichen Signal-Störungs-Verhältnis (SIR) ist, dass mit linearem Filtern erhal ten werden kann. Das Ausgabesignal enthält zwar große Artefakte und ist zur Signalabschätzung ungeeignet, aber es ist ideal für die Signalaktivitätsermittlung.
  • Für das Verständnis der verschiedenen Merkmale und Vorteile der Erfindung wird jetzt eine eingehende Beschreibung einer beispielhaften Implementierung gegeben. Im Abschnitt 1 werden das Mischmodell und hauptsächliche statistische Annahmen dargelegt. Abschnitt 2 zeigt die Filterableitungen und stellt die Gesamt-VAD-Architektur dar. Abschnitt 3 widmet sich dem Problem der blinden Modellidentifikation. Abschnitt 4 erläutert die verwendeten Bewertungskriterien und Abschnitt 5 Punkte zur Implementierung und experimentelle Ergebnisse an wirklichen Daten.
  • 1. MISCHMODELL UND STATISCHE ANNAHMEN
  • Das Zeitdomänen-Mischmodell setzt D Mikrophonsignale x1(t), ..., xD(t) voraus, die eine Quelle s(t) sowie Geräuschsignale n1(t), ..., nD(t) aufzeichnen:
    Figure 00040001
  • Dabei sind (ai k, τi k) die Abschwächung und Verzögerung auf dem k. Pfad zum Mikrophon i, und Li ist die Gesamtanzahl der Pfade zum Mikrophon i.
  • In der Frequenzdomäne werden Konvolutionen zu Multiplikationen. Daher wird die Quelle neu definiert, so dass die Transferfunktion für den ersten Kanal, K, einheitlich wird:
    Figure 00040002
  • Dabei ist k der Rahmenindex und w der Frequenzindex. Kürzer kann dieses Modell geschrieben werden als X = KS + N (3)wobei X, K, N komplexe Vektoren sind. Der Vektor K ist der Transferfunktionsquotientenvektor und eine Darstellung der räumlichen Signatur der Quelle s.
  • Folgende Annahmen werden gemacht: (1) Das Quellensignal s(t) ist für alle ṙ statistisch unabhängig von den Geräuschsignalen ni(t); (2) Der Vektor K(ω) ist entweder zeitunveränderlich oder langsam zeitveränderlich; (3) S(w) ist ein stochastischer Prozess mit Mittelwert Null und der Spektralleistung Rs(w) = E⎣|S|2⎦; und (4) (N1, N2, ..., ND) ist ein stochastisches Signal mit Mittelwert Null mit der Geräusch-Spektralleistungsmatrix Rn(w).
  • 2. FILTERABLEITUNGEN UND VAD-ARCHITEKTUR
  • In diesem Abschnitt wird ein Filter mit optimaler Verstärkung abgleitet und in der Gesamtsystemarchitektur des VAD-Systems implementiert.
  • Ein auf X angewendeter linearer Filter A erzeugt: Z = AX = AKS + AN
  • Es ist der Filter erwünscht, der das SNR (SIR) maximiert. Das durch A erzielte Ausgabe-SNR (oSNR) ist:
    Figure 00050001
  • Das Maximieren von oSNR über A führt zu einem generalisierten Eigenwertproblem: ARn = λ AKK*, dessen Maximieren auf Basis der Rayleigh-Quotienten-Theorie erhalten werden kann, wie im Stand der Technik bekannt ist: A = μ K*Rwobei μ ein willkürlicher Skalar ungleich Null ist. Dieses Ausdruck legt nahe, dass man die Ausgabe Z durch einen Energiedetektor mit einer energieabhängigen Schwelle laufen lässt für die Entscheidung, ob das Quellensignal im derzeitigen Datenrahmen vorhanden ist oder nicht. Die Stimmenaktivitätsermittlungs-(VAD-)Entscheidung wird zu:
    Figure 00050002
    wobei eine Schwelle τ gleich B|X|2 ist und B > 0 ein konstanter Boost-Faktor. Weil einerseits A bis zu einer multiplikativen Konstante bestimmt wird und andererseits die maximierte Ausgabeenergie gewünscht ist, ist das Signal vorhanden, wird festgelegt, dass μ = Rs, die geschätzte Signalspektralleistung. Der Filter wird zu: A = RsK*Rn –1(6)
  • Auf Basis des Vorstehenden ist die Gesamtarchitektur der erfindungsgemäßen VAD in 2 dargestellt. Die VAD-Entscheidung basiert auf den Gleichungen 5 und 6. K, Rs, Rn werden aus Daten ermittelt, wie im folgenden beschrieben wird.
  • Siehe 2: Die Signale x1 und xD werden von den Mikrophonen 102 und 104 auf den Kanälen 106 bzw. 108 eingegeben. Die Signale x1 und xD sind Zeitdomänensignale. Sie werden mit dem schnellen Fourier-Transformator 110 in Frequenzdomänensignale X1 bzw. XD transformiert und auf den Kanälen 112 und 114 an den Filter A 120 ausgegeben. Der Filter 120 verarbeitet die Signale X1, XD auf Basis der oben beschriebenen Gleichung (6) und erzeugt die Ausgabe Z, die einer anderen räumlichen Signatur für die jeweiligen transformierten Signale entspricht. Die Variablen Rs, Rn und K, die an den Filter 120 geliefert werden, sind im folgenden eingehend beschrieben. Die Ausgabe Z wird verarbeitet und im Summierer 122 über einen Bereich von Frequenzen summiert, wodurch eine Summe |Z|2 erhalten wird, d. h. ein quadrierter Absolutwert des gefilterten Signals. Die Summe |Z|2 wird dann in einem Komparator 124 mit einer Schwelle τ vergleichen, wodurch ermittelt wird, ob eine Stimme vorhanden ist oder nicht. Ist die Summe großer als oder gleich der Schwelle τ, dann wird festgestellt, dass eine Stimme vorhanden ist, und der Komparator 124 gibt das VAD-Signal 1 aus. Ist die Summe kleiner als die Schwelle τ, wird festgestellt, dass keine Stimme vorhanden ist, und der Komparator gibt das VAD-Signal 0 aus.
  • Zur Ermittlung der Schwelle werden die Frequenzdomänensignale X1, XD in einen zweiten Summierer 116 eingegeben, in dem ein quadrierter Absolutwert der Signale X1, XD über die Anzahl an Mikrophonen D summiert wird. Diese Summe wird dann über einen Bereich von Frequenzen summiert, wobei die Summe |X|2 erhalten wird. Diese wird dann mithilfe des Multiplikators 118 mit dem Boost-Faktor B multipliziert, so dass die Schwelle τ ermittelt wird.
  • 3. MISCHMODELL-IDENTIFIZIERUNG
  • Im folgenden werden die Estimatoren für den Transferfunktionsquotienten-Vektor K und die Spektralleistungsdichten Rs und Rn dargelegt.
  • 3.1 AUF EINEM ADAPTIVEN MODELL BASIERENDER ESTIMATOR VON K
  • Siehe weiterhin 2: Der adaptive Estimator 130 schätzt einen Wert für K, den Transferfunktionsquotienten-Vektor, der als räumliche Signatur des Benutzers interpretiert werden kann, der ein Direktpfad-Mischmodell zur Verringerung der Anzahl an Parametern verwendet:
    Figure 00070001
  • Die Parameter (al, δl), die am besten passen in
    Figure 00070002
    werden unter Verwendung der Frobenius-Norm gewählt, wie im Stand der Technik bekannt ist, wobei Rx eine Messsignal-Spektral-Kovarianzmatrix ist. So sollte Folgendes minimiert werden: I(a2, ..., aD, δ2, ..., δD) = ΣSpur{(Rx – Rn – RsKK*)2} (9)
  • Die obige Summierung erfolgt über Frequenzen, weil die gleichen Parameter (al, δl)2 < I < D alle Frequenzen erklären sollten. Der an der derzeitigen Abschätzung (al, δl)2 < I < D bestimmte Gradient von l ist:
    Figure 00070003
    wobei E = Rx – Rn – RsKK* und vl der D-Vektor von Nullen an jeder Stelle, ausgenommen dem l. Eintrag, bei dem er ist: e|W∝| vl = [0 ... 0 e|W∝ 0 ... 0]T. Dann wird die Aktualisierungsregel gegeben durch:
    Figure 00070004
    mit 0 ≤ δ ≤ 1 als Lernrate.
  • 3.2 ABSCHÄTZUNG DER SPEKTRALLEISTUNGSDICHTEN
  • Die Rauschen-Spektralleistungsmatrix Rn wird zu Beginn über ein erstes Lernmodul 132 gemessen. Danach erfolgt die Abschätzung von Rn auf Basis des neuesten verfügbaren VAD-Signals, das vom Komparator 124 erzeugt wird, einfach durch folgende Gleichung:
    Figure 00080001
    wobei β eine bodenabhängige Konstante ist. Ist Rn mittels Gleichung (14) ermittelt worden, wird das Ergebnis zur Aktualisierung an den Filter 120 gesendet.
  • Die Signal-Spektralleistung Rs wird mittels spektraler Subtraktion bestimmt. Die Messsignal-Spektral-Kovarianzmatrix Rx wird durch ein zweites Lernmodul 126 auf Basis der Frequenzdomänen-Eingabesignale X1, XD ermittelt und in den spektralen Subtraktor 128 zusammen mit Rn eingegeben, das von dem ersten Lernmodul 132 erzeugt wird. Rs wird dann durch Folgendes ermittelt:
    Figure 00080002
    wobei βss > 1 eine bodenabhängige Konstante ist. Nach der Ermittlung von Rs mittels Gleichung (15) wird das Ergebnis zur Aktualisierung an den Filter 20 gesendet.
  • 4. VAD-LEISTUNGSKRITERIEN
  • Zur Bewertung der Leistung des erfindungsgemäßen VAD-Systems müssen die möglichen Fehler identifiziert werden, die beim Vergleich des VAD-Signals mit dem wirklichen vorhandenen Quellensignals auftreten können. Die Fehler ziehen den Kontext der VAD-Vorhersage, d. h. den wirklichen VAD-Zustand (gewünschtes Signal ist vorhanden oder fehlt), vor und nach dem Zustand des derzeitigen Datenrahmens wie folgt in Betracht (siehe 3): (1) Geräusch als brauchbares Signal (z. B. Sprache) ermittelt; (2) Geräusch vor dem tatsächlichen Start des wirklichen Signals als Signal ermittelt; (3) Signal als Geräusch in einem wirklichen Geräuschkontext ermittelt; (4) Signalermittlung zu Beginn des Signals verzögert; (5) Geräusch nach Abklingen des eigentlichen Signals als Signal ermittelt; (6) Geräusch zwischen Rahmen mit vorhandenem Signal als Signal ermittelt; (7) Signal am Ende des aktiven Signalabschnitts als Geräusch ermittelt und (8) Signal während der Signalaktivität als Geräusch ermittelt.
  • Die Literatur des Standes der Technik betrifft größtenteils vier Fehlertypen, die zeigen, dass Sprache als Geräusch falsch klassifiziert wird (die obigen Typen 3, 4, 7, 8). Einige berücksichtigen nur die Fehler 1, 4, 5, 8: Man bezeichnet sie als: "Geräusch als Sprache ermittelt" (1), "Abschneiden des Anfangs" (2), "Geräusch als Sprache interpretiert beim Übergang von Sprache zu Geräusch" (5) sowie "Abschneiden in der Mitte des Gesprächs" (8), wie in F. Beritelli, S. Casale und G. Ruggieri, "Performance evaluation and comparison of itu-t/etsi voice activity detectors" in Proceedings ICASSP 2001, IEEE Press beschrieben.
  • Die erfindungsgemäße Bewertung zielt auf die Untersuchung des VAD-Systems und -Verfahrens in drei Problembereichen: (1) Sprachenübertragung/-codierung, wobei die Fehlertypen 3, 4, 7 und 8 so klein wie möglich sein sollten, so dass Sprache selten oder überhaupt nicht abgeschnitten wird und alle Daten von Interesse (Stimme, aber nicht Rauschen) übermittelt werden; (2) Sprachenverstärkung, wobei die Fehlertypen 3, 4, 7 und 8 so klein wie möglich sein sollten und trotzdem die Fehler 1, 2, 5 und 6 zudem gewichtet werden, je nachdem, wie laut ein nicht-stationäres Geräusch in üblichen Umgebungen von Interesse ist; und (3) Sprachenerkennung (speech recognition, SR), wobei alle Fehler in Betracht gezogen werden. Insbesondere die Fehlertypen 1, 2, 5 und 6 sind für unbeschränkte SR wichtig. Bei einer guten Klassifizierung des Hintergrundrauschens als Nicht-Sprache kann SR bei allen Rahmen von Interesse effizient arbeiten.
  • 5. EXPERIMENTELLE ERGEBNISSE
  • Es wurden drei VAD-Algorithmen verglichen: (1–2) Implementierung von zwei herkömmlichen adaptiven Mehrfachraten-(AMR-)Algorithmen, AMR-1 und AMR-2, die auf eine nicht stetige Übermittlung einer Stimme abzielen; und (3) ein Zweikanal-(TwoCh-)VAD-System gemäß dem erfindungsgemäßen Ansatz unter Verwendung von D = 2 Mikrophonen. Diese Algorithmen wurden an echten Daten untersucht, die in einer Autoumgebung in zwei Versuchsanordnungen aufgezeichnet wurden, wobei zwei Sensoren, d. h. Mikrophone, entweder nahe beieinander oder entfernt voneinander waren. In jedem Auto wurde das Autogeräusch beim Fahren getrennt aufgezeichnet und additiv auf Autogeräuschaufzeichnungen aus statischen Situationen überlagert. Das durchschnittliche Eingabe-SNR bei dem Testfall mit "mittlerem Geräusch" betrug Null dB im Nah-Fall und –3 dB im Fern-Fall. In beiden Fällen wurde auch der zweite Testfall "lautes Geräusch" berücksichtigt, wobei das Eingabe-SNR um weitere 3 dB fiel.
  • 5.1 IMPLEMENTATION DER ALGORITHMEN
  • Die Implementation der AMR1- und AMR2-Algorithmen basiert auf dem herkömmlichen GSM-AMR-Sprachencodierer Version 7.3.0. Die VAD-Algorithmen verwenden Ergebnisse, die von dem Codierer berechnet werden und vom Codierer-Eingabemodus abhängen können. Deshalb wurde hier der feste Modus MRDTX verwendet. Die Algorithmen geben an, ob jeder 20-ms-Rahmen (Rahmenlänge von 160 Abtastungen bei 8 kHz) Signale enthält, die übertragen werden sollten, d. h. Sprache, Musik oder Informationstöne. Die Ausgabe des VAD-Algorithmus ist ein Boolesches Kennzeichen, das das Vorhandensein solcher Signale anzeigt.
  • Bei der TwoCh-VAD auf Basis des MaxSNR-Filters, des auf einem adaptiven Modell basierenden K-Estimators und der Spektralleistungsdichte-Estimatoren, wie vorstehend erläutert, wurden die folgenden Parameter verwendet: Boost-Faktor B = 100, die Lernraten β = 0,01 (bei der K-Abschätzung), β = 0,2 (für Rn) und βss = 1,1 (bei der spektralen Subtraktion). Die Verarbeitung erfolgte blockweise mit einer Rahmengröße von 256 Abtastungen und einer Zeitabstufung von 160 Abtastungen.
  • 5.2 ERGEBNISSE
  • Mit nur einem einfachen Leistungshöhen-Stimmendetektor wurde eine ideale VAD-Markierung an den Auto-Stimmendaten erhalten. Dann wurden die Gesamt-VAD-Fehler mit den drei untersuchten Algorithmen erhoben. Die Fehler stehen für die durchschnittlichen Prozent der Rahmen mit einer anderen Entscheidung als die ideale VAD, bezogen auf die Gesamtanzahl an verarbeiteten Rahmen.
  • Die 4 und 5 zeigen die einzelnen und die Gesamt-Fehler, die mit den drei Algorithmen in den Szenarien mit mittlerem und lautem Geräusch erhalten wurden. Tabelle 1 fasst die durchschnittlichen Ergebnisse zusammen, die beim Vergleich der TwoCh-VAD mit AMR2 erhalten wurden. Man beachte, dass die Mono-AMR-Algorithmen bei den beschriebenen Tests den besten der beiden Kanäle (mit dem höchsten SNR) verwendeten (der per Hand gewählt wurde).
    Daten mittl. Geräusch lautes Geräusch
    bestes Mikro (nahe) 54,5 25
    schlechtestes Mikro (nahe) 56,5 29
    bestes Mikro (fern) 65,5 50
    schlechtestes Mikro (fern) 68,7 54
    Tabelle 1: Prozentuale Verbesserung der Gesamt-Fehlerrate gegenüber AMR2 bei der Zweikanal-VAD über zwei Daten- und Mikrophonkonfigurationen
  • Die TwoCh-VAD ist den anderen Ansätzen überlegen, vergleicht man die Fehlertypen 1, 4, 5 und 8. Nur bei den Fehlertypen 3, 4, 7 und 8 ist die AMR2 leicht besser als die TwoCh-VAD-Lösung, die in Wirklichkeit kein spezielles Logik- oder Hangover-Schema zur Verbesserung der Ergebnisse verwendet. Bei unterschiedlichen Einstellung der Parameter (insbesondere des Boost-Faktors) liegt jedoch die TwoCh-VAD bei dieser Untergruppe von Fehlern gleichauf mit der AMR2. Trotzdem war angesichts der Gesamt-Fehlerraten die TwoCh-VAD den anderen Ansätzen deutlich überlegen.
  • Siehe 6: Das Blockdiagramm veranschaulicht ein Stimmenaktivitätsermittlungs-(VAD-)System und -Verfahren nach einer zweiten Ausführungsform der Erfindung. Bei der zweiten Ausführungsform ermitteln das System und das Verfahren nicht nur, ob eine Stimme vorhanden ist oder nicht, sondern auch, welcher Sprecher die Äußerung macht, wenn die VAD-Entscheidung positiv ausfällt.
  • Selbstverständlich haben mehrere Elemente in 6 die gleiche Struktur und die gleichen Funktionen wie anhand von 2 beschrieben. Daher sind sie mit den gleichen Bezugszahlen belegt und werden in Zusammenhang mit 6 nicht mehr im Einzelnen beschrieben. Diese Ausführungsform wird zwar für ein System mit zwei Mikrophonen erläutert, aber für einen Durchschnittsfachmann sollte die Ausweitung auf mehr als 2 Mikrophone offensichtlich sein.
  • Bei dieser Ausführungsform wird der Funktionsquotienten-Vektortransfer K nicht abgeschätzt, sondern in einer anfänglichen Kalibrierungsphase für jeden Sprecher von insgesamt d Sprechern von einem Kalibrator 650 ermittelt. Jeder Sprecher hat immer dann ein anderes K, wenn es genügend räumlichen Unterschied zwischen den Sprechern und den Mikrophonen gibt, z. B. in einem Auto, wenn die Sprecher in Bezug auf die Mikrophone nicht symmetrisch sitzen.
  • In der Kalibrierungsphase spricht in Abwesenheit von (oder bei leisem) Geräusch jeder der Benutzer d getrennt einen Satz. Auf Basis der beiden sauberen Aufzeichnungen x1(t) und x2(t), die von den Mikrophonen 602 und 604 empfangen werden, wird der Quotienten-Transferfunktionsquotienten-Vektor K(ω) für einen Benutzer abgeschätzt durch:
    Figure 00110001
    wobei X1 c(l, ω), X2 c(l, ω) für die Fourier-Transformation bei diskretem Fenster bei der Frequenz ω und dem Zeitrahmenindex l der sauberen Signale x1, x2 steht. So wird ein Satz von Quotienten der Kanaltransferfunktionen Kl(ω), 1 ≤ l ≤ d, erhalten, und zwar jeweils einer pro Sprecher. Trotz der anscheinend einfacheren Form der Quotienten-Kanaltransferfunktion, wie
    Figure 00120001
    wäre ein Kalibrator 650, der direkt auf dieser einfacheren Form basiert, nicht robust. Somit minimiert der Kalibrator 650 auf Basis der Gleichung (16) ein Problem der kleinsten Fehlerquadrate und ist somit robuster gegenüber Nicht-Linearitäten und Geräuschen.
  • Ist K für jeden Sprecher bestimmt worden, wird die VAD-Entscheidung ähnlich durchgeführt, wie oben in Bezug auf 2 beschrieben. Die zweite Ausführungsform der Erfindung ermittelt jedoch, ob eine Stimme von einem der d Sprecher vorhanden ist. Ist dies der Fall, untersucht sie, wer spricht, und aktualisiert die Rauschenspektralleistungsmatrix Rn sowie die Schwelle τ. Die Ausführungsform in 6 verwendet zwar ein Verfahren und ein System auf Basis von zwei Sprechern, aber selbstverständlich ist die Erfindung nicht auf zwei Sprecher beschränkt und kann einer Umgebung mit mehreren Sprechern umfassen.
  • Nach der anfänglichen Kalibrierungsphase werden die Signale x1 und x2 von den Mikrophonen 602 und 604 auf den Kanälen 606 bzw. 608 eingegeben. Die Signale x1 und x2 sind Zeitdomänensignale. Sie werden von dem schnellen Fourier-Transformator 610 in die Frequenzdomänensignale X1 bzw. X2 transformiert und an eine Mehrzahl an Filtern 620-1, 620-2 auf den Kanälen 612 und 614 ausgegeben. Bei dieser Ausführungsform steht ein Filter für jeden Sprecher in Wechselwirkung mit dem System. Daher wird für jeden der d Sprecher, 1 ≤ l ≤ d, die Berechnung der Filter zu: [Al Bl] = Rs⎣1 K l⎦Rn –1 (17)und Folgendes wird von jedem Filter 620-1, 620-2 ausgegeben: Sl = AlX1 + BlX2 (18)
  • Die Spektralleistungsdichten Rs und Rn, die den Filtern zugeführt werden müssen, werden berechnet, wie oben in Bezug auf die erste Ausführungsform beschrieben, über das erste Lernmodul 626, das zweite Lernmodul 632 und den spektralen Subtraktor 628. Das in der Kalibrierungsphase bestimmte K von jedem Sprecher wird von der Kalibrierungseinheit 650 an die Filter eingegeben.
  • Die Ausgabe Sl von jedem Filter wird in den Summierern 622-1 und 622-2 über einen Bereich von Frequenzen summiert, wodurch eine Summe El, ein quadrierter Absolutwert des gefilterten Signals, erzeugt wird, wie im folgenden dargestellt:
    Figure 00130001
  • Aus 6 ist ersichtlich, dass es einen Summierer für jeden Filter gibt. Es kann angenommen werden, dass es für jeden Sprecher in dem System 600 eine Filter/Summierer-Kombination gibt.
  • Die Summen El werden zum Prozessor 623 gesendet, in dem ein Maximalwert aller eingegebenen Summen (E1, ..., Ed) ermittelt wird, zum Beispiel Es, mit 1 ≤ s ≤ d. Die maximale Summe Es wird dann im Komparator 624 mit einer Schwelle τ verglichen, wobei ermittelt wird, ob eine Stimme vorhanden ist oder nicht. Ist die Summe größer als oder gleich der Schwelle τ, wird festgestellt, dass eine Stimme vorhanden ist, der Komparator 624 gibt das VAD-Signal 1 aus, und es wird ermittelt, dass der Benutzer s aktiv ist. Ist die Summe kleiner als die Schwelle τ, wird festgestellt, dass keine Stimme vorhanden ist, und der Komparator gibt das VAD-Signal 0 aus. Die Schwelle τ wird genauso, wie bei der ersten Ausführungsform beschrieben, über den Summierer 616 und den Multiplikator 618 ermittelt.
  • Selbstverständlich kann die Erfindung in unterschiedlichen Formen von Hardware, Software, Firmware, Spezialprozessoren oder deren Kombination implementiert werden. Bei einer Ausführungsform kann die Erfindung in Software als Anwendungsprogramm implementiert werden, das greifbar in einer Programmspeichervorrichtung enthalten ist. Das Anwendungsprogramm kann auf eine Maschine hochgeladen werden, die eine beliebige geeignete Architektur besitzt, und von dieser ausgeführt werden. Die Maschine wird vorzugsweise auf einer Computerplattform implementiert mit Hardware, wie einer oder mehr zentralen Verarbeitungseinheiten (CPU), einem Speicher mit wahlfreiem Zugriff (RAM) und (einer) Eingabe/Ausgabe-(I/O-)Schnittstelle. Die Computerplattform enthält zudem ein Betriebssystem und einen Mikro-Instruktionscode. Die verschiedenen hier beschriebenen Verfahren und Funktionen können Teil des Mikro-Instruktionscodes oder Teil des Anwendungsprogramms (oder eine Kombination davon) sein, das über das Betriebssystem ausgeführt wird. Zudem können verschiedene weitere periphere Geräte mit der Computerplattform verbunden werden, wie eine zusätzliche Datenspeichervorrichtung und eine Druckvorrichtung.
  • Weil einige der in den beigefügten Figuren dargestellten Bestandteile des Systems in Software implementiert werden können, können selbstverständlich die tat sächlichen Verbindungen zwischen den Systemkomponenten (oder Verfahrensschritten) je nach der Art und Weise, wie die Erfindung programmiert worden ist, anders sein. Anhand der hier dargelegten Lehren der Erfindung ist der Durchschnittsfachmann auf diesem Gebiet in der Lage, sich diese erfindungsgemäßen Implementationen oder Konfigurationen und ähnliche zu überlegen.
  • Die Erfindung stellt einen Mehrkanal-Stimmenaktivitätsdetektor bereit, der die räumliche Lokalisierung einer Zielaudioquelle nutzt. Der implementierte Detektor maximiert das Signal-Störungs-Verhältnis für die Zielquelle und verwendet Zweikanal-Eingabedaten. Die Zweikanal-VAD wurde mit AMR-VAD-Algorithmen an echten Daten verglichen, die in einer lauten Autoumgebung aufgezeichnet wurden. Der Zweikanal-Algorithmus zeigt verglichen mit dem adaptiven Mehrfachraten-Algorithmus AMR2 des Standes der Technik, der bei Stimmenübertragungstechnologie des Standes der Technik verwendet wird, eine 55–70%ige Verbesserung der Fehlerraten.
  • Die Erfindung ist zwar anhand bestimmter bevorzugter Ausführungsformen dargelegt und beschrieben worden, aber für den Fachmann ist selbstverständlich, dass verschiedene Veränderungen in Form und Detail daran vorgenommen werden können, ohne von Umfang der Erfindung, wie durch die beigefügten Ansprüche definiert, abzuweichen.

Claims (14)

  1. Verfahren zum Bestimmen, ob eine Stimme in einem gemischten Tonsignal vorhanden ist, wobei das Verfahren die folgenden Schritte umfasst: Empfangen des gemischten Tonsignals über mindestens zwei Mikrophone (102, 104); schnelle Fourier-Transformation (110) von jedem empfangenen gemischten Tonsignal in die Frequenzdomäne (112, 114); Estimieren einer Rauschen-Spektralleistungsmatrix (Rn), einer Signal-Spektralleistung (Rs) und eines Kanalfunktionsquotienten-Vektors (K); Filtern (120) der transformierten Signale, so dass ein gefiltertes Signal ausgegeben wird, wobei der Filterungsschritt das Multiplizieren der transformierten Signale mit einem Kehrwert einer Rauschen-Spektralleistungsmatrix, einem Transferfunktionsquotienten-Vektor und einer Ursprungssignal-Spektralleistung beinhaltet; Summieren (122) von einem quadrierten Absolutwert von dem gefilterten Signal über einen zuvor festgelegten Bereich von Frequenzen; und Vergleichen der Summe mit einer Schwelle (124), wodurch bestimmt wird, ob eine Stimme vorhanden ist, wobei die Stimme vorhanden ist, ist die Summe größer als die oder gleich der Schwelle, und die Stimme nicht vorhanden ist, ist die Summe kleiner als die Schwelle.
  2. Verfahren nach Anspruch 1 zum Bestimmen, ob eine Stimme in einem gemischten Tonsignal vorhanden ist, wobei: der Filterungsschritt der transformierten Signale zum Ausgeben von Signalen, die einer räumlichen Signatur entsprechen, für jeden einer zuvor festgelegten Anzahl von Benutzern erfolgt; der Schritt der getrennten Summierung von einem quadrierten Absolutwert der gefilterten Signale über einen zuvor festgelegten Frequenzbereich für jeden der Benutzer erfolgt; das zudem den folgenden Schritt umfasst: Bestimmen eines Maximums der Summen; und wobei der Schritt des Vergleichens der Summe mit einer Schwelle, wodurch bestimmt wird, ob eine Stimme vorhanden ist, in dem Vergleichen der maximalen Summe mit der Schwelle besteht.
  3. Verfahren nach Anspruch 2, wobei ein spezifischer Benutzer, der mit der maximalen Summe in Zusammenhang steht, als aktiver Sprecher bestimmt wird, ist eine Stimme vorhanden.
  4. Verfahren nach Anspruch 1 oder 2, das zudem den Schritt des Bestimmens der Schwelle umfasst, wobei der Schritt des Bestimmens der Schwelle Folgendes umfasst: Summieren von einem quadrierten Absolutwert der transformierten Signale über die mindestens zwei Mikrophone (116); Summieren der summierten transformierten Signale über einen zuvor festgelegten Frequenzbereich, wodurch eine zweite Summe erhalten wird; und Multiplizieren der zweiten Summe mit einem Verstärkungsfaktor (118).
  5. Verfahren nach Anspruch 1 oder 2, wobei der Filterungsschritt für jeden der zuvor festgelegten Anzahl an Benutzern durchgeführt wird und der Transferfunktionsquotienten-Vektor für jeden Benutzer während einer Kalibrierung gemessen wird.
  6. Verfahren nach Anspruch 5, wobei der Transferfunktionsquotienten-Vektor durch ein Direktpfad-Mischmodell bestimmt wird.
  7. Verfahren nach Anspruch 5, wobei die Ursprungssignal-Spektralleistung bestimmt wird, indem die Rauschen-Spektralleistungsmatrix von einer Messsignal-Spektral-Kovarianzmatrix spektral subtrahiert wird (128).
  8. Stimmenaktivitätsdetektor zum Bestimmen, ob eine Stimme in einem gemischten Tonsignal vorhanden ist, umfassend: mindestens zwei Mikrophone (102, 104) zum Empfangen des gemischten Tonsignals; einen schnellen Fourier-Transformator (110) zum Transformieren von jedem empfangenen gemischten Tonsignal in die Frequenzdomäne (112, 114); Vorrichtungen zum Estimieren einer Rauschen-Spektralleistungsmatrix (Rn), einer Signal-Spektralleistung (Rs) und eines Kanalfunktionsquotienten-Vektors (K); ein Filter (120) zum Filtern der transformierten Signale, so dass ein gefiltertes Signal ausgegeben wird, wobei das mindestens eine Filter einen Multiplikator umfasst zum Multiplizieren der transformierten Signale mit einem Kehrwert einer Rauschen-Spektralleistungsmatrix, einem Transferfunktionsquotienten-Vektor und einer Ursprungssignal-Spektralleistung, wodurch das Signal bestimmt wird, das einer räumlichen Signatur entspricht; einen ersten Summierer (122) zum Summieren von einem quadrierten Absolutwert der gefilterten Signale über einen zuvor festgelegten Bereich von Frequenzen; und einen Komparator (124) zum Vergleichen der Summe mit einer Schwelle, wodurch bestimmt wird, ob eine Stimme vorhanden ist, wobei die Stimme vorhanden ist, ist die Summe größer als die oder gleich der Schwelle, und die Stimme nicht vorhanden ist, ist die Summe kleiner als die Schwelle.
  9. Stimmenaktivitätsdetektor nach Anspruch 8, wobei: jedes der transformierten Signale für einen von einer zuvor festgelegten Anzahl an Benutzern ist und der erste Summierer dazu dient, für jeden der Benutzer einen quadrierten Absolutwert der gefilterten Signale über einen zuvor festgelegten Bereich von Frequenzen getrennt zu summieren, zudem umfassend: einen Prozessor zum Bestimmen eines Maximums der Summen; und wobei der Komparator zum Vergleichen der maximalen Summe mit einer Schwelle dient.
  10. Stimmenaktivitätsdetektor nach Anspruch 9, wobei aktiver Sprecher ein spezifischer Benutzer bestimmt wird, der mit der maximalen Summe in Zusammenhang steht, ist eine Stimme vorhanden.
  11. Stimmenaktivitätsdetektor nach Anspruch 8 oder 9, der zudem Folgendes umfasst: einen zweiten Summierer (116) zum Summieren von einem quadrierten Absolutwert der transformierten Signale über die mindestens zwei Mikrophone und zum Summieren der summierten transformierten Signale über einen zuvor festgelegten Bereich von Frequenzen, wodurch eine zweite Summe erhalten wird; und einen Multiplikator (118) zum Multiplizieren der zweiten Summe mit einem Verstärkungsfaktor, wodurch die Schwelle bestimmt wird.
  12. Stimmenaktivitätsdetektor nach Anspruch 8, der zudem eine Kalibrierungseinrichtung umfasst zum Bestimmen des Kanaltransferfunktionsquotienten-Vektors für jeden Benutzer während einer Kalibrierung.
  13. Stimmenaktivitätsdetektor nach Anspruch 8, der zudem einen spektralen Subtraktor (128) enthält zum spektralen Subtrahieren der Rauschen-Spektralleistungsmatrix von einer Messsignal-Spektral-Kovarianzmatrix, wodurch die Signal-Spektralleistung bestimmt wird.
  14. Programmspeichervorrichtung, die von einer Maschine gelesen werden kann und konkret ein Programm von Instruktionen verkörpert, das von der Maschine ausgeführt werden kann, so dass Verfahrensschritte durchgeführt werden zum Bestimmen, ob eine Stimme in einem gemischten Tonsignal vorhanden ist, wobei die Verfahrensschritte Folgendes umfassen: Empfangen des gemischten Tonsignals über mindestens zwei Mikrophone (102, 104); schnelle Fourier-Transformation (110) von jedem empfangenen gemischten Tonsignal in die Frequenzdomäne (112, 114); Estimieren einer Rauschen-Spektralleistungsmatrix (Rn), einer Signal-Spektralleistung (Rs) und eines Kanalfunktionsquotienten-Vektors (K); Filtern (120) der transformierten Signale, so dass ein gefiltertes Signal ausgegeben wird, wobei der Filterungsschritt das Multiplizieren der transformierten Signale mit einem Kehrwert einer Rauschen-Spektralleistungsmatrix, einem Transferfunktionsquotienten-Vektor und einer Ursprungssignal-Spektralleistung beinhaltet; Summieren (122) von einem quadrierten Absolutwert des gefilterten Signals über einen zuvor festgelegten Bereich von Frequenzen; und Vergleichen der Summe mit einer Schwelle (124), wodurch bestimmt wird, ob eine Stimme vorhanden ist, wobei die Stimme vorhanden ist, ist die Summe größer als die oder gleich der Schwelle, und die Stimme nicht vorhanden ist, ist die Summe kleiner als die Schwelle.
DE60316704T 2002-08-30 2003-07-21 Mehrkanalige spracherkennung in ungünstigen umgebungen Expired - Lifetime DE60316704T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/231,613 US7146315B2 (en) 2002-08-30 2002-08-30 Multichannel voice detection in adverse environments
US231613 2002-08-30
PCT/US2003/022754 WO2004021333A1 (en) 2002-08-30 2003-07-21 Multichannel voice detection in adverse environments

Publications (2)

Publication Number Publication Date
DE60316704D1 DE60316704D1 (de) 2007-11-15
DE60316704T2 true DE60316704T2 (de) 2008-07-17

Family

ID=31976753

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60316704T Expired - Lifetime DE60316704T2 (de) 2002-08-30 2003-07-21 Mehrkanalige spracherkennung in ungünstigen umgebungen

Country Status (5)

Country Link
US (1) US7146315B2 (de)
EP (1) EP1547061B1 (de)
CN (1) CN100476949C (de)
DE (1) DE60316704T2 (de)
WO (1) WO2004021333A1 (de)

Families Citing this family (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
EP1473964A3 (de) * 2003-05-02 2006-08-09 Samsung Electronics Co., Ltd. Mikrofonvorrichtung, Verfahren zur Verarbeitung von Signalen von dieser Mikrofonvorrichtung und dieses benutzende Spracherkennungsverfahren und Spracherkennungssystem
JP4000095B2 (ja) * 2003-07-30 2007-10-31 株式会社東芝 音声認識方法、装置及びプログラム
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
JP4235128B2 (ja) * 2004-03-08 2009-03-11 アルパイン株式会社 入力音処理装置
US8315857B2 (en) * 2005-05-27 2012-11-20 Audience, Inc. Systems and methods for audio signal analysis and modification
US7680656B2 (en) * 2005-06-28 2010-03-16 Microsoft Corporation Multi-sensory speech enhancement using a speech-state model
DE102005039621A1 (de) * 2005-08-19 2007-03-01 Micronas Gmbh Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System
GB2430129B (en) * 2005-09-08 2007-10-31 Motorola Inc Voice activity detector and method of operation therein
US20070133819A1 (en) * 2005-12-12 2007-06-14 Laurent Benaroya Method for establishing the separation signals relating to sources based on a signal from the mix of those signals
EP1850640B1 (de) * 2006-04-25 2009-06-17 Harman/Becker Automotive Systems GmbH Fahrzeugkommunikationssystem
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
KR20080036897A (ko) * 2006-10-24 2008-04-29 삼성전자주식회사 음성 끝점을 검출하기 위한 장치 및 방법
US7818176B2 (en) 2007-02-06 2010-10-19 Voicebox Technologies, Inc. System and method for selecting and presenting advertisements based on natural language processing of voice-based input
US8046214B2 (en) 2007-06-22 2011-10-25 Microsoft Corporation Low complexity decoder for complex transform coding of multi-channel sound
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
CN100462878C (zh) * 2007-08-29 2009-02-18 南京工业大学 智能机器人识别舞蹈音乐节奏的方法
US8249883B2 (en) * 2007-10-26 2012-08-21 Microsoft Corporation Channel extension coding for multi-channel source
CN101471970B (zh) * 2007-12-27 2012-05-23 深圳富泰宏精密工业有限公司 便携式电子装置
US8411880B2 (en) * 2008-01-29 2013-04-02 Qualcomm Incorporated Sound quality by intelligently selecting between signals from a plurality of microphones
MY179314A (en) * 2008-04-18 2020-11-04 Dolby Laboratories Licensing Corp Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience
US8275136B2 (en) * 2008-04-25 2012-09-25 Nokia Corporation Electronic device speech enhancement
US8244528B2 (en) 2008-04-25 2012-08-14 Nokia Corporation Method and apparatus for voice activity determination
US8611556B2 (en) * 2008-04-25 2013-12-17 Nokia Corporation Calibrating multiple microphones
US9305548B2 (en) 2008-05-27 2016-04-05 Voicebox Technologies Corporation System and method for an integrated, multi-modal, multi-device natural language voice services environment
US8589152B2 (en) * 2008-05-28 2013-11-19 Nec Corporation Device, method and program for voice detection and recording medium
WO2010002676A2 (en) * 2008-06-30 2010-01-07 Dolby Laboratories Licensing Corporation Multi-microphone voice activity detector
EP2196988B1 (de) * 2008-12-12 2012-09-05 Nuance Communications, Inc. Bestimmung der Kohärenz von Audiosignalen
US8326637B2 (en) 2009-02-20 2012-12-04 Voicebox Technologies, Inc. System and method for processing multi-modal device interactions in a natural language voice services environment
CN101533642B (zh) * 2009-02-25 2013-02-13 北京中星微电子有限公司 一种语音信号处理方法及装置
DE102009029367B4 (de) * 2009-09-11 2012-01-12 Dietmar Ruwisch Verfahren und Vorrichtung zur Analyse und Abstimmung akustischer Eigenschaften einer Kfz-Freisprecheinrichtung
KR101601197B1 (ko) * 2009-09-28 2016-03-09 삼성전자주식회사 마이크로폰 어레이의 이득 조정 장치 및 방법
EP2339574B1 (de) * 2009-11-20 2013-03-13 Nxp B.V. Sprachdetektor
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
US9165567B2 (en) * 2010-04-22 2015-10-20 Qualcomm Incorporated Systems, methods, and apparatus for speech feature detection
US8898058B2 (en) 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
JP5557704B2 (ja) * 2010-11-09 2014-07-23 シャープ株式会社 無線送信装置、無線受信装置、無線通信システムおよび集積回路
JP5732976B2 (ja) * 2011-03-31 2015-06-10 沖電気工業株式会社 音声区間判定装置、音声区間判定方法、及びプログラム
CN102393986B (zh) * 2011-08-11 2013-05-08 重庆市科学技术研究院 基于音频判别的盗伐检测方法、装置及系统
EP2600637A1 (de) * 2011-12-02 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Mikrofonpositionierung basierend auf räumlicher Leistungsdichte
US20130282373A1 (en) 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US8676579B2 (en) * 2012-04-30 2014-03-18 Blackberry Limited Dual microphone voice authentication for mobile device
US9002030B2 (en) 2012-05-01 2015-04-07 Audyssey Laboratories, Inc. System and method for performing voice activity detection
CN102819009B (zh) * 2012-08-10 2014-10-01 香港生产力促进局 用于汽车的驾驶者声源定位系统及方法
JP6129316B2 (ja) * 2012-09-03 2017-05-17 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 情報に基づく多チャネル音声存在確率推定を提供するための装置および方法
US9076450B1 (en) * 2012-09-21 2015-07-07 Amazon Technologies, Inc. Directed audio for speech recognition
US9076459B2 (en) 2013-03-12 2015-07-07 Intermec Ip, Corp. Apparatus and method to classify sound to detect speech
WO2015047308A1 (en) * 2013-09-27 2015-04-02 Nuance Communications, Inc. Methods and apparatus for robust speaker activity detection
CN107293287B (zh) 2014-03-12 2021-10-26 华为技术有限公司 检测音频信号的方法和装置
US9530433B2 (en) * 2014-03-17 2016-12-27 Sharp Laboratories Of America, Inc. Voice activity detection for noise-canceling bioacoustic sensor
US9615170B2 (en) * 2014-06-09 2017-04-04 Harman International Industries, Inc. Approach for partially preserving music in the presence of intelligible speech
EP3195145A4 (de) 2014-09-16 2018-01-24 VoiceBox Technologies Corporation Sprachhandel
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法
EP3465681A1 (de) * 2016-05-26 2019-04-10 Telefonaktiebolaget LM Ericsson (PUBL) Verfahren und vorrichtung zur erkennung von sprach- oder geräuschaktivitäten für räumliches audio
US10424317B2 (en) * 2016-09-14 2019-09-24 Nuance Communications, Inc. Method for microphone selection and multi-talker segmentation with ambient automated speech recognition (ASR)
CN106935247A (zh) * 2017-03-08 2017-07-07 珠海中安科技有限公司 一种用于正压式空气呼吸器和狭小密闭空间的语音识别控制装置及方法
GB2563857A (en) * 2017-06-27 2019-01-02 Nokia Technologies Oy Recording and rendering sound spaces
KR20240033108A (ko) * 2017-12-07 2024-03-12 헤드 테크놀로지 에스아에르엘 음성인식 오디오 시스템 및 방법
US11087780B2 (en) * 2017-12-21 2021-08-10 Synaptics Incorporated Analog voice activity detector systems and methods
WO2019186403A1 (en) 2018-03-29 2019-10-03 3M Innovative Properties Company Voice-activated sound encoding for headsets using frequency domain representations of microphone signals
US11064294B1 (en) 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
CN111739554A (zh) * 2020-06-19 2020-10-02 浙江讯飞智能科技有限公司 声学成像频率确定方法、装置、设备及存储介质
US11483647B2 (en) * 2020-09-17 2022-10-25 Bose Corporation Systems and methods for adaptive beamforming
CN113270108B (zh) * 2021-04-27 2024-04-02 维沃移动通信有限公司 语音活动检测方法、装置、电子设备及介质
US12057138B2 (en) 2022-01-10 2024-08-06 Synaptics Incorporated Cascade audio spotting system

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
JP2626437B2 (ja) * 1992-12-28 1997-07-02 日本電気株式会社 残留エコー制御装置
DE69428119T2 (de) * 1993-07-07 2002-03-21 Picturetel Corp., Peabody Verringerung des hintergrundrauschens zur sprachverbesserung
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
FI99062C (fi) * 1995-10-05 1997-09-25 Nokia Mobile Phones Ltd Puhesignaalin taajuuskorjaus matkapuhelimessa
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US6097820A (en) * 1996-12-23 2000-08-01 Lucent Technologies Inc. System and method for suppressing noise in digitally represented voice signals
US6141426A (en) * 1998-05-15 2000-10-31 Northrop Grumman Corporation Voice operated switch for use in high noise environments
US6088668A (en) * 1998-06-22 2000-07-11 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
US6363345B1 (en) * 1999-02-18 2002-03-26 Andrea Electronics Corporation System, method and apparatus for cancelling noise
EP1081985A3 (de) 1999-09-01 2006-03-22 Northrop Grumman Corporation Mikrofonanordnungsverarbeitungssystem für geräuschvolle Mehrwegumgebunge
US6377637B1 (en) * 2000-07-12 2002-04-23 Andrea Electronics Corporation Sub-band exponential smoothing noise canceling system
US20030004720A1 (en) * 2001-01-30 2003-01-02 Harinath Garudadri System and method for computing and transmitting parameters in a distributed voice recognition system

Also Published As

Publication number Publication date
WO2004021333A1 (en) 2004-03-11
US20040042626A1 (en) 2004-03-04
EP1547061B1 (de) 2007-10-03
EP1547061A1 (de) 2005-06-29
US7146315B2 (en) 2006-12-05
DE60316704D1 (de) 2007-11-15
CN100476949C (zh) 2009-04-08
CN1679083A (zh) 2005-10-05

Similar Documents

Publication Publication Date Title
DE60316704T2 (de) Mehrkanalige spracherkennung in ungünstigen umgebungen
DE69524994T2 (de) Verfahren und Vorrichtung zur Signalerkennung unter Kompensation von Fehlzusammensetzungen
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE69831288T2 (de) An Umgebungsgeräusche angepasste Sprachverarbeitung
DE112015004785B4 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein verbessertes Audiosignal
DE112009000805B4 (de) Rauschreduktion
DE69121145T2 (de) Spektralbewertungsverfahren zur verbesserung der widerstandsfähigkeit gegen rauschen bei der spracherkennung
DE69432943T2 (de) Verfahren und Vorrichtung zur Sprachdetektion
DE69714431T2 (de) Verfahren zum verbessern von verrauschter sprache und gerät
DE69131883T2 (de) Vorrichtung zur Rauschreduzierung
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE112017006486T5 (de) Online-enthallungsalgorithmus basierend auf gewichtetem vorhersagefehler für lärmbehaftete zeitvariante umgebungen
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE102019110272A1 (de) Neuronalnetzwerkbasierte zeit-frequenzmaskenschätzung und strahlformung zur sprachvorverarbeitung
DE102012107952A1 (de) Rauschreduzierung für Dual-Mikrofon-Kommunikationsgeräte
DE69519453T2 (de) Spracherkennung mit Sprecheradaptierung mittels Berechnung von Mittelwerten akustischer Kategorien
DE60000403T2 (de) Vorrichtung und Verfahren zur Modelladaption, Speichervorrichtung und Mustererkennungsvorrichtung
DE102017102134A1 (de) Global optimierte Nachfilterung mit der Kleinste-Quadrate-Methode für die Sprachverbesserung
DE102014100407A1 (de) Geräuschminderungsvorrichtungen und Geräuschminderungsverfahren
EP1143416A2 (de) Geräuschunterdrückung im Zeitbereich
EP0747880B1 (de) Spracherkennungssystem
EP1091349A2 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung bei der Sprachübertragung
DE60212617T2 (de) Vorrichtung zur sprachverbesserung
DE102014002899A1 (de) Verfahren, Vorrichtung und Herstellung zur Zwei-Mikrofon-Array-Sprachverbesserung für eine Kraftfahrzeugumgebung
AT509570B1 (de) Methode und apparat zur einkanal-sprachverbesserung basierend auf einem latenzzeitreduzierten gehörmodell

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: SIEMENS CORP. (N. D. GES. D. STAATES DELAWARE), US