DE60018886T2 - Adaptive Wavelet-Extraktion für die Spracherkennung - Google Patents

Adaptive Wavelet-Extraktion für die Spracherkennung Download PDF

Info

Publication number
DE60018886T2
DE60018886T2 DE60018886T DE60018886T DE60018886T2 DE 60018886 T2 DE60018886 T2 DE 60018886T2 DE 60018886 T DE60018886 T DE 60018886T DE 60018886 T DE60018886 T DE 60018886T DE 60018886 T2 DE60018886 T2 DE 60018886T2
Authority
DE
Germany
Prior art keywords
nodes
decomposition
tree structure
coefficients
speech signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60018886T
Other languages
English (en)
Other versions
DE60018886D1 (de
Inventor
Luca Santa Barbara Rigazio
David Kryze
Ted Santa Barbara Applebaum
Jean-Claude Santa Barbara Junqua
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Application granted granted Critical
Publication of DE60018886D1 publication Critical patent/DE60018886D1/de
Publication of DE60018886T2 publication Critical patent/DE60018886T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Auxiliary Devices For Music (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Extrahieren von Merkmalen für die automatische Spracherkennung der Art, die die Schritte umfasst, ein akustisches Sprachsignal unter Verwendung eines Satzes von Wavelets zu zerlegen; eine Wavelet-Grundlage festzulegen; und die Wavelet-Grundlage auf den Satz der Wavelets anzuwenden, um mehrere Zerlegungskoeffizienten zu generieren, die Merkmalen entsprechen, die aus dem akustischen Sprachsignal extrahiert wurden.
  • Beim Analysieren eines Sprachsignals besteht der erste Schritt darin, Merkmale zu extrahieren, welche der Nutzinformation entsprechen, die das Signal kennzeichnet. Herkömmlicher Weise bringt es dieser Merkmalsextraktionsprozess mit sich, das Sprachsignal in sich überlappende Fenster mit einer vorbestimmten Rahmengröße zu zerteilen und dann die Fast Fourier Tranformation (FFT) am Signalfenster zu berechnen. Dann wird ein endlicher Satz von Kepstrum-Koeffizienten extrahiert, indem höherrangigere Terme in der Fourier Transformation des logarithmischen Spektrums verworfen werden. Die sich ergebenden Kepstrum-Koeffizienten können dann zum Aufbau neuer Sprachmodelle, typischerweise verdeckte Markow-Modelle, verwendet werden.
  • Ein signifikanter Nachteil einer herkömmlichen FFT-Analyse ist ihre feststehende Zeit-/Frequenzauflösung. Bei der Analyse von Sprache wäre es wünschenswert, mehrere unterschiedliche Zeit-/Frequenzauflösungen verwenden zu können, um die nichtlinear verteilten Sprachdaten in der Zeit-/Frequenzebene besser ausmachen zu können. Somit wäre es wünschenswert, wenn für sich schnell ändernde Reibelaute oder andere Konsonanten eine schärfere Zeitauflösung bereitgestellt werden könnte, während gleichzeitig für sich langsamer ändernde Strukturen wie Vokale eine geringere Zeitauflösung bereitgestellt wird. Unglücklicherweise lässt sich das mit der aktuellen Technologie schwer erzielen. Obwohl es möglich ist, einen Satz von Erkennern aufzubauen und parallel einzusetzen, die jeweils für ein bestimmtes Sprachmerkmal ausgelegt sind, trägt eine solche Lösung eine schwere rechnerische Last.
  • Eine Merkmalsextraktionsmethodik, die auf Wavelet-Transformationen beruht, wird im Schriftstück „Discriminant wavelet basis construction for speech recognition" von Long untersucht, veröffentlicht bei ICSLP 1998 am 30. November 1998, S. 1047–1049, XP002173581 in Sydney, Australien. Die Parametrisierungstechnik wird als ausreichend flexibel erachtet, um es mit den breitgefächert unterschiedlichen Merkmalen von typischen Sprachsignalen aufzunehmen. Eine Trainingsphase ist auch im Spiel, während der der endgültige Sortierer oder Klassifizierer dazu aufgerufen ist, eine Kosten- oder Aufwandsfunktion mit einer bestimmten Auflösung zu assoziieren. Die Teilräume werden dann durchsucht und beschnitten, um eine Wavelet-Grundlage bereitzustellen, die sich für das Klassifizierungsproblem am besten eignet.
  • Ein Satz von Merkmalsparametern für Spracherkennung wird im Schriftstück „Subband decomposition based speech recognition in the presence of a car noise" von Erzin im Turkish Journal of Electrical Engineering and Computer Sciences, Elektrik 1997, Band 5, Nummer 3, S. 297–305, XP001015312 vorgestellt. Der Merkmalssatz wurde aus den Wurzel-Kepstrum-Koeffizienten erhalten, die aus der Wavelet-Analyse des Sprachsignals abgeleitet waren.
  • Nach der vorliegenden Erfindung wird ein Verfahren der vorgenannten Art bereitgestellt, das dadurch gekennzeichnet ist, dass der Schritt des Festlegens einer Wavelet-Grundlage umfasst, die Unterscheidung bestimmter Geräuschklassen im Verhältnis zum zerlegten Sprachsignal zu maximieren; der Satz der Wavelets in einer Baumstruktur mit einem Wurzelknoten und mehreren Blattknoten geordnet wird, wobei ein Teil der Knoten dadurch ausgewählt wird, dass die Unterscheidungsleistung eines ersten der Knoten berechnet wird, darüber hinaus die Unterscheidungsleistung der Unterknoten des ersten der Knoten berechnet wird und die Unterknoten beschnitten werden, wenn die Summe der Unterscheidungsleistungen der Unterknoten kleiner ist als die Unterscheidungsleistungen des ersten der Knoten; und das akustische Sprachsignal kontinuierlich in den Wurzelknoten der Baumstruktur eingespeist wird.
  • Die vorliegenden Erfindung verwendet die Wavelet-Technologie, die ein analytisches Verfahren bereitstellt, das eine breite Palette unterschiedlicher Geräuschklassen abdeckt. Indem die Wavelet-Technologie der Erfindung verwendet wird, kann ein Signalerkennungssystem aufgebaut und eingesetzt werden, bei dem die Sprachmodelle bereits durch einen einzigen Merkmalsextraktionsprozess für unterschiedliche Geräuschklassen optimiert wurden. Auf diese Weise ist das Erkennungssystem der Erfindung für verschiedene Geräuschklassen optimiert, ohne dass dabei die Komplexität des Erkennungsanalyseprozesses erhöht würde.
  • Die Erfindung wird nun rein beispielhaft mit Bezug auf die beigefügten Zeichnungen beschrieben:
  • 1 ist ein Hardware-/Software-Konzeptschema, das eine gegenwärtig bevorzugte Ausführungsform zum Herstellen von Waveletpakettransformationen des akustischen Sprachsignals darstellt;
  • 2 stellt eine gegenwärtig bevorzugte Zeit-/Frequenzzerlegung dar, die in der Teilbandanalyse durchgeführt wird;
  • 3 ist ein Blockschema der bevorzugten Ausführungsform zum Umsetzen einer erfindungsgemäßen Teilbandmerkmalsextraktion;
  • 4 stellt ein gegenwärtig bevorzugtes Verfahren zur Handhabung von Signalverfälschungseffekten der Hochpassfilter dar; und
  • 5 ist ein Ablaufdiagramm, das einen Vorgang zur Auswahl der optimalen Wavelet-Baumstruktur für eine bestimmte Geräuschklasse darstellt.
  • BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORM
  • Das lokale Merkmalsextraktionssystem der Erfindung verwendet eine Wavelet-Zerlegung des akustischen Wellenverlaufs. Die Wavelet-Zerlegung führt zu einem Weg, akustische Information in Form von Funktionen darzustellen, die in Zeit und Frequenz lokal sind. Die Wavelet-Zerlegung unterscheidet sich somit von der herkömmlichen Fourier-Reihenzerlegung. Bei der herkömmlichen Fourier-Analyse sind die Sinus- und Cosinusformen lokal in der Frequenz, aber global in Zeit und Raum. Ein Kurzimpuls weist beispielsweise langsam abfallende Koeffizienten auf, die unter Verwendung von FFTs schwierig zu messen und darzustellen sind. Um solch einen Impuls darzustellen, muss sich die Fourier-Reihe stark auf Löschen verlassen. Die gesamte Fourier-Analyse und Eigenschaften von Funktionen im Zusammenhang mit Eigenschaften von Koeffizienten zu bringen, wird durch die nicht-lokale Unterstützung erschwert, die sich durch die Sinuswellenfunktion ergibt.
  • In Anbetracht eines gegebenen Vektorraums S ist eine Basis ein Satz von Vektoren (e1 ... en)ei ∈ S, der den Raum S überbrückt. Ist ei linear unabhängig von ei für i ≠ j, kann die Basis als vollständig bezeichnet werden und von der Linearalgebra kann jeder Vektor x ∈ S in der Grundlage, sobald ein Skalarprodukt <x, y> : S → R definiert ist (R ist die Menge reeller Zahlen) als
    Figure 00030001
    zerlegt (und rekonstruiert) werden, worin <ei, x> ei die Komponente des Vektors entlang ei genannt wird, und der Satz dieser <ei, x> ei, i = 1, ... n die Projektion des Vektors auf der Basis (e1 ... en) genannt wird.
  • Funktionen und deshalb auch Signale, sind ein Vektorraum, sobald ein Skalarprodukt als <f, g> = ∫f(x)g(x)* dxdefiniert wurde, worin f, g Funktionen sind (oder Signale, wobei dies im mathematischen Sinn zwei Namen für dasselbe Objekt sind) und g* die Adjungierte von g ist. Dies bedeutet, dass es möglich ist, eine Basis für einen Funktionsraum aufzubauen, eine Funktion in solch eine Basis zu projizieren und das Signal unter Verwendung der Gleichungen 1 und 2 wiederherzustellen.
  • Speziell werden Wavelet-Grundlagen aus der Verschiebung (Translation) W(x) → W(x + b) und Dehnung (Dilation) W(x) → W(ax) einer Prototypenfunktion W(x) aufgebaut, die Mutter-Wavelet genannt wird. Sobald das Mutter-Wavelet einige grundlegende Eigenschaften erfüllt, kann eine Basis für einen Raum von Funktionen erhalten werden, indem das Mutter-Wavelet wie zuvor erklärt verschoben und gedehnt wird.
  • Das Ziel ist ein neuer Weg zur Darstellung von Funktionen – speziell von Funktionen, die in Zeit und Frequenz lokal sind. Im Vergleich mit der Fourier-Reihe ist zu sehen, dass die Sinus- und Cosinusformen vollkommen lokal in der Frequenz aber global in Zeit und Raum sind.
  • Die vorliegende Erfindung nutzt Wavelets, um eine lokale Unterstützung in Zeit und Frequenz zu erzielen. Obwohl es viele Wege gibt, um eine Wavelet-Zerlegung durchzuführen, besteht das gegenwärtig bevorzugte Verfahren darin, einen rekursiven Algorithmus einzusetzen, der auf der Zerlegung des Signals in seine Tiefpass- und Hochpasskomponenten aufbaut. Alternativ kann ein iterativer Prozess verwendet werden.
  • 1 zeigt veranschaulichend, wie eine Wavelet-Zerlegung unter Verwendung von Tief- und Hochpassfiltern erzielt werden kann, die in einer kaskadenförmigen Baumstruktur angeordnet sind. Jeder Knoten des Baums umfasst einen elementaren Block, der aus einem Hochpassfilter 10 und einem entsprechenden Tiefpassfilter 12 besteht. Auf jedes Filter folgt ein abwärts abtastender Prozessor 14 zur Lieferung einer nicht redundanten Darstellung. Das Ursprungssignal wird bei 16 eingegeben und kann durch Durchführen der Umkehroperation aus den Teilsignalen wieder vollkommen hergestellt werden.
  • Das System extrahiert lokale Merkmale auf eine optimierte Weise mittels einer hierarchischen Zeit-/Frequenzauflösungsanalyse. Diese Analyse wird dadurch bewerkstelligt, dass der Wavelet-Zerlegungsbaum 18 unsymmetrisch entwickelt wird. In dieser Hinsicht ist anzumerken, dass die Knoten, die am Grunde des Baums, wie bei 20, erscheinen, eine feinere Frequenzauflösung aufweisen als Knoten oben am Baum wie bei 22.
  • Die sich ergebende Zerlegung der Zeit-/Frequenzebene ist in 2 dargestellt. Für die niedrigsten Frequenzen unten in 2, die zwischen 0 und 1 kHz liegen, und wo die höchste Frequenzauflösung benötigt wird, werden die Teilsignale nach dem Durchlaufen von sieben Stufen des Filterns und Abwärtsabtastens erhalten. Die entsprechende Wavelet-Länge beträgt 24 ms für ein (bei 16 kHz) abgetastetes Signal, und die Frequenzauflösung beträgt 125 Hz. Hingegen werden für die höchsten Frequenzen (oben in 2) über 6 kHz, bei denen die Sprachinformation weniger präsent und weniger detailliert ist, die Teilsignale nach dem Durchlaufen von drei Stufen des Filterns und Abwärtsabtastens erhalten. Die entsprechende Wavelet-Länge beträgt 3 ms und die Frequenzauflösung 1 kHz.
  • Ein gegenwärtig bevorzugtes Merkmalsextraktionssystem ist in 3 dargestellt. Das Sprachsignal 30 wird zuerst einem Wavelet-Pakettransformationsblock 32 zugeführt, der das Signal wie in Verbindung mit 1 beschrieben unsymmetrisch in Wavelets zerlegt. Die Verarbeitung des Sprachsignals 30 kann auf einer kontinuierlichen Basis erfolgen, indem das Signal in die Kaskadenfilterbank eingespeist wird. Die sich ergebende Wavelet-Transformation liefert eine lokale Unterstützung, so dass die Verarbeitung direkt am Ursprungssignal vorgenommen werden kann. Anders ausgedrückt muss keine Fenstertechnik angewendet werden, wie sie normalerweise bei der herkömmlichen FFT-Verarbeitung erforderlich ist.
  • Die gegenwärtig bevorzugte Ausführungsform verwendet Filter, die dadurch aufgebaut werden, dass das Frequenzverhalten eines idealen Tiefpassfilters (oder Hochpassfilters) mit dem Frequenzverhalten eines Kaiser-Fensters der Länge 15 gefaltet wird, um die Welligkeit des sich ergebenden Filters auf ein Mindestmaß zu reduzieren. Das Ziel ist es, einen steilen Übergang zwischen dem Durchlassbereich und dem Sperrbereich zu erzielen, so dass eine minimale Überlappung der Filter nötig ist. Dies wiederum bringt eine reduzierte Korrelation an den Filterbankausgängen mit sich. Nachdem die Tiefpassfilter auf diese Weise berechnet wurden, werden dann die Hochpassfilter bestimmt, indem die Summe des Impulsverhaltens in Bezug auf die diskrete Dirac-Funktion angewendet wird.
  • In 3 ist der Ausgang des Transformationsblocks 32 bei 34 als eine Zeit-/Frequenzzerlegung darstellend, wie in 2 vollständiger gezeigt ist, wiedergegeben.
  • Obwohl der Ausgang des Tiefpassfilters direkt nach dem Abwärtsabtasten verwendet werden kann, führt die bevorzugte Ausführungsform eine zusätzliche Verarbeitung am Ausgang des Hochpassfilters durch, um bestimmte Verfälschungs- bzw. Rückfaltungseffekte (aliasing effects) (den sogenannten „Graucode-Effekt") rückgängig zu machen. 4 stellt das Aliasing-Schema dar. Es ist festzuhalten, dass die Schritte der Tiefpassfilterung und Abwärtsabtastung einen Bereich von Frequenzen von der Nullfrequenz bis zur Nyquist-Frequenz erzeugen. Dies ist allgemein bei 40 dargestellt. Hingegen ist nach der Hochpassfilterung und Abwärtsabtastung das Spektrum, das im Frequenzbereich zurückbleibt, der zwischen der Nullfrequenz und der Nyquist Frequenz angesiedelt ist, das Spiegelbild des Oberbandspektrums des gefilterten Signals. Somit muss, um das Oberband des Oberbands zu extrahieren (wobei zwei Hochpassfilter hintereinander angelegt werden) das Unterband des Ausgangs des Hochpassfilters hergenommen werden. Dies führt zu einem ungewollten Vertauschen der Hochpass- und Tiefpassfilter nach einer Hochpassfilteroperation.
  • Zum Ausgleich führt die bevorzugte Ausführungsform eine Umkehroperation für jede Filterstufe unter der Hochpassfilterungsstufe durch, bis eine weitere Hochpassfilterungsstufe durchgeführt wird. Der kombinierte Effekt zweier aufeinanderfolgender Alias-Vorgänge hebt diese auf. In 4 ist das umgekehrte Oberband bei 42 gezeigt.
  • Sobald der Aliasing-Effekt behoben ist, werden die Ausgänge der Blattfilter geglättet, indem ein durch Block 36 veranschaulichter Integrationsprozess durchgeführt wird. Für jedes Teilband I berechnet das System am entsprechenden Teilsignal x, (n) die Durchschnittsgröße (wenn ∝ = 1) oder Durchschnittsenergie (wenn ∝ = 2), die e1 genannt wird:
  • GLEICHUNG 1
    Figure 00060001
  • Der vorstehende Mittelwert wird über dieselbe Anzahl N von Koeffizienten für jedes Teilband berechnet. Da die Abtastrate für jeden Schritt die Baumstruktur hinab durch zwei geteilt wird, bleibt die hierarchische Zeitauflösung erhalten, wie in 2 dargestellt ist. Die Größe des größeren mittelwertbildenden Fensters (die dem niedrigsten Teilband entspricht), wird Fenstergröße genannt. Das mittelwertbildende Fenster wird dann um die Größe eines Rahmens verschoben, um Teilbandamplituden mit einer Rahmenrate zu liefern. Die Anzahl N gemittelter Teilsignalproben kann für die höchsten Teilbänder so eingestellt werden, dass die Zeitausdehnung nie kleiner ist als ein Rahmen. Als Nächstes wird, wie bei Block 37 dargestellt ist, eine Komprimierungsoperation durchgeführt. Die Art der durchgeführten Komprimierungsoperation kann von der Beschaffenheit des Sprachsignals abhängen. Für reine Sprache wird eine nichtlineare logarithmische Operation durchgeführt. Für geräuschverfälschte Sprache kann statt dessen eine Wurzelkomprimierungsoperation eingesetzt werden. Jede dieser Operationen wendet Nichtlinearität auf e1 an. Obwohl gegenwärtig der obige logarithmische Operator bevorzugt wird, können statt dessen auch andere nichtlineare Operationen angewendet werden.
  • Kepstrum-Koeffizienten werden wie in Block 38 extrahiert, indem eine diskrete Cosinus-Transformation (DCT) wie in Gleichung 2 angewendet wird:
  • GLEICHUNG 2
    Figure 00070001
  • Das Ergebnis ist ein Satz von Teilbandmerkmalen 39, die dazu verwendet werden können, das ursprüngliche Sprachsignal 30 darzustellen, wenn Sprachmodelle wie verdeckte Markow-Modelle aufgebaut werden.
  • Die Teilbandanalyse bietet viele Freiheitsgrade. Im Wesentlichen kann jeder der Knoten im Filterbankbaum ausgewählt werden, um die Zeit-/Frequenzzerlegung für eine bestimmte Geräuschklasse bereitzustellen. Anders ausgedrückt ist es nicht notwendig, nur die Blattknoten in der Wavelet-Zerlegung zu verwenden. Statt dessen kann auch irgendeine Kombination von Blattknoten oder Zwischenknoten verwendet werden. Die Auswahl, welche Knoten für eine bestimmte Geräuschklasse ausgewählt werden sollen (z.B. Reibelaute, Verschlusslaute, andere Konsonanten, Vokale und dergleichen) erfolgt dahinge hend, wie das lokale Merkmalsextraktionssystem optimale Ergebnisse für diese unterschiedlichen Geräuschklassen liefert.
  • Der Prozess zum Herausfinden, welche Kombination von Knoten für eine bestimmte Geräuschklasse am besten funktioniert, ist ein iterativer Prozess, der im Wesentlichen wie folgt abläuft.
  • Mit Bezug auf 5 arbeitet der Vorgang zur Auswahl der optimalen Baumstruktur für eine bestimmte Geräuschklasse an einem Korpus von gekennzeichneten oder mit einem Etikett versehenen Daten 100. Der erste Schritt (Schritt 102) besteht darin, aus den gekennzeichneten Daten die betreffende Geräuschklasse zu extrahieren. Somit werden, wenn der Baum für Reibelaute optimiert werden soll, alle Phoneme, die Reibelaute darstellen, aus den gekennzeichneten Trainingsdaten extrahiert. Dann wird der Wavelet-Baum bei 104 im Wesentlichen wie zuvor beschrieben berechnet. Nach der Berechnung des Baums bestimmen die nächsten Schritte im Wesentlichen, wie dieser Baum am besten beschnitten werden soll, um die betreffende Geräuschklasse am besten zu treffen. Der dargestellte Vorgang geht so vonstatten, dass jeder Knoten auf eine rekursive oder iterative Weise untersucht wird.
  • Somit wird bei Schritt 106 für jeden Knoten eines Baums eine normierte Energie berechnet. Die Energie (oder eine Umwandlung der Energie) wird durch eine geeignete Skalierung normiert, so dass die Summe aller Energien für alle Knoten 1 beträgt. Liegt die Energie an einem aktuellen unter Test befindlichen Knoten unter einem vorbestimmten Schwellenwert, wie bei 108 geprüft wird, verwirft der Baumbeschneidungsalgorithmus diesen Knoten und alle seine Unterknoten. Andernfalls wird der Knoten weiter untersucht, indem seine Unterscheidungsleistung unter Verwendung einer geeigneten Abstandsberechnung ermittelt wird. Dies ist bei Schritt 110 dargestellt. Danach erfolgt eine entsprechende Unterscheidungsleistungsberechnung aller Unterknoten dieses Hauptknoten, wie bei Schritt 112 angegeben ist.
  • Mit der nun berechneten Unterscheidungsleistung der Haupt- und Unterknoten vergleicht Schritt 114 die Unterscheidungsleistung des Hauptknotens mit der Summe der Unterscheidungsleistung der Unterknoten. Wie bei Schritt 116 angegeben, werden die Unterknoten, wenn deren Summe größer ist als die des Hauptknotens, in den Baum mit aufgenommen. Andernfalls wird im Schritt 118 der Baum beschnitten, indem die Unterknoten und alle Nachkommen dieser Unterknoten verworfen werden.
  • Der in 5 dargestellte Vorgang geht weiter, bis jeder Knoten entweder wie beschrieben untersucht oder aufgrund dessen ausgeschlossen wurde, dass er ein Unter knoten eines ausgeschlossenen Knotens ist. Das Ergebnis ist ein Wavelet-Baum, der für die betreffenden Geräuschklassen optimal beschnitten wurde. Nachdem ein Baum auf diese Weise entwickelt wurde, kann das System damit fortfahren, andere Bäume (mit unterschiedlichen Beschneidungen) für andere Geräuschklassen zu entwickeln.
  • Verschiedene Bäume können dazu optimiert werden, zwischen einer bestimmten Geräuschklasse zu unterscheiden. Die Bäume werden alle aus einem zu groß gewordenen Baum extrahiert, so dass nur eine Zerlegung notwendig ist, wobei die Knoten, die den optimalen Teilbäumen entsprechen, zur Berechnung der gewünschten Merkmale verwendet werden.
  • Spezialisierte verdeckte Markow-Modelle können an diesen spezialisierten Merkmalen trainiert werden. Beispielsweise kann ein Satz spezialisierter Modelle, die Vokale von Konsonanten unterscheiden, aus spezialisierten Merkmalen aufgebaut werden, die zur Erlangung einer hohen Unterscheidungsfähigkeit zwischen solchen Lauten optimiert wurden.
  • Eine Auflösung des Modells von grob zu fein kann auf diese Weise erzielt werden, indem zuerst die weitgefassten Klassen (z.B. Konsonanten im Gegensatz zu Vokalen) und dann in einem Mehrfachdurchgangerkennungsparadigma die bestimmten Laute in einer Klasse erkannt werden. Alternativ können alle Modelle (sowohl die Fein- als auch Grobauflösung) zusammen in einem Einfachdurchgangsystem verwendet werden, um eine Sequenz weit- und enggefasster Laute zu generieren, die Information über die Äußerung liefert.
  • Obwohl die Erfindung in ihrer gegenwärtig bevorzugten Form beschrieben wurde, ist klar, dass die Erfindung auf viele verschiedene Weisen umgesetzt werden kann, ohne dass dabei vom erfindungsgemäßen Aussagegehalt abgewichen würde, wie ex in den beigefügten Ansprüchen dargelegt ist.

Claims (17)

  1. Verfahren zum Extrahieren von Merkmalen für die automatische Spracherkennung, die Schritte umfassend, ein akustisches Sprachsignal (30) unter Verwendung eines Satzes von Wavelets zu zerlegen; eine Wavelet-Grundlage festzulegen; und die Wavelet-Grundlage auf den Satz der Wavelets (38) anzuwenden, um mehrere Zerlegungskoeffizienten zu generieren, die Merkmalen entsprechen, die aus dem akustischen Sprachsignal extrahiert wurden, dadurch gekennzeichnet, dass: der Schritt des Festlegens einer Wavelet-Grundlage (102, 104, 106, 110, 112, 114, 116, 118) umfasst, die Unterscheidung bestimmter Geräuschklassen im Verhältnis zum zerlegten Sprachsignal zu maximieren; der Satz der Wavelets in einer Baumstruktur mit einem Wurzelknoten und mehreren Blattknoten geordnet wird, wobei ein Teil der Knoten dadurch ausgewählt wird, dass die Unterscheidungsleistung eines ersten der Knoten berechnet wird, darüber hinaus die Unterscheidungsleistung der Unterknoten des ersten der Knoten berechnet wird und die Unterknoten beschnitten werden, wenn die Summe der Unterscheidungsleistungen der Unterknoten kleiner ist als die Unterscheidungsleistungen des ersten der Knoten; und das akustische Sprachsignal kontinuierlich in den Wurzelknoten der Baumstruktur eingespeist wird.
  2. Verfahren nach Anspruch 1, darüber hinaus den Schritt umfassend, den Satz der Wavelets als Zerlegungskoeffizienten auszudrücken und die Koeffizienten nachzuverarbeiten, um sie zu dekorrelieren und komprimieren.
  3. Verfahren nach Anspruch 1, wobei das akustische Sprachsignal abgetastet und in digitaler Form dargestellt wird.
  4. Verfahren nach Anspruch 1, wobei die Baumstruktur eine binäre Baumstruktur ist, die aus einer Verkettung zugrundeliegender Verarbeitungsblöcke erhalten wird.
  5. Verfahren nach Anspruch 4, wobei die zugrundeliegenden Verarbeitungsblöcke eine Hochpass- und Tiefpassfilterung, gefolgt von Abtasten durchführen.
  6. Verfahren nach Anspruch 1, wobei die Baumstruktur mehrere Blattknoten bildet, wovon jeder Zerlegungskoeffizienten bereitstellt.
  7. Verfahren nach Anspruch 1, wobei die Baumstruktur mehrere Blattknoten bildet, die ausgewählt werden, um die Unterscheidung einer vorbestimmten Geräuschklasse zu maximieren.
  8. Verfahren nach Anspruch 1, darüber hinaus umfassend, die Zerlegungskoeffizienten über ein Zeitfenster zu integrieren.
  9. Verfahren nach Anspruch 1, darüber hinaus umfassend, eine nicht lineare Operation an den Zerlegungskoeffizienten vorzunehmen.
  10. Verfahren nach Anspruch 9, wobei die nicht lineare Operation umfasst, die Zerlegungskoeffizienten zu verarbeiten.
  11. Verfahren nach Anspruch 10, darüber hinaus umfassend, die durchschnittliche Größe für jeden der mehreren Knoten zu berechnen.
  12. Verfahren nach Anspruch 10, darüber hinaus den Schritt umfassend, eine diskrete Kosinustransformation an ausgewählten dieser Knoten durchzuführen, um dadurch Kepstrum-Koeffizienten zu extrahieren.
  13. Verfahren nach Anspruch 12, wobei der Energie symbolisierende Wert eine komprimierte Energie ist.
  14. Verfahren zur automatischen Spracherkennung nach Anspruch 1, den Schritt umfassend, eine erste Vielzahl von Zerlegungskoeffizienten zu generieren, die eine erste Geräuschklasse darstellen sollen, und eine zweite Vielzahl von Zerlegungskoeffizienten zu generieren, die eine zweite Geräuschklasse darstellen sollen, und die erste und zweite Vielzahl von Zerlegungskoeffizienten zu verwenden, um erste und zweite Sätze spezialisierter Modelle zur Verwendung bei der Spracherkennung zu generieren.
  15. Verfahren nach Anspruch 14, wobei die ersten und zweiten Modellsätze in einer Mehrschrittkonfiguration eingesetzt werden, wobei die ersten Modellsätze zuerst verwendet werden und die Erkennungsergebnisse danach unter Verwendung der zweiten Modellsätze verarbeitet werden.
  16. Verfahren nach Anspruch 14, wobei die ersten und zweiten Modellsätze gleichzeitig eingesetzt werden, um Erkennungs ergebnisse zu liefern, die sowohl der ersten als auch der zweiten Geräuschklasse entsprechen.
  17. Verfahren nach Anspruch 14, wobei die erste Geräuschklasse einem ersten Unterscheidungsgrad zwischen weitgefassten Geräuschklassen entspricht, und wobei die zweite Geräuschklasse einem zweiten Unterscheidungsgrad zwischen enggefassten Geräuschklassen entspricht.
DE60018886T 1999-11-24 2000-11-22 Adaptive Wavelet-Extraktion für die Spracherkennung Expired - Lifetime DE60018886T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US449053 1995-05-24
US09/449,053 US6513004B1 (en) 1999-11-24 1999-11-24 Optimized local feature extraction for automatic speech recognition

Publications (2)

Publication Number Publication Date
DE60018886D1 DE60018886D1 (de) 2005-04-28
DE60018886T2 true DE60018886T2 (de) 2006-02-09

Family

ID=23782687

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60018886T Expired - Lifetime DE60018886T2 (de) 1999-11-24 2000-11-22 Adaptive Wavelet-Extraktion für die Spracherkennung

Country Status (7)

Country Link
US (1) US6513004B1 (de)
EP (1) EP1103951B1 (de)
JP (1) JP3654831B2 (de)
CN (1) CN1152367C (de)
DE (1) DE60018886T2 (de)
ES (1) ES2240019T3 (de)
TW (1) TW546630B (de)

Families Citing this family (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7076315B1 (en) 2000-03-24 2006-07-11 Audience, Inc. Efficient computation of log-frequency-scale digital filter cascade
US7337114B2 (en) * 2001-03-29 2008-02-26 International Business Machines Corporation Speech recognition using discriminant features
US6678656B2 (en) * 2002-01-30 2004-01-13 Motorola, Inc. Noise reduced speech recognition parameters
US20050228518A1 (en) * 2002-02-13 2005-10-13 Applied Neurosystems Corporation Filter set for frequency analysis
KR100436305B1 (ko) * 2002-03-22 2004-06-23 전명근 웨이블렛변환을 이용한 외부노이즈에 강인한 화자식별
ITTO20020306A1 (it) * 2002-04-09 2003-10-09 Loquendo Spa Metodo per l'estrazione di caratteristiche di un segnale vocale e relativo sistema di riconoscimento vocale.
US7940844B2 (en) 2002-06-18 2011-05-10 Qualcomm Incorporated Video encoding and decoding techniques
TW564375B (en) * 2002-09-17 2003-12-01 Ind Tech Res Inst Amplitude phase shift information embedding and detecting method based on phase features
US20040117181A1 (en) * 2002-09-24 2004-06-17 Keiko Morii Method of speaker normalization for speech recognition using frequency conversion and speech recognition apparatus applying the preceding method
US7343284B1 (en) 2003-07-17 2008-03-11 Nortel Networks Limited Method and system for speech processing for enhancement and detection
JP4649859B2 (ja) * 2004-03-25 2011-03-16 ソニー株式会社 信号処理装置および方法、記録媒体、並びにプログラム
GB0426347D0 (en) * 2004-12-01 2005-01-05 Ibm Methods, apparatus and computer programs for automatic speech recognition
US7729908B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Joint signal and model based noise matching noise robustness method for automatic speech recognition
US7729909B2 (en) * 2005-03-04 2010-06-01 Panasonic Corporation Block-diagonal covariance joint subspace tying and model compensation for noise robust automatic speech recognition
US9042461B2 (en) 2005-03-10 2015-05-26 Qualcomm Incorporated Efficient employment of digital upsampling using IFFT in OFDM systems for simpler analog filtering
JP4760179B2 (ja) * 2005-07-15 2011-08-31 ヤマハ株式会社 音声特徴量算出装置およびプログラム
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US8744844B2 (en) 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US9185487B2 (en) 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
KR100655953B1 (ko) 2006-02-06 2006-12-11 한양대학교 산학협력단 웨이블릿 패킷 변환을 이용한 음성 처리 시스템 및 그 방법
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8934641B2 (en) * 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8150065B2 (en) * 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
KR100798056B1 (ko) 2006-10-24 2008-01-28 한양대학교 산학협력단 높은 비정적인 잡음 환경에서의 음질 개선을 위한 음성처리 방법
KR100789084B1 (ko) 2006-11-21 2007-12-26 한양대학교 산학협력단 웨이블릿 패킷 영역에서 비선형 구조의 과중 이득에 의한음질 개선 방법
KR20080053739A (ko) * 2006-12-11 2008-06-16 삼성전자주식회사 적응적으로 윈도우 크기를 적용하는 부호화 장치 및 방법
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8631060B2 (en) * 2007-12-13 2014-01-14 Qualcomm Incorporated Fast algorithms for computation of 5-point DCT-II, DCT-IV, and DST-IV, and architectures
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
WO2010088461A1 (en) * 2009-01-29 2010-08-05 Thales-Raytheon Systems Company Llc Method and system for data stream identification by evaluation of the most efficient path through a transformation tree
US8359195B2 (en) * 2009-03-26 2013-01-22 LI Creative Technologies, Inc. Method and apparatus for processing audio and speech signals
CN101996628A (zh) * 2009-08-21 2011-03-30 索尼株式会社 提取语音信号的韵律特征的方法和装置
WO2011037587A1 (en) * 2009-09-28 2011-03-31 Nuance Communications, Inc. Downsampling schemes in a hierarchical neural network structure for phoneme recognition
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8423516B2 (en) 2010-09-15 2013-04-16 International Business Machines Corporation Speculative execution in a real-time data environment
GB201203717D0 (en) 2012-03-02 2012-04-18 Speir Hunter Ltd Fault detection for pipelines
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
US9799330B2 (en) 2014-08-28 2017-10-24 Knowles Electronics, Llc Multi-sourced noise suppression
CN108535636A (zh) * 2018-05-16 2018-09-14 武汉大学 一种模拟电路基于参数随机分布邻近嵌入胜者为王的故障特征提取方法
CN110174281B (zh) * 2019-06-05 2021-08-13 北京博识创智科技发展有限公司 一种机电设备故障诊断方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4805219A (en) * 1987-04-03 1989-02-14 Dragon Systems, Inc. Method for speech recognition
US5321776A (en) * 1992-02-26 1994-06-14 General Electric Company Data compression system including successive approximation quantizer
US5715367A (en) * 1995-01-23 1998-02-03 Dragon Systems, Inc. Apparatuses and methods for developing and using models for speech recognition
KR100455490B1 (ko) * 1995-10-18 2005-01-13 코닌클리케 필립스 일렉트로닉스 엔.브이. 이미지코딩방법,이미지코딩시스템,디코딩방법,디코딩시스템
US5926791A (en) * 1995-10-26 1999-07-20 Sony Corporation Recursively splitting the low-frequency band with successively fewer filter taps in methods and apparatuses for sub-band encoding, decoding, and encoding and decoding
US5852806A (en) * 1996-03-19 1998-12-22 Lucent Technologies Inc. Switched filterbank for use in audio signal coding
US6026359A (en) 1996-09-20 2000-02-15 Nippon Telegraph And Telephone Corporation Scheme for model adaptation in pattern recognition based on Taylor expansion
US6058205A (en) * 1997-01-09 2000-05-02 International Business Machines Corporation System and method for partitioning the feature space of a classifier in a pattern classification system
JPH11191153A (ja) * 1997-12-26 1999-07-13 Ricoh Co Ltd ウェーブレット変換係数の符号化方法

Also Published As

Publication number Publication date
EP1103951A3 (de) 2001-09-26
US6513004B1 (en) 2003-01-28
EP1103951B1 (de) 2005-03-23
ES2240019T3 (es) 2005-10-16
EP1103951A2 (de) 2001-05-30
TW546630B (en) 2003-08-11
CN1152367C (zh) 2004-06-02
DE60018886D1 (de) 2005-04-28
JP3654831B2 (ja) 2005-06-02
JP2001184083A (ja) 2001-07-06
CN1299127A (zh) 2001-06-13

Similar Documents

Publication Publication Date Title
DE60018886T2 (de) Adaptive Wavelet-Extraktion für die Spracherkennung
EP1405222B9 (de) Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals
EP1741039B1 (de) Informationssignalverarbeitung durch modifikation in der spektral-/modulationsspektralbereichsdarstellung
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE60303214T2 (de) Verfahren zur reduzierung von aliasing-störungen, die durch die anpassung der spektralen hüllkurve in realwertfilterbanken verursacht werden
EP1606798B1 (de) Vorrichtung und verfahren zum analysieren eines audio-informationssignals
DE60100637T2 (de) Verfahren zur Rauschadaptierung mittels transformierter Matrizen in der automatischen Spracherkennung
WO2002017303A1 (de) Verfahren und vorrichtung zur künstlichen erweiterung der bandbreite von sprachsignalen
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
DE4031638C2 (de)
WO2002073592A2 (de) Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals
EP1609084B1 (de) Vorrichtung und verfahren zum umsetzen in eine transformierte darstellung oder zum inversen umsetzen der transformierten darstellung
EP1525576B1 (de) Vorrichtung und verfahren zum erzeugen einer komplexen spektraldarstellung eines zeitdiskreten signals
EP0925461A2 (de) Verfahren zur mehrsprachenverwendung eines hidden markov lautmodelles in einem spracherkennungssystem
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE602004002312T2 (de) Verfahren und Vorrichtung zur Bestimmung von Formanten unter Benutzung eines Restsignalmodells
DE60225013T2 (de) Verfahren und schaltung zur echtzeit-frequenzanalyse eines nichtstationären signals
DE60126811T2 (de) Kodierung von audiosignalen
EP1014340A2 (de) Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale
DE19581667C2 (de) Spracherkennungssystem und Verfahren zur Spracherkennung
EP1755110A2 (de) Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System
DE60224100T2 (de) Erzeugung von lsf-vektoren
DE202022100306U1 (de) Ein System zur Klassifizierung von Melodien mittels Swaragrammdarstellung
EP1062659B1 (de) Verfahren und vorrichtung zur bearbeitung eines tonsignals

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: PANASONIC CORP., KADOMA, OSAKA, JP

8320 Willingness to grant licences declared (paragraph 23)