DE112010003461B4

DE112010003461B4 - Vorrichtung zur Extraktion von Sprachmerkmalen, Verfahren zur Extraktion von Sprachmerkmalen und Programm zur Extraktion von Sprachmerkmalen

Info

Publication number: DE112010003461B4
Application number: DE112010003461.3T
Authority: DE
Inventors: Osamu Ichikawa; Takashi Fukuda; Masafumi Nishimura
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2009-08-28
Filing date: 2010-07-12
Publication date: 2019-09-05
Anticipated expiration: 2030-07-13
Also published as: GB2485926B; GB201202741D0; JP2013178575A; JP5315414B2; WO2011024572A1; KR101332143B1; KR20120046298A; GB2485926A; CN102483916A; DE112010003461T5; TW201123169A; US8930185B2; JPWO2011024572A1; US20120185243A1; JP5723923B2; US8468016B2; CN102483916B; US20120330657A1

Abstract

Vorrichtung zur Extraktion von Sprachmerkmalen, wobei die Vorrichtung Folgendes umfasst:
eine erste Differenzberechnungseinheit (600, 700, 800) zum Empfangen eines Spektrums für jede einer Mehrzahl von Frequenzgruppen eines Sprachsignals, wobei das Sprachsignal für jede Frequenzgruppe in Rahmen segmentiert ist, und zum Berechnen, für jeden Rahmen jeder Frequenzgruppe, einer Differenz des Spektrums zwischen fortlaufenden Rahmen für die Frequenzgruppe als ein Delta-Spektrum; und
eine erste Normierungseinheit (605, 710, 810) zum Ausführen einer Normierung des Delta-Spektrums für jeden Rahmen jeder Frequenzgruppe durch Dividieren des Delta-Spektrums durch eine Funktion des mittleren Spektrums, welches durch einen Mittelwert von Spektren über alle Sprache darstellenden Rahmen gegeben ist.

Description

Technisches Gebiet
Die vorliegende Erfindung bezieht sich auf Techniken zum Extrahieren von Merkmalen aus Sprachsignalen und bezieht sich insbesondere auf eine Technik zum Extrahieren von Delta- und Delta-Delta-Merkmalen, die gegen Mehrfachreflexion, Störsignale und dergleichen robust sind.
Technischer Hintergrund
Die Robustheit gegen Störsignale und die Robustheit gegen Mehrfachreflexion von Spracherkennungsvorrichtungen sind ständig verbessert worden. Die Erkennungsgenauigkeit bei harten Bedingungen ist jedoch noch nicht ausreichend verbessert worden. In Bezug auf die Robustheit gegen Störsignale ist es bekannt, dass die Erkennungsrate z.B. unter Bedingungen, bei denen das Verhältnis von Stör- zu Nutzsignal äußerst gering ist, wie etwa dann, wenn ein Fahrzeug mit hoher Geschwindigkeit fährt, während das Fenster geöffnet ist, und bei unstetigen Störsignalbedingungen wie etwa bei Musik und lärmender Geschäftigkeit, äußerst gering ist. Darüber hinaus ist in Bezug auf die Robustheit gegen Mehrfachreflexion bekannt, dass die Erkennungsrate an Orten, an denen eine starke Klangreflexion und Mehrfachreflexion auftreten, wie etwa ein Betonkorridor und eine Aufzugshalle, sogar bei schwachen Störsignalen äußerst gering ist.
Verschiedene Lösungen für diese Probleme, die bisher geprüft wurden, können in die folgenden vier Typen klassifiziert werden: (1) ein eingangsseitiges Verfahren zum Entfernen von Mehrfachreflexion, Störsignalen und dergleichen durch Vorverarbeiten gemessener Signale (siehe z.B. Patent-Literaturangaben 1 und 2), (2) ein Mehrfachtyp-Trainingsverfahren, bei dem ein akustisches Modell unter Verwendung von Klängen, die Mehrfachreflexion, Störsignale und dergleichen enthalten, erlernt wird (siehe z.B. Patent-Literaturangabe 3), (3) ein Adaptionsverfahren zum Transformieren von Merkmalen oder eines akustischen Modells, so dass gemessene Klänge mit dem akustischen Modell übereinstimmen, (siehe z.B. Patent-Literaturangabe 4) und (4) ein Verfahren zum Extrahieren von Merkmalen, bei dem Merkmale, die gegen Mehrfachreflexion, Störsignale und dergleichen robust sind, verwendet werden (z.B. Nicht-Patent-Literaturangabe 1).
Jedes der oben erwähnten Verfahren kann mit einem anderen Verfahren kombiniert werden. Es kann z.B. eine Kombination betrachtet werden, bei der die Verfahren (2), (3) und (4) kombiniert werden, LDA zur Extraktion von Merkmalen verwendet wird, ein akustisches Modell durch Mehrfachtyp-Training erzeugt wird und anschließend eine Adaption durch MLLR ausgeführt wird. Es ist daher wichtig, nicht nur eines der oben erwähnten Verfahren, sondern jedes der Verfahren (1) bis (4) zu verbessern.
Die US 2009 / 0 177 423 A1 offenbart ein Verfahren zur Signalerkennung, gemäß dem ein empfangenes Eingangssignal in eine Rahmeneinheit unterteilt wird und jedes in einem ersten Rahmen sowie einem zweiten Rahmen vorhandene Eingangssignal in ein Frequenzsignal transformiert wird. Dann werden erste Leistungsspektrum-Informationen und zweite Leistungsspektrum-Informationen unter Verwendung des transformierten Frequenzsignals berechnet und es wird ein Delta-Spektrum-Entropiewert erhalten, der einer Differenz der zwei berechneten Leistungsspektrum-Informationen entspricht, nach einer Beurteilung durch Vergleich des Delta-Spektrum-Entropiewerts mit einem kritischen Wert wird ein vorbestimmtes Eingangssignal in einen vorbestimmten Rahmen des Eingangssignals aufgenommen. In einer verrauschten Umgebung, die ein Rauschsignal umfasst, kann das gewünschte Signal unter Verwendung des Delta-Spektrum-Entropiewerts erkannt werden.
Die DE 602 04 827 T2 offenbart ein Sprachverarbeitungsverfahren zum Entscheiden, ob ein Abschnitt von Eingabesprache betont ist oder nicht, basierend auf einem Satz von Sprachparametern für jeden Rahmen, mit den Schritten: (a) Erhalten einer Betontzustands-Auftretenswahrscheinlichkeit für einen Sprachparameter durch Verwendung eines Codebuches, welches für jeden Code einen Sprachparameter und eine Betontzustands-Auftretenswahrscheinlichkeit speichert; (b) Berechnen einer Betontzustands-Likelihood basierend auf der Betontzustands-Auftretenswahrscheinlichkeit; und (c) Entscheiden, ob ein Abschnitt, der einen gegenwärtigen Rahmen enthält, betont ist oder nicht, basierend auf der berechneten Betontzustands-Likelihood; dadurch gekennzeichnet, dass das Codebuch für jeden Code einen Sprachparametervektor und eine Normalzustands-Auftretenswahrscheinlichkeit zusammen mit der Betontzustands-Auftretenswahrscheinlichkeit speichert, wobei jeder Sprachparametervektor zusammengesetzt ist aus einer Mehrzahl von Sprachparametern, darunter wenigstens einer aus einer Grundfrequenz, einer Leistung und zeitlicher Änderung eines Dynamikmaßes und/oder eine Rahmen-Rahmen-Differenz in wenigstens einem dieser Sprachparameter; der Schritt (a) eine Betontzustands-Auftretenswahrscheinlichkeit für einen Sprachparametervektor, der ein quantisierter Satz von Sprachparametern für den gegenwärtigen Rahmen ist, durch Verwendung des Codebuches gewinnt; der Schritt (b) eine Betontzustands-Likelihood und eine Normalzustands-Likelihood basierend auf der Betontzustands-Auftretenswahrscheinlichkeit bzw. der Normalzustands-Auftretenswahrscheinlichkeit berechnet; und der Schritt (c) basierend auf der berechneten Betontzustands-Likelihood und Normalzustands-Likelihood entscheidet, ob ein Abschnitt, der den gegenwärtigen Rahmen enthält, betont ist oder nicht.
Zitatliste
Patent-Literaturangabe

PTL 1 Veröffentlichung der japanischen ungeprüften Patentanmeldung Nr. JP 2009 - 58 708 A
PTL 2 Veröffentlichung der japanischen ungeprüften Patentanmeldung Nr. JP 2004 - 347 956 A
PTL 3 Veröffentlichung der japanischen ungeprüften Patentanmeldung Nr. JP 2007 - 72 481 A
PTL 4 Veröffentlichung der japanischen ungeprüften Patentanmeldung Nr. JP 2007 - 279 444 A

Nicht-Patent-Literaturangabe
NPL 1 Takashi Fukuda, Osamu Ichikawa, Masafumi Nishimura, „Short- and Long-term Dynamic Features for Robust Speech Recognition", Proc of 10th International Conference on Spoken Language Processing (ICSLP 2008 /Interspeech 2008), S. 2262 bis 2265, September 2008, Brisbane, Australien.
Zusammenfassung der Erfindung
Technisches Problem
In Bezug auf die Extraktion von Merkmalen in (4) sind jedoch Merkmale, die äußerst robust gegen Störsignale, Mehrfachreflexion und dergleichen sind, noch nicht gefunden worden. Insbesondere Merkmale, die eine ausgezeichnete Robustheit gegen Mehrfachreflexion aufweisen, sind selten bekannt. Daher werden gegenwärtig bei vielen Typen der Spracherkennung eine Kombination aus einem Mel-Frequenz-Cepstrum-Koeffizient (MFCC) und dem Delta-Wert (Variation erster Ordnung) und dem Delta-Delta-Wert (Variation zweiter Ordnung) des MFCC oder die Ergebnisse einer linearen Transformation dieser Werte verwendet.
Die Technik in der Nicht-Patent-Literaturangabe 1 der Anmelderin hat eine Verbesserung bei der Genauigkeit der Spracherkennung ermöglicht, indem als ein Merkmal der Delta-Wert eines MFCC bei einer großen Fensterbreite, die eine mittlere Phonemdauer übersteigt, verwendet wird. In Störsignal- und Mehrfachreflexions-Umgebungen unter harten Bedingungen ist jedoch eine weitere Verbesserung der Leistungsfähigkeit erforderlich.
Im Hinblick auf die oben erwähnten Probleme ist es eine Aufgabe der vorliegenden Erfindung, eine Technik zu schaffen, um aus Sprachsignalen Merkmale zu extrahieren, die robuster gegen Störsignale, Mehrfachreflexion und dergleichen sind, um die Genauigkeit der Spracherkennung zu verbessern.
Lösung für das Problem
Die Erfinder haben Forschungen ausgeführt, um Merkmale zu finden, die robuster gegen Störsignale, Mehrfachreflexion und dergleichen sind, und haben in einer nicht offensichtlichen Weise herausgefunden, dass viele Delta-Merkmale, die den Delta-Wert eines MFCC einschließen und bisher verwendet wurden, als Differenzen im logarithmischen Bereich betrachtet werden könnten, wobei Differenzen im logarithmischen Bereich unerwünschte Ergebnisse bei der Spracherkennung in Mehrfachreflexions- und Umgebungen mit Störgeräuschen brachten. Deswegen haben die Erfinder weitere Forschungen ausgeführt und sind als ein Ergebnis auf die Idee gestoßen, eine Differenz im linearen Bereich zu verwenden und durch Ausführen einer Normierung, bei der der Mittelwert der Spektren über alle Sprache darstellenden Rahmen verwendet wird, Probleme zu lösen, die durch die Verwendung einer Differenz im linearen Bereich neu bewirkt wurden. Zu den Problemen gehört z.B. das Problem, dass eine Differenz im linearen Bereich infolge eines großen Dynamikbereichs für ein Modellieren ungeeignet ist, und das Problem, dass es nicht möglich ist, Übertragungscharakteristiken zu korrigieren.
Um die oben genannten Probleme zu lösen, wird in einem ersten Aspekt der vorliegenden Erfindung eine Vorrichtung zur Extraktion von Sprachmerkmalen geschaffen, die erste Differenzberechnungsmittel zum Empfangen eines Spektrums eines Sprachsignals, das für jede Frequenzgruppe (Frequenz-Bin) in Rahmen segmentiert ist, als eine Eingabe und zum Berechnen einer Differenz des Spektrums zwischen fortlaufenden Rahmen für die Frequenzgruppe als ein Delta-Spektrum für jeden Rahmen, und erste Normierungsmittel zum Ausführen einer Normierung des Delta-Spektrums für die Frequenzgruppe für den Rahmen, indem das Delta-Spektrum durch eine Funktion eines mittleren Spektrums, d.h. ein Mittelwert von Spektren über alle Sprache darstellenden Rahmen für die Frequenzgruppe, dividiert wird, enthält.
In diesem Fall kann die Funktion des mittleren Spektrums das mittlere Spektrum sein.
Die oben erwähnte Vorrichtung zur Extraktion von Sprachmerkmalen enthält des Weiteren vorzugsweise erste Mel-Filterbank-Verarbeitungsmittel zum Berechnen einer Gesamtmenge von entsprechenden Produkten aus dem normierten Delta-Spektrum für die einzelnen Frequenzgruppen und entsprechenden Gewichtungen einer Mel-Filterbank als ein normiertes Mel-Delta-Spektrum für jede Filterbank für den Rahmen, wobei eine Ausgabe der ersten Mel-Filterbank-Verarbeitungsmittel als ein Delta-Merkmal definiert ist.
Es ist stärker bevorzugt, dass die oben erwähnte Vorrichtung zur Extraktion von Sprachmerkmalen des Weiteren erste Mittel zur diskreten Cosinus-Transformation enthält zum Ausführen einer diskreten Cosinus-Transformation an dem normierten Mel-Delta-Spektrum für die Filterbank, wobei eine Ausgabe der ersten Mittel zur diskreten Cosinus-Transformation als ein Delta-Merkmal definiert ist.
Die ersten Normierungsmittel führen vorzugsweise die Normierung durch Ausführen einer logarithmischen Komprimierung zusätzlich zu der Division aus.
Wenn die Robustheit gegen Breitband-Störgeräusche verbessert werden muss, verwenden die ersten Mel-Filterbank-Verarbeitungsmittel vorzugsweise anstelle der Gewichtungen der Mel-Filterbank ein Produkt aus einem Filter und jeder der Gewichtungen der Mel-Filterbank, wobei das Filter in einem Sprachintervall eine Gewichtung in einem harmonischen Strukturabschnitt aufweist und in einem sprachlosen Intervall ohne harmonische Struktur im Wesentlichen eben ist.
Die oben erwähnte Vorrichtung zur Extraktion von Sprachmerkmalen enthält des Weiteren vorzugsweise ein Berechnungsmittel eines Mel-Frequenz-Cepstrum-Koeffizienten (MFCC) zum Berechnen eines MFCC, wobei der MFCC als ein statisches Merkmal definiert ist.
Eine Operation durch die ersten Mel-Filterbank-Verarbeitungsmittel kann vor einer Operation durch die ersten Normierungsmittel ausgeführt werden. In diesem Fall führen die ersten Normierungsmittel für den Rahmen eine Normierung des Mel-Delta-Spektrums für die Filterbank aus, indem das Mel-Delta-Spektrum durch eine Funktion eines mittleren Mel-Spektrums, d.h. ein Mittelwert der Mel-Spektren über alle Sprache darstellenden Rahmen für die Filterbank darstellen, dividiert wird, wobei in der Vorrichtung zur Extraktion von Sprachmerkmalen eine Ausgabe der ersten Normierungsmittel als ein Delta-Merkmal definiert sein kann.
Die Funktion des mittleren Mel-Spektrums ist vorzugsweise das mittlere Mel-Spektrum. Alternativ kann für einen gegebenen Rahmen t und eine gegebene Filterbank j die Funktion des mittleren Mel-Spektrums einen größeren Wert oder einen Wert nahe an einem größeren Wert aus einem Mel-Spektrum für die Filterbank j für den Rahmen t und das mittlere Mel-Spektrum für die Filterbank j ausgeben.
Die oben erwähnte Vorrichtung zur Extraktion von Sprachmerkmalen, bei der eine Ausgabe der ersten Normierungsmittel als ein Delta-Merkmal definiert ist, enthält vorzugsweise des Weiteren zweite Differenzberechnungsmittel zum Empfangen des Delta-Spektrums als eine Eingabe und zum Berechnen einer Differenz des Delta-Spektrums zwischen fortlaufenden Rahmen für die Frequenzgruppe als ein Delta-Delta-Spektrum für den Rahmen, zweite Mel-Filterbank-Verarbeitungsmittel zum Berechnen einer Gesamtmenge von entsprechenden Produkten aus den Delta-Delta-Spektren für die einzelnen Frequenzgruppen und entsprechenden Gewichtungen einer Mel-Filterbank für den Rahmen als ein Delta-Delta-Spektrum für jede Filterbank, und zweite Normierungsmittel zum Ausführen einer Normierung des Mel-Delta-Delta-Spektrums für die Filterbank für den Rahmen durch Dividieren des Mel-Delta-Delta-Spektrums durch die Funktion des mittleren Mel-Spektrums, wobei eine Ausgabe der zweiten Normierungsmittel als ein Delta-Delta-Merkmal definiert ist.
Die oben erwähnte Vorrichtung zur Extraktion von Sprachmerkmalen enthält vorzugsweise des Weiteren ein erstes Mittel zur diskreten Cosinus-Transformation zum Ausführen einer diskreten Cosinus-Transformation an dem normierten Mel-Delta-Spektrum für die Filterbank, wobei eine Ausgabe des ersten Mittels zur diskreten Cosinus-Transformation als ein Delta-Merkmal definiert ist.
Es ist stärker bevorzugt, dass die oben erwähnte Vorrichtung zur Extraktion von Sprachmerkmalen, bei der eine Ausgabe der ersten Mittel zur diskreten Cosinus-Transformation als ein Delta-Merkmal definiert ist, des Weiteren zweite Differenzberechnungsmittel zum Empfangen des Delta-Spektrums als eine Eingabe und zum Berechnen einer Differenz des Delta-Spektrums zwischen fortlaufenden Rahmen für die Frequenzgruppe als ein Delta-Delta-Spektrum für den Rahmen, zweite Mel-Filterbank-Verarbeitungsmittel zum Berechnen einer Gesamtmenge von entsprechenden Produkten aus den Delta-Delta-Spektren für die einzelnen Frequenzgruppen und entsprechenden Gewichtungen einer Mel-Filterbank für den Rahmen als ein Mel-Delta-Delta-Spektrum für jede Filterbank, zweite Normierungsmittel zum Ausführen einer Normierung des Mel-Delta-Delta-Spektrums für die Filterbank durch Dividieren des Mel-Delta-Delta-Spektrums durch die Funktion des mittleren Mel-Spektrums für den Rahmen, und zweite Mittel zur diskreten Cosinus-Transformation zum Ausführen einer diskreten Cosinus-Transformation an dem normierten Mel-Delta-Delta-Spektrum für die Filterbank enthält, wobei eine Ausgabe der zweiten Mittels zur diskreten Cosinus-Transformation als ein Delta-Delta-Merkmal definiert ist.
Um die oben erwähnten Probleme zu lösen, wird in einem zweiten Aspekt der vorliegenden Erfindung eine Vorrichtung zur Extraktion von Sprachmerkmalen bereitgestellt, die Folgendes enthält: Mel-Filterbank-Verarbeitungsmittel zum Empfangen in jedem Rahmen einer Summe aus einem Spektrum eines Sprachsignals, das in Rahmen segmentiert ist, und ein mittleres Spektrum, d.h. ein Mittelwert von Spektren über alle Sprache darstellenden Rahmen, zum Berechnen für den Rahmen eines Produkts aus der Summe, multipliziert mit einer Gewichtung einer Mel-Filterbank, und zum Summieren der Produkte, Logarithmus-Berechnungsmittel zum Berechnen eines Logarithmus einer Ausgabe der Mel-Filterbank-Verarbeitungsmittel für den Rahmen, Mittel zur diskreten Cosinus-Transformation zum Ausführen einer diskreten Cosinus-Transformation an einer Ausgabe der Logarithmus-Berechnungsmittel für den Rahmen, und erste Differenzberechnungsmittel zum Berechnen einer Differenz aus einer Ausgabe der Mittel zur diskreten Cosinus-Transformation zwischen fortlaufenden Rahmen für den Rahmen. Eine Ausgabe der ersten Differenzberechnungsmittel ist als ein Delta-Merkmal definiert.
Um die oben erwähnten Probleme zu lösen, wird in einem dritten Aspekt der vorliegenden Erfindung eine Vorrichtung zur Extraktion von Sprachmerkmalen bereitgestellt, die Folgendes enthält: Mel-Filterbank-Verarbeitungsmittel zum Empfangen eines Spektrums eines Sprachsignals, das in jedem Rahmen in Rahmen segmentiert ist, als eine Eingabe und zum Berechnen eines Mel-Spektrums für den Rahmen durch Multiplizieren des Spektrums mit einer Gewichtung einer Mel-Filterbank und zum Summieren der Produkte, Mittelwert-Berechnungsmittel zum Empfangen des Mel-Spektrums für den Rahmen als eine Eingabe und zum Berechnen eines mittleren Mel-Spektrums, d.h. eines Mittelwerts der Mel-Spektren über alle Sprache darstellenden Rahmen, Logarithmus-Berechnungsmittel zum Berechnen eines Logarithmus einer Summe aus dem Mel-Spektrum und dem mittleren Mel-Spektrum für den Rahmen, Mittel zur diskreten Cosinus-Transformation zum Ausführen einer diskreten Cosinus-Transformation an einer Ausgabe der Logarithmus-Berechnungsmittel für den Rahmen, und erste Differenzberechnungsmittel zum Berechnen einer Differenz aus einer Ausgabe der Mittel zur diskreten Cosinus-Transformation zwischen fortlaufenden Rahmen für den Rahmen. Eine Ausgabe der ersten Differenzberechnungsmittel ist als ein Delta-Merkmal definiert.
In dem zweiten und dritten Aspekt der vorliegenden Erfindung enthält die oben erwähnte Vorrichtung zur Extraktion von Sprachmerkmalen vorzugsweise des Weiteren zweite Differenzberechnungsmittel zum Berechnen einer Differenz aus einer Ausgabe der ersten Differenzberechnungsmittel zwischen fortlaufenden Rahmen für den Rahmen, wobei eine Ausgabe der zweiten Differenzberechnungsmittel als ein Delta-Delta-Merkmal definiert ist.
Zwar wurde die vorliegende Erfindung als eine Vorrichtung zur Extraktion von Sprachmerkmalen beschrieben, die vorliegende Erfindung kann aber auch als ein Verfahren zur Extraktion eines oben beschriebenen Sprachmerkmals bei einer Berechnung durch einen Computer, der einen Prozessor und einen Speicherbereich enthält, und als ein Programm zur Extraktion von Sprachmerkmalen zum Extrahieren eines oben beschriebenen Sprachmerkmals betrachtet werden, wobei das Programm zur Extraktion von Sprachmerkmalen in einem Computer ausgeführt wird, der einen Prozessor und einen Speicherbereich enthält. Die vorliegende Erfindung kann mit einer Technik zum Entfernen von Mehrfachreflexion, Störsignalen und dergleichen, z.B. mit einem eingangsseitigen Verfahren, das oben beschrieben wurde, kombiniert werden.
Die der Erfindung zugrunde liegenden Aufgaben werden jeweils mit den Merkmalen der unabhängigen Patentansprüche gelöst. Ausführungsformen der Erfindung sind Gegenstand der abhängigen Patentansprüche.
Vorteilhafte Wirkungen der Erfindung
Gemäß der vorliegenden Erfindung kann anstelle einer bekannten Differenz im logarithmischen Bereich eine Differenz im linearen Bereich als das Delta-Merkmal und das Delta-Delta-Merkmal von Sprache verwendet werden. Somit kann ein Merkmal, das robuster gegen Mehrfachreflexion und Störsignale ist, extrahiert werden. Als ein Ergebnis wird die Genauigkeit von Spracherkennung verbessert. Weitere vorteilhafte Wirkungen der vorliegenden Erfindung werden aus der Beschreibung von Ausführungsformen anerkannt.
Figurenliste

1(a) ist ein Diagramm im logarithmischen Maßstab, das die Dämpfung von Sprachleistung, die in einem Raum mit Mehrfachreflexion aufgezeichnet wurde, zeigt. 1(b) ist ein Diagramm im linearen Maßstab, das die Dämpfung der gleichen Sprachleistung wie in 1(a) zeigt.
2 zeigt beispielhafte Sprachspektren, die in einer Umgebung mit Mehrfachreflexion aufgezeichnet wurden.
3 ist ein Blockschaltbild, das eine beispielhafte Hardware-Konfiguration eines Computers zeigt, der zum Ausführen einer Vorrichtung zur Extraktion von Sprachmerkmalen gemäß einer Ausführungsform der vorliegenden Erfindung geeignet ist.
4 zeigt ein Beispiel der Konfiguration einer allgemeinen Spracherkennungsvorrichtung.
5 zeigt beispielhafte funktionale Komponenten einer Einheit zur Berechnung statischer Merkmale.
6(a) zeigt die funktionalen Komponenten einer Delta-Merkmal-Berechnungseinheit in einer Vorrichtung zur Extraktion von Sprachmerkmalen gemäß einer ersten Ausführungsform der vorliegenden Erfindung. 6(b) zeigt die funktionalen Komponenten einer Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der ersten Ausführungsform der vorliegenden Erfindung.
7(a) zeigt die funktionalen Komponenten einer Delta-Merkmal-Berechnungseinheit in einer Vorrichtung zur Extraktion von Sprachmerkmalen gemäß einer zweiten Ausführungsform der vorliegenden Erfindung. 7(b) zeigt die funktionalen Komponenten einer Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der zweiten Ausführungsform der vorliegenden Erfindung.
8(a) zeigt die funktionalen Komponenten einer Delta-Merkmal-Berechnungseinheit in einer Vorrichtung zur Extraktion von Sprachmerkmalen gemäß einer dritten Ausführungsform der vorliegenden Erfindung. 8(b) zeigt die funktionalen Komponenten einer Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform der vorliegenden Erfindung.
9(a) ist ein Ablaufplan, der ein Beispiel des Ablaufs des Prozesses zum Extrahieren von Delta-Merkmalen in der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform der vorliegenden Erfindung zeigt. 9(b) ist ein Ablaufplan, der ein Beispiel des Ablaufs des Prozesses zum Extrahieren von Delta-Delta-Merkmalen in der Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform der vorliegenden Erfindung zeigt.
10(a) ist ein Diagramm, das eine beispielhafte Mel-FB-Gewichtung zeigt. 10(b) ist ein Diagramm, das eine beispielhafte Lokal-Spitzenwert-Gewichtung (Local Peak Weight, LPW) zeigt. 10(c) ist ein Diagramm, das eine beispielhafte LPW-Mel-FB-Gewichtung zeigt.
11 ist ein Ablaufplan, der ein Beispiel des Ablaufs des Prozesses zum Erzeugen einer Lokal-Spitzenwert-Gewichtung zeigt.
12(a) zeigt die funktionalen Komponenten einer Delta-Merkmal-Berechnungseinheit in einer Vorrichtung zur Extraktion von Sprachmerkmalen gemäß einem vierten Beispiel. 12(b) zeigt die funktionalen Komponenten einer Delta-Merkmal-Berechnungseinheit in einer Vorrichtung zur Extraktion von Sprachmerkmalen gemäß einem fünften Beispiel.
13(a) ist ein Ablaufplan, der ein Beispiel des Ablaufs des Prozesses zum Extrahieren von Delta-Merkmalen in der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem vierten Beispiel zeigt. 13(b) ist ein Ablaufplan, der ein Beispiel des Ablaufs des Prozesses zum Extrahieren von Delta-Merkmalen in der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem fünften Beispiel zeigt.
14 zeigt die funktionalen Komponenten einer Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem vierten oder fünften Beispiel .
15 ist ein Ablaufplan, der ein Beispiel des Ablaufs des Prozesses zum Extrahieren von Delta-Delta-Merkmalen in der Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem vierten oder fünften Beispiel zeigt.
16 ist eine Tabelle, die beispielhafte Ergebnisse des Bewertungsexperiments 1 der vorliegenden Erfindung in einer Umgebung mit Mehrfachreflexion zeigt.
17 ist eine Tabelle, die beispielhafte Ergebnisse des Bewertungsexperiments 2 der vorliegenden Erfindung in einer Umgebung mit Mehrfachreflexion zeigt.
18 ist eine Tabelle, die beispielhafte Ergebnisse eines Bewertungsexperiments der vorliegenden Erfindung in einer Umgebung mit Störgeräuschen zeigt.

Beschreibung von Ausführungsformen
Die beste Art der Ausführung der vorliegenden Erfindung wird nun auf Grundlage der Zeichnungen genau beschrieben. Die folgenden Ausführungsformen beschränken jedoch nicht die Erfindung, die in den Patentansprüchen beansprucht wird. Darüber hinaus sind nicht alle Kombinationen von Merkmalen, die in den Ausführungsformen beschrieben werden, für die Problem lösenden Mittel der Erfindung zwingend vorgeschrieben. In der gesamten Beschreibung der Ausführungsformen sind gleichen Komponenten gleiche Zahlen zugeordnet.
Bevor die Komponenten und Operationen der vorliegenden Erfindung beschrieben werden, wird zuerst die bekannte Tatsache, dass ein Delta-Merkmal, bei dem eine Differenz im logarithmischen Bereich verwendet wird, unerwünschte Ergebnisse bei der Spracherkennung in Umgebungen mit Mehrfachreflexion und Störgeräuschen bringt, unter Bezugnahme auf 1 und 2 beschrieben. Anschließend wird in Bezug auf jede der Umgebungen die Tatsache beschrieben, dass eine Differenz im linearen Bereich, eine Normierung, die durch die Erfinder vorgeschlagen wird und bei der ein Mittelwert von Spektren verwendet wird, und die an der Differenz ausgeführt wird, im Vergleich zu bekannten Techniken robust gegen Störsignale, Mehrfachreflexion und dergleichen ist.
Umgebung mit Mehrfachreflexion
1 zeigt die Dämpfung von Sprachleistung, die in einem Raum mit Mehrfachreflexion aufgezeichnet wurde. Die gleichen Beobachtungsdaten sind in dem logarithmischen Maßstab in 1(a) und in dem linearen Maßstab in 1(b) gezeigt. Die entsprechenden Abszissen repräsentieren Intervallzahlen und entsprechen dem zeitlichen Verlauf. 1 zeigt, dass die Wiedergabe von Sprache etwa am neunten Intervall endet, wobei die folgenden Intervalle Mehrfachreflexionsintervalle sind. Es ist bekannt, dass die Leistung der Mehrfachreflexion exponentiell gedämpft wird. In 1(a) ist auf der logarithmischen Skala gezeigt, dass ein langer und konstanter Rückgang 10 gebildet ist. In 1(b) ist dagegen auf der linearen Skala gezeigt, dass ein kurzer und steiler Rückgang 20 gebildet ist.
Bisher ist eine Differenz eines MFCC zwischen fortlaufenden Rahmen häufig als ein Delta-Merkmal verwendet worden. Da ein MFCC das Ergebnis der Ausführung einer diskreten Cosinus-Transformation an einem logarithmischen Spektrum für jede Mel-Skala-Filterbank (Mel-FB) ist, wird das Delta-Merkmal als eine Differenz im logarithmischen Bereich betrachtet. Selbst in Spracherkennungsvorrichtungen, die keinen MFCC als ein Merkmal verwenden, da viele Spracherkennungsvorrichtungen ein logarithmisches Spektrum oder die lineare Transformation eines logarithmischen Spektrums als ein Merkmal verwenden, wird das Delta-Merkmal ebenfalls als eine Differenz im logarithmischen Bereich betrachtet.
Bekannte Verfahren zur Verwendung einer Differenz im logarithmischen Bereich in dieser Weise als ein Delta-Merkmal entsprechen der Verwendung des Gradienten des Rückgangs 10 in 1(a) als ein Delta-Merkmal. In den bekannten Verfahren wird selbst nachdem die Sprache endet, ein im Voraus festgelegtes Merkmal für eine lange Zeit ununterbrochen ausgegeben. Andererseits entspricht die Verwendung einer Differenz im linearen Bereich als ein Delta-Merkmal der Verwendung des Gradienten des Rückgangs 20 in 1(b) als ein Delta-Merkmal. In diesem Fall wird ein Delta-Merkmal in der Weise betrachtet, dass es in Mehrfachreflexions-Intervallen rasch gedämpft wird.
Die Wichtigkeit der raschen Dämpfung eines Delta-Merkmals zeigt sich mit größerer Deutlichkeit in einem Fall, in dem Phoneme keine Unterbrechung aufweisen. 2 zeigt beispielhafte Sprachspektren, die in einer Umgebung mit Mehrfachreflexion aufgezeichnet wurden. Auf der Abszisse sind Intervallnummern wie in 1 und auf der Ordinate Frequenzen aufgetragen. Darüber hinaus ist die Intensität eines Sprachspektrums durch eine Farbschattierung ausgedrückt, wobei eine hellere Schattierung eine höhere Intensität angibt. Wenn Phoneme 1 und 2 ununterbrochen sind, wie in 2 gezeigt, wird der Bereich A durch die Mehrfachreflexion des vorhergehenden Phonems 1 beeinflusst, obwohl der Bereich A zum Phonem 2 gehört. Da die Spektrums-Intensität des Bereichs A ausreichend gering ist, wenn lediglich Nicht-Delta-Merkmale, d.h. statische Merkmale, angenommen werden, ist der Einfluss des vorhergehenden Phonems nicht stark. Wenn jedoch außerdem dynamische Merkmale, wie etwa Delta-Merkmale, bei denen logarithmische Spektren verwendet werden, betrachtet werden, entspricht der Bereich A dem Fuß eines langen Rückgangs , der die Mehrfachreflexion des vorhergehenden Phonems 1 repräsentiert und daher durch das vorhergehende Phonem 1 stärker beeinflusst ist als es scheint. Deswegen sind in einer Umgebung mit Mehrfachreflexion Delta-Merkmale im linearen Bereich, die rasch gedämpft werden, vorzuziehen.
Eine Differenz im linearen Bereich kann jedoch nicht direkt als ein Delta-Merkmal verwendet werden. Das ist der Fall, da ein Delta-Wert im linearen Bereich einen großen dynamischen Bereich hat und daher für eine Modellierung nicht geeignet ist. In diesem Fall kann ein Logarithmus berechnet werden, nachdem ein Delta-Wert im linearen Bereich berechnet wurde, um den dynamischen Bereich einzuengen. Da jedoch ein Delta-Wert positiv oder negativ sein kann, kann der Logarithmus nicht auf einfache Weise berechnet werden. Darüber hinaus wird bei der Spracherkennung in vielen Fällen gleichzeitig Cepstrum Mean Normierung (CMN) verwendet, um Übertragungscharakteristiken zu korrigieren. Eine derartige Korrektur kann bei einer direkten Verwendung eines Delta-Werts im linearen Bereich nicht ausgeführt werden.
Deswegen lösen die Erfinder die oben erwähnten Probleme durch Normierung des Delta-Werts eines Spektrums im linearen Bereich unter Verwendung des Mittelwerts von Spektren über alle Sprache darstellenden Rahmen. Unter der Annahme, dass der Delta-Wert eines Spektrums im linearen Bereich an dem t-ten Rahmen der beobachteten Sprache Δs_t ist und der Mittelwert von Spektren über alle Sprache darstellenden Rahmen (nachfolgend auch einfach als mittleres Spektrum bezeichnet) s ist, wird das einfachste Delta-Merkmal, das durch die Erfinder vorgeschlagen wird, durch die folgende Formel ausgedrückt. Weitere verschiedene Typen von Delta-Merkmalen, die durch die Erfinder vorgeschlagen wurden, werden später beschrieben. $Δ {\hat{s}}_{t} = \frac{Δ s_{t}}{s}$
Dabei wird für Vergleichszwecke der bekannte Delta-Wert eines Spektrums im logarithmischen Bereich am t-ten Rahmen von beobachteter Sprache näherungsweise durch die folgende Formel dargestellt. $\begin{matrix} Δ (log s_{t}) \approx \frac{\partial}{\partial S} log (s_{t}) \cdot Δ s_{t} \\ = \frac{Δ s_{t}}{s_{t}} \end{matrix}$
Beim Vergleich von Formel 1 mit Formel 2 kann das durch die Erfinder vorgeschlagene Delta-Merkmal als das Ergebnis der Ersetzung eines Spektrums s_t , das den Nenner des bekannten Delta-Merkmals darstellt, durch ein mittleres Spektrum s aller Sprache darstellenden Rahmen betrachtet werden. Dadurch schafft das durch die Erfinder vorgeschlagene Delta-Merkmal ein kleineres Delta-Merkmal als das bekannte Delta-Merkmal, wenn die Leistung an dem t-ten Rahmen klein ist im Vergleich mit der Leistung über alle Sprache darstellenden Rahmen. Da in diesem Fall die oben erwähnten Formeln einander ähnlich sind, kann Formel 1 so betrachtet werden, dass sie in einen dynamischen Bereich fällt, der im Wesentlichen der gleiche ist wie der von Formel 2. Darüber hinaus wird das Delta-Merkmal in Formel 1 durch s dividiert und enthält somit die Wirkung der Korrektur von Übertragungscharakteristiken.
Umgebung mit Störgeräuschen
Die Tatsache, dass das durch die Erfinder vorgeschlagene Delta-Merkmal ebenfalls in einer Umgebung mit Störgeräuschen wirkungsvoll ist, wird nachfolgend beschrieben, wobei Formel 1 als ein Beispiel verwendet wird. Es wird angenommen, dass beim Lernen eines akustischen Modells keine Störungen vorhanden sind, und das Lernen wird unter Verwendung der entsprechenden Delta-Merkmale in Formel 1 und 2 ausgeführt. In einer Situation, in der Störungen N hinzugefügt werden, wenn eine Spracherkennung ausgeführt wird, wird das Delta-Merkmal in Formel 1 mit der folgenden Formel beobachtet. $Δ {\hat{s}}_{\begin{array}{l} t \\ mit Störgeräuschen \end{array}} = \frac{Δ s_{t}}{\bar{s} + N}$
In ähnlicher Weise wird das Delta-Merkmal in Formel 2 mit der folgenden Formel 2 beobachtet. $Δ {(log s_{t})}_{mit Störgeräuschen} = \frac{Δ s_{t}}{s_{t} + N}$
Dabei werden für den Zweck der Prüfung des Grads der Variation infolge des Hinzufügens der Störungen N das Verhältnis zwischen den Formeln 1 und 3 und das Verhältnis zwischen den Formeln 2 und 4 berechnet und jeweils in den Formeln 5 und 6 gezeigt. $\frac{Δ {\hat{s}}_{t_{mit Störgeräuschen}}}{Δ {\hat{s}}_{t}} = 1 + \frac{N}{\bar{s}}$
$\frac{Δ {(log s_{t})}_{mit Störgeräuschen}}{Δ (log s_{t})} \approx 1 + \frac{N}{s_{t}}$
Der Vergleich von Formel 5 mit Formel 6 zeigt, dass in einem Rahmen, in dem ein lokaler SNR-Wert niedrig ist, d.h. ein Intervall, in dem s_t viel kleiner ist als die Störgeräusche N oder das mittlere Spektrum s , der Grad der Variation eines Delta-Merkmals infolge des Hinzufügens der Störgeräusche N in Formel 6 größer ist als in Formel 5. Das bedeutet, dass eine Abweichung von einem Modell, die in einem Intervall mit niedrigem SNR-Wert auftritt, in dem im Allgemeinen erwartet wird, dass eine fehlerhafte Erkennung auftritt, bei der Verwendung des bekannten Delta-Werts im logarithmischen Bereich viel größer ist als bei der Verwendung des durch die Erfinder vorgeschlagenen Delta-Merkmals. Demzufolge ist das durch die Erfinder vorgeschlagene Delta-Merkmal auch in einer Umgebung mit Störgeräuschen wirkungsvoll.
3 zeigt eine beispielhafte Hardware-Konfiguration eines Computers 300 zum Ausführen der vorliegenden Erfindung. In 3 wird ein Ton, der um ein Mikrofon 305 herum erzeugt wird, als ein analoges Signal über das Mikrofon 305 in einen A/D-Umsetzer 310 eingegeben. In dem A/D-Umsetzer 310 wird das analoge Signal in ein digitales Signal umgesetzt, das durch eine CPU 325 verarbeitet werden kann.
Schall, der durch das Mikrofon 305 aufgenommen wird, enthält z.B. in dem Fall eines Fahrzeug-Navigationssystems nicht nur die sprechende Stimme eines Fahrers und die sprechende Stimme eines Beifahrers, sondern außerdem die Geräusche der Luftströmung einer Klimaanlage, Geräusche, die von einem Fahrzeug-Audiosystem ausgegeben werden, Motorgeräusche und die Töne einer Autohupe. In einem Fall, wenn ein Fenster eines Fahrzeugs geöffnet ist, enthält der Schall, der durch das Mikrofon 305 aufgenommen wird, z.B. Geräusche von einem entgegenkommenden Fahrzeug und die sprechende Stimme eines Passanten.
Der Code einer Vielzahl von Computerprogrammen und verschiedene Datentypen können z.B. in einer externen Speichereinheit 315, einem ROM 320 und dergleichen gespeichert werden. Die Vielzahl von Computerprogrammen enthalten ein Programmmodul zum Extrahieren von Sprachmerkmalen, das mit einem Betriebssystem zusammenwirkt, um Befehle an die CPU 325 zu geben, um die vorliegende Erfindung auszuführen. Jedes der Vielzahl von Computerprogrammen, die in der externen Speichereinheit 315, dem ROM 320 und dergleichen gespeichert sind, wird durch die CPU 325 ausgeführt, indem es in einen RAM 330 geladen wird. Die externe Speichereinheit 315 ist über eine Steuereinheit (nicht gezeigt), wie etwa eine SCSI-Steuereinheit mit einem Bus 345 verbunden.
Ein Computerprogramm kann komprimiert und in einer Vielzahl von Medien gespeichert werden, nachdem es in mehrere Teile geteilt wurde. Die Einzelheiten einer Operation, die durch die CPU 235 unter Verwendung eines Programms zur Extraktion von Sprachmerkmalen an einem digitalen Signal, das von dem A/D-Umsetzer 310 übertragen wird, ausgeführt werden sollen, werden im Folgenden beschrieben.
Der Computer 300 enthält des Weiteren eine Anzeigeeinheit 335, um Benutzern visuelle Daten zu präsentieren. Die Anzeigeeinheit 335 ist über eine Grafik-Steuereinheit (nicht gezeigt) mit dem Bus 345 verbunden. Der Computer 300 kann über eine Datenübertragungsschnittstelle 340 mit einem Netzwerk verbunden sein und kann mit einem anderen Computer oder dergleichen Daten austauschen.
Die oben beschriebenen Komponenten sind lediglich erläuternde Beispiele, und keine dieser Komponenten ist eine wesentliche Komponenten der vorliegenden Erfindung. In ähnlicher Weise kann der Computer 300 zum Ausführen der vorliegenden Erfindung Eingabeeinheiten wie etwa eine Tastatur und eine Maus sowie weitere Komponenten wie etwa einen Lautsprecher enthalten.
4 zeigt die Konfiguration einer allgemeinen Spracherkennungsvorrichtung 400. Nachdem ein Sprachsignal in ein digitales Signal umgesetzt wurde, wird es in eine Einheit 405 zur diskreten Fourier-Transformation eingegeben, wobei die Einheit zur diskreten Fourier-Transformation das eingegebene Sprachsignal auf eine geeignete Weise wie etwa das Hanning-Fenster oder das Hamming-Fenster in Rahmen segmentiert und anschließend eine diskrete Fourier-Transformation ausführt, um das Spektrum des Sprachsignals auszugeben. Das von der Einheit 405 zur diskreten Fourier-Transformation ausgegebene Spektrum wird in eine Störungsverminderungseinheit 410 eingegeben, wobei die Störungsverminderungseinheit 410 z.B. durch das spektrale Subtraktionsverfahren Störsignale aus dem Spektrum entfernt. Die Störungsverminderungseinheit 410 ist jedoch eine Option, die nicht unbedingt vorhanden sein muss.
Das Spektrum eines Sprachsignals (wenn die Störungsverminderungseinheit 410 vorhanden ist, das Spektrum eines Sprachsignals, von dem Störgeräusche entfernt wurde) wird in eine Merkmalextraktionseinheit 415 eingegeben, wobei die Merkmalextraktionseinheit 415 z.B. ein statische Merkmal und ein dynamisches Merkmal extrahiert und ausgibt. Bisher sind eine Kombination aus einem MFCC und dem Delta-Wert (Variation erster Ordnung) und einem Delta-Delta-Wert (Variation zweiter Ordnung) des MFCC oder die Ergebnisse einer linearen Transformation dieser Werte häufig verwendet worden, wie oben beschrieben, und als ein statisches Merkmal und ein dynamisches Merkmal extrahiert worden.
Zum Zeitpunkt des Lernens wird ein Schalter 420 in eine Position an der Seite einer Lerneinheit 430 gedreht. Dann werden Merkmale, die aus Sprachsignalen durch die Merkmalextraktionseinheit 415 als Lerndaten extrahiert wurden, und ein Eingabetext, der den Sprachsignalen als Lerndaten entspricht, in die Lerneinheit 430 eingegeben, wobei die Lerneinheit 430 auf der Grundlage dieser Datenabschnitte ein akustisches Modell 425 konstruiert. Da der Lernprozess nicht Gegenstand der vorliegenden Erfindung ist, wird eine weitere Beschreibung weggelassen.
Darüber hinaus wird zum Zeitpunkt einer Erkennung der Schalter 420 in eine Position an der Seite einer Spracherkennungseinheit 440 gedreht. Dann werden Merkmale, die durch die Merkmalextraktionseinheit 415 als Erkennungsdaten aus Sprachsignalen extrahiert werden, und Daten von dem akustischen Modell 425 und einem Sprachenmodell 435 in die Spracherkennungseinheit 440 eingegeben, und die Spracherkennungseinheit 440 erkennt die Sprachsignale auf der Grundlage dieser Datenabschnitte, um einen Text des Erkennungsergebnisses auszugeben. Da der Spracherkennungsprozess nicht Gegenstand der vorliegenden Erfindung ist, wird eine weitere Beschreibung weggelassen.
Auf diese Weise konstruiert die Spracherkennungsvorrichtung 400 das akustische Modell 425 aus Sprachsignalen und einem Text zum Zeitpunkt des Lernens und gibt einen Text des Erkennungsergebnisses auf der Grundlage von Eingabesignalen, des akustischen Modells und des Sprachenmodells zum Zeitpunkt der Erkennung aus. Die vorliegende Erfindung verbessert die bekannte Merkmalextraktionseinheit 415, die in 4 gezeigt ist, und verbessert insbesondere Verfahren zum Berechnen von Delta-Merkmalen und Delta-Delta-Merkmalen, die dynamische Merkmale sind.
Wie bei einer großen Anzahl bekannter Merkmalextraktionseinheiten 415 gibt die durch die vorliegende Erfindung verbesserte Merkmalextraktionseinheit 415 mehrdimensionale Merkmale aus, bei denen statische Merkmale und dynamische Merkmale kombiniert sind. Die durch die vorliegende Erfindung verbesserte Merkmalextraktionseinheit 415 kann natürlich einfach konfiguriert sein, so dass sie z.B. bei Bedarf keine statischen Merkmale oder keine Delta-Delta-Merkmale enthält. Im Folgenden erfolgt die Beschreibung unter der Annahme, dass die Merkmalextraktionseinheit 415 der vorliegenden Erfindung eine Vorrichtung zur Extraktion von Sprachmerkmalen ist, die eine Berechnungseinheit statischer Merkmale, eine Delta-Merkmal-Berechnungseinheit und eine Delta-Delta-Merkmal-Berechnungseinheit enthält.
5 zeigt beispielhafte funktionale Komponenten einer Berechnungseinheit statischer Merkmale. In der Ausführungsform werden MFCC-Merkmale als statische Merkmale verwendet. Die Berechnungseinheit statischer Merkmale ist in allen Vorrichtungen zur Extraktion von Sprachmerkmalen gemäß der ersten bis dritten Ausführungsform sowie dem vierten und fünften Beispiel, die im Folgenden beschrieben werden, die gleiche. In 5 wird das Spektrum s_t eines Sprachsignals, das für jede Frequenzgruppe in Rahmen segmentiert ist, von der Einheit 405 der diskreten Fourier-Transformation oder von der Störungsverminderungseinheit 410, die unter Bezugnahme auf 4 beschrieben wurden, in eine Mel-Filterbank-Verarbeitungseinheit 500 eingegeben. Dann transformiert die Mel-Filterbank-Verarbeitungseinheit 500 für jeden Rahmen unter Verwendung der Funktion das Spektrum s_t für jede Frequenzgruppe in ein Spektrum für jede Filterbank (im Folgenden als Mel-Spektrum S_t bezeichnet) unter Verwendung der Gewichtung der Mel-Filterbank, um das Mel-Spektrum S_t auszugeben.
Unter der Annahme, dass t eine Rahmennummer ist, i eine Frequenzgruppennummer ist, j eine Filterbanknummer ist und Mel_FB_Weight die Gewichtung einer Mel-Filterbank ist, wird die Transformation durch die Mel-Filterbank-Verarbeitungseinheit 500 durch die folgenden Formeln ausgedrückt. $S_{t} (j) = \sum_{i} s_{t} (i) \cdot M e l_F B_W e i g h t (j, i)$
Das Mel-Spektrum S_t wird in eine Logarithmus-Berechnungseinheit 505 eingegeben. Dann berechnet die Logarithmus-Berechnungseinheit 505 für jeden Rahmen den Logarithmus des Mel-Spektrums S_t für jede Filterbank gemäß der folgenden Formel unter Verwendung der Funktion, um ein logarithmisches Mel-Spektrum S_t' auszugeben. $S_{t}^{'} (j) = log (S_{t} (j))$
Das logarithmische Mel-Spektrum S_t' wird in eine Einheit 510 zur diskreten Cosinus-Transformation eingegeben. Dann führt die Einheit 510 zur diskreten Cosinus-Transformation für jeden Rahmen eine diskrete Cosinus-Transformation des logarithmischen Mel-Spektrums S_t' unter Verwendung der Funktion aus, um einen MFCC, d.h. ein Mel-Cepstrum C_t , zu berechnen und auszugeben. In diesem Fall führt die Einheit 510 zur diskreten Cosinus-Transformation unter der Annahme, dass die Matrix zur diskreten Cosinus-Transformation D(h,j) ist, die diskrete Cosinus-Transformation des logarithmischen Mel-Spektrums S_t' gemäß der folgenden Formel aus. $\begin{array}{l} C_{t} (h) = \sum_{j} D (h, j) S_{t}^{'} (j) \\ D (h, j) = \sqrt{\frac{2}{n}} K_{h} cos (\frac{(h - 1) (j - \frac{1}{2})}{n} π) \\ {\begin{matrix} K_{h} = \frac{1}{\sqrt{2}}, & h = 0 \\ K_{h} = 1, & h \neq 0 \end{matrix} \end{array}$
Auf diese Weise empfängt die Berechnungseinheit statischer Merkmale das Spektrum s_t als Eingabe und gibt schließlich das Mel-Cepstrum C_t als ein statisches Merkmal aus.
Erste Ausführungsform
6(a) zeigt die funktionalen Komponenten einer Delta-Merkmal-Berechnungseinheit in einer Vorrichtung zur Extraktion von Sprachmerkmalen gemäß einer ersten Ausführungsform der vorliegenden Erfindung. Das Spektrum s_t eines Sprachsignals, das für jede Frequenzgruppe in Rahmen segmentiert wurde, wird von der Einheit 405 zur diskreten Fourier-Transformation oder von der Störungsverminderungseinheit 410, die unter Bezugnahme auf 4 beschrieben wurden, in eine erste Differenzberechnungseinheit 600 eingegeben. Dann berechnet die erste Differenzberechnungseinheit 600 für jeden Rahmen unter Verwendung der Funktion eine Differenz des Spektrums s_t zwischen fortlaufenden Rahmen für jede Frequenzgruppe (im Folgenden auch als ein Delta-Spektrum Δs_t bezeichnet), um die Differenz als das Delta-Spektrum Δs_t für jede Frequenzgruppe auszugeben. Die Differenzverarbeitung durch die erste Differenzberechnungseinheit 600 wird gemäß der folgenden Formel ausgeführt. $Δ s_{t} = \frac{\sum_{θ = 1}^{Θ} θ (s_{t + θ} - s_{t - θ})}{2 \sum_{θ = 1}^{Θ} θ^{2}}$
In Formel 10 ist die Frequenzgruppennummer i weggelassen.
Das Delta-Spektrum Δs_t für jede Frequenzgruppe wird in eine erste Normierungseinheit 605 eingegeben. Dann normiert die erste Normierungseinheit 605 für jeden Rahmen unter Verwendung der Funktion das Delta-Spektrum Δs_t für jede Frequenzgruppe durch Dividieren des Delta-Spektrums Δs_t durch eine Funktion F eines mittleren Spektrums, d.h. des Mittelwerts von Spektren über alle Sprache darstellenden Rahmen für die Frequenzgruppe. In der Ausführungsform wird angenommen, dass die Funktion F eines mittleren Spektrums das mittlere Spektrum ist, d.h. das mittlere Spektrum s für jede Frequenzgruppe. In diesem Fall wird die Ausgabe der ersten Normierungseinheit 605 durch die folgende Formel ausgedrückt. $Δ {\hat{s}}_{t} = \frac{Δ s_{t}}{\bar{s}}$
In Formel 11 ist die Frequenzgruppennummer i weggelassen.
In der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der ersten Ausführungsform ist die Ausgabe der ersten Normierungseinheit 605 als ein Delta-Merkmal definiert.
6(b) zeigt die funktionalen Komponenten der Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der ersten Ausführungsform der vorliegenden Erfindung. Die Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der ersten Ausführungsform der vorliegenden Erfindung enthält eine zweite Differenzberechnungseinheit 610 und eine zweite Normierungseinheit 615. Jede dieser Komponenten hat die gleiche Funktion wie eine entsprechende Komponente in der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der ersten Ausführungsform der vorliegenden Erfindung, außer dass sich die Eingaben und Ausgaben jeweils unterscheiden.
Das heißt, das Delta-Spektrum Δs_t wird von der ersten Differenzberechnungseinheit 600, die in 6(a) gezeigt ist, in die zweite Differenzberechnungseinheit 610 eingegeben. Dann berechnet die zweite Differenzberechnungseinheit 610 für jeden Rahmen eine Differenz des Delta-Spektrums Δs_t zwischen fortlaufenden Rahmen für jede Frequenzgruppe als ein Delta-Delta-Spektrum ΔΔs_t . Das Delta-Delta-Spektrum ΔΔs_t , das die Ausgabe der zweiten Differenzberechnungseinheit 610 ist, wird durch die folgende Formel ausgedrückt. $ΔΔ s_{t} = \frac{\sum_{θ = 1}^{Θ} θ (Δ s_{t + θ} - Δ s_{t - θ})}{2 \sum_{θ = 1}^{Θ} θ^{2}}$
In Formel 12 ist die Frequenzgruppennummer i weggelassen.
Darüber hinaus wird das Delta-Delta-Spektrum ΔΔs_t in die zweite Normierungseinheit 615 eingegeben. Dann normiert die zweite Normierungseinheit 615 für jeden Rahmen das Delta-Delta-Spektrum ΔΔs_t für jede Frequenzgruppe durch Dividieren des Delta-Delta-Spektrums ΔΔs_t durch eine Funktion eines mittleren Spektrums. In der Ausführungsform wird angenommen, dass die Funktion F eines mittleren Spektrums das mittlere Spektrum, d.h. das mittlere Spektrum s für jede Frequenzgruppe, ist. In diesem Fall wird die Ausgabe der zweiten Normierungseinheit 615 durch die folgende Formel ausgedrückt. $ΔΔ {\hat{s}}_{t} = \frac{ΔΔ s_{t}}{\bar{s}}$
In Formel 13 ist die Frequenzgruppennummer i weggelassen.
In der Delta-Delta-Spektrum-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der ersten Ausführungsform ist die Ausgabe der zweiten Normierungseinheit 615 als ein Delta-Delta-Merkmal definiert.
Zweite Ausführungsform
7(a) zeigt die funktionalen Komponenten einer Delta-Merkmal-Berechnungseinheit in einer Vorrichtung zur Extraktion von Sprachmerkmalen gemäß einer zweiten Ausführungsform der vorliegenden Erfindung. Die Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der zweiten Ausführungsform der vorliegenden Erfindung ist derart, dass eine erste Mel-Filterbank-Verarbeitungseinheit 705 der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der ersten Ausführungsform hinzugefügt wurde. Die neu hinzugefügte erste Mel-Filterbank-Verarbeitungseinheit 705 ist so an einer Position angeordnet, dass eine Operation durch die erste Mel-Filterbank-Verarbeitungseinheit 705 einer Operation durch eine erste Differenzberechnungseinheit 700 folgt und einer Operation durch eine erste Normierungseinheit 710 vorhergeht oder folgt.
Da in diesem Fall die erste Differenzberechnungseinheit 700 exakt die gleiche ist wie die erste Differenzberechnungseinheit 600 in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der ersten Ausführungsform, wird die Beschreibung weggelassen, um eine Wiederholung zu vermeiden. Die erste Mel-Filterbank-Verarbeitungseinheit 705 hat die gleiche Funktion wie die Mel-Filterbank-Verarbeitungseinheit 500, die unter Bezugnahme auf 5 beschrieben wurde, außer dass sich die Eingaben und Ausgaben jeweils unterscheiden.
Wenn ein Fall als Beispiel genommen wird, bei dem eine Operation durch die erste Mel-Filterbank-Verarbeitungseinheit 705 einer Operation durch die erste Normierungseinheit 710 vorhergeht, wird das Delta-Spektrum Δs_t von der ersten Differenzberechnungseinheit 700 in die erste Mel-Filterbank-Verarbeitungseinheit 705 eingegeben. Dann multipliziert die erste Mel-Filterbank-Verarbeitungseinheit 705 für jeden Rahmen das Delta-Spektrum Δs_t für jede Frequenzgruppe mit der Gewichtung einer Mel-Filterbank, wie es auf der rechten Seite von Formel 7 der Fall ist, um die Produkte zu summieren und die Gesamtsumme als ein Mel-Delta-Spektrum ΔS_t für jede Filterbank zu berechnen.
Darüber hinaus hat die erste Normierungseinheit 710 die gleiche Funktion wie die erste Normierungseinheit 605 in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der ersten Ausführungsform, außer dass sich die Eingaben und Ausgaben jeweils unterscheiden. Deswegen wird die Beschreibung weggelassen, um eine Wiederholung zu vermeiden. In diesem Fall sollte angemerkt werden, dass dann, wenn eine Operation durch die erste Mel-Filterbank-Verarbeitungseinheit 705 einer Operation durch die erste Normierungseinheit 710 vorhergeht, das mittlere Spektrum aller Sprache darstellenden Rahmen, das durch die erste Normierungseinheit 710 zur Normierung verwendet werden sollte, nicht das mittlere Spektrum s ist, das der Mittelwert von Spektren für jede Frequenzgruppe ist, sondern ein mittleres Mel-Spektrum s ist, das der Mittelwert von Mel-Spektren für jede Filterbank ist.
Es wird angenommen, dass die Funktion F eines mittleren Spektrums das mittlere Spektrum ist. In diesem Fall wird das Mel-Delta-Spektrum ΔS_t für jede Filterbank von der ersten Mel-Filterbank-Verarbeitungseinheit 705 in die erste Normierungseinheit 710 eingegeben. Dann normiert die erste Normierungseinheit 710 für jeden Rahmen das Mel-Delta-Spektrum ΔS_t für jede Filterbank durch Dividieren des Mel-Delta-Spektrums ΔS_t durch das mittlere Mel-Spektrum s aller Rahmen für die Filterbank. Die Ausgabe der ersten Normierungseinheit 710 wird durch die folgende Formel ausgedrückt. $Δ {\hat{S}}_{t} = \frac{Δ S_{t}}{\bar{S}}$
In Formel 14 ist die Filterbanknummer j weggelassen.
Darüber hinaus ist der Nenner auf der rechten Seite von Formel 14 das mittlere Mel-Spektrum S für jede Filterbank. In der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der zweiten Ausführungsform ist die Ausgabe der ersten Mel-Filterbank-Verarbeitungseinheit 705 oder der ersten Normierungseinheit 710, die abschließend eine Operation ausführt, als ein Delta-Merkmal definiert.
7(b) zeigt die funktionalen Komponenten einer Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der zweiten Ausführungsform der vorliegenden Erfindung. Die Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der zweiten Ausführungsform der vorliegenden Erfindung enthält eine zweite Differenzberechnungseinheit 715, eine zweite Mel-Filterbank-Verarbeitungseinheit 720 und eine zweite Normierungseinheit 725. Eine Operation durch die zweite Mel-Filterbank-Verarbeitungseinheit 720 kann einer Operation durch die zweite Normierungseinheit 725 vorhergehen oder umgekehrt. Da die zweite Differenzberechnungseinheit 715 exakt die gleiche ist wie die zweite Differenzberechnungseinheit 610 in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der ersten Ausführungsform, wird die Beschreibung weggelassen, um eine Wiederholung zu vermeiden. Die zweite Mel-Filterbank-Verarbeitungseinheit 720 hat die gleiche Funktion wie die Mel-Filterbank-Verarbeitungseinheit 500, die unter Bezugnahme auf 5 beschrieben wurde, außer dass sich die Eingaben und Ausgaben jeweils unterscheiden.
Wenn ein Fall als Beispiel genommen wird, bei dem eine Operation durch die zweite Mel-Filterbank-Verarbeitungseinheit 720 einer Operation durch die zweite Normierungseinheit 725 vorhergeht, wird das Delta-Delta-Spektrum ΔΔs_t von der zweiten Differenzberechnungseinheit 715 in die zweite Mel-Filterbank-Verarbeitungseinheit 720 eingegeben. Dann multipliziert die zweite Mel-Filterbank-Verarbeitungseinheit 720 für jeden Rahmen das Delta-Delta-Spektrum ΔΔs_t für jede Frequenzgruppe mit der Gewichtung einer Mel-Filterbank, wie das auf der rechten Seite von Formel 7 der Fall ist, um die Produkte zu summieren und die Gesamtsumme als ein Mel-Delta-Delta-Spektrum ΔΔs_t für jede Filterbank zu berechnen.
Darüber hinaus hat die zweite Normierungseinheit 725 die gleiche Funktion wie die zweite Normierungseinheit 615 in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der ersten Ausführungsform, außer dass sich die Eingaben und Ausgaben jeweils unterscheiden. Deswegen wird die Beschreibung weggelassen, um eine Wiederholung zu vermeiden. In diesem Fall sollte angemerkt werden, dass dann, wenn eine Operation durch die zweite Mel-Filterbank-Verarbeitungseinheit 720 einer Operation durch die zweite Normierungseinheit 725 vorhergeht, das mittlere Spektrum aller Sprache darstellenden Rahmen, das durch die zweite Normierungseinheit 725 zur Normierung verwendet werden sollte, nicht das mittlere Spektrum s ist, das den Mittelwert von Spektren für jede Frequenzgruppe darstellt, sondern das mittlere Mel-Spektrum s ist, das den Mittelwert von Mel-Spektren für jede Filterbank darstellt.
Es wird angenommen, dass die Funktion F eines mittleren Spektrums das mittlere Spektrum ist. In diesem Fall wird das Mel-Delta-Delta-Spektrum ΔΔs_t für jede Filterbank von der zweiten Mel-Filterbank-Verarbeitungseinheit 720 in die zweite Normierungseinheit 725 eingegeben. Dann normiert die zweite Normierungseinheit 725 für jeden Rahmen das Mel-Delta-Delta-Spektrum ΔΔs_t für jede Filterbank durch Dividieren des Mel-Delta-Delta-Spektrums ΔΔS_t durch das mittlere Mel-Spektrum S für die Filterbank. Die Ausgabe der zweiten Normierungseinheit 725 wird durch die folgende Formel ausgedrückt. $ΔΔ {\hat{S}}_{t} = \frac{ΔΔ S_{t}}{S}$
In Formel 15 ist die Filterbanknummer j weggelassen.
Darüber hinaus ist ein Nenner auf der rechten Seite von Formel 15 das mittlere Mel-Spektrum S für jede Filterbank. In der Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der zweiten Ausführungsform ist die Ausgabe der zweiten Mel-Filterbank-Verarbeitungseinheit 720 oder der zweiten Normierungseinheit 725, die abschließend eine Operation ausführt, als ein Delta-Delta-Merkmal definiert.
Dritte Ausführungsform
8(a) zeigt die funktionalen Komponenten einer Delta-Merkmal-Berechnungseinheit in einer Vorrichtung zur Extraktion von Sprachmerkmalen gemäß einer dritten Ausführungsform der vorliegenden Erfindung. Die Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform ist derart, dass der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der zweiten Ausführungsform eine erste Einheit 815 zur diskreten Cosinus-Transformation neu hinzugefügt wurde. Deswegen wird die Beschreibung einer ersten Differenzberechnungseinheit 800, einer ersten Mel-Filterbank-Verarbeitungseinheit 805 und einer ersten Normierungseinheit 810 weggelassen, um eine Wiederholung zu vermeiden. In diesem Fall ist die neu hinzugefügte erste Einheit 815 zur diskreten Cosinus-Transformation so an einer Position angeordnet, dass die erste Einheit 815 zur diskreten Cosinus-Transformation abschließend eine Operation ausführt.
Die erste Einheit 815 zur diskreten Cosinus-Transformation hat die gleiche Funktion wie die Einheit 510 zur diskreten Cosinus-Transformation, die unter Bezugnahme auf 5 beschrieben wurde, außer dass sich die Eingaben und Ausgaben jeweils unterscheiden. Das heißt, das normierte Mel-Delta-Spektrum ΔS_t für jede Filterbank wird in die erste Einheit 815 zur diskreten Cosinus-Transformation eingegeben. Dann führt die erste Einheit 815 zur diskreten Cosinus-Transformation eine diskrete Cosinus-Transformation an dem normierten Mel-Delta-Spektrum ΔS_t aus. Die Ausgabe der ersten Einheit 815 zur diskreten Cosinus-Transformation wird durch die folgende Formel ausgedrückt. $Δ C_{t} = D C T (Δ {\hat{S}}_{t})$
In der Formel 16 repräsentiert das Symbol DCT eine Transformation durch die diskrete Cosinus-Transformationsmatrix D(h,j) in Formel 9. In der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform ist die Ausgabe der ersten Einheit 815 zur diskreten Cosinus-Transformation als ein Delta-Merkmal definiert.
8(b) zeigt die funktionalen Komponenten einer Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform der vorliegenden Erfindung. Die Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform der vorliegenden Erfindung ist derart, dass der Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der zweiten Ausführungsform eine zweite Einheit 835 zur diskreten Cosinus-Transformation neu hinzugefügt wurde. Deswegen wird die Beschreibung einer zweiten Differenzberechnungseinheit 820, einer zweiten Mel-Filterbank-Verarbeitungseinheit 825 und einer zweiten Normierungseinheit 830 weggelassen, um eine Wiederholung zu vermeiden. In diesem Fall wurde die neu hinzugefügte zweite Einheit 835 zur diskreten Cosinus-Transformation so an einer Position angeordnet, dass die zweite Einheit 835 zur diskreten Cosinus-Transformation abschließend eine Operation ausführt.
Die zweite Einheit 835 zur diskreten Cosinus-Transformation hat die gleiche Funktion wie die Einheit 510 zur diskreten Cosinus-Transformation, die unter Bezugnahme auf 5 beschrieben wurde, außer dass sich die Eingaben und Ausgaben jeweils unterscheiden. Das heißt, das normierte Mel-Delta-Delta-Spektrum ΔΔs_t für jede Filterbank wird in die zweite Einheit 835 zur diskreten Cosinus-Transformation eingegeben. Dann führt die zweite Einheit 835 zur diskreten Cosinus-Transformation eine diskrete Cosinus-Transformation an dem normierten Mel-Delta-Delta-Spektrum ΔΔS_t aus. Die Ausgabe der zweiten Einheit 835 zur diskreten Cosinus-Transformation wird durch die folgende Formel ausgedrückt. $ΔΔ C_{t} = D C T (ΔΔ {\hat{S}}_{t})$
In der Formel 17 repräsentiert das Symbol DCT eine Transformation durch die diskrete Cosinus-Transformationsmatrix D(h,j) in Formel 9. In der Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform ist die Ausgabe der zweiten Einheit 835 zur diskreten Cosinus-Transformation als ein Delta-Delta-Merkmal definiert.
In der Delta-Merkmal-Berechnungseinheit und der Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform kann das Verfahren zum Normieren durch die erste Normierungseinheit 810 und die zweite Normierungseinheit 830 in der folgenden Weise geändert werden. Das heißt, die erste Normierungseinheit 810 und die zweite Normierungseinheit 830 können eine Normierung durchführen, indem sie zusätzlich zu der Division, bei der das mittlere Spektrum s und das mittlere Mel-Spektrum s verwendet werden, eine logarithmische Komprimierung ausführen. Wenn in diesem Fall z.B. eine Operation durch die erste Normierungseinheit 810 nach einer Operation durch die erste Mel-Filterbank-Verarbeitungseinheit 805 ausgeführt wird, wird die Normierung durch die erste Normierungseinheit 810 gemäß der folgenden Formel ausgeführt. ${\begin{array}{l} Δ {\hat{S}}_{t} = log (\frac{Δ S_{t}}{S} + 1), & Δ S_{t} \geq 0 \\ Δ {\hat{S}}_{t} = - log (- \frac{Δ S_{t}}{\bar{S}} + 1), & für andere Δ S_{t} \end{array}$
Das heißt, wenn das Mel-Delta-Spektrum ΔS_t gleich oder größer Null ist, normiert die erste Normierungseinheit 810 das Mel-Delta-Spektrum ΔS_t für jede Filterbank durch Dividieren des Mel-Delta-Spektrums ΔS_t durch das mittlere Mel-Spektrum s für die Filterbank, addiert Eins zu dem Quotienten und berechnet dann den Logarithmus der Summe. Wenn dagegen das Mel-Delta-Spektrum ΔS_t kleiner Null ist, normiert die erste Normierungseinheit 810 das Mel-Delta-Spektrum ΔS_t für jede Filterbank durch Dividieren des Mel-Delta-Spektrums ΔS_t durch das mittlere Mel-Spektrum s für die Filterbank, multipliziert den Quotienten mit minus Eins, addiert Eins zu dem Produkt und multipliziert dann den Logarithmus der Summe mit minus Eins. In ähnlicher Weise kann dann, wenn eine Operation durch die zweite Normierungseinheit 830 nach einer Operation durch die zweite Mel-Filterbank-Verarbeitungseinheit 825 ausgeführt wird, die zweite Normierungseinheit 830 eine Normierung gemäß Formel 19 ausführen. ${\begin{array}{l} ΔΔ {\hat{S}}_{t} = log (\frac{ΔΔ S_{t}}{S} + 1), & Δ S_{t} \geq 0 \\ ΔΔ {\hat{S}}_{t} = - log (- \frac{ΔΔ S_{t}}{\bar{S}} + 1), & für andere Δ S_{t} \end{array}$
In der Delta- Merkmal-Berechnungseinheit und der Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform kann die Funktion F des mittleren Mel-Spektrums S nicht das mittlere Mel-Spektrum S sein, sondern die Funktion F des mittleren Mel-Spektrums S und das Mel-Spektrum S, die im Folgenden beschrieben wird. Das heißt, für einen gegebenen Rahmen t und eine gegebene Filterbank j gibt die Funktion F des mittleren Mel-Spektrums S einen größeren Wert oder einen Wert nahe an einem größeren Wert aus dem Mel-Spektrum S für die Filterbank j für den Rahmen t und dem mittleren Mel-Spektrum S aller Rahmen für die Filterbank j aus. Beispiele einer derartigen Funktion F sind in den Formeln 20 und 21 gezeigt. $F (\bar{S}, S_{t}) = max (\bar{S}, S_{t})$
$F (\bar{S}, S_{t}) = (\bar{S} + S_{t})$
In den Formeln 20 und 21 ist die Filterbanknummer j weggelassen.
Dann wird das Mel-Delta-Spektrum ΔS_t für jede Filterbank in die erste Normierungseinheit 810 eingegeben. Dann normiert die erste Normierungseinheit 810 für jeden Rahmen das Mel-Delta-Spektrum ΔS_t für jede Filterbank durch Dividieren des Mel-Delta-Spektrums ΔS_t durch die Funktion F, die durch Formel 20 oder 21 für die Filterbank ausgedrückt ist. Ähnliches gilt für die zweite Normierungseinheit 830. Im Hinblick auf die Wirksamkeit ist eine Normierung, bei der eine derartige Funktion F des mittleren Mel-Spektrums S und des Mel-Spektrums S verwendet wird, einer Normierung vorzuziehen, bei der eine Division unter Verwendung des mittleren Mel-Spektrums S ausgeführt wird.
9(a) ist ein Ablaufplan, der den Ablauf des Prozesses zum Extrahieren von Delta-Merkmalen von Sprache in der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform der vorliegenden Erfindung beispielhaft zeigt. Der Prozess beginnt am Schritt 900. Das Spektrum eines Sprachsignals, das für jede Frequenzgruppe in Rahmen segmentiert ist, wird in die erste Differenzberechnungseinheit 800 eingegeben. Dann berechnet die erste Differenzberechnungseinheit 800 für jeden Rahmen eine Differenz des Spektrums zwischen fortlaufenden Rahmen für jede Frequenzgruppe als das Delta-Spektrum Δs_t , um das Delta-Spektrum Δs_t in einem Speicherbereich wie etwa dem RAM 300, der in 3 gezeigt ist, zu speichern.
Die erste Mel-Filterbank-Verarbeitungseinheit 805 liest das Delta-Spektrum Δs_t von dem Speicherbereich und multipliziert das Delta-Spektrum ΔS_t für jede Frequenzgruppe für jeden Rahmen mit der Gewichtung einer Mel-Filterbank, um die Produkte zu summieren und die Gesamtsumme als das Mel-Delta-Spektrum ΔS_t für jede Filterbank in dem Speicherbereich zu speichern (Schritt 905). Die erste Normierungseinheit 810 liest das Mel-Delta-Spektrum ΔS_t von dem Speicherbereich und normiert für jeden Rahmen das Mel-Delta-Spektrum ΔS_t für jede Filterbank durch Dividieren des Mel-Delta-Spektrums ΔS_t durch die Funktion F des mittleren Mel-Spektrums S für die Filterbank, um das Ergebnis in dem Speicherbereich zu speichern (Schritt 910).
Die Reihenfolge einer Operation durch die erste Mel-Filterbank-Verarbeitungseinheit 805 und einer Operation durch die erste Normierungseinheit 810, die von einer gepunkteten Linie 920 umgeben sind, kann umgekehrt werden. Wenn eine Operation durch die erste Mel-Filterbank-Verarbeitungseinheit 805 einer Operation durch die erste Normierungseinheit 810 folgt, ist die Funktion F, die von der ersten Normierungseinheit 810 zur Normierung verwendet wird, die Funktion F des mittleren Spektrums s für jede Frequenzgruppe. Darüber hinaus kann die Funktion F das mittlere Spektrum s , das mittlere Mel-Spektrum S oder jenes sein, das in den Formeln 20 und 21 gezeigt ist, wie oben beschrieben. Darüber hinaus kann eine Normierung ausgeführt werden, indem zusätzlich zu einer Division, bei der das mittlere Spektrum s und das mittlere Mel-Spektrum S verwendet werden, eine logarithmische Komprimierung ausgeführt wird.
Dann liest die erste Einheit 815 zur diskreten Cosinus-Transformation das normierte Mel-Delta-Spektrum für jede Filterbank von dem Speicherbereich und führt eine diskrete Cosinus-Transformation an dem normierten Mel-Delta-Spektrum aus, um das Ergebnis als ein Delta-Merkmal auszugeben (Schritt 915). Dann ist der Prozess abgeschlossen. In diesem Fall entspricht der Prozess zum Extrahieren von Delta-Merkmalen in der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der ersten (oder zweiten) Ausführungsform einem Fall, bei dem Operationen in den Schritten 905 und 915 (oder eine Operation im Schritt 915) in 9(a) weggelassen werden.
9(b) ist ein Ablaufplan, der ein Beispiel des Ablaufs des Prozesses zum Extrahieren von Delta-Delta-Merkmalen in der Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform der vorliegenden Erfindung zeigt. Der Prozess beginnt am Schritt 920. Das Delta-Spektrum Δs_t wird von der ersten Differenzberechnungseinheit 800 in die zweite Differenzberechnungseinheit 820 eingegeben. Dann berechnet die zweite Differenzberechnungseinheit 820 für jeden Rahmen eine Differenz des Delta-Spektrums Δs_t zwischen fortlaufenden Rahmen für jede Frequenzgruppe als das Delta-Delta-Spektrum ΔΔs_t , um das Delta-Delta-Spektrum ΔΔs_t in einem Speicherbereich wie etwa in dem in 3 gezeigten RAM 330 zu speichern.
Die zweite Mel-Filterbank-Verarbeitungseinheit 825 liest das Delta-Delta-Spektrum ΔΔs_t von dem Speicherbereich und multipliziert für jeden Rahmen das Delta-Delta-Spektrum ΔΔs_t für jede Frequenzgruppe mit der Gewichtung einer Mel-Filterbank, um die Produkte zu summieren und die Gesamtsumme als das Mel-Delta-Delta-Spektrum ΔΔS_t für jede Filterbank in dem Speicherbereich zu speichern (Schritt 925). Die zweite Normierungseinheit 830 liest das Mel-Delta-Delta-Spektrum ΔΔS_t von dem Speicherbereich und normiert für jeden Rahmen das Mel-Delta-Delta-Spektrum ΔΔS_t für jede Filterbank durch Dividieren des Mel-Delta-Delta-Spektrums ΔΔS_t durch die Funktion F des mittleren Mel-Spektrums S für die Filterbank, um das Ergebnis im Speicherbereich zu speichern (Schritt 930).
Die Reihenfolge einer Operation durch die erste Mel-Filterbank-Verarbeitungseinheit 825 und einer Operation durch die zweite Normierungseinheit 830, die von einer gepunkteten Linie 940 umgeben sind, kann umgekehrt werden. Wenn eine Operation durch die zweite Mel-Filterbank-Verarbeitungseinheit 825 einer Operation durch die zweite Normierungseinheit 830 folgt, ist die Funktion F, die durch die zweite Normierungseinheit 830 zur Normierung verwendet wird, die Funktion F des mittleren Spektrums s für jede Frequenzgruppe.
Darüber hinaus kann die Funktion F das mittlere Spektrum s , das mittlere Mel-Spektrum S oder jenes sein, das in den Formeln 20 und 21 gezeigt ist, wie oben beschrieben. Darüber hinaus kann eine Normierung ausgeführt werden, indem zusätzlich zur Division, bei der das mittlere Spektrum s und das mittlere Mel-Spektrum s verwendet werden, eine logarithmische Komprimierung vorgenommen wird.
Dann liest die zweite Einheit 835 zur diskreten Cosinus-Transformation das normierte Mel-Delta-Delta-Spektrum für jede Filterbank von dem Speicherbereich und führt eine diskrete Cosinus-Transformation an dem normierten Mel-Delta-Delta-Spektrum aus, um das Ergebnis als ein Delta-Delta-Merkmal auszugeben (Schritt 935). Dann ist der Prozess abgeschlossen. In diesem Fall entspricht der Prozess zum Extrahieren von Delta-Delta-Merkmalen in der Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der ersten (oder zweiten) Ausführungsform einem Fall, bei dem Operationen in den Schritten 925 und 935 (oder eine Operation im Schritt 935) in 9(b) weggelassen sind.
In der zweiten und dritten Ausführungsform kann anstelle der Gewichtung einer Mel-Filterbank, die durch die ersten Mel-Filterbank-Verarbeitungseinheiten 705 und 805 und die zweiten Mel-Filterbank-Verarbeitungseinheiten 720 und 825 verwendet wird, das Produkt aus einem Filter (im Folgenden als eine lokale Spitzengewichtung bezeichnet) und der Gewichtung einer Mel-Filterbank verwendet werden. Das Filter hat eine Gewichtung in einem harmonischen Strukturabschnitt in einem Sprachintervall und ist im Wesentlichen eben in einem sprachfreien Intervall ohne harmonische Struktur. Eine neue Gewichtung, die auf diese Weise erzeugt wird, wird im Folgenden unter Bezugnahme auf 10 und 11 beschrieben.
10(a) ist ein Diagramm, das ein Beispiel der Gewichtung einer Mel-Filterbank zeigt. Jede der ersten Mel-Filterbank-Verarbeitungseinheiten 705 und 805 und der zweiten Mel-Filterbank-Verarbeitungseinheiten 720 und 825 transformiert entsprechende Spektren für Frequenzgruppen, die in gleichen Intervallen in der Frequenzrichtung in ein Spektrum für jede Filterbank eingesetzt sind, in eine größere Einheit durch Multiplizieren der Spektren für die Frequenzgruppen mit der Gewichtung einer Mel-Filterbank und Addieren der Produkte, wie oben beschrieben wurde.
Filterbänke sind in gleichen Intervallen auf der Mel-Frequenzskala angeordnet, so dass sie mit Eigenschaften des menschlichen Hörens übereinstimmen, und sind als eine Dreiecksgewichtung 1000 konstruiert, wie in 10(a) gezeigt ist. Die Gewichtung MEL_FB_Weight(j, i) einer Mel-Filterbank ist definiert, wobei ein Beitrag zu der Filterbank für jede Frequenzgruppe die Gewichtung ist, wie auf der rechten Seite von Formel 7 gezeigt ist.
Die menschliche Aussprache hat eine harmonische Struktur in Vokalen. Das heißt, Energie ist nicht gleichmäßig verteilt über alle Frequenzgruppen, sondern die Energie der Sprache ist in nichtfortlaufenden Frequenzgruppen verteilt in dem Fall einer Äußerung mit einer hohen Grundfrequenz, z.B. eine Äußerung durch eine Frau oder ein Kind. Deswegen besteht dann, wenn eine Gewichtung gleichmäßig zugewiesen wird, sogar zu einer Frequenzgruppe ohne Sprachenergie, wie es bei der oben erwähnten Mel-Filterbank der Fall ist, die Gefahr, dass Störgeräusche dementsprechend aufgenommen werden. Deswegen wird vorzugsweise eine neue Gewichtung verwendet. Bei der neuen Gewichtung wird eine höhere Gewichtung einem Spitzenabschnitt zugewiesen, der einer harmonischen Struktur entspricht, eine niedrige Gewichtung wird einem Talabschnitt zugewiesen und eine normale Mel-FB-Gewichtung wird allmählich angenähert, wenn kein Spitzewert beobachtet wird.
Zu diesem Zweck werden zunächst für jeden Rahmen Informationen in Bezug auf Spitzen und Täler, die der harmonischen Struktur von Spektren entsprechen, als lokale Spitzen-Gewichtungen (LPWs), wie in 10(b) gezeigt, auf der Grundlage von Eingabespektren erhalten. Ein Verfahren zum Berechnen einer LPW wird im Folgenden beschrieben. Dann wird eine neue Gewichtung erhalten, indem das Produkt aus einer Mel-FB-Gewichtung (Mel-FB Weight) und einer LPW berechnet wird, wobei das Ergebnis der Normierung der neuen Gewichtung durch Dividieren der neuen Gewichtung durch die Gesamtsumme für die Filterbank als eine LPW-Mel-FB-Gewichtung (LPW-Mel-FB Weight) definiert ist, wie in der Formel gezeigt ist. $\begin{array}{l} L P W_M e l_F B_W e i g h t (j, i) \\ = \frac{L P W (i) \cdot M e l_F B_W e i g h t (j, i)}{\sum_{k} L P W (k) \cdot M e l_F B_W e i g h t (j, k)} \end{array}$
10(c) ist ein Diagramm, das eine LPW-Mel-FB-Gewichtung zeigt, die auf diese Weise erhalten wurde. In der zweiten und dritten Ausführungsform können die ersten Mel-Filterbank-Verarbeitungseinheiten 705 und 805 und die zweiten Mel-Filterbank-Verarbeitungseinheiten 720 und 825 unter Verwendung einer LPW-Mel-FB-Gewichtung anstelle einer Mel-FB-Gewichtung eine Transformation ausführen, wie in den folgenden Formeln gezeigt ist. $Δ S_{t} (j) = \sum_{i} Δ s_{t} (i) \cdot L P W_M e l_F B_W e i g h t (j, i)$
$ΔΔ S_{t} (j) = \sum_{i} ΔΔ s_{t} (i) \cdot L P W_M e l_F B_W e i g h t (j, i)$
Die LPW-Mel-FB-Gewichtung wird verwendet, um die Robustheit gegen Breitbandstörgeräusche zu verbessern. Wenn z.B. das Störgeräusch Musik oder die Äußerung einer anderen Person ist oder wenn keine Störgeräusche vorhanden sind und lediglich Mehrfachreflexion vorhanden ist, braucht keine LPW-Mel-FB-Gewichtung verwendet werden.
Unter Bezugnahme auf 11 wird im Folgenden ein Verfahren zum Erzeugen einer LPW beschrieben. Das Verfahren zum Erzeugen einer LPW ist grundsätzlich das gleiche wie ein Verfahren zum Erzeugen eines Signalverbesserungsfilters zur Signalverbesserung bei beobachteter Sprache, wie in der Patent-Literaturangabe 1 beschrieben, die eine Erfindung durch die Erfinder offenbart. Der Prozess beginnt vom Schritt 1100. Ein logarithmisches Leistungsspektrum Y_t des Spektrums s_t an dem t-ten Rahmen von beobachteter Sprache wird zuerst gemäß der folgenden Formel erhalten. $Y_{t} (i) = log ({| s_{t} (i) |}^{2})$
Dann wird eine diskrete Cosinus-Transformation an dem logarithmischen Leistungsspektrum Y_t gemäß der folgenden Formel ausgeführt, um ein Cepstrum R_t zu erhalten (Schritt 1105). $R_{t} (h) = D C T (Y_{t} (i))$
In Formel 26 repräsentiert das Symbol DCT eine Transformation durch die diskrete Cosinus-Transformationsmatrix D(h,j) in Formel 9. Da das Cepstrum R_t ein Koeffizient ist, bei dem das Konturmerkmal eines logarithmischen Spektrums extrahiert ist, bleiben gemäß der folgenden Formel lediglich Terme in einem Bereich übrig, der der harmonischen Struktur einer menschlichen Äußerung entspricht, und die anderen Terme werden abgeschnitten (Schritt 1110). ${\begin{array}{l} {\hat{R}}_{t} (h) = ε \cdot R_{t} (h), & \begin{array}{l} h < l o w e r_c e p_n u m \\ oder h < u p p e r_c e p_n u m \end{array} \\ {\hat{R}}_{t} (h) = R_{t} (h), & für andere h \end{array}$
In Formel 27 ist ε Null oder eine sehr kleine Konstante.
Darüber hinaus entsprechen lower_cep_num und upper_cep_num einem möglichen Bereich als eine harmonische Struktur. Bei Bewertungsexperimenten, die im Folgenden beschrieben werden, wird unter der Annahme, dass die Grundfrequenz einer menschlichen Äußerung in den Bereich 100 Hz bis 400 Hz fällt, lower_cep_num auf 40 gesetzt, und upper_cep_num wird auf 160 gesetzt. Diese Werte sind beispielhafte Einstellungen in einem Fall, bei dem die Abtastfrequenz 16 kHz beträgt und die FFT-Breite 512 Punkte beträgt.
Dann wird das Cepstrum R_t , nachdem es verarbeitet wurde, zurück in den Bereich des logarithmischen Spektrums transformiert, indem eine inverse diskrete Cosinus-Transformation ausgeführt wird, wie in der folgenden Formel gezeigt ist (Schritt 1115). $W_{t} (i) = D C T^{- 1} ({\hat{R}}_{t} (h))$
In Formel 28 repräsentiert das Symbol DCT^-1 eine Transformation durch die inverse Matrix der diskrete Cosinus-Transformationsmatrix D(h,j) in 9.
In dem letzten Schritt 1120 wird das Ergebnis der Ausführung einer inversen diskreten Cosinus-Transformation zuerst von dem Bereich des logarithmischen Spektrums zurück in den Bereich des Leistungsspektrums gemäß Formel 29 transformiert. Dann wird eine Normierung gemäß Formel 30 ausgeführt, so dass der Mittelwert Eins wird, um schließlich ein LPW zu erzeugen. Dann ist der Prozess abgeschlossen. $w_{t} (i) = exp (W_{t} (i))$
$L P W_{t} (i) = w_{t} (i) \cdot \frac{N u m_b i n}{\sum_{k} w_{t} (k)}$
In Formel 30 ist Num_bin die Gesamtzahl von Frequenzgruppen.
Viertes Beispiel
12(a) zeigt die funktionalen Komponenten einer Delta-Merkmal-Berechnungseinheit in einer Vorrichtung zur Extraktion von Sprachmerkmalen gemäß einem vierten Beispiel. Die Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem vierten Beispiel ist derart, dass den Komponenten der Einheit zur Berechnung statischer Merkmale, die unter Bezugnahme auf 5 beschrieben wurden, eine erste Differenzberechnungseinheit 1215 hinzugefügt wurde. Die erste Differenzberechnungseinheit 1215 ist so an einer Position angeordnet, dass eine Operation durch die erste Differenzberechnungseinheit 1215 nach Operationen in den anderen Komponenten ausgeführt wird, wie in 12(a) gezeigt ist.
Eine Mel-Filterbank-Verarbeitungseinheit 1200, eine Logarithmus-Berechnungseinheit 1205 und eine Einheit 1210 zur diskreten Cosinus-Transformation, die in 12(a) gezeigt sind, haben jeweils die gleiche Funktion wie eine entsprechende Komponente in der Einheit zur Berechnung statischer Merkmale, die unter Bezugnahme auf 5 beschrieben wurde, außer dass sich die Eingaben und Ausgaben jeweils unterscheiden. Darüber hinaus hat die erste Differenzberechnungseinheit 1215, die in 12(a) gezeigt ist, die gleiche Funktion wie die erste Differenzberechnungseinheit 600 in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der ersten Ausführungsform, außer dass sich die Eingaben und Ausgaben jeweils unterscheiden. Deswegen wird die Beschreibung der entsprechenden Funktionen der Komponenten weggelassen, um eine Wiederholung zu vermeiden.
Ein Wert, der in die in 12(a) gezeigte Mel-Filterbank-Verarbeitungseinheit 1200 einzugeben ist, unterscheidet sich jedoch von dem, der in die in 5 gezeigte Mel-Filterbank-Verarbeitungseinheit 500 einzugeben ist, und ist die Summe aus dem Spektrum s_t eines Sprachsignals, das für jede Frequenzgruppe in Rahmen segmentiert ist, und dem mittleren Spektrum s für die Frequenzgruppe. Da ein derartiger Wert in die Delta-Merkmal-Berechnungseinheit eingegeben wird, ist ein Wert, der schließlich als ein Delta-Merkmal erhalten wird, d.h. die Ausgabe der ersten Differenzberechnungseinheit 1215, im Wesentlichen gleichwertig mit dem Delta-Merkmal, das von der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform ausgegeben wird, die eine Normierung durch die Verwendung der durch die Formel 21 ausgedrückte Funktion F ausführt. Die Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem vierten Beispiel kann dagegen konfiguriert werden, indem eine vorhandene Einheit zur Extraktion statischer Merkmale geringfügig geändert wird, und ist deshalb der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform vorzuziehen.
Die Ausgabe der ersten Differenzberechnungseinheit 1215, die schließlich als ein Delta-Merkmal erhalten wird, wird durch die folgende Formel ausgedrückt. $Δ C 1_{t} = \frac{\sum_{θ = 1}^{Θ} θ (C 1_{t + θ} - C 1_{t - θ})}{2 \sum_{θ = 1}^{Θ} θ^{2}}$
wobei $C 1_{t} = D C T (S 1_{t}^{'}),$
$S 1_{t}^{'} = log S 1_{t},$
$S 1_{t} = \sum_{i} (s {(i)}_{t} + \bar{s (i)}) \cdot M e l_F B_W e i g h t (j, i)$
In Formel 31 ist die Filterbanknummer j weggelassen.
Fünftes Beispiel
12(b) zeigt die funktionalen Komponenten einer Delta-Merkmal-Berechnungseinheit in einer Vorrichtung zur Extraktion von Sprachmerkmalen gemäß einem fünften Beispiel. Die Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem fünften Beispiel enthält grundsätzlich die gleichen Komponenten wie die Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem vierten Beispiel mit der Ausnahme, dass der Zeitpunkt des Hinzufügens des mittleren Spektrums s nach (nicht vor) einer Operation durch eine Mel-Filterbank-Verarbeitungseinheit 1220 liegt. Da jedoch das mittlere Spektrum s an dem oben erwähnten Zeitpunkt hinzugefügt werden muss, wird in der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem fünften Beispiel eine Mittelwert-Berechnungseinheit 1225 den Komponenten der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem vierten Beispiel neu hinzugefügt.
In 12(b) wird das Mel-Spektrum S_t von der Mel-Filterbank-Verarbeitungseinheit 1220 in die Mittelwert-Berechnungseinheit 1225 eingegeben. Dann berechnet die Mittelwert-Berechnungseinheit 1225 für jede Filterbank das mittlere Mel-Spektrum s , das der Mittelwert des Mel-Spektrums S_t über alle Rahmen ist, um das mittlere Mel-Spektrum s an die Logarithmus-Berechnungseinheit 1230 auszugeben. Das Mel-Spektrum S_t von der Mel-Filterbank-Verarbeitungseinheit 1220 und das mittlere Mel-Spektrum s von der Mittelwert-Berechnungseinheit 1225 werden in die Logarithmus-Berechnungseinheit 1230 eingegeben. Dann berechnet die Logarithmus-Berechnungseinheit 1230 den Logarithmus der Summe aus Mel-Spektrum S_t und mittlerem Mel-Spektrum s , um die Summe an eine Einheit 1235 zur diskreten Cosinus-Transformation auszugeben.
Die anderen Komponenten, die in 12(b) gezeigt sind, d.h. die Mel-Filterbank-Verarbeitungseinheit 1220, die Einheit zur diskreten Cosinus-Transformation 1235 und eine erste Differenzberechnungseinheit 1240 haben jeweils die gleiche Funktion wie eine entsprechende Komponente in der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem vierten Beispiel, außer dass sich die Eingaben und Ausgaben jeweils unterscheiden. Deswegen wird eine Beschreibung der anderen Komponenten weggelassen.
In der Delta-Merkmal-Berechnungseinheit gemäß dem fünften Beispiel ist ein Wert, der schließlich als ein Delta-Merkmal erhalten wird, d.h. die Ausgabe der ersten Differenzberechnungseinheit 1240, im Wesentlichen gleichwertig mit einem Delta-Merkmal, das von der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform ausgegeben wird, die eine Normierung durch die Verwendung der durch die Formel 21 ausgedrückten Funktion F ausführt. Die Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem fünften Beispiel kann andererseits konfiguriert werden, indem eine vorhandene Einheit zum Extrahieren statischer Merkmale geringfügig geändert wird, und ist deswegen der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform vorzuziehen.
Die Ausgabe der ersten Differenzberechnungseinheit 1240, die schließlich als ein Delta-Merkmal erhalten wird, wird durch die folgende Formel ausgedrückt. $Δ C 2_{t} = \frac{\sum_{θ = 1}^{Θ} θ (C 2_{t + θ} - C 2_{t - θ})}{2 \sum_{θ = 1}^{Θ} θ^{2}}$
wobei $C 2_{t} = D C T (S 2_{t}^{'}),$
$S 2_{t}^{'} = log (S_{t} + \bar{S}),$
${\bar{S}}_{t} = \sum_{i} s {(i)}_{t} \cdot M e l_F B_W e i g h t (j, i)$
In Formel 32 ist die Filterbanknummer j weggelassen.
13(a) ist ein Ablaufplan, der ein Beispiel des Ablaufs eines Prozesses zum Extrahieren von Delta-Sprachmerkmalen in der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem vierten Beispiel zeigt. Der Prozess beginnt am Schritt 1300. Die Summe aus dem Spektrum s _t eines Sprachsignals, das in jedem Rahmen für jede Frequenzgruppe in Rahmen segmentiert ist, und dem mittleren Spektrum s über alle Sprache darstellenden Rahmen, wird in die Mel-Filterbank-Verarbeitungseinheit 1200 eingegeben. Dann multipliziert die Mel-Filterbank-Verarbeitungseinheit 1200 für jeden Rahmen die oben erwähnte Summe für jede Frequenzgruppe mit der Gewichtung einer Mel-Filterbank, um die Produkte zu summieren und ihre Ausgabe S1_t in einem Speicherbereich wie etwa in dem in 3 gezeigten RAM 330 zu speichern.
Dann liest die Logarithmus-Berechnungseinheit 1205 S1_t von dem Speicherbereich und berechnet für jeden Rahmen den Logarithmus von S1_t für jede Filterbank, um ihre Ausgabe S1_t' in dem Speicherbereich zu speichern (Schritt 1305). Die Einheit 1210 zur diskreten Cosinus-Transformation liest S1_t' von dem Speicherbereich und führt für jeden Rahmen eine diskrete Cosinus-Transformation an S1_t' für jede Filterbank aus, um ihre Ausgabe C1_t in dem Speicherbereich zu speichern (Schritt 1310).
Schließlich liest die erste Differenzberechnungseinheit 1215 C1_t von dem Speicherbereich und berechnet für jeden Rahmen eine Differenz ΔC1_t von C1_t für jede Filterbank zwischen fortlaufenden Rahmen als ein Delta-Merkmal (Schritt 1315). Dann ist der Prozess abgeschlossen.
13(b) ist ein Ablaufplan, der ein Beispiel des Ablaufs des Prozesses zum Extrahieren von Delta-Sprachmerkmalen in der Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem fünften Beispiel zeigt. Der Prozess beginnt am Schritt 1320. Das Spektrum eines Sprachsignals, das für jede Frequenzgruppe in jedem Rahmen in Rahmen segmentiert ist, wird in die Mel-Filterbank-Verarbeitungseinheit 1220 eingegeben. Dann multipliziert die Mel-Filterbank-Verarbeitungseinheit 1220 für jeden Rahmen das Spektrum für jede Frequenzgruppe mit der Gewichtung einer Mel-Filterbank, um die Produkte zu summieren und das Mel-Spektrum S für jede Filterbank zu berechnen und das Mel-Spektrum S in einem Speicherbereich wie etwa dem in 3 gezeigten RAM 330 zu speichern.
Dann liest die Mittelwert-Berechnungseinheit 1225 das Mel-Spektrum S für jede Filterbank in jedem Rahmen von dem Speicherbereich und berechnet für jede Filterbank das mittlere Mel-Spektrum s über alle Sprache darstellenden Rahmen, um das mittlere Mel-Spektrum s in dem Speicherbereich zu speichern (Schritt 1325). Dann liest die Logarithmus-Berechnungseinheit 1230 das Mel-Spektrum S für jede Filterbank und das mittlere Mel-Spektrum s für jede Filterbank in jedem Rahmen von dem Speicherbereich und berechnet den Logarithmus einer Summe S2_t aus dem Mel-Spektrum S für jede Filterbank und dem mittleren Mel-Spektrum s für die Filterbank, um ihre Ausgabe S2_t' in dem Speicherbereich zu speichern (Schritt 1330).
Dann liest die Einheit 1235 zur diskreten Cosinus-Transformation S2_t' von dem Speicherbereich und führt für jeden Rahmen eine diskrete Cosinus-Transformation an S2_t' für jede Filterbank aus, um ihre Ausgabe C2_t in dem Speicherbereich zu speichern (Schritt 1335). Schließlich liest die erste Differenzberechnungseinheit 1240 C2_t von dem Speicherbereich und berechnet für jeden Rahmen eine Differenz ΔC2_t von C2_t für jede Filterbank zwischen fortlaufenden Rahmen als ein Delta-Merkmal (Schritt 1340). Dann ist der Prozess abgeschlossen.
14 zeigt die funktionalen Komponenten einer Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem vierten (oder fünften) Beispiel Die Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem vierten (oder fünften) Beispiel enthält eine zweite Differenzberechnungseinheit 1400. Die zweite Differenzberechnungseinheit 1400 hat die gleiche Funktion wie die erste Differenzberechnungseinheit 1215 (oder die erste Differenzberechnungseinheit 1240) in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem vierten (oder fünften) Beispiel, außer dass sich die Eingaben und Ausgaben jeweils unterscheiden.
Das heißt, die Ausgabe von der ersten Differenzberechnungseinheit 1215 (oder der ersten Differenzberechnungseinheit 1240), d.h. das Delta-Mel-Cepstrum ΔC1_t (oder ΔC2_t ), das durch die Formel 31 (oder die Formel 32) ausgedrückt wird, wird in die zweite Differenzberechnungseinheit 1400 eingegeben. Dann berechnet die zweite Differenzberechnungseinheit 1400 für jeden Rahmen ein Delta-Mel-Cepstrum ΔΔC1_t (oder ΔΔC2_t ), das eine Differenz des Delta-Mel-Cepstrums ΔC1_t (oder ΔC2_t ) für jede Filterbank zwischen fortlaufenden Rahmen eines Delta-Delta-Merkmals ist. Die Ausgabe der zweiten Differenzberechnungseinheit 1400 wird durch die folgende Formel ausgedrückt. $ΔΔ C_{t} = \frac{\sum_{θ = 1}^{Θ} θ (Δ C_{t + θ} - Δ C 2_{t - θ})}{2 \sum_{θ = 1}^{Θ} θ^{2}}$
wobei $Δ C_{t} = Δ C 1_{t}$
or $Δ C_{t} = Δ C 2_{t}$
In Formel 33 ist die Filterbanknummer j weggelassen.
15 ist ein Ablaufplan, der ein Beispiel des Ablaufs des Prozesses zum Extrahieren von Delta-Delta-Merkmalen in der Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß dem vierten (oder fünften) Beispiel zeigt. Der Prozess beginnt am Schritt 1500. Die Ausgabe von der ersten Differenzberechnungseinheit 1215 (oder der ersten Differenzberechnungseinheit 1240), d.h. das Delta-Mel-Cepstrum ΔC1_t (oder ΔC2_t ), das durch die Formel 31 (oder die Formel 32) ausgedrückt wird, wird in die zweite Differenzberechnungseinheit 1400 eingegeben. Dann berechnet die zweite Differenzberechnungseinheit 1400 für jeden Rahmen das Delta-Delta-Mel-Cepstrum ΔΔC1_t (oder ΔΔC2_t ), das eine Differenz des Delta-Mel-Cepstrums ΔC1_t (oder ΔC2_t )ist, für jede Filterbank zwischen fortlaufenden Rahmen als ein Delta-Delta-Merkmal. Dann ist der Prozess abgeschlossen.
Bewertungsexperimente der Spracherkennung, bei denen Merkmale, die durch die vorliegende Erfindung vorgeschlagen werden, verwendet werden, werden im Folgenden unter Bezugnahme auf die 16 bis 18 beschrieben. Bei den Bewertungsexperimenten, die unter Bezugnahme auf die 16 und 17 beschrieben werden, wurde die Datenbank Corpus and Environments for Noisy Speech RECognition (CENSREC)-4 zum Bewerten einer Umgebung mit Mehrfachreflexion verwendet, die durch die Arbeitsgruppe zur Bewertung der Erkennung von Sprache mit überlagerten Störungen der Gesellschaft zur Informationsverarbeitung von Japan (IPSJ) SIG-SLP erzeugt wurde.
Bei CENSREC-4 wird eine Umgebung mit Mehrfachreflexion simuliert durch das Überlagern von Impulsantworten in verschiedenen Umgebungen mit Mehrfachreflexion auf störungsfreie Quellen, bei denen es sich um aufgezeichnete Sprache ohne Mehrfachreflexion und Störgeräusche handelt. Bei CENSREC-4 werden entsprechende Bewertungen unter den zwei Bedingungen Rein und Mehrfach geschaffen. Bei der Bedingung Rein wird eine Spracherkennung ausgeführt, wobei ein akustisches Modell verwendet wird, bei dem das Lernen mit Sprache ohne Mehrfachreflexion ausgeführt wurde. Bei der Bedingung Mehrfach wird dagegen eine Spracherkennung ausgeführt, wobei ein akustisches Modell verwendet wird, bei dem das Lernen mit einer Sprache mit Mehrfachreflexion ausgeführt wurde. Bei beiden Bewertungen unter den Bedingungen wurde dann, wenn eine Spracherkennung ausgeführt wird, d.h. wenn eine Prüfung ausgeführt wird, Sprachdaten mit Mehrfachreflexion verwendet.
Die Prüfeinstellungen bei CENSREC-4 werden in zwei Typen A und B klassifiziert. Eine Prüfeinstellung in einer Umgebung mit Mehrfachreflexion, die mit einer Umgebung beim Lernen eines akustischen Modells unter der Bedingung Mehrfach übereinstimmt, ist als Prüfeinstellung A definiert, und eine Prüfeinstellung in einer Umgebung mit Mehrfachreflexion, die sich von einer Umgebung beim Lernen eines akustischen Modells unter der Bedingung Mehrfach unterscheidet, ist als eine Prüfeinstellung B definiert. Darüber hinaus enthalten die Prüfeinstellungen A und B jeweils entsprechende Prüfungen in vier verschiedenen Umgebungen, wie in den 16 bzw. 17 gezeigt ist.
Merkmale, die als Grundlage in CENSREC-4 definiert sind, sind ein 39-dimensionaler Vektor mit 12 MFCC-Dimensionen als statische Merkmale, 12 Delta-MFCC-Dimensionen als Delta-Merkmale, 12 Delta-Delta-MFCC-Dimensionen als Delta-Delta-Merkmale und folgende drei Dimensionen: der Logarithmus der Sprachleistung und Delta-Werte und Delta-Delta-Werte. Das heißt, in CENSREC-4 wird ein akustisches Modell konstruiert unter Verwendung der Merkmale des oben erwähnten 39-dimensionalen Vektors und unter den beiden Bedingungen Rein und Mehrfach.
Die Erfinder führten die folgenden beiden Bewertungsexperimente aus.
Bewertungsexperiment 1: Die jeweiligen Zeichenfolgen-Erkennungsraten der folgenden beiden Fälle werden verglichen: ein Fall, bei dem lediglich die 12 MFCC-Dimensionen des statischen Merkmals verwendet werden, und ein Fall, bei dem 24 Dimensionen, die die 12 MFCC-Dimensionen des statischen Merkmals und die 12 Dimensionen des Delta-Merkmals enthalten, verwendet werden. Dabei wurden zwei Typen von Delta-Merkmalen bewertet: die 12 Delta-MFCC-Dimensionen und lineare 12 Dimensionen des Delta-Merkmals, die durch die Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform berechnet wurden.
Bewertungsexperiment 2: Die jeweiligen Zeichenfolgen-Erkennungsraten der folgenden beiden Fälle werden verglichen: ein Fall, bei dem die grundlegenden 39 Dimensionen jeweils durch die linearen Delta-Merkmale und die linearen Delta-Delta-Merkmale der vorliegenden Erfindung ersetzt werden (siehe ein Feld „linear Δ“ in einer Tabelle von 17) und ein Fall, bei dem die grundlegenden 39 Dimensionen intakt bleiben (siehe ein Feld „Basis“ in der Tabelle von 17). Lineare Delta-Merkmale und lineare Delta-Delta-Merkmale, die durch die Delta-Merkmal-Berechnungseinheit bzw. die Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform berechnet werden, werden als lineare Delta-Merkmale und lineare Delta-Delta-Merkmale der vorliegenden Erfindung verwendet.
16 zeigt die Ergebnisse des Bewertungsexperiments 1. Die Ergebnisse des Bewertungsexperiments 1 ergeben die folgenden Erkenntnisse. Die Verwendung der 12 Dimensionen des Delta-Merkmals in Kombination verbessern die Spracherkennungsrate gegenüber jener in einem Fall, wenn lediglich 12 MFCC-Dimensionen des statischen Merkmals verwendet werden. Darüber hinaus wird die Spracherkennungsrate weiter verbessert durch die Verwendung der linearen Delta-Merkmale der vorliegenden Erfindung anstelle von Delta-MFCCs, die bisher häufig als Delta-Merkmale verwendet wurden. Zum Beispiel wird unter der Bedingung Rein die mittlere Spracherkennungsrate der Prüfeinstellungen A und B von 35,8 % in einem Fall, wenn Delta-MFCCs verwendet werden, auf 59,2 % erheblich verbessert. Sogar unter der Bedingung Mehrfach wird die mittlere Spracherkennungsrate der Prüfeinstellungen A und B von 71,9 % in einem Fall, wenn Delta-MFCC verwendet werden, auf 81,5 % verbessert.
17 zeigt die Ergebnisse des Bewertungsexperiments 2. Sogar im Bewertungsexperiment 2 wird die Spracherkennungsrate durch die Verwendung der linearen Delta-Merkmale und der linearen Delta-Delta-Merkmale der vorliegenden Erfindung weiter verbessert. Zum Beispiel wird unter der Bedingung Rein die mittlere Spracherkennungsrate der Prüfeinstellungen A und B von 65,2 % auf der bekannten Basis auf 73,1 % verbessert. Sogar unter der Bedingung Mehrfach wird die mittlere Spracherkennungsrate der Prüfeinstellungen A und B von 75,2 % auf der bekannten Basis auf 82,7 % verbessert.
Die linearen Delta-Merkmale und die linearen Delta-Delta-Merkmale der vorliegenden Erfindung verbessern die Spracherkennungsrate in einer Umgebung mit Mehrfachreflexion beträchtlich, wie oben beschrieben wurde, und die Bewertungsexperimente 1 und 2 zeigen die Wirksamkeit der linearen Delta-Merkmale und der linearen Delta-Delta-Merkmale der vorliegenden Erfindung als Merkmale in einer Umgebung mit Mehrfachreflexion.
In dem Bewertungsexperiment, das unter Bezugnahme auf 18 beschrieben wird, wird die Datenbank Corpus and Environments for Noisy Speech RECognition (CENSREC)-3 zum Bewerten einer Umgebung mit Störgeräuschen verwendet, die durch die Arbeitsgruppe zur Bewertung der Erkennung von Sprache mit überlagerten Störungen der Gesellschaft zur Informationsverarbeitung von Japan (IPSJ) SIG-SLP erzeugt wurde.
Bei CENSREC-3 wird Sprache, die in verschiedenen Umgebungen mit Störgeräuschen in einem Fahrzeug geäußert wird, aufgezeichnet und die Spracherkennungsrate kann unter den Fahrbedingungen wie etwa Halt, Stadtfahrt oder Hochgeschwindigkeitsfahrt und jeder Bedingung von z.B. Gebläse einer Klimaanlage, Öffnung von Fenstern oder Wiedergabe von Musik berechnet werden. Merkmale, die als Basis in CENSREC-3 definiert sind, sind die gleichen 39 Dimensionen wie beim oben erwähnten CENSREC-4. Die Erfinder führten unter Verwendung von CENSREC-3 das folgende Bewertungsexperiment aus.
Die jeweiligen Worterkennungsraten (Genauigkeiten in %) der folgenden beiden Fälle werden verglichen: ein Fall, bei dem die grundlegenden 39 Dimensionen intakt bleiben (siehe ein Feld „Basis“ in einer Tabelle von 18), und ein Fall, bei dem die MFCCs, Delta-MFCCs und Delta-Delta-MFCCs in den grundlegenden 39 Dimensionen durch jene ersetzt wurden, die durch die Verwendung von LPW-Mel-FB-Gewichtungen anstelle von Mel-FB-Gewichtungen erhalten werden (siehe ein Feld „LPW-Mel“ in der Tabelle von 18).
Darüber hinaus werden die jeweiligen Worterkennungsraten (Genauigkeiten in %) der folgenden beiden Fälle verglichen: der Fall, bei dem die grundlegenden 39 Dimensionen intakt bleiben, und ein Fall, bei dem die Delta-Merkmale und die Delta-Delta-Merkmale in den grundlegenden 39 Dimensionen durch lineare Delta-Merkmale bzw. lineare Delta-Delta-Merkmale der vorliegenden Erfindung ersetzt wurden (siehe ein Feld „linear Δ“ in der Tabelle von 18). In diesem Fall wurden lineare Delta-Merkmale und lineare Delta-Delta-Merkmale, die durch die Delta-Merkmal-Berechnungseinheit bzw. die Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform berechnet wurden, als die linearen Delta-Merkmale und die linearen Delta-Delta-Merkmale der vorliegenden Erfindung verwendet.
Darüber hinaus werden die Worterkennungsraten (Genauigkeiten in %) der folgenden beiden Fälle verglichen: der Fall, bei dem die grundlegenden 39 Dimensionen intakt bleiben, und ein Fall, bei dem die linearen Delta-Merkmale und linearen Delta-Delta-Merkmale, die durch die Delta-Merkmal-Berechnungseinheit bzw. die Delta-Delta-Merkmal-Berechnungseinheit in der Vorrichtung zur Extraktion von Sprachmerkmalen gemäß der dritten Ausführungsform berechnet werden, wobei die Delta-Merkmal-Berechnungseinheit und die Delta-Delta-Merkmal-Berechnungseinheit anstelle von Mel-FB-Gewichtungen LPW-Mel-FB-Gewichtungen verwenden, als die linearen Delta-Merkmale und die linearen Delta-Delta-Merkmale der vorliegenden Erfindung verwendet werden (siehe ein Feld „LPW-Mel + linear Δ“ in der Tabelle von 18).
18 zeigt die Ergebnisse des Bewertungsexperiments 2. Ein Vergleich von „Basis“ mit „linear Δ“ zeigt, dass die Worterkennungsrate (Genauigkeit in %) insgesamt 78,9 % für „Basis“ und 83,3 % für „linear Δ“ beträgt, und somit wurde die Worterkennungsrate durch die Verwendung der linearen Delta-Merkmale und der linearen Delta-Delta-Merkmale der vorliegenden Erfindung verbessert. Insbesondere die Verbesserungen zum Zeitpunkt des geöffneten Fensters und bei maximalem Gebläse bei Hochgeschwindigkeitsfahrt sind hervorstechend. Sogar für Musikgeräusch wird eine Verbesserung erreicht. Dadurch kann festgestellt werden, dass die linearen Delta-Merkmale und die linearen Delta-Delta-Merkmale der vorliegenden Erfindung in einem großen Bereich wirksam sind.
Darüber hinaus zeigt ein Vergleich von „Basis“ mit „LPW-Mel“, dass die Worterkennungsraten (Genauigkeiten in %) von „LPW-Mel“ höher sind als jene von „Basis“ mit der Ausnahme bei Musikgeräusch, und somit werden Verbesserungen erreicht. Insbesondere sind Verbesserungen zum Zeitpunkt des geöffneten Fensters und bei maximalem Gebläse bei Hochgeschwindigkeitsfahrt hervorstechend. Des Weiteren zeigt ein Vergleich von „Basis“ mit "LPW-Mel + linear Δ), dass die Worterkennungsrate (Genauigkeit in %) zum Zeitpunkt des geöffneten Fensters bei Hochgeschwindigkeitsfahrt 22,2 % für „Basis“ und 46,6 % für „LPW-Mel + linear A“ beträgt, und die Worterkennungsrate (Genauigkeit in %) zum Zeitpunkt des maximalen Gebläses bei Hochgeschwindigkeitsfahrt 58,2 % für „Basis“ und 74,9 % für „LPW-Mel + linear Δ“ beträgt. Somit kann festgestellt werden, dass beträchtliche Verbesserungen durch das Kombinieren der linearen Delta-Merkmale und der linearen Delta-Delta-Merkmale der vorliegenden Erfindung mit LPW-Mel-FB erreicht werden können.
Zwar wurde die vorliegende Erfindung unter Verwendung der Ausführungsformen beschrieben, der technische Umfang der vorliegenden Erfindung ist jedoch nicht auf das beschränkt, was in den Ausführungsformen beschrieben wurde. Es ist für einen Fachmann klar, dass verschiedenen Modifikationen oder Verbesserungen in den Ausführungsformen ausgeführt werden können. Die Ausführungsformen, in denen derartige Modifikationen und Verbesserungen erfolgen, sind natürlich durch den technischen Umfang der vorliegenden Erfindung abgedeckt.

Claims

Vorrichtung zur Extraktion von Sprachmerkmalen, wobei die Vorrichtung Folgendes umfasst: eine erste Differenzberechnungseinheit (600, 700, 800) zum Empfangen eines Spektrums für jede einer Mehrzahl von Frequenzgruppen eines Sprachsignals, wobei das Sprachsignal für jede Frequenzgruppe in Rahmen segmentiert ist, und zum Berechnen, für jeden Rahmen jeder Frequenzgruppe, einer Differenz des Spektrums zwischen fortlaufenden Rahmen für die Frequenzgruppe als ein Delta-Spektrum; und eine erste Normierungseinheit (605, 710, 810) zum Ausführen einer Normierung des Delta-Spektrums für jeden Rahmen jeder Frequenzgruppe durch Dividieren des Delta-Spektrums durch eine Funktion des mittleren Spektrums, welches durch einen Mittelwert von Spektren über alle Sprache darstellenden Rahmen gegeben ist.
Vorrichtung zur Extraktion von Sprachmerkmalen nach Anspruch 1, wobei die Funktion des mittleren Spektrums das mittlere Spektrum ist.
Vorrichtung zur Extraktion von Sprachmerkmalen nach Anspruch 1, wobei die Vorrichtung des Weiteren Folgendes umfasst: eine erste Mel-Filter-Verarbeitungseinheit (705; 805) zum Berechnen eines normierten Mel-Delta-Spektrums für jeden Rahmen, wobei das normierte Mel-Delta-Spektrum die Summe über jede Frequenzgruppe der Produkte aus den normierten Delta-Spektren und korrespondierenden Gewichtungen einer Mel-Filterbank ist.
Vorrichtung zur Extraktion von Sprachmerkmalen nach Anspruch 3, wobei die Vorrichtung Folgendes umfasst: eine erste Einheit zur diskreten Cosinus-Transformation zum Ausführen einer diskreten Cosinus-Transformation an dem normierten Mel-Delta-Spektrum für die Filterbank.
Vorrichtung zur Extraktion von Sprachmerkmalen, wobei die Vorrichtung Folgendes umfasst: eine erste Differenzberechnungseinheit (600, 700, 800) zum Empfangen eines Spektrums für jede einer Mehrzahl von Frequenzgruppen eines Sprachsignals, wobei das Sprachsignal für jede Frequenzgruppe in Rahmen segmentiert ist, und zum Berechnen, für jeden Rahmen jeder Frequenzgruppe, einer Differenz des Spektrums zwischen fortlaufenden Rahmen für die Frequenzgruppe als ein Delta-Spektrum; eine erste Mel-Filterbank-Verarbeitungseinheit (705, 805) zum Berechnen eines Mel-Delta-Spektrums jeder Frequenzgruppe, wobei das Mel-Delta-Spektrum die Summe über jede Frequenzgruppe der Produkte aus den Delta-Spektren und korrespondierenden Gewichtungen einer Mel-Filterbank ist; und eine erste Normierungseinheit (605, 710, 810) zum Ausführen einer Normierung des Mel-Delta-Spektrums für die Filterbank durch Dividieren des Mel-Delta-Spektrums durch eine Funktion des mittleren Mel-Spektrums, welches durch einen Mittelwert von Mel-Spektren über alle Sprache darstellenden Rahmen der Filterbank gegeben ist.
Vorrichtung zur Extraktion von Sprachmerkmalen nach Anspruch 5, wobei die Funktion des mittleren Mel-Spektrums das mittlere Mel-Spektrum ist.
Vorrichtung zur Extraktion von Sprachmerkmalen nach Anspruch 5, wobei die Vorrichtung des Weiteren Folgendes umfasst: eine erste Einheit zur diskreten Cosinus-Transformation zum Ausführen einer diskreten Cosinus-Transformation an dem normierten Mel-Delta-Spektrum für die Filterbank.
Vorrichtung zur Extraktion von Sprachmerkmalen nach Anspruch 7, wobei für einen gegebenen Rahmen t und eine gegebene Filterbank j die Funktion des mittleren Mel-Spektrums den größeren Wert aus einem Mel-Spektrum für die Filterbank j für den Rahmen t und dem mittleren Mel-Spektrum für die Filterbank j auswählt.
Vorrichtung zur Extraktion von Sprachmerkmalen nach Anspruch 4 oder 7, wobei die erste Normierungseinheit die Normierung ausführt, indem zusätzlich zu der Division eine logarithmische Komprimierung ausgeführt wird.
Vorrichtung zur Extraktion von Sprachmerkmalen nach Anspruch 4 oder 7, wobei die erste Mel-Filterbank-Verarbeitungseinheit (705; 805) die Produkte aus den normierten Delta-Spektren und korrespondierenden Gewichtungen vor der Summierung zusätzlich mit einem Filter multipliziert, wobei das Filter eine Gewichtung in einem harmonischen Strukturabschnitt in einem Sprachintervall aufweist und in einem sprachlosen Intervall ohne harmonische Struktur eben ist.
Vorrichtung zur Extraktion von Sprachmerkmalen nach Anspruch 4 oder 7, wobei die Vorrichtung des Weiteren Folgendes umfasst: eine Berechnungseinheit zur Berechnung eines Mel-Frequenz-Cepstrum-Koeffizienten (MFCC).
Vorrichtung zur Extraktion von Sprachmerkmalen nach Anspruch 5, wobei die Vorrichtung des Weiteren Folgendes umfasst: eine zweite Differenzberechnungseinheit (610, 715, 820) zum Empfangen des Delta-Spektrums als eine Eingabe und zum Berechnen, für jeden Rahmen jeder Frequenzgruppe, einer Differenz des Delta-Spektrums zwischen fortlaufenden Rahmen als ein Delta-Delta-Spektrum; eine zweite Mel-Filterbank-Verarbeitungseinheit (720, 825) zum Berechnen eines Mel-Delta-Spektrums für jeden Rahmen, wobei das Mel-Delta-Spektrum die Summe über jede Frequenzgruppe der Produkte aus den Delta-Delta-Spektren und korrespondierenden Gewichtungen einer Mel-Filterbank ist; und eine zweite Normierungseinheit (615, 725, 830) zum Ausführen einer Normierung des Mel-Delta-Delta-Spektrums für die Filterbank für jeden Rahmen durch Dividieren des Mel-Delta-Delta-Spektrums durch die Funktion des mittleren Mel-Spektrums.
Vorrichtung zur Extraktion von Sprachmerkmalen nach Anspruch 7, wobei die Vorrichtung des Weiteren Folgendes umfasst: eine zweite Differenzberechnungseinheit (610, 715, 820) zum Empfangen des Delta-Spektrums als eine Eingabe und zum Berechnen, für jeden Rahmen jeder Frequenzgruppe, einer Differenz des Delta-Spektrums zwischen fortlaufenden Rahmen als ein Delta-Delta-Spektrum; eine zweite Mel-Filterbank-Verarbeitungseinheit (720, 825) zum Berechnen eines Mel-Delta-Delta-Spektrums für jeden Rahmen, wobei das Mel-Delta-Delta-Spektrum die Summe über jede Frequenzgruppe der Produkte aus den Delta-Delta-Spektren und korrespondierenden Gewichtungen einer Mel-Filterbank ist; eine zweite Normierungseinheit (615, 725, 830) zum Ausführen einer Normierung des Mel-Delta-Delta-Spektrums für die Filterbank für jeden Rahmen durch Dividieren des Mel-Delta-Delta-Spektrums durch die Funktion des mittleren Mel-Spektrums für die Filterbank; und eine zweite Einheit zur diskreten Cosinus-Transformation (835) zum Ausführen einer diskreten Cosinus-Transformation an dem normierten Mel-Delta-Delta-Spektrum für die Filterbank.
Programmprodukt zur Extraktion von Sprachmerkmalen, wobei das Programmprodukt zur Extraktion von Sprachmerkmalen in einem Computer, der einen Prozessor und einen Speicherbereich enthält, ausgeführt wird, wobei das Programmprodukt zur Extraktion von Sprachmerkmalen bewirkt, dass der Computer die folgenden Schritte durch den Prozessor ausführt: Empfangen eines Spektrums eines Sprachsignals, das für jede Frequenzgruppe in Rahmen segmentiert wurde, Berechnen einer Differenz des Spektrums zwischen fortlaufenden Rahmen für jeden Rahmen jeder Frequenzgruppe als ein Delta-Spektrum und Speichern des Delta-Spektrums in dem Speicherbereich; Berechnen eines Mel-Delta-Spektrums jeder Frequenzgruppe, wobei das Mel-Delta-Spektrum die Summe über jede Frequenzgruppe der Produkte aus den Delta-Spektren und korrespondierenden Gewichtungen einer Mel-Filterbank ist, und Speichern des Mel-Delta-Spektrums in dem Speicherbereich; Ausführen einer Normierung des Mel-Delta-Spektrums für die Filterbank für den Rahmen durch Dividieren des Mel-Delta-Spektrums durch eine Funktion des mittleren Mel-Spektrums, das durch einen Mittelwert von Mel-Spektren über alle Sprache darstellenden Rahmen der Filterbank gegeben ist, und Speichern des normierten Mel-Delta-Spektrums in dem Speicherbereich; und Lesen des normierten Mel-Delta-Spektrums für die Filterbank von dem Speicherbereich und Ausführen einer diskreten Cosinus-Transformation an dem normierten Mel-Delta-Spektrum.
Programmprodukt zur Extraktion von Sprachmerkmalen nach Anspruch 14, wobei für einen gegebenen Rahmen t und eine gegebene Filterbank j die Funktion F des mittleren Mel-Spektrums den größeren Wert aus einem Mel-Spektrum für die Filterbank j für den Rahmen t und dem mittleren Mel-Spektrum für die Filterbank j auswählt.
Programmprodukt zur Extraktion von Sprachmerkmalen nach Anspruch 14, wobei die Funktion des mittleren Mel-Spektrums das mittlere Mel-Spektrum ist.
Programmprodukt zur Extraktion von Sprachmerkmalen nach Anspruch 14, wobei jedes Produkt aus den normierten Delta-Spektren und korrespondierenden Gewichtungen vor der Summierung zusätzlich mit einem Filter multipliziert wird, wobei das Filter eine Gewichtung in einem harmonischen Strukturabschnitt in einem Sprachintervall aufweist und in einem sprachfreien Intervall ohne harmonische Struktur eben ist.
Verfahren zur Extraktion von Sprachmerkmalen zum Extrahieren eines Sprachmerkmals, wobei das Verfahren zur Extraktion von Sprachmerkmalen in einem Computer ausgeführt wird, der einen Prozessor und einen Speicherbereich enthält, wobei das Verfahren zur Extraktion von Sprachmerkmalen die folgenden Schritte umfasst: Empfangen eines Spektrums für jede einer Mehrzahl von Frequenzgruppen eines Sprachsignals, wobei das Sprachsignal für jede Frequenzgruppe in Rahmen segmentiert ist, Berechnen, für jeden Rahmen jeder Frequenzgruppe, einer Differenz des Spektrums zwischen fortlaufenden Rahmen für die Frequenzgruppe als ein Delta-Spektrum und Speichern des Delta-Spektrums in dem Speicherbereich; Berechnen eines Mel-Delta-Spektrums jeder Frequenzgruppe, wobei das Mel-Delta-Spektrum die Summe über jede Frequenzgruppe der Produkte aus den Delta-Spektren und korrespondierenden Gewichtungen einer Mel-Filterbank ist, und Speichern des Mel-Delta-Spektrums in dem Speicherbereich für den Rahmen; Ausführen einer Normierung des Mel-Delta-Spektrums für die Filterbank durch Dividieren des Mel-Delta-Spektrums durch eine Funktion des mittleren Mel-Spektrums, das durch einen Mittelwert von Mel-Spektren über alle Sprache darstellenden Rahmen der Filterbank gegeben ist, und Speichern des normierten Mel-Delta-Spektrums in dem Speicherbereich; und Lesen des normierten Mel-Delta-Spektrums für die Filterbank und Ausführen einer diskreten Cosinus-Transformation an dem normierten Mel-Delta-Spektrum.