DE102007001255B4

DE102007001255B4 - Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm

Info

Publication number: DE102007001255B4
Application number: DE102007001255.3A
Authority: DE
Inventors: Taisuke Itou; Shoji Hayakawa
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2006-09-20
Filing date: 2007-01-08
Publication date: 2014-01-09
Anticipated expiration: 2027-01-09
Also published as: CN101149928A; KR100870889B1; US20080069364A1; DE102007001255A1; CN101149928B; JP2008076676A; KR20080026456A; JP4757158B2

Abstract

Klangsignal-Verarbeitungsverfahren zum Ausführen einer Signalverarbeitung durch Umsetzen eines Klangsignals, das auf einem erfassten Klang beruht, in ein Spektrum, dadurch gekennzeichnet, dass es die Schritte umfasst: Erfassen eines Klanges; Gewinnen eines Klangsignals, das auf dem erfassten Klang beruht; Umsetzen des gewonnenen Klangsignals in ein Spektrum; Berechnen einer moderaten Spitzenkomponente auf Basis des umgesetzten Spektrums; Entfernen der berechneten moderaten Spitzenkomponente von dem umgesetzten Spektrum; Erfassen einer spektralen Spitze von dem Spektrum, von welchem die berechnete moderate Spitzenkomponente entfernt wurde; Unterdrücken der erfassten spektralen Spitze; und Ausführen einer Spracherkennungsverarbeitung auf Basis des gewonnenen Klangsignals, in welchem die erfasste spektrale Spitze unterdrückt wurde.

Description

HINTERGRUND DER ERFINDUNG
1. Gebiet der Erfindung
Die Erfindung betrifft ein Klangsignal-Verarbeitungsverfahren, das eine Signalverarbeitung vornimmt, indem sie ein Klangsignal, das auf einem erfassten Klang beruht, in ein Spektrum umwandelt, eine Klangsignal-Verarbeitungseinrichtung, die das Klangsignal-Verarbeitungsverfahren ausführt, und ein Computerprogramm, das die Klangsignal-Verarbeitungseinrichtung verwirklicht. Die Erfindung betrifft insbesondere das Unterdrücken von nicht stationären Geräuschen, beispielsweise des elektronischen Klangs einer Vorrichtung, die in dem Klang enthalten ist, der von der Eingabevorrichtung, beispielsweise einem Mikrofon, eingegeben wird, und der Martinshörner von Einsatzfahrzeugen.
2. Beschreibung des Stands der Technik
Bei einer Spracherkennungsfunktion, die in einem Gerät installiert ist, beispielsweise einem Kraftfahrzeug-Navigationssystem, hängt die Spracherkennungsleistung stark davon ab, ob man ein Sprachintervall, das Sprache enthält, exakt erkennen kann. Gängige Verfahren zum Erkennen eines Sprachintervalls umfassen beispielsweise ein Verfahren zum Erkennen eines Sprachintervalls, in dem ein Klangsignal als Sprache erkannt wird, wenn die Leistung, die als Quadrat der Amplitude entlang der Zeitachse berechnet wird, und zwar anhand eines Spektrums, das man gewinnt, indem man das Klangsignal mit einem Umsetzverfahren wie der FFT (Fast Fourier Transform) transformiert, größer oder gleich einem vorbestimmten Grenzwert ist. Gängig ist weiterhin ein Verfahren, bei dem ein Sprachintervall dadurch erkannt wird, dass die Periodizität eines Klangsignals, die so genannte Tonlage, extrahiert wird, und das Klangsignal als Sprache erkannt wird, wenn die Tonlage vorhanden ist, sowie eine Kombination dieser Verfahren.
Es wird nun die Spracherkennungsverarbeitung in einem herkömmlichen Spracherkennungssystem erklärt. 1 zeigt ein Flussdiagramm einer herkömmlichen Spracherkennungsverarbeitung. Das Spracherkennungssystem erfasst einen Klang, der Sprache und Rauschen umfasst, mit einem Mikrophon (S101), konvertiert ein Klangsignal abhängig vom erfassten Klang Frame für Frame in ein Spektrum, wobei die Frames mit einem vorbestimmten Zeitintervall unterteilt werden, und entnimmt die kennzeichnenden Merkmale wie Leistung, Tonlage, Cepstrum usw. aus dem konvertierten Spektrum (S102).
Zudem erfasst das Spracherkennungssystem einen Frame, der gleich oder größer einem Sprachintervall-Erfassungsgrenzwert ist, anhand der Leistung und der Tonlage als entnommene Kennzeichnungsmerkmale, und es stellt fest, ob der erfasste Frame für eine gewisse Periode oder länger andauert, um ein Sprachintervall aus dem erfassten Klang zu gewinnen (S103).
Durch das Vergleichen der Kennzeichnungsmerkmale des als Sprachintervall erkannten Frames mit einem Akustikmodell und einem Sprachwörterbuch erkennt das Spracherkennungssystem die Sprache im Sprachintervall (S104).
In der Spracherkennungsverarbeitung in 1 haben auch elektronische Klänge, die beispielsweise durch das Betätigen eines Knopfs eines Fahrzeugnavigationssystems verursacht werden, eine gewisse Leistung und Tonlage. Erfasst also das Spracherkennungssystem einen einzelnen elektronischen Klang, so tritt die Schwierigkeit auf, dass der elektronische Klang fehlerhafterweise leicht als Sprache erkannt wird.
Die veröffentlichte japanische Patentschrift 08-265457 (1996) offenbart ein Verfahren, das die Eigenschaft verwendet, dass in einem elektronischen Klang (Tonsignal) eine kleine Anzahl Spitzen existiert, und das den elektronischen Klang durch die Erfassung einer spektralen Spitze erkennt.
Die veröffentlichte japanische Patentschrift 2003-58186 offenbart ein Rauschunterdrückungsverfahren, das die Martinshorngeräusche von Einsatzfahrzeugen unterdrückt.
Die veröffentlichte japanische Patentschrift 2005-257805 offenbart ein Verfahren, das nicht nur nichtstationäres Rauschen wie elektronische Klänge und den Klang eines Martinshorns unterdrückt, sondern auch periodisches Rauschen.
Ferreira, A. J. S.: ”Combined spectral envelope normalization and subtraction of sinusoidal components in the ODFT and MDCT frequency domains,” IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics (2001), S. 51–54, beschreibt eine MDCT-basierten Audio-Codierungs-Umgebung und erläutert ein Verfahren, welches eine Spektraleinhüllende-Normalisierung mit einer genauen Subtraktion von sinusförmigen Komponenten in den MDCT Frequenzbereich kombiniert.
Huang et al.: ”Robust Speech Recognition in Noisy Environments”, Dissertation, Department of Electrical Engineering, National Central University, Taiwan, 2003, beschäftigt sich mit Spracherkennung in geräuschvollen Umgebungen. Die Arbeit präsentiert einen Ansatz zur verbesserten Darstellung von Sprachdynamik, die auf der Kombination von mehreren Zeitauflösungen beruht.
KURZE ZUSAMMENFASSUNG DER ERFINDUNG
Bei dem herkömmlichen Verfahren, das in der veröffentlichten japanischen Patentschrift 08-265457 (1996) offenbart ist, tritt die Schwierigkeit auf, dass die Erfassungsgenauigkeit einer spektralen Spitze eines elektronischen Klangs in einer Umgebung abfällt, in der Rauschen auftritt, beispielsweise das Motorgeräusch von Fahrzeugen und das Geräusch von Klimaanlagen.
Die in der veröffentlichten japanischen Patentschrift 08-265457 (1996) auftretenden Schwierigkeiten werden anhand von 2A und 2B erklärt. 2A und 2B zeigen ein Spektrum. 2A zeigt den Zusammenhang zwischen Frequenz und Leistung in einer Umgebung, die frei von Geräuschen ist, die durch den Motorenlärm von Fahrzeugen verursacht werden. 2B zeigt den Zusammenhang zwischen Frequenz und Leistung in einer Umgebung, in der durch Motorenlärm verursachte Geräusche vorhanden sind. In 2A treten in einer Umgebung, die frei von Geräuschen ist, die durch Motorenlärm verursacht werden, deutlich zwei scharfe Spitzen mit schmaler Bandbreite auf, die nicht kleiner sind als ein Grenzwert, der durch die gepunktete Linie dargestellt wird. Man kann diese Spitzen sehr exakt als Rauschen erkennen, das durch elektronische Klänge verursacht wird. In 2B treten in einer Umgebung, in der durch Motorenlärm von Fahrzeugen verursachte Geräusche vorhanden sind, die durch die gepunktete Linie dargestellt werden, in niederen Frequenzbereichen schwache Spitzen mit einer hohen Bandbreite auf, die vom Motorengeräusch stammen. Damit sind die beiden Spitzen, die von den elektronischen Klängen stammen, undeutlich ausgeprägt. Somit wird die Erfassungsgenauigkeit der Spitzen geringer, wenn man nur das Verfahren verwendet, bei dem der Grenzwert und die Leistung einfach verglichen werden.
In dem Verfahren, das in der veröffentlichten japanische Patentschrift 2003-58186 offenbart ist, ist es erforderlich, die Grundfrequenz des Martinshornklangs zu extrahieren, und es ist erforderlich, ein gemitteltes Spektrum aus den vorhergehenden Frames zu berechnen. Damit besteht die Schwierigkeit, dass dieses Verfahren nur vorher erlernte periodische Geräusche unterdrücken kann.
In dem Verfahren, das in der veröffentlichten japanische Patentschrift 2005-257805 offenbart ist, tritt die Schwierigkeit auf, dass zusätzlich ein Mikrophon zum Sammeln von Geräusch erforderlich ist, das unterdrückt werden soll.
Die Erfindung hat das Ziel, die angesprochenen Probleme zu lösen, und es ist eine Aufgabe der Erfindung, ein Klangsignal-Verarbeitungsverfahren bereitzustellen, das sehr exakt eine Spitze eines nichtstationären Geräuschs erkennen und unterdrücken kann, beispielsweise einen elektronischen Klang und Martinshornklänge, und zwar auch in einer Umgebung mit stationären Geräuschen, beispielsweise dem Geräusch des Motors und dem Geräusch von Klimaanlagen. Dies geschieht durch das Berechnen einer spektralen Einhüllenden eines Spektrums, das Entfernen der spektralen Einhüllenden vom Spektrum, das Erfassen einer spektralen Spitze anhand eines Spektrums, das durch das Entfernen der spektralen Einhüllenden gewonnen wird, und das Unterdrücken der spektralen Spitze, und zwar ohne dass ein vorhergehendes Lernen oder ein Mikrophon zum Sammeln von Rauschen erforderlich ist. Es ist zudem eine Aufgabe der Erfindung, eine Klangsignal-Verarbeitungsvorrichtung bereitzustellen, die das Klangsignal-Verarbeitungsverfahren einsetzt, und ein Computerprogramm, das die Klangsignal-Verarbeitungsvorrichtung verwirklicht.
Ein Klangsignal-Verarbeitungsverfahren gemäß einem ersten Aspekt ist ein Klangsignal-Verarbeitungsverfahren, das die Signalverarbeitung dadurch ausführt, dass sie ein Klangsignal abhängig von einem erfassten Klang in ein Spektrum umsetzt, und das Verfahren ist gekennzeichnet durch: das Berechnen einer spektralen Einhüllenden aus dem Spektrum; das Entfernen der spektralen Einhüllenden vom Spektrum; das Erfassen einer spektralen Spitze in dem Spektrum, das durch das Entfernen der Einhüllenden gewonnen wird; und das Unterdrücken der erfassten spektralen Spitze.
In der Erfindung ist es durch das Erfassen einer spektralen Spitze nach dem Entfernen der spektralen Einhüllenden möglich, scharfe Spitzen von elektronischen Klängen usw. zu erkennen, ohne dass sich moderate Spitzen des Motorengeräuschs, des Klimaanlagengeräuschs usw. nachteilig auswirken, die in unteren Frequenzbändern auftreten. Es ist daher möglich, Spitzen sehr exakt zu erkennen und Rauschen zu entfernen. Zudem ist kein vorhergehender Lernvorgang erforderlich, und es ist kein Mikrophon zum Sammeln von Geräuschen erforderlich.
Eine Klangsignal-Verarbeitungsvorrichtung gemäß einem zweiten Aspekt ist eine Klangsignal-Verarbeitungsvorrichtung, die eine Signalverarbeitung vornimmt, indem sie ein Klangsignal, das auf einem erfassten Klang beruht, in ein Spektrum konvertiert, und die Vorrichtung ist gekennzeichnet durch: eine Einhüllenden-Berechnungsvorrichtung, die eine spektrale Einhüllende ausgehend von dem Spektrum berechnet; eine Einhüllenden-Entfernungsvorrichtung, die die spektrale Einhüllende von dem Spektrum entfernt; eine Erfassungsvorrichtung, die eine spektrale Spitze in dem Spektrum erfasst, das durch das Entfernen der spektralen Einhüllenden gewonnen wurde; und eine Unterdrückungsvorrichtung, die die erfasste spektrale Spitze unterdrückt.
In der Erfindung ist es durch das Erfassen einer spektralen Spitze nach dem Entfernen der spektralen Einhüllenden möglich, scharfe Spitzen von elektronischen Klängen usw. zu erkennen, ohne dass sich moderate Spitzen des Motorengeräuschs, des Klimaanlagengeräuschs usw., die in unteren Frequenzbändern auftreten, nachteilig auswirken. Es ist daher möglich, Spitzen sehr exakt zu erkennen und Rauschen zu entfernen. Zudem ist kein vorhergehender Lernvorgang erforderlich, und es ist kein Mikrophon zum Sammeln von Geräuschen erforderlich.
Eine Klangsignal-Verarbeitungsvorrichtung gemäß einem dritten Aspekt der Erfindung beruht auf dem zweiten Aspekt und ist dadurch gekennzeichnet, dass die Einhüllenden-Berechnungsvorrichtung ein Cepstrum aus einem Spektrum berechnet, das man durch das Konvertieren des Klangsignals in einem ersten Umsetzvorgang erhält, und dass sie eine spektrale Einhüllende durch das Konvertieren einer Komponente berechnet, die eine geringere Ordnung hat als eine vorbestimmte Ordnung, und zwar aus dem berechneten Cepstrum durch eine zweite Konvertierung, die eine inverse Konvertierung der ersten Konvertierung ist.
In der Erfindung wird eine spektrale Einhüllende, die einen Umriss des Spektrums darstellt, durch eine erste Konvertierung berechnet, beispielsweise durch die FFT, und durch eine zweite Konvertierung, beispielsweise durch die inverse FFT.
Eine Klangsignal-Verarbeitungsvorrichtung gemäß einem vierten Aspekt der Erfindung beruht auf dem zweiten Aspekt oder dem dritten Aspekt und ist dadurch gekennzeichnet, dass die Erfassungsvorrichtung ein Band erkennt, das einen Wert oberhalb eines vorbestimmten Grenzwerts zeigt, und zwar als Band, das eine spektrale Spitze in dem Spektrum enthält, das man durch das Entfernen der spektralen Einhüllenden erhält.
In der Erfindung ist es möglich, eine spektrale Spitze durch den Vergleich mit dem Grenzwert zu erkennen.
Eine Klangsignal-Verarbeitungsvorrichtung gemäß einem fünften Aspekt beruht auf dem zweiten Aspekt oder dem dritten Aspekt und ist dadurch gekennzeichnet, dass die Erfassungsvorrichtung ein Band erkennt, in dem das Verhältnis zwischen einem Gesamtwert von Werten in einem Band mit einer vorbestimmten Breite und einem Gesamtwert von Werten in allen Bändern mit Ausnahme des Bands mit der vorbestimmten Breite einen Wert zeigt, der größer ist als ein vorbestimmter Grenzwert, und zwar als Band, das eine spektrale Spitze in dem Spektrum enthält, das man durch das Entfernen der spektralen Einhüllenden erhält.
In der Erfindung ist es durch das Vergleichen mit der spektralen Leistung in allen Bändern und das Entnehmen von Spitzen aus einem Band mit hoher Leistung anstelle der einfachen Entnahme einer Spitze aus einem Band mit einer hohen spektralen Spitze möglich, offensichtliche Spitzen unter Betrachtung aller Bänder zu erkennen.
Eine Klangsignal-Verarbeitungsvorrichtung gemäß einem sechsten Aspekt beruht auf irgendeinem der Aspekte zwei bis fünf und ist dadurch gekennzeichnet, dass die Unterdrückungsvorrichtung eine spektrale Spitze dadurch unterdrückt, dass sie einen Wert, der gleich oder größer einem Grenzwert ist, aus den Werten des Spektrums eines Bands, das die erfasste spektrale Spitze enthält, durch einen Wert ersetzt, der auf dem Grenzwert beruht.
In der Erfindung ist es durch das Ersetzen des Werts einer spektralen Spitze, die von einem Geräusch stammt, beispielsweise einem elektronischen Klang, durch den Grenzwert, möglich, die Spitze zu entfernen und das Geräusch zu unterdrücken.
Eine Klangsignal-Verarbeitungsvorrichtung gemäß einem siebten Aspekt beruht auf irgendeinem der Aspekte zwei bis fünf und ist dadurch gekennzeichnet, dass die Unterdrückungsvorrichtung eine spektrale Spitze dadurch unterdrückt, dass sie einen Wert, der gleich oder größer als die spektrale Einhüllende aus Werten des Spektrums eines Bands ist, das die erfasste spektrale Spitze enthält, durch einen Wert ersetzt, der auf der spektralen Einhüllenden beruht.
In der Erfindung ist es durch das Ersetzen des Werts einer spektralen Spitze, die von einem Geräusch stammt, beispielsweise einem elektronischen Klang, durch einen Wert, der auf der spektralen Einhüllenden beruht, möglich, die Spitze zu entfernen und das Geräusch zu unterdrücken.
Eine Klangsignal-Verarbeitungsvorrichtung gemäß einem achten Aspekt beruht auf irgendeinem der Aspekte zwei bis fünf und ist dadurch gekennzeichnet, dass die Unterdrückungsvorrichtung eine spektrale Spitze dadurch unterdrückt, dass sie Werte des Spektrums eines Bands, das die erfasste spektrale Spitze enthält, durch einen Gesamtwert von Werten in einem Band ersetzt, das breiter ist als das Band, das die erfasste spektrale Spitze enthält.
In der Erfindung ist es durch das Ersetzen des Werts einer spektralen Spitze, die von einem Geräusch stammt, beispielsweise einem elektronischen Klang, durch einen Gesamtwert, beispielsweise den Mittelwert der Werte in einem Band mit einigen 100 Hz Breite um die spektrale Spitze herum möglich, die Spitze zu entfernen und das Geräusch zu unterdrücken.
Eine Klangsignal-Verarbeitungsvorrichtung gemäß einem neunten Aspekt beruht auf irgendeinem der Aspekte zwei bis acht und ist dadurch gekennzeichnet, dass sie zudem Mittel zum Ausführen der Spracherkennungsverarbeitung enthält, die auf dem Klangsignal mit der unterdrückten spektralen Spitze beruht.
In der Erfindung ist es möglich, die Spracherkennungsverarbeitung sehr exakt vorzunehmen, die auf einem Klangsignal beruht, aus dem Geräusche entfernt wurden, beispielsweise elektronische Klänge.
Ein Computerprogramm gemäß einem zehnten Aspekt ist ein Computerprogramm, das einen Computer veranlasst, eine Signalverarbeitung auszuführen, die ein Klangsignal, das auf einem erfassten Klang beruht, in ein Spektrum umsetzt, und es ist dadurch gekennzeichnet, dass ausgeführt wird: ein Schritt, der den Computer veranlasst, eine spektrale Einhüllende des Spektrums zu berechnen; ein Schritt, der den Computer veranlasst, die spektrale Einhüllende von dem Spektrum zu entfernen; ein Schritt, der den Computer veranlasst, eine spektrale Spitze in dem Spektrum zu erkennen, das man durch das Entfernen der spektralen Einhüllenden gewinnt; und ein Schritt, der den Computer veranlasst, die erfasste spektrale Spitze zu unterdrücken.
In der Erfindung arbeitet der Computer dadurch als Klangsignal-Erkennungsvorrichtung, dass das Computerprogramm mit einem Computer beispielsweise als Navigationsvorrichtung ausgeführt wird. Durch das Erfassen einer spektralen Spitze nach dem Abstreifen der spektralen Einhüllenden ist es möglich, scharfe Spitzen von elektronischen Klängen usw. zu erkennen, ohne dass schwächere Spitzen des Motorengeräuschs, des Klimaanlagengeräuschs usw., die in unteren Frequenzbändern auftreten, nachteilige Einflüsse haben. Damit ist es möglich, Spitzen äußerst exakt zu erkennen und Geräusche zu entfernen. Zudem ist eine vorhergehende Lernphase nicht erforderlich, und ein Mikrophon zum Sammeln von Geräusch ist nicht nötig.
Ein Klangsignal-Erfassungsverfahren, eine Klangsignal-Erfassungsvorrichtung und ein Computerprogramm der Erfindung setzen ein Klangsignal, das auf einem erfassten Klang beruht, mit einem Verfahren wie beispielsweise der FFT in ein Spektrum um; sie berechnen eine spektrale Einhüllende aus dem Spektrum; sie entfernen die Einhüllende des Spektrums vom Spektrum, sie erkennen eine spektrale Spitze in dem Spektrum, das durch Entfernen der Einhüllenden des Spektrums gewonnen wurde; und sie unterdrücken die erkannte spektrale Spitze.
Da in dieser Anordnung spektrale Spitzen nach dem Entfernen der spektralen Einhüllenden erkannt werden, ist es möglich, die spektrale Einhüllende zu entfernen, die einen Umriss des Spektrums angibt, und die Feinstruktur des Spektrums für das Erkennen der spektralen Spitzen zu verwenden. Da es möglich ist, scharfe Spitzen von elektronischen Klängen usw. zu erkennen, ohne dass schwächere Spitzen des Motorengeräuschs, des Klimaanlagengeräuschs usw., die in unteren Frequenzbändern auftreten, nachteilige Einflüsse haben, erzeugt die Erfindung vorteilhafte Auswirkungen, da sie in der Lage ist, Spitzen sehr exakt zu erkennen und Geräusch zu entfernen. Zudem erzeugt die Erfindung auch insoweit vorteilhafte Auswirkungen, als sie in der Lage ist, einen vorhergehenden Lernvorgang überflüssig zu machen, und sie kein Mikrophon zum Sammeln von Geräusch benötigt.
Wird die Erfindung im Einzelnen auf ein Fahrzeug-Navigationssystem mit Spracherkennungsfunktion angewendet, das in Fahrzeugen eingebaut ist, so werden Geräusche wie elektronische Klänge und Martinshorngeräusche niemals fälschlich als Sprache erkannt, da das Erfassen und Unterdrücken der spektralen Spitzen von nichtstationären Geräuschen, beispielsweise elektronischen Klängen und Martinshorngeräuschen, sehr exakt realisiert wird, und zwar auch unter Umgebungsbedingungen, in denen stationäre Geräusche wie das Motorengeräusch von Fahrzeugen und der Klang von Klimaanlagen auftreten. Man kann damit vorteilhafte Effekte erzeugen, beispielsweise das Verbessern der Genauigkeit der Spracherkennung.
Die beschriebenen Aufgaben und Merkmale der Erfindung und weitere Aufgaben und Merkmale gehen aus der folgenden ausführlichen Beschreibung zusammen mit den beiliegenden Zeichnungen hervor.
KURZE BESCHREIBUNG DER ANSICHTEN IN DEN ZEICHNUNGEN
Es zeigt:
1 ein Flussdiagramm einer herkömmlichen Spracherkennungsverarbeitung;
2A und 2B Darstellungen eines Spektrums;
3 ein Blockdiagramm eines Beispiels der Anordnung einer Klangsignal-Verarbeitungsvorrichtung gemäß der ersten Ausführungsform der Erfindung;
4 ein Flussdiagramm eines Beispiels der Verarbeitung, die die Klangsignal-Verarbeitungsvorrichtung gemäß der ersten Ausführungsform der Erfindung vornimmt;
5 eine Ansicht eines Beispiels eines Spektrums der Klangsignal-Verarbeitungsvorrichtung gemäß der ersten Ausführungsform der Erfindung;
6A und 6B Kurvenverläufe eines Beispiels für ein Klangsignal der Klangsignal-Verarbeitungsvorrichtung gemäß der ersten Ausführungsform der Erfindung;
7 eine Ansicht eines Beispiels eines Spektrums der Klangsignal-Verarbeitungsvorrichtung gemäß der zweiten Ausführungsform der Erfindung; und
8 eine Ansicht eines Beispiels eines Spektrums der Klangsignal-Verarbeitungsvorrichtung gemäß der dritten Ausführungsform der Erfindung.
AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG
In der folgenden Beschreibung wird die Erfindung anhand der Zeichnungen, die einige Ausführungsformen der Erfindung erläutern, ausführlich erklärt.
Erste Ausführungsform
3 zeigt ein Blockdiagramm eines Beispiels der Anordnung einer Klangsignal-Verarbeitungsvorrichtung gemäß der ersten Ausführungsform der Erfindung. In 3 bezeichnet 1 eine Klangsignal-Verarbeitungsvorrichtung, in der ein Computer verwendet wird, beispielsweise eine Navigationsvorrichtung, die in einem Fahrzeug eingebaut ist. Die Klangsignal-Verarbeitungsvorrichtung 1 umfasst mindestens: eine Steuervorrichtung 10 (Controller), beispielsweise eine CPU (Central Processing Unit) und einen DSP (Digitalen Signalprozessor), die die gesamte Vorrichtung steuern; eine Aufzeichnungsvorrichtung 11, beispielsweise eine Festplatte, und ein ROM zum Aufzeichnen unterschiedlicher Informationen, beispielsweise Programme und Daten; eine Speichervorrichtung 12, beispielsweise ein RAM, das erzeugte Daten temporär speichert; eine Klangerfassungsvorrichtung 13, beispielsweise ein Mikrophon, das Klänge aus der Umgebung aufnimmt; eine Klangausgabevorrichtung 14, beispielsweise einen Lautsprecher, der Klänge ausgibt; eine Anzeigevorrichtung 15, beispielsweise einen Flüssigkristallmonitor; und eine Navigationsvorrichtung 16 die Verarbeitungen bezüglich der Navigation ausführt, beispielsweise eine Strecke zu einem Ziel zeigt.
Ein Computerprogramm 11a der Erfindung ist in der Aufzeichnungsvorrichtung 11 aufgezeichnet, und ein Computer arbeitet als Klangsignal-Verarbeitungsvorrichtung 1 der Erfindung, indem er verschiedene Arten von Verarbeitungsschritten, die im aufgezeichneten Computerprogramm 11a enthalten sind, in der Speichervorrichtung 12 speichert und sie gesteuert durch die Steuervorrichtung 10 ausführt.
Ein Teil des Aufzeichnungsbereichs der Aufzeichnungsvorrichtung 11 wird für verschiedene Datenbanken verwendet, beispielsweise eine Akustikmodell-Datenbank 11b (Akustikmodell DB), in der Akustikmodelle für die Spracherkennung aufgezeichnet sind, und ein Sprachwörterbuch 11c, in dem ein erkennbarer Wortschatz aufgezeichnet ist, der durch phonemische oder syllabische Definitionen beschrieben ist, die den Akustikmodellen zugeordnet sind, und eine Grammatik.
Ein Teil der Speichervorrichtung 12 wird als Klangdatenpuffer 12a verwendet, in dem digitalisierte Klangdaten gespeichert werden, die man durch das Abtasten eines Klangs erhält, der ein analoges Signal ist, das die Klangerfassungsvorrichtung 13 in einer vorbestimmten Periode erfasst. Ein weiterer Teil der Speichervorrichtung 12 wird als Framepuffer 12b verwendet, in dem Frames gespeichert werden, die man dadurch erhält, dass die Klangdaten in Abschnitte mit vorbestimmter zeitlicher Länge unterteilt werden.
Die Navigationsvorrichtung 16 enthält einen Positionsbestimmungsmechanismus, beispielsweise GPS (Global Positioning System), und ein Aufzeichnungsmedium, beispielsweise eine DVD oder eine Festplatte, auf dem Karteninformation gespeichert ist. Die Navigationsvorrichtung 16 führt die Navigationsverarbeitung aus, beispielsweise die Suche nach einer Strecke vom momentanen Standort zu einem Ziel, und sie zeigt die Route an, stellt eine Landkarte und die Route auf der Anzeigevorrichtung 15 dar und gibt eine Sprachführung auf der Klangausgabevorrichtung 14 aus.
Das Aufbaubeispiel in 3 ist lediglich ein Beispiel, und man kann die Erfindung in verschiedenen Formen erweitern. Es wäre beispielsweise möglich, eine Funktion bezüglich der Klangsignalverarbeitung als einen oder mehrere VLSI-Chips zu konstruieren und sie in eine Navigationsvorrichtung aufzunehmen, oder es wäre möglich, extern eine Vorrichtung für die Klangsignalverarbeitung zu montieren, die nur die Navigationsvorrichtung verwendet. Es wäre möglich, die Steuervorrichtung 10 sowohl für die Klangsignalverarbeitung als auch die Navigationsverarbeitung zu verwenden, oder es wäre möglich, eine Schaltung bereitzustellen, die exklusiv für jede Verarbeitung eingesetzt wird. Es wäre zudem möglich, in die Steuervorrichtung 10 einen Koprozessor aufzunehmen, der Verarbeitungen ausführt, beispielsweise besondere Berechnungen für die Klangsignalverarbeitung, beispielsweise die später beschriebene FFT (Fast Fourier Transformation) und inverse FFT. Wahlweise wäre es möglich, den Klangdatenpuffer 12a als Zusatzschaltung der Klangerfassungsvorrichtung 13 aufzubauen, und den Framepuffer 12b im Speicher der Steuervorrichtung 10 aufzubauen. Die Klangsignal-Verarbeitungsvorrichtung 1 der Erfindung ist nicht auf eine Fahrzeugvorrichtung beschränkt, beispielsweise eine Navigationsvorrichtung, und sie kann in Vorrichtungen für unterschiedliche Anwendungen verendet werden und dort eine Spracherkennung vornehmen, beispielsweise in Telephonen.
In der folgenden Beschreibung wird die Verarbeitung erklärt, die die Klangsignal-Verarbeitungsvorrichtung 1 gemäß der ersten Ausführungsform der Erfindung vornimmt. 4 zeigt ein Flussdiagramm mit einem Beispiel der Verarbeitung, die die Klangsignal-Verarbeitungsvorrichtung 1 gemäß der ersten Ausführungsform der Erfindung vornimmt. Gesteuert durch die Steuervorrichtung 10, die ein Computerprogramm 11a ausführt, erfasst die Klangsignal-Verarbeitungsvorrichtung 1 äußere Klänge mit der Klangerfassungsvorrichtung 13 (Schritt S1), und speichert digitalisierte Klangdaten, die durch Abtasten des erfassten Klangs, d. h. eines Analogsignals, in einer vorbestimmten Periode gewonnen werden, im Klangdatenpuffer 12a (Schritt S2). Der im Schritt S1 zu erfassende äußere Klang enthält unterschiedliche überlagerte Klänge, beispielsweise menschliche Sprache, stationäre Geräusche und nichtstationäre Geräusche. Die Klangsignal-Verarbeitungsvorrichtung 1 muss die menschliche Sprache erkennen. Die stationären Geräusche sind Geräusche wie das Motorengeräusch von Fahrzeugen und das Geräusch von Klimaanlagen. Die nichtstationären Geräusche sind Geräusche wie elektronische Klänge, die beim Bedienen elektronischer Geräte entstehen, und das Geräusch von Martinshörnern.
Die Klangsignal-Verarbeitungsvorrichtung 1 erzeugt gesteuert durch die Steuervorrichtung 10 Frames mit einer vorbestimmten Länge aus den Klangdaten, die im Klangdatenpuffer 12a gespeichert sind (Schritt S3). Im Schritt S3 werden die Klangdaten beispielsweise in Frames mit einer vorbestimmten Länge von 20 ms bis 30 ms unterteilt. Die jeweiligen Frames überlappen einander um 10 ms bis 15 ms. Für jeden Frame umfasst die für die Spracherkennung gängige Frameverarbeitung Fensterfunktionen wie ein Hamming-Fenster und ein Hanning-Fenster, und es erfolgt eine Filterung mit einem Hochpassfilter. Die folgende Verarbeitung wird für jeden der solcherart erzeugten Frames vorgenommen.
Gesteuert durch die Steuervorrichtung 10 konvertiert die Klangsignal-Verarbeitungsvorrichtung 1 ein Klangsignal, das auf den Klangdaten eines jeden Frames beruht, in ein Spektrum, indem sie eine FFT-Verarbeitung ausführt (Schritt S4). Im Schritt S4 bestimmt die Klangsignal-Verarbeitungsvorrichtung 1 ein Leistungsspektrum durch das Quadrieren eines Amplitudenspektrums X(ω), das durch die FFT-Verarbeitung des Klangsignals gewonnen wird, und sie berechnet ein logarithmisches Leistungsspektrum 20log₁₀|X(ω)| als Logarithmus des bestimmten Leistungsspektrums. Das Klangsignal wird auf diese Weise in ein logarithmisches Leistungsspektrum umgesetzt. Man beachte, dass es im Schritt S4 möglich wäre, ein logarithmisches Leistungsspektrum 10log₁₀|X(ω)| als Logarithmus des Amplitudenspektrums X(ω) zu berechnen, das durch die FFT-Verarbeitung des Klangsignals gewonnen wird, und das berechnete logarithmische Amplitudenspektrum als Spektrum nach dem Umsetzen zu verwenden.
Gesteuert durch die Steuervorrichtung 10 konvertiert die Klangsignal-Verarbeitungsvorrichtung 1 das Spektrum anhand der Fouriertransformierten des Klangsignals in ein Cepstrum und berechnet eine spektrale Einhüllende, indem sie eine inverse FFT-Verarbeitung an einer Komponente des konvertierten Cepstrums vornimmt, die eine geringere Ordnung hat als eine vorbestimmte Ordnung (Schritt S5).
Die Verarbeitung im Schritt S5 wird nun erklärt. Das Amplitudenspektrum |X(ω)|, das man durch die FFT-Verarbeitung des Klangsignals gewinnt, wird durch die folgende Gleichung 1 ausgedrückt, wobei G(ω) und H(ω) die Komponenten der FFT mit höherer Ordnung bzw. geringerer Ordnung darstellen X(ω) = G(ω)H(ω) Gleichung 1
Den Logarithmus von Gleichung 1 kann man durch die folgende Gleichung 2 ausdrücken. log₁₀|X(ω)| = log₁₀|G(ω)| + log₁₀|H(ω)| Gleichung 2
Ein Cepstrum c(τ) gewinnt man durch die inverse FFT von Gleichung 2 bezüglich der Frequenz ω als Variable. Der erste Term auf der rechten Seite von Gleichung 2 zeigt eine Feinstruktur, die eine Komponente höherer Ordnung des Spektrums ist, und der zweite Term auf der rechten Seite zeigt eine spektrale Einhüllende, die eine Komponente geringerer Ordnung des Spektrums ist. Anders ausgedrückt wird im Schritt S5 eine spektrale Einhüllende dadurch berechnet, dass man eine inverse FFT einer Komponente vornimmt, deren Ordnung geringer ist als eine vorbestimmte Ordnung, beispielsweise einer Komponente geringer als die zehnte Ordnung oder zwanzigste Ordnung des FFT-Cepstrums, das aus dem FFT-Spektrum berechnet wird. Es gibt auch ein Verfahren, in dem eine spektrale Einhüllende mit einem LPC-Cepstrum (LPC = Linear Predictive Coding) verwendet wird. Das hier verwendete Verfahren liefert jedoch eine Einhüllende mit verstärkten Spitzen, weshalb das FFT-Cepstrum zu bevorzugen ist.
Die Klangsignal-Verarbeitungsvorrichtung 1 entfernt gesteuert durch die Steuervorrichtung 10 die im Schritt S5 berechnete spektrale Einhüllende vom im Schritt S4 bestimmten Spektrum (Schritt S6). Der Entfernungsvorgang im Schritt S6 erfolgt durch Subtrahieren der Werte der entsprechenden Frequenzen in der spektralen Einhüllenden von den Werten der jeweiligen Frequenzen des Spektrums, das im Schritt S4 bestimmt wurde. Durch das Entfernen der spektralen Einhüllenden vom Spektrum im Schritt S6 wird die Neigung des Spektrums entfernt, und das Spektrum wird flach. Damit erhält man als Ergebnis der Verarbeitung die Feinstruktur des Spektrums. Es wäre auch möglich, die spektrale Feinstruktur durch eine inverse FFT auf einer Komponente höherer Ordnung zu berechnen, beispielsweise auf einer Komponente, die nicht kleiner ist als die elfte Ordnung oder einundzwanzigste Ordnung des FFT-Cepstrums, die beim Berechnen der spektralen Einhüllenden nicht verwendet wurde, anstatt die spektrale Einhüllende vom Spektrum abzutrennen.
Gesteuert durch die Steuervorrichtung 10 erkennt die Klangsignal-Verarbeitungsvorrichtung 1 eine spektrale Spitze in dem Spektrum, das durch das Entfernen der spektralen Einhüllenden (Schritt S7) gewonnen wurde, und sie unterdrückt die erkannte spektrale Spitze (Schritt S8).
Beim Erkennen einer spektralen Spitze im Schritt S7 wird ein Band, das eine spektrale Spitze enthält, die einen größeren Wert zeigt als ein vorbestimmter Grenzwert, der in der Aufzeichnungsvorrichtung 11 hinterlegt ist, als ein Band erkannt, das eine zu unterdrückende spektrale Spitze enthält. Wahlweise kann man ein Band, das n (n ist eine natürliche Zahl) Spitzen neben der größten Spitze als zu unterdrückende spektrale Spitzen enthält, erfassen. Zudem könnte man ein Band erfassen, das eine Höchstanzahl von n Spitzen neben dem größten Wert der spektralen Spitzen enthält, die größere Werte als der vorbestimmte Grenzwert zeigen, die die zu unterdrückenden spektralen Spitzen sind. Man beachte, dass der Wert von n ungefähr im Bereich von 2 bis 4 liegt.
Als Verfahren zum Unterdrücken der spektralen Spitze im Schritt S8 werden im Folgenden einige Vorgehensweisen als Beispiele aufgeführt. Das erste Unterdrückungsverfahren ist ein Verfahren, in dem die Werte der Leistung, die gleich dem oder höher als der Grenzwert in einem Band sind, das die erkannte spektrale Spitze enthält, in den Grenzwert umgewandelt werden. D. h., die Leistung, die zum Grenzwert und größeren Werten gehört, wird vom Spektrum subtrahiert. Es ist nicht erforderlich, die Werte, die gleich dem oder größer als der Grenzwert sind, in den Grenzwert umzuwandeln, und man könnte die Werte in einen Wert umwandeln, der auf dem Grenzwert beruht, beispielsweise einen Wert, der um einen vorbestimmten Wert über dem Grenzwert liegt.
Das zweite Unterdrückungsverfahren ist ein Verfahren, in dem ein Leistungswert, der gleich oder größer der spektralen Einhüllenden in einem Randband ist, das die erfasste spektrale Spitze enthält, beispielsweise einem Band mit einer Breite von mehreren 100 Hz um die spektrale Spitze herum, in einen entsprechenden Wert der spektralen Einhüllenden umgesetzt wird.
Das dritte Unterdrückungsverfahren ist ein Verfahren, in dem die Werte in einem Band zwischen Punkten, an denen die erfasste spektrale Spitze die spektrale Einhüllende kreuzt, d. h. einem Band, in dem der Wert der Leistung, die die spektrale Spitze bildet, die spektrale Einhüllende übersteigt und anschließend kleiner wird als die spektrale Einhüllende, in einen Wert der entsprechenden spektralen Einhüllenden umgewandelt werden.
Das vierte Unterdrückungsverfahren ist ein Verfahren, in dem eine spektrale Spitze dadurch unterdrückt wird, dass der Wert der Leistung in einem Band, das die erfasste spektrale Spitze erhält, durch den Gesamtwert ersetzt wird, beispielsweise den Mittelwert der Werte in einem Band, das breiter ist als das Band, das die erfasste spektrale Spitze enthält, beispielsweise einem Band mit einer Breite von einigen 100 Hz in der Umgebung der spektralen Spitze.
Gesteuert durch die Steuervorrichtung 10 entnimmt die Klangsignal-Verarbeitungsvorrichtung 1 die Merkmalskomponenten, beispielsweise die Leistung, die man durch das Integrieren eines Leistungsspektrums mit der unterdrückten spektralen Spitze über der Frequenz erhält, die Tonlage und das Cepstrum (Schritt S9), und sie bestimmt ein Sprachintervall abhängig von der entnommenen spektralen Leistung und der Tonlage (Schritt S10). Bei der Bestimmung eines Sprachintervalls im Schritt S10 wird die im Schritt S9 berechnete spektrale Leistung mit einem Grenzwert für die Spracherkennung verglichen, der in der Aufzeichnungsvorrichtung 11 hinterlegt ist. Liegen eine spektrale Leistung vor, die größer oder gleich dem Grenzwert ist, und eine Tonlage, so wird das Intervall als Sprachintervall festgelegt.
Nun bezieht sich die Klangsignal-Verarbeitungsvorrichtung 1 gesteuert durch die Steuervorrichtung 10 auf die Akustikmodelle, die in der Akustikmodell-Datenbank 11b aufgezeichnet sind, und auf den erkennbaren Wortschatz und die Grammatik, die in dem Sprachwörterbuch 11c aufgezeichnet sind, und zwar anhand eines Merkmalsvektors, der eine Merkmalskomponente ist, die aus dem Spektrum entnommen wird, das man durch Unterdrücken der spektralen Spitze erhält, und sie führt eine Spracherkennungsverarbeitung auf einem Frame aus, der als Sprachintervall festgelegt ist (Schritt S11). Die Spracherkennungsverarbeitung im Schritt S11 erfolgt durch das Berechnen der Ähnlichkeit bezüglich der Akustikmodelle und den Zugriff auf Sprachinformation hinsichtlich des erkennbaren Wortschatzes.
5 zeigt eine Ansicht eines Beispiels eines Spektrums der Klangsignal-Verarbeitungsvorrichtung gemäß der ersten Ausführungsform der Erfindung. In 5 ist die Frequenz auf der Abszisse aufgetragen und die Leistung des Spektrums auf der Ordinate, um den Zusammenhang darzustellen. Die durchgezogene Linie in 5 bezeichnet ein Leistungsspektrum S1, die mit abwechselnden langen und kurzen Strichen dargestellte Linie zeigt eine spektrale Einhüllende S2, die aus dem Leistungsspektrum S1 berechnet wurde, und die punktierte Linie zeigt eine Feinstruktur S3 des Spektrums, das man durch das Entfernen der spektralen Einhüllenden S2 vom Leistungsspektrum S1 gewinnt. Ferner ist 30 dB als Grenzwert TL (TL = Threshold Level) eingestellt. Durch das Entfernen der spektralen Einhüllenden S2 aus dem Leistungsspektrum S1, siehe 5, wird die Neigung des Leistungsspektrums S1 von der Niederfrequenzseite zur Hochfrequenzseite beseitigt, und drei in der Feinstruktur S3 des Spektrums enthaltene spektrale Spitzen treten deutlich hervor. Beim Erfassen der spektralen Spitzen in der Feinstruktur S3 ist zu bevorzugen, dass man ein Frequenzband von 100 Hz am unteren und oberen Rand aus dem Erkennungsbereich ausschließt, weil es während der digitalen Signalverarbeitung von einem Bandpassfilter beeinflusst wird, weil in unteren Frequenzbändern keine elektronischen Klänge vorkommen, weil die Genauigkeit der spektralen Einhüllenden S2 geringer ist, oder aus anderen Gründen.
6A und 6B zeigen Kurvenverläufe eines Beispiels für ein Klangsignal der Klangsignal-Verarbeitungsvorrichtung 1 gemäß der ersten Ausführungsform der Erfindung. 6A zeigt eine Veränderung der Amplitude des Klangsignals, das zeitabhängig in einen Frame unterteilt ist. 6B zeigt den Umriss der Leistung, die man durch das Quadrieren der Amplitude des Klangsignals in 6A erhält. In 6B zeigt P1 den Umriss der Leistung vor dem Entfernen der spektralen Einhüllenden, und P2 zeigt den Umriss der Leistung nach dem Entfernen der spektralen Einhüllenden. Wie man sehen kann, erscheinen in einem Segment R in P1 moderate Spitzen, die von stationären Geräuschen stammen, beispielsweise dem Motorgeräusch, und die in 6A überlagert sind. In 6B ist zu sehen, dass diese Spitzen in P2 entfernt sind.
Damit ist es in der ersten Ausführungsform der Erfindung möglich, Spitzen zu erkennen, die durch nichtstationäre Geräusche verursacht werden und scharfe Spitzen aufweisen, beispielsweise elektronische Klänge und den Klang eines Martinshorns, wobei stationäres Geräusch auch unter einer stationären Geräuschumgebung entfernt wird, die wenig ausgeprägte Spitzen aufweist, beispielsweise das Motorengeräusch und das Klimaanlagengeräusch, und man kann die erfassten Spitzen unterdrücken. Man kann dadurch verhindern, dass nichtstationäre Geräusche fälschlich als Sprache erkannt werden. Obgleich das Spektrum von Sprache (ein Vokal) zahlreiche Spitzen aufweist, werden sie als spektrale Einhüllende entfernt, da die Spitzen verglichen mit dem elektronischen Klang nicht scharf sind, und daher die Spitzen des Vokals niemals fälschlicherweise unterdrückt werden.
Zweite Ausführungsform
Die zweite Ausführungsform ist eine Ausführungsform, die dadurch entsteht, dass man das Verfahren zum Erfassen der spektralen Spitze in der ersten Ausführungsform verändert. Da das Aufbaubeispiel einer Klangsignal-Verarbeitungsvorrichtung der zweiten Ausführungsform sich nicht von der ersten Ausführungsform unterscheidet, wird sie nicht erklärt, sondern auf die erste Ausführungsform verwiesen. In der folgenden Erklärung wird die Struktur der Klangsignal-Verarbeitungsvorrichtung dadurch erklärt, dass die gleichen Codes wie in der ersten Ausführungsform zugefügt werden. Da sich die in der Klangsignal-Verarbeitungsvorrichtung 1 der zweiten Ausführungsform vorgenommene Verarbeitung nicht von der Verarbeitung in der ersten Ausführungsform unterscheidet, wird sie nicht erklärt, sondern auf die erste Ausführungsform verwiesen. In der folgenden Erklärung werden die jeweiligen Verarbeitungsschritte, die die Klangsignal-Verarbeitungsvorrichtung 1 ausführen muss, dadurch erklärt, dass die gleichen Schrittbezeichnungen wie in der ersten Ausführungsform verwendet werden.
7 zeigt eine Ansicht eines Beispiels eines Spektrums der Klangsignal-Verarbeitungsvorrichtung 1 gemäß der zweiten Ausführungsform der Erfindung. In 7 ist die Frequenz auf der Abszisse aufgetragen und die Leistung des Spektrums auf der Ordinate, um den Zusammenhang darzustellen. Die durchgezogene Linie in 7 bezeichnet ein Leistungsspektrum S1, die mit abwechselnden langen und kurzen Strichen dargestellte Linie zeigt eine spektrale Einhüllende S2, die aus dem Leistungsspektrum S1 berechnet wurde, und die punktierte Linie zeigt eine Feinstruktur S3 des Spektrums, das man durch das Entfernen der spektralen Einhüllenden S2 vom Leistungsspektrum S1 gewinnt.
Als Verarbeitung im Schritt S7 zum Erkennen einer spektralen Spitze in dem Spektrum, das man durch Entfernen der spektralen Einhüllenden erhält, erfasst die Klangsignal-Verarbeitungsvorrichtung 1 der zweiten Ausführungsform als Band, das eine spektrale Spitze enthält, ein Band, in dem das Verhältnis zwischen einem Gesamtwert von Werten in einem Band mit einer vorbestimmten Breite und einem Gesamtwert von Werten in allen Bändern mit Ausnahme des Bands mit der vorbestimmten Breite einen Wert zeigt, der größer ist als ein vorbestimmter Grenzwert. Insbesondere wird eine Frequenz erkannt, bei der die Leistung des Spektrums einen Höchstwert hat, und der Gesamtwert oder beispielsweise der Mittelwert der Leistung in einem Band mit einer vorbestimmten Breite, etwa 100 Hz zu beiden Seiten der erfassten Frequenz, wird berechnet. In 7 wird ein Mittelwert P1 der Leistung in einem mit f1 bezeichneten Band berechnet. Zusätzlich wird der Gesamtwert, oder beispielsweise der Mittelwert der Leistung in allen Bändern mit Ausnahme des Bands f1 berechnet. In 7 wird ein Mittelwert P2 der Leistung in einem mit f2 bezeichneten Band berechnet. Ist der Wert P1/P2, der das Verhältnis von P1 zu P2 darstellt, größer als der vorbestimmte Grenzwert, so wird das Band f1 als ein Band erkannt, dass eine spektrale Spitze enthält. Zudem wird der Vorgang zum Erkennen einer Frequenz mit der zweitgrößten Leistung des Spektrums wiederholt, damit maximal eine vorbestimmte Anzahl n an spektralen Spitzen erkannt wird, bei denen der Wert des Verhältnisses größer ist als der Grenzwert. Die Verarbeitung zum Unterdrücken der erkannten spektralen Spitze unterscheidet sich nicht von der ersten Ausführungsform.
Dritte Ausführungsform
Die dritte Ausführungsform ist eine Ausführungsform, die dadurch entsteht, dass man das Verfahren zum Erfassen der spektralen Spitze in der ersten Ausführungsform verändert. Da das Aufbaubeispiel einer Klangsignal-Verarbeitungsvorrichtung der dritten Ausführungsform sich nicht von der ersten Ausführungsform unterscheidet, wird sie nicht erklärt, sondern auf die erste Ausführungsform verwiesen. In der folgenden Erklärung wird die Struktur der Klangsignal-Verarbeitungsvorrichtung 1 dadurch erklärt, dass die gleichen Codes wie in der ersten Ausführungsform zugefügt werden. Da sich die in der Klangsignal-Verarbeitungsvorrichtung 1 der dritten Ausführungsform vorgenommene Verarbeitung nicht von der Verarbeitung in der ersten Ausführungsform unterscheidet, wird sie nicht erklärt, sondern auf die erste Ausführungsform verwiesen. In der folgenden Erklärung werden die jeweiligen Verarbeitungsschritte, die die Klangsignal-Verarbeitungsvorrichtung 1 ausführen muss, dadurch erklärt, dass die gleichen Schrittbezeichnungen wie in der ersten Ausführungsform verwendet werden.
8 zeigt eine Ansicht eines Beispiels eines Spektrums der Klangsignal-Verarbeitungsvorrichtung 1 gemäß der dritten Ausführungsform der Erfindung. In 8 ist die Frequenz auf der Abszisse aufgetragen und die Leistung des Spektrums auf der Ordinate, um den Zusammenhang darzustellen. Die durchgezogene Linie in 8 bezeichnet ein Leistungsspektrum S1, die mit abwechselnden langen und kurzen Strichen dargestellte Linie zeigt eine spektrale Einhüllende S2, die aus dem Leistungsspektrum S1 berechnet wurde, und die punktierte Linie zeigt eine Feinstruktur S3 des Spektrums, das man durch das Entfernen der spektralen Einhüllenden S2 vom Leistungsspektrum S1 gewinnt.
Als Verarbeitung im Schritt S7 zum Erkennen einer spektralen Spitze in dem Spektrum, das man durch Entfernen der spektralen Einhüllenden erhält, erfasst die Klangsignal-Verarbeitungsvorrichtung 1 der dritten Ausführungsform als Band, das eine spektrale Spitze enthält, ein erstes Band, in dem das Verhältnis zwischen einem Gesamtwert der Werte im ersten Band einer vorbestimmten ersten Breite und einem Gesamtwert der Werte in einem zweiten Band mit einer zweiten vorbestimmten Breite einen Wert zeigt, der größer ist als ein vorbestimmter Grenzwert. Insbesondere wird eine Frequenz erkannt, bei der die Leistung des Spektrums einen Höchstwert hat, und der Gesamtwert oder beispielsweise der Mittelwert der Leistung in einem Band mit einer vorbestimmten Breite, etwa 100 Hz zu beiden Seiten der erfassten Frequenz, wird berechnet. In 8 wird ein Mittelwert P1 der Leistung in einem mit f1 bezeichneten Band berechnet. Zusätzlich wird der Gesamtwert, oder beispielsweise der Mittelwert der Leistung in einem Band von 150 Hz vor bzw. hinter f1 berechnet. In 8 wird ein Mittelwert P2 der Leistung in einem mit f2 bezeichneten Band berechnet. Ist der Wert P1/P2, der das Verhältnis von P1 zu P2 darstellt, größer als der vorbestimmte Grenzwert, so wird das Band f1 als ein Band erkannt, dass eine spektrale Spitze enthält. Zudem wird der Vorgang zum Erkennen einer Frequenz mit der zweitgrößten Leistung des Spektrums wiederholt, damit maximal eine vorbestimmte Anzahl n an spektralen Spitzen erkannt wird, bei denen der Wert des Verhältnisses größer ist als der Grenzwert. Die Verarbeitung zum Unterdrücken der erkannten spektralen Spitze unterscheidet sich nicht von der ersten Ausführungsform.
In den beschriebenen ersten bis dritten Ausführungsformen sind Ausführungsformen, in denen die Spracherkennung erfolgt, nachdem nichtstationäre Geräusche entfernt wurden, als Erfindung bezogen auf die Spracherkennung dargestellt. Die Erfindung ist jedoch nicht auf diese Ausführungsformen eingeschränkt und kann auf verschiedene Bereiche ausgeweitet werden, die mit der Spracherkennung verbunden sind. Wird beispielsweise die Erfindung auf die Telekommunikation angewendet, um ein Klangsignal, das auf einem Klang beruht, der von einer Empfängervorrichtung erfasst wird, an eine angerufene Person zu übertragen, so könnte man das Klangsignal an die Person übertragen, nachdem nichtstationäre Geräusche mit der Verarbeitung der Erfindung aus dem Klangsignal entfernt wurden.

Claims

Klangsignal-Verarbeitungsverfahren zum Ausführen einer Signalverarbeitung durch Umsetzen eines Klangsignals, das auf einem erfassten Klang beruht, in ein Spektrum, dadurch gekennzeichnet, dass es die Schritte umfasst: Erfassen eines Klanges; Gewinnen eines Klangsignals, das auf dem erfassten Klang beruht; Umsetzen des gewonnenen Klangsignals in ein Spektrum; Berechnen einer moderaten Spitzenkomponente auf Basis des umgesetzten Spektrums; Entfernen der berechneten moderaten Spitzenkomponente von dem umgesetzten Spektrum; Erfassen einer spektralen Spitze von dem Spektrum, von welchem die berechnete moderate Spitzenkomponente entfernt wurde; Unterdrücken der erfassten spektralen Spitze; und Ausführen einer Spracherkennungsverarbeitung auf Basis des gewonnenen Klangsignals, in welchem die erfasste spektrale Spitze unterdrückt wurde.
Klangsignal-Verarbeitungsvorrichtung zum Ausführen einer Signalverarbeitung durch Umsetzen eines Klangsignals, das auf einem erfassten Klang beruht, in ein Spektrum, dadurch gekennzeichnet, dass sie umfasst: eine Klangerfassungsvorrichtung (13) zum Erfassen eines Klanges; eine Klangsignalgewinnungsvorrichtung (10) zum Gewinnen eines Klangsignals, das auf dem erfassten Klang beruht; eine Klangsignalumsetzvorrichtung (10) zum Umsetzen des gewonnenen Klangsignals in ein Spektrum; eine Einhüllenden-Berechnungsvorrichtung (10) zum Berechnen einer moderaten Spitzenkomponente auf Basis des umgesetzten Spektrums; eine Einhüllenden-Entfernungsvorrichtung (10) zum Entfernen der berechneten moderaten Spitzenkomponente von dem umgesetzten Spektrum; eine Erfassungsvorrichtung (10) zum Erfassen einer spektralen Spitze von dem Spektrum, von welchem die berechnete moderate Spitzenkomponente entfernt wurde; eine Unterdrückungsvorrichtung (10) zum Unterdrücken der erfassten spektralen Spitze; und eine Spracherkennungsverarbeitungsvorrichtung (11) zum Ausführen einer Spracherkennungsverarbeitung auf Basis des gewonnenen Klangsignals, in welchem die erfasste spektrale Spitze unterdrückt wurde.
Klangsignal-Verarbeitungsvorrichtung nach Anspruch 2, wobei die Einhüllenden-Berechnungsvorrichtung (10) ein Cepstrum aus einem Spektrum berechnet, das durch das Umsetzen des gewonnenen Klangsignals in einem ersten Umsetzvorgang erhalten ist, und sie eine spektrale Einhüllende durch das Umsetzen einer Komponente berechnet, die eine geringere Ordnung hat als eine vorbestimmte Ordnung des berechneten Cepstrums, und zwar durch einen zweiten Umsetzvorgang, der ein inverser Umsetzvorgang des ersten Umsetzvorganges ist.
Klangsignal-Verarbeitungsvorrichtung nach Anspruch 2 oder 3, wobei die Einhüllenden-Entfernungsvorrichtung (10) einen Wert der spektralen Einhüllenden von einem Wert des Spektrums subtrahiert.
Klangsignal-Verarbeitungsvorrichtung nach irgendeinem der Ansprüche 2 bis 4, wobei die Erfassungsvorrichtung (10) ein Band erkennt, das einen Wert oberhalb eines vorbestimmten Grenzwerts zeigt, und zwar als Band, das eine spektrale Spitze in dem Spektrum enthält, das durch das Entfernen der spektralen Einhüllenden erhalten wurde.
Klangsignal-Verarbeitungsvorrichtung nach irgendeinem der Ansprüche 2 bis 4, wobei die Erfassungsvorrichtung (10) ein Band erkennt, in dem das Verhältnis zwischen einem Gesamtwert von Werten in einem Band mit einer vorbestimmten Breite und einem Gesamtwert von Werten in allen Bändern mit Ausnahme des Bands mit der vorbestimmten Breite einen Wert zeigt, der größer ist als ein vorbestimmter Grenzwert, und zwar als Band, das eine spektrale Spitze in dem Spektrum enthält, das man durch das Entfernen der spektralen Einhüllenden erhält.
Klangsignal-Verarbeitungsvorrichtung nach irgendeinem der Ansprüche 2 bis 4, wobei die Erfassungsvorrichtung (10) ein erstes Band erkennt, in dem das Verhältnis zwischen einem Gesamtwert von Werten in dem ersten Band mit einer vorbestimmten Breite und einem Gesamtwert von Werten in einem zweiten Band mit einer zweiten vorbestimmten Breite in der Nähe des ersten Bands einen Wert zeigt, der größer ist als ein vorbestimmter Grenzwert, und zwar als Band, das eine spektrale Spitze in dem Spektrum enthält, das man durch das Entfernen der spektralen Einhüllenden erhält.
Klangsignal-Verarbeitungsvorrichtung nach irgendeinem der Ansprüche 2 bis 7, wobei die Erfassungsvorrichtung (10) ein Band erkennt, das eine spektrale Spitze enthält, und zwar höchstens bis zu einer vorbestimmten Anzahl spektraler Spitzen.
Klangsignal-Verarbeitungsvorrichtung nach irgendeinem der Ansprüche 2 bis 8, wobei die Unterdrückungsvorrichtung (10) eine spektrale Spitze dadurch unterdrückt, dass sie einen Wert, der gleich oder größer einem Grenzwert ist, aus den Werten des Spektrums eines Bands, das die erfasste spektrale Spitze enthält, durch einen Wert ersetzt, der auf dem Grenzwert beruht.
Klangsignal-Verarbeitungsvorrichtung nach irgendeinem der Ansprüche 2 bis 8, wobei die Unterdrückungsvorrichtung (10) eine spektrale Spitze dadurch unterdrückt, dass sie einen Wert, der gleich oder größer als die spektrale Einhüllende aus Werten des Spektrums eines Bands ist, das die erfasste spektrale Spitze enthält, durch einen Wert ersetzt, der auf der spektralen Einhüllenden beruht.
Klangsignal-Verarbeitungsvorrichtung nach irgendeinem der Ansprüche 2 bis 8, wobei die Unterdrückungsvorrichtung (10) eine spektrale Spitze dadurch unterdrückt, dass sie Werte des Spektrums eines Bands, das die erfasste spektrale Spitze enthält, durch einen Gesamtwert von Werten in einem Band ersetzt, das breiter ist als das Band, das die erfasste spektrale Spitze enthält.
Klangsignal-Verarbeitungsvorrichtung nach irgendeinem der Ansprüche 2 bis 11, zudem umfassend Mittel (10), die die Spracherkennungsverarbeitung anhand des Klangsignals mit der unterdrückten spektralen Spitze ausführen.
Aufzeichnungsmedium zum Aufzeichnen eines Computerprogramms, das einen Computer veranlasst, eine Signalverarbeitung durch Umsetzen eines Klangsignals, das auf einem erfassten Klang beruht, in ein Spektrum auszuführen, wobei das Computerprogramm dadurch gekennzeichnet ist, dass es umfasst: einen Schritt, der den Computer veranlasst, einen Klang zu erfassen; einen Schritt, der den Computer veranlasst, ein Klangsignal zu gewinnen, das auf dem erfassten Klang beruht; einen Schritt, der den Computer veranlasst, das gewonnene Klangsignal in ein Spektrum umzusetzen; einen Schritt, der den Computer veranlasst, eine moderate Spitzenkomponente auf Basis des umgesetzten Spektrums zu berechnen; einen Schritt, der den Computer veranlasst, die berechnete moderate Spitzenkomponente von dem umgesetzten Spektrum zu entfernen; einen Schritt, der den Computer veranlasst, eine spektrale Spitze von dem Spektrum zu erfassen, von welchem die berechnete moderate Spitzenkomponente entfernt wurde; einen Schritt, der den Computer veranlasst, die erfasste spektrale Spitze zu unterdrücken; und einen Schritt, der den Computer veranlasst, eine Spracherkennungsverarbeitung auf Basis des gewonnenen Klangsignals auszuführen, in welchem die erfasste spektrale Spitze unterdrückt wurde.