DE102007001255A1 - Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm - Google Patents

Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm Download PDF

Info

Publication number
DE102007001255A1
DE102007001255A1 DE102007001255A DE102007001255A DE102007001255A1 DE 102007001255 A1 DE102007001255 A1 DE 102007001255A1 DE 102007001255 A DE102007001255 A DE 102007001255A DE 102007001255 A DE102007001255 A DE 102007001255A DE 102007001255 A1 DE102007001255 A1 DE 102007001255A1
Authority
DE
Germany
Prior art keywords
spectrum
spectral
sound signal
signal processing
envelope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102007001255A
Other languages
English (en)
Other versions
DE102007001255B4 (de
Inventor
Taisuke Kawasaki Itou
Shoji Kawasaki Hayakawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of DE102007001255A1 publication Critical patent/DE102007001255A1/de
Application granted granted Critical
Publication of DE102007001255B4 publication Critical patent/DE102007001255B4/de
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Abstract

Eine Klangsignal-Verarbeitungsvorrichtung (1) erzeugt Frames aus erfassten Klangdaten (S3) und konvertiert ein Klangsignal jeweils für jeden Frame in ein Spektrum (S4). Daraufhin berechnet die Klangsignal-Verarbeitungsvorrichtung (1) eine spektrale Einhüllende aus dem Spektrum (S5), entfernt die spektrale Einhüllende von dem Spektrum (S6), erkennt eine spektrale Spitze in dem Spektrum, das man durch das Entfernen der spektralen Einhüllenden gewinnt (S7), und unterdrückt die erfasste spektrale Spitze (S8). Die Klangsignal-Verarbeitungsvorrichtung (1) ermittelt ein Sprachintervall aus dem Spektrum mit der unterdrückten Spitze (S10) und führt eine Spracherkennungsverarbeitung anhand des Spektrum Frame aus, der als Sprachintervall erkannt wird (S11).

Description

  • HINTERGRUND DER ERFINDUNG
  • 1. Gebiet der Erfindung
  • Die Erfindung betrifft ein Klangsignal-Verarbeitungsverfahren, das eine Signalverarbeitung vornimmt, indem sie ein Klangsignal, das auf einem erfassten Klang beruht, in ein Spektrum umwandelt, eine Klangsignal-Verarbeitungseinrichtung, die das Klangsignal-Verarbeitungsverfahren ausführt, und ein Computerprogramm, das die Klangsignal-Verarbeitungseinrichtung verwirklicht. Die Erfindung betrifft insbesondere das Unterdrücken von nicht stationären Geräuschen, beispielsweise des elektronischen Klangs einer Vorrichtung, die in dem Klang enthalten ist, der von der Eingabevorrichtung, beispielsweise einem Mikrofon, eingegeben wird, und der Martinshörner von Einsatzfahrzeugen.
  • 2. Beschreibung des Stands der Technik
  • Bei einer Spracherkennungsfunktion, die in einem Gerät installiert ist, beispielsweise einem Kraftfahrzeug-Navigationssystem, hängt die Spracherkennungsleistung stark davon ab, ob man ein Sprachintervall, das Sprache enthält, exakt erkennen kann. Gängige Verfahren zum Erkennen eines Sprachintervalls umfassen beispielsweise ein Verfahren zum Erkennen eines Sprachintervalls, in dem ein Klangsignal als Sprache erkannt wird, wenn die Leistung, die als Quadrat der Amplitude entlang der Zeitachse berechnet wird, und zwar anhand eines Spektrums, das man gewinnt, indem man das Klangsignal mit einem Umsetzverfahren wie der FFT (Fast Fourier Transform) transformiert, größer oder gleich einem vorbestimmten Grenzwert ist. Gängig ist weiterhin ein Verfahren, bei dem ein Sprachintervall dadurch erkannt wird, dass die Periodizität eines Klangsignals, die so genannte Tonlage, extrahiert wird, und das Klangsignal als Sprache erkannt wird, wenn die Tonlage vorhanden ist, sowie eine Kombination dieser Verfahren.
  • Es wird nun die Spracherkennungsverarbeitung in einem herkömmlichen Spracherkennungssystem erklärt. 1 zeigt ein Flussdiagramm einer herkömmlichen Spracherkennungsverarbeitung. Das Spracherkennungssystem erfasst einen Klang, der Sprache und Rauschen umfasst, mit einem Mikrophon (S101), konvertiert ein Klangsignal abhängig vom erfassten Klang Frame für Frame in ein Spektrum, wobei die Frames mit einem vorbestimmten Zeitintervall unterteilt werden, und entnimmt die kennzeichnenden Merkmale wie Leistung, Tonlage, Cepstrum usw. aus dem konvertierten Spektrum (S102).
  • Zudem erfasst das Spracherkennungssystem einen Frame, der gleich oder größer einem Sprachintervall-Erfassungsgrenzwert ist, anhand der Leistung und der Tonlage als entnommene Kennzeichnungsmerkmale, und es stellt fest, ob der erfasste Frame für eine gewisse Periode oder länger andauert, um ein Sprachintervall aus dem erfassten Klang zu gewinnen (S103).
  • Durch das Vergleichen der Kennzeichnungsmerkmale des als Sprachintervall erkannten Frames mit einem Akustikmodell und einem Sprachwörterbuch erkennt das Spracherkennungssystem die Sprache im Sprachintervall (S104).
  • In der Spracherkennungsverarbeitung in 1 haben auch elektronische Klänge, die beispielsweise durch das Betätigen eines Knopfs eines Fahrzeugnavigationssystems verursacht werden, eine gewisse Leistung und Tonlage. Erfasst also das Spracherkennungssystem einen einzelnen elektronischen Klang, so tritt die Schwierigkeit auf, dass der elektronische Klang fehlerhafterweise leicht als Sprache erkannt wird.
  • Die veröffentlichte japanische Patentschrift 08-265457 (1996) offenbart ein Verfahren, das die Eigenschaft verwendet, dass in einem elektronischen Klang (Tonsignal) eine kleine Anzahl Spitzen existiert, und das den elektronischen Klang durch die Erfassung einer spektralen Spitze erkennt.
  • Die veröffentlichte japanische Patentschrift 2003-58186 offenbart ein Rauschunterdrückungsverfahren, das die Martinshorngeräusche von Einsatzfahrzeugen unterdrückt.
  • Die veröffentlichte japanische Patentschrift 2005-257805 offenbart ein Verfahren, das nicht nur nichtstationäres Rauschen wie elektronische Klänge und den Klang eines Martinshorns unterdrückt, sondern auch periodisches Rauschen.
  • KURZE ZUSAMMENFASSUNG DER ERFINDUNG
  • Bei dem herkömmlichen Verfahren, das in der veröffentlichten japanischen Patentschrift 08-265457 (1996) offenbart ist, tritt die Schwierigkeit auf, dass die Erfassungsgenauigkeit einer spektralen Spitze eines elektronischen Klangs in einer Umgebung abfällt, in der Rauschen auftritt, beispielsweise das Motorgeräusch von Fahrzeugen und das Geräusch von Klimaanlagen.
  • Die in der veröffentlichten japanischen Patentschrift 08-265457 (1996) auftretenden Schwierigkeiten werden anhand von 2A und 2B erklärt. 2A und 2B zeigen ein Spektrum. 2A zeigt den Zusammenhang zwischen Frequenz und Leistung in einer Umgebung, die frei von Geräuschen ist, die durch den Motorenlärm von Fahrzeugen verursacht werden. 2B zeigt den Zusammenhang zwischen Frequenz und Leistung in einer Umgebung, in der durch Motorenlärm verursachte Geräusche vorhanden sind. In 2A treten in einer Umgebung, die frei von Geräuschen ist, die durch Motorenlärm verursacht werden, deutlich zwei scharfe Spitzen mit schmaler Bandbreite auf, die nicht kleiner sind als ein Grenzwert, der durch die gepunktete Linie dargestellt wird. Man kann diese Spitzen sehr exakt als Rauschen erkennen, das durch elektronische Klänge verursacht wird. In 2B treten in einer Umgebung, in der durch Motorenlärm von Fahrzeugen verursachte Geräusche vorhanden sind, die durch die gepunktete Linie dargestellt werden, in niederen Frequenzbereichen schwache Spitzen mit einer hohen Bandbreite auf, die vom Motorengeräusch stammen. Damit sind die beiden Spitzen, die von den elektronischen Klängen stammen, undeutlich ausgeprägt. Somit wird die Erfassungsgenauigkeit der Spitzen geringer, wenn man nur das Verfahren verwendet, bei dem der Grenzwert und die Leistung einfach verglichen werden.
  • In dem Verfahren, das in der veröffentlichten japanische Patentschrift 2003-58186 offenbart ist, ist es erforderlich, die Grundfrequenz des Martinshornklangs zu extrahieren, und es ist erforderlich, ein gemitteltes Spektrum aus den vorhergehenden Frames zu berechnen. Damit besteht die Schwierigkeit, dass dieses Verfahren nur vorher erlernte periodische Geräusche unterdrücken kann.
  • In dem Verfahren, das in der veröffentlichten japanische Patentschrift 2005-257805 offenbart ist, tritt die Schwierigkeit auf, dass zusätzlich ein Mikrophon zum Sammeln von Geräusch erforderlich ist, das unterdrückt werden soll.
  • Die Erfindung hat das Ziel, die angesprochenen Probleme zu lösen, und es ist eine Aufgabe der Erfindung, ein Klangsignal-Verarbeitungsverfahren bereitzustellen, das sehr exakt eine Spitze eines nichtstationären Geräuschs erkennen und unterdrücken kann, beispielsweise einen elektronischen Klang und Martinshornklänge, und zwar auch in einer Umgebung mit stationären Geräuschen, beispielsweise dem Geräusch des Motors und dem Geräusch von Klimaanlagen. Dies geschieht durch das Berechnen einer spektralen Einhüllenden eines Spektrums, das Entfernen der spektralen Einhüllenden vom Spektrum, das Erfassen einer spektralen Spitze anhand eines Spektrums, das durch das Entfernen der spektralen Einhüllenden gewonnen wird, und das Unterdrücken der spektralen Spitze, und zwar ohne dass ein vorhergehendes Lernen oder ein Mikrophon zum Sammeln von Rauschen erforderlich ist. Es ist zudem eine Aufgabe der Erfindung, eine Klangsignal-Verarbeitungsvorrichtung bereitzustellen, die das Klangsignal-Verarbeitungsverfahren einsetzt, und ein Computerprogramm, das die Klangsignal-Verarbeitungsvorrichtung verwirklicht.
  • Ein Klangsignal-Verarbeitungsverfahren gemäß einem ersten Aspekt ist ein Klangsignal-Verarbeitungsverfahren, das die Signalverarbeitung dadurch ausführt, dass sie ein Klangsignal abhängig von einem erfassten Klang in ein Spektrum umsetzt, und das Verfahren ist gekennzeichnet durch: das Berechnen einer spektralen Einhüllenden aus dem Spektrum; das Entfernen der spektralen Einhüllenden vom Spektrum; das Erfassen einer spektralen Spitze in dem Spektrum, das durch das Entfernen der Einhüllenden gewonnen wird; und das Unterdrücken der erfassten spektralen Spitze.
  • In der Erfindung ist es durch das Erfassen einer spektralen Spitze nach dem Entfernen der spektralen Einhüllenden möglich, scharfe Spitzen von elektronischen Klängen usw. zu erkennen, ohne dass sich moderate Spitzen des Motorengeräuschs, des Klimaanlagengeräuschs usw. nachteilig auswirken, die in unteren Frequenzbändern auftreten. Es ist daher möglich, Spitzen sehr exakt zu erkennen und Rauschen zu entfernen. Zudem ist kein vorhergehender Lernvorgang erforderlich, und es ist kein Mikrophon zum Sammeln von Geräuschen erforderlich.
  • Eine Klangsignal-Verarbeitungsvorrichtung gemäß einem zweiten Aspekt ist eine Klangsignal-Verarbeitungsvorrichtung, die eine Signalverarbeitung vornimmt, indem sie ein Klangsignal, das auf einem erfassten Klang beruht, in ein Spektrum konvertiert, und die Vorrichtung ist gekennzeichnet durch: eine Einhüllenden-Berechnungsvorrichtung, die eine spektrale Einhüllende ausgehend von dem Spektrum berechnet; eine Einhüllenden-Entfernungsvorrichtung, die die spektrale Einhüllende von dem Spektrum entfernt; eine Erfassungsvorrichtung, die eine spektrale Spitze in dem Spektrum erfasst, das durch das Entfernen der spektralen Einhüllenden gewonnen wurde; und eine Unterdrückungsvorrichtung, die die erfasste spektrale Spitze unterdrückt.
  • In der Erfindung ist es durch das Erfassen einer spektralen Spitze nach dem Entfernen der spektralen Einhüllenden möglich, scharfe Spitzen von elektronischen Klängen usw. zu erkennen, ohne dass sich moderate Spitzen des Motorengeräuschs, des Klimaanlagengeräuschs usw., die in unteren Frequenzbändern auftreten, nachteilig auswirken. Es ist daher möglich, Spitzen sehr exakt zu erkennen und Rauschen zu entfernen. Zudem ist kein vorhergehender Lernvorgang erforderlich, und es ist kein Mikrophon zum Sammeln von Geräuschen erforderlich.
  • Eine Klangsignal-Verarbeitungsvorrichtung gemäß einem dritten Aspekt der Erfindung beruht auf dem zweiten Aspekt und ist dadurch gekennzeichnet, dass die Einhüllenden-Berechnungsvorrichtung ein Cepstrum aus einem Spektrum berechnet, das man durch das Konvertieren des Klangsignals in einem ersten Umsetzvorgang erhält, und dass sie eine spektrale Einhüllende durch das Konvertieren einer Komponente berechnet, die eine geringere Ordnung hat als eine vorbestimmte Ordnung, und zwar aus dem berechneten Cepstrum durch eine zweite Konvertierung, die eine inverse Konvertierung der ersten Konvertierung ist.
  • In der Erfindung wird eine spektrale Einhüllende, die einen Umriss des Spektrums darstellt, durch eine erste Konvertierung berechnet, beispielsweise durch die FFT, und durch eine zweite Konvertierung, beispielsweise durch die inverse FFT.
  • Eine Klangsignal-Verarbeitungsvorrichtung gemäß einem vierten Aspekt der Erfindung beruht auf dem zweiten Aspekt oder dem dritten Aspekt und ist dadurch gekennzeichnet, dass die Erfassungsvorrichtung ein. Band erkennt, das einen Wert oberhalb eines vorbestimmten Grenzwerts zeigt, und zwar als Band, das eine spektrale Spitze in dem Spektrum enthält, das man durch das Entfernen der spektralen Einhüllenden erhält.
  • In der Erfindung ist es möglich, eine spektrale Spitze durch den Vergleich mit dem Grenzwert zu erkennen.
  • Eine Klangsignal-Verarbeitungsvorrichtung gemäß einem fünften Aspekt beruht auf dem zweiten Aspekt oder dem dritten Aspekt und ist dadurch gekennzeichnet, dass die Erfassungsvorrichtung ein Band erkennt, in dem das Verhältnis zwischen einem Gesamtwert von Werten in einem Band mit einer vorbestimmten Breite und einem Gesamtwert von Werten in allen Bändern mit Ausnahme des Bands mit der vorbestimmten Breite einen Wert zeigt, der größer ist als ein vorbestimmter Grenzwert, und zwar als Band, das eine spektrale Spitze in dem Spektrum enthält, das man durch das Entfernen der spektralen Einhüllenden erhält.
  • In der Erfindung ist es durch das Vergleichen mit der spektralen Leistung in allen Bändern und das Entnehmen von Spitzen aus einem Band mit hoher Leistung anstelle der einfachen Entnahme einer Spitze aus einem Band mit einer hohen spektralen Spitze möglich, offensichtliche Spitzen unter Betrachtung aller Bänder zu erkennen.
  • Eine Klangsignal-Verarbeitungsvorrichtung gemäß einem sechsten Aspekt beruht auf irgendeinem der Aspekte zwei bis fünf und ist dadurch gekennzeichnet, dass die Unterdrückungsvorrichtung eine spektrale Spitze dadurch unterdrückt, dass sie einen Wert, der gleich oder größer einem Grenzwert ist, aus den Werten des Spektrums eines Bands, das die erfasste spektrale Spitze enthält, durch einen Wert ersetzt, der auf dem Grenzwert beruht.
  • In der Erfindung ist es durch das Ersetzen des Werts einer spektralen Spitze, die von einem Geräusch stammt, beispielsweise einem elektronischen Klang, durch den Grenzwert, möglich, die Spitze zu entfernen und das Geräusch zu unterdrücken.
  • Eine Klangsignal-Verarbeitungsvorrichtung gemäß einem siebten Aspekt beruht auf irgendeinem der Aspekte zwei bis fünf und ist dadurch gekennzeichnet, dass die Unterdrückungsvorrichtung eine spektrale Spitze dadurch unterdrückt, dass sie einen Wert, der gleich oder größer als die spektrale Einhüllende aus Werten des Spektrums eines Bands ist, das die erfasste spektrale Spitze enthält, durch einen Wert ersetzt, der auf der spektralen Einhüllenden beruht.
  • In der Erfindung ist es durch das Ersetzen des Werts einer spektralen Spitze, die von einem Geräusch stammt, beispielsweise einem elektronischen Klang, durch einen Wert, der auf der spektralen Einhüllenden beruht, möglich, die Spitze zu entfernen und das Geräusch zu unterdrücken.
  • Eine Klangsignal-Verarbeitungsvorrichtung gemäß einem achten Aspekt beruht auf irgendeinem der Aspekte zwei bis fünf und ist dadurch gekennzeichnet, dass die Unterdrückungsvorrichtung eine spektrale Spitze dadurch unterdrückt, dass sie Werte des Spektrums eines Bands, das die erfasste spektrale Spitze enthält, durch einen Gesamtwert von Werten in einem Band ersetzt, das breiter ist als das Band, das die erfasste spektrale Spitze enthält.
  • In der Erfindung ist es durch das Ersetzen des Werts einer spektralen Spitze, die von einem Geräusch stammt, beispielsweise einem elektronischen Klang, durch einen Gesamtwert, beispielsweise den Mittelwert der Werte in einem Band mit einigen 100 Hz Breite um die spektrale Spitze herum möglich, die Spitze zu entfernen und das Geräusch zu unterdrücken.
  • Eine Klangsignal-Verarbeitungsvorrichtung gemäß einem neunten Aspekt beruht auf irgendeinem der Aspekte zwei bis acht und ist dadurch gekennzeichnet, dass sie zudem Mittel zum Ausführen der Spracherkennungsverarbeitung enthält, die auf dem Klangsignal mit der unterdrückten spektralen Spitze beruht.
  • In der Erfindung ist es möglich, die Spracherkennungsverarbeitung sehr exakt vorzunehmen, die auf einem Klangsignal beruht, aus dem Geräusche entfernt wurden, beispielsweise elektronische Klänge.
  • Ein Computerprogramm gemäß einem zehnten Aspekt ist ein Computerprogramm, das einen Computer veranlasst, eine Signalverarbeitung auszuführen, die ein Klangsignal, das auf einem erfassten Klang beruht, in ein Spektrum umsetzt, und es ist dadurch gekennzeichnet, dass ausgeführt wird: ein Schritt, der den Computer veranlasst, eine spektrale Einhüllende des Spektrums zu berechnen; ein Schritt, der den Computer veranlasst, die spektrale Einhüllende von dem Spektrum zu entfernen; ein Schritt, der den Computer veranlasst, eine spektrale Spitze in dem Spektrum zu erkennen, das man durch das Entfernen der spektralen Einhüllenden gewinnt; und ein Schritt, der den Computer veranlasst, die erfasste spektrale Spitze zu unterdrücken.
  • In der Erfindung arbeitet der Computer dadurch als Klangsignal-Erkennungsvorrichtung, dass das Computerprogramm mit einem Computer beispielsweise als Navigationsvorrichtung ausgeführt wird. Durch das Erfassen einer spektralen Spitze nach dem Abstreifen der spektralen Einhüllenden ist es möglich, scharfe Spitzen von elektronischen Klängen usw. zu erkennen, ohne dass schwächere Spitzen des Motorengeräuschs, des Klimaanlagengeräuschs usw., die in unteren Frequenzbändern auftreten, nachteilige Einflüsse haben. Damit ist es möglich, Spitzen äußerst exakt zu erkennen und Geräusche zu entfernen. Zudem ist eine vorhergehende Lernphase nicht erforderlich, und ein Mikrophon zum Sammeln von Geräusch ist nicht nötig.
  • Ein Klangsignal-Erfassungsverfahren, eine Klangsignal-Erfassungsvorrichtung und ein Computerprogramm der Erfindung setzen ein Klangsignal, das auf einem erfassten Klang beruht, mit einem Verfahren wie beispielsweise der FFT in ein Spektrum um; sie berechnen eine spektrale Einhüllende aus dem Spektrum; sie entfernen die Einhüllende des Spektrums vom Spektrum, sie erkennen eine spektrale Spitze in dem Spektrum, das durch Entfernen der Einhüllenden des Spektrums gewonnen wurde; und sie unterdrücken die erkannte spektrale Spitze.
  • Da in dieser Anordnung spektrale Spitzen nach dem Entfernen der spektralen Einhüllenden erkannt werden, ist es möglich, die spektrale Einhüllende zu entfernen, die einen Umriss des Spektrums angibt, und die Feinstruktur des Spektrums für das Erkennen der spektralen Spitzen zu verwenden. Da es möglich ist, scharfe Spitzen von elektronischen Klängen usw. zu erkennen, ohne dass schwächere Spitzen des Motorengeräuschs, des Klimaanlagengeräuschs usw., die in unteren Frequenzbändern auftreten, nachteilige Einflüsse haben, erzeugt die Erfindung vorteilhafte Auswirkungen, da sie in der Lage ist, Spitzen sehr exakt zu erkennen und Geräusch zu entfernen. Zudem erzeugt die Erfindung auch insoweit vorteilhafte Auswirkungen, als sie in der Lage ist, einen vorhergehenden Lernvorgang überflüssig zu machen, und sie kein Mikrophon zum Sammeln von Geräusch benötigt.
  • Wird die Erfindung im Einzelnen auf ein Fahrzeug-Navigationssystem mit Spracherkennungsfunktion angewendet, das in Fahrzeugen eingebaut ist, so werden Geräusche wie elektronische Klänge und Martinshorngeräusche niemals fälschlich als Sprache erkannt, da das Erfassen und Unterdrücken der spektralen Spitzen von nichtstationären Geräuschen, beispielsweise elektronischen Klängen und Martinshorngeräuschen, sehr exakt realisiert wird, und zwar auch unter Umgebungsbedingungen, in denen stationäre Geräusche wie das Motorengeräusch von Fahrzeugen und der Klang von Klimaanlagen auftreten. Man kann damit vorteilhafte Effekte erzeugen, beispielsweise das Verbessern der Genauigkeit der Spracherkennung.
  • Die beschriebenen Aufgaben und Merkmale der Erfindung und weitere Aufgaben und Merkmale gehen aus der folgenden ausführlichen Beschreibung zusammen mit den beiliegenden Zeichnungen hervor.
  • KURZE BESCHREIBUNG DER ANSICHTEN IN DEN ZEICHNUNGEN
  • Es zeigt:
  • 1 ein Flussdiagramm einer herkömmlichen Spracherkennungsverarbeitung;
  • 2A und 2B Darstellungen eines Spektrums;
  • 3 ein Blockdiagramm eines Beispiels der Anordnung einer Klangsignal-Verarbeitungsvorrichtung gemäß der ersten Ausführungsform der Erfindung;
  • 4 ein Flussdiagramm eines Beispiels der Verarbeitung, die die Klangsignal-Verarbeitungsvorrichtung gemäß der ersten Ausführungsform der Erfindung vornimmt;
  • 5 eine Ansicht eines Beispiels eines Spektrums der Klangsignal-Verarbeitungsvorrichtung gemäß der ersten Ausführungsform der Erfindung;
  • 6A und 6B Kurvenverläufe eines Beispiels für ein Klangsignal der Klangsignal-Verarbeitungsvorrichtung gemäß der ersten Ausführungsform der Erfindung;
  • 7 eine Ansicht eines Beispiels eines Spektrums der Klangsignal-Verarbeitungsvorrichtung gemäß der zweiten Ausführungsform der Erfindung; und
  • 8 eine Ansicht eines Beispiels eines Spektrums der Klangsignal-Verarbeitungsvorrichtung gemäß der dritten Ausführungsform der Erfindung.
  • AUSFÜHRLICHE BESCHREIBUNG DER ERFINDUNG
  • In der folgenden Beschreibung wird die Erfindung anhand der Zeichnungen, die einige Ausführungsformen der Erfindung erläutern, ausführlich erklärt.
  • Erste Ausführungsform
  • 3 zeigt ein Blockdiagramm eines Beispiels der Anordnung einer Klangsignal-Verarbeitungsvorrichtung gemäß der ersten Ausführungsform der Erfindung. In 3 bezeichnet 1 eine Klangsignal-Verarbeitungsvorrichtung, in der ein Computer verwendet wird, beispielsweise eine Navigationsvorrichtung, die in einem Fahrzeug eingebaut ist. Die Klangsignal-Verarbeitungsvorrichtung 1 umfasst mindestens: eine Steuervorrichtung 10 (Controller), beispielsweise eine CPU (Central Processing Unit) und einen DSP (Digitalen Signalprozessor), die die gesamte Vorrichtung steuern; eine Aufzeichnungsvorrichtung 11, beispielsweise eine Festplatte, und ein ROM zum Aufzeichnen unterschiedlicher Informationen, beispielsweise Programme und Daten; eine Speichervorrichtung 12, beispielsweise ein RAM, das erzeugte Daten temporär speichert; eine Klangerfassungsvorrichtung 13, beispielsweise ein Mikrophon, das Klänge aus der Umgebung aufnimmt; eine Klangausgabevorrichtung 14, beispielsweise einen Lautsprecher, der Klänge ausgibt; eine Anzeigevorrichtung 15, beispielsweise einen Flüssigkristallmonitor; und eine Navigationsvorrichtung 16 die Verarbeitungen bezüglich der Navigation ausführt, beispielsweise eine Strecke zu einem Ziel zeigt.
  • Ein Computerprogramm 11a der Erfindung ist in der Aufzeichnungsvorrichtung 11 aufgezeichnet, und ein Computer arbeitet als Klangsignal-Verarbeitungsvorrichtung 1 der Erfindung, indem er verschiedene Arten von Verarbeitungsschritten, die im aufgezeichneten Computerprogramm 11a enthalten sind, in der Speichervorrichtung 12 speichert und sie gesteuert durch die Steuervorrichtung 10 ausführt.
  • Ein Teil des Aufzeichnungsbereichs der Aufzeichnungsvorrichtung 11 wird für verschiedene Datenbanken verwendet, beispielsweise eine Akustikmodell-Datenbank 11b (Akustikmodell DB), in der Akustikmodelle für die Spracherkennung aufgezeichnet sind, und ein Sprachwörterbuch 11c, in dem ein erkennbarer Wortschatz aufgezeichnet ist, der durch phonemische oder syllabische Definitionen beschrieben ist, die den Akustikmodellen zugeordnet sind, und eine Grammatik.
  • Ein Teil der Speichervorrichtung 12 wird als Klangdatenpuffer 12a verwendet, in dem digitalisierte Klangdaten gespeichert werden, die man durch das Abtasten eines Klangs erhält, der ein analoges Signal ist, das die Klangerfassungsvorrichtung 13 in einer vorbestimmten Periode erfasst. Ein weiterer Teil der Speichervorrichtung 12 wird als Framepuffer 12b verwendet, in dem Frames gespeichert werden, die man dadurch erhält, dass die Klangdaten in Abschnitte mit vorbestimmter zeitlicher Länge unterteilt werden.
  • Die Navigationsvorrichtung 16 enthält einen Positionsbestimmungsmechanismus, beispielsweise GPS (Global Positioning System), und ein Aufzeichnungsmedium, beispielsweise eine DVD oder eine Festplatte, auf dem Karteninformation gespeichert ist. Die Navigationsvorrichtung 16 führt die Navigationsverarbeitung aus, beispielsweise die Suche nach einer Strecke vom momentanen Standort zu einem Ziel, und sie zeigt die Route an, stellt eine Landkarte und die Route auf der Anzeigevorrichtung 15 dar und gibt eine Sprachführung auf der Klangausgabevorrichtung 14 aus.
  • Das Aufbaubeispiel in 3 ist lediglich ein Beispiel, und man kann die Erfindung in verschiedenen Formen erweitern. Es wäre beispielsweise möglich, eine Funktion bezüglich der Klangsignalverarbeitung als einen oder mehrere VLSI-Chips zu konstruieren und sie in eine Navigationsvorrichtung aufzunehmen, oder es wäre möglich, extern eine Vorrichtung für die Klangsignalverarbeitung zu montieren, die nur die Navigationsvorrichtung verwendet. Es wäre möglich, die Steuervorrichtung 10 sowohl für die Klangsignalverarbeitung als auch die Navigationsverarbeitung zu verwenden, oder es wäre möglich, eine Schaltung bereitzustellen, die exklusiv für jede Verarbeitung eingesetzt wird. Es wäre zudem möglich, in die Steuervorrichtung 10 einen Koprozessor aufzunehmen, der Verarbeitungen ausführt, beispielsweise besondere Berechnungen für die Klangsignalverarbeitung, beispielsweise die später beschriebene FFT (Fast Fourier Transformation) und inverse FFT. Wahlweise wäre es möglich, den Klangdatenpuffer 12a als Zusatzschaltung der Klangerfassungsvorrichtung 13 aufzubauen, und den Framepuffer 12b im Speicher der Steuervorrichtung 10 aufzubauen. Die Klangsignal-Verarbeitungsvorrichtung 1 der Erfindung ist nicht auf eine Fahrzeugvorrichtung beschränkt, beispielsweise eine Navigationsvorrichtung, und sie kann in Vorrichtungen für unterschiedliche Anwendungen verendet werden und dort eine Spracherkennung vornehmen, beispielsweise in Telephonen.
  • In der folgenden Beschreibung wird die Verarbeitung erklärt, die die Klangsignal-Verarbeitungsvorrichtung 1 gemäß der ersten Ausführungsform der Erfindung vornimmt. 4 zeigt ein Flussdiagramm mit einem Beispiel der Verarbeitung, die die Klangsignal-Verarbeitungsvorrichtung 1 gemäß der ersten Ausführungsform der Erfindung vornimmt. Gesteuert durch die Steuervorrichtung 10, die ein Computerprogramm 11a ausführt, erfasst die Klangsignal-Verarbeitungsvorrichtung 1 äußere Klänge mit der Klangerfassungsvorrichtung 13 (Schritt S1), und speichert digitalisierte Klangdaten, die durch Abtasten des erfassten Klangs, d. h. eines Analogsignals, in einer vorbestimmten Periode gewonnen werden, im Klangdatenpuffer 12a (Schritt S2). Der im Schritt S1 zu erfassende äußere Klang enthält unterschiedliche überlagerte Klänge, beispielsweise menschliche Sprache, stationäre Geräusche und nichtstationäre Geräusche. Die Klangsignal-Verarbeitungsvorrichtung 1 muss die menschliche Sprache erkennen. Die stationären Geräusche sind Geräusche wie das Motorengeräusch von Fahrzeugen und das Geräusch von Klimaanlagen. Die nichtstationären Geräusche sind Geräusche wie elektronische Klänge, die beim Bedienen elektronischer Geräte entstehen, und das Geräusch von Martinshörnern.
  • Die Klangsignal-Verarbeitungsvorrichtung 1 erzeugt gesteuert durch die Steuervorrichtung 10 Frames mit einer vorbestimmten Länge aus den Klangdaten, die im Klangdatenpuffer 12a gespeichert sind (Schritt S3). Im Schritt S3 werden die Klangdaten beispielsweise in Frames mit einer vorbestimmten Länge von 20 ms bis 30 ms unterteilt. Die jeweiligen Frames überlappen einander um 10 ms bis 15 ms. Für jeden Frame umfasst die für die Spracherkennung gängige Frameverarbeitung Fensterfunktionen wie ein Hamming-Fenster und ein Hanning-Fenster, und es erfolgt eine Filterung mit einem Hochpassfilter. Die folgende Verarbeitung wird für jeden der solcherart erzeugten Frames vorgenommen.
  • Gesteuert durch die Steuervorrichtung 10 konvertiert die Klangsignal-Verarbeitungsvorrichtung 1 ein Klangsignal, das auf den Klangdaten eines jeden Frames beruht, in ein Spektrum, indem sie eine FFT-Verarbeitung ausführt (Schritt S4). Im Schritt S4 bestimmt die Klangsignal-Verarbeitungsvorrichtung 1 ein Leistungsspektrum durch das Quadrieren eines Amplitudenspektrums X(ω), das durch die FFT-Verarbeitung des Klangsignals gewonnen wird, und sie berechnet ein logarithmisches Leistungsspektrum 20log10|X(ω)| als Logarithmus des bestimmten Leistungsspektrums. Das Klangsignal wird auf diese Weise in ein logarithmisches Leistungsspektrum umgesetzt. Man beachte, dass es im Schritt S4 möglich wäre, ein logarithmisches Leistungsspektrum 10log10|X(ω)| als Logarithmus des Amplitudenspektrums X(ω) zu berechnen, das durch die FFT-Verarbeitung des Klangsignals gewonnen wird, und das berechnete logarithmische Ampli tudenspektrum als Spektrum nach dem Umsetzen zu verwenden.
  • Gesteuert durch die Steuervorrichtung 10 konvertiert die Klangsignal-Verarbeitungsvorrichtung 1 das Spektrum anhand der Fouriertransformierten des Klangsignals in ein Cepstrum und berechnet eine spektrale Einhüllende, indem sie eine inverse FFT-Verarbeitung an einer Komponente des konvertierten Cepstrums vornimmt, die eine geringere Ordnung hat als eine vorbestimmte Ordnung (Schritt S5).
  • Die Verarbeitung im Schritt S5 wird nun erklärt. Das Amplitudenspektrum |X(ω)|, das man durch die FFT-Verarbeitung des Klangsignals gewinnt, wird durch die folgende Gleichung 1 ausgedrückt, wobei G(ω) und H(ω) die Komponenten der FFT mit höherer Ordnung bzw. geringerer Ordnung darstellen X(ω) = G(ω)H(ω) Gleichung 1
  • Den Logarithmus von Gleichung 1 kann man durch die folgende Gleichung 2 ausdrücken. log10|X(ω)| = log10|G(ω)| + log10|H(ω)| Gleichung 2
  • Ein Cepstrum c(τ) gewinnt man durch die inverse FFT von Gleichung 2 bezüglich der Frequenz ω als Variable. Der erste Term auf der rechten Seite von Gleichung 2 zeigt eine Feinstruktur, die eine Komponente höherer Ordnung des Spektrums ist, und der zweite Term auf der rechten Seite zeigt eine spektrale Einhüllende, die eine Komponente geringerer Ordnung des Spektrums ist. Anders ausgedrückt wird im Schritt S5 eine spektrale Einhüllende dadurch berechnet, dass man eine inverse FFT einer Komponente vornimmt, deren Ordnung geringer ist als eine vorbestimmte Ordnung, beispielsweise einer Komponente geringer als die zehnte Ordnung oder zwanzigste Ordnung des FFT-Cepstrums, das aus dem FFT-Spektrum berechnet wird. Es gibt auch ein Verfahren, in dem eine spektrale Einhüllende mit einem LPC-Cepstrum (LPC = Linear Predictive Coding) verwendet wird. Das hier verwendete Verfahren liefert jedoch eine Einhüllende mit verstärkten Spitzen, weshalb das FFT-Cepstrum zu bevorzugen ist.
  • Die Klangsignal-Verarbeitungsvorrichtung 1 entfernt gesteuert durch die Steuervorrichtung 10 die im Schritt S5 berechnete spektrale Einhüllende vom im Schritt S4 bestimmten Spektrum (Schritt S6). Der Entfernungsvorgang im Schritt S6 erfolgt durch Subtrahieren der Werte der entsprechenden Frequenzen in der spektralen Einhüllenden von den Werten der jeweiligen Frequenzen des Spektrums, das im Schritt S4 bestimmt wurde. Durch das Entfernen der spektralen Einhüllenden vom Spektrum im Schritt S6 wird die Neigung des Spektrums entfernt, und das Spektrum wird flach. Damit erhält man als Ergebnis der Verarbeitung die Feinstruktur des Spektrums. Es wäre auch möglich, die spektrale Feinstruktur durch eine inverse FFT auf einer Komponente höherer Ordnung zu berechnen, beispielsweise auf einer Komponente, die nicht kleiner ist als die elfte Ordnung oder einundzwanzigste Ordnung des FFT-Cepstrums, die beim Berechnen der spektralen Einhüllenden nicht verwendet wurde, anstatt die spektrale Einhüllende vom Spektrum abzutrennen.
  • Gesteuert durch die Steuervorrichtung 10 erkennt die Klangsignal-Verarbeitungsvorrichtung 1 eine spektrale Spitze in dem Spektrum, das durch das Entfernen der spektralen Einhüllenden (Schritt S7) gewonnen wurde, und sie unterdrückt die erkannte spektrale Spitze (Schritt S8).
  • Beim Erkennen einer spektralen Spitze im Schritt S7 wird ein Band, das eine spektrale Spitze enthält, die einen größeren Wert zeigt als ein vorbestimmter Grenzwert, der in der Aufzeichnungsvorrichtung 11 hinterlegt ist, als ein Band erkannt, das eine zu unterdrückende spektrale Spitze enthält. Wahlweise kann man ein Band, das n (n ist eine natürliche Zahl) Spitzen neben der größten Spitze als zu unterdrückende spektrale Spitzen enthält, erfassen. Zudem könnte man ein Band erfassen, das eine Höchstanzahl von n Spitzen neben dem größten Wert der spektralen Spitzen enthält, die größere Werte als der vorbestimmte Grenzwert zeigen, die die zu unterdrückenden spektralen Spitzen sind. Man beachte, dass der Wert von n ungefähr im Bereich von 2 bis 4 liegt.
  • Als Verfahren zum Unterdrücken der spektralen Spitze im Schritt S8 werden im Folgenden einige Vorgehensweisen als Beispiele aufgeführt. Das erste Unterdrückungsverfahren ist ein Verfahren, in dem die Werte der Leistung, die gleich dem oder höher als der Grenzwert in einem Band sind, das die erkannte spektrale Spitze enthält, in den Grenzwert umgewandelt werden. D. h., die Leistung, die zum Grenzwert und größeren Werten gehört, wird vom Spektrum subtrahiert. Es ist nicht erforderlich, die Werte, die gleich dem oder größer als der Grenzwert sind, in den Grenzwert umzuwandeln, und man könnte die Werte in einen Wert umwandeln, der auf dem Grenzwert beruht, beispielsweise einen Wert, der um einen vorbestimmten Wert über dem Grenzwert liegt.
  • Das zweite Unterdrückungsverfahren ist ein Verfahren, in dem ein Leistungswert, der gleich oder größer der spektralen Einhüllenden in einem Randband ist, das die erfass te spektrale Spitze enthält, beispielsweise einem Band mit einer Breite von mehreren 100 Hz um die spektrale Spitze herum, in einen entsprechenden Wert der spektralen Einhüllenden umgesetzt wird.
  • Das dritte Unterdrückungsverfahren ist ein Verfahren, in dem die Werte in einem Band zwischen Punkten, an denen die erfasste spektrale Spitze die spektrale Einhüllende kreuzt, d. h. einem Band, in dem der Wert der Leistung, die die spektrale Spitze bildet, die spektrale Einhüllende übersteigt und anschließend kleiner wird als die spektrale Einhüllende, in einen Wert der entsprechenden spektralen Einhüllenden umgewandelt werden.
  • Das vierte Unterdrückungsverfahren ist ein Verfahren, in dem eine spektrale Spitze dadurch unterdrückt wird, dass der Wert der Leistung in einem Band, das die erfasste spektrale Spitze erhält, durch den Gesamtwert ersetzt wird, beispielsweise den Mittelwert der Werte in einem Band, das breiter ist als das Band, das die erfasste spektrale Spitze enthält, beispielsweise einem Band mit einer Breite von einigen 100 Hz in der Umgebung der spektralen Spitze.
  • Gesteuert durch die Steuervorrichtung 10 entnimmt die Klangsignal-Verarbeitungsvorrichtung 1 die Merkmalskomponenten, beispielsweise die Leistung, die man durch das Integrieren eines Leistungsspektrums mit der unterdrückten spektralen Spitze über der Frequenz erhält, die Tonlage und das Cepstrum (Schritt S9), und sie bestimmt ein Sprachintervall abhängig von der entnommenen spektralen Leistung und der Tonlage (Schritt S10). Bei der Bestimmung eines Sprachintervalls im Schritt S10 wird die im Schritt S9 berechnete spektrale Leistung mit einem Grenzwert für die Spracherkennung verglichen, der in der Aufzeichnungsvorrichtung 11 hinterlegt ist. Liegen eine spektrale Leistung vor, die größer oder gleich dem Grenzwert ist, und eine Tonlage, so wird das Intervall als Sprachintervall festgelegt.
  • Nun bezieht sich die Klangsignal-Verarbeitungsvorrichtung 1 gesteuert durch die Steuervorrichtung 10 auf die Akustikmodelle, die in der Akustikmodell-Datenbank 11b aufgezeichnet sind, und auf den erkennbaren Wortschatz und die Grammatik, die in dem Sprachwörterbuch 11c aufgezeichnet sind, und zwar anhand eines Merkmalsvektors, der eine Merkmalskomponente ist, die aus dem Spektrum entnommen wird, das man durch Unterdrücken der spektralen Spitze erhält, und sie führt eine Spracherkennungsverarbeitung auf einem Frame aus, der als Sprachintervall festgelegt ist (Schritt S11). Die Spracherkennungsverarbeitung im Schritt S11 erfolgt durch das Berechnen der Ähnlichkeit be züglich der Akustikmodelle und den Zugriff auf Sprachinformation hinsichtlich des erkennbaren Wortschatzes.
  • 5 zeigt eine Ansicht eines Beispiels eines Spektrums der Klangsignal-Verarbeitungsvorrichtung gemäß der ersten Ausführungsform der Erfindung. In 5 ist die Frequenz auf der Abszisse aufgetragen und die Leistung des Spektrums auf der Ordinate, um den Zusammenhang darzustellen. Die durchgezogene Linie in 5 bezeichnet ein Leistungsspektrum S1, die mit abwechselnden langen und kurzen Strichen dargestellte Linie zeigt eine spektrale Einhüllende S2, die aus dem Leistungsspektrum S1 berechnet wurde, und die punktierte Linie zeigt eine Feinstruktur S3 des Spektrums, das man durch das Entfernen der spektralen Einhüllenden S2 vom Leistungsspektrum S1 gewinnt. Ferner ist 30 dB als Grenzwert TL (TL = Threshold Level) eingestellt. Durch das Entfernen der spektralen Einhüllenden S2 aus dem Leistungsspektrum S1, siehe 5, wird die Neigung des Leistungsspektrums S1 von der Niederfrequenzseite zur Hochfrequenzseite beseitigt, und drei in der Feinstruktur S3 des Spektrums enthaltene spektrale Spitzen treten deutlich hervor. Beim Erfassen der spektralen Spitzen in der Feinstruktur S3 ist zu bevorzugen, dass man ein Frequenzband von 100 Hz am unteren und oberen Rand aus dem Erkennungsbereich ausschließt, weil es während der digitalen Signalverarbeitung von einem Bandpassfilter beeinflusst wird, weil in unteren Frequenzbändern keine elektronischen Klänge vorkommen, weil die Genauigkeit der spektralen Einhüllenden S2 geringer ist, oder aus anderen Gründen.
  • 6A und 6B zeigen Kurvenverläufe eines Beispiels für ein Klangsignal der Klangsignal-Verarbeitungsvorrichtung 1 gemäß der ersten Ausführungsform der Erfindung. 6A zeigt eine Veränderung der Amplitude des Klangsignals, das zeitabhängig in einen Frame unterteilt ist. 6B zeigt den Umriss der Leistung, die man durch das Quadrieren der Amplitude des Klangsignals in 6A erhält. In 6B zeigt P1 den Umriss der Leistung vor dem Entfernen der spektralen Einhüllenden, und P2 zeigt den Umriss der Leistung nach dem Entfernen der spektralen Einhüllenden. Wie man sehen kann, erscheinen in einem Segment R in P1 moderate Spitzen, die von stationären Geräuschen stammen, beispielsweise dem Motorgeräusch, und die in 6A überlagert sind. In 6B ist zu sehen, dass diese Spitzen in P2 entfernt sind.
  • Damit ist es in der ersten Ausführungsform der Erfindung möglich, Spitzen zu erkennen, die durch nichtstationäre Geräusche verursacht werden und scharte Spitzen aufweisen, beispielsweise elektronische Klänge und den Klang eines Martinshorns, wobei stationäres Geräusch auch unter einer stationären Geräuschumgebung entfernt wird, die wenig ausgeprägte Spitzen aufweist, beispielsweise das Motorengeräusch und das Klimaanlagengeräusch, und man kann die erfassten Spitzen unterdrücken. Man kann dadurch verhindern, dass nichtstationäre Geräusche fälschlich als Sprache erkannt werden. Obgleich das Spektrum von Sprache (ein Vokal) zahlreiche Spitzen aufweist, werden sie als spektrale Einhüllende entfernt, da die Spitzen verglichen mit dem elektronischen Klang nicht scharf sind, und daher die Spitzen des Vokals niemals fälschlicherweise unterdrückt werden.
  • Zweite Ausführungsform
  • Die zweite Ausführungsform ist eine Ausführungsform, die dadurch entsteht, dass man das Verfahren zum Erfassen der spektralen Spitze in der ersten Ausführungsform verändert. Da das Aufbaubeispiel einer Klangsignal-Verarbeitungsvorrichtung der zweiten Ausführungsform sich nicht von der ersten Ausführungsform unterscheidet, wird sie nicht erklärt, sondern auf die erste Ausführungsform verwiesen. In der folgenden Erklärung wird die Struktur der Klangsignal-Verarbeitungsvorrichtung dadurch erklärt, dass die gleichen Codes wie in der ersten Ausführungsform zugefügt werden. Da sich die in der Klangsignal-Verarbeitungsvorrichtung 1 der zweiten Ausführungsform vorgenommene Verarbeitung nicht von der Verarbeitung in der ersten Ausführungsform unterscheidet, wird sie nicht erklärt, sondern auf die erste Ausführungsform verwiesen. In der folgenden Erklärung werden die jeweiligen Verarbeitungsschritte, die die Klangsignal-Verarbeitungsvorrichtung 1 ausführen muss, dadurch erklärt, dass die gleichen Schrittbezeichnungen wie in der ersten Ausführungsform verwendet werden.
  • 7 zeigt eine Ansicht eines Beispiels eines Spektrums der Klangsignal-Verarbeitungsvorrichtung 1 gemäß der zweiten Ausführungsform der Erfindung. In 7 ist die Frequenz auf der Abszisse aufgetragen und die Leistung des Spektrums auf der Ordinate, um den Zusammenhang darzustellen. Die durchgezogene Linie in 7 bezeichnet ein Leistungsspektrum S1, die mit abwechselnden langen und kurzen Strichen dargestellte Linie zeigt eine spektrale Einhüllende S2, die aus dem Leistungsspektrum S1 berechnet wurde, und die punktierte Linie zeigt eine Feinstruktur S3 des Spektrums, das man durch das Entfernen der spektralen Einhüllenden S2 vom Leistungsspektrum S1 gewinnt.
  • Als Verarbeitung im Schritt S7 zum Erkennen einer spektralen Spitze in dem Spektrum, das man durch Entfernen der spektralen Einhüllenden erhält, erfasst die Klangsignal-Verarbeitungsvorrichtung 1 der zweiten Ausführungsform als Band, das eine spektrale Spitze enthält, ein Band, in dem das Verhältnis zwischen einem Gesamtwert von Werten in einem Band mit einer vorbestimmten Breite und einem Gesamtwert von Werten in allen Bändern mit Ausnahme des Bands mit der vorbestimmten Breite einen Wert zeigt, der größer ist als ein vorbestimmter Grenzwert. Insbesondere wird eine Frequenz erkannt, bei der die Leistung des Spektrums einen Höchstwert hat, und der Gesamtwert oder beispielsweise der Mittelwert der Leistung in einem Band mit einer vorbestimmten Breite, etwa 100 Hz zu beiden Seiten der erfassten Frequenz, wird berechnet. In 7 wird ein Mittelwert P1 der Leistung in einem mit f1 bezeichneten Band berechnet. Zusätzlich wird der Gesamtwert, oder beispielsweise der Mittelwert der Leistung in allen Bändern mit Ausnahme des Bands f1 berechnet. In 7 wird ein Mittelwert P2 der Leistung in einem mit f2 bezeichneten Band berechnet. Ist der Wert P1/P2, der das Verhältnis von P1 zu P2 darstellt, größer als der vorbestimmte Grenzwert, so wird das Band f1 als ein Band erkannt, dass eine spektrale Spitze enthält. Zudem wird der Vorgang zum Erkennen einer Frequenz mit der zweitgrößten Leistung des Spektrums wiederholt, damit maximal eine vorbestimmte Anzahl n an spektralen Spitzen erkannt wird, bei denen der Wert des Verhältnisses größer ist als der Grenzwert. Die Verarbeitung zum Unterdrücken der erkannten spektralen Spitze unterscheidet sich nicht von der ersten Ausführungsform.
  • Dritte Ausführungsform
  • Die dritte Ausführungsform ist eine Ausführungsform, die dadurch entsteht, dass man das Verfahren zum Erfassen der spektralen Spitze in der ersten Ausführungsform verändert. Da das Aufbaubeispiel einer Klangsignal-Verarbeitungsvorrichtung der dritten Ausführungsform sich nicht von der ersten Ausführungsform unterscheidet, wird sie nicht erklärt, sondern auf die erste Ausführungsform verwiesen. In der folgenden Erklärung wird die Struktur der Klangsignal-Verarbeitungsvorrichtung 1 dadurch erklärt, dass die gleichen Codes wie in der ersten Ausführungsform zugefügt werden. Da sich die in der Klangsignal-Verarbeitungsvorrichtung 1 der dritten Ausführungsform vorgenommene Verarbeitung nicht von der Verarbeitung in der ersten Ausführungsform unterscheidet, wird sie nicht erklärt, sondern auf die erste Ausführungsform verwiesen. In der folgenden Erklärung werden die jeweiligen Verarbeitungsschritte, die die Klangsignal-Verarbeitungsvorrichtung 1 ausführen muss, dadurch erklärt, dass die gleichen Schrittbezeichnungen wie in der ersten Ausführungsform verwendet werden.
  • 8 zeigt eine Ansicht eines Beispiels eines Spektrums der Klangsignal-Verarbeitungsvorrichtung 1 gemäß der dritten Ausführungsform der Erfindung. In 8 ist die Frequenz auf der Abszisse aufgetragen und die Leistung des Spektrums auf der Ordinate, um den Zusammenhang darzustellen. Die durchgezogene Linie in 8 bezeichnet ein Leistungsspektrum S1, die mit abwechselnden langen und kurzen Strichen dargestellte Linie zeigt eine spektrale Einhüllende S2, die aus dem Leistungsspektrum S1 berech net wurde, und die punktierte Linie zeigt eine Feinstruktur S3 des Spektrums, das man durch das Entfernen der spektralen Einhüllenden S2 vom Leistungsspektrum S1 gewinnt.
  • Als Verarbeitung im Schritt S7 zum Erkennen einer spektralen Spitze in dem Spektrum, das man durch Entfernen der spektralen Einhüllenden erhält, erfasst die Klangsignal-Verarbeitungsvorrichtung 1 der dritten Ausführungsform als Band, das eine spektrale Spitze enthält, ein erstes Band, in dem das Verhältnis zwischen einem Gesamtwert der Werte im ersten Band einer vorbestimmten ersten Breite und einem Gesamtwert der Werte in einem zweiten Band mit einer zweiten vorbestimmten Breite einen Wert zeigt, der größer ist als ein vorbestimmter Grenzwert. Insbesondere wird eine Frequenz erkannt, bei der die Leistung des Spektrums einen Höchstwert hat, und der Gesamtwert oder beispielsweise der Mittelwert der Leistung in einem Band mit einer vorbestimmten Breite, etwa 100 Hz zu beiden Seiten der erfassten Frequenz, wird berechnet. In 8 wird ein Mittelwert P1 der Leistung in einem mit f1 bezeichneten Band berechnet. Zusätzlich wird der Gesamtwert, oder beispielsweise der Mittelwert der Leistung in einem Band von 150 Hz vor bzw. hinter f1 berechnet. In 8 wird ein Mittelwert P2 der Leistung in einem mit f2 bezeichneten Band berechnet. Ist der Wert P1/P2, der das Verhältnis von P1 zu P2 darstellt, größer als der vorbestimmte Grenzwert, so wird das Band f1 als ein Band erkannt, dass eine spektrale Spitze enthält. Zudem wird der Vorgang zum Erkennen einer Frequenz mit der zweitgrößten Leistung des Spektrums wiederholt, damit maximal eine vorbestimmte Anzahl n an spektralen Spitzen erkannt wird, bei denen der Wert des Verhältnisses größer ist als der Grenzwert. Die Verarbeitung zum Unterdrücken der erkannten spektralen Spitze unterscheidet sich nicht von der ersten Ausführungsform.
  • In den beschriebenen ersten bis dritten Ausführungsformen sind Ausführungsformen, in denen die Spracherkennung erfolgt, nachdem nichtstationäre Geräusche entfernt wurden, als Erfindung bezogen auf die Spracherkennung dargestellt. Die Erfindung ist jedoch nicht auf diese Ausführungsformen eingeschränkt und kann auf verschiedene Bereiche ausgeweitet werden, die mit der Spracherkennung verbunden sind. Wird beispielsweise die Erfindung auf die Telekommunikation angewendet, um ein Klangsignal, das auf einem Klang beruht, der von einer Empfängervorrichtung erfasst wird, an eine angerufene Person zu übertragen, so könnte man das Klangsignal an die Person übertragen, nachdem nichtstationäre Geräusche mit der Verarbeitung der Erfindung aus dem Klangsignal entfernt wurden.

Claims (14)

  1. Klangsignal-Verarbeitungsverfahren, das eine Signalverarbeitung dadurch ausführt, dass sie ein Klangsignal, das auf einem erfassten Klang beruht, in ein Spektrum umsetzt, dadurch gekennzeichnet, dass es die Schritte umfasst: das Berechnen einer spektralen Einhüllenden aus dem Spektrum; das Entfernen der spektralen Einhüllenden vom Spektrum; das Erfassen einer spektralen Spitze in dem Spektrum, das durch das Entfernen der Einhüllenden gewonnen wird; und das Unterdrücken der erfassten spektralen Spitze.
  2. Klangsignal-Verarbeitungsvorrichtung die eine Signalverarbeitung vornimmt, indem sie ein Klangsignal, das auf einem erfassten Klang beruht, in ein Spektrum konvertiert, dadurch gekennzeichnet, dass sie umfasst: eine Einhüllenden-Berechnungsvorrichtung (10), die eine spektrale Einhüllende ausgehend von dem Spektrum berechnet; eine Einhüllenden-Entfernungsvorrichtung (10), die die spektrale Einhüllende von dem Spektrum entfernt; eine Erfassungsvorrichtung (10), die eine spektrale Spitze in dem Spektrum erfasst, das durch das Entfernen der spektralen Einhüllenden gewonnen wurde; und eine Unterdrückungsvorrichtung (10), die die erfasste spektrale Spitze unterdrückt.
  3. Klangsignal-Verarbeitungsvorrichtung nach Anspruch 2, wobei die Einhüllenden-Berechnungsvorrichtung (10) ein Cepstrum aus einem Spektrum berechnet, das man durch das Konvertieren des Klangsignals in einem ersten Umsetzvorgang erhält, und sie eine spektrale Einhüllende durch das Konvertieren einer Komponente berechnet, die eine geringere Ordnung hat als eine vorbestimmte Ordnung des berechneten Cepstrums, und zwar durch eine zweite Konvertierung, die eine inverse Konvertierung der ersten Konvertierung ist.
  4. Klangsignal-Verarbeitungsvorrichtung nach Anspruch 2 oder 3, worin die Einhüllenden-Entfernungsvorrichtung (10) einen Wert der spektralen Einhüllenden von einem Wert des Spektrums subtrahiert.
  5. Klangsignal-Verarbeitungsvorrichtung nach irgendeinem der Ansprüche 2 bis 4, worin die Erfassungsvorrichtung (10) ein Band erkennt, das einen Wert oberhalb eines vorbestimmten Grenzwerts zeigt, und zwar als Band, das eine spektrale Spitze in dem Spektrum enthält, das man durch das Entfernen der spektralen Einhüllenden erhält.
  6. Klangsignal-Verarbeitungsvorrichtung nach irgendeinem der Ansprüche 2 bis 4, worin die Erfassungsvorrichtung (10) ein Band erkennt, in dem das Verhältnis zwischen einem Gesamtwert von Werten in einem Band mit einer vorbestimmten Breite und einem Gesamtwert von Werten in allen Bändern mit Ausnahme des Bands mit der vorbestimmten Breite einen Wert zeigt, der größer ist als ein vorbestimmter Grenzwert, und zwar als Band, das eine spektrale Spitze in dem Spektrum enthält, das man durch das Entfernen der spektralen Einhüllenden erhält.
  7. Klangsignal-Verarbeitungsvorrichtung nach irgendeinem der Ansprüche 2 bis 4, worin die Erfassungsvorrichtung (10) ein erstes Band erkennt, in dem das Verhältnis zwischen einem Gesamtwert von Werten in dem ersten Band mit einer vorbestimmten Breite und einem Gesamtwert von Werten in einem zweiten Band mit einer zweiten vorbestimmten Breite in der Nähe des ersten Bands einen Wert zeigt, der größer ist als ein vorbestimmter Grenzwert, und zwar als Band, das eine spektrale Spitze in dem Spektrum enthält, das man durch das Entfernen der spektralen Einhüllenden erhält.
  8. Klangsignal-Verarbeitungsvorrichtung nach irgendeinem der Ansprüche 2 bis 7, worin die Erfassungsvorrichtung (10) ein Band erkennt, das eine spektrale Spitze enthält, und zwar höchstens bis zu einer vorbestimmten Anzahl spektraler Spitzen.
  9. Klangsignal-Verarbeitungsvorrichtung nach irgendeinem der Ansprüche 2 bis 8, worin die Unterdrückungsvorrichtung (10) eine spektrale Spitze dadurch unterdrückt, dass sie einen Wert, der gleich oder größer einem Grenzwert ist, aus den Werten des Spektrums eines Bands, das die erfasste spektrale Spitze enthält, durch einen Wert ersetzt, der auf dem Grenzwert beruht.
  10. Klangsignal-Verarbeitungsvorrichtung nach irgendeinem der Ansprüche 2 bis 8, worin die Unterdrückungsvorrichtung (10) eine spektrale Spitze dadurch unterdrückt, dass sie einen Wert, der gleich oder größer als die spektrale Einhüllende aus Werten des Spektrums eines Bands ist, das die erfasste spektrale Spitze enthält, durch einen Wert ersetzt, der auf der spektralen Einhüllenden beruht.
  11. Klangsignal-Verarbeitungsvorrichtung nach irgendeinem der Ansprüche 2 bis 8, worin die Unterdrückungsvorrichtung (10) eine spektrale Spitze dadurch unterdrückt, dass sie Werte des Spektrums eines Bands, das die erfasste spektrale Spitze enthält, durch einen Gesamtwert von Werten in einem Band ersetzt, das breiter ist als das Band, das die erfasste spektrale Spitze enthält.
  12. Klangsignal-Verarbeitungsvorrichtung nach irgendeinem der Ansprüche 2 bis 11, zudem umfassend Mittel (10), die die Spracherkennungsverarbeitung anhand des Klangsignals mit der unterdrückten spektralen Spitze ausführen.
  13. Computerprogramm, das einen Computer veranlasst, eine Signalverarbeitung auszuführen, die ein Klangsignal, das auf einem erfassten Klang beruht, in ein Spektrum umsetzt, wobei das Computerprogramm dadurch gekennzeichnet ist, dass es umfasst: einen Schritt, der den Computer veranlasst, eine spektrale Einhüllende des Spektrums zu berechnen; einen Schritt, der den Computer veranlasst, die spektrale Einhüllende von dem Spektrum zu entfernen; einen Schritt, der den Computer veranlasst, eine spektrale Spitze in dem Spektrum zu erkennen, das man durch das Entfernen der spektralen Einhüllenden gewinnt; und einen Schritt, der den Computer veranlasst, die erfasste spektrale Spitze zu unterdrücken.
  14. Aufzeichnungsmedium zum Aufzeichnen eines Computerprogramms, das einen Computer veranlasst, eine Signalverarbeitung auszuführen, die ein Klangsignal, das auf einem erfassten Klang beruht, in ein Spektrum umsetzt, wobei das Computerprogramm dadurch gekennzeichnet ist, dass es umfasst: einen Schritt, der den Computer veranlasst, eine spektrale Einhüllende des Spektrums zu berechnen; einen Schritt, der den Computer veranlasst, die spektrale Einhüllende von dem Spektrum zu entfernen; einen Schritt, der den Computer veranlasst, eine spektrale Spitze in dem Spektrum zu erkennen, das man durch das Entfernen der spektralen Einhüllenden gewinnt; und einen Schritt, der den Computer veranlasst, die erfasste spektrale Spitze zu unterdrücken.
DE102007001255.3A 2006-09-20 2007-01-08 Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm Expired - Fee Related DE102007001255B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-254931 2006-09-20
JP2006254931A JP4757158B2 (ja) 2006-09-20 2006-09-20 音信号処理方法、音信号処理装置及びコンピュータプログラム

Publications (2)

Publication Number Publication Date
DE102007001255A1 true DE102007001255A1 (de) 2008-04-10
DE102007001255B4 DE102007001255B4 (de) 2014-01-09

Family

ID=39154761

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102007001255.3A Expired - Fee Related DE102007001255B4 (de) 2006-09-20 2007-01-08 Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm

Country Status (5)

Country Link
US (1) US20080069364A1 (de)
JP (1) JP4757158B2 (de)
KR (1) KR100870889B1 (de)
CN (1) CN101149928B (de)
DE (1) DE102007001255B4 (de)

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8401632B1 (en) * 2008-11-26 2013-03-19 Nuvasive, Inc. Systems and methods for performing neurophysiologic assessments
JP5141542B2 (ja) * 2008-12-24 2013-02-13 富士通株式会社 雑音検出装置及び雑音検出方法
US9432790B2 (en) * 2009-10-05 2016-08-30 Microsoft Technology Licensing, Llc Real-time sound propagation for dynamic sources
JP2011087118A (ja) * 2009-10-15 2011-04-28 Sony Corp 音声処理装置、音声処理方法、およびプログラム
US8818806B2 (en) * 2010-11-30 2014-08-26 JVC Kenwood Corporation Speech processing apparatus and speech processing method
JP5668553B2 (ja) 2011-03-18 2015-02-12 富士通株式会社 音声誤検出判別装置、音声誤検出判別方法、およびプログラム
MY165852A (en) * 2011-03-21 2018-05-18 Ericsson Telefon Ab L M Method and arrangement for damping dominant frequencies in an audio signal
WO2012128678A1 (en) * 2011-03-21 2012-09-27 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for damping of dominant frequencies in an audio signal
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
JP6119604B2 (ja) * 2011-08-11 2017-04-26 日本電気株式会社 信号処理装置、信号処理方法、および信号処理プログラム
CN103959376B (zh) * 2011-12-06 2019-04-23 英特尔公司 低功率语音检测
JP5874431B2 (ja) * 2012-02-20 2016-03-02 株式会社Jvcケンウッド 報知音検出装置、雑音信号抑制装置、報知音検出方法、雑音信号抑制方法
WO2013125257A1 (ja) * 2012-02-20 2013-08-29 株式会社Jvcケンウッド 雑音信号抑制装置、雑音信号抑制方法、特殊信号検出装置、特殊信号検出方法、報知音検出装置、および、報知音検出方法
JP5915240B2 (ja) * 2012-02-20 2016-05-11 株式会社Jvcケンウッド 特殊信号検出装置、雑音信号抑制装置、特殊信号検出方法、雑音信号抑制方法
US9424731B2 (en) * 2012-08-01 2016-08-23 Yosef Korakin Multi level hazard detection system
CN103680514B (zh) * 2013-12-13 2016-06-29 广州市百果园网络科技有限公司 网络语音通信中的信号处理方法和系统
US9614724B2 (en) 2014-04-21 2017-04-04 Microsoft Technology Licensing, Llc Session-based device configuration
US10111099B2 (en) 2014-05-12 2018-10-23 Microsoft Technology Licensing, Llc Distributing content in managed wireless distribution networks
US9874914B2 (en) 2014-05-19 2018-01-23 Microsoft Technology Licensing, Llc Power management contracts for accessory devices
US10037202B2 (en) 2014-06-03 2018-07-31 Microsoft Technology Licensing, Llc Techniques to isolating a portion of an online computing service
US9367490B2 (en) 2014-06-13 2016-06-14 Microsoft Technology Licensing, Llc Reversible connector for accessory devices
US9510125B2 (en) 2014-06-20 2016-11-29 Microsoft Technology Licensing, Llc Parametric wave field coding for real-time sound propagation for dynamic sources
US9717006B2 (en) 2014-06-23 2017-07-25 Microsoft Technology Licensing, Llc Device quarantine in a wireless network
JP6018141B2 (ja) * 2014-08-14 2016-11-02 株式会社ピー・ソフトハウス オーディオ信号処理装置、オーディオ信号処理方法およびオーディオ信号処理プログラム
CN104456830A (zh) * 2014-10-29 2015-03-25 无锡悟莘科技有限公司 一种智能空调的声音控制方法
US9606226B2 (en) 2015-06-15 2017-03-28 WALL SENSOR Ltd. Method and system for detecting residential pests
US9734692B2 (en) 2015-06-15 2017-08-15 WALL SENSOR Ltd. Method for poisitioning a residental pest detector and a system for detecting residential pests
CN106128355A (zh) * 2016-07-14 2016-11-16 北京智能管家科技有限公司 一种led灯阵的显示方法及装置
CN106856623B (zh) * 2017-02-20 2020-02-11 鲁睿 基带语音信号通讯噪声抑制方法及系统
US10602298B2 (en) 2018-05-15 2020-03-24 Microsoft Technology Licensing, Llc Directional propagation
US10932081B1 (en) 2019-08-22 2021-02-23 Microsoft Technology Licensing, Llc Bidirectional propagation of sound
CN110503973B (zh) * 2019-08-28 2022-03-22 浙江大华技术股份有限公司 音频信号瞬态噪音抑制方法、系统以及存储介质
CN111540344B (zh) * 2020-04-21 2022-01-21 北京字节跳动网络技术有限公司 声学网络模型训练方法、装置及电子设备
US11282382B1 (en) 2020-12-22 2022-03-22 Waymo Llc Phase lock loop siren detection

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3555191A (en) * 1968-07-15 1971-01-12 Bell Telephone Labor Inc Pitch detector
US3566035A (en) * 1969-07-17 1971-02-23 Bell Telephone Labor Inc Real time cepstrum analyzer
US4538295A (en) * 1982-08-16 1985-08-27 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
JPS6086429A (ja) * 1983-10-19 1985-05-16 Tech Res & Dev Inst Of Japan Def Agency 船舶航走音分析装置
US4827516A (en) * 1985-10-16 1989-05-02 Toppan Printing Co., Ltd. Method of analyzing input speech and speech analysis apparatus therefor
US4783803A (en) * 1985-11-12 1988-11-08 Dragon Systems, Inc. Speech recognition apparatus and method
US6236964B1 (en) * 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
EP0763811B1 (de) * 1990-05-28 2001-06-20 Matsushita Electric Industrial Co., Ltd. Vorrichtung zur Sprachsignalverarbeitung für die Bestimmung eines Sprachsignals
JP3343965B2 (ja) * 1992-10-31 2002-11-11 ソニー株式会社 音声符号化方法及び復号化方法
US5742928A (en) * 1994-10-28 1998-04-21 Mitsubishi Denki Kabushiki Kaisha Apparatus and method for speech recognition in the presence of unnatural speech effects
JP3094832B2 (ja) * 1995-03-24 2000-10-03 三菱電機株式会社 信号識別器
US5864798A (en) * 1995-09-18 1999-01-26 Kabushiki Kaisha Toshiba Method and apparatus for adjusting a spectrum shape of a speech signal
US5806022A (en) * 1995-12-20 1998-09-08 At&T Corp. Method and system for performing speech recognition
JPH09212196A (ja) * 1996-01-31 1997-08-15 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US5970441A (en) * 1997-08-25 1999-10-19 Telefonaktiebolaget Lm Ericsson Detection of periodicity information from an audio signal
FR2768547B1 (fr) * 1997-09-18 1999-11-19 Matra Communication Procede de debruitage d'un signal de parole numerique
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
KR100334238B1 (ko) * 1999-12-23 2002-05-02 오길록 음성 파형의 포락선 정보를 이용한 음성/비음성 판별 장치및 그 방법
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US6941263B2 (en) * 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
JP2003058186A (ja) * 2001-08-13 2003-02-28 Yrp Kokino Idotai Tsushin Kenkyusho:Kk 雑音抑圧方法および雑音抑圧装置
KR100880480B1 (ko) * 2002-02-21 2009-01-28 엘지전자 주식회사 디지털 오디오 신호의 실시간 음악/음성 식별 방법 및시스템
US7949522B2 (en) * 2003-02-21 2011-05-24 Qnx Software Systems Co. System for suppressing rain noise
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
US7231346B2 (en) * 2003-03-26 2007-06-12 Fujitsu Ten Limited Speech section detection apparatus
JP3744934B2 (ja) * 2003-06-11 2006-02-15 松下電器産業株式会社 音響区間検出方法および装置
WO2005041170A1 (en) * 2003-10-24 2005-05-06 Nokia Corpration Noise-dependent postfiltering
JP4413043B2 (ja) * 2004-03-09 2010-02-10 日本電信電話株式会社 周期性ノイズ抑圧方法、周期性ノイズ抑圧装置、周期性ノイズ抑圧プログラム
US20050288923A1 (en) * 2004-06-25 2005-12-29 The Hong Kong University Of Science And Technology Speech enhancement by noise masking
KR100639968B1 (ko) * 2004-11-04 2006-11-01 한국전자통신연구원 음성 인식 장치 및 그 방법
JP4761506B2 (ja) * 2005-03-01 2011-08-31 国立大学法人北陸先端科学技術大学院大学 音声処理方法と装置及びプログラム並びに音声システム
JP4448464B2 (ja) * 2005-03-07 2010-04-07 日本電信電話株式会社 雑音低減方法、装置、プログラム及び記録媒体
US8160732B2 (en) * 2005-05-17 2012-04-17 Yamaha Corporation Noise suppressing method and noise suppressing apparatus
US8520861B2 (en) * 2005-05-17 2013-08-27 Qnx Software Systems Limited Signal processing system for tonal noise robustness
US8566086B2 (en) * 2005-06-28 2013-10-22 Qnx Software Systems Limited System for adaptive enhancement of speech signals
EP1760696B1 (de) * 2005-09-03 2016-02-03 GN ReSound A/S Verfahren und Vorrichtung zur verbesserten Bestimmung von nichtstationärem Rauschen für Sprachverbesserung
EP1772855B1 (de) * 2005-10-07 2013-09-18 Nuance Communications, Inc. Verfahren zur Erweiterung der Bandbreite eines Sprachsignals
US20070239444A1 (en) * 2006-03-29 2007-10-11 Motorola, Inc. Voice signal perturbation for speech recognition

Also Published As

Publication number Publication date
CN101149928A (zh) 2008-03-26
JP4757158B2 (ja) 2011-08-24
US20080069364A1 (en) 2008-03-20
CN101149928B (zh) 2010-06-02
KR100870889B1 (ko) 2008-11-28
DE102007001255B4 (de) 2014-01-09
KR20080026456A (ko) 2008-03-25
JP2008076676A (ja) 2008-04-03

Similar Documents

Publication Publication Date Title
DE102007001255B4 (de) Tonsignalverarbeitungsverfahren und -vorrichtung und Computerprogramm
DE60023517T2 (de) Klassifizierung von schallquellen
DE602004001241T2 (de) Vorrichtung zur Unterdrückung von impulsartigen Windgeräuschen
DE60033549T2 (de) Verfahren und vorrichtung zur signalanalyse
DE2719973C2 (de)
DE112009000805B4 (de) Rauschreduktion
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE602005004464T2 (de) Sprachverbesserung
DE112010003461B4 (de) Vorrichtung zur Extraktion von Sprachmerkmalen, Verfahren zur Extraktion von Sprachmerkmalen und Programm zur Extraktion von Sprachmerkmalen
DE112012005855B4 (de) Störungsunterdrückungsvorrichtung
DE69830017T2 (de) Verfahren und Vorrichtung zur Spracherkennung
EP1386307B1 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE112017004548T5 (de) Robuste Geräuschschätzung für Sprachverbesserung in variablen Geräuschbedingungen
EP0076233B1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
EP0076234A1 (de) Verfahren und Vorrichtung zur redundanzvermindernden digitalen Sprachverarbeitung
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung
EP1014340A2 (de) Verfahren und Vorrichtung zur Verarbeitung rauschbehafteter Schallsignale
EP3291234B1 (de) Verfahren zum beurteilen einer qualität eines stimmeinsatzes eines sprechenden
DE2020753A1 (de) Einrichtung zum Erkennen vorgegebener Sprachlaute
EP0285222B1 (de) Verfahren zum Erkennen zusammenhängend gesprochener Wörter
DE10254612A1 (de) Verfahren zur Ermittlung spezifisch relevanter akustischer Merkmale von Schallsignalen für die Analyse unbekannter Schallsignale einer Schallerzeugung
EP0508547A2 (de) Schaltungsanordnung zur Spracherkennung
DE2636032B2 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
R018 Grant decision by examination section/examining division
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20140801