DE69627580T2 - Verfahren zur Rauschverminderung in einem Sprachsignal - Google Patents

Verfahren zur Rauschverminderung in einem Sprachsignal Download PDF

Info

Publication number
DE69627580T2
DE69627580T2 DE69627580T DE69627580T DE69627580T2 DE 69627580 T2 DE69627580 T2 DE 69627580T2 DE 69627580 T DE69627580 T DE 69627580T DE 69627580 T DE69627580 T DE 69627580T DE 69627580 T2 DE69627580 T2 DE 69627580T2
Authority
DE
Germany
Prior art keywords
noise
speech signal
signal
noise reduction
characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69627580T
Other languages
English (en)
Other versions
DE69627580D1 (de
Inventor
Joseph Chan
Masayuki Nishiguchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Application granted granted Critical
Publication of DE69627580D1 publication Critical patent/DE69627580D1/de
Publication of DE69627580T2 publication Critical patent/DE69627580T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Filters That Use Time-Delay Elements (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Reduzieren von Rauschen in Sprachsignalen, wobei das Verfahren eingerichtet ist, ein Sprachsignal einem Sprachcodiergerät zuzuführen, welches ein Filter hat, um ein vorher festgelegtes Frequenzband eines Sprachsignals, welches dem Gerät zugeführt wird, zu unterdrücken.
  • Auf dem Anwendungsgebiet eines tragbaren Telefons oder einer Spracherkennung ist es erforderlich, Rauschen, beispielsweise Umgebungsrauschen, Hintergrundrauschen, welches in einem Aufzeichnungssprachsignal enthalten ist, zu unterdrücken, um dadurch Stimmkomponenten des Aufzeichnungssprachsignals zu verbessern.
  • Als ein Verfahren zum Verbessern der Sprache oder zum Reduzieren von Rauschen ist die Anordnung mit einer Bedingungswahrscheinlichkeitsfunktion zum Einstellen eines Abklingfaktors in "Speech Enhancement Using a Soft-Decision Noise Suppression Filter", R. J. McAulary, M. L. Malpass, IEEE Trans. Acoust., Speech, Signal Processing, Band 28, Seiten 127 bis 145, April 1980 oder "Frequency Domain Noise Suppression Approach in Mobile Telephone Systems", J. Yang, IEEE ICAASSP, Band II, Seiten 363 bis 366, April 1993 offenbart.
  • Diese Verfahren zum Unterdrücken von Rauschen können jedoch einen unnatürlichen Ton und eine verzerrte Sprache wegen eines nicht geeigneten festen SNR (Signal-Rausch-Verhältnis) oder eines nicht geeigneten Unterdrückungsfilters erzeugen. In der Praxis ist es nicht wünschenswert, dass Benutzer das SNR einstellen, welches eines der Parameter ist, die bei einem Rauschunterdrückungsgerät verwendet werden, um die Leistung zu maximieren. Das herkömmliche Verfahren zum Verbessern eines Sprachsignals kann außerdem nicht völlig das Rauschen beseitigen, ohne dass die wahrnehmbaren Sprachsignale verzerrt werden, die beträchtlichen Schwankungen im kurzfristigen S/N-Verhältnis empfänglich sind.
  • Bei dem oben beschriebenen Sprachverbesserungs- oder Rauschreduzierungsverfahren wird das Verfahren zum Ermitteln des Rauschbereichs verwendet, bei dem der Eingangspegel oder die Leistung mit einem vorher festgelegten Schwellenwert verglichen wird, um den Rauschbereich zu unterscheiden. Wenn jedoch die Zeitkonstante des Schwellenwerts vergrößert wird, um die Spurnachführung gegenüber der Sprache zu verhindern, wird es un möglich, Rauschpegeländerungen zu folgen, insbesondere beim Anstieg des Rauschpegels, wodurch dies zu einer Fehlunterscheidung führt.
  • Um die obigen Schwierigkeiten zu lösen, haben die Erfinder ein Verfahren, um Rauschen in einem Sprachsignal zu reduzieren, in der japanischen Patentanmeldungsnummer Hei 6-99 869 ( EP 683 482 A2 ) vorgeschlagen.
  • Das obige Verfahren zum Reduzieren des Rauschens in einem Sprachsignal ist geeignet, das Rauschen zu unterdrücken, wobei adaptiv ein Maximalwahrscheinlichkeitsfilter gesteuert wird, welches für die Berechnung von Sprachkomponenten ausgelegt ist, auf der Basis der Sprachanwesenheitswahrscheinlichkeit und des SN-Verhältnisses, welches bezüglich des Eingangssprachsignals berechnet wurde. Insbesondere wird die Spektraldifferenz, d. h., das Spektrum des Eingangssignals, welches kleiner ist als ein geschätztes Rauschspektrum, beim Berechnen der Wahrscheinlichkeit des Sprachvorkommens verwendet.
  • Außerdem ermöglicht es das obige Verfahren zum Reduzieren des Rauschens in einem Sprachsignal, das Rauschen vom Eingangssprachsignal völlig zu entfernen, da das Maximalwahrscheinlichkeitsfilter auf das geeignetste Filter gemäß dem SN-Verhältnis des Eingangssprachsignals eingestellt wird.
  • Die Berechnung der Wahrscheinlichkeit des Sprachauftretens benötigt jedoch eine komplizierte Operation sowie eine enorme Menge an Operationen. Es war daher wünschenswert, die Berechnung zu vereinfachen.
  • Beispielsweise sei angenommen, dass das Sprachsignal durch das Rauschreduziergerät verarbeitet wird und dann dem Gerät zugeführt wird, um das Sprachsignal zu codieren. Da das Gerät zum Codieren des Sprachsignals ein Hochpassfilter oder ein Filter bereitstellt, um einen Hochpassbereich des Signals anzuheben, wenn das Rauschreduziergerät schon den Tiefpassbereich des Filters unterdrückt hat, arbeitet das Gerät zum Codieren des Sprachsignals weiter, um den Tiefpassbereich des Signals zu unterdrücken, wodurch möglicherweise die Frequenzkennlinie geändert wird und eine akustisch-unnatürliche Stimme wiedergegeben wird.
  • Das herkömmliche Verfahren zum Reduzieren des Rauschens kann außerdem eine akustisch-unnatürliche Stimme wiedergegeben werden, da der Prozess zum Reduzieren des Rauschens nicht nur in bezug auf die Stärke des Eingangssprachsignals, beispielsweise die Tonhöhenstärke ausgeführt wird, sondern lediglich auf den geschätzten Rauschpegel.
  • Um die Tonhöhenstärke herzuleiten, ist ein Verfahren bekannt, um eine Tonhöhenverzögerung zwischen benachbarten Spitzenwerten einer Zeitschwingungsform und dann einen Autokorrelationswert in der Tonhöhenverzögerung herzuleiten. Bei diesem Verfahren wird jedoch die Autokorrelationsfunktion bei einer schnellen Fourier Transformation verwendet, wobei gewünscht wird, einen Ausdruck (NlogN) zu berechnen und außerdem einen Wert von N. Hence, zu berechnen, wobei diese Funktion eine komplizierte Operation benötigt.
  • Die EP 0 459 362 A1 offenbart ein Sprachsignal-Verarbeitungsgerät, bei dem ein Eingangssprachsignal in Frequenzbänder unterteilt wird, die analysiert werden, um einen Rauschpegel in jedem Band vorherzusagen, das dann entsprechend gedämpft werden kann, um dadurch den Signalpegel im Sprachband anzuheben.
  • Im Hinblick auf die obigen Ausführungen ist es eine Aufgabe der vorliegenden Erfindung, ein Verfahren bereitzustellen, um das Rauschen in einem Sprachsignal zu reduzieren, wobei das Verfahren es ermöglicht, die Operationen zu vereinfachen, um das Rauschen in einem Eingangssprachsignal zu unterdrücken.
  • Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein Verfahren bereitzustellen, um Rauschen in einem Sprachsignal reduzieren, wobei das Verfahren es ermöglicht, ein vorher festgelegtes Band zu unterdrücken, wenn das Eingangssprachsignal eine große Tonhöhenstärke hat.
  • Gemäß einem Merkmal der Erfindung wird ein Verfahren zum Reduzieren von Rauschen in einem Sprachsignal beritgestellt, wobei das Verfahren dazu dient, um das Sprachsignal zu einem Sprachcodiergerät zu liefern, welches ein Filter hat, um ein vorher festgelegtes Frequenzband des Sprachsignals zu unterdrücken, welches zugeführt wird, welches folgende Schritte aufweist:
  • Unterdrücken des Rauschens in zumindest einem von mehreren Frequenzbändern des Signals, wobei die mehreren Bänder das vorher festgelegte Frequenzband umfassen; dadurch gekennzeichnet, dass das Verfahren außerdem den Schritt aufweist:
  • Steuern einer Frequenzkennlinie, um die Rauschunterdrückungsrate im vorher festgelegten Frequenzband zu reduzieren.
  • Das Filter, welches im Sprachcodiergerät vorgesehen ist, ist eingerichtet, die Rauschunterdrückungsrate gemäß der Tonhöhenstärke des Eingangssprachsignals zu ändern, so dass die Rauschunterdrückungsrate gemäß der Tonhöhenstärke des Eingangssprachsignals geändert werden kann.
  • Das vorher festgelegte Frequenzband ist auf der Tiefpassseite des Sprachsignals angeordnet. Die Rauschunterdrückungsrate wird so geändert, um die Rauschunterdrückungsrate auf der Tiefpassseite des Eingangssprachsignals zu reduzieren.
  • Gemäß einem weiteren Merkmal der Erfindung umfasst das Rauschreduzierverfahren zum Liefern eines Sprachsignals zum Sprachcodiergerät, welches ein Filter hat, um ein vorher festgelegtes Frequenzband des Eingangssprachsignals zu unterdrücken, den Schritt, um eine Rauschunterdrückungskennlinie auf ein Verhältnis eines Signalpegels zu einem Rauschpegel in jedem Frequenzband zu ändern, wenn der Rauschen gemäß der Tonhöhenstärke des Eingangssprachsignals unterdrückt wird.
  • Gemäß einem anderen Merkmal der Erfindung weist ein Rauschreduzierverfahren zum Liefern eines Sprachsignals zum Sprachcodiergerät, welches ein Filter hat, um ein vorher festgelegtes Frequenzband des Eingangssprachsignals zu unterdrücken, den Schritt auf, einen jeden der Parameter, um die Rauschunterdrückungskennlinie zu bestimmen, zu einem Neuronennetz zu liefern, um einen Sprachbereich für einen Rauschbereich des Eingangssprachsignals zu unterscheiden.
  • Gemäß einem weiteren Merkmal der Erfindung umfasst ein Rauschreduzierverfahren zum Liefern eines Sprachsignals zum Sprachcodiergerät, welches ein Filter hat, ein vorher festgelegtes Frequenzband des Eingangssprachsignals zu unterdrücken, den Schritt, im wesentlichen linear in einem dB-Bereich eine maximale Rauschunterdrückungsrate zu ändern, die in bezug auf die Kennlinie, die auftritt, wenn das Rauschen unterdrückt wird, verarbeitet wird.
  • Gemäß einem anderen Merkmal der Erfindung weist ein Rauschreduzierverfahren zum Liefern eines Sprachsignals zum Sprachcodiergerät, welches ein Filter hat, um ein vorher festgelegtes Frequenzband des Eingangssprachsignals zu unterdrücken, den Schritt auf, eine Tonhöhenstärke des Eingangssprachsignals zu erzielen, wobei eine Autokorrelation in der Nähe einer Tonhöhe berechnet wird, die erhalten wird, indem ein Spitzenwert des Signalpegels ausgewählt wird. Die Kennlinie, die beim Unterdrücken des Rauschens verwendet wird, wird in bezug auf die Tonhöhestärke gesteuert.
  • Gemäß einem anderen Merkmal der Erfindung weist ein Rauschreduzierverfahren zum Liefern eines Sprachsignals zum Sprachcodiergerät, welches ein Filter hat, um ein vorher festgelegtes Frequenzband des Eingangssprachsignals zu unterdrücken, den Schritt auf, ein Rahmensprachsignal unabhängig durch die Wirkung eines Rahmens zu verarbeiten, um Parameter herzuleiten, die das Merkmal des Sprachsignals zeigen, und in einem Rahmen, um ein Spektrum zu korrigieren, wobei die hergeleiteten Parameter verwendet werden.
  • Im Betrieb wird bei dem Verfahren zum Reduzieren des Rauschens in einem Sprachsignal gemäß der vorliegenden Erfindung das Sprachsignal zum Sprachcodiergerät geliefert, welches ein Filter hat, um das vorher festgelegte Band des Eingangssprachsignals zu unterdrücken, wobei die Kennlinie des verwendeten Filters gesteuert wird, um das Rauschen zu reduzieren und um die Rauschunterdrückungsrate im vorher festgelegten Frequenzband des Eingangssprachsignals zu reduzieren.
  • Wenn das Sprachcodiergerät ein Filter hat, um eine Tiefpassseite des Sprachsignals zu unterdrücken, wird die Rauschunterdrückungsrate so gesteuert, dass die Rauschunterdrückungsrate auf der Tiefpassseite des Eingangssprachsignals kleiner gemacht wird.
  • Bei dem Verfahren zum Reduzieren des Rauschens in einem Sprachsignal gemäß der vorliegenden Erfindung wird eine Tonhöhe des Eingangssprachsignals ermittelt, um eine Stärke der ermittelten Tonhöhe zu erhalten. Die verwendete Frequenzkennlinie beim Unterdrücken des Rauschens wird gemäß der erhaltenen Tonstärke gesteuert.
  • Bei dem Verfahren zum Reduzieren des Rauschens in einem Sprachsignal gemäß der vorliegenden Erfindung wird, wenn alle Parameter zum Bestimmen einer verwendeten Frequenzkennlinie beim Unterdrücken des Rauschens zu einem Neuronennetz geliefert werden, der Sprachbereich gegenüber dem Rauschbereich im Eingangssprachsignal unterschieden. Diese Unterscheidung wird bei einem Anstieg der Verarbeitungshäufigkeit genauer.
  • Bei dem Verfahren zum Reduzieren des Rauschens in einem Sprachsignal gemäß der vorliegenden Erfindung wird die Tonhöhenstärke des Eingangssprachsignals wie folgt erhalten. Es werden zwei Spitzenwerte innerhalb einer Phase ausgewählt, und ein Autokorrelationswert in jedem Spitzenwert und ein Wechsel-Korrelationswert zwischen den Spitzenwerten werden hergeleitet. Die Tonhöhenstärke wird auf Basis des Autokorrelationswerts und des Wechsel-Korrelationswerts berechnet. Die verwendete Frequenzkennlinie beim Unterdrücken des Rauschens wird gemäß der Tonhöhenstärke gesteuert.
  • Bei dem Verfahren zum Reduzieren des Rauschens in einem Sprachsignal gemäß der vorliegenden Erfindung wird der Rahmenbildungsprozess des Eingangssprachsignals unabhängig durch den Effekt eines Rahmens ausgeführt, um ein Spektrum zu korrigieren, und um einen Rahmen zu korrigieren, um einen Parameter herzuleiten, der das Merkmal des Sprachsignals zeigt. Beispielsweise braucht der Rahmenbildungsprozess zum Herleiten der Parameter mehr Abtastungen als der Rahmenbildungsprozess zum Korrigieren des Spektrums.
  • Wie oben beschrieben wird bei dem Verfahren zum Reduzieren des Rauschens in einem Sprachsignal gemäß der vorliegenden Erfindung die Kennlinie des verwendeten Filters zum Reduzieren des Rauschens gemäß der Tonhöhenstärke des Eingangssprachsignals gesteuert. Das vorher festgelegte Frequenzband des Eingangssprachsignals, beispielsweise die Rauschunterdrückungsrate, wird so gesteuert, um kleiner auf der Hochpassseite oder auf der Tiefpassseite zu sein. Mit dieser Steuerung kann, wenn das Sprachsignal, welches in bezug auf die Rauschunterdrückungsrate verarbeitet ist, als Sprachsignal codiert wird, keine akustisch-unnatürliche Stimme vom Sprachsignal reproduziert. Das heißt, die Tonqualität wird verbessert.
  • Die Erfindung wird anschließend mittels eines nichteinschränkenden Beispiels mit Hilfe der beiliegenden Zeichnungen beschrieben, in denen:
  • 1 ein Blockdiagramm ist, welches einen wesentlichen Teil eines Rauschreduziergeräts zeigt, für welches ein Rauschreduzierverfahren in einem Sprachsignal gemäß der vorliegenden Erfindung angewandt wird;
  • 2 eine Ansicht zur Erläuterung ist, die einen Rahmenbildungsprozess zeigt, der bei einer Rahmenbildungseinheit ausgeführt wird, die im Rauschreduziergerät vorgesehen ist;
  • 3 eine erklärende Ansicht ist, die einen Tonhöhenermittlungsprozess zeigt, der in einer Signalkennlinien-Berechnungseinheit ausgeführt wird, die im Rauschreduziergerät vorgesehen ist;
  • 4 eine grafische Darstellung ist, welche konkrete Werte der Energie E[k] und der Abklingenergie Edecay[k] im Rauschreduziergerät zeigt;
  • 5 eine grafische Darstellung ist, welche konkrete Werte eines RMS-Werts RMS[k], einen geschätzten Rauschpegelwert MinRMS[k] und einen maximalen RMS-Wert MaxRMS[k] zeigt, die im Rauschreduziergerät verwendet werden;
  • 6 eine grafische Darstellung ist, welche konkrete Werte einer relativen Energie dBrel[k], eines maximalen SN-Verhältnisses MaxSNR[k], eines Schwellenwerts dBthresrel[k] zum Bestimmen des Rauschens, alle in dB, zeigen, die beim Rauschreduziergerät verwendet werden;
  • 7 eine grafische Darstellung ist, die eine Funktion des NR-Pegels[k] zeigt, der für ein maximales SN-Verhältnis MaxSNR[k] im Rauschreduziergerät definiert ist;
  • 8A bis 8B grafische Darstellungen sind, die eine Beziehung zwischen einem Wert adj3[w, k], der in einer adj-Wert-Berechnungseinheit erhalten wird, und einer Frequenz im Rauschreduziergerät zeigen;
  • 9 eine erklärende Ansicht ist, die ein Verfahren zum Erhalten eines Werts zeigt, der eine Verteilung eines Frequenzbereichs eines Eingangssignalsspektrums im Rausreduziergerät zeigt;
  • 10 eine grafische Darstellung ist, die eine Beziehung zwischen einem Wert NR[w, k], der in einer CE- und NR-Wert-Berechnungseinheit erhalten wird, und einem ma ximalen Unterdrückungsbetrag zeigt, der in einer Hn-Wert-Berechnungseinheit erhalten wird, die im Rauschreduziergerät vorgesehen sind;
  • 11 ein Blockdiagramm ist, welches einen wesentlichen Teil eines Codiergeräts zeigt, welches mit einem Algorithmus betrieben wird, um eine lineare Vorhersagecode-Erregung zu codieren, das ein Beispiel ist, das Ausgangssignal des Rauschreduziergeräts zu verwenden;
  • 12 ein Blockdiagramm ist, welches einen wesentlichen Teil einer Decodiereinheit zeigt, um ein codiertes Sprachsignal, welches im Codiergerät bereitgestellt wird, zu decodieren; und
  • 13 eine Ansicht ist, die eine Schätzung eines Rauschbereichs beim Verfahren zum Reduzieren eines Sprachsignals gemäß einer Ausführungsform der vorliegenden Erfindung zeigt.
  • Anschließend wird ein Verfahren zum Reduzieren von Rauschen in einem Sprachsignal gemäß der vorliegenden Erfindung in bezug auf die Zeichnungen beschrieben.
  • 1 zeigt ein Rauschreduziergerät, bei dem das Verfahren zum Reduzieren des Rauschens in einem Sprachsignal gemäß der vorliegenden Erfindung angewandt wird.
  • Das Rauschreduziergerät umfasst einen Rauschunterdrückungsfilter-Kennlinienerzeugungsabschnitt 35 und eine Spektrumkorrektureinheit 10. Der Erzeugungsabschnitt 35 arbeitet so, um eine Rauschunterdrückungsrate auf ein Eingangssprachsignal festzusetzen, welches zu einem Eingangsanschluss 13 für ein Sprachsignal angelegt wird. Die Spektrumskorrektureinheit 10 arbeitet so, um das Rauschen im Eingangssprachsignal auf der Basis der Rauschunterdrückungsrate wie anschließend beschrieben wird, zu reduzieren. Das Sprachsignal, welches an einem Ausgangsanschluss 14 für das Sprachsignal ausgegeben wird, wird zu einem Codiergerät geliefert, welches mit einem Algorithmus betrieben wird, um eine lineare Vorhersageerregung zu codieren.
  • Im Rauschreduziergerät wird ein Eingangssprachsignal y[t], welches eine Sprachkomponente und eine Rauschkomponente enthält, zum Eingangsanschluss 13 für das Sprachsignal geliefert. Das Eingangssprachsignal y[t] ist ein Digitalsignal, welches eine Abtastfrequenz FS hat. Das Signal y[t] wird zu einer Rahmenbildungseinheit 21 geliefert, in welcher das Signal in Rahmen von FL-Abtastungen unterteilt wird. Später wird das Signal in jedem Rahmen verarbeitet.
  • Die Rahmenbildungseinheit 21 umfasst einen ersten Rahmenbildungsbereich 22 und einen zweiten Rahmenbildungsbereich 1. Der erste Rahmenbildungsbereich 22 arbeitet so, um ein Spektrum zu modifizieren. Der zweite Rahmenbildungsbereich 1 arbeitet so, Parameter herzuleiten, die das Merkmal des Sprachsignals zeigen. Sowohl der Bereich 22 als auch der Bereich 1 werden in einer unabhängigen Weise ausgeführt. Das, verarbeitete Ergebnis des zweiten Rahmenbildungsbereichs 1 wird zum Rauschunterdrückungsfilter-Kennlinienerzeugungsabschnitt 35 geliefert, wie später beschrieben wird. Das verarbeitete Signal wird zum Herleiten der Parameter verwendet, welche die Signalcharakteristik des Eingangssprachsignals zeigen. Wie anschließend beschrieben wird, wird das verarbeitete Ergebnis des ersten Rahmenbildungsbereichs 22 zu einer Spektrumkorrektureinheit 10 geliefert, um das Spektrum gemäß der Rauschunterdrückungscharakteristik zu korrigieren, die in bezug auf den Parameter erhalten wird, der die Signalcharakteristik zeigt.
  • Wie in 2A gezeigt ist, arbeitet der erste Rahmenbildungsbereich 22 so, um das Eingangssprachsignal in 128 Abtastungen zu unterteilen, d. h., den Rahmen, dessen Länge FL aus 168 Abtastungen besteht, einen k-ten Rahmen als Rahmen 1k abzutasten, und dann diesen an eine Fensterbildungseinheit 2 auszugeben. Jeder Rahmen Rahmen 1k, der durch den ersten Rahmenbildungsbereich 22 erhalten wird, wird in einer Periode von 160 Abtastungen abgetastet. Der laufende Rahmen wird mit dem vorherigen Rahmen um 8 Abtastungen überlappt.
  • Wie in 2B gezeigt ist, arbeitet der zweite Rahmenbildungsbereich 1 so, um das Eingangssprachsignal in 200 Abtastungen zu unterteilen, d. h., dass der Rahmen, dessen Länge FL aus 200 Abtastungen besteht, einen k-ten Rahmen als Rahmen 2k abtastet und dann den Rahmen an eine Signalcharakteristik-Berechnungseinheit 31 und an eine Filterungseinheit 8 ausgibt. Jeder Rahmen Rahmen 2k, der durch die zweite Rahmenbildungseinheit 1 erhalten wird, wird mit einer Periode von 160 Abtastungen abgetastet. Der laufende Rahmen wird mit einem vorherigen Rahmen Rahmen 2k+1 um 8 Abtastungen und mit dem einem nachfolgenden Rahmen Rahmen 2k–1 um 40 Abtastungen überlappt.
  • Wenn man annimmt, dass die Abtastfrequenz FS 8000 Hz beträgt, d. h., 8 kHz, wird der Rahmenbildungsbetrieb in regulären Intervallen von 20 ms ausgeübt, da sowohl der erste Rahmenbildungsbereich 22 als auch der zweite Rahmenbildungsbereich 1 ein Rahmenintervall FI von 160 Abtastungen haben.
  • Wendet man sich nun 1 zu, so führt vor der Verarbeitung durch eine schnelle Fourier Transformationseinheit 3, welche die nächste Orthogonaltransformation ist, die Fensterbildungseinheit 2 den Fensterbildungsbetrieb durch eine Fensterbildungsfunktion winput in bezug auf jedes Rahmensignal y-Rahmen 1j,k aus, welches von der ersten Rahmenbildungseinheit 22 geliefert wird. Nach der inversen schnellen Fourier Transformation in der Endstufe der Signalverarbeitung des Rahmenbasissignals wird ein Ausgangssignal durch Fensterbil dung durch eine Fensterbildungsfunktion woutput verarbeitet. Beispiele der Fensterbildungsfunktionen winput und woutput werden durch die folgenden Gleichungen (1) und (2) angegeben:
    Figure 00090001
  • Danach führt die schnelle Fourier Transformationseinheit 3 die schnelle Fourier Transformation bei 256 Punkten in bezug auf das Rahmenbasissignal y-Rahmen 1j,k durch, welches durch die Fensterbildungsfunktion winput zu einem Fenster gebildet wurde, um Frequenzspektral-Amplitudenwerte zu erzeugen. Die resultierenden Frequenzspektral-Amplitudenwerte werden an eine Frequenzteilungseinheit 4 und eine Spektralkorrektureinheit 10 ausgegeben.
  • Der Rauschunterdrückungsfilter-Kennlinienerzeugungsabschnitt 35 besteht aus einer Signalkennlinien-Berechnungseinheit 31, der adj-Wert-Berechnungseinheit 32, der CE- und NR-Wert-Berechnungseinheit 36 und einer Hn-Berechnungseinheit 7.
  • Im Abschnitt 35 arbeitet die Frequenzteilungseinheit 4 so, um einen Amplitudenwert des Frequenzspektrums zu unterteilen, der dadurch erhalten wird, dass die schnelle Fourier Transformation in bezug auf das Eingangssprachsignal durchgeführt wird, welches von der schnellen Fourier Transformationseinheit 3 ausgegeben wird, in beispielsweise 18 Bändern. Die Amplitude Y[w, j] jedes Bands, in welchem eine Bandnummer zum Identifizieren jeden Bands gleich w ist, wird an die Signalcharakteristik-Berechnungseinheit 31, eine Rauschspektrum-Schätzeinheit 26 und eine Anfangsfilteransprech-Berechnungseinheit 33 ausgegeben. Ein Beispiel eines Frequenzbereichs, der beim Unterteilen der Frequenz in Bänder verwendet wird, wird anschließend gezeigt.
  • Tabelle 1
    Figure 00100001
  • Diese Frequenzbänder werden auf der Basis der Tatsache festgelegt, dass die Wahrnehmungsauflösung des menschlichen Hörsystems in Richtung auf die höhere Frequenz abnimmt. Als Amplituden der entsprechenden Bereiche werden die maximalen FFT-Amplituden (schnelle Fourier Transformation) in den entsprechenden Frequenzbereichen verwendet.
  • Die Signalkennlinien-Berechnungseinheit 31 arbeitet so, um einen RMS[k] zu berechnen, d. h., einen RMS-Wert für jeden Rahmen, einen dBrel[k], d. h., eine relative Energie für jeden Rahmen, einen MinRMS[k], d. h., einen Schätzrausch-Pegelwert für jeden Rahmen, einen MaxRMS[k], d. h., einen maximalen RMS-Wert für jeden Rahmen, und einen MaxSNR [k], d. h., einen maximalen SNR-Wert für jeden Rahmen vom y-Rahmen 2j,k, der vom zweiten Rahmenbildungsbereich ausgegeben wird, und Y[w, k], der von der Frequenzteilungseinheit 4 ausgegeben wird.
  • Zunächst werden die Ermittlung der Tonhöhe und die Berechnung der Tonhöhenstärke anschließend beschrieben.
  • Beim Ermitteln der Tonhöhe wird, wie in 3 gezeigt ist, der stärkste Spitzenwert unter den Rahmen des Eingangssprachsignals y-Rahmen 2j,k als Spitzenwert x[m1] ermittelt. Innerhalb der Phase, wo der Spitzenwert x[m1] existiert, wird der zweit-stärkste Spitzenwert als Spitzenwert x[m2] ermittelt m1 und m2 sind die Werte der Zeit t für die entsprechenden Spitzenwerte. Der Abstand der Tonhöhe p wird als ein Abstand |ml – m2| zwischen den Spitzenwerten x[m1] und x[m2] erhalten. Wie in der Gleichung (6) gezeigt ist, kann die maximale Tonhöhenstärke max_Rxx der Tonhöhe p auf der Basis eines Wechselkorrelationswerts nrg0 des Spitzenwerts x[m1] mit dem Spitzenwert x[m2], der durch die Gleichungen (3) bis (5) hergeleitet wird, eines Autokorrelationswerts nrg1 des Spitzenwerts x[m1], und des Autokorrelationswerts nrg2 des Spitzenwerts x[m2] erhalten werden.
  • Figure 00110001
  • Anschließend wird das Verfahren zum Herleiten eines jeden Werts erläutert.
  • RAM[k] ist ein RMS-Wert des k-ten Rahmens Rahmen 2k, der durch die folgende Gleichung berechnet wird:
    Figure 00110002
  • Die relative Energie dBrel[k] des k-ten Rahmens Rahmen 2k zeigt die relative Energie des k-ten Rahmens in Verbindung mit der Abklingenergie vom vorherigen Rahmen Rahmen 2k–1. Diese relative Energie dBrel[k] in dB-Schreibweise wird durch folgende Gleichung (8) berechnet. Der Energiewert E[k] und der Abklingenergiewert Edecay[k] in der Gleichung (8) werden durch die folgenden Gleichungen (9) und (10) hergeleitet:
    Figure 00110003
    Figure 00120001
  • In der Gleichung (10) wird angenommen, dass die Abklingzeit 0,65 Sekunden beträgt.
  • Die konkreten Werte der Energie E[k] und der Abklingenergie Edecay[k] sind in 4 gezeigt.
  • Der maximale RMS-Wert MaxRMS[k] des k-ten Rahmens Rahmen 2k ist der notwendige Wert, um einen Schätzrauschpegelwert und ein maximales SN-Verhältnis eines jeden Rahmens, was anschließend beschrieben wird, zu schätzen. Der Wert wird durch die folgende Gleichung (11) berechnet. In der Gleichung (11) ist θ eine Abklingkonstante. Diese Konstante ist vorzugsweise ein Wert, bei dem der maximale RMS-Wert um 1/e in einem Zeitpunkt von 3,2 Sekunden abklingt, konkret θ = 0,993769. MaxRMS[k] = max(4000, RMS[k], θ·MaxRMS[K – 1] + (1 – θ)·RMS[K]) (11)
  • Der geschätzte Rauschpegelwert MinRMS[k] des k-ten Rahmens Rahmen 2k ist ein minimaler RMS-Wert, der vorteilhaft ist, um das Hintergrundrauschen oder den Hintergrundrauschpegel zu schätzen. Dieser Wert muss minimal unter den vorherigen fünf örtlichen Minima vom laufenden Punkt sein, d. h., dass die Werte die Gleichung 812) erfüllen: (RMS[k] < 0,6·MaxRMS[k] RMS[k] < 4000 RMS[k] < RMS[k + 1] RMS[k] < RMS[k – 1]and RMS[k] < RMS [k – 2])or (RMS[k] < MinRMS) (12)
  • Der geschätzte Rauschpegelwert MinRMS[k] wird so festgelegt, das der Pegelwert MinRMS[k] im sprachfreien Hintergrundrauschen ansteigt. Wenn der Rauschpegel hoch ist, ist die Anstiegsrate exponentiell. Wenn der Rauschpegel niedrig ist, wird eine feste Anstiegsrate dazu verwendet, einen größeren Anstieg sicherzustellen.
  • Die konkreten Werte des RMS-Werts RMS[k], des geschätzten Rauschpegelwerts MinRMS[k] und des maximalen RMS-Werts MaxRMS[k] werden in 5 gezeigt.
  • Das maximale SN-Verhältnis MAXSNR[k] des k-ten Rahmens Rahmen 2k ist ein Wert, der durch die folgende Gleichung (13) in bezug auf MaxRMS[k] und MinRMS[k] geschätzt wird:
    Figure 00130001
  • Außerdem wird ein normierter Parameter NR-Pegel [k] im Bereich von 0 bis 1, der den relativen Rauchpegel zeigt, vom maximalen SN-Verhältniswert MaxSNR berechnet. Der NR-Pegel [k] nutzt die folgende Funktion:
    Figure 00130002
  • Anschließend arbeitet die Rauschspektrum-Schätzeinheit 26 so, um die Sprache vom Hintergrundrauschen auf der Basis des RMS[k], dbrel[k], des NR-Pegels [k], des Min RMS[k] und des MaxSNR[k] zu unterscheiden. Das heißt, wenn der folgende Zustand erfüllt wird, wird das Signal im k-ten Rahmen so klassifiziert, dass es das Hintergrundrauschen ist. Der Amplitudenwert, der durch das klassifizierte Hintergrundrauschen angezeigt wird, wird als ein geschätzter Mittelwert N[w, k] des Rauschspektrums berechnet. Der Wert N wird an eine Initialfilter-Ansprechberechnungseinheit 33 ausgegeben: ((RMS[k] < NoiseRMSthres[k])or (dBrel[k] > dBthres[k]))and (RMS[k] < RMS[k – 1] + 200) (15) wobei NoiseRMSthres[k] = 1,05 + 0,45·NR_level[k] × MinRMS[k] dBthresrel[k] = max(MaxSNR[k] – 4,0,0,9·MaxSNR[k]
  • 6 zeigt die konkreten Werte der relativen Energie darel[k] in dB-Schreibweise, die in der Gleichung (15) gefunden wurde, des maximalen SN-Verhältnisses MaxSNR[k] und des dBthresrel, der eine der Schwellenwerte zum Unterscheiden des Rauschens ist.
  • 7 zeigt den NR-Pegel [k], der eine Funktion des MaxSNR[k] ist, der in der Gleichung (14) gefunden wurde.
  • Wenn der k-te Rahmen so klassifiziert wird, dass er das Hintergrundrauschen oder das Rauschen ist, wird der geschätzte Zeitmittelwert M[w, k] des Rauschspektrums, wie in der folgenden Gleichung (16) gezeigt ist, durch die Amplitude Y[w, k] des Eingangssignalspektrums des laufenden Rahmens aktualisiert. Im Wert N[w, k] bezeichnet w eine Bandnummer für jedes der frequenz-unterteilten Bänder:
    Figure 00140001
  • Wenn der k-te Rahmen als Sprache klassifiziert wird, wird N[w, k] unmittelbar als Wert N[w, k – 1] verwendet.
  • Anschließend arbeitet in bezog auf den RMS[k], den Min RMS[k] und den Max RMS[k] die adj-Wert-Berechnungseinheit 32 so, um adj[w, k] durch die Gleichung (17) unter Verwendung von adj1[k], adj2[k] und adj3[w, k] zu berechnen, was anschließend beschrieben wird. Der Wert adj[w, k] wird an die CE-Wert- und die NR-Wert-Berechnungseinheit 36 ausgegeben. adj[w,k] = min(adj1[kj, adj2[k]) – adj3[w, k] (17)
  • Hier ist der Wert adj1[k], der in der Gleichung (17) gefunden wird, ein Wert, der beim Unterdrücken des Rauschunterdrückungsbetriebs effektiv ist, auf der Basis der Filterungsoperation (die später beschrieben wird) in einem hohen SN-Verhältnis über alle Bänder. Der Wert adj1[k] ist durch die folgende Gleichung (18) definiert:
    Figure 00140002
  • Der Wert adj2[k], der in der Gleichung (17) gefunden wird, ist ein Wert, der beim Unterdrücken der Rauschunterdrückungsrate auf der Basis der oben erwähnten Filterungsoperation in bezug auf einen ziemlich hohen oder niedrigen Rauschpegel effektiv ist. Der Wert adj2[k] ist durch die folgende Gleichung (19) definiert:
    Figure 00150001
  • Der Wert adj3[w, k], der in der Gleichung (17) gefunden wird, ist ein Wert, um den Unterdrückungsbetrag des Rauschens auf der Tiefpassseite oder der Hochpassseite zu steuern, wenn die Stärke der Tonhöhe p des Eingangssprachsignals, wie in 3 gezeigt ist, insbesondere die maximale Tonhöhenstärke max_Rxx groß ist. Wenn beispielsweise die Tonhöhenstärke größer ist als der vorher festgelegte Wert und der Eingangssprachsignalpegel größer ist als der Rauschpegel, nimmt der Wert adj3[w, k] einen vorher festgelegten Wert auf der Tiefpassseite an, wie in 8A gezeigt ist, ändert sich linear mit der Frequenz w auf der Hochpassseite und nimmt einen Wert von 0 in den anderen Frequenzbändern an. Dagegen nimmt der Wert adj3[w, k] einen vorher festgelegten Wert auf der Tiefpassseite, wie in 8B gezeigt ist, und einen Wert von 0 in den anderen Frequenzbändern an.
  • Als Beispiel ist die Definition des Werts adj3[w, k] in der Gleichung (20) aufgezeigt:
    Figure 00150002
  • In der Gleichung (20) wird die maximale Tonstärke max_Rxx[t] unter Verwendung der ersten maximalen Tonstärke max_Rxx[0] normiert. Der Vergleich des Eingangssprachsignalpegels mit dem Rauschpegel wird durch die Werte ausgeführt, die von Min RMS[k] und MaxRMS[k] hergeleitet werden.
  • Die CE- und NR-Wert-Berechnungseinheit 36 arbeitet so, um einen NR-Wert zu erzielen, um die Filtercharakteristik zu steuern, und um dann den NR-Wert an die Hn-Wert-Berechnungseinheit 7 auszugeben.
  • Beispielsweise ist NR[w, k] entsprechend dem NR-Wert durch die folgende Gleichung (21) definiert:
    Figure 00160001
  • NR'[w, k] in der Gleichung (21) wird durch die Gleichung (22) unter Verwendung des Werts adj[w, k] erhalten, der von der adj-Wert-Berechnungseinheit 32 geliefert wird.
  • Die CE- und NR-Wert-Berechnungseinheit 36 arbeitet außerdem so, um CE[k] unter Verwendung der Gleichung (21) zu berechnen. Der CE[k] ist ein Wert, um Konsonanten-Komponenten darzustellen, die in der Amplitude Y[w, k] des Eingangssignalspektrums enthalten sind. Diese Konsonanten-Komponenten werden für jeden Rahmen ermittelt. Die konkrete Ermittlung der Konsonanten wird anschließend beschrieben.
  • Wenn die Tonstärke größer ist als der vorher festgelegte Wert und das Eingangssprachsignal größer ist als der Rauschpegel, d. h., dass der Zustand, der im ersten Bereich der Gleichung (20) gezeigt ist, erfüllt ist, nimmt CE[k] einen Wert von beispielsweise 0,5 an. Wenn die Bedingung nicht erfüllt wird, nimmt CE[k] einen Wert an, der durch das anschließend beschriebene Verfahren definiert ist.
  • Zunächst wird ein Nulldurchgang an einem Bereich ermittelt, wo ein Zeichen sich von positiv auf negativ oder umgekehrt zwischen fortlaufenden Abtastungen bei Y[w, k] ändert, oder einem Bereich, wo eine Abtastung, die einen Wert 0 hat, zwischen Abtastungen angeordnet ist, die Zeichen entgegengesetzt zueinander haben. Die Anzahl der Nulldurch gänge wird bei jedem Rahmen ermittelt. Dieser Wert wird für den nachstehend beschriebenen Prozess als Nulldurchgangszahl ZC[k] verwendet.
  • Anschließend wird ein Ton ermittelt. Der Ton bedeutet einen Wert, der eine Frequenzkomponentenverteilung von Y[w, k] zeigt, beispielsweise ein Verhältnis t'/b' (= Ton [k]) eines Durchschnittspegels t' des Eingangssignalspektrums auf der Hochpassseite zu einem Durchschnittspegel b' des Eingangssignalspektrums auf der Tiefpassseite, wie in 9 gezeigt ist. Diese Werte t' und b' sind die Werte t und b, bei denen eine Fehlerfunktion ERR(fc, b, t), die in der nachstehend beschriebene Gleichung (23) definiert ist, einen Minimalwert annimmt. In der Gleichung (23) bezeichnet NB eine Anzahl von Bändern. Ymax bezeichnet einen Maximalwert Y[w, k] im Band w, und fc bezeichnet einen Punkt, bei dem der Hochpass vom Tiefpass getrennt wird. In 9 nimmt bei der Frequenz fc der Durchschnittswert Y[w, k] auf der Tiefpassseite einen Wert b an. Der Durchschnittswert Y[w, k] auf der Hochpassseite nimmt einen Wert t an:
    Figure 00170001
  • Auf der Basis des RMS-Werts und der Anzahl von Nulldurchgängen wird der Rahmen in der Nähe des Rahmens, bei dem die stimmhafte Sprache ermittelt wird, d. h., der Sprachnähenrahmen ermittelt. Die Silbennähe-Rahmennummer spch_prox[k] wird durch die nachstehende beschriebene Gleichung (24) erhalten und dann ausgegeben:
    Figure 00170002
  • Auf der Basis der Nulldurchgänge, der Anzahl der Sprachnähenrahmen, des Ton und des RMS-Werts werden die Silbenkomponenten in Y[w, k] eines jeden Rahmens ermittelt. Als Ermittlungsergebnis der Silben wird CE[k] durch die anschließende beschriebene Gleichung (25) erhalten:
    Figure 00170003
  • Jedes der Symbole C1, C2, C3, C4.1 bis C4.7 ist in der folgenden Tabelle definiert.
  • Tabelle 2
    Figure 00180001
  • In der Tabelle 2 ist jeder Wert CDS0, CDS1, CDS2, T, Zlow (niedrig) und Zhigh (hoch) eine Konstante, um eine Empfindlichkeit zu definieren, bei der die Silbe ermittelt wird. Beispielsweise sind diese Werte derart, dass CDS0 = CDS1 = CDS2 = 1,41, T = 20, Zlow = 20 und Zhigh = 75. E ist in der Gleichung (25) nimmt einen Wert an von 0 bis 1. Das Filteransprechen (wird anschließend beschrieben) wird so eingestellt, dass die Silbenunterdrückungsrate eng zur Normalrate gemacht wird, wenn der Wert E kleiner als 0 ist, während die Silbenunterdrückungsrate enger an die Minimalrate gemacht wird, wenn der Wert E enger an 1 ist. Als Beispiel nimmt E einen Wert von 0,7 an.
  • In der Tabelle 2 zeigt bei einem bestimmten Rahmen, wenn das Symbol C1 gehalten wird, dies an, dass der Signalpegel des Rahmens größer ist als der minimale Rauschpegel. Wenn das Symbol C2 gehalten wird, zeigt dies an, dass die Anzahl der Nulldurchgänge größer ist als die vorher festgelegte Anzahl Zlow der Nulldurchgänge bei dieser Ausführungsform 20. Wenn das Symbol C3 gehalten wird, zeigt dies, dass der laufende Rahmen innerhalb von T Rahmen von dem Rahmen angeordnet ist, bei dem die stimmhafte Sprache ermittelt wird, bei dieser Ausführungsform innerhalb von 20 Rahmen.
  • Wenn das Symbol C4.1 gehalten wird, zeigt dies, dass der Signalpegel im laufenden Rahmen geändert wurde. Wenn das Symbol C4.2 gehalten wird, zeigt dies, dass der lau fende Rahmen ein Rahmen ist, dessen Signalpegel um einen Rahmen später als die Änderung des Sprachsignals geändert wurde. Wenn das Symbol C4.4 gehalten wird, zeigt dies, dass die Anzahl der Nulldurchgänge größer ist als die vorher festgelegte Nulldurchgangszahl Zhigh bei dieser Ausführungsform 75 beim laufenden Rahmen. Wenn das Symbol C4.5 gehalten wird, zeigt dies an, dass der Tonwert in dem Rahmen geändert wurde. Wenn das Symbol C4.6 gehalten wird, zeigt dies, dass der laufende Rahmen ein Rahmen ist, dessen Tonwert einen Rahmen später als die Änderung des Sprachsignals geändert wurde. Wenn das Symbol C4.7 gehalten wird, zeigt dies an, dass der laufende Rahmen ein Rahmen ist, dessen Tonwert zwei Rahmen später als die Änderung des Sprachsignals geändert wurde.
  • In der Gleichung (25) sind die Zustände, dass der Rahmensilbenkomponenten enthält, wie folgt: Erfüllen der Bedingung der Symbole C1 bis C3, Halten des Tons [k] größer als 0,6 und Erfüllen zumindest einen der Zustände von C4.1 bis C4.7.
  • Außerdem arbeitet die Anfangsfilteransprech-Berechnungseinheit 33 so, um den Rauschzeitmittelwert N[w, k], der von der Rauschspektrum-Schätzeinheit 26 ausgegeben wird, und Y[w, k], der von der Bandunterteilungseinheit 4 ausgegeben wird, der Filterunterdrückungskurventabelle 24 zugeführt, findet einen Wert H[w, k] entsprechend Y[w, k] und N[w, k], die in der Filterunterdrückungskurventabelle 34 gespeichert sind, und gibt H[w, k] an die Hn-Wert-Berechnungseinheit 7 aus. Die Filterunterdrückungskurventabelle 34 speichert die Tabelle um H[w, k].
  • Die Hn-Wert-Berechnungseinheit 7 ist ein Vorfilter, um die Rauschkomponenten der Amplitude Y[w, k] des Spektrums des Eingangssignals, welches in die Bänder unterteilt ist, den Zeitmittelwert-Schätzwert N[w, k] des Rauschspektrums und NR[w, k] zu reduzieren. Im Vorfilter wird Y[w, k] in Hn[w, k] gemäß N[w, k] umgesetzt. Dann gibt das Vorfilter die Filterantwort Hn[w, k] aus. Der Wert Hn[w, k] wird mit Hilfe der anschließend beschriebenen Gleichung (26) berechnet. Hn[w, k] = exp{NR[w, k]·ln(H[w][S/N = r])} (26) 20·log10(H[w, k]) = NR[w,k]·K (27) wobei K konstant ist.
  • Der Wert H[w][S/N = r] in der Gleichung (26) entspricht der am meisten geeigneten Rauschunterdrückungs-Filterkennlinie, die gegeben ist, wenn das SN-Verhältnis bei einem bestimmten Wert r fest ist. Dieser Wert wird gemäß dem Wert Y[w, k]/N[w, k] tabu liert und in der Filterunterdrückungskurventabelle 34 gespeichert. H[w][S/N = r] ist ein Wert, der sich linear im dB-Bereich ändert.
  • Die Transformation der Gleichung (26) in die Gleichung (27) hat zur Folge, dass die linke Seite der Funktion um die maximale Unterdrückungsrate eine lineare Beziehung zu NR[w, k] hat. Die Beziehung zwischen der Funktion und NR[w, k] kann dargestellt werden, wie in 10 gezeigt ist.
  • Die Filterungseinheit 8 führt eine Filterungsverarbeitung durch, um den Wert Hn(w, k] in den Richtungen der Frequenzachse und der Zeitachse zu glätten und gibt das geglättete Signal Ht_smooth[w, k] aus. Der Filterungsprozess auf der Frequenzachse ist bei der Reduzierung der effektiven Impulsantwortlänge von Hn[w, k] effektiv. Dies ermöglicht es, das Auftreten einer Bandüberlappung zu verhindern, die durch zirkulare Faltung verursacht wird, die von dem Multiplikationsbasisfilter im Frequenzbereich resultiert. Der Filterungsprozess auf der Zeitachse ist bei der Begrenzung der Änderungsgeschwindigkeit des Filters wirksam, um unerwartetes Rauschen zu unterdrücken.
  • Zunächst wird der Filterungsprozess auf der Frequenzachse beschrieben. Der mittlere Filterungsprozess wird um Hn[w, k] eines jeden Bands ausgeführt. Die folgenden Gleichungen (28 und (29) zeigen dieses Verfahren. step1:H1[w, k] = max{median(Hn[w – 1, k], Hn[w, k], H[w + 1, k], Hn[w, k]} (28) wobei H1[w, k] = Hn[w, k], in dem Fall, wo (w – 1) oder (w + 1) nicht vorhanden sind step2:H2[w, k] = min{median(H1[W – 1, K], H1[w, k], H1[w + 1, k], H1[w, k]} (29) wobei H2[w, k] = H1[w, k], in dem Fall, wo (w – 1) oder (w + 1) nicht vorhanden sind
  • Im ersten Schritt (Schritt 1) der Gleichung (28) ist H1[w, k] ein Wert Hn[w, k] mit keinem einzigartigen oder isolierten Band von 0. In dem zweiten Schritt (Schritt 2) der Gleichung (29) ist H2[w, k] ein Wert H1[w, k] mit keinem einzigartigen oder isolierten Band. Mit dieser Beziehung wird der Wert Hn[w, k] in H2[w, k] umgesetzt.
  • Anschließend wird der Filterungsprozess auf der Zeitachse beschrieben. Wenn der Filterungsprozess auf der Zeitachse ausgeführt wird, ist es notwendig, zu betrachten, dass das Eingangssignal drei Zustandsarten hat, d. h., eine Sprache, ein Hintergrundrauschen und einen Übergangszustand der ansteigenden Flanke der Sprache. Für das Sprachsignal Hnspeech[w, k] wird, wie in der Gleichung (30) gezeigt ist, das Glätten auf der Zeitachse ausgeführt: Hspeech[w, k] = 0,7·H2[w, k] + 0,3·H2[w, k – 1] (30) Hnoise[w, k] = 0,7·Min_H + 0,3·Max_H (31) wobei
    Min_H = min(H2[w, k], H2[w, k – 1])
    Max_H = max(H2[w, k], H2[w, k – 1])
  • Für das Hintergrundrauschsignal wird das Glätten auf der Zeitachse, wie in der folgenden Gleichung (31) gezeigt ist, ausgeführt.
  • Für das Übergangsstatussignal wird das Glätten auf der Zeitachse nicht ausgeführt.
  • Mit dem obigen geglätteten Signal resultiert die Berechnung der Gleichung (32) das Erzielen des geglätteten Ausgangssignals Ht_smooth[w, k].
  • Figure 00210001
  • Figure 00220001
  • Hier kann αsp in der Gleichung (32) aus der folgenden Gleichung (33) hergeleitet werden und αtr kann aus der folgenden Gleichung (34) hergeleitet werden.
  • Danach expandiert die Bandumsetzungseinheit 9 das geglättete Signal Ht_smooth[w, k] von beispielsweise 18 Bändern von der Filterungseinheit 8 in ein Signal H128[w, k] von beispielsweise 128 Bändern über den Effekt der Interpolation. Danach gibt die Bandumsetzungseinheit 9 das resultierende Signal H128[w, k] aus. Diese Umsetzung wird in zwei stufen beispielsweise ausgeführt. Die Expansion von 18 Bändern auf 64 Bänder wird durch einen Nullgrad-Halteprozess ausgeführt. Die nächste Expansion von 64 Bändern auf ein 128 Bändern wird durch eine Tiefpassfilterinterpolation durchgeführt.
  • Danach multipliziert die Spektrumskorrektureinheit 10 das Signal H128[w, k] mit einem Realteil und mit einem Imaginärteil des FFT-Koeffizienten, der durch Durchführen der FFT in bezug auf das Rahmensignal y-Rahmeny,k von der schnellen Fourier Transformationseinheit 3 erhalten wird, um das Spektrum zu modifizieren, d. h., um die Rauschkomponenten zu reduzieren. Dann gibt die Spektrumskorrektureinheit 10 das resultierende Signal aus. Folglich wird die Spektralamplitude ohne Transformation der Phase korrigiert.
  • Danach führt die schnelle Umkehr-Fourier-Transformationseinheit 11 die inverse FFT in bezog auf das Signal durch, welches in der Spektrumskorrektureinheit 10 erhalten wird und gibt dann das resultierende IFFT-Signal aus. Danach überlappt eine Überlappungsadditionseinheit 12 die Rahmengrenze des IFFT-Signals eines Rahmens mit der eines anderen Rahmens und gibt das resultierende Ausgangssprachsignal am Ausgangsanschluss 14 für das Sprachsignal aus.
  • Weiter sei der Fall betrachtet, dass dieses Ausgangssignal bei einem Algorithmus angewandt wird, beispielsweise für die lineare Vorhersagecodiererregung. Das Codiergerät auf Algorithmusbasis ist in 11 gezeigt. Das Decodiergerät auf Algorithmusbasis ist in 12 gezeigt.
  • Wie in 11 gezeigt ist, ist das Codiergerät so eingerichtet, dass das Eingangssprachsignal von einem Eingangsanschluss 61 an eine lineare Vorhersagecodier-Analyseeinheit 62 (LPC) und einen Subtrahierer 64 angelegt wird.
  • Die LPC-Analyseeinheit 62 führt eine lineare Vorhersage über das Eingangssprachsignal durch und gibt den Vorhersagefilterkoeffizienten an ein Synthesefilter 63 aus. Zwei Codebücher, ein festes Codebuch 67 und ein dynamisches Codebuch 68 werden bereitgestellt. Ein Codewort vom festen Codebuch 67 wird mit einem Faktor eines Multiplizierers 81 multipliziert. Ein anderes Codewort von dem dynamischen Codebuch 68 wird mit einem Faktor des Multiplizierers 81 multipliziert. Beide Multiplizierergebnisse werden zu einem Addierer 69 geliefert, in welchem beide miteinander addiert werden. Das Additionsergebnis wird zum LPC-Synthesefilter geliefert, welches einen Vorhersagefilterkoeffizienten hat. Das LPC-Synthesefilter gibt das Syntheseergebnis an einen Subtrahierer 64 aus.
  • Der Subtrahierer 64 bildet eine Differenz zwischen dem Eingangssprachsignal und dem Syntheseergebnis von dem Synthesefilter 63 und gibt dann dieses an ein Akustik-Wichtungsfilter 65 aus. Das Filter wichtet das Differenzsignal gemäß dem Spektrum des Eingangssprachsignals in jedem Frequenzband und gibt dann das gewichtete Signal an eine Fehlerermittlungseinheit 66 aus. Die Fehlerermittlungseinheit 66 berechnet eine Energie des gewichteten Fehlers, der vom Filter 65 ausgegeben wird, um so ein Codewort für jedes der Codebücher herzuleiten, so dass die gewichtete Fehlerenergie bei der Suche für die Codebücher des festen Codebuchs 67 und des dynamischen Codebuchs 68 minimal gemacht wird.
  • Das Codiergerät überträgt an das Decodiergerät einen Index des Codeworts des festen Codebuchs 67, einen Index des Codeworts des dynamischen Codebuchs 68 und einen Index eines jeden Faktors für jeden der Multiplizierer. Die LPC-Analyseeinheit 62 überträgt einen Quantisierungsindex aller Parameter, für die der Filterkoeffizient erzeugt wurde. Das Decodiergerät führt einen Decodierprozess mit allen diesen Indizes aus.
  • Wie in 12 gezeigt ist, besitzt das Decodiergerät ebenfalls ein festes Codebuch 71 und ein dynamisches Codebuch 72. Das feste Codebuch 71 nimmt das Codewort auf der Basis des Index des Codeworts des festen Codebuchs 67 heraus. Das dynamische Codewort 72 nimmt das Codewort auf der Basis des Index des Codeworts des dynamischen Codeworts heraus. Außerdem sind zwei Multiplizierer 83 und 84 vorgesehen, die in bezug auf den entsprechenden Faktorindex arbeiten. Ein Bezugszeichen 74 bezeichnet ein Synthesefilter, welches einige Parameter empfängt, beispielsweise den Quantisierungsindex von dem Codiergerät. Das Synthesefilter 74 synthetisiert das Multiplikationsergebnis des Codeworts von den zwei Codebüchern und den Faktor mit einem Erregungssignal und gibt dann das Synthesesig nal an ein Nachfilter 75 aus. Das Nachfilter 75 führt dann die sogenannte Formant-Anhebung aus, so dass die Täler und die Berge des Signals klarer gemacht werden. Das formant-betonte Sprachsignal wird am Ausgangsanschluss 76 ausgegeben, Um ein besseres Sprachsignal im Licht des akustischen Sinnes zu erzielen, enthält der Algorithmus einen Filterungsprozess, um die Tiefpassseite des codierten Sprachsignals zu unterdrücken oder um dessen Hochpassseite anzuheben. Das Decodiergerät liefert ein decodiertes Sprachsignal, dessen Tiefpassseite unterdrückt ist.
  • Bei dem Verfahren zum Reduzieren des Rauschens des Sprachsignals wird wie oben beschrieben der Wert von adj3[w, k] der adj-Wert-Berechnungseinheit 32 so geschätzt, dass dieser einen vorher festgelegten Wert auf der Tiefpassseite des Sprachsignals hat, welches eine große Tonhöhe und eine lineare Beziehung mit der Frequenz auf der Hochpassseite des Sprachsignals hat. Folglich wird die Unterdrückung der Tiefpassseite des Sprachsignals niedrig gehalten. Dies hat zur Folge, dass eine übermäßige Unterdrückung auf der Tiefpassseite des Sprachsignals, welches durch den Algorithmus formant-angehoben wurde, vermieden wird. Dies bedeutet, dass der Codierprozess die wesentliche Änderung der Frequenzcharakteristik reduzieren kann.
  • In der obigen Beschreibung wurde das Rauschreduziergerät so eingerichtet, das Sprachsignal an das Sprachcodiergerät auszugeben, welches einen Filterungsprozess zum Unterdrücken der Tiefpassseite des Sprachsignals durchführt und die Hochpassseite davon anhebt. Anstelle davon, den Wert adj3[w, k] so festzulegen, dass die Unterdrückung der Hochpassseiten des Sprachsignals niedrig gehalten wird, wenn das Rauschen unterdrückt wird, kann das Rauschreduziergerät so eingerichtet sein, das Sprachsignal an das Sprachcodiergerät auszugeben, welches beispielsweise die Hochpassseite des Sprachsignals unterdrückt.
  • Die CE- und NR-Wert-Berechnungseinheit 36 ändern das Verfahren zum Berechnen des CE-Werts gemäß der Tonhöhenstärke und definieren den NR-Wert in bezug auf den CE-Wert, der durch das Verfahren berechnet wurde. Folglich kann der NR-Wert gemäß der Tonhöhenstärke berechnet werden, so dass die Rauschunterdrückung möglich wird, wobei der NR-Wert verwendet wird, der gemäß dem Eingangssprachsignal berechnet wurde. Dies hat eine Reduzierung des Sprachquantisierungsfehlers zur Folge.
  • Die Hn-Wert-Berechhnungseinheit 7 ändert im Wesentlichen linear den Wert Hn[w, k] in bezug auf NR[w, k] im dB-Bereich, so dass die Verteilung des NR-Werts auf die Änderung des Hn-Werts konstant-seriell sein kann. Damit kann die Änderung des Hn-Werts mit einer abrupten Änderung des NR-Werts fertig werden.
  • Um die maximale Tonhöhenstärke der Signalkennlinienberechungseinheit 31 zu berechnen, ist es nicht notwendig, eine komplizierte Operation der Autokorrelationsfunktion durchzuführen, beispielsweise (N + logN), die beim FFT-Prozess verwendet wird. Im Fall einer Verarbeitung von 200 Abtastungen benötigt die obige Autokorrelationsfunktion 50000 Prozesse, während die Autokorrelationsfunktion nach der vorliegenden Erfindung gerade 3000 Prozesse benötigt. Damit kann die Betriebsgeschwindigkeit verbessert werden.
  • Wie in 2A gezeigt ist, tastet die erste Rahmenbildungseinheit 22 das Sprachsignal ab, so dass die Rahmenlänge FL 168 Abtastungen entspricht und der laufende Rahmen mit einem vorhergehenden Rahmen um acht Abtastungen überlappt wird. Wie in 2B gezeigt ist, tastet die zweite Rahmenbildungseinheit 1 das Sprachsignal so ab, dass die Rahmenlänge FL 200 Abtastungen entspricht und der laufende Rahmen mit dem einem vorhergehenden Rahmen um 40 Abtastungen und mit dem einem nachfolgenden Rahmen um 8 Abtastungen überlappt ist. Die erste und die zweite Rahmenbildungseinheit 22 und 1 werden so eingestellt, die Startposition eines jeden Rahmens bei der gleichen Zeile zu beginnen, und die zweite Rahmenbildungseinheit 1 führt die Abtastoperation 32 Abtastungen später als die erste Rahmenbildungseinheit 22 durch. Als Ergebnis findet keine Verzögerung zwischen der ersten und der zweiten Rahmenbildungseinheit 22 und 1 statt, so dass mehr Abtastungen hergenommen werden können, um einen Signalkennlinienwert zu berechnen.
  • RMS[k], Min RMS[k], der Ton [w, k], ZC[w, k] und Rxx werden als Eingangssignale für ein sich nach hinten ausbreitendes Neuronennetz verwendet, um Rauschintervalle zu schätzen.
  • Im Neuronennetz werden RMS[k], Min RMS[k], der Ton [w, k], ZC[w, k] und Rxx bei jedem Anschluss der Eingangsebene angewandt.
  • Die Werte, die an jedem Anschluss der Eingangsebene angelegt werden, werden an die mittlere Ebene ausgegeben, wenn eine Synapse-Wichtung den Werten hinzugefügt wird.
  • Die mittlere Ebene empfängt die gewichteten Werte und die Bezugswerte von einem Bezugswert 51. Wenn der vorher festgelegte Prozess für die Werte ausgeführt ist, gibt die mittlere Ebene das Verarbeitungsergebnis aus. Das Ergebnis wird gewichtet.
  • Die Ausgangsebene empfängt das gewichtete Ergebnis von der mittleren Ebene und die Bezugswerte von einem Bezugswert 52. Wenn der vorher festgelegte Prozess für die Werte durchgeführt ist, gibt die Ausgangsebene die geschätzten Rauschintervalle aus.
  • Die Bezugswerte, die von den Bezugswerten 51 und 52 ausgegeben werden, und die Wichtungswerte, die den Ausgangswerten hinzugefügt werden, werden adaptiv bestimmt, um die sogenannte Vorzugstransformation zu realisieren. Folglich wird, je mehr Daten verarbeitet werden, die Wahrscheinlichkeit besser. Das heißt; wenn das Verfahren mehrmals wiederholt wird, werden der geschätzte Rauschpegel und das Spektrum enger am Eingangssprachsignal bei der Klassifizierung der Sprache und des Rauschens. Dies ermöglicht es, einen genauen Hn-Wert zu berechnen.

Claims (17)

  1. Verfahren zum Reduzieren von Rauschen in einem Sprachsignal, wobei das Verfahren dazu dient, um das Sprachsignal zu einem Sprachcodiergerät zu liefern, welches ein Filter hat, um ein vorher festgelegtes Frequenzband des Sprachsignals zu unterdrücken, welches zugeführt wird, welches folgende Schritte aufweist: Unterdrücken des Rauschens in zumindest einem von mehreren Frequenzbändern des Signals, wobei die mehreren Bänder das vorher festgelegte Frequenzband umfassen; dadurch gekennzeichnet, dass das Verfahren außerdem den Schritt aufweist: Steuern einer Frequenzkennlinie, um die Rauschunterdrückungsrate im vorher festgelegten Frequenzband zu reduzieren.
  2. Rauschreduzierungsverfahren nach Anspruch 1, wobei das Filter zusammengesetzt ist, um seine Rauschunterdrückungsrate gemäß einer Tonhöhenstärke des zugeführten Sprachsignals zu ändern.
  3. Rauschreduzierungsverfahren nach Anspruch 2, wobei die Rauschunterdrückungsrate weiter durch Reduzieren der Rauschunterdrückungsrate auf der Hochpassseite des zugeführten Sprachsignals geändert wird.
  4. Rauschreduzierungsverfahren nach Anspruch 1, 2 oder 3, wobei das vorher festgelegte Frequenzband auf der Tiefpassseite des Sprachsignals angeordnet ist und die Rauschunterdrückungsrate durch Reduzieren der Rauschunterdrückungsrate auf der Tiefpassseite des zugeführten Sprachsignals geändert wird.
  5. Verfahren zum Reduzieren von Rauschen in einem Sprachsignal nach Anspruch 1, wobei der Schritt zum Steuern einer Frequenzkennlinie umfasst: Ändern einer Rauschunterdrückungskennlinie entgegen einem Verhältnis eines Signalpegels zu einem Rauschpegel in jedem Frequenzband, wenn das Rauschen gemäß einer Tonhöhenstärke des zugeführten Sprachsignals unterdrückt wird.
  6. Rauschreduzierungsverfahren nach Anspruch 5, wobei die Rauschunterdrückungskennlinie durch Reduzieren der Rauschunterdrückungsrate gesteuert wird, wenn die Tonhöhenstärke größer ist als ein vorher festgelegter Wert.
  7. Verfahren zum Reduzieren von Rauschen in einem Sprachsignal nach Anspruch 5, wobei der Schritt zum Ändern einer Rauschunterdrückungskennlinie umfasst: Zuführen von Parametern zum Bestimmen einer Rauschunterdrückungskennlinie zu einem Neuronennetz, um ein Rauschintervall des zugeführten Sprachsignals von einem Sprachintervall des zugeführten Sprachsignals zu unterscheiden.
  8. Rauschreduzierungsverfahren nach Anspruch 7, wobei die Parameter, die dem Neuronennetz zugeführt werden, als ein Quadratwurzelmittelwert und als ein geschätzter Rauschpegel des zugeführten Sprachsignals gehalten werden.
  9. Verfahren zum Reduzieren von Rauschen in einem Sprachsignal nach Anspruch 5, wobei der Schritt zum Ändern einer Rauschunterdrückungskennlinie aufweist: lineares Ändern eines maximalen Unterdrückungsverhältnisses, welches in bezug auf eine Rauschunterdrückungskennlinie in einem dB-Bereich definiert ist.
  10. Verfahren zum Reduzieren von Rauschen in einem Sprachsignal nach Anspruch 5, wobei der Schritt zum Ändern einer Rauschunterdrückungskennlinie aufweist: Herleiten einer Tonhöhenstärke des zugeführten Sprachsignals durch Berechnen einer Autokorrelation in der Nähe einer Tonhöhenlage, die durch Auswählen eines Spitzenwerts eines Signalpegels erhalten wird; und Steuern der Rauschunterdrückungskennlinie in bezug auf die Tonhöhenstärke.
  11. Verfahren zum Reduzieren von Rauschen in einem Sprachsignal nach einem der vorhergehenden Ansprüche, welches außerdem aufweist: Durchführen eines Rahmenbildungsprozesses bei dem gelieferten Sprachsignal unabhängig von der Wirkung eines Rahmens, um Parameter zu berechnen, die ein Merkmal dieses Sprachsignals zeigen, und eines Rahmens, um ein Spektrum mit den berechneten Parametern zu korrigieren.
  12. Gerät zum Reduzieren von Rausachen in einem Sprachsignal, wobei das Gerät dazu dient, das Sprachsignal, welches einem Sprachcodiergerät zugeführt wird, zu liefern, welches ein Filter hat, um ein vorher festgelegtes Frequenzband des Sprachsignals, welches zugeführt wird, zu unterdrücken, welches aufweist: eine Einrichtung zum Unterdrücken des Rauschens in zumindest einem von mehreren Frequenzbändern des Signals, wobei die mehreren Bänder das vorher festgelegte Frequenzband aufweisen; gekennzeichnet dadurch, dass das Gerät außerdem aufweist: eine Einrichtung zum Steuern einer Frequenzkennlinie, um die Rauschunterdrückungsrate im vorher festgelegten Frequenzband zu reduzieren.
  13. Gerät zum Reduzieren von Rauschen in einem Sprachsignal nach Anspruch 12, wobei die Einrichtung zum Steuern einer Frequenzkennlinie aufweist: eine Einrichtung zum Ändern einer Rauschunterdrückungskennlinie entgegen einem Verhältnis eines Signalpegels zu einem Rauschpegel in jedem Frequenzband, wenn das Rauschen unterdrückt wird, gemäß einer Tonhöhenstärke des zugeführten Sprachsignals.
  14. Gerät zum Reduzieren von Rauschen in einem Sprachsignal nach Anspruch 13, wobei die Einrichtung zum Ändern einer Rauschunterdrückungskennlinie aufweist: eine Einrichtung zum Zuführen von Parametern, um eine Rauschunterdrückungskennlinie zu bestimmen, zu einem Neuronennetz, um ein Rauschintervall des zugeführten Sprachsignals von einem Sprachintervall des zugeführten Sprachsignals zu unterscheiden.
  15. Gerät zum Reduzieren von Rauschen in einem Sprachsignal nach Anspruch 13, wobei die Einrichtung zum Ändern einer Rauschunterdrückungskennlinie aufweist eine Einrichtung zum linearen Ändern eines maximalen Unterdrückungsverhältnisses, welches in bezug auf eine Rauschunterdrückungskennlinie in einem dB-Bereich definiert ist.
  16. Gerät zum Reduzieren von Rauschen in einem Sprachsignal nach Anspruch 13, wobei die Einrichtung zum Ändern einer Rauschunterdrückungskennlinie aufweist: eine Einrichtung zum Herleiten einer Tonhöhenstärke des zugeführten Sprachsignal durch Berechnen einer Autokorrelation in der Nähe einer Tonhöhenlage, die durch Auswählen eines Spitzenwerts eines Signalpegels erhalten wird; und eine Einrichtung zum Steuern der Rauschunterdrückungskennlinie in bezug auf die Tonhöhenstärke.
  17. Gerät zum Reduzieren von Rauschen in einem Sprachsignal nach einem der Ansprüche 12 bis 16, welches außerdem aufweist eine Einrichtung zum Durchführen eines Rahmungsprozesses bei dem zugeführten Sprachsignal unabhängig durch die Wirkung eines Rahmens, um Parameter zu berechnen, die ein Merkmal des Sprachsignals zeigen, und eines Rahmens, um ein Spektrum mit den berechneten Parametern zu korrigieren.
DE69627580T 1995-06-30 1996-06-27 Verfahren zur Rauschverminderung in einem Sprachsignal Expired - Lifetime DE69627580T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP18796695 1995-06-30
JP18796695A JP3591068B2 (ja) 1995-06-30 1995-06-30 音声信号の雑音低減方法

Publications (2)

Publication Number Publication Date
DE69627580D1 DE69627580D1 (de) 2003-05-28
DE69627580T2 true DE69627580T2 (de) 2004-03-25

Family

ID=16215275

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69627580T Expired - Lifetime DE69627580T2 (de) 1995-06-30 1996-06-27 Verfahren zur Rauschverminderung in einem Sprachsignal

Country Status (8)

Country Link
US (1) US5812970A (de)
EP (1) EP0751491B1 (de)
JP (1) JP3591068B2 (de)
KR (1) KR970002850A (de)
CA (1) CA2179871C (de)
DE (1) DE69627580T2 (de)
ID (1) ID20523A (de)
MY (1) MY116658A (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004017486A1 (de) * 2004-04-08 2005-10-27 Siemens Ag Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE505156C2 (sv) * 1995-01-30 1997-07-07 Ericsson Telefon Ab L M Förfarande för bullerundertryckning genom spektral subtraktion
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
KR100250561B1 (ko) * 1996-08-29 2000-04-01 니시무로 타이죠 잡음소거기 및 이 잡음소거기를 사용한 통신장치
JP3006677B2 (ja) * 1996-10-28 2000-02-07 日本電気株式会社 音声認識装置
US6411927B1 (en) * 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
US6453284B1 (en) * 1999-07-26 2002-09-17 Texas Tech University Health Sciences Center Multiple voice tracking system and method
JP3454206B2 (ja) * 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
US6675027B1 (en) * 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
WO2001073759A1 (en) * 2000-03-28 2001-10-04 Tellabs Operations, Inc. Perceptual spectral weighting of frequency bands for adaptive noise cancellation
JP2001318694A (ja) * 2000-05-10 2001-11-16 Toshiba Corp 信号処理装置、信号処理方法および記録媒体
US7487083B1 (en) * 2000-07-13 2009-02-03 Alcatel-Lucent Usa Inc. Method and apparatus for discriminating speech from voice-band data in a communication network
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
DE60142800D1 (de) * 2001-03-28 2010-09-23 Mitsubishi Electric Corp Rauschunterdrücker
US7383181B2 (en) * 2003-07-29 2008-06-03 Microsoft Corporation Multi-sensory speech detection system
US20050033571A1 (en) * 2003-08-07 2005-02-10 Microsoft Corporation Head mounted multi-sensory audio input system
US7516067B2 (en) * 2003-08-25 2009-04-07 Microsoft Corporation Method and apparatus using harmonic-model-based front end for robust speech recognition
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
WO2005057550A1 (ja) * 2003-12-15 2005-06-23 Matsushita Electric Industrial Co., Ltd. 音声圧縮伸張装置
US7725314B2 (en) * 2004-02-16 2010-05-25 Microsoft Corporation Method and apparatus for constructing a speech filter using estimates of clean speech and noise
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
US7574008B2 (en) * 2004-09-17 2009-08-11 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
KR100657948B1 (ko) * 2005-02-03 2006-12-14 삼성전자주식회사 음성향상장치 및 방법
WO2006123721A1 (ja) * 2005-05-17 2006-11-23 Yamaha Corporation 雑音抑圧方法およびその装置
US7346504B2 (en) * 2005-06-20 2008-03-18 Microsoft Corporation Multi-sensory speech enhancement using a clean speech prior
EP1921609B1 (de) * 2005-09-02 2014-07-16 NEC Corporation Rauschunterdrückungsverfahren und vorrichtung und computerprogramm
AU2006323242B2 (en) * 2005-12-05 2010-08-05 Telefonaktiebolaget Lm Ericsson (Publ) Echo detection
JP4454591B2 (ja) * 2006-02-09 2010-04-21 学校法人早稲田大学 雑音スペクトル推定方法、雑音抑圧方法及び雑音抑圧装置
JP4976381B2 (ja) * 2006-03-31 2012-07-18 パナソニック株式会社 音声符号化装置、音声復号化装置、およびこれらの方法
JP4827661B2 (ja) * 2006-08-30 2011-11-30 富士通株式会社 信号処理方法及び装置
WO2009038136A1 (ja) * 2007-09-19 2009-03-26 Nec Corporation 雑音抑圧装置、その方法及びプログラム
US20100097178A1 (en) * 2008-10-17 2010-04-22 Pisz James T Vehicle biometric systems and methods
JP2010249940A (ja) * 2009-04-13 2010-11-04 Sony Corp ノイズ低減装置、ノイズ低減方法
FR2948484B1 (fr) * 2009-07-23 2011-07-29 Parrot Procede de filtrage des bruits lateraux non-stationnaires pour un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
WO2011015237A1 (en) * 2009-08-04 2011-02-10 Nokia Corporation Method and apparatus for audio signal classification
US8666734B2 (en) * 2009-09-23 2014-03-04 University Of Maryland, College Park Systems and methods for multiple pitch tracking using a multidimensional function and strength values
US8423357B2 (en) * 2010-06-18 2013-04-16 Alon Konchitsky System and method for biometric acoustic noise reduction
CN103229236B (zh) 2010-11-25 2016-05-18 日本电气株式会社 信号处理装置、信号处理方法
US8712076B2 (en) * 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
US8725508B2 (en) * 2012-03-27 2014-05-13 Novospeech Method and apparatus for element identification in a signal
JP6371516B2 (ja) * 2013-11-15 2018-08-08 キヤノン株式会社 音響信号処理装置および方法
WO2017141317A1 (ja) * 2016-02-15 2017-08-24 三菱電機株式会社 音響信号強調装置
KR102443637B1 (ko) * 2017-10-23 2022-09-16 삼성전자주식회사 네트워크 연결 정보에 기반하여 잡음 제어 파라미터를 결정하는 전자 장치 및 그의 동작 방법
CN112053421B (zh) * 2020-10-14 2023-06-23 腾讯科技(深圳)有限公司 信号降噪处理方法、装置、设备及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
IL84948A0 (en) * 1987-12-25 1988-06-30 D S P Group Israel Ltd Noise reduction system
GB8801014D0 (en) * 1988-01-18 1988-02-17 British Telecomm Noise reduction
US5097510A (en) * 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
DE69121312T2 (de) * 1990-05-28 1997-01-02 Matsushita Electric Ind Co Ltd Geräuschsignalvorhersagevorrichtung
EP0459362B1 (de) * 1990-05-28 1997-01-08 Matsushita Electric Industrial Co., Ltd. Sprachsignalverarbeitungsvorrichtung
JPH0566795A (ja) * 1991-09-06 1993-03-19 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 雑音抑圧装置とその調整装置
FI92535C (fi) * 1992-02-14 1994-11-25 Nokia Mobile Phones Ltd Kohinan vaimennusjärjestelmä puhesignaaleille
US5432859A (en) * 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
WO1995002288A1 (en) * 1993-07-07 1995-01-19 Picturetel Corporation Reduction of background noise for speech enhancement
IT1272653B (it) * 1993-09-20 1997-06-26 Alcatel Italia Metodo di riduzione del rumore, in particolare per riconoscimento automatico del parlato, e filtro atto ad implementare lo stesso
JP2739811B2 (ja) * 1993-11-29 1998-04-15 日本電気株式会社 雑音抑圧方式
JPH07334189A (ja) * 1994-06-14 1995-12-22 Hitachi Ltd 音声情報分析装置
JP3484801B2 (ja) * 1995-02-17 2004-01-06 ソニー株式会社 音声信号の雑音低減方法及び装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102004017486A1 (de) * 2004-04-08 2005-10-27 Siemens Ag Verfahren zur Geräuschreduktion bei einem Sprach-Eingangssignal

Also Published As

Publication number Publication date
US5812970A (en) 1998-09-22
JPH0916194A (ja) 1997-01-17
EP0751491A3 (de) 1998-04-08
CA2179871C (en) 2009-11-03
KR970002850A (ko) 1997-01-28
MY116658A (en) 2004-03-31
JP3591068B2 (ja) 2004-11-17
EP0751491B1 (de) 2003-04-23
CA2179871A1 (en) 1996-12-31
DE69627580D1 (de) 2003-05-28
ID20523A (id) 1999-01-07
EP0751491A2 (de) 1997-01-02

Similar Documents

Publication Publication Date Title
DE69627580T2 (de) Verfahren zur Rauschverminderung in einem Sprachsignal
DE112009000805B4 (de) Rauschreduktion
DE602005000539T2 (de) Verstärkungsgesteuerte Geräuschunterdrückung
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE60024501T2 (de) Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE60009206T2 (de) Rauschunterdrückung mittels spektraler Subtraktion
DE69531710T2 (de) Verfahren und Vorrichtung zur Verminderung von Rauschen bei Sprachsignalen
DE112012005855B4 (de) Störungsunterdrückungsvorrichtung
DE112011104737B4 (de) Geräuschunterdrückungsvorrichtung
DE69619284T3 (de) Vorrichtung zur Erweiterung der Sprachbandbreite
DE69534942T2 (de) System zur sprecher-identifizierung und-überprüfung
DE112011105791B4 (de) Störungsunterdrückungsvorrichtung
DE60034026T2 (de) Sprachverbesserung mit durch sprachaktivität gesteuerte begrenzungen des gewinnfaktors
DE69926851T2 (de) Verfahren und Vorrichtung zur Sprachaktivitätsdetektion
EP2158588B1 (de) Spektralglättungsverfahren von verrauschten signalen
DE60033549T2 (de) Verfahren und vorrichtung zur signalanalyse
DE112010005020B4 (de) Sprachsignal-Wiederherstellungsvorrichtung und Sprachsignal-Wiederherstellungsverfahren
DE10030105A1 (de) Spracherkennungseinrichtung
DE69635141T2 (de) Verfahren zur Erzeugung von Sprachmerkmalsignalen und Vorrichtung zu seiner Durchführung
DE2626793B2 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE112011106045B4 (de) Audiosignal-Wiederherstellungsvorrichtung und Audiosignal-Wiederherstellungsverfahren
DE60124079T2 (de) Sprachverarbeitung
DE69918635T2 (de) Vorrichtung und Verfahren zur Sprachverarbeitung

Legal Events

Date Code Title Description
8364 No opposition during term of opposition