DE60213500T2 - Entzerrungsgerät und Verfahren - Google Patents

Entzerrungsgerät und Verfahren Download PDF

Info

Publication number
DE60213500T2
DE60213500T2 DE60213500T DE60213500T DE60213500T2 DE 60213500 T2 DE60213500 T2 DE 60213500T2 DE 60213500 T DE60213500 T DE 60213500T DE 60213500 T DE60213500 T DE 60213500T DE 60213500 T2 DE60213500 T2 DE 60213500T2
Authority
DE
Germany
Prior art keywords
noise
sampled
frequency spectrum
data
fast fourier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60213500T
Other languages
English (en)
Other versions
DE60213500D1 (de
Inventor
Hideyuki Yokohama-shi Nagasawa
Hiroshi Irii
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Publication of DE60213500D1 publication Critical patent/DE60213500D1/de
Application granted granted Critical
Publication of DE60213500T2 publication Critical patent/DE60213500T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Description

  • HINTERGRUND DER ERFINDUNG
  • 1. Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf eine Equalizervorrichtung, die Eigenschaften eines empfangenen Sprachsignals gemäß dem Rauschen in einem Umgebungsgebiet einer Vorrichtung korrigiert.
  • 2. Beschreibung des verwandten Standes der Technik
  • Bei einem Telefonanruf wird die Sprache (das Gesprochene) einer anrufenden Partei unhörbar wegen Rauschens in einem Umgebungsgebiet eines Anrufers. Um eine solche Situation zu verbessern, wurde Technologie vorgeschlagen, bei der die Stimme der anrufenden Partei hörbar gemacht wird, indem das Rauschen in dem Umgebungsgebiet des Anrufers gemessen wird, und die Eigenschaften der Sprache der anrufenden Partie gemäß dem Rauschen korrigiert werden. Durch solche Technologie kann ein Anrufer leicht der Sprache der anrufenden Partei folgen, indem er die Sprache der anrufenden Partei von dem Rauschen unterscheidet, auch wenn das Rauschen laut ist.
  • Jedoch wird bei der oben erwähnten herkömmlichen Technologie beim Korrigieren der Eigenschaften der Sprache der anrufenden Partei in einer Zeitperiode die Korrektur gemäß dem Rauschen in derselben Zeitperiode durchgeführt. Aus diesem Grunde ist es denkbar, dass, wenn plötzliches Rauschen erzeugt wird, die Eigenschaften der Sprache der anrufenden Partei sich drastisch gemäß dem Rauschen ändern, wodurch die Sprache der anrufenden Partei unhörbar wird, anstatt hörbar zu werden.
  • Ein weiteres Beispiel von mit herkömmlicher Technologie durchgeführter Rauschreduktion wird in der Patentschrift EP-A-0522213 offenbart.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Es ist eine allgemeine Aufgabe der vorliegenden Erfindung, eine neue und nützliche Equalizervorrichtung bereitzustellen, bei der die oben beschriebenen Probleme beseitigt werden.
  • Es ist eine spezifischere Aufgabe der vorliegenden Erfindung, eine Equalizervorrichtung bereitzustellen, die die Hörbarkeit einer Sprache aufrechterhält, sogar, wenn plötzliches Rauschen erzeugt wird.
  • Um die oben erwähnten Ziele zu erreichen, wird gemäß einem Aspekt der vorliegenden Erfindung nach Anspruch 1 eine Equalizervorrichtung bereitgestellt, die umfasst: einen Extraktor für abgetastete Sprachdaten, der abgetastete Sprachdaten in einem ersten Zeitintervall aus den abgetasteten Sprachdaten, die einem empfangenen Sprachsignal entsprechen, extrahiert; einen Extraktor für abgetastete Rauschdaten, der abgetastete Rauschdaten in dem ersten Zeitintervall und einem zweiten und dritten Zeitintervall vor und nach dem ersten Zeitintervall aus den abgetasteten Rauschdaten, die einem Rauschen in einem Umgebungsgebiet der Vorrichtung entsprechen, extrahiert; und einen Korrektor für die Eigenschaften abgetasteter Sprachdaten, der Eigenschaften der abgetasteten Sprachdaten in dem ersten Zeitintervall, die durch den Extraktor für abgetastete Sprachdaten extrahiert wurden, auf der Basis von Eigenschaften der abgetasteten Rauschdaten in den ersten bis dritten Zeitintervallen, die durch den Extraktor für abgetastete Rauschdaten extrahiert wurden, korrigiert. Des weiteren wird gemäß einem weiteren Aspekt der vorliegenden Erfindung, wie sie in Anspruch 5 beansprucht wird, ein Equalizerverfahren bereitgestellt, das umfasst: einen Extraktionsschritt für abgetastete Sprachdaten, der abgetastete Sprachdaten in einem ersten Zeitintervall aus den abgetasteten Sprachdaten, die einem empfangenen Sprachsignal entsprechen, extrahiert; einen Extraktionsschritt für abgetastete Rauschdaten, der abgetastete Rauschdaten in dem ersten Zeitintervall und einem zweiten und dritten Zeitintervall vor und nach dem ersten Zeitintervall aus abgetasteten Rauschdaten, die einem Rauschen in einem Umgebungsgebiet der Vorrichtung entsprechen, extrahiert; und einen Korrekturschritt für die Eigenschaften abgetasteter Sprachdaten, der Eigenschaften der abgetasteten Sprachdaten des ersten Zeitintervalls, die bei dem Extraktionsschritt für abgetastete Sprachdaten extrahiert wurden, auf der Basis von Eigenschaften der abgetasteten Rauschdaten in den ersten bis dritten Zeitintervallen, die bei dem Extraktionsschritt für abgetastete Rauschdaten extrahiert wurden, korrigiert.
  • Gemäß der vorliegenden Erfindung werden Eigenschaften der empfangenen Sprache korrigiert, wobei das Rauschen in Zeitintervallen vor und nach einem Zeitintervall, das die empfangene Sprache ebenso berücksichtigt wird, wie das Rauschen in dem Zeitintervall, dass die empfangene Sprache beinhaltet. Aus diesem Grunde ist es möglich, die Hörbarkeit der empfangenen Sprache aufrechtzuerhalten, da die Eigenschaften der empfangenen Sprache sich nicht drastisch ändern, selbst, wenn ein plötzliches Rauschen erzeugt wird.
  • Andere Aufgaben, Merkmale und Vorteile der vorliegenden Erfindung werden deutlicher aus der folgenden detaillierten Beschreibung, wenn sie in Verbindung mit den folgenden Zeichnungen gelesen wird.
  • KURZBESCHREIBUNG DER ZEICHNUGEN
  • 1 ist ein Blockdiagramm, das ein Beispiel eines Aufbaus eines Mobiltelefons zeigt;
  • 2 ist ein Blockdiagramm, das ein Beispiel eines Aufbaus einer Equalizervorrichtung zeigt;
  • 3 ist ein Ablaufdiagramm zur Erklärung eines Equalizerverfahrens gemäß der vorliegenden Erfindung;
  • 4 ist ein schematisches Diagramm, das ein Beispiel eines Sprachrahmens zeigt;
  • 5 ist ein schematisches Diagramm, das ein Beispiel eines Rauschrahmens zeigt;
  • 6 ist ein Ablaufdiagramm zur Erklärung eines Korrekturprozesses von Eigenschaften von abgetasteten Sprachdaten;
  • 7 ist ein schematisches Diagramm, das ein Beispiel eines Sprachfrequenzspektrumsrahmens zeigt; und
  • 8 ist ein schematisches Diagramm, das ein Beispiel eines Rauschfrequenzspektrumsrahmens zeigt.
  • DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Im Folgenden werden Ausführungsformen der vorliegenden Erfindung auf der Basis von Zeichnungen beschrieben. 1 zeigt ein Beispiel eines Aufbaus eines Mobiltelefons, auf das eine Equalizervorrichtung gemäß einer Ausführungsform der vorliegenden Erfindung angewendet wird. In diesem Beispiel wird ein Mobiltelefon eines PDC-Systems (Personal Digital Cellular-System) gezeigt.
  • Ein in 1 gezeigtes Mobiltelefon 100 umfasst ein Mikrofon 10 zur Eingabe der Sprache eines Nutzers (Anrufers), eine Audioschnittstelle 12, die mit einem Lautsprecher 30 verbunden ist, der Geräusche ausgibt, um einen ankommenden Anruf anzukündigen, einen Sprachkodierer/-dekodierer 14, eine TDMA-Steuerschaltung 16, einen Modulator 18, einen Frequenzsynthesizer 19, einen Verstärker (AMP) 20, ein Antennenteilungsteil 22, eine Sende/Empfangsantenne 24, einen Empfänger 26, einen Demodulator 28, eine Steuerschaltung 32, ein Anzeigeteil 33, eine Tastatur 34, ein Geräuscherfassungsmikrofon 40, eine Eingabeschnittstelle 46, und einen Equalizer 48. Wenn ein Anruf empfangen wird, empfängt die Steuerschaltung 32 ein ankommendes Signal vom Mobiltelefon einer anrufenden Partei durch die Sende/Empfangsantenne 24, den Antennenteilungsteil 22, den Empfänger 26, den Demodulator 28 und die TDMA-Steuerschaltung 16. Wenn die Steuerschaltung 32 das ankommende Signal empfängt, benachrichtigt die Steuerschaltung 32 den Nutzer über den ankommenden Anruf, indem sie den Lautsprecher 30 steuert, das Geräusch zum Ankündigen des ankommenden Anrufs auszugeben, und die Anzeigeeinheit 33 steuert, eine vorbestimmte Bildanzeige oder dergleichen anzuzeigen. Dann wird der Anruf begonnen, wenn der Nutzer eine vorbestimmte Bedienung durchführt.
  • Andererseits erzeugt, wenn ein Anruf getätigt wird, die Steuerschaltung 32 ein ausgehendes Signal gemäß einer Bedienung des Nutzers auf der Tastatur 34. Das ausgehende Signal wird an das Mobiltelefon der Anrufpartners durch die TDMA-Steuerschaltung 16, den Modulator 18, den Verstärker 20, den Antennenteilungsteil 22 und die Sende/Empfangsantenne 24 gesendet. Dann wird der Anruf begonnen, wenn der Anrufpartner eine vorbestimmte Bedienung zum Entgegennehmen des Anrufs durchführt.
  • Wenn der Anruf begonnen wird, wird ein analoges durch das Mikrofon 10 ausgegebenes Sprachsignal, das der eingegebenen Sprache des Nutzers entspricht, in den Sprachkodierer/-dekodierer 14 durch die Audioschnittstelle 12 eingegeben und in ein digitales Signal umgewandelt. Die TDMA-Steuerschaltung 16 erzeugt einen Senderahmen gemäß TDMA (time-division multiple access, Vielfachzugriff mit Zeitteilung), nachdem sie einen Prozess der Fehlerkorrektur oder dergleichen an dem digitalen Signal von dem Sprachkodierer/-dekodierer 14 durchgeführt hat. Der Modulator 18 bildet eine Signalwellenform des durch die TDMA-Steuerschaltung 16 erzeugten Senderahmens und moduliert eine Trägerwelle von dem Frequenzsynthesizer 19 unter Verwendung des Senderahmens nach der Wellenformformung gemäß Quadratur-Phasenumtastung (quadrature phase shift keying, (QPSK)). Die modulierte Welle wird durch den Verstärker 20 verstärkt und von der Sende/Empfangsantenne 24 durch das Antennenteilungsteil 22 gesendet.
  • Auf der anderen Seite wird das Sprachsignal vom Mobiltelefon des Anrufpartners vom Empfänger 26 durch die Sende/Empfangsantenne 24 und das Antennenaufteilteil 22 empfangen. Der Empfänger 26 wandelt das empfangene ankommende Signal in ein Zwischenfrequenzsignal um, in dem er ein lokales Frequenzsignal verwendet, das durch den Frequenzsynthesizer 19 erzeugt wurde. Der Demodulator 28 führt einen Demodulationsprozess auf einem Ausgabesignal von dem Empfänger 26 durch, entsprechend der Modulation, die in einem Sender durchgeführt wird (nicht gezeigt). Die TDMA-Steuerschaltung 16 führt Prozesse wie etwa Rahmensynchronisation, Vielfachzugriffstrennung, Entwürfeln und Fehlerkorrektur auf einem Signal von dem Demodulator 28 aus, und gibt das Signal davon an den Sprachkodierer/-dekodierer 14 aus. Der Sprachkodierer/-dekodierer 14 wandelt das Ausgabesignal der TDMA-Steuerschaltung 16 in ein analoges Sprachsignal um. Das analoge Signal wird in den Equalizer 48 eingegeben.
  • Das Geräuscherfassungsmikrofon 40 detektiert Geräusche (Rauschen) in einem Umgebungsgebiet des Mobiltelefons 100 und stellt ein analoges Rauschsignal, das dem Rauschen entspricht, dem Equalizer 48 durch die Eingabeschnittstelle 46 bereit. Der Equalizer 48 korrigiert Eigenschaften des Sprachsignals von dem Sprachkodierer/-dekodierer 14, so dass der Nutzer die Sprache des Anrufpartners von dem Rauschen in dem Umgebungsgebiet unterscheiden kann und die Sprache hörbar wird.
  • 2 ist ein schematisches Diagramm, dass ein Beispiel eines Aufbaus des Equalizers 48 zeigt. Der Equalizer 48 umfasst ein Sprachabtastungsteil 201, einen Sprachspeicher 203, einen Extraktionsteil 205 für abgetastete Sprachdaten und ein Teil 207 für schnelle Fouriertransformation (SFT: schnelle Fouriertransformation) für die Sprache. Des Weiteren umfasst der Equalizer 48 ein Rauschabtastungsteil 202, einen Rauschspeicher 204, ein Extraktionsteil 206 für abgetastete Rauschdaten und ein Teil 208 für schnelle Fouriertransformation (SFT: schnelle Fouriertransformation) für das Rauschen. Des Weiteren umfasst der Equalizer 48 ein Berechnungsteil 209, ein Teil 210 für die inverse schnelle Fouriertransformation (SFT) und einen Digital-Analog(D/A)-Wandler 211.
  • Unter Bezugnahme auf 3 wird ein Equalizerverfahren gemäß der vorliegenden Erfindung, die auf den Equalizer 48 angewendet wird, unten beschrieben. Der Sprachkodierer/-dekodierer 14 gibt das Sprachsignal in das Sprachabtastungsteil 201 (S1) ein. Das Sprachabtastungsteil 201 tastet das Sprachsignal zu jedem vorbestimmten Zeitintervall (zum Beispiel 125 μs) ab. Die abgetasteten Daten (im Folgenden als "abgetastete Sprachdaten" bezeichnet) werden im Sprachspeicher 203 gespeichert (S2).
  • Das Extraktionsteil 205 für abgetastete Sprachdaten extrahiert die abgetasteten Sprachdaten in einem ersten Zeitintervall aus den im Sprachspeicher 203 gespeicherten abgetasteten Sprachdaten (S3). Die so gelesenen abgetasteten Sprachdaten in dem ersten Zeitintervall bilden eine Einheit der Korrektur der Eigenschaften der Sprache. Als nächstes erzeugt das Extraktionsteil 205 für abgetastete Sprachdaten einen Sprachrahmen, der durch die gelesenen abgetasteten Sprachdaten in dem ersten Zeitintervall strukturiert ist.
  • 4 ist ein schematisches Diagramm eines Beispiels des Sprachrahmens. Der in 4 gezeigte Sprachrahmen ist das Beispiel eines Falls, bei dem das Sprachsignal alle 125 μs abgetastet wird, und das erste Zeitintervall hat eine Zeitlänge von 32 ms. In diesem Fall extrahiert das Extraktionsteil 205 für abgetastete Sprachdaten 256 abgetastete Sprachdaten Si,j in dem ersten Zeitintervall aus dem Sprachspeicher 203 und strukturiert den Sprachrahmen (den "i"-ten Sprachrahmen), der dem ersten Zeitintervall entspricht. Das abgetastete Sprachdatum Si,j repräsentiert das abgetastete Sprachdatum, das in dem "i"-ten Sprachrahmen ist und das "j"-te (1 ≤ j ≤ 256) abgetastete Sprachdatum in dem "i-"ten Sprachrahmen davon ist.
  • Andererseits wird das Rauschsignal von dem Geräuscherfassungsmikrofon 40 durch die Eingabeschnittstelle 46 in das Rauschabtastungsteil 202 eingegeben. Das Rauschabtastungsteil 202 tastet das Rauschsignal im selben Zyklus ab (zum Beispiel alle 125 μs) ab, wie der Abtastzyklus des oben genannten Sprachsignals. Die abgetasteten Daten (im Folgenden "abgetastete Rauschdaten" genannt) werden in dem Rauschspeicher 204 gespeichert (S5).
  • Das Extraktionsteil 206 für abgetastete Rauschdaten extrahiert die oben genannten abgetasteten Rauschdaten im ersten Zeitintervall, zweiten Zeitintervall und dritten Zeitintervall aus den in dem Rauschspeicher 204 gespeicherten abgetasteten Rauschdaten (S6). Die so extrahierten Rauschdaten in den ersten bis dritten Zeitintervallen bilden eine Einheit der Korrektur der Eigenschaften der abgetasteten Sprachdaten in dem ersten Zeitintervall. Als nächstes erzeugt das Extraktionsteil 206 für abgetastete Rauschdaten einen Rauschrahmen, der durch die gelesenen abgetasteten Rauschdaten in den ersten bis dritten Zeitintervallen strukturiert ist.
  • 5 ist ein schematisches Diagramm, das ein Beispiel des Rauschrahmens zeigt. 5 zeigt den Rauschrahmen in einem Fall, bei dem das Rauschsignal alle 125 μs abgetastet wird, das erste Zeitintervall eine Zeitlänge von 32 ms aufweist, und jedes der zweiten und dritten Zeitintervalle eine Zeitlänge von 64 ms aufweist.
  • In diesem Fall strukturiert das Extraktionsteil 206 für abgetastete Rauschdaten den Rauschrahmen (den "i"-ten Rauschrahmen), der dem ersten Zeitintervall entspricht, indem es 256 abgetastete Rauschdaten ni,j in dem ersten Zeitintervall aus dem Rauschspeicher 204 liest. Das abgetastete Rauschdatum ni,j repräsentiert das abgetastete Rauschdatum, das in dem "i"-ten Rauschrahmen ist und das "j"-te (1 ≤ j ≤ 256) abgetastete Rauschdatum in dem "i-"ten Rauschrahmen ist.
  • In ähnlicher Weise extrahiert der Extraktionsteil 206 für abgetastete Rauschdaten 512 abgetastete Rauschdaten ni,j in dem zweiten Zeitintervall aus dem Rauschspeicher 204 und strukturiert den Rauschrahmen (den "i-2"-ten und "i-1"-ten Rauschrahmen, die dem zweiten Zeitintervall entsprechen. Des Weiteren extrahiert der Extraktionsteil 206 für abgetastete Rauschdaten 512 abgetastete Rauschdaten ni,j in dem dritten Zeitintervall aus dem Rauschspeicher 204 und strukturiert den Rauschrahmen (den "i+1"-ten und "i+2"-ten Rauschrahmen, die dem dritten Zeitintervall entsprechen. Auf diese Weise wird der Rauschrahmen, der fünf Rauschrahmen beinhaltet (von dem "i-2"-ten bis zum "i+2"-ten Rauschrahmen, wobei der "i"-te Rauschrahmen das Zentrum ist und jeder Rauschrahmen die Zeitlänge von 32 ms aufweist), strukturiert.
  • Die Eigenschaften der abgetasteten Sprachdaten werden auf der Basis der oben genannten Eigenschaften der in den Rauschrahmen enthaltenen abgetasteten Rauschdaten korrigiert (S7).
  • Unter Bezugnahme auf 6 wird ein Korrekturprozess der Eigenschaften der abgetasteten Sprachdaten unten beschrieben. Das Teil 207 für schnelle Fouriertransformation für Sprache führt schnelle Fouriertransformation auf dem Sprachrahmen aus, der dem ersten Zeitintervall entspricht, und erzeugt einen Sprachfrequenzspektrumsrahmen (S71).
  • 7 ist ein schematisches Diagramm, das ein Beispiel des Sprachfrequenzspektrumsrahmens zeigt. Der Sprachfrequenzspektrumsrahmen in 7 wird durch L Sprachspektrumsdaten Si,k, die jedes ein jeweiliges Frequenzband aufweisen, strukturiert. Das Sprachspektrumsdatum Si,k repräsentiert das Sprachspektrumsdatum, das in dem "i"-ten Sprachfrequenzspektrumsrahmen ist, der durch die Durchführung von schneller Fouriertransformation auf dem "i"-ten Sprachrahmen erhalten wurde, und ist das "k"-te (1 ≤ k ≤ L) Sprachspektrumsdatum, gezählt von dem Sprachspektrumsdatum, das die kleinste Frequenz in dem "i"-ten Sprachspektrumsrahmen aufweist.
  • Des weiteren führt das Teil 208 für schnelle Fouriertransformation für Rauschen schnelle Fouriertransformation auf dem Rauschrahmen aus, der den ersten bis dritten Zeitintervallen entspricht, und erzeugt einen Rauschfrequenzspektrumsrahmen (S72). 8 ist ein schematisches Diagramm, das ein Beispiel des Rauschfrequenzspektrumsrahmens zeigt. 8 zeigt fünf Rauschfrequenzspektrumsrahmen (vom "i-2"-ten bis zum "i+2"-ten), die durch die Durchführung schneller Fouriertransformation auf den fünf Rauschfrequenzspektrumsrahmen (vom "i-2"-ten bis zum "i+2"-ten), die den oben genannten ersten bis dritten Zeitintervallen entsprechen, erhalten wurden.
  • Zum Beispiel wird der "i"-te Rauschfrequenzspektrumsrahmen, der durch die Durchführung schneller Fouriertransformation auf dem "i"-ten Rauschrahmen erhalten wird, durch L Rauschspektrumsdaten Ni,k strukturiert, die jedes ein jeweiliges Frequenzband aufweisen. Das Rauschspektrumsdatum Ni,k repräsentiert das Rauschspektrumsdatum, das in dem "i"-ten Rauschfrequenzspektrumsrahmen ist, das durch die Durchführung von schneller Fouriertransformation auf dem "i"-ten Rauschrahmen erhalten wurde, und ist das "k"-te (1 ≤ k ≤ L) Rauschspektrumsdatum in dem "i"-ten Rauschfrequenzspektrumsrahmen, gezählt von dem Rauschspektrumsdatum, das die kleinste Frequenz aufweist.
  • In ähnlicher Weise sind die anderen Rauschfrequenzspektrumsrahmen, das heißt die "i-2"-ten, "i-1"-ten, "i+1"-ten und "i+2"-ten Rauschfrequenzspektrumsrahmen, die durch die Durchführung schneller Fouriertransformation auf den "i-2"-ten, "i-1"-ten, "i+1"-ten und "i+2"-ten Rauschrahmen jeweils erhalten wurden, durch L Rauschspektrumsdaten, die jedes ein jeweiliges Frequenzband aufweisen, strukturiert. Das Berechnungsteil 209 dividiert den "i"-ten Sprachfrequenzspektrumsrahmen, der durch das Teil 207 für schnelle Fouriertransformation für Sprache erzeugt wurde, in eine Vielzahl von Sprachspektrumsdaten, die jedes eine Breite von einer drittel Oktave haben.
  • Zusätzlich dividiert das Berechnungsteil 209 jeden der "i-2"-ten bis "i+2"-ten Rauschfrequenzspektrumsrahmen, die durch das Teil 208 für schnelle Fouriertransformation für Rauschen erzeugt wurden, in eine Vielzahl von Rauschspektrumsdaten, die jedes eine Breite von einer drittel Oktave haben. Dann berechnet das Berechnungsteil 209 jeden der Durchschnittswerte (N) der Rauschspektrumsdaten in Frequenzbändern mit einer Breite einer drittel Oktave. Wenn zum Beispiel das "m"-te Frequenzband, das eine Breite von einer drittel Oktave aufweist, in dem "i"-ten Rauschrahmen n Rauschspektrumsdaten Ni,k (vom "p"-ten bis zum "p+n-1"-ten) beinhaltet, wird der Durchschnittswert
    Figure 00090001
    berechnet durch:
    Figure 00090002
  • In ähnlicher Weise wird in Bezug auf die anderen Rauschfrequenzspektrumsrahmen (das heißt, die "i-2"-ten, "i-1"-ten, "i+1"-ten und "i+2"-ten Rauschfrequenzrahmen, die jeweils durch Durchführung einer schnellen Fouriertransformation auf den "i-2"-ten, "i-1"-ten, "i+1"-ten und "i+2"-ten Rauschrahmen erhalten wurden) jeder der Durchschnittswerte der Rauschspekrumsdaten in den oben genannten Rahmen in derselben Weise berechnet, wobei alle Daten eine Breite von einer drittel Oktave aufweisen.
  • Auf diese Weise dividiert das Berechnungsteil 209 jeden der Rauschfrequenzspektrumsrahmen (vom "i-2"-ten bis zum "i+2"-ten) in die Vielzahl von Rauschspektrumsdaten, die jedes eine Breite von einer drittel Oktave aufweisen. Dann berechnet das Berechnungsteil 209 den Durchschnittswert jedes der Rauschspektrumsdaten, die eine Breite von einer drittel Oktave aufweisen. Im nächsten Schritt addiert das Berechnungsteil 209 die Durchschnittswerte der Rauschspektrumsdaten auf, wobei jeder Durchschnittswert auf Daten basiert, die eine Breite einer drittel Oktave aufweisen und am selben relativen Ort in jedem der Rauschfrequenzrahmen positioniert ist. Des Weiteren dividiert das Berechnungsteil 209 die so erhaltene Summe von Durchschnittswerten durch ein Verhältnis der ersten bis dritten Zeitintervalle zu dem ersten Zeitintervall, das heißt fünf (S73). Zum Beispiel wird ein Wert
    Figure 00090003
    der erhalten wird, indem die Durchschnittswerte
    Figure 00090004
    der "m"-ten Rauschspektrumsdaten in den Rauschspektrumsrahmen aufaddiert und den Wert davon durch fünf dividiert wird, berechnet durch:
    Figure 00090005
  • Als nächstes berechnet das Berechnungsteil 209 eine Differenz zwischen jedem einer Vielzahl von Sprachspektrumsdaten in Frequenzbändern, die eine drittel Oktave breit sind, und dem Wert, der durch die obige Division erhalten wurde (S74). Zum Beispiel wird die Differenz Δi,m zwischen den Sprachspektrumsdaten Si,k in Frequenzbändern von einer drittel Oktave Breite und dem oben genannten Quotienten
    Figure 00100001
    Figure 00100002
  • Als nächstes wird die durch die obige Subtraktion (Δi,m) erhaltene Differenz mit einer Differenz zwischen einem gewünschten Sprachfrequenzspektrum und dem Rauschfrequenzspektrum (im Folgenden als "gewünschter Wert" bezeichnet) verglichen (S75). Wenn die Differenz kleiner ist als der gewünschte Wert (JA in S75), addiert das Berechnungsteil 209 einen Wert, der durch die Subtraktion des oben genannten Werts (Δi,m) von dem gewünschten Wert erhalten wurde (S76) zu den Sprachspektrumsdaten (S77). Die so erhaltenen Sprachspektrumsdaten werden als neue Sprachspektrumsdaten ausgegeben (im Folgenden als "Sprachspektrumsdaten nach Korrekturprozess" bezeichnet). Wenn zum Beispiel, bezogen auf die Sprachspektrumsdaten Si,k in einem Frequenzband von einer drittel Oktave Breite, die Differenz Δi,m kleiner ist als der gewünschte Wert R, werden die Sprachspektrumsdaten Si,k korrigiert, um so die neuen Sprachspektrumsdaten S'i,k durch die folgende Formel zu erhalten: S'i,k = Si,k + (R – Δi,m)
  • Wenn des Weiteren die Differenz gleich oder größer als der gewünschte Wert ist (NEIN in S75), korrigiert das Berechnungsteil 209 die Sprachspektrumsdaten nicht und gibt die Sprachspektrumsdaten so, wie sie sind, als die Sprachspektrumsdaten nach Korrekturprozess aus.
  • Das Teil 210 für inverse schnelle Fouriertransformation führt eine inverse schnelle Fouriertransformation auf dem Sprachfrequenzspektrumsrahmen durch, der durch die Sprachspektrumsdaten nach Korrekturprozess strukturiert wurden, und erzeugt einen Sprachrahmen nach Korrekturprozess, der dem ersten Zeitintervall entspricht (S78).
  • Der Sprachrahmen nach Korrekturprozess wird durch den Digital-Analog-Wandler 211 in ein analoges Signal gewandelt und von dem Lautsprecher 30 durch die in 1 gezeigte Audioschnittstelle 12 ausgegeben.
  • Entsprechend korrigiert der Equalizer 48 in dem Mobiltelefon 100 die Eigenschaften der abgetasteten Sprachdaten in dem ersten Zeitintervall, das dem empfangenen Sprachsignal entspricht, basierend auf den Eigenschaften der abgetasteten Sprachdaten in dem ersten Zeitintervall und den zweiten und dritten Zeitintervallen vor und nach dem ersten Zeitintervall, wobei die abgetasteten Sprachdaten dem Rauschen in dem Umgebungsgebiet des Mobiltelefons entsprechen. Mit anderen Worten, die Eigenschaften der empfangenen Sprache werden unter Berücksichtigung des Rauschens in Zeitintervallen vor und nach dem Zeitintervall, das die empfangene Sprache enthält, ebenso wie des Zeitintervalls, dass die empfangene Sprache enthält, korrigiert. Aus diesem Grunde ist es möglich, die Hörbarkeit der empfangenen Sprachsignals aufrechtzuerhalten, da die Eigenschaften der empfangenen Sprache sich nicht drastisch ändern, selbst, wenn das plötzliches Rauschen erzeugt wird.
  • Des Weiteren sind die Abtastzyklen des Sprachsignals und des Rauschsignals in den oben beschriebenen Ausführungsformen auf 125 μs eingestellt. Jedoch ist der Abtastzyklus nicht auf 125 μs beschränkt. Zusätzlich weist das erste Zeitintervall die Zeitlänge von 32 ms, und die zweiten und dritten Zeitintervalle die Zeitlänge von 64 ms auf, die zweimal so lang sind wie das erste Zeitintervall. Jedoch sind auch diese Zeitlängen nicht auf die oben erwähnten Werte beschränkt.
  • Die vorliegende Erfindung ist nicht beschränkt auf die spezifisch offenbarten Ausführungsformen, und Variationen und Modifikationen können durchgeführt werden, ohne vom Umfang der vorliegenden Erfindung, wie er durch die angehängten Ansprüche definiert ist, abzuweichen.

Claims (7)

  1. Equalizervorrichtung, umfassend: einen Extraktor (205) für abgetastete Sprachdaten, der abgetastete Sprachdaten eines ersten Zeitintervalls aus gespeicherten abgetasteten Sprachdaten, die einem empfangenen Sprachsignal entsprechen, extrahiert; einen Extraktor (206) für abgetastete Rauschdaten, der abgetastete Rauschdaten des ersten Zeitintervalls und eines zweiten und dritten Zeitintervalls vor und nach dem ersten Zeitintervall aus gespeicherten abgetasteten Rauschdaten, die einem Rauschen in einem Umgebungsgebiet der Vorrichtung entsprechen, extrahiert; und einen Korrektor (209) für die Eigenschaften abgetasteter Sprachdaten, der Eigenschaften der abgetasteten Sprachdaten des ersten Zeitintervalls, die durch den Extraktor für abgetastete Sprachdaten extrahiert wurden, auf der Basis von Eigenschaften der abgetasteten Rauschdaten des ersten bis dritten Zeitintervalls, die durch den Extraktor für abgetastete Rauschdaten extrahiert wurden, korrigiert.
  2. Equalizervorrichtung gemäß Anspruch 1, wobei der Korrektor für die Eigenschaften abgetasteter Sprachdaten umfasst: ein erstes Teil für schnelle Fouriertransformation, das an den abgetasteten Sprachdaten des ersten Zeitintervalls schnelle Fouriertransformation durchführt, um ein Sprachfrequenzspektrum zu erzeugen; ein zweites Teil für schnelle Fouriertransformation, das an den abgetasteten Rauschdaten des ersten bis dritten Zeitintervalls schnelle Fouriertransformation durchführt, um ein Rauschfrequenzspektrum zu erzeugen; eine Dividiereinrichtung, die einen Wert berechnet, indem sie das Rauschfrequenzspektrum, das durch das zweite Teil für schnelle Fouriertransformation erzeugt wurde, durch ein Verhältnis der ersten bis dritten Zeitintervalle zu dem ersten Zeitintervall dividiert; einen ersten Subtrahierer, der einen Wert berechnet, indem er den von der Dividiereinrichtung berechneten Wert von dem durch das erste Teil für schnelle Fouriertransformation erzeugten Sprachfrequenzspektrum subtrahiert; einen zweiten Subtrahierer, der einen Wert berechnet, indem er den von dem ersten Subtrahierer berechneten Wert von einer Differenz zwischen einem gewünschten Sprachfrequenzspektrum und dem Rauschfrequenzspektrum subtrahiert; eine Addiereinrichtung, die einen Wert berechnet, indem sie das durch das erste Teil für schnelle Fouriertransformation erzeugte Sprachfrequenzspektrum und den durch den zweiten Subtrahierer berechneten Wert addiert; und ein Teil für inverse schnelle Fouriertransformation, das eine inverse schnelle Fouriertransformation an dem durch die Addiereinrichtung berechneten Wert durchführt.
  3. Equalizervorrichtung gemäß Anspruch 2, wobei: die Dividiereinrichtung das Rauschfrequenzspektrum in einem vorbestimmten Frequenzband durch das Verhältnis der ersten bis dritten Zeitintervalle zu dem ersten Zeitintervall dividiert; der erste Subtrahierer einen durch die Dividiereinrichtung berechneten Wert von dem Sprachfrequenzspektrum in dem vorbestimmten Frequenzband subtrahiert; der zweite Subtrahierer einen durch den ersten Subtrahierer berechneten Wert von einer Differenz zwischen einem gewünschten Sprachfrequenzspektrum in dem vorbestimmten Frequenzband und dem Rauschfrequenzspektrum subtrahiert; und die Addiereinrichtung das Sprachfrequenzspektrum in dem vorbestimmten Frequenzband und den durch den zweiten Subtrahierer berechneten Wert addiert.
  4. Mobile Station, die die Equalizervorrichtung gemäß den Ansprüchen 1 bis 3 umfasst.
  5. Equalizerverfahren, umfassend: einen Extraktionsschritt für abgetastete Sprachdaten, der abgetastete Sprachdaten eines ersten Zeitintervalls aus gespeicherten abgetasteten Sprachdaten, die einem empfangenen Sprachsignal entsprechen, extrahiert; einen Extraktionsschritt für abgetastete Rauschdaten, der abgetastete Rauschdaten des ersten Zeitintervalls und eines zweiten und dritten Zeitintervalls vor und nach dem ersten Zeitintervall aus gespeicherten abgetasteten Rauschdaten, die einem Rauschen in einem Umgebungsgebiet der Vorrichtung entsprechen, extrahiert; und einen Korrekturschritt für die Eigenschaften abgetasteter Sprachdaten, der Eigenschaften der abgetasteten Sprachdaten des ersten Zeitintervalls, die bei dem Extraktionsschritt für abgetastete Sprachdaten extrahiert wurden, auf der Basis von Eigenschaften der abgetasteten Rauschdaten der ersten bis dritten Zeitintervallen, die bei dem Extraktionsschritt für abgetastete Rauschdaten extrahiert wurden, korrigiert.
  6. Equalizerverfahren gemäß Anspruch 5, wobei der Korrekturschritt für die Eigenschaften abgetasteter Sprachdaten umfasst: einen ersten Schritt für schnelle Fouriertransformation, der an den abgetasteten Sprachdaten des ersten Zeitintervalls schnelle Fouriertransformation durchführt, um ein Sprachfrequenzspektrum zu erzeugen; einen zweiten Schritt für schnelle Fouriertransformation, der an den abgetasteten Rauschdaten des ersten bis dritten Zeitintervalls schnelle Fouriertransformation durchführt, um ein Rauschfrequenzspektrum zu erzeugen; einen Dividierschritt, der einen Wert berechnet, indem das Rauschfrequenzspektrum, das bei dem zweiten Schritt für schnelle Fouriertransformation erzeugt wurde, durch ein Verhältnis der ersten bis dritten Zeitintervalle zu dem ersten Zeitintervall dividiert wird; einen ersten Subtraktionsschritt, der einen Wert berechnet, indem der bei dem Dividierschritt berechnete Wert von dem durch den ersten Schritt für schnelle Fouriertransformation erzeugten Sprachfrequenzspektrum subtrahiert wird; einen zweiten Subtraktionsschritt, der einen Wert berechnet, indem der bei dem ersten Subtraktionsschritt berechnete Wert von einer Differenz zwischen einem gewünschten Sprachfrequenzspektrum und dem Rauschfrequenzspektrum subtrahiert wird; einen Addierschritt, der einen Wert berechnet, indem das bei dem ersten Schritt für schnelle Fouriertransformation erzeugte Sprachfrequenzspektrum und der bei dem zweiten Subtraktionsschritt berechnete Wert addiert wird; und einen Schritt für inverse schnelle Fouriertransformation, der eine inverse schnelle Fouriertransformation an dem bei dem Addierschritt berechneten Wert durchführt.
  7. Equalizerverfahren gemäß Anspruch 6, wobei: der Dividierschritt einen Schritt des Dividierens des Rauschfrequenzspektrums in einem vorbestimmten Frequenzband durch das Verhältnis der ersten bis dritten Zeitintervalle zu dem ersten Zeitintervall umfasst; der erste Subtraktionsschritt einen Schritt des Subtrahierens eines bei dem Dividierschritt berechneten Wertes von dem Sprachfrequenzspektrum in dem vorbestimmten Frequenzband umfasst; der zweite Subtraktionsschritt einen Schritt des Subtrahierens eines in dem ersten Subtraktionsschritt berechneten Wertes von der Differenz zwischen dem gewünschten Sprachfrequenzspektrum und dem Rauschfrequenzspektrum umfasst; und der Addierschritt einen Schritt des Addierens des Sprachfrequenzspektrums in dem vorbestimmten Frequenzband und eines in dem zweiten Subtraktionsschritt berechneten Wertes umfasst.
DE60213500T 2001-03-28 2002-03-27 Entzerrungsgerät und Verfahren Expired - Fee Related DE60213500T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001094238A JP2002287782A (ja) 2001-03-28 2001-03-28 イコライザ装置
JP2001094238 2001-03-28

Publications (2)

Publication Number Publication Date
DE60213500D1 DE60213500D1 (de) 2006-09-14
DE60213500T2 true DE60213500T2 (de) 2007-10-31

Family

ID=18948468

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60213500T Expired - Fee Related DE60213500T2 (de) 2001-03-28 2002-03-27 Entzerrungsgerät und Verfahren

Country Status (5)

Country Link
US (1) US7046724B2 (de)
EP (1) EP1251494B1 (de)
JP (1) JP2002287782A (de)
CN (1) CN1172555C (de)
DE (1) DE60213500T2 (de)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004061617A (ja) * 2002-07-25 2004-02-26 Fujitsu Ltd 受話音声処理装置
CN100552775C (zh) * 2006-09-28 2009-10-21 南京大学 无损语音质量的立体声回音抵消方法
WO2014017371A1 (ja) * 2012-07-25 2014-01-30 株式会社ニコン 信号処理装置、撮像装置、及び、プログラム
CN103236263B (zh) * 2013-03-27 2015-11-11 东莞宇龙通信科技有限公司 一种改善通话质量的方法、系统及移动终端
US9258661B2 (en) * 2013-05-16 2016-02-09 Qualcomm Incorporated Automated gain matching for multiple microphones

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2239971B (en) * 1989-12-06 1993-09-29 Ca Nat Research Council System for separating speech from background noise
US6377919B1 (en) * 1996-02-06 2002-04-23 The Regents Of The University Of California System and method for characterizing voiced excitations of speech and acoustic signals, removing acoustic noise from speech, and synthesizing speech
JP2882364B2 (ja) * 1996-06-14 1999-04-12 日本電気株式会社 雑音消去方法及び雑音消去装置
JPH11161294A (ja) * 1997-11-26 1999-06-18 Kanda Tsushin Kogyo Co Ltd 音声信号送出装置
IL135630A0 (en) * 1997-12-08 2001-05-20 Mitsubishi Electric Corp Method and apparatus for processing sound signal
US6549586B2 (en) * 1999-04-12 2003-04-15 Telefonaktiebolaget L M Ericsson System and method for dual microphone signal noise reduction using spectral subtraction
CA2341834C (en) * 2001-03-21 2010-10-26 Unitron Industries Ltd. Apparatus and method for adaptive signal characterization and noise reduction in hearing aids and other audio devices

Also Published As

Publication number Publication date
EP1251494A2 (de) 2002-10-23
EP1251494A3 (de) 2004-01-14
CN1172555C (zh) 2004-10-20
CN1378402A (zh) 2002-11-06
US20020168000A1 (en) 2002-11-14
DE60213500D1 (de) 2006-09-14
EP1251494B1 (de) 2006-08-02
JP2002287782A (ja) 2002-10-04
US7046724B2 (en) 2006-05-16

Similar Documents

Publication Publication Date Title
DE60116255T2 (de) Rauschunterdückungsvorrichtung und -verfahren
DE60029453T2 (de) Messen der Übertragungsqualität einer Telefonverbindung in einem Fernmeldenetz
US7925008B2 (en) Multi-channel echo cancel method, multi-channel sound transfer method, stereo echo canceller, stereo sound transfer apparatus and transfer function calculation apparatus
DE60108401T2 (de) System zur erhöhung der sprachqualität
DE60101148T2 (de) Vorrichtung und verfahren zur sprachsignalmodifizierung
DE3613972C2 (de)
DE69910239T2 (de) Verfahren und vorrichtung zur adaptiven bandbreitenabhängigen grundfrequenzsuche für die kodierung breitbandiger signale
DE60029147T2 (de) Qualitätsverbesserung eines audiosignals in einem digitalen netzwerk
DE69827162T2 (de) Audio codec mit von einem vocoder gesteuerter automatischer verstärkungsregelung
DE60132321T2 (de) Verfahren und vorrichtung zur verteilten geräuschunterdrückung
DE69839312T2 (de) Kodierverfahren für vibrationswellen
US6335973B1 (en) System and method for improving clarity of audio systems
DE112014000945B4 (de) Sprachbetonungsgerät
DE602004007953T2 (de) System und verfahren zur audiosignalverarbeitung
JP2992294B2 (ja) ノイズ除去方法
DE60213500T2 (de) Entzerrungsgerät und Verfahren
EP1155561B1 (de) Vorrichtung und verfahren zur geräuschunterdrückung in fernsprecheinrichtungen
EP0775360B1 (de) Signalverarbeitungsverfahren und -anordnung zum ersetzen nichtkorrigierbarer blöcke in einem empfänger für blockweise kodierte audiosignale
US5687243A (en) Noise suppression apparatus and method
DE60026570T3 (de) Geräuschunterdrücker
DE69827545T2 (de) Vorrichtung zur Erzeugung von Hintergrundrauschen
DE60300267T2 (de) Verfahren und Vorrichtung zur multi-referenz Korrektur der durch ein Kommunikationsnetzwerk verursachten spektralen Sprachverzerrungen
EP1062487B1 (de) Mikrophonanordnung für die spracherkennung unter variablen räumlichen bedingungen
DE3431141A1 (de) Transversalfilter-echokompensator fuer lange akustische echos
JPH1117778A (ja) 音声信号の処理回路

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8381 Inventor (new situation)

Inventor name: NAGASAWA, HIDEYUKI, YOKOHAMA-SHI, KANAGAWA 247, JP

Inventor name: IRII, HIROSHI, TOKYO 163-0431, JP

8339 Ceased/non-payment of the annual fee