DE60108401T2 - System zur erhöhung der sprachqualität - Google Patents

System zur erhöhung der sprachqualität Download PDF

Info

Publication number
DE60108401T2
DE60108401T2 DE60108401T DE60108401T DE60108401T2 DE 60108401 T2 DE60108401 T2 DE 60108401T2 DE 60108401 T DE60108401 T DE 60108401T DE 60108401 T DE60108401 T DE 60108401T DE 60108401 T2 DE60108401 T2 DE 60108401T2
Authority
DE
Germany
Prior art keywords
audio signal
signal
noise
frequency component
gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60108401T
Other languages
English (en)
Other versions
DE60108401D1 (de
Inventor
Zvi Licht
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Clear Audio Ltd
Original Assignee
Clear Audio Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clear Audio Ltd filed Critical Clear Audio Ltd
Publication of DE60108401D1 publication Critical patent/DE60108401D1/de
Application granted granted Critical
Publication of DE60108401T2 publication Critical patent/DE60108401T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Selective Calling Equipment (AREA)
  • Telephone Function (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Traffic Control Systems (AREA)
  • Control Of Amplification And Gain Control (AREA)

Description

  • Die vorliegende Anmeldung beansprucht das Vorrecht der vorläufigen US-Patentanmeldungen 60/224,513, eingereicht am 14. August 2000, und 60/236,721, eingereicht am 2. Oktober 2000, gemäß 35 USC §119(e), deren Offenbarungen hierin durch Bezug aufgenommen werden. Zusätzlich ist die vorliegende Anmeldung eine Teilfortsetzung (CIP) der PCT-Anmeldung PCT/US00/20395, eingereicht am 27. Juli 2000, deren Offenbarung hierin durch Bezug aufgenommen wird.
  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung betrifft Klangverbesserungssysteme.
  • HINTERGRUND DER ERFINDUNG
  • Telefonapparate werden häufig in geräuschvollen Bereichen verwendet, in denen Hintergrundgeräusche ein Verstehen der Stimmsignale, die über den Telefonapparat empfangen werden, beeinträchtigen können.
  • Das US-Patent 4,829,565 an Goldberg, dessen Offenbarung hierin durch Bezug aufgenommen wird, beschreibt ein Telefon, das ein automatisches Lautstärkeregelungssystem umfasst, das die Lautstärke des Fernsignals einstellt, das zum Benutzer ertönt, ansprechend auf die Hintergrundgeräusche. Dieses System kann jedoch zu viele Änderungen in der Lautstärke bewirken, sowie ungenaue Änderungen, die für das menschliche Ohr störend sein können.
  • Das US-Patent 5,615,270 an Miller et al., dessen Offenbarung hierin durch Bezug aufgenommen wird, beschreibt ein Geräuschkompensationssystem für ein Fahrzeug. Das System bestimmt die erforderliche Verstärkung auf Grundlage eines Geräuschsignals, das erzeugt wird, indem ein gewünschtes Musiksignal von einem im Fahrzeug erfassten Signal gefiltert wird.
  • Die US-Patente 5,524,148 und 5,526,419 an Allen et al., deren Offenbarungen hierin durch Bezug aufgenommen werden, beschreiben Geräuschkompensationssysteme, die ein Fernendsignal verstärken, das an einen Telefonapparat abgegeben wird, mit einer Verstärkung, die ansprechend auf einen Hintergrundgeräuschpegel und eine mittlere akustische Sprachleistung des Fernendsignals bestimmt wird. In einer Ausführungsform werden der Hintergrundgeräuschpegel und die mittlere akustische Sprachleistung für sämtliche Frequenzbänder des Fernendsignals berechnet, und dieselbe Verstärkung wird auf sämtliche Frequenzbänder des Fernendsignals angewandt. Aufgrund des beim Bestimmen der Verstärkung verwendeten Verfahrens kann die Verstärkung nicht ausreichend sein oder sie kann übermäßig sein.
  • In einer anderen Ausführungsform der Allen-Patente wird das Fernendsignal in eine Mehrzahl von Frequenzkomponenten aufgeteilt, und jede Frequenzkomponente wird durch eine respektive Verstärkung verstärkt. Die Verstärkung von jeder Frequenzkomponente wird ansprechend auf das Hintergrundgeräusch in dieser Frequenzkomponente und die mittlere akustische Sprachleistung in dieser Frequenzkomponente oder die mittlere Gesamtsprachleistung bestimmt. In dieser Ausführungsform kann das in Schall umgesetzte Signal aufgrund unterschiedlicher nicht in Beziehung stehender Verstärkungen von unterschiedlichen Frequenzkomponenten des Signals verzerrt sein. Weiter können viele Amplitudeneinstellungen unnötigerweise ausgeführt werden, was im Betriebsenergieverbrauch verschwenderisch sein kann, besonders für batteriegespeiste Systeme.
  • Die PCT-Veröffentlichung WO 99/01863, veröffentlicht am 14. Januar 1999, deren Offenbarung hierin durch Bezug aufgenommen wird, beschreibt ein Sprachverbesserungssystem für geräuschvolle Umgebungen. Das System von WO 99/01863 vergleicht die spektralen Analysen der Sprache und des Hintergrundgeräuschs, um zu bestimmen, ob eine oder mehrere der Frequenzen der Sprache durch das Hintergrundgeräusch überdeckt werden. Wenn ein solches Überdecken auftritt, werden eine oder mehrere spektrale Linienpaare (LSPs) der Sprache geändert, um das Überdecken der Sprache für dieses LSP zu beseitigen. Ein Ändern des LSP kann ein Verschieben seiner Frequenz, Erhöhen seiner Bandbreite oder Erhöhen seiner Amplitude umfassen. Die Verschiebung der LSPs kann das Sprachsignal verzerren.
  • Das US-Patent 5,636,272 an Rasmusson, dessen Offenbarung hierin durch Bezug aufgenommen wird, beschreibt ein System, um eine Sprache unkörperlicher zu machen, wobei ein Korrekturverfahren verwendet wird, das keine Funktion des Hintergrundgeräuschs ist.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Ein Aspekt von einigen Ausführungsformen der vorliegenden Erfindung betrifft ein Geräuschkompensationssystem zum Einstellen eines gewünschten Audiosignals, um ein Hintergrundgeräusch zu überwinden. Das System bestimmt, ob das Audiosignal verstärkt werden soll, und/oder einen Verstärkungsfaktor des Audiosignals auf Grundlage einer Analyse der Audio- und Geräuschsignale in Frequenzkomponenten der Signale. Der bestimmte Verstärkungsfaktor wird jedoch auf das ganze Audiosignal oder einen Teil des Audiosignals, der eine Mehrzahl von Frequenzkomponenten umfasst, angewandt. Die Bestimmung des Verstärkungsfaktors auf Grundlage von Frequenzkomponenten liefert eine genauere Bestimmung der erforderlichen Verstärkung, während die Anwendung der Verstärkung auf das ganze Audiosignal eine Einführung von Verzerrungen in das Signal verhindert.
  • In einigen Ausführungsformen der Erfindung umfasst die Bestimmung der Verstärkung ein Vergleichen der Leistung des Audiosignals mit der Leistung des Geräuschsignals in einer oder mehreren Frequenzkomponenten und ein Bestimmen der Verstärkung ansprechend auf den Vergleich. In einigen Ausführungsformen der Erfindung werden die Audio- und Geräuschsignale in eine Mehrzahl von Frequenzkomponenten aufgeteilt, die fakultativ im Wesentlichen das ganze Sprachspektrum der Signale abdecken, und der Vergleich wird in im Wesentlichen sämtlichen Frequenzkomponenten ausgeführt.
  • Alternativ oder zusätzlich wird der Vergleich in weniger als sämtlichen Frequenzkomponenten ausgeführt, z.B. nur in Frequenzkomponenten, die Formante umfassen, d.h. Hüllkurvenpeaks im Spektrum des Stimmsignals. In einigen Ausführungsformen der Erfindung wird der Vergleich in weniger als sämtlichen Frequenzkomponenten ausgeführt, die Formanten des Stimmsignals umfassen. In einer beispielhaften Ausführungsform der Erfindung wird nach bis zu einer vorbestimmten Anzahl von unterschiedlichen Formanten, z.B. drei Formanten, im Stimmsignal gesucht. Der Vergleich wird für die Frequenzkomponenten ausgeführt, die Formanten umfassen, die in der Suche gefunden werden.
  • In einigen Ausführungsformen der Erfindung wird der Verstärkungsfaktor auf Grundlage des Störabstands (SNR) in der in den Vergleich einbezogenen Frequenzkomponente gewählt, die den niedrigsten SNR aufweist. Fakultativ wird die Verstärkung auf das ganze Audiosignal angewandt. Alternativ wird die Verstärkung auf im Wesentlichen das ganze Spektrum des Audiosignals angewandt, von dem bekannt ist, dass es Sprachsignale umfasst. In einigen Ausführungsformen der Erfindung wird, nachdem das Signal durch den Verstärkungsfaktor verstärkt ist, das Signal komprimiert, um eine Verzerrung in dem Fall zu vermeiden, dass das verstärkte Signal seinen erlaubten Dynamikbereich überschreitet.
  • Ein Aspekt von einigen Ausführungsformen der vorliegenden Erfindung betrifft ein Geräuschkompensationssystem, das eine oder mehrere erste Frequenzkomponenten eines Stimmsignals verstärkt, ansprechend auf eine Bestimmung, dass das Stimmsignal eine Verstärkung in einer oder mehreren zweiten Frequenzkomponenten, die von den ersten Frequenzkomponenten verschieden sind, erfordert. Das System teilt das Stimmsignal in eine Mehrzahl von Frequenzkomponenten auf und für minde stens eine der Frequenzkomponenten bestimmt es, ob die Amplitude der Frequenzkomponente ausreichend ist. Ansprechend auf eine Bestimmung, dass die Amplitude einer ersten Frequenzkomponente nicht ausreicht, wird die Amplitude von mindestens einer zweiten Frequenzkomponente eingestellt. In einigen Ausführungsformen der Erfindung wird ansprechend auf die Bestimmung die Amplitude von den meisten oder sämtlichen Frequenzkomponenten eingestellt, möglicherweise durch denselben Einstellungsfaktor.
  • Ein Aspekt von einigen Ausführungsformen der vorliegenden Erfindung betrifft ein Geräuschkompensationssystem zum Einstellen eines gewünschten Audiosignals, um ein Hintergrundgeräusch zu überwinden. Das Audiosignal wird in eine Mehrzahl von Frequenzkomponenten aufgeteilt, und jede Frequenzkomponente wird durch eine geräuschabhängige Verstärkung und durch eine geräuschunabhängige Verstärkung verbessert. Anwenden von sowohl einer geräuschabhängigen Verstärkung als auch einer geräuschunabhängigen Verstärkung auf Frequenzkomponenten, die durch dieselbe Aufteilung erzeugt sind, liefert die Vorteile von sowohl den Verstärkungen ohne doppelte Kosten als auch eine Verzögerung, die für ein Aufteilen des Signals erforderlich ist. In einigen Ausführungsformen der Erfindung umfasst mindestens ein Teil der geräuschunabhängigen Verstärkung eine Verstärkung, die auch unabhängig von dem Signal ist, z.B. eine vorbestimmte feste Verstärkung. In einigen Ausführungsformen der Erfindung ist die geräuschabhängige Verstärkung für im Wesentlichen sämtliche Frequenzkomponenten dieselbe.
  • In einigen Ausführungsformen der Erfindung werden die geräuschabhängige Verstärkung und die geräuschunabhängige Verstärkung durch eine einzige Verstärkungseinheit auf das Audiosignal angewandt. Alternativ werden eine Mehrzahl von Verstärkungseinheiten verwendet, die respektive Teile der Verstärkung auf das Audiosignal anwenden. Fakultativ wendet eine erste Verstärkungseinheit nur geräuschunabhängige Ver stärkungen an, und eine zweite Verstärkungseinheit wendet sowohl geräuschabhängige als auch geräuschunabhängige Verstärkungen an. Alternativ oder zusätzlich liefert eine erste Verstärkungseinheit nur eine signalunabhängige Verstärkung, und eine zweite Verstärkungseinheit liefert nur eine signalabhängige Verstärkung.
  • Es wird angemerkt, dass der Begriff Verstärkung, der hierin verwendet wird, auch Dämpfungen umfassen kann, d.h. Verstärkungsfaktoren, die kleiner als eins sind.
  • Ein Aspekt von einigen Ausführungsformen der vorliegenden Erfindung betrifft ein Geräuschkompensationssystem zum Einstellen eines gewünschten Audiosignals, um ein Hintergrundgeräusch zu überwinden. Das Geräuschkompensationssystem berechnet ein korrigiertes Audiosignal auf Grundlage des Hintergrundgeräuschs. Ein Ausgang des Systems ist gleich einer gewichteten Summe des ursprünglichen Audiosignals und des kompensierten Signals. Indem die gewichtete Summe in Schall umgewandelt wird, statt nur das kompensierte Signal, wird ein Kompromiss zwischen dem ursprünglichen Signal (das den Vorteil aufweist, ursprünglich zu sein) und dem verbesserten Signal (das den Vorteil aufweist, verbessert zu sein) bereitgestellt.
  • In einigen Ausführungsformen der Erfindung weist die gewichtete Summe dem ursprünglichen Audiosignal und dem kompensierten Signal vorbestimmte Gewichte zu. Fakultativ wird dem ursprünglichen Audiosignal und dem kompensierten Signal ein gleiches Gewicht zugewiesen. Alternativ oder zusätzlich werden die Gewichte der gewichteten Summe ansprechend auf das Ausmaß der Verstärkung, die auf das korrigierte Audiosignal angewandt wird, und/oder ansprechend auf das Ausmaß des Hintergrundgeräuschs eingestellt.
  • Ein Aspekt von einigen Ausführungsformen der vorliegenden Erfindung betrifft ein Verfahren zum Identifizieren von Formanten eines Audiosignals. Das Verfahren umfasst ein Bestimmen von Leistungswerten für eine Mehrzahl von Frequenzkomponenten des Audiosignals, ein Tiefpassfiltern der Leistungswerte der Frequenzkomponenten, um die Leistung jeder Frequenzkomponente mit ihren Nachbar(in der Frequenz)-Frequenzkomponenten zum mitteln, und ein Auffinden von Peaks in der Leistung der gefilterten Leistungswerte.
  • Fakultativ werden die Frequenzkomponenten unter Verwendung einer Mehrzahl von Filtern erzeugt. Alternativ wird die Mehrzahl von Frequenzkomponenten unter Verwendung einer Fouriertransformation erzeugt. In einigen Ausführungsformen der Erfindung umfasst die Mehrzahl von Frequenzkomponenten zwischen 10–24 Frequenzkomponenten, fakultativ zwischen 12–15. Alternativ umfasst die Anzahl der Mehrzahl von Frequenzkomponenten die Anzahl von FFT-Klassen in der verwendeten FFT. In einer beispielhaften Ausführungsform der Erfindung werden die Werte der Mehrzahl von Frequenzkomponenten berechnet, indem eine FFT ausgeführt wird und die Werte einer Mehrzahl von benachbarten Klassen in einem einzigen Frequenzkomponentenwert kombiniert werden.
  • Ein Aspekt von einigen Ausführungsformen der vorliegenden Erfindung betrifft ein Geräuschkompensationssystem für einen Zweiwegkommunikationshandapparat, z.B. ein Telefon, der eine Geräuschkompensation ausführt, die von einem fernen Ende empfangen wird, ansprechend auf eine Bestimmung, dass ein Benutzer am nahen Ende nicht spricht. Folglich wird der Energieverbrauch des Geräuschkompensationssystems verringert. Im Allgemeinen schweigt, wenn der Nahendbenutzer spricht, der Fernendbenutzer, wobei der Nahendbenutzer den Signalen nicht lauscht, die von dem fernen Ende empfangen werden, oder die Geräuschkompensation ist nicht wirkungsvoll.
  • Ein Aspekt von einigen Ausführungsformen der vorliegenden Erfindung betrifft ein Verfahren zum Bestimmen einer Verstärkung zum Verbessern eines gewünschten Audiosignals, um ein Hintergrundgeräusch zu überwinden. Das Verfahren umfasst ein Bestimmen von mindestens zwei Hochpunktwerten der Amplitude des Audiosignals über unterschiedliche Zeitspannen. Die Hochpunktwerte werden gemittelt und mit einer Geräuschanzeige verglichen. Fakultativ wird die Verstärkung ansprechend auf den Vergleich bestimmt. In einigen Ausführungsformen der Erfindung wird die Geräuschanzeige von dem Hintergrundgeräuschsignal auf eine Weise berechnet, die der Berechnung des Mittelwerts der Hochpunktwerte des Audiosignals ähnelt.
  • In einigen Ausführungsformen der Erfindung umfasst die Mittelwertbildung der Hochpunktwerte ein Berechnen eines geometrischen oder arithmetischen Mittelwerts. Alternativ oder zusätzlich kann ein beliebiges anderes Mittelwertbildungsverfahren verwendet werden.
  • Fakultativ umfassen die Hochpunktwerte Maxima über die respektiven Zeitspannen. Alternativ oder zusätzlich umfasst ein oder mehrere der Hochpunktwerte abklingende Maxima. D.h. ein Maximum wird gespeichert, und der gespeicherte Wert klingt mit der Zeit entsprechend einer vorbestimmten Funktion ab. Das abklingende Maximum wird mit neuen Werten verglichen und wird ersetzt, wenn ein neuer Wert größer als der augenblickliche Wert des abklingenden Maximums ist. Alternativ oder zusätzlich umfassen die Hochpunktwerte maximale Werte einer gewichteten Version des Audiosignals, bei dem Werte neueren Datums ein höheres Gewicht bekommen.
  • Ein Aspekt von einigen Ausführungsformen der vorliegenden Erfindung betrifft ein Verfahren zum Ausführen einer Echoausgleichung. Das Verfahren umfasst ein Auffinden einer Korrelation zwischen einem Signal, das das Echo erzeugt, und dem Signal, das einen Echoausgleich erfährt, und Entfernen nur eines einzigen Abbilds des Signals, das das Echo erzeugt. Dieses Verfahren ist sehr einfach in Bezug zu Verfahren, die im Stand der Technik bekannt sind, obwohl es eine geringere Leistungsfähigkeit liefert. Dieses Verfahren ist besonders vorteilhaft, wenn die Echos aufgrund von Schallbedingungen direkte Echos sind.
  • Deshalb wird gemäß einer Ausführungsform der vorliegenden Erfindung ein Verfahren zum Verarbeiten eines Audiosignals bereitgestellt, um Hintergrundgeräusche zu überwinden, die nicht zum Audiosignal gehören, umfassend: Vergleichen eines Maßes des Audiosignals in einer Frequenzkomponente des Audiosignals mit einem Maß des Geräuschs in einer Frequenzkomponente des Hintergrundgeräuschs, Bestimmen einer Verstärkung, ansprechend auf den Vergleich und Verstärken von mindestens einem Teil des Audiosignals, umfassend mindestens ein Frequenzsegment, das nicht in der Frequenzkomponente des Audiosignals enthalten ist, durch die bestimmte Verstärkung.
  • Fakultativ umfasst das Maß des Audiosignals eine Leistung des Audiosignals. Fakultativ umfasst das Maß des Geräuschs in der Frequenzkomponente des Hintergrundgeräuschs eine Leistung einer Überdeckungsversion des Geräuschs. Möglicherweise umfasst ein Verstärken des mindestens einen Teils des Signals ein Verstärken eines Teils, der die verglichene Frequenzkomponente des Audiosignals enthält.
  • Fakultativ umfasst ein Verstärken des mindestens einen Teils des Signals ein Verstärken des ganzen Audiosignals um die bestimmte Verstärkung. In einigen Ausführungsformen der Erfindung umfasst ein Bestimmen der anzuwendenden Verstärkung ein Bestimmen einer Verstärkung, die den Störabstand im Frequenzband der Frequenzkomponente des Audiosignals bis zu über einen Schwellwert bringen würde.
  • Fakultativ wird der Schwellwert dynamisch eingestellt, wenn sich das Signal- und/oder Geräuschmaß mit der Zeit ändert. Alternativ ist der Schwellwert ein vorbestimmter Wert. Fakultativ umfasst ein Vergleichen eines Maßes des Audiosignals in einer Frequenzkomponente des Audiosignals ein Vergleichen in einer Frequenzkomponente, die einen Formanten des Audiosig nals enthält. Fakultativ umfasst ein Vergleichen in einer Frequenzkomponente, die einen Formanten des Audiosignals enthält, ein Vergleichen in einer Frequenzkomponente eines Frequenzbands mit einem geringsten Störabstand (SNR) unter einer Mehrzahl von Frequenzkomponenten des Audiosignals.
  • Fakultativ umfasst das Verfahren ein Aufteilen des Audiosignals in eine Mehrzahl von Frequenzkomponenten und Auswählen von weniger als sämtlichen Frequenzkomponenten. Möglicherweise umfasst ein Auswählen von weniger als sämtlichen Frequenzkomponenten ein Auswählen von Frequenzkomponenten, die Formanten des Audiosignals enthalten. Fakultativ umfasst ein Auswählen von Frequenzkomponenten, die Formanten des Audiosignals enthalten, ein Auswählen bis zu einer vorbestimmten Anzahl von Frequenzkomponenten, die Formanten enthalten.
  • Fakultativ umfasst das Verfahren ein Wählen der Frequenzkomponente des Audiosignals aus den ausgewählten Frequenzkomponenten. Möglicherweise umfasst ein Verstärken des mindestens einen Teils des Audiosignals ein Verstärken um eine Verstärkung, die aus einer Mehrzahl von Verstärkungen kombiniert ist, einschließlich der Verstärkung, die ansprechend auf den Vergleich bestimmt ist. Fakultativ umfasst das Verfahren ein Ertönenlassen des verstärkten Signals in der Anwesenheit des Hintergrundgeräuschs.
  • Möglicherweise überspannen die Frequenzkomponente des Audiosignals und die Frequenzkomponente des Geräuschs im Wesentlichen dasselbe Frequenzband. Fakultativ umfasst die Frequenzkomponente des Audiosignals ein Band von Frequenzen.
  • Es wird weiter gemäß einer Ausführungsform der vorliegenden Erfindung ein Verfahren zum Verarbeiten eines Audiosignals bereitgestellt, um Hintergrundgeräusche zu überwinden, die nicht zum Audiosignal gehören, umfassend ein Aufteilen des Audiosignals in eine Mehrzahl von Frequenzkomponenten, Verbessern von jeder der Frequenzkomponenten durch eine respek tive geräuschunabhängige Verstärkung der Frequenzkomponente und Multiplizieren von jeder der Frequenzkomponenten mit einer respektiven geräuschabhängigen Verstärkung der Frequenzkomponente.
  • Möglicherweise umfasst das Verfahren ein Rekombinieren der Mehrzahl von Frequenzkomponenten in einem verbesserten Audiosignal.
  • Fakultativ umfasst ein Aufteilen des Audiosignals in eine Mehrzahl von Frequenzkomponenten ein Aufteilen in zwischen 10–24 Frequenzkomponenten oder mehr als 100 Frequenzkomponenten. Fakultativ umfasst ein Aufteilen des Audiosignals in eine Mehrzahl von Frequenzkomponenten ein Aufteilen in eine Mehrzahl von Frequenzkomponenten, die im Wesentlichen nicht überlappend sind. Möglicherweise umfasst ein Verbessern von jeder der Frequenzkomponenten durch eine respektive geräuschunabhängige Verstärkung ein Verbessern durch vorbestimmte signalunabhängige Verstärkungen.
  • Möglicherweise umfasst ein Multiplizieren von jeder der Frequenzkomponenten mit einer respektiven geräuschabhängigen Verstärkung ein Multiplizieren von im Wesentlichen sämtlichen Frequenzkomponenten mit derselben geräuschabhängigen Verstärkung. Möglicherweise werden das Verbessern und Multiplizieren durch ein einziges funktionelles Element ausgeführt. Fakultativ werden das Verbessern und Multiplizieren durch separate funktionelle Elemente ausgeführt.
  • Fakultativ umfasst die geräuschunabhängige Verstärkung einen stimmhaften Sprachverbesserungsfaktor, wenn das Audiosignal stimmhafte Sprache umfasst. Möglicherweise umfasst ein Aufteilen des Audiosignals in eine Mehrzahl von Frequenzkomponenten eine Anwendung einer Fouriertransformation auf das Audiosignal. Alternativ oder zusätzlich umfasst ein Aufteilen des Audiosignals in eine Mehrzahl von Frequenzkomponenten ein Hindurchschicken des Audiosignals durch ein Array von Band passfiltern.
  • Es wird weiter gemäß einer Ausführungsform der vorliegenden Erfindung ein Verfahren zum Verarbeiten eines Audiosignals bereitgestellt, um Hintergrundgeräusche zu überwinden, die nicht zum Audiosignal gehören, umfassend: Empfangen eines Audiosignals, Verbessern des Audiosignals ansprechend auf ein Maß des Hintergrundgeräuschs und Bereitstellen eines Ausgangs, der eine gewichtete Summe des verbesserten Audiosignals und des empfangenen Audiosignals ist.
  • Fakultativ umfasst ein Verbessern des Audiosignals ein Multiplizieren einer Mehrzahl von Frequenzkomponenten des Audiosignals mit respektiven Verstärkungen. Fakultativ umfasst ein Bereitstellen der gewichteten Summe ein Bereitstellen einer gewichteten Summe, die durch dynamisch eingestellte Gewichte erzeugt ist. Fakultativ werden die dynamisch eingestellten Gewichte ansprechend auf das Ausmaß bestimmt, bis zu dem das Audiosignal verbessert wurde. In einigen Ausführungsformen der Erfindung umfasst ein Verbessern des Audiosignals ein Berechnen einer Mehrzahl von unterschiedlichen Verstärkungsfaktoren und Multiplizieren des Audiosignals mit der Mehrzahl von Verstärkungsfaktoren und wobei die dynamisch eingestellten Gewichte ansprechend auf einen der Verstärkungsfaktoren bestimmt werden.
  • Fakultativ umfasst mindestens einer der unterschiedlichen Verstärkungsfaktoren einen vergangenheitsabhängigen Verstärkungsfaktor. Fakultativ umfasst ein Bereitstellen der gewichteten Summe ein Bereitstellen einer durch vorbestimmte Gewichte erzeugten gewichteten Summe. Fakultativ umfasst ein Bereitstellen der gewichteten Summe ein Bereitstellen einer gewichteten Summe, bei der das empfangene Audiosignal dominierend ist, ansprechend auf eine Bestimmung, dass ein der bereitgestellten gewichteten Summe lauschender Hörer spricht. Fakultativ umfasst ein Bereitstellen der gewichteten Summe ein Bereitstellen einer gewichteten Summe, bei der das emp fangene Audiosignal dominierend ist, ansprechend auf eine Bestimmung, dass das Audiosignal keine Sprachsignale umfasst.
  • Es wird weiter gemäß einer Ausführungsform der vorliegenden Erfindung ein Geräuschkompensationssystem bereitgestellt, umfassend eine Eingangsschnittstelle, die angepasst ist, um ein Audiosignal zu empfangen, einen Lautsprecher, der angepasst ist, um ein verbessertes Audiosignal ertönen zu lassen, ein Mikrofon, das angepasst ist, um Hintergrundgeräusch einzufangen, das einen Hörer beeinträchtigen kann, der dem verbesserten Signal lauscht, und einen Kontroller, der angepasst ist, um ein Maß des Audiosignals in einer Frequenzkomponente des Audiosignals mit einem Maß des Hintergrundgeräuschs in derselben Frequenzkomponente zu vergleichen, eine Verstärkung ansprechend auf den Vergleich zu bestimmen und mindestens einen Teil des Audiosignals einschließlich mindestens eines Segments, das sich nicht in der Frequenzkomponente befindet, um die bestimmte Verstärkung zu verstärken, um das verbesserte Audiosignal bereitzustellen.
  • Fakultativ sind der Lautsprecher und das Mikrofon Teil eines Telefonhandapparats. Fakultativ umfasst das System eine Echoausgleichvorrichtung, die mindestens ein Echo des verbesserten Audiosignals aus dem Hintergrundgeräusch entfernt. Fakultativ entfernt die Echoausgleichvorrichtung nur ein einziges Echo des verbesserten Audiosignals aus dem Hintergrundgeräusch.
  • Es wird deshalb gemäß einer Ausführungsform der vorliegenden Erfindung ein Verfahren zum Bestimmen einer Verstärkung zum Verbessern eines Audiosignals bereitgestellt, um ein Hintergrundgeräusch zu überwinden, das nicht zum Audiosignal gehört, umfassend ein Bestimmen einer Mehrzahl von Hochpunktwerten über die Zeit eines Maßes des Audiosignals, eine Mittelwertbildung der Hochpunktwerte, ein Vergleichen des Mittelwerts mit einem Maß des Geräuschs und ein Bestimmen einer Verstärkung, um das Audiosignal zu verbessern, ansprechend auf den Vergleich.
  • Fakultativ umfasst ein Bestimmen der Mehrzahl von Hochpunktwerten ein Bestimmen von Hochpunktwerten für unterschiedliche Zeitsegmente des Audiosignals. Fakultativ umfasst ein Bestimmen der Mehrzahl von Hochpunktwerten ein Bestimmen von Hochpunktwerten für Zeitsegmente des Audiosignals mit unterschiedlichen Längen. Fakultativ umfasst ein Bestimmen der Mehrzahl von Hochpunktwerten ein Bestimmen von maximalen Werten. Alternativ oder zusätzlich umfasst ein Bestimmen der Mehrzahl von Hochpunktwerten ein Bestimmen von maximalen Werten einer gewichteten Version des Audiosignals, bei der Werte neueren Datums ein höheres Gewicht erhalten. Fakultativ umfasst eine Mittelwertbildung der Hochpunktwerte ein Berechnen eines geometrischen Mittelwerts.
  • KURZE BESCHREIBUNG DER FIGUREN
  • Beispielhafte nichtbeschränkende Ausführungsformen der Erfindung werden mit Bezug auf die folgende Beschreibung von Ausführungsformen in Verbindung mit den Figuren beschrieben. Identische Strukturen, Elemente oder Teile, die in mehr als einer Figur erscheinen, sind vorzugsweise mit einer selben oder gleichen Ziffer in sämtlichen Figuren bezeichnet, in denen sie erscheinen.
  • 1 ist eine schematische Veranschaulichung eines Geräuschkompensationssystems gemäß einer Ausführungsform der vorliegenden Erfindung;
  • 2A ist ein schematisches Blockdiagramm eines Kontrollers eines Geräuschkompensationssystems gemäß einer Ausführungsform der vorliegenden Erfindung;
  • 2B ist ein schematisches Blockdiagramm eines Kontrollers eines Geräuschkompensationssystems gemäß einer anderen Ausführungsform der vorliegenden Erfindung;
  • 3 ist eine schematische Veranschaulichung einer Logikeinheit des Kontrollers von 2A oder 2B gemäß einer Ausführungsform der vorliegenden Erfindung;
  • 4 ist eine schematische Veranschaulichung einer Verstärkungsbestimmungseinheit der Logikeinheit von 3 gemäß einer Ausführungsform der vorliegenden Erfindung;
  • die 5A und 5B stellen Kurven eines beispielhaften Stimmsignals vor und nach einer Korrektur durch eine durch eine Formanteneinheit erzeugte Verstärkung dar, gemäß einer Ausführungsform der vorliegenden Erfindung;
  • 6 ist eine schematische Kurve einer Verstärkung eines Enhancefilters gemäß einer Ausführungsform der vorliegenden Erfindung;
  • 7 ist eine schematische Kurve eines beispielhaften Geräuschleistungsspektrums und einer überdeckten Version davon gemäß einer Ausführungsform der vorliegenden Erfindung, und
  • 8 ist ein schematisches Blockdiagramm eines Sprachdetektors gemäß einer Ausführungsform der vorliegenden Erfindung.
  • AUSFÜHRLICHE BESCHREIBUNG VON AUSFÜHRUNGSFORMEN
  • 1 ist eine schematische Veranschaulichung eines Geräuschkompensationssystems 30 gemäß einer Ausführungsform der vorliegenden Erfindung. Das System 30 empfängt ein Eingangsstimmsignal Sinput(t), das durch einen Lautsprecher 32 in Schall umgesetzt werden soll. Z.B. wird Sinput(t) von einer entfernt angeordneten Personengruppe in einem Telefongespräch empfangen. Ein Kontroller 40 empfängt ein Eingangsstimmsignal Sinput(t) und eine Veranschlagung N(t) des Geräuschs in der Nähe des Sprechers 32 und liefert ein geräuschkompensiertes Eingangssignal S'(t), das eine geräuschkompensierte Version des Eingangsstimmsignals Sinput(t) ist.
  • In einigen Ausführungsformen der Erfindung wird das Eingangsstimmsignal Sinput(t) durch ein Störbefreiungsglied 95 geschickt, das eine geräuschgefilterte Version S(t) des Eingangsstimmsignals Sinput(t) bereitstellt. Das Störbefreiungsglied 95 arbeitet ohne Bezug zu dem Geräuschpegel in der Nähe des Lautsprechers 32. Das Störbefreiungsglied 95 misst fakultativ das Geräusch, wenn es kein Sprachsignal gibt, und bestimmt die spektrale Form des Geräuschs. Das Störbefreiungsglied 95 entfernt dann fakultativ die spektrale Darstellung des Geräuschs von der spektralen Darstellung von Signalteilen, die Sprache enthalten. Alternativ oder zusätzlich kann ein beliebiges anderes Störbefreiungsglied, das im Stand der Technik bekannt ist, verwendet werden, wie z.B. im US-Patent 5,550,924 an Helf et al. und/oder in "Utilizing Interband Acoustical Information For Modeling Stationary Time-Frequency Regions of Noisy Speech" von Yoo, Acoustics, Speech, and Signal processing, 1999, IEEE proceedings Seiten 809–812, Band 2, beschrieben, deren Offenbarungen hierin durch Bezug aufgenommen werden. Alternativ oder zusätzlich ist ein Störbefreiungsglied mit dem Kontroller 40 angeordnet, nachdem die Frequenzkomponenten bestimmt sind. Folglich kann das Gewinnen des Spektrums, das durch den Kontroller 40 ausgeführt wird, auch für das Störbefreiungsglied verwendet werden.
  • In einigen Ausführungsformen der Erfindung wird eine Geräuschveranschlagung N(t) ansprechend auf ein Eingangsgeräuschsignal n(t) erzeugt, das durch ein Mikrofon 34 in der Nähe des Lautsprechers 32 eingefangen wird. Fakultativ wird das Eingangsgeräuschsignal n(t) durch einen Verstärker 36 verstärkt und dann durch eine Echoausgleichvorrichtung (EC) 96 geschickt, um eine Geräuschveranschlagung N(t) bereitzustellen. Die Echoausgleichvorrichtung 96 entfernt Echos des ausgegebenen Signals S'(t), die durch das Mikrofon 34 eingefangen werden und/oder die aufgrund von akustischer Kopplung in n(t) hineinkommen, vom Eingangsgeräuschsignal n(t).
  • In einigen Ausführungsformen der Erfindung findet die Echoausgleichvorrichtung 96 für ein Segment kurz zuvor vorbestimmter Größe (z.B. ein paar msec) des ausgegebenen Signals S'(t) ein Segment maximaler Korrelation im Geräuschsignal n(t). Die Echoausgleichvorrichtung 96 bestimmt fakultativ einen Korrelationswert der Segmente und den Zeitunterschied zwischen ihnen. In einigen Ausführungsformen der Erfindung verzögert die Echoausgleichvorrichtung 96 das Stimmsignal S'(t) um den Zeitunterschied zwischen den Segmenten und multipliziert das verzögerte Stimmsignal mit dem bestimmten Autokorrelationswert. Die Geräuschveranschlagung N(t) wird fakultativ als das erfasste Geräuschsignal n(t) berechnet, von dem das multiplizierte und verzögerte Stimmsignal subtrahiert wird. Folglich ist die Echoausgleichvorrichtung 96 einfacher als andere Echoausgleichvorrichtungen, die im Stand der Technik bekannt sind, obwohl auf Kosten einer geringeren Genauigkeit. Alternativ oder zusätzlich kann eine beliebige andere Echoausgleichvorrichtung verwendet werden, einschließlich z.B. Echoausgleichvorrichtungen, die adaptives Filtern verwenden.
  • Weiter alternativ oder zusätzlich wird das Geräusch n(t) nicht durch eine Echoausgleichvorrichtung geschickt. In einer beispielhaften Ausführungsform der vorliegenden Erfindung wird eine Echoausgleichvorrichtung nicht verwendet, wenn sich das Mikrofon 34 nicht in der Nähe des Lautsprechers 32 befindet, z.B., wenn das Mikrofon 34 in der Nähe einer Geräuschquelle positioniert ist, statt in der Nähe des Lautsprechers 32. Z.B., wenn die Hauptquelle von Geräusch bekannt ist, z.B. ein Motor eines Wagens, kann das Mikrofon 34 nahe dem Motor positioniert werden. In einer beispielhaften Ausführungsform der Erfindung sind der Lautsprecher 32 und das Mikrofon 34 in einem Telefon positioniert, wobei sie mindestens etwa 90° in Bezug zueinander, z.B. vertikal oder einander gegenüberliegend, angeordnet sind. In diesen beispielhaften Ausführungsformen umfasst das System 30 fakultativ keine Echoausgleichvorrichtung.
  • In einigen Ausführungsformen der Erfindung kompensiert das Geräuschkompensationssystem 30 Geräusche in der Nähe eines Kabel- oder Zellulartelefonapparats. Fakultativ ist das System 30 in dem Telefonapparat positioniert. Alternativ oder zusätzlich sind das System 30 oder Teile davon in einem Telefonnetzwerk positioniert, das Telefonapparate bedient. Das Mikrofon 34 ist fakultativ ein reguläres Telefonapparatmikrofon, das zum Einfangen eines Eingangsgeräuschsignals n(t) zusätzlich zu seiner gewöhnlichen Verwendung verwendet wird. Alternativ oder zusätzlich ist das Mikrofon 34 ein Freihandmikrofon, das an einem Telefonapparat angebracht ist. Weiter alternativ oder zusätzlich ist das Mikrofon 34 unabhängig von dem regulären Mikrofon des Telefonapparats.
  • In anderen Ausführungsformen der Erfindung wird das System 30 mit anderen Sprachschall- und/oder Tonsystemen verwendet, wie z.B. Ansagesystemen, Musiksystemen, Videokonferenzsystemen, Radioapparaten und/oder Fernsehapparaten. In einigen Ausführungsformen der Erfindung wird eine Mehrzahl von Mikrofonen verwendet, um Geräuschsignale einzufangen, die beim Veranschlagen von Geräusch N(t) verwendet werden. Das eine oder die mehreren Mikrofone 34 können nahe der Geräuschquelle positioniert sein, nahe zu einem Hörer und/oder in einer beliebigen anderen Position, die geeignet ist, um den Geräuschpegel zu bestimmen, der zu kompensieren ist. In einigen Ausführungsformen der Erfindung wird ein einziges Eingangssignal Sinput(t) durch eine Mehrzahl von Lautsprechern 32 in Schall umgesetzt. Demgemäß korrigiert das System 30 das Eingangssignal für jeden Lautsprecher 32 unterschiedlich, ansprechend auf eine respektive Geräuschveranschlagung N(t).
  • 2A ist ein schematisches Blockdiagramm des Kontrollers 40 gemäß einer Ausführungsform der vorliegenden Erfindung. Der Kontroller 40 empfängt fakultativ das Eingangssignal S(t) und das Geräuschveranschlagungssignal N(t) als einen Strom von digitalen Abtastwerten, die mit einer vorbestimmten Rate, z.B. ein Abtastwert alle 10 oder 12,5 msec, zur Verfügung gestellt werden. Alternativ oder zusätzlich werden das Eingangssignal S(t) und/oder Geräuschsignal N(t) als Analogsignale zur Verfügung gestellt, die unter Verwendung von geeigneten A/D-Wandlern (nicht dargestellt) zu Bitströmen umgewandelt werden. In einigen Ausführungsformen der Erfindung wird eine vorbestimmte Anzahl von Abtastwerten eines Stimmsignals S(t) und eines Geräuschsignals N(t) in Puffern 110 bzw. 116 akkumuliert. Die akkumulierten Abtastwerte werden fakultativ durch schnelle Fouriertransformations(FFT)einheiten 111 bzw. 115 geschickt, um Werte S1, S2, ..., Sn für eine Mehrzahl von Frequenzkomponenten des Eingangssignals S(t) und eine Mehrzahl von respektiven Frequenzkomponentenwerten N1, N2, ..., Nm des Geräuschsignals N(t) zu liefern. Alternativ oder zusätzlich können andere Fouriertransformationsverfahren verwendet werden, und nicht notwendigerweise die FFT.
  • In einigen Ausführungsformen der Erfindung entspricht jede Klasse der FFT einer respektiven Frequenzkomponente. Alternativ umfasst jede Frequenzkomponente eine Gruppe von respektiven Klassen. In einigen Ausführungsformen der Erfindung sind im Wesentlichen sämtliche Frequenzkomponenten, außer z.B. die Extremwerte, aus derselben Anzahl von Klassen gebildet. Alternativ oder zusätzlich sind die Bänder der Frequenzkomponenten vorbestimmt, z.B. wie nachstehend mit Bezug auf 2B beschrieben, und die Werte der Klassen, die in jedem Frequenzband enthalten sind, werden bei einer Bestimmung des Werts der Frequenzkomponente verwendet.
  • Die Frequenzkomponentenwerte S1, S2, ..., Sn werden fakultativ durch ein Enhancefilter 112 gefiltert, das spezielle Frequenzkomponenten entsprechend einem vorbestimmten Hervorhebungsschema hervorhebt, um die Verständlichkeit des Stimmsignals S(t) zu erhöhen. Das Enhancefilter 112 verbessert fakultativ die Amplitude von Frequenzkomponenten, die wichtigere Sprachfrequenzen umfassen, um Sprachsignale herzuvorheben. Eine beispielhafte Ausführungsform des Enhancefilters 112 wird nachstehend mit Bezug auf 6 beschrieben. Danach werden die verbesserten Frequenzkomponentenwerte in einer Multiplikationseinheit 117 mit respektiven Verstärkungsfaktoren (gi auf Leitungen 121) multipliziert, die durch eine Logikeinheit 77 bestimmt sind, ansprechend auf das Geräusch N(t) und Stimmsignale S(t), wie nachstehend beschrieben. Folglich wird jede Frequenzkomponente durch das Enhancefilter 112 mit einem geräuschunabhängigen Wert und durch die Multiplikationseinheit 117 mit einem geräuschabhängigen Wert multipliziert.
  • Durch Hervorheben der Sprachsignale durch das Enhancefilter 112 bevor die geräuschabhängige Korrektur ausgeführt wird, wird die geräuschabhängige Korrektur beim Handhaben der Sprachkomponenten von Stimmsignalen S(t) konzentriert. Es wird betont, dass, wie nachstehend beschrieben, die geräuschabhängige Korrektur im Allgemeinen dieselbe für sämtliche Frequenzkomponenten ist, um keine Verzerrungen im Stimmsignal hervorzurufen. Die geräuschunabhängige Korrektur kann andererseits unterschiedliche Verstärkungen für unterschiedliche Frequenzkomponenten aufweisen. Obwohl ein Anwenden von unterschiedlichen Verstärkungen auf unterschiedliche Frequenzkomponenten das Stimmsignal verzerren kann, weisen solche Verzerrungen bekannte Wirkungen auf und hängen nicht von Werten ab, die außerhalb vom eingestellten Signal liegen, z.B. dem Geräusch. In einigen Ausführungsformen der Erfindung, wie nachstehend beschrieben, ist die Verstärkung {gi} der Multiplikationseinheit 117 eine Kombination von geräuschabhängigen und geräuschunabhängigen Korrekturen.
  • Alternativ oder zusätzlich zur Positionierung des Enhancefilters 112 vor der Multiplikationseinheit 117 könnte das Enhancefilter 112 (oder ein zweites Enhancefilter) auf dem Ausgang der Multiplikationseinheit 117 arbeiten. Ein Ausführen sowohl der geräuschabhängigen als auch der geräuschunabhängigen Korrekturen auf Grundlage einer einzigen Gewinnung von Frequenzkomponenten kann die Kompliziertheit des Geräuschkompensationssystems 30 verringern.
  • Die multiplizierten Frequenzkomponentenwerte werden fakultativ durch eine inverse FFT (IFFT)-Einheit 118 zurück zum Zeitbereich umgewandelt, um ein eingestelltes Stimmsignal S''(t) zu liefern. In einigen Ausführungsformen der Erfindung erzeugt eine Einheit für einen gewichteten Mittelwert 133 eine gewichtete Summe Sw(t) des eingestellten Stimmsignals S''(t) und des Eingangsstimmsignals S(t) auf Grundlage von respektiven Gewichten b1 und b2, (b1 + b2 = 1), die durch die Logikeinheit 77 erzeugt werden, wie nachstehend beschrieben. Die gewichtete Summe wird fakultativ zu einem weichen Begrenzer 100 abgegeben, der die gewichtete Summe einstellt, wenn nötig, so dass die gewichtete Summe den Betriebsbereich des Lautsprechers 32 nicht überschreitet. Das Signal vom Begrenzer 100 wird durch einen Digital/Analog(D/A)-Wandler 31 fakultativ zu einem analogen Signal umgewandelt, durch einen Leistungsverstärker 52 verstärkt und durch den Lautsprecher 32 in Schall umgesetzt. Alternativ ist der D/A-Wandler 31 vor dem Addierer der Einheit für einen gewichteten Mittelwert 133 und vor dem Begrenzer 100 positioniert.
  • In einigen Ausführungsformen der Erfindung beschränkt der Begrenzer 100 die gewichtete Summe Sw(t) auf einen Bereich zwischen vorbestimmten Betriebsgrenzen des Verstärkers 52. Alternativ oder zusätzlich wird der Bereich, auf den die gewichtete Summe Sw(t) durch den Begrenzer 100 beschränkt wird, auf Grundlage eines augenblicklichen dynamischen Bereichs des Verstärkers 52 periodisch bestimmt. Fakultativ ist der Begrenzer 100 zwischen symmetrischen Grenzen beschränkt, d.h. –Grenze < Sw(t) < +Grenze. In einer beispielhaften Ausführungsform der Erfindung führt der Begrenzer 100 die folgende Funktion aus: F(x) = Grenze·2·[A·e–2x·arctan(x) + (1–A)·e–4x·arctan(x)]/πwobei A ein beliebiger Wert zwischen 0 und 1 ist, x das zu beschränkende Signal ist und F(x) das beschränkte Signal ist.
  • Alternativ oder zusätzlich zur Verwendung des Begrenzers 100 ist der dynamische Bereich des Leistungsverstärkers 52 größer als der dynamische Bereich der Signale, die in den Kontroller 40 eintreten, so dass der Kontroller 40 im Wesentlichen keine Signale über den dynamischen Bereich des Leis tungsverstärkers 52 hinaus erzeugen kann. Weiter alternativ oder zusätzlich umfasst, wie nachstehend beschrieben, die durch die Logikeinheit 77 erzeugte Verstärkung Komprimierungsfaktoren, die im Wesentlichen die Notwendigkeit für den Begrenzer 100 beseitigen. Es wird jedoch angemerkt, dass in einigen Ausführungsformen der Erfindung der Begrenzer 100 verwendet wird, selbst wenn die durch die Logikeinheit 77 erzeugte Verstärkung Komprimierungsfaktoren umfasst, um jegliche Verzerrungen zu verhindern.
  • In einigen Ausführungsformen der Erfindung empfängt die Logikeinheit 77 für jede Frequenzkomponente des Stimmsignals S(t) einen Leistungspegel ESi und für jede Frequenzkomponente des Geräuschsignals N(t) einen Leistungspegel ENi. Fakultativ empfängt eine Leistungsbestimmungseinheit 113, die ein Quadrat des Absolutwerts des Signals (ABS2) erzeugt, die verbesserten Werte der Frequenzkomponenten von S(t) von dem Enhancefilter 112 und bestimmt daraus die Leistung ESi von jeder der Frequenzkomponenten. In einigen Ausführungsformen der Erfindung werden die Frequenzkomponenten des Geräuschsignals N(t), die durch die FFT-Einheit 115 erzeugt sind, durch eine Leistungsbestimmungseinheit 114 (ABS2) geschickt, die die Leistung ENi des Geräuschsignals N(t) in jeder von seinen Frequenzkomponenten berechnet. Fakultativ werden die Geräuschleistungssignale ENi durch eine Überdeckungseinheit 119 geschickt, die die Geräuschleistungssignale ENi entsprechend menschlichen akustischen Überlegungen einstellt, wie nachstehend mit Bezug auf 7 beschrieben.
  • In einigen Ausführungsformen der Erfindung werden das Stimmsignal S(t) und das Geräuschsignal N(t) in dieselbe Anzahl von Frequenzkomponenten (d.h. n = m) mit derselben Frequenzkomponentenaufteilung aufgeteilt. Alternativ werden das Stimmsignal S(t) und das Geräuschsignal n(t) in unterschiedliche Anzahlen von Frequenzkomponenten aufgeteilt. In einigen Ausführungsformen der Erfindung wird das Geräuschsignal N(t) in ein Spektrum umgewandelt, das eine größere Bandbreite umfasst. Fakultativ wird in diesen Ausführungsformen das Geräuschsignal N(t) in mehr Frequenzkomponenten aufgeteilt als das Stimmsignal s(t), fakultativ 1 oder 2 mehr Frequenzkomponenten. In einigen Ausführungsformen der Erfindung werden die zusätzlichen Frequenzkomponenten des Geräuschsignals N(t) durch die Überdeckungseinheit 119 verwendet, um Geräuschfrequenzen von hohen Bändern zu berücksichtigen, die niedrigere Bänder beeinflussen. Fakultativ umfassen die Geräusch- und Stimmsignale, die zur Logikeinheit 77 abgegeben werden, dieselbe Anzahl von Frequenzkomponenten.
  • In einigen Ausführungsformen der Erfindung werden sowohl das Stimmsignal S(t) als auch das Geräuschsignal n(t) mit einer üblich ausreichend hohen Abtastrate abgetastet, die eine Erzeugung der höheren Anzahl von Frequenzkomponenten des Geräuschsignals ermöglicht. Alternativ wird das Geräuschsignal n(t) mit einer höheren Frequenz abgetastet als das Stimmsignal S(t), so dass eine größere Anzahl von Frequenzkomponenten von dem abgetasteten Signal n(t) erzeugt werden kann. Fakultativ wird dann das Geräuschsignal n(t) zur Abtastrate des Stimmsignals S(t) herab abgetastet, um einen leichten Vergleich der Signale zu ermöglichen. Alternativ wird das Stimmsignal S(t) gestopft, indem Nullwerte zu den hohen Frequenzen hinzugefügt werden.
  • In einigen Ausführungsformen der Erfindung bestimmt eine Sprachaktivitätsdetektions (VAD)-Einheit 250, wann S(t) keine Sprachsignale umfasst (z.B. während Schweigeperioden zwischen Wörtern), und deaktiviert im Wesentlichen die Logikeinheit 77, wenn S(t) keine Sprachsignale umfasst. Folglich wird Geräusch, das im Stimmsignal S(t) zwischen Wörtern enthalten ist, nicht verstärkt, um Hintergrundgeräusch n(t) zu "überwinden". Fakultativ, wenn die VAD-Einheit 250 bestimmt, dass der Eingang keine Sprachsignale enthält, liefert die Logikeinheit 77 Ausgangsverstärkungen {gi} von einer vorherigen Zeit, bei der das Stimmsignal S(t) Sprache enthielt. Alternativ oder zusätzlich stellen ein oder mehr Elemente der Logik einheit 77 keinen Ausgang bereit, um einen Energieverbrauch zu verringern. Fakultativ, wenn bestimmt wird, dass das Stimmsignal S(t) keine Sprache umfasst, wird das Stimmsignal S(t) im Wesentlichen ohne Änderungen zum Lautsprecher 32 abgegeben. Alternativ wird das Stimmsignal S(t) herausgeschnitten, und es wird kein Signal in Schall umgesetzt, wenn das Stimmsignal keine Sprachsignale umfasst.
  • In einigen Ausführungsformen der Erfindung bestimmt die VAD-Einheit 250, ob das Stimmsignal S(t) Sprachsignale umfasst, auf Grundlage eines Vergleichs der Amplitude des Signals mit einem Stimmschwellwert. Fakultativ wird der Stimmschwellwert ansprechend auf einen Pegel eines Arbeitssitzungsanlaufgeräuschpegels eingestellt, z.B. gemessen am Anfang eines Telefongesprächs. Alternativ ist der Stimmschwellwert fabrikkalibriert oder ist sonst vorbestimmt. Weiter alternativ wird der Stimmschwellwert adaptiv eingestellt, ansprechend auf kontinuierlich und/oder periodisch gewonnene Geräuschmessungen. In einigen Ausführungsformen der Erfindung wird der Schwellwert auf ein vorbestimmtes Vielfaches des gemessenen Geräuschs eingestellt, z.B. zwischen 3–5 mal dem Geräusch. Alternativ oder zusätzlich kann ein beliebiges anderes VAD-Betriebsverfahren, das im Stand der Technik bekannt ist, verwendet werden.
  • In einigen Ausführungsformen der Erfindung werden Verarbeitungsiterationen des Kontrollers 40 auf eine vorbestimmte Anzahl von Abtastwerten angewandt, z.B. zwischen 100–1000 Abtastwerte, fakultativ abhängig von der Abtastrate. Fakultativ werden die Verarbeitungsiterationen des Kontrollers 40 auf eine Anzahl von Abtastwerten angewandt, die eine Potenz von 2, z.B. 128, 256 oder 512, ist, um zu ermöglichen, dass die Fouriertransformation unter Verwendung eines schnellen Fouriertransformations(FFT)-Verfahrens ausgeführt wird. In einigen Ausführungsformen der Erfindung wird die Anzahl von Abtastwerten, die in jeder Iteration verwendet werden, als ein Kompromiss zwischen einer erforderlichen Genauigkeit, die eine große Anzahl von Abtastwerten erfordern kann, und einem Verkürzen der Verzögerung eingestellt, was eine kleine Anzahl von Abtastwerten vorschreibt. Fakultativ kann ein Benutzer die Anzahl von Abtastwerten, die bei den Verarbeitungsiterationen verwendet werden, zu einer speziellen Zeit einstellen. In einigen Ausführungsformen der Erfindung wird die Verzögerung entsprechend der Gesamtverzögerung der Signale von ihrem Ursprungsort zum Lautsprecher 32 eingestellt. Z.B., wenn das System 30 in einem Telefon verwendet wird, kann, wenn die Rundumlaufverzögerung (RTD) von Signalen verhältnismäßig gering ist, eine FTT mit einer großen Anzahl von Abtastwerten, die eine verhältnismäßig große Verzögerung erleiden, z.B. 20 ms, verwendet werden. Wenn jedoch die RTD von Signalen verhältnismäßig hoch ist, kann die Verzögerung des Systems 30 auf 5 oder 10 ms begrenzt werden, indem die Anzahl von Abtastwerten, bei denen die FFT ausgeführt wird, verringert wird.
  • Fakultativ wird jede Verarbeitungsiteration auf einer nicht-überlappenden Gruppe von Abtastwerten ausgeführt. Alternativ wird jede Verarbeitungsiteration auf einer Gruppe von Abtastwerten ausgeführt, die die Abtastwerte, die in einer oder mehreren vorherigen Verarbeitungsiterationen verwendet wurden, teilweise überlappt. In einer beispielhaften Ausführungsform der vorliegenden Erfindung werden Verarbeitungsiterationen jedes Mal, wenn 128 Abtastwerte gesammelt sind, auf einer Gruppe von 256 Abtastwerten neuesten Datums ausgeführt. In einigen Ausführungsformen der Erfindung wird die Menge an überlappenden Abtastwerten als eine Funktion der Sprachqualität gegen Energieverbrauch eingestellt. Wenn es erwünscht ist, einen Energieverbrauch zu minimieren, werden weniger Verarbeitungsiterationen mit geringer oder keiner Überlappung ausgeführt. Wenn eine hohe Sprachqualität gewünscht wird, werden häufige Verarbeitungsiterationen mit hoher Überlappungsrate ausgeführt. Fakultativ kann der Benutzer die gewünschte Verarbeitungsiterationsrate auswählen.
  • Alternativ zur Erzeugung von Frequenzkomponentenwerten unter Verwendung einer Fouriertransformation wird ein Array von Bandpassfiltern verwendet, um Frequenzkomponentensignale der Stimm- und Geräuschsignale zu erzeugen, wie nun mit Bezug auf 2B beschrieben wird. Eine Verwendung eines Array von Filtern ermöglicht, dass das System 30 im Wesentlichen ohne Erleiden einer Verzögerung arbeitet.
  • 2B ist ein schematisches Blockdiagramm eines Kontrollers 40' gemäß einer Ausführungsform der vorliegenden Erfindung. Der Kontroller 40' ähnelt dem Kontroller 40 und kann in dem System 30 statt des Kontrollers 40 verwendet werden. In der folgenden Beschreibung werden nur Elemente, in denen sich der Kontroller 40' vom Kontroller 40 unterscheidet, beschrieben. Im Kontroller 40' werden das Stimmsignal S(t) und Geräuschsignal N(t) durch respektive Bandpassfilter (BPF)-Arrays 62 und 64 geschickt, die eine Mehrzahl von Frequenzkomponentenstimmsignalen S1(t), S2(t), ..., Sn(t) und Frequenzkomponentengeräuschsignalen N1(t), N2(t), ..., Nm(t) erzeugen.
  • Die Anzahl von Stimm- und Geräuschfrequenzkomponenten kann entsprechend irgendeiner der oben mit Bezug auf den Kontroller 40 beschriebenen Alternativen sein. In einigen Ausführungsformen der Erfindung liegt die Anzahl von Filtern im Filterarray 62 zwischen etwa 10–60, abhängig von der erforderlichen Qualität und dem Frequenzbereich, der durch den Kontroller 40 abzudecken ist. Fakultativ umfasst der Frequenzbereich des Kontrollers 40 den Tonfrequenzbereich, z.B. zwischen 20 Hz und 20 kHz. Alternativ umfasst der Frequenzbereich des Kontrollers 40 den menschlichen Tonfrequenzbereich, z.B. bis zu zwischen 4–7 kHz. Weiter alternativ oder zusätzlich umfasst der Frequenzbereich einen kleineren oder größeren Bereich von Frequenzen, z.B., wenn das System 30 für Haustiere verwendet wird.
  • In einigen Ausführungsformen der vorliegenden Erfindung weisen die Frequenzkomponenten bis zu 1 kHz eine Bandbreite von ungefähr 100 Hz auf, und Frequenzkomponenten mit höheren Bereichen weisen Bandbreiten auf, die mit den Frequenzen logarithmisch in Beziehung stehen. Fakultativ werden die Frequenzen der Frequenzkomponenten entsprechend akustischen und/oder anderen Charakteristika des menschlichen Ohres ausgewählt, z.B. sind Frequenzen, die durch das menschliche Ohr im Wesentlichen unterschiedlich wahrgenommen werden, in unterschiedlichen Frequenzkomponenten enthalten.
  • In einigen beispielhaften Ausführungsformen der Erfindung wird die Aufteilung in Frequenzkomponenten entsprechend den kritischen Tonfrequenzbändern ausgeführt, was im Stand der Technik bekannt ist. Die Anzahl von Frequenzkomponenten, die in diesen beispielhaften Ausführungsformen verwendet werden, hängt vom Bereich von Frequenzen ab, die als wichtig betrachtet werden. Für den Bereich zwischen 0–20 kHz verwenden diese beispielhaften Ausführungsformen fakultativ etwa 24 Frequenzkomponenten. Für den Bereich zwischen 300–4000 Hz verwenden diese Ausführungsformen fakultativ Frequenzkomponenten, die um die folgenden Frequenzen zentriert sind: 450, 570, 630, 700, 840, 1000, 1170, 1370, 1600, 1850, 2150, 2500 und 2900 Hz. Fakultativ werden eine oder zwei zusätzliche Frequenzkomponenten, die um 350 Hz und/oder 3400 Hz zentriert sind, auch verwendet.
  • In einer anderen beispielhaften Ausführungsform der vorliegenden Erfindung umfassen die Frequenzkomponenten die folgenden Frequenzbereiche 400–510, 510–630, 630–770, 770–920, 920–1080, 1080–1270, 1270–1480, 1480–1720, 1720–2000, 2000–2320, 2320–2700 und 2700–3150 Hz. Es wird angemerkt, dass die Frequenzen unter 400 Hz und über 3150 Hz durch die ersten und letzten Frequenzkomponenten abgedeckt werden, obwohl mit einer geringeren Signifikanz als die Frequenzen in den Frequenzbereichen der Frequenzkomponenten.
  • Es wird angemerkt, dass die obigen Beispiele nicht beschränkend sind und ein beliebiger anderer Satz von Frequenzkompo nenten verwendet werden kann. Insbesondere kann eine größere Anzahl von Frequenzkomponenten, z.B. 32, 48 oder selbst 65, verwendet werden. Alternativ oder zusätzlich können sich die Bereiche der Frequenzkomponenten teilweise überlappen oder können weniger als den ganzen Frequenzbereich der Stimmsignale abdecken.
  • In einigen Ausführungsformen der Erfindung umfassen die Filter in den Arrays 62 und 64 Butterworthfilter, fakultativ mit mindestens zwei, drei, vier, fünf oder selbst sechs Stufen. In einer beispielhaften Ausführungsform der Erfindung werden, wenn ein niedriger Energieverbrauch des Systems 30 erforderlich ist, zwei oder drei Stufen verwendet. Wenn eine hohe Genauigkeit erforderlich ist, werden fakultativ mindestens fünf oder sechs Stufen verwendet. In einigen Ausführungsformen der Erfindung wird die Anzahl von Stufen so gewählt, dass die Filter den Überdeckungseffekt von Geräusch über Sprache im Innern des menschlichen Ohres imitieren.
  • Fakultativ sind die Grenzen der Frequenzkomponenten die –3dB-Punkte der Filter. In einigen Ausführungsformen der Erfindung ist die maximale Verstärkung der Filter etwa 1. Alternativ oder zusätzlich sind einige oder sämtliche Filter im Array 62 und/oder dem Array 64 von anderen Typen, wie z.B. Chebyshev-, Bessel- oder elliptische Filter. Fakultativ weisen Geräusch- und Stimmfilter von entsprechenden Frequenzkomponenten dieselben Charakteristika auf. Alternativ oder zusätzlich weisen mindestens einige der Geräusch- oder Stimmfilter von entsprechenden Frequenzkomponenten unterschiedliche Charakteristika auf. Z.B. führen in einigen Ausführungsformen der Erfindung die Filter des Filterarray 62 einige oder die gesamte Verbesserung eines Enhancefilters 112 aus (fakultativ ist das Enhancefilter 112 in diesen Ausführungsformen beseitigt). In diesen Ausführungsformen können sich die Filter des Array 62, die eine Verbesserung ausführen, von den Filtern des Array 64 unterscheiden.
  • In einigen Ausführungsformen der Erfindung umfasst der Kontroller 40' ein Multipliziererarray 70, das jedes der Stimmfrequenzkomponentensignale Si(t) quadriert, um Leistungssignale ESi(t) abzuleiten. Die Leistungssignale ESi(t) werden fakultativ durch respektive Tiefpassfilter (LPF) 76 gefiltert und werden dann durch einen Abtaster (nicht dargestellt) abgetastet, um Frequenzkomponentenleistungswerte ESi zu erzeugen. Alternativ zur Verwendung eines Abtasters führt die Logikeinheit 77 das Abtasten aus, wenn die Werte an ihren Eingängen gelesen werden. Das Tiefpassfilter 76 glättet fakultativ die Leistungssignale ESi(t) vor dem Abtasten, so dass das Abtasten keinen nichtrepräsentativen Schwankungswert annimmt. Ähnlich werden Geräuschfrequenzkomponentensignale Ni(t) durch respektive Multiplizierer in einem Multipliziererarray 68 geschickt, das jedes der Signale quadriert. Die quadrierten Signale werden fakultativ durch ein Array von Tiefpassfiltern (LPFs) 73 gefiltert und abgetastet, um Frequenzkomponentenleistungswerte ENi zu erzeugen.
  • In einigen Ausführungsformen der Erfindung umfassen die LPFs 73 und/oder 76 Filter erster oder zweiter Ordnung. Fakultativ weisen die Tiefpassfilter einen –3dB-Punkt auf, der von der Niederfrequenzgrenze Fmin der respektiven Frequenzkomponente abhängt. In einer beispielhaften Ausführungsform der vorliegenden Erfindung ist der –3dB-Punkt ungefähr bei Fmin/k, wobei k zwischen etwa 1,5 und 2 liegt, um eine Gleichstromkomponente des Leistungssignal einzufangen. Alternativ oder zusätzlich weist ein oder mehr der Tiefpassfilter einen –3dB-Punkt auf, der von der Hochfrequenzgrenze der respektiven Frequenzkomponente abhängt. Weiter alternativ oder zusätzlich werden beliebige andere geeignete Tiefpassfilter verwendet. Weiter alternativ oder zusätzlich wird ein beliebiges anderes geeignetes Verfahren und/oder Filter zum dynamischen Gewinnen der Gleichstromkomponente des Leistungssignals (das im Allgemeinen gleich der mittleren Leistung ist) verwendet.
  • Hinter der Multiplikationseinheit 117 werden die Frequenzkomponentensignale S1(t), S2(t), ..., Sn(t) fakultativ kombiniert, z.B. durch einen Signaladdierer 65.
  • 3 ist eine schematische Veranschaulichung der Logikeinheit 77 gemäß einer Ausführungsform der vorliegenden Erfindung. Die Logikeinheit 77 umfasst eine Mehrzahl von Verstärkungsbestimmungseinheiten, die Verstärkungsfaktoren bestimmen, die die Frequenzkomponenten des Stimmsignals S(t) multiplizieren sollen, ansprechend auf verschiedene Auswertungen des Stimmsignals S(t), wie durch den Leistungsvektor {ESi} dargestellt. In der Ausführungsform von 3 umfassen die Mehrzahl von Verstärkungsbestimmungseinheiten eine Enhancementeinheit für stimmhafte Sprache 91, eine Autoverstärkungseinheit 92, eine Formanteneinheit 93 und eine Komprimierungseinheit 94. Es wird jedoch angemerkt, dass die Logikeinheit 77 weniger Einheiten und/oder zusätzliche Einheiten umfassen kann, gemäß verschiedenen Ausführungsformen der Erfindung. Ein Multiplizierer 99 empfängt fakultativ durch die Verstärkungsbestimmungseinheiten bestimmte Verstärkungsfaktoren und stellt Verstärkungsfaktoren {gi}, die zu der Multiplikationseinheit 117 abgegeben werden, zur Verfügung (2A oder 2B). Alternativ empfängt jede der Einheiten 91, 92, 93 und 94 die Verstärkung der vorherigen Einheit und stellt eine akkumulierte berechnete Verstärkung zur Verfügung.
  • Die Logikeinheit 77 umfasst fakultativ eine Identifizierungseinheit für stimmhafte Sprache 89, die bestimmt, ob das Stimmsignal S(t), wie durch den Leistungsvektor {ESi} dargestellt, im Augenblick stimmhafte Sprache oder stimmlose Sprache umfasst. Wie im Stand der Technik bekannt ist, werden Laute, die durch ein spektrales Formen der glottischen Impulse erzeugt werden, als Laute stimmhafter Sprache bezeichnet, während Laute, die ohne die Hilfe der Stimmbänder ausgesprochen werden, als Laute stimmloser Sprache bezeichnet werden.
  • In einigen Ausführungsformen der Erfindung identifiziert die Identifizierungseinheit 89 die Formanten des Stimmsignals S(t) und bestimmt demgemäß, ob das Stimmsignal stimmhafte Sprache umfasst. Fakultativ wird, wenn das Stimmsignal S(t) eine dominierende Tonhöhe umfasst, die z.B. eine Amplitude aufweist, die wesentlich größer als alle anderen Tonhöhen ist, das Signal als stimmhafte Sprache enthaltend betrachtet. Alternativ oder zusätzlich vergleicht die Identifizierungseinheit 89 die Energie in den niedrigen Frequenzen des Stimmsignals S(t) mit der Energie in den hohen Frequenzen. Fakultativ wird, wenn die Energie der niedrigen Frequenzen um einen vorbestimmten Schwellwert von der Energie der hohen Frequenzen höher ist, das Stimmsignal S(t) als stimmhaft betrachtet. In einer beispielhaften Ausführungsform der vorliegenden Erfindung wird das Frequenzband des Stimmsignals S(t) im Wesentlichen zwischen niedrigen und hohen Frequenzen gleich aufgespalten. Alternativ kann die Aufteilung zwischen niedrigen und hohen Frequenzen bei einem beliebigem anderen Punkt entsprechend akustischen Überlegungen sein.
  • In einigen Ausführungsformen der Erfindung bestimmt die Identifizierungseinheit 89, dass das Signal stimmhafte Sprache nur dann umfasst, wenn das Signal klare Charakteristika von stimmhafter Sprache aufweist. Dies ist deshalb der Fall, weil die Enhancementeinheit für stimmhafte Sprache 91 eine Verstärkung erzeugt, die das Signal nur ändert, wenn das Signal so bestimmt ist, dass es stimmhafte Sprache umfasst.
  • Alternativ oder zusätzlich kann ein beliebiges anderes Verfahren zur Identifizierung von stimmhafter Sprache verwendet werden, z.B. das Verfahren, das in der oben erwähnten Arbeit von Yoo beschrieben ist, und/oder die Verfahren, die im US-Patent 4,468,804 an Kates et al. beschrieben sind, deren Offenbarung hierin durch Bezug aufgenommen wird.
  • Die Enhancementeinheit für stimmhafte Sprache 91 empfängt fakultativ eine Anzeige von der Identifizierungseinheit 89 darüber, ob das Stimmsignal S(t) stimmhafte Sprache umfasst. In einigen Ausführungsformen der Erfindung wählt, wenn das Stimmsignal S(t) stimmhafte Sprache umfasst, die Enhancementeinheit 91 einen Hervorhebungsvektor für stimmhafte Sprache (p1, p2, ..., pn) aus, der geeignet ist, um die Frequenzkomponenten des Stimmsignals S(t) hervorzuheben, die die stimmhafte Sprache tragen. Fakultativ umfasst der Hervorhebungsvektor für stimmhafte Sprache (p1, p2, ..., pn) einen vorbestimmten Vektor, der für im Wesentlichen alle Signale stimmhafter Sprache verwendet wird. Alternativ ist der Sprachhervorhebungsvektor (p1, p2, ..., pn) eine Funktion des Leistungsvektors {ESi}.
  • In einigen Ausführungsformen der Erfindung verbessert der Sprachhervorhebungsvektor (p1, p2, ..., pn) die Leistung von niedrigen Frequenzen und/oder senkt die Leistung von hohen Frequenzen ab. Z.B. kann der Sprachhervorhebungsvektor (p1, p2, ..., pn) eine nichtansteigende monotone Funktion sein. In einigen Ausführungsformen der Erfindung ist, wenn die Identifizierungseinheit 89 eine Anzeige stimmloser Sprache liefert, der Sprachhervorhebungsvektor (p1, p2, ..., pn) gleich einem Einheitsvektor, der die Amplitude des Stimmsignals S(t) nicht ändert.
  • In einigen Ausführungsformen der Erfindung liefert die Enhancementeinheit 91 auch einen modifizierten Leistungsvektor {ESMi}, der gleich dem Leistungsvektor {ESi} multipliziert mit dem Hervorhebungsvektor (p1, p2, ..., pn) ist. Fakultativ wird der modifizierte Leistungsvektor {ESMi} verwendet, um die Leistung des Stimmsignals S(t) durch die Autoverstärkungseinheit 92 darzustellen.
  • In einigen Ausführungsformen der Erfindung bestimmt die Autoverstärkungseinheit 92 einen ersten Verstärkungsfaktor (Verstärkung1) für das Signal S(t) auf Grundlage eines Vergleichs einer typischen Leistung des Stimmsignals S(t) und einer typischen Leistung des Geräuschsignals N(t). Die typi schen Leistungen werden fakultativ auf Grundlage einer Vergangenheit der Signale über eine kurzzurückliegende Zeitspanne bestimmt. Der erste Verstärkungsfaktor ist fakultativ so konstruiert, dass das Stimmsignal S(t) dazu gebracht wird, im Allgemeinen über dem Geräuschsignal N(t) zu liegen, während die Formanteneinheit 93 einen speziellen Vergleich für das Stimm- und Geräuschsignal zum augenblicklichen Zeitpunkt ausführt. In einer beispielhaften Ausführungsform der Erfindung ist die Autoverstärkungseinheit 92 so, wie nachstehend mit Bezug auf 4 beschrieben. Fakultativ liefert die Autoverstärkungseinheit 92 auch einen verstärkten Leistungsvektor {Verstärkung1 × ESMi}, der durch die Formanteneinheit 93 verwendet wird, um das Signal S(t) darzustellen.
  • In einigen Ausführungsformen der Erfindung identifiziert die Formanteneinheit 93 einen oder mehrere Formanten des Stimmsignals S(t) und erzeugt demgemäß einen zweiten Verstärkungsfaktor (Verstärkung2). Der zweite Verstärkungsfaktor (Verstärkung2) wird fakultativ als eine minimale Verstärkung ausgewählt, die erforderlich ist, um sicherzustellen, dass die Leistung von Frequenzkomponenten, die einer vorbestimmten Gruppe von Formanten des Stimmsignals S(t) entsprechen, Werte über der Leistung der entsprechenden Frequenzkomponenten des Geräuschsignals N(t) um mindestens eine vorbestimmte Spanne aufweisen. Fakultativ ist die vorbestimmte Spanne dieselbe für sämtliche Frequenzkomponenten. Alternativ werden für verschiedene Frequenzkomponenten unterschiedliche Spannen verwendet. In einigen Ausführungsformen der Erfindung ist die vorbestimmte Spanne gleich zwischen etwa 3–10dB, fakultativ 6dB. In einer beispielhaften Ausführungsform der Erfindung ist die Formanteneinheit 93 so, wie nachstehend mit Bezug auf die 5A und 5B beschrieben. Fakultativ liefert die Formanteneinheit 93 auch einen verstärkten Leistungsvektor {Verstärkung2 × Verstärkung1 × ESMi}, der durch die Komprimierungseinheit 94 verwendet wird, um das Signal S(t) darzustellen.
  • In einigen Ausführungsformen der Erfindung wird der verstärkte Leistungsvektor {Verstärkung1 × ESMi} von der Autoverstärkungseinheit 92 durch ein Vorformantenglättungsglied 97 geschickt, das den verstärkten Leistungsvektor {Verstärkung1 × ESMi} glättet. Das Glätten wird fakultativ ausgeführt, da die Suche nach Formanten auf der Hüllkurve des Spektrums des Stimmsignals S(t) und nicht auf dem Stimmsignal selbst ausgeführt wird, das viele unwichtige Peaks umfassen kann.
  • Jeder Frequenzkomponentenwert in dem geglätteten Vektor (der mit {ESMi'} bezeichnet ist) ist fakultativ gleich einem gewichteten Mittelwert mit seinen Nachbarfrequenzkomponenten. In einer beispielhaften Ausführungsform der Erfindung arbeitet das Vorformantenglättungsglied 97 entsprechend der folgenden Gleichung: ESMi' = Verstärkung1 × (0,5×ESMi + 0,25×ESMi+1 + 0,25×ESMi–1) ESM1' = Verstärkung1 × (0,66×ESMi + 0,34×ESM2) 2≤i≤n–1 ESMn' = Verstärkung1 × (0,66×ESMn + 0,34×ESMn–1)
  • Alternativ wird eine beliebige andere Glättungsfunktion verwendet, z.B. Funktionen, die eine größere Anzahl von Nachbarfrequenzkomponenten berücksichtigen und/oder die andere Gewichtsfaktoren verwenden.
  • In einigen Ausführungsformen der Erfindung empfängt die Formanteneinheit 93 eine geglätteten Version des Geräuschleistungsvektors {ENi}, der hierin als {ENi'} bezeichnet wird. Fakultativ wird der geglättete Geräuschleistungsvektor {ENi'} durch ein Geräuschglättungsglied 98 erzeugt, das dieselbe Funktion wie das Vorformantenglättungsglied 97 ausführt. Alternativ führt das Geräuschglättungsglied 98 eine von dem Vorformantenglättungsglied 97 unterschiedliche Funktion aus, wobei fakultativ ein weniger glattes Signal erzeugt wird. Der Geräuschleistungsvektor {ENi} wird fakultativ so geglättet, dass er der geglätteten Version von {Verstärkung1 × ESMi} entspricht.
  • In einigen Ausführungsformen der Erfindung erzeugt die Kom primierungseinheit 94 einen Komprimierungsvektor (c1, c2, ..., cn), der geeignet ist, um die Leistung des eingestellten Stimmsignals S(t) zu verringern. Fakultativ ist der Komprimierungsvektor (c1, c2, ..., cn) geeignet, um die Leistung des eingestellten Stimmsignals S(t) in den Betriebsgrenzen des Leistungsverstärkers 52 und/oder Lautsprechers 32 zu verringern. Alternativ oder zusätzlich ist der Komprimierungsvektor (c1, c2, ..., Cn) geeignet, um die Leistung des eingestellten Stimmsignals S(t) bis zu einem Pegel, der im Wesentlichen gleich dem ursprünglichen Stimmsignal S(t) ist, oder auf einen beliebigen anderen gewünschten Pegel zu verringern.
  • Fakultativ bestimmt die Komprimierungseinheit 94 für jede Frequenzkomponente den Störabstand (SNR) in der Frequenzkomponente. Fakultativ wird, wenn der SNR der Frequenzkomponente größer als etwa 6dB ist, die Komprimierungsverstärkung des Vektors ci eingestellt, um das Stimmsignal im Band um einen Dämpfungswert (eine negative Verstärkung) zu dämpfen, der eine Funktion des SNR ist. In einigen Ausführungsformen der Erfindung ist die Größe der negativen Verstärkung entsprechend einer monotonen Funktion, die einen Wert von 0dB (keine Dämpfung) bei einem SNR von 6dB aufweist und einen Wert von 5dB aufweist, wenn der SNR etwa 24dB ist. Fakultativ beträgt die maximale Größe der negativen Verstärkung 5dB. In einer beispielhaften Ausführungsform der Erfindung ist die Größe der negativen Verstärkung (Y) entsprechend der folgenden Funktion: Y = –2,95·10–11·x8 + 5,67·10–9·x7 – 4,43·10–7·x6 + 1,80·10–5·x–5 – 4,0·10–4·x4 + 0,0046·x3 – 0,026·x2 – 0,073·x + 4,92·10–13 wobei x den SNR bezeichnet.
  • Alternativ oder zusätzlich sucht die Komprimierungseinheit 94 nach Peakfrequenzkomponenten, in denen das Stimmsignal S(t), wie durch {ESi} dargestellt, eine Amplitude aufweist, die im Wesentlichen größer (z.B. um 8–10dB) als ihre Nachbarfrequenzkomponenten oder sämtliche anderen Frequenzkomponenten ist. Fakultativ verringert der Komprimierungsvektor (c1, c2, ..., cn) die Amplitude der Peakfrequenzkomponenten um etwa 5dB oder um einen Prozentsatz von dem Ausmaß, bis zu dem die Amplitude der Peakfrequenzkomponente größer ist als die anderen Frequenzkomponenten.
  • Weiter alternativ oder zusätzlich dämpft der Komprimierungsvektor (c1, c2, ..., cn) auch Frequenzkomponenten, die durch das Geräusch überdeckt sind. Fakultativ werden Frequenzkomponenten, bei denen das Stimmsignal S(t) eine Amplitude aufweist, die im Wesentlichen niedriger (z.B. um mindestens 6dB) als das Geräusch ist, mit Null multipliziert, so dass sie im Wesentlichen beseitigt werden.
  • Weiter alternativ oder zusätzlich werden beliebige andere Komprimierungsfunktionen, die das Ausgangssignal nicht wesentlich verzerren, verwendet. Weiter alternativ oder zusätzlich wird die Komprimierungseinheit 94 nicht verwendet, und der Begrenzer 100 ist darauf angewiesen, die Komprimierung auszuführen. Weiter alternativ oder zusätzlich wird der Begrenzer 100 nicht verwendet, und die Komprimierungseinheit 94 ist darauf angewiesen, die Komprimierung auszuführen. Weiter alternativ werden sowohl der Begrenzer 100 als auch die Komprimierungseinheit 94 nicht verwendet, und es wird keine Komprimierung ausgeführt. Fakultativ weist in dieser Alternative der Leistungsverstärker 52 einen Betriebsbereich auf, der größer als der Signalbereich des Eingangsstimmsignals ist, um Verstärkungen des Eingangssignals zu ermöglichen, das durch den Lautsprecher 32 in Schall umgesetzt werden kann.
  • In einigen Ausführungsformen der Erfindung wird der verstärkte Leistungsvektor {Verstärkung2 × Verstärkung1 × ESMi}, der durch die Formanteneinheit 93 bereitgestellt wird, durch ein Vorkomprimierungsglättungsglied 107 geglättet, bevor er an die Komprimierungseinheit 94 abgegeben wird. Fakultativ führt das Vorkomprimierungsglättungsglied 107 dieselbe oder eine ähnliche Glättungsfunktion aus wie das Vorformantenglättungs glied 97. Alternativ zur Verwendung des Glättungsglieds 107 empfängt die Komprimierungseinheit 94 den geglätteten Ausgang des fakultativ mit Verstärkung2 multiplizierten Vorformantenglättungsglieds 97, der das Stimmsignal S(t) darstellt. In einigen Ausführungsformen der Erfindung verwendet die Komprimierungseinheit 94 den geglätteten Geräuschleistungsvektor {ENi'}, um das Geräuschsignal N(t) darzustellen. Alternativ oder zusätzlich verwendet die Komprimierungseinheit 94 eine unterschiedliche geglättete Version des Geräuschleistungsvektors {ENi}. Weiter alternativ oder zusätzlich verwendet die Komprimierungseinheit 94 den Geräuschleistungsvektor {ENi}, der nicht geglättet ist.
  • In einigen Ausführungsformen der Erfindung empfängt der Multiplizierer 99 die Ausgangsfaktoren, z.B. den Hervorhebungsvektor {pi}, Verstärkung1, Verstärkung2 und den Komprimierungsvektor {ci}, und erzeugt den Verstärkungsvektor (g1, g2, ..., gn) als ein Produkt der empfangenen Werte, z.B. gi = pi·Verstärkung1·Verstärkung2·ci. Alternativ oder zusätzlich dazu, dass die Logikeinheit 77 den Multiplizierer 99 umfasst, empfängt eine oder mehrere von der Autoverstärkungseinheit 92, der Formanteneinheit 93 und der Komprimierungseinheit 94 den Ausgangsfaktor von einer oder mehreren vorherigen Einheiten. In einer beispielhaften Ausführungsform der Erfindung empfängt die Formanteneinheit 93 Verstärkung1 und liefert ein Produkt von Verstärkung1 und Verstärkung2, und die Komprimierungseinheit 94 empfängt den Hervorhebungsvektor, Verstärkung1 und Verstärkung2, erzeugt den Komprimierungsvektor (c1, c2, ..., cn) und erzeugt demgemäß den Verstärkungsvektor (g1, g2, ..., gn).
  • Alternativ oder zusätzlich dazu, dass die Einheiten 92, 93 und 94 auf korrigierte Versionen des Leistungsvektors {ES1} einwirken, wirken eine oder mehrere der Einheiten auf den ursprünglichen Leistungsvektor {ESi} oder auf einen teilweise korrigierten Leistungsvektor ein.
  • In einigen Ausführungsformen der Erfindung umfasst die Logikeinheit 77 eine Gewichtsbestimmungseinheit 138, die dynamisch die Gewichte b1 und b2 bestimmt, die durch die Einheit für einen gewichteten Mittelwert 133 verwendet werden. Fakultativ ist das Gewicht b1, das dem modifizierten Stimmsignal S''(t) zugewiesen wird, verhältnismäßig hoch, d.h. größer als 0,5, wenn der Hintergrund verhältnismäßig geräuschvoll ist, z.B. Verstärkung1 verhältnismäßig hoch ist. Fakultativ ist das Gewicht b1, das dem modifizierten Stimmsignal S''(t) zugewiesen wird, eine nichtabnehmende Funktion von Verstärkung1. D.h., wenn Verstärkung1 ansteigt, wird dem modifizierten Stimmsignal S''(t) ein größeres Gewicht zugewiesen. In einer beispielhaften Ausführungsform der Erfindung ist Gewicht b1 = Verstärkung1/max, wobei max der maximal mögliche Wert von Verstärkung1 ist. Alternativ oder zusätzlich wird, wenn Verstärkung1 unter einem vorbestimmten Wert ist, z.B. 0,3, Gewicht b1 auf Null gesetzt. Weiter alternativ oder zusätzlich wird, wenn Verstärkung1 über einem vorbestimmten Wert ist, z.B. 3, Gewicht b1 auf eins gesetzt.
  • Alternativ sind die Gewichte b1 und b2 Funktionen des Geräuschs {ENi} oder weisen vorbestimmte Werte auf, z.B. 0,5. Alternativ oder zusätzlich ermöglicht eine Benutzersteuerung dem Benutzer die Werte b1 und b2 nach Benutzerwunsch einzustellen.
  • In einigen Ausführungsformen der Erfindung werden b1 und b2 an die Einheit für einen gewichteten Mittelwert 133 abgegeben, nachdem sie durch ein Tiefpassfilter gelaufen sind, was häufige Fluktuationen in den Gewichten verhindert. Alternativ oder zusätzlich umfasst die Funktion, die durch die Gewichtsbestimmungseinheit 138 ausgeführt wird, einen Zeitglättungseffekt.
  • 4 ist ein schematisches Blockdiagramm der Autoverstärkungseinheit 92 gemäß einer Ausführungsform der vorliegenden Erfindung. Die Autoverstärkungseinheit 92 umfasst fakultativ eine Signalvergangenheitseinheit 406, die eine repräsentative typische Leistung Hs für das Stimmsignals S(t) bestimmt, wie durch den modifizierten Leistungsvektor {ESMi} dargestellt. Zusätzlich umfasst die Autoverstärkungseinheit 92 eine Geräuschvergangenheitseinheit 411, die eine repräsentative typische Leistung Hn für das Geräuschsignal N(t) bestimmt, wie durch den Geräuschleistungsvektor {ENi} dargestellt. Die repräsentativen typischen Werte werden fakultativ als ein Mittelwert einer Mehrzahl von Maxima über unterschiedliche Zeitspannen berechnet. In einigen Ausführungsformen der Erfindung sind die Signalvergangenheitseinheit 406 und die Geräuschvergangenheitseinheit 411 im Wesentlichen identisch. Alternativ sind die Vergangenheitseinheit 406 und die Geräuschvergangenheitseinheit 411 voneinander verschieden. Z.B. kann die typische Stimmleistung Hs vorherigen Signalen ein höheres Gewicht zuweisen, als es durch die typische Geräuschleistung Hn zugewiesen wird.
  • In einigen Ausführungsformen der Erfindung umfasst jede Vergangenheitseinheit 406 einen Addierer 408, der eine Summe der Leistungen von sämtlichen empfangenen Leistungen der Frequenzkomponenten erzeugt. Alternativ erzeugt der Addierer 408 eine Summe der Frequenzkomponentensignale von den Filtern 62 und berechnet die Leistung der Summe und/oder berechnet die Leistung des ursprünglichen Signals S(t). Die Summe wird fakultativ an ein Kurzzeitmaximumregister 410 und an ein Langzeitmaximumregister 412 abgegeben. In einigen Ausführungsformen der Erfindung bestimmt jedes der Register 410 und 412 seinen neuen Wert wie folgt. Wenn der empfangene Wert größer als der intern gespeicherte Wert ist, ist der neue Wert gleich dem gespeicherten Wert. Sonst ist der neue Wert gleich einer abgeklungenen Version des intern gespeicherten Werts, wobei der Wert im Kurzzeitregister 410 schneller als der Wert im Langzeitregister 412 abklingt. In einigen Ausführungsformen der Erfindung klingt der Wert im Kurzzeitregister 410 innerhalb der Zeit von etwa einem einzigen Wort ab, so dass der Wert im Register 410 zu einer maximalen Leistung über einem einzelnen Wort in Beziehung steht. In einigen Ausführungsformen der Erfindung klingt der Wert im Langzeitregister 412 innerhalb der Zeit eines Satzes oder von ein paar Sätzen ab, so dass der Wert im Register 412 zu einer maximalen Leistung über eine verhältnismäßig lange Zeitspanne in Beziehung steht.
  • In einigen Ausführungsformen der Erfindung weisen die Register 410 und 412 der Vergangenheitseinheit 406 dieselben Abklingwerte wie die Register 410 bzw. 412 der Vergangenheitseinheit 411 auf. Alternativ weisen die Register 410 und 412 der Vergangenheitseinheit 406 andere Abklingwerte als die Abklingwerte der Register 410 und 412 der Vergangenheitseinheit 411 auf. In einer beispielhaften Ausführungsform der Erfindung klingt der Wert im Langzeitregister 412 der Signalvergangenheitseinheit 406 zu zwischen etwa 10–30% seines Werts über eine Zeitspanne von etwa 256 ms ab, während der Wert im Kurzzeitregister 410 der Signalvergangenheitseinheit 406 über eine Zeitspanne von etwa 64 ms abklingt. Fakultativ klingt der Wert im Langzeitregister 412 der Geräuschvergangenheitseinheit 411 zu zwischen etwa 10–30% seines Werts über eine Zeitspanne von etwa 1 Sekunde ab, während der Wert im Kurzzeitregister 410 der Geräuschvergangenheitseinheit 411 über eine Zeitspanne von zwischen etwa 25–100 ms abklingt.
  • In einigen Ausführungsformen der Erfindung klingen, wenn die VAD-Einheit 250 eine Anzeige liefert, dass das Stimmsignal keine Sprache enthält, die Werte in den Registern 410 und 412 der Signalvergangenheitseinheit 406 nicht ab. Fakultativ, wenn das Stimmsignal keine Sprache umfasst, werden die Register 410 nicht aktualisiert, selbst wenn der Eingangswert eine höhere Leistung als die Inhalte des Registers aufweist. Alternativ oder zusätzlich wird der Wert im Kurzzeitregister 410 auf Null gesetzt, ansprechend auf die Bestimmung, dass das Stimmsignal keine Sprache enthält. In einigen Ausführungsformen der Erfindung wird ein ähnliches Verhalten in der Geräuschvergangenheitseinheit 411 ausgeführt.
  • In einigen Ausführungsformen der Erfindung wird, anstatt dass der Wert in einem oder mehreren der Register 410 und 412 unmittelbar aktualisiert wird, wenn der empfangene Wert größer als der Inhalt des Registers ist, die Aktualisierung in Stufen ausgeführt, um keine zu jähe Aktualisierung zu verursachen. Fakultativ werden Aktualisierungen auf eine vorbestimmte Steigung begrenzt, die steiler als die Abklingsteigung ist.
  • Alternativ dazu, dass die Autoverstärkungseinheit 92 auf Grundlage der Leistungssignale {ESMi} und/oder {ENi} arbeitet, arbeitet die Autoverstärkungseinheit 92 auf Grundlage der Abtastwerte der Frequenzkomponenten. Fakultativ werden die Werte der Frequenzkomponenten addiert, und es wird ihr Quadrat genommen, und dieses Quadrat wird durch die Autoverstärkungseinheit 92 verwendet.
  • In einigen Ausführungsformen der Erfindung berechnet eine Mittelwertbildungseinheit 414 einen Mittelwert der Werte im Kurzzeitregister 410 und Langzeitregister 412, um den typischen Leistungswert Hs oder Hn zu erzeugen. In einigen Ausführungsformen der Erfindung berechnet die Mittelwertbildungseinheit 414 einen geometrischen Mittelwert. Alternativ berechnet die Mittelwertbildungseinheit 414 einen beliebigen anderen Mittelwert, wie z.B. einen arithmetischen Mittelwert oder einen Medianwert. Fakultativ umfasst weiter die Autoverstärkungseinheit 92 einen Dividierer 108 und eine Quadratwurzeleinheit 109, die die Quadratwurzel des Verhältnisses der Vergangenheitswerte berechnen, d.h.
    Figure 00410001
    um einen Verstärkungswert von dem Verhältnis der Leistungen zu liefern.
  • Alternativ zu nur den Registern 410 und 412 können die Vergangenheitseinheit 406 und/oder 411 mehr Register mit unterschiedlichen Abklingzeiten umfassen. Weiter alternativ oder zusätzlich kann ein beliebiges anderes Verfahren verwendet werden, um einen oder mehrere repräsentative typische Leistungswerte zu bestimmen.
  • In einigen Ausführungsformen der Erfindung umfasst die Autoverstärkungseinheit 92 eine Geräuschflachheitseinheit 407, die einen Flachheits(oder Dichte)-Anzeigewert (FLAT) über den Frequenzstreubereich des Geräuschs N(t) liefert. Der Verstärkungsfaktor Verstärkung1 steigt fakultativ linear mit dem Flachheitsanzeigewert an, so dass, wenn das Geräusch ein breiteres Spektrum aufweist, die Verstärkung größer ist. Fakultativ, wenn das Geräusch N(t) einem weißen Rauschen ähnelt, weist Verstärkung1 einen Wert nahe bei 1 auf, während, wenn das Geräusch einer Sinuswelle mit einer speziellen Frequenz ähnelt, Verstärkung1 einen niedrigen Wert, z.B. 0,2, aufweist.
  • In einigen Ausführungsformen der Erfindung berechnet die Geräuschflachheitseinheit 407 einen normierten Mittelwert NA der Frequenzkomponentengeräuschleistungswerte {ENi}. Fakultativ wird der Mittelwert normalisiert, indem er durch einen maximalen Leistungswert, d.h. maxi{ENi}, dividiert wird. In einer beispielhaften Ausführungsform der vorliegenden Erfindung wird die Flachheitzanzeige FLAT von dem normierten Mittelwert NA entsprechend der folgenden Gleichung berechnet:
  • Figure 00420001
  • In einigen Ausführungsformen der Erfindung wird die Flachheitsanzeige FLAT in der Zeit mit vorherigen Werten von FLAT gemittelt, um starke Fluktuationen in ihrem Wert zu verhindern. Fakultativ wird die Flachheitsanzeige unter Verwendung eines Tiefpassfilters ersten oder zweiten Grades mit Werten vorheriger Zeit gefiltert. Alternativ oder zusätzlich kann ein beliebiges anderes geeignetes zeitabhängiges Filter verwendet werden, um starke Fluktuationen zu verhindern.
  • Fakultativ erzeugt ein Multiplizierer 405 Verstärkung1 als das Produkt der Geräuschflachheitsanzeige FLAT, der Quadratwurzel des Verhältnisses der Vergangenheitswerte
    Figure 00420002
    und einer vorbestimmten konstanten Verstärkung (min Verstärkung).
  • In einigen Ausführungsformen der Erfindung beträgt die vorbestimmte konstante Verstärkung (min_Verstärkung) etwa 1. Alternativ liegt die vorbestimmte konstante Verstärkung (min_Verstärkung) zwischen etwa 2–2,5.
  • Die 5A und 5B stellen Kurven eines beispielhaften Stimmsignals 209 vor und nach einer Korrektur durch eine durch eine Formanteneinheit 93 erzeugte Verstärkung dar, gemäß einer Ausführungsform der vorliegenden Erfindung. Fakultativ identifiziert die Formanteneinheit 93 bis zu einer vorbestimmten Anzahl (z.B. drei) von Formanten, d.h. Hüllkurvenpeaks, des Stimmsignals S(t). Ein Auswählen bis zu der vorbestimmten Anzahl von Formanten umfasst fakultativ ein Beginnen von den unteren Frequenzbändern und ein Auswählen bis keine Formanten mehr gefunden werden oder bis die vorbestimmte Anzahl von Formanten gefunden wurde. In einer beispielhaften Ausführungsform der Erfindung identifiziert die Formanteneinheit 93 die Frequenzkomponenten, in denen die Formanten lokalisiert sind, auf Grundlage von Leistungssignalen {ESMi}. Z.B. identifiziert im Signal 209 die Formanteneinheit 93 eine Frequenzkomponente 3 (S3), eine Frequenzkomponente 8 (S8) und eine Frequenzkomponente 12 (S12), die die drei ersten Formanten umfassen.
  • Für jede der Frequenzkomponenten, in der die vorbestimmte Anzahl von Formanten lokalisiert sind, bestimmt die Formanteneinheit 93 fakultativ den SNR in der Frequenzkomponente, d.h. den Unterschied zwischen der Leistung des Geräuschsignals ENi 208 in der Frequenzkomponente und der Leistung des Stimmsignals ESMi 209 in der Frequenzkomponente. Fakultativ wählt die Formanteneinheit 93 die Frequenzkomponente, bei der der SNR am kleinsten ist (einschließlich am negativsten). Für das Signal 209 ist der SNR der Frequenzkomponente 8 am kleinsten. In einigen Ausführungsformen der Erfindung ist die Ausgangsverstärkung (Verstärkung2) der Formanteneinheit 93 gleich einer Verstärkung, die erforderlich ist, um den kleinsten SNR auf einen vorbestimmten Wert zu bringen, z.B. zwi schen etwa 3–6dB. Alternativ oder zusätzlich bringt die Ausgangsverstärkung (Verstärkung2) der Formanteneinheit 93 den SNR zu einem dynamisch eingestellten Pegel. Fakultativ wird der dynamisch eingestellte Pegel ansprechend auf den Pegel des Geräuschs, den Pegel des Stimmsignals S(t) und/oder ansprechend auf den Wert von Verstärkung1 eingestellt. Fakultativ wird die Ausgangsverstärkung (Verstärkung2) berechnet, indem die Quadratwurzel des Verhältnisses der Geräusch- und Signalleistungsverhältnisse genommen wird und mit einer konstanten Spanne zwischen etwa 2–4 (äquivalent zu 3–6dB) multipliziert wird.
  • Nach Multiplizieren des Signals 209 mit Verstärkung2 ist das Spektrum des Signals 209 wie in 5B dargestellt. Fakultativ, wenn der niedrigste SNR über einem vorbestimmten Schwellwert liegt, z.B. zwischen 3–6dB, wird Verstärkung2 auf 1 gesetzt. In einer beispielhaften Ausführungsform der Erfindung ist der vorbestimmte Schwellwert gleich dem Pegel, bis auf welchen Verstärkung2 den niedrigsten SNR bringt, wenn eine Verstärkung erforderlich ist. Alternativ ist der vorbestimmte Schwellwert von dem Pegel verschieden, bis auf welchen Verstärkung2 den niedrigsten SNR bringt, wenn eine Verstärkung erforderlich ist, z.B. kann der vorbestimmte Schwellwert niedriger sein. Verwenden eines niedrigeren vorbestimmten Schwellwert begrenzt die Fälle von Amplitudenänderungen, die ausgeführt werden, auf diejenigen Fälle, in denen die Änderungen wirklich erforderlich sind.
  • In einigen Ausführungsformen der Erfindung umfasst die vorbestimmte Anzahl von Formanten weniger als die Anzahl von Formanten im Stimmsignal S(t). Fakultativ umfasst die vorbestimmte Anzahl von Formanten zwischen 2–4, möglicherweise drei. Es wird angemerkt, dass ein Stimmsignal S(t) weniger als die vorbestimmte Anzahl von Formanten aufweisen kann. In einem solchen Fall wird die Bestimmung des niedrigsten SNR von unter den gefundenen Formanten ausgeführt, obwohl weniger als die vorbestimmte Anzahl von Formanten gefunden wurden.
  • Es wird angemerkt, dass die Formanteneinheit 93 in einigen Ausführungsformen verwendet werden kann, selbst wenn das System 30 mit Audiosignalen arbeitet, die keine Sprache enthalten, wie z.B. Musiksignale.
  • 6 ist eine schematische Kurve einer Verstärkung des Enhancefilters 112 gemäß einer Ausführungsform der vorliegenden Erfindung. Fakultativ werden, wie dargestellt, niedrige und hohe Frequenzen durch das Enhancefilter 112 gedämpft, während mittige Frequenzen verstärkt werden. In einigen Ausführungsformen der Erfindung wird die Gesamtleistung des Stimmsignals S(t) durch das Enhancefilter 112 nicht geändert. Fakultativ umfasst das Enhancefilter 112 einen Multiplizierer mit einer respektiven Verstärkung für jede Frequenzkomponente Si(t). Alternativ wird mindestens eine Gruppe einer Mehrzahl von Frequenzkomponenten mit einem einzigen Verstärkungsfaktor des Enhancefilters 112 multipliziert.
  • Alternativ zum Enhancefilter 112 mit der in 6 beschriebenen Verstärkung ist die Verstärkung des Enhancementfilters 112 entsprechend einer beliebigen anderen Funktion, die Sprachsignale verbessert und/oder Geräusch verringert. In einigen Ausführungsformen der Erfindung wird die Verstärkung des Enhancementfilters 112 auf Grundlage von Simulationen bestimmt. Alternativ oder zusätzlich wird die Verstärkung des Enhancementfilters 112 während einer Fabrikkalibrierung eingestellt. Weiter alternativ oder zusätzlich wird die Verstärkung des Enhancementfilters 112 periodisch aktualisiert, ansprechend auf Feldversuche. Weiter alternativ oder zusätzlich wird die Verstärkung des Enhancementfilters 112 durch den Benutzer eingestellt. Diese Alternative ist besonders für Hörgeschädigte nützlich.
  • 7 ist eine schematische Kurve eines beispielhaften Geräuschleistungssignalsspektrums 122 und eines überdeckten Geräuschleistungssignalspektrums 123 gemäß einer Ausführungsform der vorliegenden Erfindung. Die Überdeckungseinheit 119 findet fakultativ spektrale Peaks 251 des Signalspektrums 122 und berechnet für jeden Peak 251 ein Paar von Linien 301 und 302, die von dem Peak in entgegengesetzten Richtungen mit einer vorbestimmten Steigung abwärts verlaufen. Fakultativ liegt die vorbestimmte Steigung zwischen etwa 40–60dB/Dekade. Alternativ oder zusätzlich weisen die Linien 301 und 302 von unterschiedlichen Peaks 251 unterschiedliche Steigungen auf, entsprechend akustischen Überlegungen. Weiter alternativ oder zusätzlich weisen die Linien 301 und 302 unterschiedliche Steigungen für einen selben Peak auf, z.B. entsprechend akustischen Überlegungen. Das überdeckte Geräuschleistungssignalspektrum 123 ist an jedem Punkt fakultativ gleich dem Maximalwert der Linien 301 und 302 an dem Punkt. Alternativ ist das überdeckte Geräuschleistungssignalspektrum 123 an jedem Punkt fakultativ gleich dem Maximalwert der Linien 301 und 302 und des Spektrums 122 an dem Punkt. Fakultativ arbeitet die Überdeckungseinheit 119 in Echtzeit, wobei für jede Frequenzkomponente statt des ursprünglichen Geräuschleistungswerts ein Überdeckungswert geliefert wird.
  • Alternativ wird eine beliebige andere Überdeckungseinheit, die die Wechselwirkung von Frequenzen beim menschlichen Ohr berücksichtigt, verwendet. Weiter alternativ wird die Überdeckungseinheit 119 nicht verwendet, z.B., wenn die Anzahl von Frequenzkomponenten verhältnismäßig niedrig ist und/oder die Filter 64, wie in 2B dargestellt, beim Erzeugen der Frequenzkomponentenwerte verwendet werden. Wenn die Filter 64 beim Erzeugen der Frequenzkomponentenwerte verwendet werden, kann die Struktur der Filter im Allgemeinen konstruiert werden, um die Überdeckungsaufgabe auszuführen.
  • In einigen Ausführungsformen der Erfindung, z.B. in denen das Mikrofon 34 und der Lautsprecher 32 zu einem Telefon gehören, umfasst das System 30 einen Sprachdetektor, der bestimmt, wenn der Benutzer des Telefons spricht. Fakultativ wird, wenn der Benutzer spricht, das System 30 außerstand gesetzt, das Stimmfernsignal S(t) zu korrigieren. Folglich verknüpft das System 30 das Gespäch des Benutzers nicht mit Geräusch, und folglich zwingt es die Amplitude des empfangenen Stimmfernsignals nicht über die Gesprächslaute des Benutzers.
  • 8 ist ein schematisches Blockdiagramm eines Sprachdetektors 81 gemäß einer Ausführungsform der vorliegenden Erfindung. Der Sprachdetektor 81 empfängt fakultativ die Signale vom Mikrofon 34 und bestimmt, wann die empfangenen Signale Sprachlaute umfassen. In einigen Ausführungsformen der Erfindung umfasst der Sprachdetektor 81 einen Peakdetektor 82 und/oder einen Steigungsdetektor 84, der bestimmt, wann die empfangenen Signale Sprachsignale enthalten. Fakultativ vergleicht der Peakdetektor 82 das empfangene Signal mit einem Schwellwert und liefert eine Sprachanzeige, wann das empfangene Signal über dem Schwellwert liegt. Der Steigungsdetektor 84 folgt fakultativ der Steigung der Amplitude der empfangenen Signale. In einigen Ausführungsformen der Erfindung liefert der Steigungsdetektor 84 eine Sprachstartanzeige, wenn die Steigung jenseits einer vorbestimmten ansteigenden Steigung ist, und eine Sprachendeanzeige, wenn die Steigung jenseits einer vorbestimmten abnehmenden Steigung ist.
  • Fakultativ empfängt eine Sprachlogikeinheit 86 die Anzeigen. In einigen Ausführungsformen der Erfindung, wenn sowohl eine Sprachstartanzeige als auch eine Sprachanzeige empfangen werden, deaktiviert die Logikeinheit 86 die Signalkorrektur des Systems 30. Fakultativ, wenn eine Sprachendeanzeige empfangen wird und keine Sprachanzeige empfangen wird, beginnt die Logikeinheit 86 eine Zählperiode von etwa zwischen 0,5–1,2 Sekunden, fakultativ 1 Sekunde, wonach die Signalkorrektur des Systems 30 aktiviert wird. Die Signalkorrektur des Systems 30 wird fakultativ nur aktiviert, wenn eine Sprachstartanzeige zusammen mit einer Sprachanzeige während der Zählperiode nicht empfangen werden. Folglich, wenn der Benutzer spricht, wird das Stimmsignal S(t) von der entfernt angeordneten Personengruppe nicht verbessert, um über das Ge spräch des Benutzers zu obsiegen.
  • In einigen Ausführungsformen der Erfindung umfasst eine Deaktivierung der Signalkorrektur durch das System 30 ein Einstellen des VAD-Signals des Stimmfernsignals S(t) auf 'keine Sprache', ohne Rücksicht darauf, ob das Stimmfernsignal S(t) tatsächlich Sprachsignale umfasst. Alternativ oder zusätzlich umfasst eine Deaktivierung der Signalkorrektur durch das System 30 ein Setzen von b1 auf Null.
  • In einigen Ausführungsformen der Erfindung wird der durch den Peakdetektor 82 verwendete Schwellwert adaptiv eingestellt, ansprechend auf Messungen des empfangenen Signals, wenn es keine Sprache gibt. Fakultativ mittelt eine Geräuschmittelwertbildungseinheit 87 die Amplitude des empfangenen Signals während einer kurzzurückliegenden Zeitspanne, in der die Logikeinheit 86 bestimmte, dass das von dem Mikrofon 34 empfangene Signal keine Sprache enthält. In einigen Ausführungsformen der Erfindung wird das Mittelwertbilden durch einen Integrierer ausgeführt. Der Schwellwert, der durch den Peakdetektor 82 verwendet wird, befindet sich fakultativ um einen vorbestimmten Abstand über dem mittleren Geräuschpegel von der Geräuschmittelwertbildungseinheit 87. Die Verwendung eines adaptiven Schwellwerts ist für Fälle vorteilhaft, in denen Benutzer lauter sprechen, wenn das Umgebungsgeräusch hoch ist, und leiser sprechen, wenn das Geräusch niedrig ist.
  • In einigen Ausführungsformen der Erfindung wird das in den Peakdetektor 82 eintretende Signal durch ein Tiefpassfilter (LPF) 88 geschickt, um Übergangsänderungen im empfangenen Signal daran zu hindern, den Ausgang der Logikeinheit 86 zu beeinflussen. Alternativ oder zusätzlich werden die in den Peakdetektor 82 und/oder den Steigungsdetektor 84 eintretenden Signale durch eine Hysteresefunktion geschickt, um Übergangssignale daran zu hindern, den Ausgang zu beeinflussen.
  • In einigen Ausführungsformen der Erfindung weisen die vorbestimmten ansteigenden und abfallenden Steigungen dieselbe Größe auf, z.B. etwa 0,5·Max_Amplitude/200 ms, wobei Max_Amplitude ein vorbestimmter maximaler Wert von Sprachsignalen ist, der durch das Mikrofon 34 empfangen wird, oder eine maximale Amplitude für einen augenblicklichen Lautsprecher. Alternativ oder zusätzlich weisen die vorbestimmten ansteigenden und abfallende Steigungen unterschiedliche Größen auf.
  • Alternativ oder zusätzlich zur Verwendung des Sprachdetektors 81 kann ein beliebiger anderer Sprachdetektor oder VAD verwendet werden, wie z.B. ein Detektor, der dem VAD 250 ähnelt, und/oder wie in dem oben erwähnten US-Patent 5,524,148 beschrieben. Weiter alternativ oder zusätzlich kann der Sprachdetektor 81 oder eine Variation davon statt dem VAD 250 verwendet werden. Weiter alternativ wird der Sprachdetektor 81 nicht verwendet. Wenn der Lautsprecher 32 benachbart zum Mikrofon 34 lokalisiert ist, kann diese Alternative bewirken, dass das System 30 das Gespräch des Benutzers kompensiert, so dass die empfangenen Signale verbessert werden, selbst wenn der Benutzer spricht.
  • In den oben beschriebenen Ausführungsformen wurde das System 30 so beschrieben, dass es sieben Einheiten aufweist, nämlich die Enhancementeinheit 91, die Autoverstärkungseinheit 92, die Formanteneinheit 93, die Komprimierungseinheit 94, den Begrenzer 100, das Enhancementfilter 112 und die Gewichtsbestimmungseinheit 138, die das Stimmsignal S(t) entweder direkt oder indirekt durch Berechnung einer Verstärkung für das Stimmsignal S(t) beeinflussen. Es wird angemerkt, dass bei einigen Ausführungsformen der Erfindung die Enhancementeinheit 91, das Enhancementfilter 112 und der Begrenzer 100 ungeachtet des Eingangsgeräuschs arbeiten, während die Autoverstärkungseinheit 92, die Gewichtsbestimmungseinheit 138, die Formanteneinheit 93 und die Komprimierungseinheit 94 Verstärkungswerte bereitstellen, die vom Geräusch abhängen.
  • Folglich ändern in diesen Ausführungsformen der Erfindung Einheiten, die das Stimmsignal S(t) ansprechend auf das Eingangsgeräusch ändern, entweder das ganze Stimmsignal S(t) mit derselben Verstärkung (z.B. die Einheiten 92 und 93) oder bewirken nicht, dass sich die relativen Positionen der Peaks des Stimmsignals ändern (z.B. die Einheit 94). Folglich bewirken die geräuschabhängigen Korrekturen keine Signalverzerrung. In einigen Ausführungsformen der Erfindung wird die Komprimierungseinheit 94 nicht verwendet, und deshalb verstärken sämtliche geräuschabhängigen Korrekturen im Wesentlichen das ganze Signal mit derselben Verstärkung.
  • Allgemein bestimmen die Einheiten 92 und 93 die Verstärkungsfaktoren, die Enhancementeinheit 91 und das Enhancefilter 112 führen eine Vorverzerrung aus, die vom Eingangsgeräusch unabhängig ist, und die Komprimierungseinheit 94, der Begrenzer 100 und die Gewichtsbestimmungseinheit 138 sparen Energie.
  • Alternativ dazu, dass die Verstärkung {gi} der Multiplikationseinheit 117, sowohl geräuschabhängige als auch geräuschunabhängige Faktoren umfasst, umfasst in einigen Ausführungsformen der Erfindung die Verstärkung der Multiplikationseinheit 117 nur geräuschabhängige Faktoren. Geräuschunabhängige Faktoren, wie sie durch die Enhancementeinheit 91 erzeugt werden, werden fakultativ durch das Enhancementfilter 112 und/oder durch einen separaten Multiplizierer angewandt. Alternativ oder zusätzlich wird die Enhancementeinheit 91 nicht verwendet. In einigen Ausführungsformen der Erfindung, z.B. in denen die Komprimierungseinheit 94 nicht verwendet wird, ist die Verstärkung der Multiplikationseinheit 117 für im Wesentlichen sämtliche Frequenzkomponenten dieselbe.
  • In einigen Ausführungsformen der Erfindung ist die Geräuschkompensation der vorliegenden Erfindung mit aktiven Geräuschunterdrückungsverfahren kombiniert. Fakultativ beruht die Geräuschveranschlagung, die beim Korrigieren des Stimmsignals S(t) verwendet wird, gemäß Ausführungsformen der vorliegenden Erfindung, auf dem aktiv unterdrückten Geräusch. Alternativ beruht die Geräuschveranschlagung auf dem ursprünglichen Geräusch vor einer Korrektur.
  • Es wird angemerkt, dass die oben beschriebenen Ausführungsformen unter Verwendung von Hardware, Software oder einer Kombination davon implementiert werden können. Das Verarbeiten kann ein digitales Verarbeiten, analoges Verarbeiten oder eine Kombination davon umfassen. Insbesondere können die oben beschrieben Filter analoge oder digitale Filter sein.
  • Es ist ersichtlich, dass die oben beschriebenen Verfahren auf viele Weisen variiert werden können, einschließlich eines gleichzeitigen Ausführens einer Mehrzahl von Schritten, Ändern der Reihenfolge von Schritten und Ändern der genauen Implementierung, die verwendet wird. Z.B., wenn eine FFT verwendet wird, um die Frequenzkomponentenwerte zu erzeugen, können die Werte von ein paar benachbarten FFT-Werten hinzugefügt werden, um Frequenzkomponentenwerte einer kleineren Anzahl von Frequenzkomponenten zu erzeugen. Es sollte auch ersichtlich sein, dass die oben beschriebene Beschreibung von Verfahren und Vorrichtungen so interpretiert werden soll, dass sie Vorrichtungen zum Durchführen der Verfahren und Verfahren zur Verwendung der Vorrichtungen umfassen.

Claims (22)

  1. Verfahren zum Verarbeiten eines Audiosignals, um Hintergrundgeräusche zu überwinden, die nicht zum Audiosignal gehören, umfassend: Vergleichen eines Maßes des Audiosignals in einer Frequenzkomponente des Audiosignals mit einem Maß des Geräuschs in einer Frequenzkomponente des Hintergrundgeräuschs; Bestimmen einer Verstärkung, ansprechend auf den Vergleich; und Verstärken von mindestens einem Teil des Audiosignals, umfassend mindestens ein Frequenzsegment, das nicht in der Frequenzkomponente des Audiosignals enthalten ist, durch die bestimmte Verstärkung.
  2. Verfahren nach Anspruch 1, bei dem das Maß des Audiosignals eine Leistung des Audiosignals umfasst.
  3. Verfahren nach Anspruch 1 oder Anspruch 2, bei dem das Maß des Geräuschs in der Frequenzkomponente des Hintergrundgeräuschs eine Leistung einer Überdeckungsversion des Geräuschs umfasst.
  4. Verfahren nach einem der vorangehenden Ansprüche, bei dem ein Verstärken des mindestens einen Teils des Signals ein Verstärken eines Teils umfasst, der die verglichene Frequenzkomponente des Audiosignals enthält.
  5. Verfahren nach Anspruch 4, bei dem ein Verstärken des mindestens einen Teils des Signals ein Verstärken des ganzen Audiosignals um die bestimmte Verstärkung umfasst.
  6. Verfahren nach einem der vorangehenden Ansprüche, bei dem ein Bestimmen der anzuwendenden Verstärkung ein Bestimmen einer Verstärkung umfasst, die den Störabstand im Frequenz band der Frequenzkomponente des Audiosignals bis zu über einen Schwellwert bringen würde.
  7. Verfahren nach Anspruch 6, bei dem der Schwellwert dynamisch eingestellt wird, wenn sich das Signal- und/oder Geräuschmaß mit der Zeit ändert.
  8. Verfahren nach Anspruch 6, bei dem der Schwellwert ein vorbestimmter Wert ist.
  9. Verfahren nach einem der vorangehenden Ansprüche, bei dem ein Vergleichen eines Maßes des Audiosignals in einer Frequenzkomponente des Audiosignals ein Vergleichen in einer Frequenzkomponente umfasst, die einen Formanten des Audiosignals enthält.
  10. Verfahren nach Anspruch 9, bei dem ein Vergleichen in einer Frequenzkomponente, die einen Formanten des Audiosignals enthält, ein Vergleichen in einer Frequenzkomponente eines Frequenzbands mit einem geringsten Störabstand (SNR) unter einer Mehrzahl von Frequenzkomponenten des Audiosignals umfasst.
  11. Verfahren nach einem der vorangehenden Ansprüche, umfassend ein Aufteilen des Audiosignals in eine Mehrzahl von Frequenzkomponenten und Auswählen von weniger als sämtlichen Frequenzkomponenten.
  12. Verfahren nach Anspruch 11, bei dem ein Auswählen von weniger als sämtlichen Frequenzkomponenten ein Auswählen von Frequenzkomponenten, die Formanten des Audiosignals enthalten, umfasst.
  13. Verfahren nach Anspruch 12, bei dem ein Auswählen von Frequenzkomponenten, die Formanten des Audiosignals enthalten, ein Auswählen bis zu einer vorbestimmten Anzahl von Frequenzkomponenten, die Formanten enthalten, umfasst.
  14. Verfahren nach einem der Ansprüche 11–13, umfassend ein Wählen der Frequenzkomponente des Audiosignals aus den ausgewählten Frequenzkomponenten.
  15. Verfahren nach einem der vorangehenden Ansprüche, bei dem ein Verstärken des mindestens einen Teils des Audiosignals ein Verstärken um eine Verstärkung umfasst, die aus einer Mehrzahl von Verstärkungen kombiniert wird, einschließlich der Verstärkung, die ansprechend auf den Vergleich bestimmt wird.
  16. Verfahren nach einem der vorangehenden Ansprüche, umfassend ein Ertönenlassen des verstärkten Signals in der Anwesenheit des Hintergrundgeräuschs.
  17. Verfahren nach einem der vorangehenden Ansprüche, bei dem die Frequenzkomponente des Audiosignals und die Frequenzkomponente des Geräuschs im Wesentlichen dasselbe Frequenzband überspannen.
  18. Verfahren nach einem der vorangehenden Ansprüche, bei dem die Frequenzkomponente des Audiosignals ein Band von Frequenzen umfasst.
  19. Geräuschkompensationssystem, umfassend: eine Eingangsschnittstelle, die angepasst ist, um ein Audiosignal zu empfangen; einen Lautsprecher, der angepasst ist, um ein verbessertes Audiosignal ertönen zu lassen; ein Mikrofon, das angepasst ist, um Hintergrundgeräusch einzufangen, das einen Hörer beeinträchtigen kann, der dem verbesserten Signal lauscht; und einen Kontroller, der angepasst ist, um ein Maß des Audiosignals in einer Frequenzkomponente des Audiosignals mit einem Maß des Hintergrundgeräuschs in derselben Frequenzkomponente zu vergleichen, eine Verstärkung ansprechend auf den Vergleich zu bestimmen und mindestens einen Teil des Audio signals, einschließlich mindestens eines Segments, das sich nicht in der Frequenzkomponente befindet, um die bestimmte Verstärkung zu verstärken, um das verbesserte Audiosignal bereitzustellen.
  20. System nach Anspruch 19, bei dem der Lautsprecher und das Mikrofon Teil eines Telefonhandapparats sind.
  21. System nach Anspruch 19 oder Anspruch 20, umfassend eine Echoausgleichvorrichtung, die mindestens ein Echo des verbesserten Audiosignals aus dem Hintergrundgeräusch entfernt.
  22. System nach Anspruch 21, bei dem die Echoausgleichvorrichtung nur ein einziges Echo des verbesserten Audiosignals aus dem Hintergrundgeräusch entfernt.
DE60108401T 2000-08-14 2001-08-14 System zur erhöhung der sprachqualität Expired - Fee Related DE60108401T2 (de)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US22451300P 2000-08-14 2000-08-14
US224513P 2000-08-14
US23672100P 2000-10-02 2000-10-02
US236721P 2000-10-02
PCT/IL2001/000759 WO2002015395A1 (en) 2000-07-27 2001-08-14 Voice enhancement system

Publications (2)

Publication Number Publication Date
DE60108401D1 DE60108401D1 (de) 2005-02-17
DE60108401T2 true DE60108401T2 (de) 2006-04-06

Family

ID=26918789

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60108401T Expired - Fee Related DE60108401T2 (de) 2000-08-14 2001-08-14 System zur erhöhung der sprachqualität

Country Status (10)

Country Link
US (1) US20040057586A1 (de)
EP (2) EP1312162B1 (de)
JP (1) JP2004507141A (de)
KR (1) KR100860805B1 (de)
CN (1) CN100397781C (de)
AT (1) ATE287141T1 (de)
AU (1) AU2001282454A1 (de)
DE (1) DE60108401T2 (de)
IL (1) IL154397A0 (de)
WO (1) WO2002015395A1 (de)

Families Citing this family (75)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6353671B1 (en) * 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
DE10232645A1 (de) 2002-07-18 2004-02-05 Harman/Becker Automotive Systems Gmbh (Straubing Division) Schaltungsanordnung zur Verringerung des Dynamikbereichs von Audiosignalen
US7613310B2 (en) * 2003-08-27 2009-11-03 Sony Computer Entertainment Inc. Audio input system
EP1833163B1 (de) 2004-07-20 2019-12-18 Harman Becker Automotive Systems GmbH Audioverbesserungssystem und -verfahren
JP4381291B2 (ja) * 2004-12-08 2009-12-09 アルパイン株式会社 車載用オーディオ装置
US7983720B2 (en) * 2004-12-22 2011-07-19 Broadcom Corporation Wireless telephone with adaptive microphone array
US20060135085A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone with uni-directional and omni-directional microphones
US8509703B2 (en) * 2004-12-22 2013-08-13 Broadcom Corporation Wireless telephone with multiple microphones and multiple description transmission
US20060147063A1 (en) * 2004-12-22 2006-07-06 Broadcom Corporation Echo cancellation in telephones with multiple microphones
US20060133621A1 (en) * 2004-12-22 2006-06-22 Broadcom Corporation Wireless telephone having multiple microphones
US8170221B2 (en) 2005-03-21 2012-05-01 Harman Becker Automotive Systems Gmbh Audio enhancement system and method
US7835773B2 (en) * 2005-03-23 2010-11-16 Kyocera Corporation Systems and methods for adjustable audio operation in a mobile communication device
DE602005015426D1 (de) 2005-05-04 2009-08-27 Harman Becker Automotive Sys System und Verfahren zur Intensivierung von Audiosignalen
US20070112563A1 (en) * 2005-11-17 2007-05-17 Microsoft Corporation Determination of audio device quality
GB2433849B (en) * 2005-12-29 2008-05-21 Motorola Inc Telecommunications terminal and method of operation of the terminal
JP4738213B2 (ja) 2006-03-09 2011-08-03 富士通株式会社 利得調整方法及び利得調整装置
JP4306708B2 (ja) * 2006-09-25 2009-08-05 ヤマハ株式会社 オーディオ信号処理装置
WO2008111462A1 (ja) * 2007-03-06 2008-09-18 Nec Corporation 雑音抑圧の方法、装置、及びプログラム
JP5034595B2 (ja) * 2007-03-27 2012-09-26 ソニー株式会社 音響再生装置および音響再生方法
JP4580409B2 (ja) 2007-06-11 2010-11-10 富士通株式会社 音量制御装置および方法
KR100911610B1 (ko) * 2007-07-20 2009-08-07 에스케이 텔레콤주식회사 수신 음성 인지율 향상을 위한 음성 처리 장치 및 방법
US8428661B2 (en) * 2007-10-30 2013-04-23 Broadcom Corporation Speech intelligibility in telephones with multiple microphones
JP4926005B2 (ja) 2007-11-13 2012-05-09 ソニー・エリクソン・モバイルコミュニケーションズ株式会社 音声信号処理装置及び音声信号処理方法、通信端末
PL2232700T3 (pl) 2007-12-21 2015-01-30 Dts Llc System regulacji odczuwanej głośności sygnałów audio
KR101599875B1 (ko) * 2008-04-17 2016-03-14 삼성전자주식회사 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 부호화 방법 및 장치, 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 복호화 방법 및 장치
KR20090110242A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 신호를 처리하는 방법 및 장치
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
US9373339B2 (en) * 2008-05-12 2016-06-21 Broadcom Corporation Speech intelligibility enhancement system and method
US9197181B2 (en) * 2008-05-12 2015-11-24 Broadcom Corporation Loudness enhancement system and method
EP2352225A1 (de) 2008-10-17 2011-08-03 Sharp Kabushiki Kaisha Vorrichtung zur tonsignaleinstellung und verfahren zur tonsignaleinstellung
CN101789797A (zh) * 2009-01-22 2010-07-28 浙江安迪信信息技术有限公司 无线通信抗干扰系统
US8626516B2 (en) * 2009-02-09 2014-01-07 Broadcom Corporation Method and system for dynamic range control in an audio processing system
JP5197458B2 (ja) * 2009-03-25 2013-05-15 株式会社東芝 受音信号処理装置、方法およびプログラム
CN101859568B (zh) * 2009-04-10 2012-05-30 比亚迪股份有限公司 一种语音背景噪声的消除方法和装置
US9093968B2 (en) * 2009-05-29 2015-07-28 Sharp Kabushiki Kaisha Sound reproducing apparatus, sound reproducing method, and recording medium
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
US8204742B2 (en) 2009-09-14 2012-06-19 Srs Labs, Inc. System for processing an audio signal to enhance speech intelligibility
EP2478444B1 (de) * 2009-09-14 2018-12-12 DTS, Inc. System zur adaptiven verarbeitung von sprachverständlichkeit
EP2486567A1 (de) 2009-10-09 2012-08-15 Dolby Laboratories Licensing Corporation Automatische erzeugung von metadaten für audiodominanzeffekte
JPWO2011048741A1 (ja) * 2009-10-20 2013-03-07 日本電気株式会社 マルチバンドコンプレッサ
EP2518723A4 (de) * 2009-12-21 2012-11-28 Fujitsu Ltd Sprachsteuerung und sprachsteuerungsverfahren
US20120020483A1 (en) * 2010-07-23 2012-01-26 Deshpande Sachin G System and method for robust audio spatialization using frequency separation
US8798278B2 (en) 2010-09-28 2014-08-05 Bose Corporation Dynamic gain adjustment based on signal to ambient noise level
KR101115559B1 (ko) * 2010-11-17 2012-03-06 연세대학교 산학협력단 통화 품질 향상 방법 및 장치
CN103004084B (zh) * 2011-01-14 2015-12-09 华为技术有限公司 用于语音质量增强的方法及设备
US8761674B2 (en) * 2011-02-25 2014-06-24 Timothy R. Beevers Electronic communication system that mimics natural range and orientation dependence
EP2737479B1 (de) 2011-07-29 2017-01-18 Dts Llc Adaptive sprachverständlichkeitsverbesserung
TWI451405B (zh) * 2011-10-20 2014-09-01 Kuo Ping Yang 增進語音即時輸出之方法及助聽器
US9167361B2 (en) * 2011-11-22 2015-10-20 Cochlear Limited Smoothing power consumption of an active medical device
US20130148811A1 (en) * 2011-12-08 2013-06-13 Sony Ericsson Mobile Communications Ab Electronic Devices, Methods, and Computer Program Products for Determining Position Deviations in an Electronic Device and Generating a Binaural Audio Signal Based on the Position Deviations
US20130336497A1 (en) * 2012-04-04 2013-12-19 Clinkle Corporation Dynamic sonic signal intensity adjustment
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
KR101424327B1 (ko) * 2012-05-15 2014-07-31 고려대학교 산학협력단 잡음 제거 장치 및 방법
CN102779527B (zh) * 2012-08-07 2014-05-28 无锡成电科大科技发展有限公司 基于窗函数共振峰增强的语音增强方法
WO2014035845A2 (en) * 2012-09-02 2014-03-06 QoSound, Inc. Adaptive audio signal shaping for improved playback in a noisy environment
US9270801B2 (en) * 2013-03-15 2016-02-23 Intel Corporation Low power audio trigger via intermittent sampling
WO2015038975A1 (en) * 2013-09-12 2015-03-19 Saudi Arabian Oil Company Dynamic threshold methods, systems, computer readable media, and program code for filtering noise and restoring attenuated high-frequency components of acoustic signals
CN104155644B (zh) * 2014-08-20 2017-01-25 西安电子科技大学 一种基于声音传感器的测距方法及系统
US10013997B2 (en) * 2014-11-12 2018-07-03 Cirrus Logic, Inc. Adaptive interchannel discriminative rescaling filter
EP3204945B1 (de) * 2014-12-12 2019-10-16 Huawei Technologies Co. Ltd. Signalverarbeitungsvorrichtung zur verbesserung einer sprachkomponente in einem mehrkanal-audiosignal
US9479650B1 (en) * 2015-05-04 2016-10-25 Captioncall, Llc Methods and devices for updating filter coefficients during echo cancellation
US9847093B2 (en) 2015-06-19 2017-12-19 Samsung Electronics Co., Ltd. Method and apparatus for processing speech signal
CN105872884B (zh) * 2016-05-24 2019-09-06 Tcl通力电子(惠州)有限公司 耳机、耳机的下行降噪电路及方法
KR102478951B1 (ko) * 2017-09-04 2022-12-20 삼성전자주식회사 비선형 특성을 갖는 오디오 필터를 이용하여 오디오 신호를 처리하는 방법 및 장치
CN107799122B (zh) * 2017-09-08 2020-10-23 中国科学院深圳先进技术研究院 一种高生物拟真性语音处理滤波器与语音识别设备
WO2019083130A1 (ko) 2017-10-25 2019-05-02 삼성전자주식회사 전자 장치 및 그 제어 방법
CN108369805B (zh) * 2017-12-27 2019-08-13 深圳前海达闼云端智能科技有限公司 一种语音交互方法、装置和智能终端
JP7186375B2 (ja) * 2018-03-29 2022-12-09 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法および音声処理システム
KR102132734B1 (ko) * 2018-04-16 2020-07-13 주식회사 이엠텍 음성 지문을 이용한 음성 증폭 장치
US20210072378A1 (en) * 2018-06-05 2021-03-11 Google Llc Systems and methods of ultrasonic sensing in smart devices
CN112166350B (zh) * 2018-06-05 2023-12-05 谷歌有限责任公司 智能设备中的超声感测的系统和方法
US10859691B2 (en) * 2018-08-22 2020-12-08 Infineon Technologies Ag Radar range accuracy improvement method
CN110931028B (zh) * 2018-09-19 2024-04-26 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
US11393460B2 (en) * 2020-11-09 2022-07-19 Gulfstream Aerospace Corporation Aircraft speech amplitude compensation
US20230412727A1 (en) * 2022-06-20 2023-12-21 Motorola Mobility Llc Adjusting Transmit Audio at Near-end Device Based on Background Noise at Far-end Device

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4061874A (en) * 1976-06-03 1977-12-06 Fricke J P System for reproducing sound information
US4381488A (en) 1981-02-18 1983-04-26 Fricke Jobst P Dynamic volume expander varying as a function of ambient noise level
US4476571A (en) * 1981-06-15 1984-10-09 Pioneer Electronic Corporation Automatic sound volume control device
US4468804A (en) * 1982-02-26 1984-08-28 Signatron, Inc. Speech enhancement techniques
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US4630302A (en) 1985-08-02 1986-12-16 Acousis Company Hearing aid method and apparatus
DE3730763A1 (de) * 1987-09-12 1989-03-30 Blaupunkt Werke Gmbh Schaltung zur stoergeraeuschkompensation
US4829565A (en) * 1987-10-20 1989-05-09 Goldberg Robert M Telephone with background volume control
US5212764A (en) * 1989-04-19 1993-05-18 Ricoh Company, Ltd. Noise eliminating apparatus and speech recognition apparatus using the same
US5050217A (en) * 1990-02-16 1991-09-17 Akg Acoustics, Inc. Dynamic noise reduction and spectral restoration system
JP2541062B2 (ja) * 1991-11-28 1996-10-09 ヤマハ株式会社 音響再生装置
FR2688371B1 (fr) * 1992-03-03 1997-05-23 France Telecom Procede et systeme de spatialisation artificielle de signaux audio-numeriques.
JP3306600B2 (ja) * 1992-08-05 2002-07-24 三菱電機株式会社 自動音量調整装置
JPH06289897A (ja) * 1993-03-31 1994-10-18 Sony Corp 音声信号処理装置
US5434922A (en) * 1993-04-08 1995-07-18 Miller; Thomas E. Method and apparatus for dynamic sound optimization
TW232116B (en) * 1993-04-14 1994-10-11 Sony Corp Method or device and recording media for signal conversion
WO1995002288A1 (en) * 1993-07-07 1995-01-19 Picturetel Corporation Reduction of background noise for speech enhancement
JP3309008B2 (ja) * 1993-08-24 2002-07-29 アルパイン株式会社 オーディオ装置
US5485515A (en) * 1993-12-29 1996-01-16 At&T Corp. Background noise compensation in a telephone network
US5526419A (en) * 1993-12-29 1996-06-11 At&T Corp. Background noise compensation in a telephone set
KR970011727B1 (en) * 1994-11-09 1997-07-14 Daewoo Electronics Co Ltd Apparatus for encoding of the audio signal
US5636272A (en) * 1995-05-30 1997-06-03 Ericsson Inc. Apparatus amd method for increasing the intelligibility of a loudspeaker output and for echo cancellation in telephones
JPH09116362A (ja) * 1995-10-19 1997-05-02 Matsushita Electric Ind Co Ltd 自動音量制御装置
JPH1070600A (ja) * 1996-08-26 1998-03-10 Kokusai Electric Co Ltd 電話機
US6141415A (en) * 1996-10-11 2000-10-31 Texas Instruments Incorporated Method and apparatus for detecting speech at a near-end of a communications system, a speaker-phone system, or the like
JP2874679B2 (ja) * 1997-01-29 1999-03-24 日本電気株式会社 雑音消去方法及びその装置
FR2762746B1 (fr) * 1997-04-25 1999-07-09 France Telecom Procede et systeme de radio telephone mobile numerique et terminal utilisable dans un tel systeme
US6035048A (en) * 1997-06-18 2000-03-07 Lucent Technologies Inc. Method and apparatus for reducing noise in speech and audio signals
JP2000069127A (ja) * 1998-08-20 2000-03-03 Matsushita Electric Ind Co Ltd 音響センサー付携帯電話装置
ATE356469T1 (de) * 1999-07-28 2007-03-15 Clear Audio Ltd Verstärkungsregelung von audiosignalen in lärmender umgebung mit hilfe einer filterbank
JP3981223B2 (ja) * 1999-11-08 2007-09-26 アルパイン株式会社 オーディオ音補正装置
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US7578131B2 (en) * 2005-06-30 2009-08-25 United Technologies Corporation Augmentor spray bar mounting
JP2007096002A (ja) * 2005-09-29 2007-04-12 Matsushita Electric Ind Co Ltd 半導体装置の製造方法および半導体装置
JP4794262B2 (ja) * 2005-09-30 2011-10-19 株式会社ジェイテクト トルク検出装置及びこれを用いた電動パワーステアリング装置

Also Published As

Publication number Publication date
US20040057586A1 (en) 2004-03-25
KR20030040399A (ko) 2003-05-22
AU2001282454A1 (en) 2002-02-25
WO2002015395A1 (en) 2002-02-21
EP1312162B1 (de) 2005-01-12
DE60108401D1 (de) 2005-02-17
ATE287141T1 (de) 2005-01-15
JP2004507141A (ja) 2004-03-04
CN100397781C (zh) 2008-06-25
EP1526639A3 (de) 2006-03-01
CN1620751A (zh) 2005-05-25
EP1526639A2 (de) 2005-04-27
KR100860805B1 (ko) 2008-09-30
EP1312162A1 (de) 2003-05-21
IL154397A0 (en) 2003-09-17

Similar Documents

Publication Publication Date Title
DE60108401T2 (de) System zur erhöhung der sprachqualität
DE60116255T2 (de) Rauschunterdückungsvorrichtung und -verfahren
EP1143416B1 (de) Geräuschunterdrückung im Zeitbereich
DE602004004242T2 (de) System und Verfahren zur Verbesserung eines Audiosignals
EP0290952B1 (de) Schaltungsanordnung zur Sprachsteuerung für ein Endgerät der Nachrichtentechnik
DE60034212T2 (de) Verfahren und vorrichtung zur adaptiven rauschunterdrückung
DE602004005234T2 (de) System und verfahren zur signalverarbeitung
DE2207141C3 (de) Schaltungsanordnung zur Unterdrückung unerwünschter Sprachsignale mittels eines vorhersagenden Filters
EP0698986A2 (de) Verfahren zur adaptiven Echokompensation
EP0742664A2 (de) Freisprechverfahren für ein mehrkanaliges Übertragungssystem
EP0614304A1 (de) Verfahren zum Verbessern der akustischen Rückhördämpfung von elektroakustischen Anlagen
EP0668007A1 (de) Mobilfunkgerät mit freisprecheinrichtung
DE112007003625T5 (de) Echounterdrückungsvorrichtung, echounterdrückungssystem, Echounterdrückungsverfahren und Computerprogramm
EP1103956B1 (de) Exponentielle Echo- und Geräuschabsenkung in Sprachpausen
DE602004007953T2 (de) System und verfahren zur audiosignalverarbeitung
EP1189419B1 (de) Verfahren und Vorrichtung zur Elimination Lautsprecherinterferenzen aus Mikrofonsignalen
DE19806015C2 (de) Verfahren zur Verbesserung der akustischen Rückhördämpfung in Freisprecheinrichtungen
EP1155561B1 (de) Vorrichtung und verfahren zur geräuschunterdrückung in fernsprecheinrichtungen
DE69817461T2 (de) Verfahren und Vorrichtung zur optimierten Verarbeitung eines Störsignals während einer Tonaufnahme
DE602004006912T2 (de) Verfahren zur Verarbeitung eines akustischen Signals und ein Hörgerät
EP0592787A1 (de) Verfahren zum Verbessern der akustischen Rückhördämpfung von elektroakustischen Anlagen
US20030065509A1 (en) Method for improving noise reduction in speech transmission in communication systems
EP1168801A2 (de) Störsignalabhängige adaptive Echounterdrückung
DE102017215890B4 (de) Verfahren zur dynamisch erhöhten Geräuschunterdrückung auf der Basis von Eingangsgeräuschkennlinien
DE10342307B4 (de) Verfahren zur Entstörung übermittelter Audiosignale zwischen Telekommunikationsendgeräten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee