DE602004007953T2 - System und verfahren zur audiosignalverarbeitung - Google Patents

System und verfahren zur audiosignalverarbeitung Download PDF

Info

Publication number
DE602004007953T2
DE602004007953T2 DE602004007953T DE602004007953T DE602004007953T2 DE 602004007953 T2 DE602004007953 T2 DE 602004007953T2 DE 602004007953 T DE602004007953 T DE 602004007953T DE 602004007953 T DE602004007953 T DE 602004007953T DE 602004007953 T2 DE602004007953 T2 DE 602004007953T2
Authority
DE
Germany
Prior art keywords
region
gain
input
range
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
DE602004007953T
Other languages
English (en)
Other versions
DE602004007953D1 (de
Inventor
Christophe M. Macours
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NXP BV
Original Assignee
NXP BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NXP BV filed Critical NXP BV
Publication of DE602004007953D1 publication Critical patent/DE602004007953D1/de
Application granted granted Critical
Publication of DE602004007953T2 publication Critical patent/DE602004007953T2/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/007Volume compression or expansion in amplifiers of digital or coded signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereo-Broadcasting Methods (AREA)

Description

  • Diese Erfindung betrifft das Gebiet der Tonwiedergabe und insbesondere das Gebiet der digitalen Audiosignalverarbeitung.
  • Die Erfindung betrifft ein Tonwiedergabe- oder Aufnahmesystem, das einen Audiosignaleingang, einen Audiosignalprozessor und einen Audiosignalausgang hat.
  • Die Erfindung betrifft auch einen Audiosignalprozessor zum Verarbeiten eines eingehenden Audiosignals in ein Audioausgangssignal. Insbesondere betrifft die Erfindung eine digitale Signalprozessor (DSP)-Schaltung oder ein Digitalsignalprozessor-Programm.
  • Die Erfindung betrifft auch ein Verfahren zum Verarbeiten eines Audiosignals.
  • Ein Tonwiedergabesystem, wie zum Beispiel ein Lautsprechertelefonsystem, weist einen Ausgangswandler, oft Lautsprecher genannt, und einen Eingang für ein Audiosignal auf. Der Lautsprecher erzeugt Schalldruckwellen als Reaktion auf das Audioeingangssignal, das für eine gewünschte Schalldruckwelle repräsentativ ist.
  • Die Verständlichkeit des Tons, wie er vom Zuhörer empfunden wird, ist sehr wichtig, insbesondere in lauten Umgebungen. Die einfachste Art, die Verständlichkeit zu steigern, besteht darin, den mittleren Schalldruckpegel (SPL) anzuheben, das heißt, die Lautstärke zu erhöhen. Das einfache Erhöhen der Lautstärke führt jedoch nicht immer zu einem verständlicheren Ton. Ein zu hoher Ausgang kann auch zu einem Überlasten eines Lautsprechers führen, was zu einem weiteren Verringern der Verständlichkeit führt. Das Rauschen auf dem Signal kann zum Beispiel Umgebungsrauschen oder Signalrauschen sein, das heißt ein Rauschen, das zu einem Signal unterwegs zwischen der Quelle und dem Empfänger hinzugefügt wird.
  • Eine Anzahl von Versuchen wurde gemacht, um die Verständlichkeit von Ton zu steigern.
  • Die US-Patentanmeldung US 2002/0 015 503 schlägt zum Beispiel vor, die Verständlichkeit durch einzelnes Erzwingen der Verstärkungsfaktoren für verschiedene Frequenzbänder zu steigern.
  • Die existierenden Systeme und Verfahren sind jedoch entweder sehr kompliziert und erfordern komplizierte Berechnungen und daher komplizierte Schaltungen (Hardware) oder beim Gebrauch eines Programms (Software), ein komplexes Programm, oder sie liefern nur einen beschränkten Vorteil.
  • US 4 887 299 offenbart ein Gehörhilfssystem, das digitale Signalverarbeitung verwendet, die programmierbar ist, um sich an den Gehörmangel eines bestimmten Gebrauchs anzupassen, und das an die Schallumgebung angepasst werden kann, um die Verständlichkeit des erwünschten Audiosignals in Bezug auf das Rauschen zu maximieren. Ein Analogsignal, das von einem Mikrofon aufgenommen wird, wird verstärkt, gefiltert und in digitale Daten umgewandelt. Ein digitaler Signalprozessor führt ein Spektralformen an den Daten aus, um die Vorlieben des Benutzers zu entsprechen und führt eine nicht lineare anpassende Verstärkungsfunktion an den digitalen Daten aus. Die Verstärkungsfunktion kann mehrere teilweise lineare Abschnitte aufweisen, darunter einen ersten Abschnitt, der eine Erweiterung bis zu einem ersten Kniepunkt bereitstellt, einen zweiten Abschnitt, der lineare Verstärkung von dem ersten Kniepunkt zu einem zweiten Kniepunkt bereitstellt, und einen dritten Abschnitt, der Kompression für Signale über dem zweiten Kniepunkt bereitstellt, um die Stärke von Überlastungssignalen zu verringern und Lautstärkenunbequemlichkeit für den Benutzer zu minimieren. Eine Schätzung des Pegels des Hintergrundrauschens erfolgt als eine Funktion der Energieumhüllenden der Eingangssignaldaten, wobei die Rauschschätzung dann verwendet wird, um die Position des ersten Kniepunkts aufwärts oder abwärts anzupassen oder um das Expansionsverhältnis zu wechseln, um die Rauschkomponente des verstärkten Signals, das dem Benutzer geliefert wird, zu verringern. Der digitale Signalprozessor weist einen programmierbaren Nur-Lese-Speicher auf, der die gewünschten Spektralformungscharakteristiken und nicht linearen Verstärkungscharakteristiken enthält, die für den Benutzer geeignet sind.
  • Ungeachtet der oben genannten Referenzen besteht weiterhin gemäß dem Stand der Technik ein Bedarf an verbesserten Systemen und Verfahren, die verbesserte Verständlichkeit bereitstellen.
  • Es ist eine Aufgabe der vorliegenden Erfindung, relativ einfache Tonwiedergabe- oder Aufnahmesysteme und -verfahren mit verbesserter Verständlichkeit bereitzustellen.
  • Diese Aufgabe kann durch den Gegenstand der unabhängigen Ansprüche verwirklicht werden.
  • Dazu ist bei einer ersten Ausführungsform der Erfindung das erfindungsgemäße Tonwiedergabe- oder Aufnahmesystem dadurch gekennzeichnet, dass der digitale Audiosignalprozessor einen Zuweiser zum Zuweisen eines Verstärkungsfaktors zu Eingangssignalen als eine Funktion des Eingangspegels mit einer funktionalen Beziehung aufweist, die derart ist, dass die funktionale Beziehung zwischen dem Verstärkungsfaktor und dem eingegebenen Pegel einen ersten und einen zweiten Bereich aufweist, wobei der erste Bereich Amplituden deckt, in welchen in der Hauptsache stimmhafte Phoneme liegen, wobei sich der zweite Bereich bei Eingangspegels niedriger als die für den ersten Bereich befindet und Eingangspegel deckt, in welchen hauptsächlich stimmlose Phoneme liegen, wobei die funktionale Beziehung derart ist, dass der mittlere Verstärkungsfaktor des ersten Bereichs mindestens 6 dB, vorzugsweise mindestens 12 dB unter dem für den zweiten Bereich liegt.
  • Das System gemäß der ersten Ausführungsform der Erfindung beruht auf den folgenden Erkenntnissen:
    Es ist möglich, ein einfaches System zum Verbessern der Verständlichkeit von Sprache zu verwenden. Die kleinsten Einheiten von Sprachtönen werden Phoneme genannt. Ein oder mehrere Phoneme werden kombiniert, um eine Silbe zu bilden, und eine oder mehrere Silben, um ein Wort zu bilden. Phoneme können in zwei Gruppen unterteilt werden: Vokale und Konsonanten. Vokale sind immer stimmhaft. Für stimmlose Konsonanten können die Stimmlippen komplett offen sein (wie zum Beispiel beim Produzieren von „s", „sh" und „f"-Tönen) oder teilweise offen (für „h"-Töne). Stimmhafte Töne werden durch Schwingungen der Stimmlippen geschaffen.
  • Das erfindungsgemäße System beruht auf der Erkenntnis, dass man davon ausgehen kann, dass Sprache aus stimmhaften Phonemen (wie zum Beispiel die Vokale a, e, i, o, oa usw.) und stimmlosen Phonemen (wie bestimmte Konsonanten s, z, ch, dg, th usw.) besteht. Weitere Details werden unten angegeben. Die stimmlosen Phoneme decken typisch einen Eingangspegelbereich (den zweiten Bereich) unter dem Eingangspegelbereich, der für stimmhafte Phoneme (der erste Bereich) typisch ist. Die stimmhaften Phoneme befinden sich typisch in einem oberen Bereich des Signals, das heißt in der Nähe des Maximums des Signals. Wenn nur die Lautstärke (Amplitude) der erzeugten Sprache berücksichtigt wird, sind die stimmhaften Phoneme prägnanter als die stimmlo sen Phoneme. Was die Verständlichkeit betrifft, sind die stimmlosen Phoneme jedoch ebenso wichtig, wenn nicht sogar wichtiger als die stimmhaften Phoneme.
  • Die zwei Typen von Phonemen können daher voneinander nur durch ihre Eingangspegelbereiche unterschieden werden. In dem System gemäß der ersten Ausführungsform der Erfindung ist der Verstärkungsfaktor für stimmlose Phoneme (zweiter Bereich) größer (im Durchschnitt mindestens 6 dB, vorzugsweise 12 dB oder mehr) als für die stimmhaften Phoneme. Dadurch werden stimmlose Phoneme gegenüber stimmhaften Phonemen hervorgehoben. Die meisten bekannten Systeme basieren auf der Voraussetzung, dass durch Steigern der Verstärkung (Erhöhen der Lautstärke) die Sprache leichter zu verstehen wird.
  • Das ist jedoch nicht immer der Fall. Der Erfinder hat festgestellt, dass ein solches Steigern der Gesamtstärke (Lautstärkeerhöhung) in der Tat die stimmlosen Phoneme „ertränken" kann. Verglichen mit dem einfachen Erhöhen des Verstärkungsfaktors durch den Eingangspegelbereich werden die stimmlosen Phoneme gegenüber stimmhaften Phonemen hervorgehoben, was auf einfache Art eine Verbesserung der Verständlichkeit bietet.
  • Bei einer zweiten Ausführungsform der Erfindung ist das erfindungsgemäße Tonwiedergabe- oder Aufnahmesystem dadurch gekennzeichnet, dass der digitale Audiosignalprozessor einen Zuweiser zum Zuweisen eines Verstärkungsfaktors zu Eingangssignalen als eine Funktion des Eingangspegels aufweist, wobei die funktionale Beziehung zwischen dem Verstärkungsfaktor und dem Eingangspegel derart ist, dass es einen ersten und einen zweiten Bereich gibt, wobei sich der erste Bereich von einem Eingangspegel mit maximalem Wert um zumindest 10 dB hinunter erstreckt, wobei sich der zweite Bereich über Eingangspegel unter dem ersten Bereich erstreckt, wobei der zweite Bereich einen Bereich von 10 dB oder mehr deckt, wobei der Verstärkungsfaktor in dem ersten Bereich im Durchschnitt mindestens 6 dB, vorzugsweise 12 dB niedriger ist als in dem zweiten Bereich.
  • Durch Verallgemeinern der grundlegenden Erkenntnis der ersten Ausführungsform der Erfindung beruht die Erfindung gemäß der zweiten Ausführungsform der Erfindung auf der Erkenntnis, dass bei Sprache „weiche Töne" gleich oder ähnlich für die Verständlichkeit der Sprache wichtig sind wie „harte Töne", wie auch immer derartige Töne genannt werden. Die Verständlichkeit der Sprache wird bei der Erfindung durch einfache Mittel um vorzugsweise mindestens 6 dB, vorzugsweise mindestens 12 dB Verstärken der „weichen Töne" gegenüber harten Tönen gesteigert, oder, mit anderen Worten, vorzugsweise durch Verstärken eines zweiten Bereichs mit niedrigerer Amplitude von Signalen gegenüber dem ersten Signalbereich mit höherer oder höchster Amplitude. Diese grundlegende verallgemeinerte Erkenntnis gilt ungeachtet der Tatsache, ob die spezielle verwendete Sprache in „stimmhafte" und „stimmlose" Phoneme unterteilt ist oder theoretisch unterteilt werden kann, ob und wo die Trennungslinie zwischen diesen Kategorien theoretisch angelegt wird, oder ob es andere Typen unterscheidender Merkmale gibt, wie zum Beispiel musikalische Akzente, Tonverlagerungen, Betonungen usw., die mitwirken.
  • Bei dem System gemäß der zweiten Ausführungsform der Erfindung wird der Verstärkungsfaktor von dem Eingangspegel abhängig gemacht, wobei es einen ersten Bereich unter einem maximalen Eingangspegel gibt (der die härtesten Töne deckt), der sich von einem maximalen Pegel um mindestens 10 dB abwärts erstreckt, und einen zweiten Bereich unter dem ersten Bereich (der „weichere Töne" deckt), bei dem der Verstärkungsfaktor deutlich höher ist (im Durchschnitt mindestens 6 dB, vorzugsweise mindestens 12 dB). Die Verstärkungskurve als eine Funktion der Eingangspegel zeigt daher zwei Bereiche, und die Wirkung besteht darin, dass das Schallsignal, das von dem zweiten Bereich gedeckt wird (die weicheren Töne), hinsichtlich der Tonsignale im ersten Bereich hervorgehoben wird, so dass „weichere Töne" im Vergleich zu den „harten Tönen" hervorgehoben werden. Das ist anhand eines einfachen Systems und einer einfachen Methode möglich und ergibt dennoch eine beträchtliche Steigerung der Verständlichkeit.
  • Vorzugsweise erstreckt sich der erste Bereich von dem Maximum zu mindestens 15 dB, aber nicht mehr als 30 dB. Ein zu großes Ausmaß des ersten Bereichs würde es schwierig machen, die weichen Töne zu boosten.
  • Bevorzugte Ausführungsformen der Erfindung werden unten gegeben. Außer wenn anders beschrieben, gelten diese bevorzugten Ausführungsformen für beide der oben gegebenen Aspekte der Erfindung.
  • Vorzugsweise ist der Zuweiser zum Zuweisen eines Verstärkungsfaktors an Eingangssignale als eine Funktion der Eingangsamplitude so eingerichtet, dass der mittlere Verstärkungsfaktor über den ersten und den zweiten Bereich niedriger ist als 12 dB, vorzugsweise niedriger als 6 dB, vorzugsweise weniger als 3 dB. Der mittlere Verstärkungsfaktor ist ein Maß für das Gesamtboosten der Stärke. Eine Steigerung der Lautstärke der Sprache ist dann nicht oder kaum merklich. Die positive Wirkung des Hervorhebens der stimmlosen Phoneme im Vergleich zu den stimmhaften Phonemen wird zumindest teilweise annulliert, wenn der mittlere Verstärkungsfaktor substanziell erhöht wird. Zu bemerken ist, dass diese Bedingung bedeutet, dass das mittlere Boosten in dem ersten Bereich auf unter den angegebenen Wert beschränkt ist.
  • Bei einer bevorzugten Ausführungsform weist das System einen dynamischen Pegeldetektor auf, der einen Eingang für die Momentansignalamplitude und einen Ausgang zum Bereitstellen eines mittleren Pegels über eine bestimmte Zeitspanne aufweist.
  • Der dynamische Pegeldetektor stellt daher einen Pegel bereit, das heißt eine Art von Zeitdurchschnitt für die Signalamplitude. Im Vergleich zum Verwenden der Momentanamplitude für den Eingangspegel (das heißt das direkte Verwenden der Amplitude, um die Verstärkung zu finden), besteht der Vorteil des Gebrauchs eines dynamischen Pegeldetektors in einem glatteren Verhalten des Verstärkungsfaktors und weniger Wechsel der Pumpeffekte. Insgesamt steigt die Verständlichkeit. Die Zeitspanne kann festgestellt oder anpassbar sein.
  • Vorzugsweise beträgt die vorbestimmte Zeitspanne 1 bis 5 Millisekunden.
  • Vorzugsweise ist der Zuweiser zum Zuweisen eines Verstärkungsfaktors so eingerichtet, dass der Verstärkungsfaktor in dem ersten Bereich durchschnittlich unter 10 dB ist, vorzugsweise unter 6 dB. Die Verstärkung in dem ersten Bereich mit hohem Eingangspegel ist daher relativ niedrig, das heißt, es tritt ein niedriges Boosten des „harten" Signals im Vergleich zu den stimmhaften Phonemen auf. Die Signale in dem zweiten Bereich werden wie oben erklärt vorzugsweise in Bezug auf die Signale in dem ersten Bereich, um mindestens 6 dB vorzugsweise mehr geboostet. Es wird vorgezogen, den Verstärkungsfaktor des ersten Bereichs niedrig zu halten, da zu viel Steigerung an Stärke (hoher Verstärkungsfaktor) für die Signale in diesem ersten Bereich, die bereits laut sind, die Verständlichkeit der Sprache nicht anhebt sondern bewirken kann, dass die relativ schwachen Signale in dem zweiten Bereich trotz des relativen Boostens von den harten Tönen schwer zu unterscheiden sind.
  • Vorzugsweise weist das System einen Bestimmer zum Bestimmen eines maximalen Eingangspegels für das empfangene Signal und ein Mittel zum Gleichsetzen des maximalen Eingangspegels mit der oberen Kante des ersten Bereichs. Bei Ausführungsformen kann der maximale Eingangspegel (= äußere Kante des ersten Bereichs) einfach das maximale digitale Signal sein, das heißt das theoretisch und praktisch lauteste Signal. Vorzugsweise weist die Vorrichtung jedoch einen Bestimmer zum Bestimmen des tatsächlichen maximalen Eingangspegels des (Sprach)-Signals auf, der oft unter dem möglichen Maximum liegt. Der erste Bereich startet dann ab dem gemessenen maximalen Eingangspegel des Sprachsignals. Zu bemerken ist, dass bei solchen Ausführungsformen nicht nur der Anfangspunkt des ersten Bereichs von der Messung abhängt, sondern dass dies auch in dem zweiten Bereich und möglichen weiteren Bereichen gilt. Der maximale Eingangspegel ist eine Menge, die über eine bestimmte Zeitspanne gemessen wird, die im Vergleich zu den Zeitspannen zum Messen des Pegels relativ lang ist, im Vergleich zu den Längen der Wörter jedoch kurz.
  • Bei bevorzugten Ausführungsformen der Erfindung ist der Zuweiser zum Zuweisen eines Verstärkungssignals an Eingangssignale als eine Funktion der Eingangsamplitude so eingerichtet, dass die funktionale Beziehung zwischen dem Verstärkungsfaktor und dem Eingangspegel derart ist, dass zwischen dem ersten und dem zweiten Bereich ein dritter Zwischenbereich gegenwärtig ist, in dem sich der Verstärkungsfaktor allmählich ändert. Bei Ausführungsformen der Erfindung kann der Übergang von dem ersten zu dem zweiten Bereich eine Schrittfunktion sein, vorzugsweise sind der erste und der zweite Bereich jedoch durch einen dritten Zwischenbereich getrennt, wobei sich der Verstärkungsfaktor in diesem dritten Bereich allmählich ändert. Ein solcher Übergangsbereich verringert die Gefahr von Pumpartefakten. Vorzugsweise erstreckt sich dieser dritte Bereich über mindestens 5 dB im Eingangspegel. Vorzugsweise ist dieser dritte Bereich zwischen 15 dB und 35 dB unter dem Maximum (= äußere Kante des ersten Bereichs I) zentriert. Zentriert bedeutet, dass der Punkt für den der Verstärkungsfaktor auf halbem Weg zwischen den Werten des Verstärkungsfaktors auf der einen oder anderen Seite des dritten Bereichs liegt. Das lässt genug Raum für den ersten Bereich.
  • Vorzugsweise weist das System einen Sensor zum Messen von Hintergrundrauschen auf und einen Anpasser zum Anpassen des Verstärkungsfaktors in dem zweiten Bereich in Abhängigkeit von dem gemessenen Hintergrundrauschen. Das Hintergrundrauschen ist Rauschen aufgrund interferierender Tonsignale aus der Umgebung.
  • Wenn viel Hintergrundrauschen besteht, erhöht das Steigern des Verstärkungsfaktors in dem zweiten Bereich, das heißt hauptsächlich für weiche Töne oder die stimmlosen Phoneme, die Verständlichkeit solcher Signale.
  • Vorzugsweise ist der Verstärkungsfaktor in dem ersten Bereich (das heißt hauptsächlich für die hart klingenden stimmhaften Phoneme) bei solchen Ausführungsformen ungeändert oder sogar leicht verringert. Die harten Töne oder die stimmhaften Phoneme sind auch mit hohem Hintergrundrauschen hörbar, wobei eine leichte Verringerung des Verstärkungsfaktors für den ersten Bereich sogar vorteilhaft sein kann, weil sie das relative Boosten der weichen Töne oder stimmlosen Phoneme im Vergleich zu den harten Tönen oder stimmhaften Phonemen erhöht. Es kann eigenartig anmuten, den Verstärkungsfaktor in dem ersten Bereich zu senken, wenn ein hoher Rauschpegel gemessen wird, aber durch Steigern des Verstärkungsfaktors in dem zweiten Bereich und das gleichzeitige Senken in dem ersten Bereich kann die Steigerung in der Gesamtsignalstärke stabil oder zumindest nicht zu stark verstärkt gehalten werden. Zu bemerken ist, dass das manchmal zu einem leicht negativen Verstärkungsfaktor (von einigen bis mehreren dB) für mindestens einen Teil, zum Beispiel den höchsten Teil des ersten Bereichs führen kann.
  • Diese Ausführungsformen beruhen unter anderem auf der Erkenntnis, dass die Erfindung die Verständlichkeit von Sprache verbessert, dass sie aber auch das Sprachsignal in einem bestimmten Ausmaß verformt. Durch Messen des Hintergrundrauschens und Abhängigmachen des Verstärkungsfaktors in dem zweiten Bereich von dem mittleren Schallpegel, wird eine bessere Tonwiedergabe erzielt. Wenn das Hintergrundrauschniveau niedrig ist, wird an dem Signal keine oder wenig Änderung vorgenommen, wenn das Hintergrundrauschniveau hoch ist, wird der Verstärkungsfaktor in dem zweiten Bereich gesteigert.
  • Vorzugsweise ist der Zuweiser zum Zuweisen eines Verstärkungsfaktors zu Eingangssignalen als eine Funktion der Eingangsamplitude so eingerichtet, dass der zweite Bereich bei einem niedrigeren Grenzwert neben einem vierten Bereich liegt, in dem der Verstärkungsfaktor im Wesentlichen gleich Null ist. Ein solcher vierter Bereich deckt kleine Amplitudenniveaus, bei welchen das Signal wahrscheinlich hauptsächlich auf Leitungs- oder Übertragungsrauschen zurückzuführen ist. Bei der bevorzugten Ausführungsform wird ein viel kleinerer Verstärkungsfaktor (oder vorzugsweise überhaupt keiner) unterhalb in dem vierten Bereich angewandt. Leitungs- oder Übertragungsrauschen wird dann nicht verstärkt. Vorzugsweise ist der Zuweiser zum Zuweisen eines Verstärkungsfaktors zu Eingangssignalen als eine Funktion des Eingangspegels so eingerichtet, dass der zweite und der vierte Bereich von einem fünften Zwischenbereich getrennt werden, in dem sich der Verstärkungsfaktor allmählich ändert. Bei Ausführungsformen kann der Übergang zwischen dem vierten und dem zweiten Bereich eine Schrittfunktion sein, aber eine allmähliche Änderung von einem Verstärkungsfaktor gleich Null in dem vierten Bereich zu einem hohen Verstärkungsfaktor in dem zweiten Bereich wie bei den bevorzugten Ausführungsformen verringert die Gefahr von Artefakten und kann das Signal-Rausch-Verhältnis steigern.
  • Vorzugsweise ist der Zuweiser zum Zuweisen eines Verstärkungsfaktors an Eingangssignale als eine Funktion des Eingangspegels derart eingerichtet, dass die Steigung der Verringerung im Verstärkungsfaktor in dem dritten Bereich sanfter ist als der Anstieg des Verstärkungsfaktors in dem fünften Bereich.
  • Vorzugsweise weist das System eine Messvorrichtung zum Messen von Leitungs- oder Übertragungsrauschen auf (das heißt das intrinsische Rauschen für die Art der Übertragung des Signals, zum Beispiel elektronisches Komponentenrauschen, Kompressionsrauschen usw.) oder einen Eingang für einen Wert für Leitungs- oder Übertragungsrauschen und einen Anpasser zum Anpassen des Übertragungspunkts oder -bereichs von dem zweiten zu dem vierten Bereich in Abhängigkeit von dem gemessenen Leitungsrauschen.
  • Die Erfindung kann an das Quellenende eines Tonwiedergabesystems (zum Beispiel ein Sprachkommunikationssystem) angewandt werden. Die Erfindung kann auch an das Empfangsende eines Tonwiedergabesystems angewandt werden, zum Beispiel in einem Mobiltelefon, einem Laptopcomputer usw. Letzteres ist besonders von Nutzen, wenn das Umgebungs rauschen hoch ist.
  • Wenn die Erfindung an dem Quellenende eines Tonwiedergabesystems verwendet wird (zum Beispiel Produktion eines Fernsehsignals), umfasst das Tonwiedergabesystem vorzugsweise eine Kennzeichnung zum Bereitstellen des übertragenen oder zu übertragenden Signals mit einer Kennzeichnung, die anzeigt, dass das Signal im Vergleich zum Originalsignal geändert wurde. Vorzugsweise weist die Kennzeichnung Information über die Änderung auf, zum Beispiel Information über Verstärkungsfaktoren und Bereiche. Wie oben erwähnt, ergibt sich bei der erfindungsgemäßen Vorrichtung und dem Verfahren bei erhöhter Verständlichkeit eine wenn auch relativ kleine Verzerrung des Signals. Wird die Erfindung jedoch zweimal ausgeführt, das heißt an dem Quellenende und an dem Empfangsende, besteht die Gefahr des Übermaßes, das heißt, dass eine Gefahr besteht, dass das Endergebnis alles andere ist als optimal. Durch Bereitstellen einer Kennzeichnung, die anzeigt, dass das Signal verarbeitet wurde (und vorzugsweise auch wie es verarbeitet wurde), kann diese Gefahr verringert werden.
  • Innerhalb des Konzepts der Erfindung werden ein „Sensor", „Detektor", „Kennzeichner", „Zuweiser", „Anpasser", „Messvorrichtung" usw. umfassend verstanden und umfassen zum Beispiel jeden Hardwareteil (wie zum Beispiel einen Sensor, Detektor, Zuweiser, Detektor), jede Schaltung oder Unterschaltung, die zum Ausführen einer beschriebenen Aktion oder Funktion konzipiert ist, sowie jede Software (Computerprogramm oder Unterprogramm oder jeden Satz von Computerprogrammen, oder ein oder mehrere programmierbare Codes), die konzipiert oder programmiert sind, um eine Aktion oder Operation gemäß der Erfindung auszuführen, sowie jede Kombination von Teilen von Hardware und Software, die als solche wirken, sei es allein oder kombiniert, ohne auf die unten gegebenen beispielhaften Ausführungsformen beschränkt zu sein. Sie können zum Beispiel die Form eines DSP oder ASIC oder eines Mikrofons, oder eines Algorithmus haben, der getrennt ist oder zu einem größeren Programm gehört. Ein Programm kann mehrere Funktionen kombinieren. Vorzugsweise beruht das System zumindest teilweise auf digitaler Signalverarbeitung, die digitale Signale verwendet.
  • Die Erfindung ist auch in einem Verfahren zur Audiosignalverstärkung in einem Tonwiedergabesystem oder Aufnahmesystem oder für ein Tonwiedergabe- oder Aufnahmesystem umgesetzt, wobei Eingangssignale mit einem Verstärkungsfaktor multipliziert werden, wobei der Verstärkungsfaktor eine Funktion des Eingangspegels ist, wobei die funktionale Beziehung zwischen dem Verstärkungsfaktor und dem Eingangspegel derart ist, dass ein erster und ein zweiter Bereich für den Verstärkungsfaktor gegenwärtig sind, wobei der erste Bereich Amplituden deckt, in welchen hauptsächlich stimmhafte Phoneme liegen, und sich der zweite Bereich bei Eingangspegeln befindet, die niedriger sind als die für den ersten Bereich, und der zweite Bereich Eingangspegel deckt, in welchen in der Hauptsache stimmlose Phoneme liegen, wobei die funktionale Beziehung derart ist, dass der mittlere Verstärkungsfaktor des ersten Bereichs mindestens 6 dB unter dem des zweiten Bereichs liegt.
  • Die Erfindung wird auch in einem Verfahren zur Audiosignalverbesserung in einem oder für ein Tonwiedergabe- oder Aufnahmesystem umgesetzt, bei dem Eingangssignale mit einem Verstärkungsfaktor multipliziert werden, wobei der Verstärkungsfaktor eine Funktion des Eingangspegels ist, wobei die funktionale Beziehung zwischen dem Verstärkungsfaktor und einem Eingangspegel derart ist, dass ein erster und ein zweiter Bereich für den Verstärkungsfaktor gegenwärtig sind, wobei sich der erste Bereich von einem Eingangspegel mit maximalem Wert nach unten um mindestens 10 dB erstreckt, wobei sich der zweite Bereich auf Eingangspegel unter dem ersten Bereich erstreckt, wobei der zweite Bereich einen Bereich von 10 dB oder mehr deckt, wobei der mittlere Verstärkungsfaktor in dem ersten Bereich zumindest im Durchschnitt 6 dB niedriger ist als in dem zweiten Bereich.
  • Bevorzugte Ausführungsformen des Verfahrens sind die, die den Verfahrenschritten entsprechen, die mit den beschriebenen bevorzugten Ausführungsformen des erfindungsgemäßen Systems verbunden sind, sei dies in der Kurzdarstellung der Erfindung oder in der Beschreibung bevorzugter Ausführungsformen.
  • Die Erfindung wird auch in jedem Computerprogramm umgesetzt, das Programmcodemittel zum Ausführen eines erfindungsgemäßen Verfahrens aufweist, wenn das Programm auf einem Computer ausgeführt wird, sowie in jedem Computerprogrammprodukt, das ein Programmcodemittel aufweist, das auf einem computerlesbaren Träger zum Ausführen eines erfindungsgemäßen Verfahrens gespeichert ist, wenn das Programm auf einem Computer ausgeführt wird.
  • Diese und weitere Aspekte der Erfindung werden ausführlicher beispielhaft und unter Bezugnahme auf die anliegenden Zeichnungen beschrieben, in welchen
  • 1 eine schematische Darstellung eines Systems mit einem Lautsprecher und einem DSP ist.
  • 2A und 2B schematisch verschiedene Bauteile eines Tonwiedergabesystems veranschaulichen.
  • 3 die Wellenform eines reinen männlichen Sprachsignals zeigt.
  • 4 einen beispielhaften erfindungsgemäßen Sprachverbesserungsalgorithmus veranschaulicht.
  • 5 das dynamische Verhalten, das heißt Verstärkungsfaktor gegenüber Eingangspegel eines erfindungsgemäßen Sprachverbesserungsalgorithmus veranschaulicht.
  • 6 das dynamische Verhalten, das heißt Verstärkungsfaktor gegenüber Eingangspegel eines erfindungsgemäßen Sprachverbesserungsalgorithmus mit Verringerung des Übertragungsleitungsrauschens veranschaulicht.
  • 7 das dynamische Verhalten, das heißt Verstärkungsfaktor gegenüber Eingangspegel eines erfindungsgemäßen Sprachverbesserungsalgorithmus mit variabler Übertragungsleitungsverringerung und variabler Hintergrundverringerung veranschaulicht.
  • 8 das dynamische Verhalten, das heißt Verstärkungsfaktor gegenüber Eingangspegel eines erfindungsgemäßen Sprachverbesserungsalgorithmus veranschaulicht, wobei die obere Grenze des ersten Bereichs verschoben wird.
  • 9 die Auswirkung der Erfindung auf ein Sprachsignal veranschaulicht.
  • 10 in einem Blockschaltbild einige erfindungsgemäße Elemente veranschaulicht.
  • 11 in Blockschaltbildform einen dynamischen Pegeldetektor veranschaulicht.
  • 12 ein Beispiel für einen Sprachartikulierungs-Verbesserungsalgorithmus zeigt.
  • Die vorliegende Erfindung wird nun ausführlicher unter Bezugnahme auf die anliegenden Zeichnungen beschrieben, in welchen bevorzugte Ausführungsformen der vorliegenden Erfindung gezeigt sind. Diese Erfindung kann jedoch in vielen verschiedenen Formen umgesetzt werden, und sollte nicht als durch die hier dargelegte Ausfüh rungsform beschränkt betrachtet werden, diese Ausführungsformen werden vielmehr bereitgestellt, damit diese Offenbarung gründlich und komplett ist und den Geltungsbereich der Erfindung für den Fachmann voll vermittelt. Gleiche Bezugszeichen betreffen gleiche Elemente.
  • 1 veranschaulicht schematisch ein Tonwiedergabesystem. Ein solches System kann zum Beispiel ein Freihandlautsprech-Zellularfunktelefon für den Gebrauch in einem Kraftfahrzeug sein. Beim Umsetzen als Freihand-Zellulartelefon werden Sprachsignale, die von einem entfernten Ende empfangen werden, das heißt von einer entfernten Partei, von einer Zellularbasisstation (nicht gezeigt) übertragen, von dem Sender-Empfänger des Zellulartelefons (nicht gezeigt) empfangen und an den Eingang 1 für ein eintreffendes Fernendsignal als eine eingegebene Wellenform W angelegt. Bei diesem Beispiel wird davon ausgegangen, dass die Hin- und Zurückübertragung zwischen dem System, in diesem Beispiel ein Telefonsystem, und dem entfernten Ende digitale Form hat Sind die Originalsignale in analoger Form, weist das System einen A-/D-Wandler auf, um ein digitales Fernendsignal zu erzeugen, das dann in den Eingang 1 eingegeben wird.
  • Wie in 1 gezeigt, wird die Wellenform in einem digitalen Format an den Eingang 1 angelegt oder an einen DSP (digitalen Tonprozessor) 2 angeschlossen, der einen digitalen Ausgang 3 aufweist oder an einen solchen angeschlossen ist. Das digitale Ausgangssignal wird in einen D-/A-Wandler 4 eingespeist und von diesem in ein analoges Format umgeformt und von einem Verstärker 5 für den Gebrauch durch den Lautsprecher 6 verstärkt. Eine Schalldruckwelle W1, die für die Sprache der entfernten Partei repräsentativ ist, wird von dem Lautsprecher 6 ausgegeben. Der Telefonbenutzer hört daher Schalldruckwellenformen, die für die Sprache der entfernten Partei repräsentativ sind.
  • Der Hörer hört jedoch nicht nur den Ton, der von dem Lautsprecher erzeugt wird, sondern auch andere Töne, die den Ton, der von dem Lautsprecher erzeugt wird, schwer zu verstehen machen, das heißt schwer verständlich.
  • Das Erhöhen der Lautstärke scheint eine erste und offensichtliche Wahl zum Erhöhen der Verständlichkeit zu sein. Der maximale Ausgangspegel des Lautsprechers ist jedoch oft eingeschränkt und das einfache Erhöhen der Lautstärke führt oft zu mehr Rauschen, und nicht unbedingt zu einer besseren Verständlichkeit des Signals.
  • 2A veranschaulicht, dass zwischen der Quelle (reine Sprache) 21 und dem Ohr 22 des Benutzers zwei Quellen von Rauschen liegen, Übertragungsrauschen 23 und Hintergrundrauschen 24.
  • Um die Verständlichkeit zu verbessern, wird eine Anzahl von Maßnahmen in der Vorrichtung und bei dem erfindungsgemäßen Verfahren getroffen. Insbesondere kann ein Sensor 26 bereitgestellt werden, um das Hintergrundrauschen 24 zu messen, was ein Hintergrundrauschsignal N2 ergibt, und eine Messvorrichtung zum Messen von Übertragungsrauschen 33, was ein Leitungs- oder Übertragungsrauschsignal N1 ergibt.
  • 2B veranschaulicht das Quellenende eines Tonwiedergabesystems. Bei dieser Figur steht 21 für das Ausgangssignal.
  • Das grundlegende Konzept besteht darin, dass in dem Tonwiedergabesystem entweder an der Quellenseite (2B) oder an der Empfangsseite (2A) oder an beiden Seiten ein Sprachartikulierungsverbesserer bereitgestellt wird, das heißt ein Mittel, zum Beispiel ein Programm oder ein Quellencode, der das Signal erfindungsgemäß beeinflusst. Einige Beispiele sind unten angegeben.
  • Rauschkontamination eines reinen Sprachsignals (Signal 21) aufgrund von Bedingungen mit minderwertiger Übertragungsqualität (Rauschquelle 23) oder lautem Hintergrund (Rauschquelle 24) können die Verständlichkeit stark beeinträchtigen. Viele Sprachverständlichkeitsverbesserungsverfahren haben zur Folge, dass die Lautstärke des Sprachsignals erhöht wird. Algorithmen, die die Lautstärke nicht erhöhen, sind weniger verbreitet.
  • Die Erfindung beruht auf einem einfachen Verfahren zum Verbessern der stimmlosen Phoneme auf der Grundlage ihres Zeitbereichsenergieniveaus, zum Beispiel mittels eines Sprachverbesserungsalgorithmus. Wenn die reine Sprache gegenüber Übertragungsrauschen (23) robust gemacht werden soll, wird der Algorithmus (25, 2B) am besten auf der Senderseite angeordnet. Wenn Umgebungsgeräusche die Hauptgeräuschstörung 24 sind, wird der Algorithmus 25 (2A) am besten an der Wiedergabeseite angeordnet.
  • 3 zeigt die Wellenform eines reinen männlichen Sprachsignals. Die Pfeile zeigen die Positionen der stimmlosen Phoneme (th, c, ch, cr, d, b, th, s, de, t). Diese stimmlosen Segmente enthalten im Vergleich zu den stimmhaften Segmenten (Vokale, wie zum Beispiel oa, wa, ow, de, in, i, ou) wenig Energie. Die Erfindung beruht auf der Idee des selektiven Boostens des niedrigen Energiebereichs im Vergleich zu dem hohen Energiebereich, wodurch die stimmlosen Phoneme im Vergleich zu den stimmhaften Phonemen verbessert werden. Zur Verständlichkeit der Sprache sind die stimmlosen Phoneme sehr wichtig. Die einzelnen Töne, die zum Erzeugen von Sprache verwendet werden, heißen Phoneme. Die Quellen dazu, wie viele Phoneme genau existieren, und was sie sind, weichen voneinander ab. Vokale sind immer stimmhaft. Für stimmlose Konsonanten können die Stimmlippen komplett offen sein (wie zum Beispiel beim Aussprechen von „s"-, „sh"- und „f"-Tönen) oder teilweise offen (für „h"-Töne).
  • Stimmhafte Töne werden durch Schwingungen der Stimmlippen erzeugt. Phoneme können in eine von drei großen Kategorien gemäß dem Mechanismus, der bei ihrem Erzeugen beteiligt ist, eingeteilt werden:
    • – stimmhafte Töne
    • – Reibekonsonanten (Frikative)
    • – Stoppkonsonanten
  • Stimmhafte Töne
  • Die meisten Phoneme, die in der englischen Sprache verwendet werden, sind stimmhafte Töne, die durch einen periodischen Luftstrom durch die Stimmbänder verursacht werden, welcher von der Stimmritze reguliert wird. Der Sprachtrakt schwingt als Reaktion auf diesen periodischen Luftstrom bei Formantfrequenzen. Formantfrequenzen unterscheiden ein stimmhaftes Phonem von einem anderen und werden durch die Spannung in den Stimmbändern gesteuert. Stimmhafte Töne werden ferner durch Aktionen der Nasenhöhle und den Mund gefiltert.
    Beispiele: lame, vo wel, you, met, ...
  • Reibungskonsonanten
  • Die stimmlosen Reibungsphoneme stammen aus dem Zischen eines ständigen Luftstroms durch den Mund. Ein solcher Ton hat den kombinierten Stimmritzenimpuls und die Schwingerscheinung des Sprachtrakts stimmhafter Töne nicht. Stimmlose Phoneme sind von den anderen aufgrund der Unterschiede in der Position der Lippen, Zähne und Zunge unterschiedlich statt durch die Gegenwart von Formantfrequenzen.
    Beispiele: fat, sit, church, thing, ...
  • Die stimmhaften Reibungsphoneme umfassen sowohl die Formantresonanzen des Sprachtrakts, die durch Stimmritzenimpulse angetrieben sind, als auch Reibungszischen.
    Beispiele: that, judge, which, ...
  • Stoppkonsonanten
  • Die Stoppkonsonanten sind durch ein komplettes Aufhören und plötzliches Freigeben des Luftstroms durch die Lippen und/oder Zähne und Zunge zu Beginn des Phonems charakterisiert.
  • Die stimmhaften Stoppkonsonanten beruhen auf Stimmritzenimpulsen und Resonanzen des Sprachtrakts.
    Beispiele: bet, get, better, ...
  • Die stimmlosen Stoppkonsonanten entbehren der Aktivität des Sprachtrakts und werden von Reibungszischen dominiert.
    Beispiele: kit, pet, ten, ...
  • Wie oben erklärt, liegen die stimmhaften Phoneme, wenn eine Person spricht, typisch in einem Amplitudenbereich über einem Bereich, der typisch die stimmlosen Phoneme enthält.
  • 4 veranschaulicht sehr schematisch einen Stimmverbesserungsalgorithmus. Der Eingangspegel des eingehenden Signals 21, zum Beispiel die Amplitude oder Stärke des Signals, wird in dem Pegeldetektor 41 erfasst, und je nach dem gemessenen Pegel wird die Verstärkung im dynamischen Anpasser 42 angepasst, was ein angepasstes Signal 43 ergibt. In seiner einfachsten Form kann der Eingangspegel einfach die Eingangsamplitude sein. Bei bevorzugten Ausführungsformen ist jedoch ein dynamischer Pegeldetektor enthalten, der einen Durchschnittspegel über eine vorbestimmte Zeitspanne (typisch einige bis mehrere Millisekunden) bestimmt. Der Verstärkungsfaktor z ist eine Funktion des Eingangspegels y, der bei solchen bevorzugten Ausführungsformen vom Mitteln der Eingangssignalamplitude In abgeleitet wird.
  • Die eingehende Signalamplitude In wird mit dem Verstärkungsfaktor z multipliziert, um das Signal S (S = z(y) × In) zu ergeben
  • 5 veranschaulicht das dynamische Verhalten (das heißt die funktionale Beziehung zwischen z (Verstärkungsfaktor) und y (Amplitude oder Amplitudenpegel)) einer Anzahl von Sprachverbesserungsalgorithmen gemäß Ausführungsformen der Erfindung. Der Verstärkungsfaktor z (hier auf der senkrechten Achse in dB gezeigt) ist eine Funktion des Eingangspegels y des eingehenden Signals (hier auf der horizontalen Achse in dB gezeigt). Der Eingangspegel y liegt unter einem Maximum, das bei diesen Ausführungsformen als das höchst mögliche Digitalsignal genommen wird. Die Verstärkungskurve umfasst einen ersten Bereich I, der an einer oberen Grenze den maximalen Eingangspegel MAX hat. In diesem ersten Bereich ist der Boostfaktor, das heißt der Verstärkungsfaktor, klein, typisch unter 3 dB. Der erste Bereich I erstreckt sich bei diesem Beispiel mindestens 10 dB von dem Maximum MAX. Vorzugsweise erstreckt sich der erste Bereich um mindestens 15 dB, aber nicht mehr als 30 dB. Die Verstärkungskurve umfasst einen zweiten Bereich II, der einen wesentlich höheren Verstärkungsfaktor z hat (mindestens 6 dB, vorzugsweise mindestens 12 dB, vorzugsweise mindestens 18 dB, wobei der Unterschied in 5 durch das ? angegeben ist). Der Bereich II erstreckt sich typisch zwischen 15–35 dB oder mehr unter dem Bereich I, so dass das typische Ausmaß der Bereiche I und II kombiniert (inklusive des Zwischenbereichs II) 30–50 dB beträgt. Bei typischer Sprache hängt der dynamische Bereich unter anderem davon ab, wie laut Leute sprechen, aber der dynamische Bereich für Sprache liegt typisch von 40 bis 60 dB. 5 zeigt, dass ein niedrigerer Bereich des dynamischen Sprachbereichs (Bereich II) in Bezug auf den höheren Bereich I geboostet ist, wobei der höhere Bereich selbst ein niedriges Boosten hat (unter 10 dB). Die Bereiche I und II decken bei dieser bevorzugten Ausführungsform in dem dynamischen Sprachbereich (von 0 bis etwa –50 dB), wobei jeder Bereich (entlang der y-Achse) ungefähr das gleiche Bereichsausmaß in dB deckt (zum Beispiel bis zu einem Faktor von zwei ausgedrückt in Anzahl von dB). Ein zu großer Unterschied im Ausmaß entlang der y-Achse zwischen den Bereichen I und II könnte zu einer Situation führen, bei der das beabsichtigte Boosten der stimmlosen Phoneme oder weichen Töne zu klein ist, wenn der Bereich II beträchtlich kleiner ist als der Bereich I, oder zumindest ein beträchtlicher Teil der stimmhaften Phoneme oder harten Töne wird ebenfalls geboostet, wenn der Bereich II beträchtlich größer ist als der Bereich I. Die Verstärkung z der Kurve des Eingangspegels y kann einen Schritt wie in Kurve 52 aufweisen, aber vorzugsweise umfasst die Verstärkungs kurve einen dritten (III) Bereich, also einen Zwischenbereich zwischen den Bereichen I und II, in dem der Verstärkungsfaktor allmählich steigt, wie in den Kurven 51 und 53 gezeigt. Ein solcher Übergangsbereich III vermindert die Gefahr von Pumpartefakten. In diesem Beispiel deckt das Gesamtausmaß der Bereiche I, II und II den dynamischen Sprachbereich (von 0 bis etwa –50 dB) und jeder der Bereiche I, II und III deckt in dem dynamischen Sprachbereich ungefähr (zum Beispiel bis zum einem Faktor von 3 ausgedrückt in Anzahl von dB,) das gleiche Bereichsausmaß in dB. Der Unterschied im Verstärkungsfaktor zwischen dem Bereich I und dem Bereich II beträgt jeweils für die Kurven 51, 52 und 53 25 dB, 22 dB und 15 dB. Der mittlere Verstärkungsfaktor kann durch Summieren der Verstärkungsfaktoren z multipliziert mit der Stärke des Eingangpegels und dann Dividieren der Summe der Stärke der Pegel berechnet werden. Die stärksten Signale (die mit y-Werten nahe an Null) tragen zu diesem mittleren Verstärkungsfaktor am meisten bei, sehr schwache Signale (y-Werte von –30 oder weniger) tragen kaum zu der Stärke bei, und ein relativ großer Verstärkungsfaktor für sehr schwache Signale trägt daher kaum zu dem mittleren Verstärkungsfaktor bei. Da nahe an Null (für den höchsten oder höheren Eingangspegel, das heißt im Bereich I) der Verstärkungsfaktor klein ist (vorzugsweise beträchtlich weniger als 10 dB), ist der mittlere Verstärkungsfaktor trotz der Tatsache klein, dass der Verstärkungsfaktor in dem zweiten Bereich II groß ist. Der gesamte mittlere Verstärkungsfaktor beträgt vorzugsweise weniger als 12 dB, vorzugsweise weniger als 6 dB, vorzugsweise weniger als 3 dB.
  • 6 zeigt eine bevorzugte Ausführungsform der Erfindung. Die Verstärkungskurve fasst links (das heißt am Eingangspegel unter einem unteren Schwellenwert des Bereichs II) des Bereichs II einen vierten Bereich IV auf, in dem ein viel niedrigerer Verstärkungsfaktor (vorzugsweise nahe an Null oder negativ dB) angewandt wird. An solchen Eingangspegeln ist das Signal wahrscheinlich hauptsächlich auf Übertragungsrauschen zurückzuführen. Gewöhnlich wird das Signal von irgendeiner Vorrichtung erzeugt und dann über die Übertragungsleitungen zu irgendeiner anderen Position übertragen, und auch wenn kein Signal besteht, erzeugen das Erzeugungsgerät und die Übertragung selbst Rauschen. Bei dieser bevorzugten Ausführungsform wird ein viel kleinerer Verstärkungsfaktor (oder vorzugsweise überhaupt keiner) unter dem unteren Grenzpegel des Bereichs II angewandt. Übertragungs- oder Leitungsrauschen wird dann nicht verstärkt. Vorzugsweise werden der zweite Bereich II und der vierte Bereich IV von einem fünften Zwischenbereich, Bereich V getrennt, in dem sich der Verstärkungsfaktor allmählich ändert. Eine allmähliche Änderung verringert die Gefahr von Artefakten und kann das Signal-Rauschverhältnis erhöhen. Wo die Übergangspunkte zwischen den Bereichen II und IV oder zwischen den Bereichen II und IV und IV und V liegen, kann man bei einfachen Ausführungsformen der Erfindung festlegen, und dabei liegt der Übergangspunkt zwischen dem Bereich IV und dem Bereich II oder dem Bereich V vorzugsweise zwischen 40 und 60 dB von dem maximalen Eingangspegel. Bei bevorzugten Ausführungsformen werden mindestens einer, einige oder alle der Übergangspunkte oder Übergangsbereiche zwischen Bereichen auf Leitungs- oder Übertragungsrauschmessungen insbesondere von Übertragungsrauschsignalen N1 abhängig gemacht, wie unten ausführlicher beschrieben wird. Der Zwischenbereich III zwischen den Bereichen I und II deckt in diesem Beispiel 15 dB im Eingangspegel. Der Bereich II deckt 10 bis 15 dB, der Bereich V deckt 5 dB, der Bereich I deckt 20 dB. Der Unterschied im Verstärkungsfaktor zwischen den Bereichen I und II beträgt 15 dB. Der Unterschied zwischen den Bereichen II und IV beträgt 20 dB und Bereich V deckt 5 dB, das heißt, dass seine Steigung steiler ist als die des Bereichs III.
  • 7 veranschaulicht weitere Ausführungsformen der Erfindung. Die Verstärkungskurve umfasst die in den vorhergehenden Figuren identifizierten fünf Bereiche. Eine Anzahl von Kurven ist gezeigt, 71a, 71b und 71c. Die Kurve 71a kann mit der in 6 gezeigten Kurve verglichen werden. Wenn ein hohes Niveau an Hintergrundrauschen besteht (Rauschsignal N2) ist es vorteilhaft, den Verstärkungsfaktor in Bereich II zu erhöhen. Das wird schematisch von Kurve 71b gezeigt. In Kurve 71b wird der Verstärkungsfaktor in allen Bereichen I, II und III, am deutlichsten jedoch in Bereich II erhöht. Das steigert die Verständlichkeit, steigert jedoch auch die Gesamtlautstärke. Bei bevorzugten Ausführungsformen ist die Steigerung in der Gesamtlautstärke unter 12 dB, vorzugsweise unter 6 dB, vorzugsweise unter 3 dB. Eine Steigerung der Gesamtlautstärke erhöht die Verständlichkeit nicht. Um die Gesamtlautstärke in Schranken zu halten, ist bei bevorzugten Ausführungsformen die Steigerung des Verstärkungsfaktors in dem Bereich II als eine Reaktion auf Hintergrundrauschpegel von einer Steigerung im Bereich I begleitet, oder vorzugsweise sogar von einer kleinen Verringerung des Verstärkungsfak tors im Bereich I oder zumindest in dem oberen Teil des Bereichs I. Die Gesamtlautstärke steigt dann nicht oder kaum merklich.
  • 8 veranschaulicht eine weitere bevorzugte Ausführungsform der Erfindung. In den vorhergehenden Figuren wurde die obere Grenze des Bereichs I als die höchst mögliche Signalstärke genommen. Oft wird das bei der digitalen Signalverarbeitung als ein Niveau von 0 dB genommen. Leute können jedoch ziemlich leise oder laut sprechen, und die Aufnahme- und Übertragungsketten könnten ein unbekanntes Niveau an Verringerung an dem Sprachsignal einführen. Der Unterschied im Ausgangspegel zwischen den stimmlosen und den stimmhaften Phonemen (oder allgemein zwischen weichen Tönen und harten Tönen) bleibt mehr oder minder gleich (etwa 15–30 dB), ob jemand nun laut spricht oder leise. Die Erfinder haben daher erkannt, dass es vorteilhaft ist, die Verstärkungskurve in Abhängigkeit von dem gemessenen praktischen maximalen Eingangspegel des Signals zu verschieben, das heißt zum Beispiel wie laut die jeweilige Person tatsächlich spricht. Wenn eine Person sehr laut spricht, wird die Position des Bereichs I und des Bereichs II zu einem hohen Eingangspegel verschoben, spricht die Person leise, werden die Bereiche I und II mit eventuellen Zwischen- und Nachbarbereichen III, IV und V zu dem niedrigeren Eingangspegel verschoben. Die Ausgänge der dynamischen Pegelanzeige können verwendet werden, um den maximalen Pegel max zu erstellen, indem ein Durchschnitt der eingegebenen Amplitude über eine vorbestimmte Zeitspanne, die länger ist als die, die zum Messen des dynamischen Eingangspegels verwendet wird, ermittelt wird. In dem schematisch in 8 gezeigten Beispiel bleibt das tatsächliche maximale Signal (zum Beispiel die maximale Lautstärke der Sprache) 10 dB unter dem theoretisch möglichen Maximum (zum Beispiel dem maximal möglichen digitalen Signal). Unter Gebrauch des Ausgangs des dynamischen Pegeldetektors, der über eine längere Zeitspanne gemittelt wird, ist es möglich, den maximalen Eingangspegel zu erstellen und das zu verwenden, um die Position und Form der Verstärkungskurve festzulegen. In 8 wird die Verstärkungskurve (z(y)) 10 dB nach links verschoben, das schematisch durch den Pfeil angezeigt ist.
  • 9 zeigt das Ergebnis der dynamischen Verarbeitungskurve (das heißt die Beziehung zwischen Eingangsamplitude und Verstärkungsfaktor), wie in 8 gezeigt, auf dem Signal. Der obere Teil ist gleich wie in 3, das heißt ein reines männliches Sprachsignal; der untere Teil veranschaulicht das Signal nach dem dynamischen Verarbeiten anhand eines erfindungsgemäßen Sprachverbesserungsalgorithmus. Die stimmlosen „weichen" Phoneme (angezeigt durch Pfeile) sind im Vergleich zu den stimmhaften „harten" Phonemen im unteren Teil der 9 ausgeprägter als im oberen Teil. Der niedrige Verstärkungsfaktor bei niedrigen Eingangsstärken (unter etwa –50 dB in dem Beispiel der 8) hat den Vorteil, dass das Leitungs- oder Übertragungsrauschen nicht oder zumindest viel weniger verstärkt wird. Die folgenden Bemerkungen können gemacht werden:
    • – wie von den Pfeilen angezeigt, sind die Bereiche mit niedriger Amplitude, die den stimmlosen Phonemen entsprechen, verstärkt;
    • – die stimmhaften Phoneme werden nicht beeinträchtigt, das heißt, dass die Lautstärke beibehalten wird;
    • – die nicht gesprochenen Teile (Pausen) werden nicht geboostet.
  • Die Gesamtverständlichkeit der Sprache wird durch einfache Maßnahmen stark verbessert.
  • Die Werte der maximalen Verstärkung, die Übergangspunkte zwischen den Bereichen, kurz gesagt die Merkmale der dynamischen Verarbeitungskurve in einem erfindungsgemäßen Gerät und Verfahren hängen bei bevorzugten Ausführungsformen und Systemen von dem Hintergrund- oder Leitungs- oder Übertragungsrauschen (23 oder 24) ab. Dazu wird das Hintergrundrauschniveau von einem Rauschdetektor 120, das heißt einem Mikrofon gemessen, siehe auch 2. Das Übertragungsrauschens kann ebenfalls gemessen werden. Das Messen des Übertragungsrauschens kann zum Beispiel durch den Einsatz eines dynamischen Pegeldetektors und Messen des mittleren Signals während Pausen zwischen Wörtern oder durch irgendeinen anderen Durchschnittssignaldetektor ausgeführt werden, und die charakteristischen Werte des oder der Rauschsignale oder des Rauschsignals N1, N2 selbst werden zu dem dynamischen Pegelanpasser 42 gesendet. Dieser dynamische Pegelanpasser setzt das Multiplizieren des Verstärkungsfaktors mit dem Signal um. Das ist in 10 schematisch gezeigt.
  • Einige beispielhafte Ausführungsformen (oder Teile) von Sprachverbesserungsalgorithmen werden unten beschrieben.
    • a. Zum Bereitstellen einer schnellen aber glatten auf Abtastwerten basieren den Pegelerfassung wird ein dynamischer Pegeldetektor verwendet, für den in 11 ein Blockschaltbild gezeigt ist. Seine Gleichungen lauten y[n] = |I[n]| + KP × (y[n – 1] – |I[n]|) + KM × |(y[n – 1] – |I[n])|wobei KP = (Kr + Ka)/2 KM = (Kr – Ka)/2und wobei
  • Figure 00220001
  • Ta und Tr sind jeweils die Angriffs- und Freigabezeitkonstanten, die die Zeitspanne bestimmen, während welcher ein Durchschnitt ermittelt wird. Optimale Ergebnisse werden erzielt, wenn Ta und Tr einige Millisekunden (typisch 1 bis 5 ms) betragen. Der dynamische Pegeldetektor stellt daher einen Eingangspegel y bereit, der ein Zeitdurchschnitt für die Signalstärke ist. Ein Durchschnitt über den Pegeln und daher über der Eingangsamplitude, genommen über eine längere Zeitspanne als die Angriffs- und Freigabezeitkonstanten (zum Beispiel 5 bis zu 20 Mal länger) können als ein Hinweis auf den maximalen Eingangspegel dienen (der zum Bestimmen des Werts für max verwendet werden kann).
  • Das Erstellen des Verstärkungsfaktors (oder Boost) z in Abhängigkeit von der Eingangspegelamplitude des Eingangssignals I erfolgt bei den bevorzugten Ausführungsformen anhand einer Dynamikverarbeitung aufgrund von Nachschlagtabellen. Angenommen die y-Achse ist der Ausgang des dynamischen Pegeldetektors in Dezibel Für jeden I-Wert boostet der Dynamikverarbeitungsblock das eingegebene Sprachsignal mit der entsprechenden Verstärkung in Dezibel auf der z-Achse, wie zum Beispiel in 8 gezeigt, die ein Beispiel für eine solche Kurve in dem Fall eines normalisierten Vollbandbreitensprachsignals wie dem in 3 gezeigten zeigt. Der Verstärkungsfaktor beginnt vorzugsweise rechts über dem Rauschpegel des eingegebenen Sprachsignals. Für ein reines aufgenommenes Sprachsignal liegt dieser Pegel typisch unter –50 dB. Das Boosten des Rauschens wird dadurch vermieden. Der maximale Verstärkungsfaktor (Boostniveau) (20 dB in diesem Fall) wird vorzugsweise von dem Umgebungsrauschen abhängig gemacht, indem zum Beispiel und vorzugsweise ein einziges Mikrofonfeedback verwendet wird.
  • Die Steigung der Verringerung des Verstärkungsfaktors (die Steigung im Bereich III) ist vorzugsweise sanfter als der Anstieg (im Bereich V). Das verringert die Gefahr des Pumpens und von Echoartefakten.
  • 12 zeigt ein Beispiel eines kompletten Blockschaltbilds für einen Sprachartikulierungsverbesserungsalgorithmus.
  • Ein Signal In trifft ein. Aus dem Strom des ankommenden Signals In am Eingang 122 zum Beispiel des dynamischen Pegeldetektors 111 wird ein Eingangspegel y berechnet. Ein Beispiel eines dynamischen Pegeldetektors 111 ist in 11 veranschaulicht. Unter Gebrauch der Nachschlagtabelle 121, die die dynamische Kurve enthält, von welcher in den vorhergehenden Figuren viele Beispiele gegeben sind, wird der Verstärkungsfaktor z(n) berechnet oder bestimmt: Dieser wird mit dem eingehenden Signal I(n) multipliziert, um das Ausgangssignal S = I(n) × z(n) bereitzustellen. Die Umkehrung in dB ist keine Notwendigkeit, macht die Transferkurve jedoch leichter umsetzbar, zum Beispiel aus geraden Linien bestehend.
  • Kurz kann die Erfindung wie folgt beschrieben werden:
    Bei einem Tonwiedergabe- oder Aufnahmesystem wird ein Audiosignal mit einem Verstärkungsfaktor z multipliziert, der von dem Eingangspegel y abhängt. Die Abhängigkeit des Verstärkungsfaktors von dem Eingangspegel wird so ausgewählt, dass stimmlose Phoneme mindestens 6 dB, vorzugsweise mindestens 12 dB mehr verstärkt werden als stimmhafte Phoneme, wobei die mittlere Verstärkung vorzugsweise kleiner ist als 6 dB. Das verbessert die Verständlichkeit.
  • In der Praxis, kann in einem System relativ leicht geprüft werden, ob stimmlose Phoneme mehr verstärkt werden oder nicht und um wie viel mehr als die stimmhaften Phoneme, zum Beispiel, indem man eine Person, deren Muttersprache das Englische ist, den Satz der 3 aussprechen lässt und dann das Ausgangssignal mit dem Eingangssignal vergleicht und dann das Eingangssignal und das Ausgangssignal an jedem der Phoneme vergleicht und die Lautstärke des eingehenden und des ausgehenden Signals vergleicht.
  • Die offenbarten algorithmischen Bestandteile können in der Praxis (teilweise oder ganz) als Hardware ausgeführt werden (zum Beispiel Bereiche auf einer anwendungsspezifischen IC) oder als Software, die auf einem speziellen digitalen Signalprozessor, einem generischen Prozessor usw. läuft.
  • Der Fachmann erkennt, dass die vorliegende Erfindung nicht durch das eingeschränkt wird, was insbesondere oben gezeigt und beschrieben wurde. Der Geltungsbereich der Erfindung wird nur durch die anliegenden Ansprüche begrenzt. Bezugszeichen in den Ansprüchen begrenzen ihren Schutzbereich nicht. Der Gebrauch des Verbs „aufweisen" und seine Konjugationen schließen die Gegenwart anderer Elemente als die in den Ansprüchen erwähnten nicht aus. Der Gebrauch des Artikels „ein" oder „eine" vor einem Element schließt die Gegenwart mehrerer solcher Elemente nicht aus.

Claims (28)

  1. Tonwiedergabe- oder Aufnahmesystem, das einen Audiosignaleingang (1), einen Audiosignalprozessor (2, DSP) und einen Audiosignalausgang (3) aufweist, wobei der Audiosignalprozessor einen Zuweiser (25) zum Zuweisen eines Verstärkungsfaktor (z) zu Eingangssignalen (In) als eine Funktion des Eingangspegels (y) mit einer funktionalen Beziehung derart aufweist, dass die funktionale Beziehung zwischen dem Verstärkungsfaktor (z) und dem Eingangspegel (y) einen ersten (I) und einen zweiten (II) Bereich aufweist, wobei der erste Bereich (I) Amplituden deckt, in welchen typisch stimmhafte Phoneme liegen, wobei der zweite Bereich (II) an Eingangspegeln (y) liegt, die niedriger sind als die für den ersten Bereich (I), und Eingangspegel deckt, in welchen typisch stimmlose Phoneme liegen, wobei die funktionale Beziehung derart ist, dass der mittlere Verstärkungsfaktor des ersten Bereichs (I) mindestens 6 dB unter dem des zweiten Bereichs (II) liegt, wobei der Zuweiser (25) zum Zuweisen einer Verstärkung (z) derart eingerichtet ist, dass ein mittlerer Verstärkungsfaktor der Bereiche (I, II) kleiner ist als 12 dB.
  2. Tonwiedergabe- oder Aufnahmesystem nach Anspruch 1, wobei der Audiosignaleingang (1) ein digitaler Audiosignaleingang (1) ist, wobei der Audiosignalprozessor (2, DSP) ein digitaler Audiosignalprozessor (2, DSP) ist, und wobei der Audiosignalausgang (3) ein digitaler Audiosignalausgang (3) ist, wobei sich der erste Bereich (I) von einem Eingangspegel mit maximalem Wert (MAX) nach unten um mindestens 10 dB erstreckt, der zweite Bereich (II) sich an Eingangspegeln unter dem ersten Bereich (I) erstreckt, wobei der zweite Bereich einen Bereich von 10 dB oder mehr deckt, wobei der mittlere Verstärkungsfaktor (z) in dem ersten Bereich (I) mindestens 6 dB niedriger ist als in dem zweiten Bereich (II).
  3. Tonwiedergabesystem nach Anspruch 2, wobei der Zuweiser (25) zum Zuweisen eines Verstärkungsfaktors (z) so angeordnet ist, dass sich der erste Bereich (I) von dem Maximum (MAX) um mindestens 15 dB aber nicht mehr als 30 dB erstreckt.
  4. Tonwiedergabe- oder Aufnahmesystem nach Anspruch 1 oder 2, wobei der Zuweiser (25) zum Zuweisen eines Verstärkungsfaktors (z) derart eingerichtet ist, dass der Verstärkungsfaktor (z) in dem ersten Bereich (I) mindestens 12 dB niedriger ist als in dem zweiten Bereich (II).
  5. Tonwiedergabe- oder Aufnahmesystem nach Anspruch 1 oder 2, wobei der Zuweiser (25) zum Zuweisen einer Verstärkung (z) derart eingerichtet ist, dass der mittlere Verstärkungsfaktor der Bereiche (I, II) kleiner ist als 6 dB, vorzugsweise kleiner als 3 dB.
  6. Tonwiedergabe- oder Aufnahmesystem nach Anspruch 1 oder 2, wobei das System einen dynamischen Pegeldetektor (41, 111) aufweist, der einen Eingang für die Signalamplitude (In) und einen Ausgang zum Bereitstellen eines mittleren Pegels (y) über eine vorbestimmte Zeitspanne hat.
  7. Tonwiedergabe- oder Aufnahmesystem nach Anspruch 6, wobei die vorbestimmte Zeitspanne (TQ, T) 1 bis 5 Millisekunden beträgt.
  8. Tonwiedergabe- oder Aufnahmesystem nach Anspruch 1 oder 2, wobei der Zuweiser (25) zum Zuweisen eines Verstärkungsfaktors (z) derart eingerichtet ist, dass der Verstärkungsfaktor (z) in dem ersten Bereich (I) im Durchschnitt unter 10 dB vorzugsweise unter 6 dB liegt.
  9. Tonwiedergabe- oder Aufnahmesystem nach Anspruch 1 oder 2, wobei das System einen Bestimmer zum Bestimmen eines maximalen Eingangspegels eines empfangenen Signals und ein Mittel zum Gleichstellen des maximalen Eingangspegels mit der oberen Kante des ersten Bereichs aufweist.
  10. Tonwiedergabe- oder Aufnahmesystem nach Anspruch 1 oder 2, wobei der Zuweiser (25) zum Zuweisen eines Verstärkungsfaktors (z) zu Eingangssignalen (In) als eine Funktion des Eingangspegels (y) derart eingerichtet ist, dass die funktionale Bezie hung zwischen dem Verstärkungsfaktor (z) und dem Eingangspegel (y) derart ist, dass zwischen dem ersten (I) und dem zweiten (II) Bereich ein dritter Zwischenbereich (III) gegenwärtig ist, in dem sich der Verstärkungsfaktor (z) allmählich ändert.
  11. Tonwiedergabe- oder Aufnahmesystem nach Anspruch 1 oder 2, wobei das System einen Sensor (26) zum Messen von Hintergrundrauschen (N2) und einen Anpasser zum Anpassen des Verstärkungsfaktors (z) in dem zweiten Bereich (II) in Abhängigkeit von dem gemessenen Hintergrundrauschen (N2) aufweist.
  12. Tonwiedergabe- oder Aufnahmesystem nach Anspruch 1 oder 2, wobei der Zuweiser (25) zum Zuweisen eines Verstärkungsfaktors (z) derart eingerichtet ist, dass der zweite Bereich (II) an einem unteren Grenzwert neben einem vierten Bereich (IV) liegt, in dem der Verstärkungsfaktor im Wesentlichen gleich Null ist.
  13. Tonwiedergabe- oder Aufnahmesystem nach Anspruch 12, wobei der Zuweiser (25) zum Zuweisen eines Verstärkungsfaktors (z) zu Eingangssignalen (In) als eine Funktion des Eingangspegels (y) derart eingerichtet ist, dass der zweite (II) und vierte (IV) Bereich durch einen fünften (V) Zwischenbereich getrennt sind, in welchem sich der Verstärkungsfaktor (z) allmählich ändert.
  14. Tonwiedergabe- oder Aufnahmesystem nach Anspruch 12 und 10, wobei der Zuweiser für das Zuweisen (25) eines Verstärkungsfaktors (z) zu Eingangssignalen (In) als eine Funktion des Eingangspegels (y) derart eingerichtet ist, dass die Steigung der Verringerung des Verstärkungsfaktors in dem dritten Bereich (III) sanfter ist als die Zunahme im Verstärkungsfaktor in dem fünften Bereich (V).
  15. Tonwiedergabe- oder Aufnahmesystem nach Anspruch 12, wobei das System eine Messvorrichtung zum Messen von Leitungs- oder Übertragungsrauschen (N1) oder einen Eingang für einen Wert für Leitungs- oder Übertragungsrauschen (N1) und einen Anpasser zum Anpassen des Übergangspunkts oder Übergangsbereichs (V) von dem zweiten (II) zu dem vierten (IV) Bereich in Abhängigkeit von der Menge an Leitungs- oder Übertragungsrauschen (N1) aufweist.
  16. Tonwiedergabesystem nach Anspruch 1 oder 2, wobei das Tonwiedergabesystem ein Mobiltelefonsystem ist.
  17. Tonwiedergabesystem nach Anspruch 1 oder 2, wobei der Signalprozessor ein digitaler Signalprozessor (DPS) ist.
  18. Verfahren für eine Audiosignalverbesserung für ein Tonwiedergabe- oder Aufzeichnungssystem, bei dem ein eingehendes Audiosignal verarbeitet wird, wobei Eingangssignale mit einem Verstärkungsfaktor (z) multipliziert werden, wobei der Verstärkungsfaktor von dem Eingangspegel (y) abhängt, wobei die funktionale Beziehung zwischen dem Verstärkungsfaktor (z) und einem Eingangspegel (y) derart ist, dass ein erster (I) und ein zweiter Bereich (II) für den Verstärkungsfaktor gegenwärtig sind, wobei der erste Bereich (I) Amplituden deckt, in welchen typisch stimmhafte Phoneme liegen, und der zweite Bereich (II) bei Eingangspegeln (y) liegt, die niedriger sind als die für den ersten Bereich (I), und Eingangspegel deckt, in welchen typisch stimmlose Phoneme liegen, wobei die funktionale Beziehung derart ist, dass der mittlere Verstärkungsfaktor des ersten Bereichs (I) mindestens 6 dB unter dem des zweiten Bereichs (II) liegt, wobei die funktionale Beziehung zwischen dem Verstärkungsfaktor (z) und dem Eingangspegel (y) derart ist, dass der mittlere Verstärkungsfaktor geringer ist als 12 dB.
  19. Verfahren zur Audiosignalverbesserung nach Anspruch 18, wobei sich der erste Bereich (I) von einem Eingangspegel mit maximalem Wert (MAX) abwärts um mindestens 10 dB erstreckt, der zweite Bereich (II) sich bei Eingangspegeln roter dem ersten Bereich (I) erstreckt, wobei der zweite Bereich einen Bereich von 10 dB oder mehr deckt, wobei der mittlere Verstärkungsfaktor (z) in dem ersten Bereich (I) mindestens 6 dB niedriger ist als in dem zweiten Bereich (II).
  20. Verfahren zur Audiosignalverbesserung nach Anspruch 18 oder 19, wobei die funktionale Beziehung zwischen dem Verstärkungsfaktor (z) und dem Eingangspegel (y) derart ist, dass der Verstärkungsfaktor in dem ersten Bereich (I) mindestens 10 dB niedriger ist als in dem zweiten Bereich (II).
  21. Verfahren zur Audiosignalverbesserung nach Anspruch 18 oder 19, wobei die funktionale Beziehung zwischen dem Verstärkungsfaktor (z) und dem Eingangspegel (y) derart ist, dass der mittlere Verstärkungsfaktor kleiner ist als 6 dB, vorzugsweise kleiner als 3 dB.
  22. Verfahren zur Audiosignalverbesserung nach Anspruch 18 oder 19, wobei die funktionale Beziehung zwischen dem Verstärkungsfaktor (z) und dem Eingangspegel (y) derart ist, dass der erste (I) und zweite Bereich (II) durch einen dritten Zwischenbereich (III) getrennt sind, in dem sich der Verstärkungsfaktor allmählich ändert.
  23. Verfahren zur Audiosignalverbesserung nach Anspruch 18 oder 19, wobei die funktionale Beziehung zwischen dem Verstärkungsfaktor (z) und dem Eingangspegel (y) derart ist, dass der zweite Bereich (II) an einem tieferen Grenzwert neben einem vierten Bereich (IV) liegt, in dem der Verstärkungsfaktor im Wesentlichen gleich Null ist.
  24. Verfahren zur Audiosignalverbesserung nach Anspruch 23, wobei die funktionale Beziehung zwischen dem Verstärkungsfaktor (z) und dem Eingangspegel (y) derart ist, dass der zweite (II) und vierte (IV) Bereich von einem fünften Zwischenbereich (V) getrennt sind, in dem sich der Verstärkungsfaktor allmählich ändert.
  25. Verfahren zur Audiosignalverbesserung nach Anspruch 22 und 24, wobei die funktionale Beziehung zwischen dem Verstärkungsfaktor (z) und dem Eingangspegel (y) derart ist, dass die Steigung der Verringerung des Verstärkungsfaktors in dem dritten Bereich (III) sanfter ist als der Anstieg im Verstärkungsfaktor in dem fünften Bereich (IV).
  26. Verfahren zur Audiosignalverbesserung nach Anspruch 18, wobei die funktionale Beziehung zwischen dem Verstärkungsfaktor und dem Eingangspegel derart ist, dass stimmlose Phoneme mindestens 6 dB mehr verstärkt werden als stimmhafte Phoneme.
  27. Computerprogramm mit einem Programmcodemittel zum Ausführen aller Schritte eines Verfahrens nach einem der Ansprüche 18 bis 26, wenn das Programm auf einem Computer ausgeführt wird.
  28. Computerprogrammprodukt, das Programmcodemittel aufweist, die auf einem computerlesbaren Träger gespeichert sind, um alle Schritte eines Verfahrens nach einem der Ansprüche 18 bis 26 auszuführen, wobei das Programm auf einem Computer ausgeführt wird.
DE602004007953T 2003-11-14 2004-11-09 System und verfahren zur audiosignalverarbeitung Active DE602004007953T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP03104210 2003-11-14
EP03104210 2003-11-14
PCT/IB2004/052354 WO2005048242A1 (en) 2003-11-14 2004-11-09 System and method for audio signal processing

Publications (2)

Publication Number Publication Date
DE602004007953D1 DE602004007953D1 (de) 2007-09-13
DE602004007953T2 true DE602004007953T2 (de) 2008-04-17

Family

ID=34560221

Family Applications (1)

Application Number Title Priority Date Filing Date
DE602004007953T Active DE602004007953T2 (de) 2003-11-14 2004-11-09 System und verfahren zur audiosignalverarbeitung

Country Status (8)

Country Link
US (1) US7539614B2 (de)
EP (1) EP1687812B1 (de)
JP (1) JP2007511793A (de)
KR (1) KR20060122854A (de)
CN (1) CN1879150B (de)
AT (1) ATE368922T1 (de)
DE (1) DE602004007953T2 (de)
WO (1) WO2005048242A1 (de)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070129945A1 (en) * 2005-12-06 2007-06-07 Ma Changxue C Voice quality control for high quality speech reconstruction
JP5262713B2 (ja) * 2006-06-02 2013-08-14 日本電気株式会社 ゲイン制御システム、ゲイン制御方法及びゲイン制御プログラム
JP4946293B2 (ja) 2006-09-13 2012-06-06 富士通株式会社 音声強調装置、音声強調プログラムおよび音声強調方法
KR20080060042A (ko) * 2006-12-26 2008-07-01 삼성전자주식회사 영상재생장치 및 그 화질개선방법
KR101414233B1 (ko) * 2007-01-05 2014-07-02 삼성전자 주식회사 음성 신호의 명료도를 향상시키는 장치 및 방법
ES2391228T3 (es) * 2007-02-26 2012-11-22 Dolby Laboratories Licensing Corporation Realce de voz en audio de entretenimiento
CN101686039B (zh) * 2008-09-23 2013-01-23 深圳Tcl新技术有限公司 用于多媒体装置的音频处理装置以及音频处理方法
CN101986386B (zh) * 2009-07-29 2012-09-26 比亚迪股份有限公司 一种语音背景噪声的消除方法和装置
ES2392306B1 (es) * 2010-02-03 2013-10-02 Sergio CÓRDOBA SOLANO Gestión psicoacústica del sonido para su optimización en sistemas de audio de instalaciones fijas y eventuales.
CN102195581A (zh) * 2010-03-18 2011-09-21 承景科技股份有限公司 数字音频信号的音量调整方法
CN101848288A (zh) * 2010-04-19 2010-09-29 北京东微世纪科技有限公司 一种麦克风的模拟降噪系统及方法
KR101726738B1 (ko) * 2010-12-01 2017-04-13 삼성전자주식회사 음성처리장치 및 그 방법
US9933990B1 (en) * 2013-03-15 2018-04-03 Sonitum Inc. Topological mapping of control parameters
CN103763498B (zh) * 2014-01-24 2017-08-01 深圳市影歌科技有限公司 Hdmi信号处理系统及处理方法
CN104869503B (zh) * 2015-03-23 2019-01-04 深圳市冠旭电子股份有限公司 一种基于等响曲线的动态低频加强方法及系统
CN105513606B (zh) * 2015-11-27 2019-12-06 百度在线网络技术(北京)有限公司 语音信号处理方法、装置和系统
CN113711624B (zh) * 2019-04-23 2024-06-07 株式会社索思未来 声音处理装置
CN110971769B (zh) * 2019-11-19 2022-05-03 百度在线网络技术(北京)有限公司 通话信号的处理方法、装置、电子设备及存储介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US4887299A (en) * 1987-11-12 1989-12-12 Nicolet Instrument Corporation Adaptive, programmable signal processing hearing aid
JPH0627995A (ja) * 1992-03-02 1994-02-04 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho 音声信号処理装置と音声信号処理方法
US5526419A (en) * 1993-12-29 1996-06-11 At&T Corp. Background noise compensation in a telephone set
JPH0916193A (ja) * 1995-06-30 1997-01-17 Hitachi Ltd 話速変換装置
US5727031A (en) * 1995-06-30 1998-03-10 Telefonaktiebolaget Lm Ericsson Adaptive gain controller
JPH0968997A (ja) * 1995-08-30 1997-03-11 Sony Corp 音声処理方法及び装置
US5794187A (en) * 1996-07-16 1998-08-11 Audiological Engineering Corporation Method and apparatus for improving effective signal to noise ratios in hearing aids and other communication systems used in noisy environments without loss of spectral information
JP3102553B2 (ja) * 1996-09-05 2000-10-23 和彦 庄司 音声信号処理装置
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6868163B1 (en) * 1998-09-22 2005-03-15 Becs Technology, Inc. Hearing aids based on models of cochlear compression
FR2783991A1 (fr) * 1998-09-29 2000-03-31 Philips Consumer Communication Telephone avec moyens de rehaussement de l'impression subjective du signal en presence de bruit
US6363338B1 (en) * 1999-04-12 2002-03-26 Dolby Laboratories Licensing Corporation Quantization in perceptual audio coders with compensation for synthesis filter noise spreading
AU5472199A (en) * 1999-08-10 2001-03-05 Telogy Networks, Inc. Background energy estimation
US6823452B1 (en) * 1999-12-17 2004-11-23 International Business Machines Corporation Providing end-to-end user authentication for host access using digital certificates
JP3889546B2 (ja) * 2000-03-30 2007-03-07 三洋電機株式会社 レベル調整回路
US6889186B1 (en) * 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
US6873709B2 (en) * 2000-08-07 2005-03-29 Apherma Corporation Method and apparatus for filtering and compressing sound signals
US6871279B2 (en) * 2001-03-20 2005-03-22 Networks Associates Technology, Inc. Method and apparatus for securely and dynamically managing user roles in a distributed system
DE10124699C1 (de) * 2001-05-18 2002-12-19 Micronas Gmbh Schaltungsanordnung zur Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen
JP4826034B2 (ja) * 2001-06-25 2011-11-30 ソニー株式会社 コンテンツ受信方法、コンテンツ再生方法、コンテンツ受信装置及びコンテンツ再生装置

Also Published As

Publication number Publication date
ATE368922T1 (de) 2007-08-15
DE602004007953D1 (de) 2007-09-13
JP2007511793A (ja) 2007-05-10
CN1879150A (zh) 2006-12-13
EP1687812A1 (de) 2006-08-09
CN1879150B (zh) 2010-09-01
EP1687812B1 (de) 2007-08-01
US7539614B2 (en) 2009-05-26
KR20060122854A (ko) 2006-11-30
WO2005048242A1 (en) 2005-05-26
US20050108008A1 (en) 2005-05-19

Similar Documents

Publication Publication Date Title
DE602004007953T2 (de) System und verfahren zur audiosignalverarbeitung
DE60108401T2 (de) System zur erhöhung der sprachqualität
DE60027438T2 (de) Verbesserung eines verrauschten akustischen signals
DE602004005234T2 (de) System und verfahren zur signalverarbeitung
DE60116255T2 (de) Rauschunterdückungsvorrichtung und -verfahren
EP1143416B1 (de) Geräuschunterdrückung im Zeitbereich
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE602004004242T2 (de) System und Verfahren zur Verbesserung eines Audiosignals
US5933801A (en) Method for transforming a speech signal using a pitch manipulator
DE60035512T2 (de) Verfahren und vorrichtung zum automatischen einstellen der verstärkungen des mikrophon- und sprecherverstärkers in einem tragbaren telefon
DE112009000805T5 (de) Rauschreduktion
DE102007030209A1 (de) Glättungsverfahren
EP2364646A1 (de) Hörtestverfahren
DE112014000945B4 (de) Sprachbetonungsgerät
EP1103956B1 (de) Exponentielle Echo- und Geräuschabsenkung in Sprachpausen
DE102006019694B3 (de) Verfahren zum Einstellen eines Hörgeräts mit Hochfrequenzverstärkung
EP3793218B1 (de) Verfahren zum betrieb eines hörgeräts sowie hörgerät
EP2380171A2 (de) Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen
DE102009032238A1 (de) Verfahren zur Kontrolle der Anpassung eines Hörgerätes
AT507844B1 (de) Methode zur trennung von signalpfaden und anwendung auf die verbesserung von sprache mit elektro-larynx
EP3961624A1 (de) Verfahren zum betrieb einer hörvorrichtung in abhängigkeit eines sprachsignals
DE102020210918A1 (de) Verfahren zum Betrieb einer Hörvorrichtung in Abhängigkeit eines Sprachsignals
Lavanya et al. Histogram Matching based Optimized Energy Redistribution for Near End Listening Enhancement
EP3962115A1 (de) Verfahren zur bewertung der sprachqualität eines sprachsignals mittels einer hörvorrichtung
Zorila et al. Effectiveness of Near-End Speech Enhancement Under Equal-Loudness and Equal-Level Constraints.

Legal Events

Date Code Title Description
8364 No opposition during term of opposition