DE3833606A1 - Verfahren zur verarbeitung akustischer signale und vorrichtungen zur durchfuehrung der verfahren - Google Patents

Verfahren zur verarbeitung akustischer signale und vorrichtungen zur durchfuehrung der verfahren

Info

Publication number
DE3833606A1
DE3833606A1 DE19883833606 DE3833606A DE3833606A1 DE 3833606 A1 DE3833606 A1 DE 3833606A1 DE 19883833606 DE19883833606 DE 19883833606 DE 3833606 A DE3833606 A DE 3833606A DE 3833606 A1 DE3833606 A1 DE 3833606A1
Authority
DE
Germany
Prior art keywords
frequency
amplitude
time segment
acoustic signals
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19883833606
Other languages
English (en)
Inventor
Gerd Prof Dr Kegel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE19883833606 priority Critical patent/DE3833606A1/de
Publication of DE3833606A1 publication Critical patent/DE3833606A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

Die Erfindung betrifft Verfahren zur Verarbeitung akusti­ scher Signale, insbesondere von Sprachsignalen, und Vorrich­ tungen zur Durchführung der Verfahren.
Es ist eine Fülle von Verfahren zur Verarbeitung akusti­ scher Signale, insbesondere von Sprachsignalen bekannt. Nach K. Fellbaum, Sprachverarbeitung und Sprachübertragung, Berlin 1984, lassen sich im wesentlichen 3 Prinzipien der digitalen Sprachsignalverarbeitung unterscheiden:
  • 1. Verfahren zur Signalformcodierung, bei denen das ur­ sprüngliche Signal möglichst fehlerfrei am Empfangsort zurückgewonnen werden soll. Als Gütekriterium dient in erster Linie das "Signal-Geräusch-Verhältnis".
  • 2. Parametrische Verfahren, wie etwa das Vocoder-Verfahren, bei denen statt des Sprachsignals eine parametrische Beschreibung des Signals übertragen wird, aus der sich dann am Empfangsort wieder Sprache gewinnen läßt. Bei diesem Verfahren gibt es kein mathematisches Gütekrite­ rium. Einziges Kriterium ist hier die subjektiv empfunde­ ne Sprachqualität.
  • 3. Verfahren der Spracherkennung und Sprachsynthese, bei denen der Sprachinhalt semantisch erfaßt wird, dann im wesentlichen eine Textübertragung stattfindet und am Empfangsort schließlich mit Hilfe einer Schrifttext- Sprachtext-Umsetzung (Sprachsynthese) wieder Sprache erzeugt wird.
Gegenüber der analogen Sprachsignalverarbeitung weist die digitale Sprachsignalverarbeitung eine Reihe von Vorteilen auf, die jedoch mit dem Nachteil der höheren Bandbreite gegenüber Analogsignalen erkauft werden müssen. Im Hinblick auf die stetig wachsenden Kommunikationsbedürfnisse sind daher Verfahren von besonderer Bedeutung, bei denen die Bandbreite bzw. die Bitübertragungsrate reduziert werden. Wenn bei der Pulscodemodulation (PCM)-Technik noch Über­ tragungsraten von 64 kbit/s verwendet werden, so läßt sich mit der Differenz-Pulscodemodulation (DPCM), der Adaptiven Differenz-Pulscodemodulation (ADPCM), der Deltamodulation (DM), oder der Adaptiven Deltamodulation (ADM) bereits eine Reduzierung der Übertragungsrate um etwa 25 bis 50% gegen­ über der PCM-Technik erreichen. Eine weitere Reduzierung der Übertragungsrate auf 1/20 (3 kbit/s) im Vergleich zur PCM-Technik läßt sich mit dem Kanalvocoder erreichen, bei dem Signalparameter übertragen werden. Dies wird jedoch mit einem relativ hohen technischen Aufwand und einer Qualitäts­ minderung des ausgegebenen Signals erkauft.
Bei einem linearen Prädiktions(LPC)-Vocoder, bei dem eine am Sprachtraktmodell orientierte Signalanalyse und -syn­ these durchgeführt wird, liegen die Übertragungsraten zwi­ schen 2,4 und 4,8 kbit/s. Dies erfordert jedoch einen ver­ gleichsweise sehr hohen Hardware- und Softwareaufwand. Zu­ dem sind einige grundsätzliche Probleme insbesondere bezüg­ lich der Ermittlung der Grundfrequenz bisher nicht befriedi­ gend gelöst worden.
Demgegenüber besteht die Aufgabe der Erfindung darin, Ver­ fahren zur Verarbeitung akustischer Signale und Vorrichtun­ gen zur Durchführung der Verfahren zu schaffen, bei denen eine optimale Nutzung von Datenträger- und Datenkanalkapa­ zitäten bei der digitalen Übertragung und digitalen Speiche­ rung akustischer Signale, insbesondere von Sprachsignalen, durch den Ausschluß von Signaleigenschaften ermöglicht wird, die für die menschliche Signalverarbeitung irrelevant sind.
Diese Aufgabe wird dadurch gelöst, daß beim erfindungs­ gemäßen Verfahren zum Codieren akustischer Signale zum digi­ talen Übertragen derselben von einem Sender zu einem Empfän­ ger bzw. zum digitalen Speichern derselben auf einem Speichermedium das akustische Signal in Zeitsegmente ge­ schnitten und pro Zeitsegment das Frequenz-Amplituden- Spektrum so bestimmt wird, daß das Frequenz-Spektrum in Frequenzgruppen und die Amplitude in Amplitudenstufen auf­ geteilt werden und daß aus den ermittelten Frequenzwerten mit zugehörigen Amplutidenwerten pro Zeitsegment eine Frequenz-Amplituden-Matrix gebildet wird, die dann digital übertragen bzw. gespeichert wird.
Die erfindungsgemäßen Verfahren zum Decodieren akustischer Signale bzw. zum Übertragen von akustischen Signalen sind in den Ansprüchen 3 bis 6 näher beschrieben.
Das erfindungsgemäße Verfahren zur zeitsegmentalen parame­ terorientierten digitalen Speicherung und digitalen Über­ tragung akustischer Signale, das im nachfolgenden als ZSP- Verfahren bezeichnet wird, weist gegenüber dem Stand der Technik eine Reihe von Vorteilen auf.
So ergibt sich für die digitale Speicherung akustischer Signale nach dem erfindungsgemäßen Verfahren eine Reduzie­ rung des benötigten Speicherplatzes gegenüber PCM-ähnlichen Verfahren um den Faktor 10 bis 20, und zwar unabhängig vom eingesetzten Speichermedium.
Für die digitale Übertragung akustischer Signale ergibt sich für das erfindungsgemäße Verfahren gegenüber PCM-ähnli­ chen Verfahren eine Reduzierung der Übertragungsrate um den Faktor 10 bis 20, während sich gegenüber voll entwickel­ ten LPC-ähnlichen Verfahren eine deutliche Reduzierung des Analyse-/Synthese-Rechenaufwandes sowie des Hardware-/Soft­ ware-Aufwandes ergibt. Gegenüber den am Sprachtrakt orien­ tierten LPC-Verfahren ist darauf hinzuweisen, daß die audi­ tive Orientierung des erfindungsgemäßen ZSP-Verfahrens die adäquate (Mit-)Übertragung nicht sprachlicher akustischer Signale ermöglicht, so daß der Anwendungsbereich des erfin­ dungsgemäßen ZSP-Verfahrens breiter ist.
Ausführungsformen der Erfindung werden anhand der Zeichnun­ gen näher beschrieben. Es zeigen:
Fig. 1 eine schematische Darstellung des erfindungsgemäßen ZSP-Verfahrens;
Fig. 2 eine oszillografische Darstellung des Wortbeginns des Wortes "Bad" zur Erläuterung der Zeitsegmentierung;
Fig. 3 eine schematische Darstellung der Einteilung des Frequenzspektrums in Frequenzgruppen;
Fig. 4 eine schematische Darstellung der Einteilung der Frequenzgruppen in Frequenzbänder;
Fig. 5 eine schematische Darstellung zur Erläuterung der akustischen Ausgabe und
Fig. 6 eine oszillografische Darstellung am Beispiel des Übergangs vom Buchstaben "o" zum Buchstaben "m".
Anhand der schematischen Darstellung nach Fig. 1 soll das Prinzip des erfindungsgemäßen Verfahrens kurz erläutert werden. Das analoge akustische Eingangssignal wird analog­ digital (A/D) gewandelt. Gleichzeitig wird das Signal in Zeitsegmente geschnitten, die nach auditiv relevanten Para­ metern analysiert und in Gruppen von Zeitsegment-Parametern (ZSP) überführt werden. Das Ergebnis kann als Folge von Frequenz-Amplituden-Matrizen mit einigen Zusatzinformatio­ nen (oder in effektiverer Umrechnungsform) entweder gespei­ chert oder übertragen werden. Bei Abruf der so gespeicher­ ten Information oder am Ende der Übertragungsstrecke wird diese Matrizenfolge in eine Signalwertfolge überführt, digi­ tal-analog (D/A) gewandelt und als analoges akustisches Sig­ nal ausgegeben.
Die Eingabe des analogen akustischen Signals und seine A/D- Wandlung stellen heute kein technisches Problem mehr dar. Die diesbezüglichen Verfahren hängen ab von der vorgege­ benen Speicherungs- bzw. Übertragungstechnik und der ge­ wünschten Ausgabequalität des akustischen Signals. Das hier dargestellte Verfahren ist den jeweils vorgegebenen techni­ schen Bedingungen anpaßbar. Es verändert auch nicht die mit der A/D-Wandlung häufig verknüpften Frequenzbandbegrenzun­ gen, Dämpfungen etc. Seine Schnittstelle zur bestehenden digitalen Informationstechnik liegt also zwischen der A/D- Wandlung und der ZSP-Analyse, die die informationstechni­ sche Neuerung bei der Signaleingabe darstellt und nun in einzelnen Schritten beschrieben werden soll.
Wie bereits oben ausgeführt wurde, wird das der A/D-Wand­ lung unterzogene Signal in Zeitsegmente geschnitten. Die maximale Dauer des digitalen Signalsegments beträgt 20 msec. Dieser Wert ist psycholinguistisch mit Bezug auf zeit­ psychologische und psychoakustische Erkenntnisse begründet. Unterhalb von 20 msec Dauer können bei auditiven Ereignis­ sen noch eine Vielzahl von Eigenschaften wahrgenommen wer­ den, jedoch wird die zeitliche Zuordnung der Eigenschaften nicht mehr verarbeitet. Im Prinzip kann daher auf die zeit­ spezifische Information innerhalb von Segmenten mit maximal 20 msec Dauer verzichtet werden, hier insbesondere auf die Erfassung von Phasenverschiebungen, Frequenz- und Amplitu­ denmodulationen sowie Frequenz- und Amplitudenstufungen unterhalb festzulegender Schwellen.
Der Wert von 20 msec entspricht dem in der Zeitpsychologie entdeckten Mindestwert für die Ordnungsschwelle (vgl. den Sammelband von J.A. Michon & J. L. Jackson (eds.): Time, Mind and Behavior, Berlin 1985). Die Ordnungsschwelle wird überschritten, wenn zwei einander folgende Sinnesreize in ihrer zeitlichen Ordnung bestimmt werden können. Die Rele­ vanz der Ordnungsschwelle für Sprachverarbeitung wurde zu­ nächst durch sprachpathologische Untersuchungen nachgewie­ sen; viele Sprachgestörte weisen erheblich erhöhte Ordnungs­ schwellenwerte auf. In einfacher Weise ist die Wirkung der Ordnungsschwelle auf die auditive Sprachverarbeitung durch geeignete Manipulation eines akustischen Signals nachweis­ bar. So wird z.B. ein Sprachsignal in Segmente von 20 msec geschnitten, zur Störung der segmentinternen Zeitinfor­ mation wird jedes einzelne Segment als Zeitsignal inver­ tiert und die Segmentfolge in der ursprünglichen Anordnung akustisch realisiert.
In allgemeiner Form:
Fig. 2 zeigt zum besseren Verständnis eine oszillografische Darstellung des Originalsignals und des manipulierten Sig­ nals des Wortbeginns des Wortes "Bad".
Bei der Ausgabe des manipulierten Signals treten durch eini­ ge harte Frequenz- und Amplitudensprünge die zu erwartenden Knacke auf. Von diesen leichten Störungen abgesehen, klingt das Signal aber völlig normal. Bei Erhöhung der Segment­ dauer verringern sich selbstverständlich die Knacke, jedoch wird individuell variabel das Signal als "schwankend" oder "hallend" empfunden. Verständlich bleibt das manipulierte Signal bis zu Segmenten von etwa maximal 70 msec Dauer. Der an der Verarbeitung akustischer Signale solcherart kon­ trollierte Ordnungsschwellenwert korrespondiert mit Grö­ ßen, die in der Psychoakustik berichtet und hier allein auf Eigenschaften des Gehörs zurückgeführt werden (vgl. den Begriff Grenzdauer des Gehörs bei E. Zwicker: Elektro­ akustik, Berlin 1984), und mit auf Erfahrung begründeten Größen bei Verfahren, die nach dem Prinzip der linearen Prädiktion arbeiten. Doch erlaubt erst das Verständnis der in der menschlichen Reizverarbeitung liegenden Ursache die­ ser Größe ihre präzise technische, anwendungsbezogene Nut­ zung. So kann z.B. die Segmentdauer abhängig von der defi­ nierten Ausgabequalität des Signals unter Beachtung der Gesetze der menschlichen Sprachverarbeitung kontrolliert verlängert werden, um Speicher- bzw. Übertragungsraten zu verringern.
Im nachfolgenden wird nun die Parameteranalyse beschrieben.
Für jedes Zeitsegement wird mit Fouriertransformationen oder leistungsäquivalenten Verfahren das Frequenz-Amplitu­ den-Spektrum berechnet.
Den Erkenntnissen der Psychoakustik folgend wird das Fre­ quenzspektrum in Frequenzgruppen aufgeteilt, bis 500 Hz konstant in Schritten von 100 Hz, anschließend wächst die Frequenzgruppenbreite um etwa 20% der jeweiligen Mittenfre­ quenz, wie es in Fig. 3 dargestellt ist. Wird das Verfahren z.B. im Fernsprechverkehr eingesetzt, werden maximal 16 Frequenzgruppen benötigt; wird das Verfahren z.B. zur hoch­ wertigen Speicherung von Musik eingesetzt, werden minde­ stens 24 Frequenzgruppen benötigt. Eine Frequenz, die in eine bestimmte Frequenzgruppe fällt, wird als Mittenfre­ quenz dieser Frequenzgruppe erfaßt. Sog. stochastische Sig­ nale werden als periodische Signale gewertet.
Die Amplitudeninformationen der Signale eines jeden Zeit­ segments werden ebenfalls stufenweise analysiert. Für Spra­ che liegt der Schallpegelbereich zwischen 30 und 80 dB, für Musik zwischen 20 und 90 dB. Ausgehend von 1 dB als wahrnehmbarer Schallpegeländerung sind dann z.B. für den Fernsprechverkehr maximal 50 Amplitudenstufen und z.B. für die Speicherung von Musik mindestens 70 Amplitudenstufen einzurichten. Die Stufung erfolgt jeweils logarithmisch; Differenzen bei kleineren Amplituden werden damit präziser als bei größeren erfaßt. Eine Amplitude, die in eine be­ stimmte Amplitudenstufe fällt, wird als Mittenamplitude dieser Amplitudenstufe erfaßt.
Damit ist die ZSP-Analyse im Kern beschrieben. Ihr Ergebnis läßt sich etwa als Frequenz-Amplituden-Matrix (z.B. bei Sprache eine 16×64 Matrix) pro Zeitsegment fixieren, d.h. Frequenzwert und zugehöriger Amplitudenwert werden gemein­ sam erfaßt. Die Speicherung oder Übertragung eines solchen Wertepaares benötigt bei Verwendung einer üblichen 16×64 Matrix 10 Bit.
Akustische Signale lassen sich bereits mit den bis hierher dargelegten Mitteln erkennbar und verständlich übertragen. Zur Erreichung einer guten, störungsfrei wirkenden akusti­ schen Ausgabe sind aber noch weitere Maßnahmen zu treffen. Zur Reduzierung der Speicher- bzw. Übertragungsrate ist von der oben dargestellten Matrixform abzuweichen.
Zur Verbesserung der akustischen Ausgabe kann die Bildung der Frequenzgruppen aus der niedrigsten Frequenz pro Zeit­ segment abgeleitet werden. Ausgegangen wird von den in Fig. 3 dargestellten, psychoakustisch festgelegten Frequenzgrup­ pen oder einer Annäherung (vgl. E. Zwicker: Psychoakustik, Berlin 1982):
Wie aus Fig. 4 zu entnehmen ist, wird jede Frequenzgruppe F G j in Frequenzbänder (F B 1...FB i ...FB m ) aufgeteilt. Die niedrigste Frequenz eines Zeitsegments fällt in ein Fre­ quenzband F B i der Frequenzgruppe F G j . Die Mittenfrequenz des Frequenzbandes F B i bildet die Mittenfrequenz MF(FG j ′) der abgeleiteten Frequenzgruppe F G j ′. Handelt es sich z.B. um das Frequenzband von 325 Hz bis 331,25 Hz, so ist 328,125 Hz (Mittenfrequenz des Frequenzbandes) die Mitten­ frequenz MF (F G j ′) der abgeleiteten Frequenzgruppe F G j ′. Unter- und Obergrenze der abgeleiteten Frequenzgruppe F G j ′ berechnen sich wie folgt:
UG(FG j′) = (MF(FGj′) - (MF(FGj) - UG(FGj))
OG(FG j′) = MF(FGj′) + (OG(FG j) - MF(FGj))
Alle oberhalb von FG j liegenden Frequenzgruppen werden korrigiert um den Differenzwert:
OG(FG j) - OG(FGj′)
Das ZSP-Verfahren arbeitet dann pro Zeitsegment mit den abgeleiteten Frequenzgruppen.
Zur Verbesserung der akustischen Ausgabe können auch Pausen berücksichtigt werden. Signalpegel Null, also Pausen, die zu Beginn oder am Ende eines Zeitsegments auftreten, müssen hinsichtlich Dauer und Position markiert werden, da beide Größen Einfluß auf die auditive Verarbeitung benachbarter Signalstrecken nehmen. Eine Fixierung der Pausendauer (ca. 7 msec) innerhalb eines Zeitsegments führt bei Sprache nicht zu auditiv merkbaren Veränderungen der akustischen Ausgabe. Soll aus Qualitätsgründen die Pausendauer bestimmt werden, ist dies z.B. indirekt über die Phasenanzahl der niedrigsten Frequenz des im Zeitsegment auftretenden Sig­ nals möglich.
Die Signalspeicherung bzw. -übermittlung wird wie folgt durchgeführt.
Pro Zeitsegment werden die Parameter in festgelegter Reihen­ folge gespeichert bzw. übermittelt, etwa:
(1) Frequenzband der niedrigsten Frequenz (erster Kennwert für die Frequenzgruppenableitung). - Die Bitzahl steigt mit der Anzahl m der Frequenzbänder FB in ganzzahligen Zweierpotenten; 2B-1<m≦2B, also werden B Bit bei m Frequenzbändern benötigt, d.h. bei 16 Frequenzbändern werden 4 Bit benötigt.
(2) Frequenzgruppenbesetzung aufsteigend (zweiter Kennwert für die Frequenzgruppenableitung durch niedrigste be­ setzte Frequenzgruppe). - Die Bitzahl entspricht der Anzahl n der eingerichteten Frequenzgruppen FG. Pro Frequenzgruppe wird mit 1 Bit Besetzung oder Nicht-Be­ setzung markiert.
(3) Amplitudenstufen pro besetzter Frequenzgruppe aufstei­ gend. - Die Bitzahl steigt pro markierter Amplitudenstu­ fe mit der Anzahl o der Amplitudenstufen AS in ganzzah­ ligen Zweierpotenzen analog (1).
(4) Vorkommen und Position der Pause. Benötigt werden 2 Bit.
(5) Dauer der Pause. Die Bitzahl entspricht der vorgegebe­ nen Skalierungsdichte.
Der Einsatz von Steuerzeichen erhöht die jeweilige Bitrate geringfügig. Natürlich muß durch die Speichertechnik dafür gesorgt werden, daß die ZSP-Einheiten in der korrekten Rei­ henfolge abgerufen werden können, ein Problem, das sich bei quasi zeitgleicher Übertragung nicht ergibt. Im folgen­ den wird die ZSP-Einheit für den Einsatz im Fernsprechver­ kehr konkretisiert und die bei diesem Verfahren benötigte Bitrate pro Sekunde berechnet.
Nachfolgend sind in Tabellenform die pro Zeitsegment gespei­ cherten bzw. übermittelten Parameter zusammengestellt:
Wie aus der vorstehenden Tabelle ersichtlich ist, bedarf es zur Speicherung bzw. Übertragung einer ZSP-Einheit maxi­ mal 118 Bit. Hieraus ergibt sich eine maximale Rate von 5900 bit/s bei Einsatz des ZSP-Verfahrens. Die Berücksichti­ gung von Steuerzeichen führt zu einer geringfügigen Erhö­ hung der Rate. Für Qualitätsansprüche ähnlich jenen beim Fernsprechverkehr läßt sich die maximale Rate senken, wenn bei hoher Frequenzgruppenbelastung auditiv weniger sensible Frequenzgruppen unberücksichtigt bleiben. Eine Reduzierung der Frequenzgruppenanzahl auf z.B. 8 führt dann zu einer maximalen Rate von 3500 bit/s.
Nachfolgend wird die Signalausgabe näher erläutert.
Bei der Signalausgabe liegt die Schnittstelle des ZSP-Ver­ fahrens zwischen dem von diesem Verfahren ausgegebenen Sig­ nalwertverlauf und der aufgrund der Speicher- bzw. Übertra­ gungstechnik vorgegebenen D/A-Wandlung. Die ZSP-Einheiten werden fortlaufend in einen Signalwertverlauf umgerechnet und einer D/A-Wandlung unterzogen, wobei die Einzelheiten des Umrechnungsverfahrens von den jeweils eingesetzten Prozessoren etc. abhängen. Die abgeleiteten Frequenzgruppen pro Einheit werden über die Angaben zum Frequenzband und zur niedrigsten besetzten Frequenzgruppe berechnet. Die bei Übertragungen auftretende minimale Zeitversetzung ist auch im Fernsprechverkehr für die wechselseitige Signalverar­ beitung auditiv irrelevant.
Soll eine knackfreie akustische Ausgabe erreicht werden, muß außer bei Pausen am Ende des analysierten Zeitsegments die Realisierung der ZSP-Einheit im Werteverlauf mit dem letzten Nulldurchgang der niedrigsten Frequenz vor Errei­ chung der 20 msec Grenze beendet werden. Bei der akusti­ schen Ausgabe wird unter Berücksichtigung der Nulldurch­ gangsrichtung das folgende Zeitsegment dann knackfrei an das vorangegangene angeschlossen. In der Mehrheit der Fälle werden mit diesem Verfahren nicht die segmentierten 20 msec, sondern kürzere Zeitsegmente realisiert. Daraus würden sich bei der akustischen Wiedergabe entweder nicht wünschenswer­ te zeitliche Verkürzungen des Ausgangssignals oder häufige sehr kurze Pausen mit nachteiligen auditiven Effekten erge­ ben. Daher muß, wie aus Fig. 5 zu ersehen ist, bei der Über­ führung einer ZSP-Einheit in ihren Werteverlauf die Kür­ zungsdauer d t registriert und der nachfolgenden Einheit zugeschlagen werden. Deren Realisierung im Werteverlauf wird beim letzten Nulldurchgang vor Erreichen der korrigier­ ten Zeitgrenze beendet etc. In Einzelfällen können sich bei der auditiven Ausgabe maximale Verkürzungen und Verlänge­ rungen der 20 msec Dauer der Ursprungssegemente um knapp 7 msec ergeben, die aber auditiv nicht verarbeitet werden.
Zum besseren Verständnis zeigt Fig. 6 eine oszillografische Darstellung am Beispiel des Übergangs vom Buchstaben "o" zum Buchstaben "m". Die niedrigste Frequenz des "o"-Seg­ ments beträgt bei diesem Beispiel ca. 111 Hz, zwei Perioden benötigen 18 msec. Diese werden für die Signalausgabe deko­ diert und die Differenz d t von 2 msec auf das folgende Seg­ ment angerechnet. Die niedrigste Frequenz des "m"-Segments beträgt 125 Hz, zwei Perioden benötigen 16 msec. Würde nur bei positiven Nulldurchgängen an Periodenenden geschnitten werden, ergäbe sich wie in der oszillografischen Darstel­ lung eine Gesamtdauer beider Segmente von 34 msec und ein Übertrag d t von 6 msec. Wird auch an Nulldurchgängen unter­ halb der Periodengrenzen geschnitten, verringert sich die Übertragsdauer entsprechend.
Die Qualität der Signalausgabe ist ohne Erhöhung der Spei­ cher- bzw. Übertragungsrate wesentlich zu verbessern, wenn die Amplitudenquantisierung bei der A/D-D/A-Wandlung ange­ hoben wird. Beim digitalen Fernsprechverkehr wird z.B. mit 8 Bit quantisiert. Es ist aber technisch unproblematisch, mit 10 oder 12 Bit zu quantisieren. Die beim Fernsprechver­ kehr übliche A-Kennlinien-Quantisierung zur Verbesserung des Signal-Geräusch-Verhältnisses kann dann zugunsten einer gleichmäßigen Quantisierung aufgegeben werden. Die Optimie­ rung des Signal-Geräusch-Verhältnisses wird durch die loga­ rithmische Amplitudenstufung des ZSP-Verfahrens geleistet.

Claims (20)

1. Verfahren zum Codieren akustischer Signale zum digitalen Übertragen derselben von einem Sender zu einem Empfänger, dadurch gekennzeichnet,
daß das akustische Signal in Zeitsegmente geschnitten wird und
pro Zeitsegment das Frequenz-Amplituden-Spektrum so be­ stimmt wird,
daß das Frequenzspektrum in Frequenzgruppen und die Amplitude in Amplitudenstufen aufgeteilt wird und
daß aus den ermittelten Frequenzwerten mit zugehörigen Amplitudenwerten pro Zeitsegment eine Frequenz-Amplitu­ den-Matrix gebildet wird, die dann digital übertragen wird.
2. Verfahren zum Codieren akustischer Signale zum digitalen Speichern derselben auf einem Speichermedium, dadurch gekennzeichnet,
daß das akustische Signal in Zeitsegmente geschnitten wird und
pro Zeitsegment das Frequenz-Amplituden-Spektrum so be­ stimmt wird,
daß das Frequenzspektrum in Frequenzgruppen und die Amplitude in Amplitudenstufen aufgeteilt wird und
daß aus den ermittelten Frequenzwerten mit zugehörigen Amplitudenwerten pro Zeitsegment eine Frequenz-Amplitu­ den-Matrix gebildet wird, die dann digital gespeichert wird.
3. Verfahren zum Decodieren akustischer Signale, die von einem Sender zu einem Empfänger digital übertragen wer­ den, dadurch gekennzeichnet, daß die pro Zeitsegment übertragene Frequenz-Amplituden- Matrix fortlaufend in einen Signalwert umgerechnet und die so berechneten Signalwerte als akustische Signale ausgegeben werden.
4. Verfahren zum Decodieren akustischer Signale, die auf einem Speichermedium digital gespeichert sind, dadurch gekennzeichnet, daß die pro Zeitsegment gespeicherte Frequenz-Amplituden- Matrix gelesen und fortlaufend in einen Signalwert umge­ rechnet und die so berechneten Signalwerte als akusti­ sche Signale ausgegeben werden.
5. Verfahren zum Übertragen von akustischen Signalen in digitaler Form von einem Sender zu einem Empfänger, dadurch gekennzeichnet,
daß im Sender das akustische Signal in Zeitsegmente geschnitten wird und
pro Zeitsegment das Frequenz-Amplituden-Spektrum so be­ stimmt wird,
das Frequenzspektrum in Frequenzgruppen und die Amplitude in Amplitudenstufen aufgeteilt wird und aus den ermittelten Frequenzwerten mit zugehörigen Ampli­ tudenwerten pro Zeitsegment eine Frequenz-Amplituden-Ma­ trix gebildet wird, die dann digital übertragen wird.
6. Verfahren zum Übertragen von akustischen Signalen in digitaler Form von einem Sender zu einem Empfänger, dadurch gekennzeichnet, daß im Empfänger die pro Zeitsegmentübertragene Frequenz-Amplituden-Ma­ trix fortlaufend in einen Signalwert umgerechnet und die so berechneten Signalwerte als akustische Signale ausgegeben werden.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die Zeitsegmentdauer 20 msec beträgt.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß die Segmentdauer zur Verringerung der Speicher- bzw. Übertragungsrate größer als 20 msec gewählt wird.
9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß die Frequenzgruppenbreite bis 500 Hz konstant 100 Hz beträgt und daß sie über 500 Hz um etwa 20% der jewei­ ligen Mittenfrequenz (Fig. 3) erweitert wird.
10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß die Frequenzgruppen in Frequenzbänder aufgeteilt werden.
11. Verfahren nach einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß die Amplitudenstufen 1 dB betragen und die Stufung logarithmisch erfolgt.
12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, daß Frequenzwert und zugehöriger Amplitudenwert gemein­ sam erfaßt und hieraus eine Frequenz-Amplituden- Matrix gebildet wird.
13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, daß es mit abgeleiteten Frequenzgruppen (F G j ′) arbei­ tet, die in den folgenden Schritten gebildet werden:
  • - die niedrigste Frequenz eines Zeitsegments fällt in ein Frequenzband (F B i ), wobei i von 1 bis m läuft, der Frequenzgruppe (F G j ),
  • - die Mittenfrequenz des Frequenzbands (F B i ) bildet die Mittenfrequenz (MF(FG i ′)) der abgeleiteten Frequenz­ gruppe (F G j ′),
  • - wobei die Untergrenze bzw. Obergrenze der abgeleite­ ten Frequenzgruppe (F G j ′) gegenüber der Frequenzgrup­ pe (F G j ) um den Differenzbetrag zwischen der Mitten­ frequenz der Frequenzgruppe (F G j ) und der Mittenfre­ quenz der abgeleiteten Frequenzgruppe (F G j ′) verscho­ ben wird.
14. Verfahren nach einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, daß die folgenden Parameter pro Zeitsegment übertragen bzw. gespeichert werden:
Kennwerte der abgeleiteten Frequenzgruppen (F G j ′), die Amplitudenstufe pro besetzter Frequenzgruppe und.die Positionen von potentiellen Pausen.
15. Verfahren nach Anspruch 14, dadurch gekennzeichnet,
daß der erste Kennwert der abgeleiteten Frequenzgruppe (F G j ′) das Frequenzband der niedrigsten Frequenz ist und
daß der zweite Kennwert für die abgeleitete Frequenz­ gruppe (F G j ′) die Besetzung oder Nicht-Besetzung der jeweiligen Frequenzgruppe markiert.
16. Verfahren nach einem der Ansprüche 1 bis 15, dadurch gekennzeichnet, daß Sprachsignale verarbeitet werden.
17. Vorrichtung zum Codieren akustischer Signale zum digita­ len Übertragen derselben von einem Sender zu einem Em­ pfänger, dadurch geknnzeichnet, daß vorgesehen sind:
eine Einrichtung, die das akustische Signal in Zeitseg­ mente schneidet,
eine Einrichtung, die pro Zeitsegment das Frequenz- Amplituden-Spektrum so bestimmt,
daß das Frequenzspektrum in Frequenzgruppen und die Amplitude in Amplitudenstufen aufgeteilt werden, und eine Einrichtung, die aus den ermittelten Frequenz­ werten mit zugehörigen Amplitudenwerten pro Zeitsegment eine Frequenz-Amplituden-Matrix bildet, die dann digi­ tal übertragen wird.
18. Vorrichtung zum Decodieren akustischer Signale, die von einem Sender zu einem Empfänger digital übertragen werden, dadurch gekennzeichnet, daß eine Einrichtung vorgesehen ist, die die pro Zeit­ segment übertragene Frequenz-Amplituden-Matrix fortlau­ fend in einen Signalwert umrechnet und die so berechne­ ten Signalwerte als akustische Signale ausgibt.
19. Vorrichtung zum Codieren akustischer Signale zum digita­ len Speichern derselben auf einem Speichermedium, dadurch gekennzeichnet, daß vorgesehen sind:
eine Einrichtung, die das akustische Signal in Zeitseg­ mente schneidet,
eine Einrichtung, die pro Zeitsegment das Frequenz­ Amplituden-Spektrum so bestimmt,
daß das Frequenzspektrum in Frequenzgruppen und die Amplitude in Amplitudenstufen aufgeteilt wird,
und eine Einrichtung, die aus den ermittelten Frequenz­ werten mit zugehörigen Amplitudenwerten pro Zeitsegment eine Frequenz-Amplituden-Matrix bildet, die dann digi­ tal übertragen wird.
20. Vorrichtung zum Decodieren akustischer Signale, die auf einem Speichermedium digital gespeichert sind, dadurch gekennzeichnet, daß eine Einrichtung vorgesehen ist, die die pro Zeit­ segment übertragene Frequenz-Amplituden-Matrix fortlau­ fend in einen Signalwert umrechnet und die so berechne­ ten Signalwerte als akustische Signale ausgibt.
DE19883833606 1988-10-03 1988-10-03 Verfahren zur verarbeitung akustischer signale und vorrichtungen zur durchfuehrung der verfahren Withdrawn DE3833606A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19883833606 DE3833606A1 (de) 1988-10-03 1988-10-03 Verfahren zur verarbeitung akustischer signale und vorrichtungen zur durchfuehrung der verfahren

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19883833606 DE3833606A1 (de) 1988-10-03 1988-10-03 Verfahren zur verarbeitung akustischer signale und vorrichtungen zur durchfuehrung der verfahren

Publications (1)

Publication Number Publication Date
DE3833606A1 true DE3833606A1 (de) 1990-04-05

Family

ID=6364288

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19883833606 Withdrawn DE3833606A1 (de) 1988-10-03 1988-10-03 Verfahren zur verarbeitung akustischer signale und vorrichtungen zur durchfuehrung der verfahren

Country Status (1)

Country Link
DE (1) DE3833606A1 (de)

Similar Documents

Publication Publication Date Title
DE19604273C2 (de) Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit
DE69233094T2 (de) Verfahren und Anordnung zur Datenkompression bei welchem Quantisierungsbits einem Block in einem gegenwärtigen Rahmen in Abhängigkeit eines Blocks in einem vergangenen Rahmen zugeteilt werden
EP0290581B1 (de) Verfahren zum übertragen digitalisierter tonsignale
DE60207061T2 (de) Audiokompression
DE69730779T2 (de) Verbesserungen bei oder in Bezug auf Sprachkodierung
DE60118631T2 (de) Verfahren zum ersetzen verfälschter audiodaten
DE69534561T2 (de) Sender-empfänger
DE2626793A1 (de) Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals
EP0251028B1 (de) Verfahren zur Übertragung eines Audiosignales
EP1953739A2 (de) Verfahren und Vorrichtung zur Geräuschunterdrückung
DE2736082A1 (de) Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer)
EP1023777B1 (de) Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms
DE69629485T2 (de) Kompressionsystem für sich wiederholende töne
DE4211945C1 (de)
DE2941452C2 (de) Verfahren zur Codierung von Analogsignalen
DE60315544T2 (de) Telekommunikationsendgerät zur Veränderung eines übertragenen Sprachsignals bei einer bestehenden Fernsprechverbindung
DE3833606A1 (de) Verfahren zur verarbeitung akustischer signale und vorrichtungen zur durchfuehrung der verfahren
DE60210597T2 (de) Vorrichtung zur adpcdm sprachkodierung mit spezifischer anpassung der schrittwerte
DE4203436A1 (de) Datenreduzierte sprachkommunikation
EP2380171A2 (de) Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen
DE60021455T2 (de) Multimodale Quantisierung des Prädiktionsfehlers in einem Sprachkodierer
DE4229372C2 (de) Verfahren zum Übertragen oder Speichern der Quantisierungsinformation bei einer bitratenreduzierenden Quellcodierung
DE2834349C2 (de) Formantvocoder
EP0697124A1 (de) Vektorcodierverfahren, insbesondere für sprachsignale
DE4236315C1 (de) Verfahren zur Sprachcodierung

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee