DE3833606A1 - Verfahren zur verarbeitung akustischer signale und vorrichtungen zur durchfuehrung der verfahren - Google Patents
Verfahren zur verarbeitung akustischer signale und vorrichtungen zur durchfuehrung der verfahrenInfo
- Publication number
- DE3833606A1 DE3833606A1 DE19883833606 DE3833606A DE3833606A1 DE 3833606 A1 DE3833606 A1 DE 3833606A1 DE 19883833606 DE19883833606 DE 19883833606 DE 3833606 A DE3833606 A DE 3833606A DE 3833606 A1 DE3833606 A1 DE 3833606A1
- Authority
- DE
- Germany
- Prior art keywords
- frequency
- amplitude
- time segment
- acoustic signals
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000005540 biological transmission Effects 0.000 claims abstract description 22
- 239000011159 matrix material Substances 0.000 claims abstract description 18
- 238000001228 spectrum Methods 0.000 claims abstract description 17
- LFVLUOAHQIVABZ-UHFFFAOYSA-N Iodofenphos Chemical compound COP(=S)(OC)OC1=CC(Cl)=C(I)C=C1Cl LFVLUOAHQIVABZ-UHFFFAOYSA-N 0.000 claims 1
- 238000006243 chemical reaction Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000009467 reduction Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 3
- 238000004904 shortening Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 241000169624 Casearia sylvestris Species 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- NQLVQOSNDJXLKG-UHFFFAOYSA-N prosulfocarb Chemical compound CCCN(CCC)C(=O)SCC1=CC=CC=C1 NQLVQOSNDJXLKG-UHFFFAOYSA-N 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Die Erfindung betrifft Verfahren zur Verarbeitung akusti
scher Signale, insbesondere von Sprachsignalen, und Vorrich
tungen zur Durchführung der Verfahren.
Es ist eine Fülle von Verfahren zur Verarbeitung akusti
scher Signale, insbesondere von Sprachsignalen bekannt.
Nach K. Fellbaum, Sprachverarbeitung und Sprachübertragung,
Berlin 1984, lassen sich im wesentlichen 3 Prinzipien der
digitalen Sprachsignalverarbeitung unterscheiden:
- 1. Verfahren zur Signalformcodierung, bei denen das ur sprüngliche Signal möglichst fehlerfrei am Empfangsort zurückgewonnen werden soll. Als Gütekriterium dient in erster Linie das "Signal-Geräusch-Verhältnis".
- 2. Parametrische Verfahren, wie etwa das Vocoder-Verfahren, bei denen statt des Sprachsignals eine parametrische Beschreibung des Signals übertragen wird, aus der sich dann am Empfangsort wieder Sprache gewinnen läßt. Bei diesem Verfahren gibt es kein mathematisches Gütekrite rium. Einziges Kriterium ist hier die subjektiv empfunde ne Sprachqualität.
- 3. Verfahren der Spracherkennung und Sprachsynthese, bei denen der Sprachinhalt semantisch erfaßt wird, dann im wesentlichen eine Textübertragung stattfindet und am Empfangsort schließlich mit Hilfe einer Schrifttext- Sprachtext-Umsetzung (Sprachsynthese) wieder Sprache erzeugt wird.
Gegenüber der analogen Sprachsignalverarbeitung weist die
digitale Sprachsignalverarbeitung eine Reihe von Vorteilen
auf, die jedoch mit dem Nachteil der höheren Bandbreite
gegenüber Analogsignalen erkauft werden müssen. Im Hinblick
auf die stetig wachsenden Kommunikationsbedürfnisse sind
daher Verfahren von besonderer Bedeutung, bei denen die
Bandbreite bzw. die Bitübertragungsrate reduziert werden.
Wenn bei der Pulscodemodulation (PCM)-Technik noch Über
tragungsraten von 64 kbit/s verwendet werden, so läßt sich
mit der Differenz-Pulscodemodulation (DPCM), der Adaptiven
Differenz-Pulscodemodulation (ADPCM), der Deltamodulation
(DM), oder der Adaptiven Deltamodulation (ADM) bereits eine
Reduzierung der Übertragungsrate um etwa 25 bis 50% gegen
über der PCM-Technik erreichen. Eine weitere Reduzierung
der Übertragungsrate auf 1/20 (3 kbit/s) im Vergleich zur
PCM-Technik läßt sich mit dem Kanalvocoder erreichen, bei
dem Signalparameter übertragen werden. Dies wird jedoch mit
einem relativ hohen technischen Aufwand und einer Qualitäts
minderung des ausgegebenen Signals erkauft.
Bei einem linearen Prädiktions(LPC)-Vocoder, bei dem eine
am Sprachtraktmodell orientierte Signalanalyse und -syn
these durchgeführt wird, liegen die Übertragungsraten zwi
schen 2,4 und 4,8 kbit/s. Dies erfordert jedoch einen ver
gleichsweise sehr hohen Hardware- und Softwareaufwand. Zu
dem sind einige grundsätzliche Probleme insbesondere bezüg
lich der Ermittlung der Grundfrequenz bisher nicht befriedi
gend gelöst worden.
Demgegenüber besteht die Aufgabe der Erfindung darin, Ver
fahren zur Verarbeitung akustischer Signale und Vorrichtun
gen zur Durchführung der Verfahren zu schaffen, bei denen
eine optimale Nutzung von Datenträger- und Datenkanalkapa
zitäten bei der digitalen Übertragung und digitalen Speiche
rung akustischer Signale, insbesondere von Sprachsignalen,
durch den Ausschluß von Signaleigenschaften ermöglicht
wird, die für die menschliche Signalverarbeitung irrelevant
sind.
Diese Aufgabe wird dadurch gelöst, daß beim erfindungs
gemäßen Verfahren zum Codieren akustischer Signale zum digi
talen Übertragen derselben von einem Sender zu einem Empfän
ger bzw. zum digitalen Speichern derselben auf einem
Speichermedium das akustische Signal in Zeitsegmente ge
schnitten und pro Zeitsegment das Frequenz-Amplituden-
Spektrum so bestimmt wird, daß das Frequenz-Spektrum in
Frequenzgruppen und die Amplitude in Amplitudenstufen auf
geteilt werden und daß aus den ermittelten Frequenzwerten
mit zugehörigen Amplutidenwerten pro Zeitsegment eine
Frequenz-Amplituden-Matrix gebildet wird, die dann digital
übertragen bzw. gespeichert wird.
Die erfindungsgemäßen Verfahren zum Decodieren akustischer
Signale bzw. zum Übertragen von akustischen Signalen sind
in den Ansprüchen 3 bis 6 näher beschrieben.
Das erfindungsgemäße Verfahren zur zeitsegmentalen parame
terorientierten digitalen Speicherung und digitalen Über
tragung akustischer Signale, das im nachfolgenden als ZSP-
Verfahren bezeichnet wird, weist gegenüber dem Stand der
Technik eine Reihe von Vorteilen auf.
So ergibt sich für die digitale Speicherung akustischer
Signale nach dem erfindungsgemäßen Verfahren eine Reduzie
rung des benötigten Speicherplatzes gegenüber PCM-ähnlichen
Verfahren um den Faktor 10 bis 20, und zwar unabhängig vom
eingesetzten Speichermedium.
Für die digitale Übertragung akustischer Signale ergibt
sich für das erfindungsgemäße Verfahren gegenüber PCM-ähnli
chen Verfahren eine Reduzierung der Übertragungsrate um
den Faktor 10 bis 20, während sich gegenüber voll entwickel
ten LPC-ähnlichen Verfahren eine deutliche Reduzierung des
Analyse-/Synthese-Rechenaufwandes sowie des Hardware-/Soft
ware-Aufwandes ergibt. Gegenüber den am Sprachtrakt orien
tierten LPC-Verfahren ist darauf hinzuweisen, daß die audi
tive Orientierung des erfindungsgemäßen ZSP-Verfahrens die
adäquate (Mit-)Übertragung nicht sprachlicher akustischer
Signale ermöglicht, so daß der Anwendungsbereich des erfin
dungsgemäßen ZSP-Verfahrens breiter ist.
Ausführungsformen der Erfindung werden anhand der Zeichnun
gen näher beschrieben. Es zeigen:
Fig. 1 eine schematische Darstellung des erfindungsgemäßen
ZSP-Verfahrens;
Fig. 2 eine oszillografische Darstellung des Wortbeginns
des Wortes "Bad" zur Erläuterung der Zeitsegmentierung;
Fig. 3 eine schematische Darstellung der Einteilung des
Frequenzspektrums in Frequenzgruppen;
Fig. 4 eine schematische Darstellung der Einteilung der
Frequenzgruppen in Frequenzbänder;
Fig. 5 eine schematische Darstellung zur Erläuterung der
akustischen Ausgabe und
Fig. 6 eine oszillografische Darstellung am Beispiel des
Übergangs vom Buchstaben "o" zum Buchstaben "m".
Anhand der schematischen Darstellung nach Fig. 1 soll das
Prinzip des erfindungsgemäßen Verfahrens kurz erläutert
werden. Das analoge akustische Eingangssignal wird analog
digital (A/D) gewandelt. Gleichzeitig wird das Signal in
Zeitsegmente geschnitten, die nach auditiv relevanten Para
metern analysiert und in Gruppen von Zeitsegment-Parametern
(ZSP) überführt werden. Das Ergebnis kann als Folge von
Frequenz-Amplituden-Matrizen mit einigen Zusatzinformatio
nen (oder in effektiverer Umrechnungsform) entweder gespei
chert oder übertragen werden. Bei Abruf der so gespeicher
ten Information oder am Ende der Übertragungsstrecke wird
diese Matrizenfolge in eine Signalwertfolge überführt, digi
tal-analog (D/A) gewandelt und als analoges akustisches Sig
nal ausgegeben.
Die Eingabe des analogen akustischen Signals und seine A/D-
Wandlung stellen heute kein technisches Problem mehr dar.
Die diesbezüglichen Verfahren hängen ab von der vorgege
benen Speicherungs- bzw. Übertragungstechnik und der ge
wünschten Ausgabequalität des akustischen Signals. Das hier
dargestellte Verfahren ist den jeweils vorgegebenen techni
schen Bedingungen anpaßbar. Es verändert auch nicht die mit
der A/D-Wandlung häufig verknüpften Frequenzbandbegrenzun
gen, Dämpfungen etc. Seine Schnittstelle zur bestehenden
digitalen Informationstechnik liegt also zwischen der A/D-
Wandlung und der ZSP-Analyse, die die informationstechni
sche Neuerung bei der Signaleingabe darstellt und nun in
einzelnen Schritten beschrieben werden soll.
Wie bereits oben ausgeführt wurde, wird das der A/D-Wand
lung unterzogene Signal in Zeitsegmente geschnitten. Die
maximale Dauer des digitalen Signalsegments beträgt 20
msec. Dieser Wert ist psycholinguistisch mit Bezug auf zeit
psychologische und psychoakustische Erkenntnisse begründet.
Unterhalb von 20 msec Dauer können bei auditiven Ereignis
sen noch eine Vielzahl von Eigenschaften wahrgenommen wer
den, jedoch wird die zeitliche Zuordnung der Eigenschaften
nicht mehr verarbeitet. Im Prinzip kann daher auf die zeit
spezifische Information innerhalb von Segmenten mit maximal
20 msec Dauer verzichtet werden, hier insbesondere auf die
Erfassung von Phasenverschiebungen, Frequenz- und Amplitu
denmodulationen sowie Frequenz- und Amplitudenstufungen
unterhalb festzulegender Schwellen.
Der Wert von 20 msec entspricht dem in der Zeitpsychologie
entdeckten Mindestwert für die Ordnungsschwelle (vgl. den
Sammelband von J.A. Michon & J. L. Jackson (eds.): Time,
Mind and Behavior, Berlin 1985). Die Ordnungsschwelle wird
überschritten, wenn zwei einander folgende Sinnesreize in
ihrer zeitlichen Ordnung bestimmt werden können. Die Rele
vanz der Ordnungsschwelle für Sprachverarbeitung wurde zu
nächst durch sprachpathologische Untersuchungen nachgewie
sen; viele Sprachgestörte weisen erheblich erhöhte Ordnungs
schwellenwerte auf. In einfacher Weise ist die Wirkung der
Ordnungsschwelle auf die auditive Sprachverarbeitung durch
geeignete Manipulation eines akustischen Signals nachweis
bar. So wird z.B. ein Sprachsignal in Segmente von 20 msec
geschnitten, zur Störung der segmentinternen Zeitinfor
mation wird jedes einzelne Segment als Zeitsignal inver
tiert und die Segmentfolge in der ursprünglichen Anordnung
akustisch realisiert.
In allgemeiner Form:
Fig. 2 zeigt zum besseren Verständnis eine oszillografische
Darstellung des Originalsignals und des manipulierten Sig
nals des Wortbeginns des Wortes "Bad".
Bei der Ausgabe des manipulierten Signals treten durch eini
ge harte Frequenz- und Amplitudensprünge die zu erwartenden
Knacke auf. Von diesen leichten Störungen abgesehen, klingt
das Signal aber völlig normal. Bei Erhöhung der Segment
dauer verringern sich selbstverständlich die Knacke, jedoch
wird individuell variabel das Signal als "schwankend" oder
"hallend" empfunden. Verständlich bleibt das manipulierte
Signal bis zu Segmenten von etwa maximal 70 msec Dauer.
Der an der Verarbeitung akustischer Signale solcherart kon
trollierte Ordnungsschwellenwert korrespondiert mit Grö
ßen, die in der Psychoakustik berichtet und hier allein
auf Eigenschaften des Gehörs zurückgeführt werden (vgl.
den Begriff Grenzdauer des Gehörs bei E. Zwicker: Elektro
akustik, Berlin 1984), und mit auf Erfahrung begründeten
Größen bei Verfahren, die nach dem Prinzip der linearen
Prädiktion arbeiten. Doch erlaubt erst das Verständnis der
in der menschlichen Reizverarbeitung liegenden Ursache die
ser Größe ihre präzise technische, anwendungsbezogene Nut
zung. So kann z.B. die Segmentdauer abhängig von der defi
nierten Ausgabequalität des Signals unter Beachtung der
Gesetze der menschlichen Sprachverarbeitung kontrolliert
verlängert werden, um Speicher- bzw. Übertragungsraten zu
verringern.
Im nachfolgenden wird nun die Parameteranalyse beschrieben.
Für jedes Zeitsegement wird mit Fouriertransformationen
oder leistungsäquivalenten Verfahren das Frequenz-Amplitu
den-Spektrum berechnet.
Den Erkenntnissen der Psychoakustik folgend wird das Fre
quenzspektrum in Frequenzgruppen aufgeteilt, bis 500 Hz
konstant in Schritten von 100 Hz, anschließend wächst die
Frequenzgruppenbreite um etwa 20% der jeweiligen Mittenfre
quenz, wie es in Fig. 3 dargestellt ist. Wird das Verfahren
z.B. im Fernsprechverkehr eingesetzt, werden maximal 16
Frequenzgruppen benötigt; wird das Verfahren z.B. zur hoch
wertigen Speicherung von Musik eingesetzt, werden minde
stens 24 Frequenzgruppen benötigt. Eine Frequenz, die in
eine bestimmte Frequenzgruppe fällt, wird als Mittenfre
quenz dieser Frequenzgruppe erfaßt. Sog. stochastische Sig
nale werden als periodische Signale gewertet.
Die Amplitudeninformationen der Signale eines jeden Zeit
segments werden ebenfalls stufenweise analysiert. Für Spra
che liegt der Schallpegelbereich zwischen 30 und 80 dB,
für Musik zwischen 20 und 90 dB. Ausgehend von 1 dB als
wahrnehmbarer Schallpegeländerung sind dann z.B. für den
Fernsprechverkehr maximal 50 Amplitudenstufen und z.B. für
die Speicherung von Musik mindestens 70 Amplitudenstufen
einzurichten. Die Stufung erfolgt jeweils logarithmisch;
Differenzen bei kleineren Amplituden werden damit präziser
als bei größeren erfaßt. Eine Amplitude, die in eine be
stimmte Amplitudenstufe fällt, wird als Mittenamplitude
dieser Amplitudenstufe erfaßt.
Damit ist die ZSP-Analyse im Kern beschrieben. Ihr Ergebnis
läßt sich etwa als Frequenz-Amplituden-Matrix (z.B. bei
Sprache eine 16×64 Matrix) pro Zeitsegment fixieren, d.h.
Frequenzwert und zugehöriger Amplitudenwert werden gemein
sam erfaßt. Die Speicherung oder Übertragung eines solchen
Wertepaares benötigt bei Verwendung einer üblichen 16×64
Matrix 10 Bit.
Akustische Signale lassen sich bereits mit den bis hierher
dargelegten Mitteln erkennbar und verständlich übertragen.
Zur Erreichung einer guten, störungsfrei wirkenden akusti
schen Ausgabe sind aber noch weitere Maßnahmen zu treffen.
Zur Reduzierung der Speicher- bzw. Übertragungsrate ist
von der oben dargestellten Matrixform abzuweichen.
Zur Verbesserung der akustischen Ausgabe kann die Bildung
der Frequenzgruppen aus der niedrigsten Frequenz pro Zeit
segment abgeleitet werden. Ausgegangen wird von den in Fig. 3
dargestellten, psychoakustisch festgelegten Frequenzgrup
pen oder einer Annäherung (vgl. E. Zwicker: Psychoakustik,
Berlin 1982):
Wie aus Fig. 4 zu entnehmen ist, wird jede Frequenzgruppe
F G j in Frequenzbänder (F B 1...FB i ...FB m ) aufgeteilt. Die
niedrigste Frequenz eines Zeitsegments fällt in ein Fre
quenzband F B i der Frequenzgruppe F G j . Die Mittenfrequenz
des Frequenzbandes F B i bildet die Mittenfrequenz MF(FG j ′)
der abgeleiteten Frequenzgruppe F G j ′. Handelt es sich z.B.
um das Frequenzband von 325 Hz bis 331,25 Hz, so ist
328,125 Hz (Mittenfrequenz des Frequenzbandes) die Mitten
frequenz MF (F G j ′) der abgeleiteten Frequenzgruppe F G j ′.
Unter- und Obergrenze der abgeleiteten Frequenzgruppe F G j ′
berechnen sich wie folgt:
UG(FG j′) = (MF(FGj′) - (MF(FGj) - UG(FGj))
OG(FG j′) = MF(FGj′) + (OG(FG j) - MF(FGj))
Alle oberhalb von FG j liegenden Frequenzgruppen werden
korrigiert um den Differenzwert:
OG(FG j) - OG(FGj′)
Das ZSP-Verfahren arbeitet dann pro Zeitsegment mit den
abgeleiteten Frequenzgruppen.
Zur Verbesserung der akustischen Ausgabe können auch Pausen
berücksichtigt werden. Signalpegel Null, also Pausen, die
zu Beginn oder am Ende eines Zeitsegments auftreten, müssen
hinsichtlich Dauer und Position markiert werden, da beide
Größen Einfluß auf die auditive Verarbeitung benachbarter
Signalstrecken nehmen. Eine Fixierung der Pausendauer (ca.
7 msec) innerhalb eines Zeitsegments führt bei Sprache
nicht zu auditiv merkbaren Veränderungen der akustischen
Ausgabe. Soll aus Qualitätsgründen die Pausendauer bestimmt
werden, ist dies z.B. indirekt über die Phasenanzahl der
niedrigsten Frequenz des im Zeitsegment auftretenden Sig
nals möglich.
Die Signalspeicherung bzw. -übermittlung wird wie folgt
durchgeführt.
Pro Zeitsegment werden die Parameter in festgelegter Reihen
folge gespeichert bzw. übermittelt, etwa:
(1) Frequenzband der niedrigsten Frequenz (erster Kennwert
für die Frequenzgruppenableitung). - Die Bitzahl steigt
mit der Anzahl m der Frequenzbänder FB in ganzzahligen
Zweierpotenten; 2B-1<m≦2B, also werden B Bit bei
m Frequenzbändern benötigt, d.h. bei 16 Frequenzbändern
werden 4 Bit benötigt.
(2) Frequenzgruppenbesetzung aufsteigend (zweiter Kennwert
für die Frequenzgruppenableitung durch niedrigste be
setzte Frequenzgruppe). - Die Bitzahl entspricht der
Anzahl n der eingerichteten Frequenzgruppen FG. Pro
Frequenzgruppe wird mit 1 Bit Besetzung oder Nicht-Be
setzung markiert.
(3) Amplitudenstufen pro besetzter Frequenzgruppe aufstei
gend. - Die Bitzahl steigt pro markierter Amplitudenstu
fe mit der Anzahl o der Amplitudenstufen AS in ganzzah
ligen Zweierpotenzen analog (1).
(4) Vorkommen und Position der Pause. Benötigt werden 2 Bit.
(5) Dauer der Pause. Die Bitzahl entspricht der vorgegebe
nen Skalierungsdichte.
Der Einsatz von Steuerzeichen erhöht die jeweilige Bitrate
geringfügig. Natürlich muß durch die Speichertechnik dafür
gesorgt werden, daß die ZSP-Einheiten in der korrekten Rei
henfolge abgerufen werden können, ein Problem, das sich
bei quasi zeitgleicher Übertragung nicht ergibt. Im folgen
den wird die ZSP-Einheit für den Einsatz im Fernsprechver
kehr konkretisiert und die bei diesem Verfahren benötigte
Bitrate pro Sekunde berechnet.
Nachfolgend sind in Tabellenform die pro Zeitsegment gespei
cherten bzw. übermittelten Parameter zusammengestellt:
Wie aus der vorstehenden Tabelle ersichtlich ist, bedarf
es zur Speicherung bzw. Übertragung einer ZSP-Einheit maxi
mal 118 Bit. Hieraus ergibt sich eine maximale Rate von
5900 bit/s bei Einsatz des ZSP-Verfahrens. Die Berücksichti
gung von Steuerzeichen führt zu einer geringfügigen Erhö
hung der Rate. Für Qualitätsansprüche ähnlich jenen beim
Fernsprechverkehr läßt sich die maximale Rate senken, wenn
bei hoher Frequenzgruppenbelastung auditiv weniger sensible
Frequenzgruppen unberücksichtigt bleiben. Eine Reduzierung
der Frequenzgruppenanzahl auf z.B. 8 führt dann zu einer
maximalen Rate von 3500 bit/s.
Nachfolgend wird die Signalausgabe näher erläutert.
Bei der Signalausgabe liegt die Schnittstelle des ZSP-Ver
fahrens zwischen dem von diesem Verfahren ausgegebenen Sig
nalwertverlauf und der aufgrund der Speicher- bzw. Übertra
gungstechnik vorgegebenen D/A-Wandlung. Die ZSP-Einheiten
werden fortlaufend in einen Signalwertverlauf umgerechnet
und einer D/A-Wandlung unterzogen, wobei die Einzelheiten
des Umrechnungsverfahrens von den jeweils eingesetzten
Prozessoren etc. abhängen. Die abgeleiteten Frequenzgruppen
pro Einheit werden über die Angaben zum Frequenzband und
zur niedrigsten besetzten Frequenzgruppe berechnet. Die bei
Übertragungen auftretende minimale Zeitversetzung ist auch
im Fernsprechverkehr für die wechselseitige Signalverar
beitung auditiv irrelevant.
Soll eine knackfreie akustische Ausgabe erreicht werden,
muß außer bei Pausen am Ende des analysierten Zeitsegments
die Realisierung der ZSP-Einheit im Werteverlauf mit dem
letzten Nulldurchgang der niedrigsten Frequenz vor Errei
chung der 20 msec Grenze beendet werden. Bei der akusti
schen Ausgabe wird unter Berücksichtigung der Nulldurch
gangsrichtung das folgende Zeitsegment dann knackfrei an
das vorangegangene angeschlossen. In der Mehrheit der Fälle
werden mit diesem Verfahren nicht die segmentierten 20 msec,
sondern kürzere Zeitsegmente realisiert. Daraus würden sich
bei der akustischen Wiedergabe entweder nicht wünschenswer
te zeitliche Verkürzungen des Ausgangssignals oder häufige
sehr kurze Pausen mit nachteiligen auditiven Effekten erge
ben. Daher muß, wie aus Fig. 5 zu ersehen ist, bei der Über
führung einer ZSP-Einheit in ihren Werteverlauf die Kür
zungsdauer d t registriert und der nachfolgenden Einheit
zugeschlagen werden. Deren Realisierung im Werteverlauf
wird beim letzten Nulldurchgang vor Erreichen der korrigier
ten Zeitgrenze beendet etc. In Einzelfällen können sich bei
der auditiven Ausgabe maximale Verkürzungen und Verlänge
rungen der 20 msec Dauer der Ursprungssegemente um knapp
7 msec ergeben, die aber auditiv nicht verarbeitet werden.
Zum besseren Verständnis zeigt Fig. 6 eine oszillografische
Darstellung am Beispiel des Übergangs vom Buchstaben "o"
zum Buchstaben "m". Die niedrigste Frequenz des "o"-Seg
ments beträgt bei diesem Beispiel ca. 111 Hz, zwei Perioden
benötigen 18 msec. Diese werden für die Signalausgabe deko
diert und die Differenz d t von 2 msec auf das folgende Seg
ment angerechnet. Die niedrigste Frequenz des "m"-Segments
beträgt 125 Hz, zwei Perioden benötigen 16 msec. Würde nur
bei positiven Nulldurchgängen an Periodenenden geschnitten
werden, ergäbe sich wie in der oszillografischen Darstel
lung eine Gesamtdauer beider Segmente von 34 msec und ein
Übertrag d t von 6 msec. Wird auch an Nulldurchgängen unter
halb der Periodengrenzen geschnitten, verringert sich die
Übertragsdauer entsprechend.
Die Qualität der Signalausgabe ist ohne Erhöhung der Spei
cher- bzw. Übertragungsrate wesentlich zu verbessern, wenn
die Amplitudenquantisierung bei der A/D-D/A-Wandlung ange
hoben wird. Beim digitalen Fernsprechverkehr wird z.B. mit
8 Bit quantisiert. Es ist aber technisch unproblematisch,
mit 10 oder 12 Bit zu quantisieren. Die beim Fernsprechver
kehr übliche A-Kennlinien-Quantisierung zur Verbesserung
des Signal-Geräusch-Verhältnisses kann dann zugunsten einer
gleichmäßigen Quantisierung aufgegeben werden. Die Optimie
rung des Signal-Geräusch-Verhältnisses wird durch die loga
rithmische Amplitudenstufung des ZSP-Verfahrens geleistet.
Claims (20)
1. Verfahren zum Codieren akustischer Signale zum digitalen
Übertragen derselben von einem Sender zu einem Empfänger,
dadurch gekennzeichnet,
daß das akustische Signal in Zeitsegmente geschnitten wird und
pro Zeitsegment das Frequenz-Amplituden-Spektrum so be stimmt wird,
daß das Frequenzspektrum in Frequenzgruppen und die Amplitude in Amplitudenstufen aufgeteilt wird und
daß aus den ermittelten Frequenzwerten mit zugehörigen Amplitudenwerten pro Zeitsegment eine Frequenz-Amplitu den-Matrix gebildet wird, die dann digital übertragen wird.
daß das akustische Signal in Zeitsegmente geschnitten wird und
pro Zeitsegment das Frequenz-Amplituden-Spektrum so be stimmt wird,
daß das Frequenzspektrum in Frequenzgruppen und die Amplitude in Amplitudenstufen aufgeteilt wird und
daß aus den ermittelten Frequenzwerten mit zugehörigen Amplitudenwerten pro Zeitsegment eine Frequenz-Amplitu den-Matrix gebildet wird, die dann digital übertragen wird.
2. Verfahren zum Codieren akustischer Signale zum digitalen
Speichern derselben auf einem Speichermedium,
dadurch gekennzeichnet,
daß das akustische Signal in Zeitsegmente geschnitten wird und
pro Zeitsegment das Frequenz-Amplituden-Spektrum so be stimmt wird,
daß das Frequenzspektrum in Frequenzgruppen und die Amplitude in Amplitudenstufen aufgeteilt wird und
daß aus den ermittelten Frequenzwerten mit zugehörigen Amplitudenwerten pro Zeitsegment eine Frequenz-Amplitu den-Matrix gebildet wird, die dann digital gespeichert wird.
daß das akustische Signal in Zeitsegmente geschnitten wird und
pro Zeitsegment das Frequenz-Amplituden-Spektrum so be stimmt wird,
daß das Frequenzspektrum in Frequenzgruppen und die Amplitude in Amplitudenstufen aufgeteilt wird und
daß aus den ermittelten Frequenzwerten mit zugehörigen Amplitudenwerten pro Zeitsegment eine Frequenz-Amplitu den-Matrix gebildet wird, die dann digital gespeichert wird.
3. Verfahren zum Decodieren akustischer Signale, die von
einem Sender zu einem Empfänger digital übertragen wer
den,
dadurch gekennzeichnet,
daß die pro Zeitsegment übertragene Frequenz-Amplituden-
Matrix fortlaufend in einen Signalwert umgerechnet und
die so berechneten Signalwerte als akustische Signale
ausgegeben werden.
4. Verfahren zum Decodieren akustischer Signale, die auf
einem Speichermedium digital gespeichert sind,
dadurch gekennzeichnet,
daß die pro Zeitsegment gespeicherte Frequenz-Amplituden-
Matrix gelesen und fortlaufend in einen Signalwert umge
rechnet und die so berechneten Signalwerte als akusti
sche Signale ausgegeben werden.
5. Verfahren zum Übertragen von akustischen Signalen in
digitaler Form von einem Sender zu einem Empfänger,
dadurch gekennzeichnet,
daß im Sender das akustische Signal in Zeitsegmente geschnitten wird und
pro Zeitsegment das Frequenz-Amplituden-Spektrum so be stimmt wird,
das Frequenzspektrum in Frequenzgruppen und die Amplitude in Amplitudenstufen aufgeteilt wird und aus den ermittelten Frequenzwerten mit zugehörigen Ampli tudenwerten pro Zeitsegment eine Frequenz-Amplituden-Ma trix gebildet wird, die dann digital übertragen wird.
daß im Sender das akustische Signal in Zeitsegmente geschnitten wird und
pro Zeitsegment das Frequenz-Amplituden-Spektrum so be stimmt wird,
das Frequenzspektrum in Frequenzgruppen und die Amplitude in Amplitudenstufen aufgeteilt wird und aus den ermittelten Frequenzwerten mit zugehörigen Ampli tudenwerten pro Zeitsegment eine Frequenz-Amplituden-Ma trix gebildet wird, die dann digital übertragen wird.
6. Verfahren zum Übertragen von akustischen Signalen in
digitaler Form von einem Sender zu einem Empfänger,
dadurch gekennzeichnet,
daß im Empfänger
die pro Zeitsegmentübertragene Frequenz-Amplituden-Ma
trix fortlaufend in einen Signalwert umgerechnet und
die so berechneten Signalwerte als akustische Signale
ausgegeben werden.
7. Verfahren nach einem der Ansprüche 1 bis 6,
dadurch gekennzeichnet,
daß die Zeitsegmentdauer 20 msec beträgt.
8. Verfahren nach einem der Ansprüche 1 bis 7,
dadurch gekennzeichnet,
daß die Segmentdauer zur Verringerung der Speicher- bzw.
Übertragungsrate größer als 20 msec gewählt wird.
9. Verfahren nach einem der Ansprüche 1 bis 8,
dadurch gekennzeichnet,
daß die Frequenzgruppenbreite bis 500 Hz konstant 100 Hz
beträgt und daß sie über 500 Hz um etwa 20% der jewei
ligen Mittenfrequenz (Fig. 3) erweitert wird.
10. Verfahren nach einem der Ansprüche 1 bis 9,
dadurch gekennzeichnet,
daß die Frequenzgruppen in Frequenzbänder aufgeteilt
werden.
11. Verfahren nach einem der Ansprüche 1 bis 10,
dadurch gekennzeichnet,
daß die Amplitudenstufen 1 dB betragen und die Stufung
logarithmisch erfolgt.
12. Verfahren nach einem der Ansprüche 1 bis 11,
dadurch gekennzeichnet,
daß Frequenzwert und zugehöriger Amplitudenwert gemein
sam erfaßt und hieraus eine Frequenz-Amplituden-
Matrix gebildet wird.
13. Verfahren nach einem der Ansprüche 1 bis 12,
dadurch gekennzeichnet,
daß es mit abgeleiteten Frequenzgruppen (F G j ′) arbei
tet, die in den folgenden Schritten gebildet werden:
- - die niedrigste Frequenz eines Zeitsegments fällt in ein Frequenzband (F B i ), wobei i von 1 bis m läuft, der Frequenzgruppe (F G j ),
- - die Mittenfrequenz des Frequenzbands (F B i ) bildet die Mittenfrequenz (MF(FG i ′)) der abgeleiteten Frequenz gruppe (F G j ′),
- - wobei die Untergrenze bzw. Obergrenze der abgeleite ten Frequenzgruppe (F G j ′) gegenüber der Frequenzgrup pe (F G j ) um den Differenzbetrag zwischen der Mitten frequenz der Frequenzgruppe (F G j ) und der Mittenfre quenz der abgeleiteten Frequenzgruppe (F G j ′) verscho ben wird.
14. Verfahren nach einem der Ansprüche 1 bis 13,
dadurch gekennzeichnet,
daß die folgenden Parameter pro Zeitsegment übertragen
bzw. gespeichert werden:
Kennwerte der abgeleiteten Frequenzgruppen (F G j ′), die Amplitudenstufe pro besetzter Frequenzgruppe und.die Positionen von potentiellen Pausen.
Kennwerte der abgeleiteten Frequenzgruppen (F G j ′), die Amplitudenstufe pro besetzter Frequenzgruppe und.die Positionen von potentiellen Pausen.
15. Verfahren nach Anspruch 14,
dadurch gekennzeichnet,
daß der erste Kennwert der abgeleiteten Frequenzgruppe (F G j ′) das Frequenzband der niedrigsten Frequenz ist und
daß der zweite Kennwert für die abgeleitete Frequenz gruppe (F G j ′) die Besetzung oder Nicht-Besetzung der jeweiligen Frequenzgruppe markiert.
daß der erste Kennwert der abgeleiteten Frequenzgruppe (F G j ′) das Frequenzband der niedrigsten Frequenz ist und
daß der zweite Kennwert für die abgeleitete Frequenz gruppe (F G j ′) die Besetzung oder Nicht-Besetzung der jeweiligen Frequenzgruppe markiert.
16. Verfahren nach einem der Ansprüche 1 bis 15,
dadurch gekennzeichnet,
daß Sprachsignale verarbeitet werden.
17. Vorrichtung zum Codieren akustischer Signale zum digita
len Übertragen derselben von einem Sender zu einem Em
pfänger,
dadurch geknnzeichnet,
daß vorgesehen sind:
eine Einrichtung, die das akustische Signal in Zeitseg mente schneidet,
eine Einrichtung, die pro Zeitsegment das Frequenz- Amplituden-Spektrum so bestimmt,
daß das Frequenzspektrum in Frequenzgruppen und die Amplitude in Amplitudenstufen aufgeteilt werden, und eine Einrichtung, die aus den ermittelten Frequenz werten mit zugehörigen Amplitudenwerten pro Zeitsegment eine Frequenz-Amplituden-Matrix bildet, die dann digi tal übertragen wird.
eine Einrichtung, die das akustische Signal in Zeitseg mente schneidet,
eine Einrichtung, die pro Zeitsegment das Frequenz- Amplituden-Spektrum so bestimmt,
daß das Frequenzspektrum in Frequenzgruppen und die Amplitude in Amplitudenstufen aufgeteilt werden, und eine Einrichtung, die aus den ermittelten Frequenz werten mit zugehörigen Amplitudenwerten pro Zeitsegment eine Frequenz-Amplituden-Matrix bildet, die dann digi tal übertragen wird.
18. Vorrichtung zum Decodieren akustischer Signale, die
von einem Sender zu einem Empfänger digital übertragen
werden,
dadurch gekennzeichnet,
daß eine Einrichtung vorgesehen ist, die die pro Zeit
segment übertragene Frequenz-Amplituden-Matrix fortlau
fend in einen Signalwert umrechnet und die so berechne
ten Signalwerte als akustische Signale ausgibt.
19. Vorrichtung zum Codieren akustischer Signale zum digita
len Speichern derselben auf einem Speichermedium,
dadurch gekennzeichnet,
daß vorgesehen sind:
eine Einrichtung, die das akustische Signal in Zeitseg mente schneidet,
eine Einrichtung, die pro Zeitsegment das Frequenz Amplituden-Spektrum so bestimmt,
daß das Frequenzspektrum in Frequenzgruppen und die Amplitude in Amplitudenstufen aufgeteilt wird,
und eine Einrichtung, die aus den ermittelten Frequenz werten mit zugehörigen Amplitudenwerten pro Zeitsegment eine Frequenz-Amplituden-Matrix bildet, die dann digi tal übertragen wird.
eine Einrichtung, die das akustische Signal in Zeitseg mente schneidet,
eine Einrichtung, die pro Zeitsegment das Frequenz Amplituden-Spektrum so bestimmt,
daß das Frequenzspektrum in Frequenzgruppen und die Amplitude in Amplitudenstufen aufgeteilt wird,
und eine Einrichtung, die aus den ermittelten Frequenz werten mit zugehörigen Amplitudenwerten pro Zeitsegment eine Frequenz-Amplituden-Matrix bildet, die dann digi tal übertragen wird.
20. Vorrichtung zum Decodieren akustischer Signale, die
auf einem Speichermedium digital gespeichert sind,
dadurch gekennzeichnet,
daß eine Einrichtung vorgesehen ist, die die pro Zeit
segment übertragene Frequenz-Amplituden-Matrix fortlau
fend in einen Signalwert umrechnet und die so berechne
ten Signalwerte als akustische Signale ausgibt.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19883833606 DE3833606A1 (de) | 1988-10-03 | 1988-10-03 | Verfahren zur verarbeitung akustischer signale und vorrichtungen zur durchfuehrung der verfahren |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19883833606 DE3833606A1 (de) | 1988-10-03 | 1988-10-03 | Verfahren zur verarbeitung akustischer signale und vorrichtungen zur durchfuehrung der verfahren |
Publications (1)
Publication Number | Publication Date |
---|---|
DE3833606A1 true DE3833606A1 (de) | 1990-04-05 |
Family
ID=6364288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19883833606 Withdrawn DE3833606A1 (de) | 1988-10-03 | 1988-10-03 | Verfahren zur verarbeitung akustischer signale und vorrichtungen zur durchfuehrung der verfahren |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE3833606A1 (de) |
-
1988
- 1988-10-03 DE DE19883833606 patent/DE3833606A1/de not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE19604273C2 (de) | Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit | |
DE69233094T2 (de) | Verfahren und Anordnung zur Datenkompression bei welchem Quantisierungsbits einem Block in einem gegenwärtigen Rahmen in Abhängigkeit eines Blocks in einem vergangenen Rahmen zugeteilt werden | |
EP0290581B1 (de) | Verfahren zum übertragen digitalisierter tonsignale | |
DE60207061T2 (de) | Audiokompression | |
DE69730779T2 (de) | Verbesserungen bei oder in Bezug auf Sprachkodierung | |
DE60118631T2 (de) | Verfahren zum ersetzen verfälschter audiodaten | |
DE69534561T2 (de) | Sender-empfänger | |
DE2626793A1 (de) | Verfahren zur bewertung stimmhafter und stimmloser zustaende eines sprachsignals | |
EP0251028B1 (de) | Verfahren zur Übertragung eines Audiosignales | |
EP1953739A2 (de) | Verfahren und Vorrichtung zur Geräuschunterdrückung | |
DE2736082A1 (de) | Elektronisches geraet zur phonetischen synthetisierung menschlicher sprache (sprach-synthesizer) | |
EP1023777B1 (de) | Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms | |
DE69629485T2 (de) | Kompressionsystem für sich wiederholende töne | |
DE4211945C1 (de) | ||
DE2941452C2 (de) | Verfahren zur Codierung von Analogsignalen | |
DE60315544T2 (de) | Telekommunikationsendgerät zur Veränderung eines übertragenen Sprachsignals bei einer bestehenden Fernsprechverbindung | |
DE3833606A1 (de) | Verfahren zur verarbeitung akustischer signale und vorrichtungen zur durchfuehrung der verfahren | |
DE60210597T2 (de) | Vorrichtung zur adpcdm sprachkodierung mit spezifischer anpassung der schrittwerte | |
DE4203436A1 (de) | Datenreduzierte sprachkommunikation | |
EP2380171A2 (de) | Verfahren und vorrichtung zum verarbeiten von akustischen sprachsignalen | |
DE60021455T2 (de) | Multimodale Quantisierung des Prädiktionsfehlers in einem Sprachkodierer | |
DE4229372C2 (de) | Verfahren zum Übertragen oder Speichern der Quantisierungsinformation bei einer bitratenreduzierenden Quellcodierung | |
DE2834349C2 (de) | Formantvocoder | |
EP0697124A1 (de) | Vektorcodierverfahren, insbesondere für sprachsignale | |
DE4236315C1 (de) | Verfahren zur Sprachcodierung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8139 | Disposal/non-payment of the annual fee |