DE19860133C2 - Method and device for speech compression - Google Patents

Method and device for speech compression

Info

Publication number
DE19860133C2
DE19860133C2 DE1998160133 DE19860133A DE19860133C2 DE 19860133 C2 DE19860133 C2 DE 19860133C2 DE 1998160133 DE1998160133 DE 1998160133 DE 19860133 A DE19860133 A DE 19860133A DE 19860133 C2 DE19860133 C2 DE 19860133C2
Authority
DE
Germany
Prior art keywords
elementary
signal
spectrum
memory
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE1998160133
Other languages
German (de)
Other versions
DE19860133A1 (en
Inventor
Dietmar Ruwisch
Ilse Schebesch
Detlef Schweng
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
RUWISCH, DIETMAR, DR., 12557 BERLIN, DE
Original Assignee
CORTOLOGIC AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CORTOLOGIC AG filed Critical CORTOLOGIC AG
Priority to DE1998160133 priority Critical patent/DE19860133C2/en
Publication of DE19860133A1 publication Critical patent/DE19860133A1/en
Application granted granted Critical
Publication of DE19860133C2 publication Critical patent/DE19860133C2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients

Description

Die Erfindung betrifft ein Verfahren und eine Vor­ richtung zur Kompression eines digitalisierten Sprachsignals mittels Benutzung von Referenzindizes variabler Einträge von sender- und empfängerseitig vorhandenen Referenzspeichern.The invention relates to a method and a direction for compression of a digitized Speech signal using reference indices variable entries from sender and recipient existing reference memories.

Für eine effiziente Sprachübertragung über einen Nachrichtenkanal ist eine Kompression des Sprachsi­ gnals unerläßlich. Dies gilt insbesondere dann, wenn die Bandbreite des Nachrichtenkanals durch physikali­ sche Radbedingungen begrenzt ist, wie z. B. im Mobil­ telefon-Bereich.For efficient voice transmission over one News channel is a compression of the speech absolutely indispensable. This applies in particular if the bandwidth of the message channel through physi cal wheel conditions is limited, such as. B. in the mobile telephone area.

Es lassen sich Standard-Kompressionsverfahren, mit denen ein beliebiges Zeitsignal komprimiert werden kann, von solchen Verfahren unterscheiden, die aus­ schließlich für die komprimierte Übertragung von Sprache geeignet sind. Mit solchen speziellen Verfah­ ren läßt sich eine wesentlich höhere Kompressionsrate erzielen.Standard compression methods can be used which are compressed any time signal can distinguish from such procedures that finally for the compressed transmission of Language are suitable. With such special procedures ren a much higher compression rate achieve.

Sogenannte Codebuch-Verfahren zur komprimierten Über­ tragung von Sprache, wie sie beispielsweise aus der DE 35 13 243 A1, der DE 40 33 350 A1 oder der DE 35 21 413 A1 bekannt sind, lassen sich in drei verschiedene Phasen unterteilen, nämlich eine senderseitige Erkennung festgelegter, verfahrensspezifischer Sprachelemente, eine Übertragung der Folge der Indizes jener Sprachelemente, entsprechend dem gesprochenen Signal und eine empfängerseitige Synthese der Sprache aus den Sprachelementen, entsprechend den übertragenen Indizes.So-called codebook procedures for compressed transfer carrying language, such as that from the DE 35 13 243 A1, DE 40 33 350 A1 or DE 35 21 413 A1 are known can be divided into three different phases  subdivide, namely a transmitter-side detection fixed, process-specific language elements, a transfer of the sequence of those indices Speech elements corresponding to the spoken signal and a receiver synthesis of the language the language elements, corresponding to the transmitted ones Indices.

Die verfahrensspezifischen Sprachelemente können sich auf verschiedenen Ebenen der Sprache befinden. So wird gemäß der DE 35 21 413 A1 das Sprachsignal aus gan­ zen Wörtern zusammen gesetzt. Dies hat allerdings den Nachteil, daß nur ein begrenzter, zuvor vereinbarter Wortschatz übertragen werden kann. Sprachsynthese auf der Ebene der Phoneme, d. h. der vom menschlichen Sprechapparat erzeugbaren Grundlaute, wird in der DE 30 06 339 A1 und der DE 31 05 518 A1 vorgeschlagen. Andere, abstraktere Sprachelemente lassen sich z. B. mit Hilfe des Mel-Cepstrum-Verfahrens definieren, wie es nach der DE 40 33 350 A1 verwendet werden soll.The procedural language elements may differ are at different levels of language. So according to DE 35 21 413 A1, the speech signal from gan zen words put together. However, this has the Disadvantage that only a limited, previously agreed Vocabulary can be transferred. Speech synthesis the level of the phonemes, d. H. that of human Speech apparatus generate basic sounds, is described in DE 30 06 339 A1 and DE 31 05 518 A1. Other, More abstract language elements can e.g. B. with help of the Mel-Cepstrum process define how it works DE 40 33 350 A1 is to be used.

Noch andere Verfahren benutzen als Elementarsignale keine Sprachbausteine im eigentlichen Sinne, sondern künstliche Signale, die so zusammengesetzt werden, daß ein akustisches Sprachsignal entsteht. Aus der DE 30 28 000 A1 und der DE 32 18 755 A1 ist es bekannt, zwi­ schen stimmhaften und stimmlosen Lauten zu unter­ scheiden. In letztgenannten Verfahren werden zur Sprachsynthese Ton- und Rauschgeneratorsignale ver­ wendet, die durch steuerbare Filter moduliert werden.Still other methods use as elementary signals no language modules in the real sense, but artificial signals that are put together so that an acoustic speech signal is generated. From DE 30 28 000 A1 and DE 32 18 755 A1 it is known between between voiced and unvoiced sounds divorce. In the latter process, Speech synthesis sound and noise generator signals ver uses that are modulated by controllable filters.

Allen genannten Verfahren ist gemeinsam, daß die zur Synthese verwendeten verfahrensgemäßen Sprachelemente fest vorgegeben sind und nicht an den jeweiligen senderseitigen Sprecher angepaßt werden können. Dadurch ist es im allgemeinen unmöglich, den Klang der Stimme eines Sprecher naturgetreu zu reproduzieren, was für eine Telefonverbindung jedoch erstrebenswert ist.All of the above methods have in common that the Synthesis used procedural language elements are fixed and not on the respective transmitter side  Speakers can be adjusted. Thereby it is generally impossible to hear the sound of the voice of a speaker to faithfully reproduce what however, a telephone connection is desirable.

Der vorliegenden Erfindung liegt die Aufgabe zugrun­ de, zur empfängerseitigen Sprachsynthese solche Spra­ chelemente zu verwenden, die zuvor senderseitig ex­ trahiert worden sind.The present invention is based on the object de, such speech for the receiver-side speech synthesis to use elements that were previously ex have been married.

Gelöst wird diese Aufgabe dadurch, daß die Referenz­ speicher gefüllt werden indem in einem Kompressions­ modul auf der Seite des Senders mit Hilfe der Auto­ korrelationsfunktion ϕss(t, τ) des Sprachsignals s(t) zu Zeitpunkten t0 ein Elementarsignal sE(t) und/oder Elementarspektrum SE(f) erzeugt wird, welches sowohl im Synthesemodul auf der Seite des Empfängers als auch im senderseitigen Kompressionsmodul als Refe­ renzsignal si(t) und/oder Referenzspektrum Si(f) im Referenzspeicher unter dem Index i abgelegt wird, falls dieses Elementarsignal sE(t) und/oder Elemen­ tarspektrum SE(f) zu keinem der bereits vorhandenen Referenzspeichereinträge überschwellige Ähnlichkeit aufweist.This object is achieved in that the reference memory is filled by an elementary signal s E (t) at times t 0 in a compression module on the transmitter side using the auto correlation function ϕ ss (t, τ) of the speech signal s (t) ) and / or elementary spectrum S E (f) is generated, which in the synthesis module on the receiver side as well as in the transmitter-side compression module as a reference signal s i (t) and / or reference spectrum S i (f) in the reference memory under the index i is stored if this elementary signal s E (t) and / or elementary spectrum S E (f) has no similarity to any of the existing reference memory entries.

Durch diese Maßnahmen wird es möglich, im empfänger­ seitig synthetisierten Sprachsignal die typische Stimmcharakteristik eines Sprechers zu reproduzieren. Die Sprachelemente bestehen dabei aus den kleinsten sinnvoll definierbaren Einheiten des Sprachsignals. Bei stimmhaften Lauten entspricht ein Elementarsignal sE(t) z. B. einer Periode der Grundschwingung; bei stimmlosen Lauten, wird ein Elementarspektrum SE(f) benutzt, daß durch Fourieranalyse auf einem vorgegebenen Zeitintervall gewonnen wird. Diese Sprachele­ mente werden sender- und empfängerseitig als Refe­ renzsignale si(t) bzw. Referenzspektren Si(f) gespei­ chert, so daß sie im Fall ihres wiederholten Auftre­ tens nicht erneut übertragen werden müssen, woraus die Kompression resultiert.These measures make it possible to reproduce the typical voice characteristics of a speaker in the speech signal synthesized on the receiver side. The speech elements consist of the smallest meaningfully definable units of the speech signal. With voiced sounds, an elementary signal s E (t) corresponds to z. B. a period of the fundamental; in the case of unvoiced sounds, an elementary spectrum S E (f) is used, which is obtained by Fourier analysis over a predetermined time interval. These Sprachele elements are stored on the transmitter and receiver side as reference signals s i (t) or reference spectra S i (f), so that they do not have to be retransmitted in the event of their repeated occurrence, which results in the compression.

Weitere vorteilhafte Maßnahmen sind in den Unteran­ sprüchen beschrieben. Die Erfindung ist in der bei­ liegenden Zeichnung dargestellt und wird nachfolgend näher beschrieben; es zeigt:Further advantageous measures are in the Unteran sayings described. The invention is in the lying drawing and is shown below described in more detail; it shows:

Fig. 1 ein Kompressionsmodul, das ein digita­ lisiertes Sprachsignal s(t) zu einem komprimierten Code verarbeitet, der aus Datenblöcken variabler Länge besteht; Figure 1 is a compression module that processes a digitized speech signal s (t) to a compressed code that consists of data blocks of variable length.

Fig. 2 ein Synthesemodul, das aus den kompri­ mierten Daten ein Sprachsignal s(t) ge­ neriert, in dem ein empfangener Daten­ block zu verarbeiten ist, seine Kennung festlegt, ein Referenzsignal si(t) bzw. ein Referenzspektrum Si(f) adressiert und liest, ein Signalgenerator dieses dem Referenzspeicher hinzufügt, im Fal­ le eines Spektrums nach vorheriger in­ verser Fouriertransformation, dem zu synthetisierenden Sprachsignal s(t) ab­ legt, wobei die im Datenblock enthalte­ nen Lautstärken- und ggf. Frequenz- Informationen E(t) verarbeitet werden; Fig. 2 shows a synthesis module that generates a speech signal s (t) from the compressed data, in which a received data block is to be processed, determines its identifier, addresses a reference signal si (t) or a reference spectrum Si (f) and reads, a signal generator adds this to the reference memory, in the case of a spectrum after previous inverse Fourier transformation, stores the speech signal s (t) to be synthesized, the volume and possibly frequency information E (t) contained in the data block are processed;

Fig. 3 ein Mittelungsglied zur Bestimmung der momentanen Signallautstärke E(t), deren Betrag des Sprachsignals s(t) einem Zeitintervall Δt aufintegriert wird; Fig. 3 is an averaging member for determining the instantaneous signal level E (t), the amount of the speech signal s (t) a time interval .DELTA.t is integrated;

Fig. 4 einen Autokorrelator zur Berechnung der Autokorrelationsfunktion; Figure 4 is an autocorrelator for computing the autocorrelation function.

Fig. 5 einen Kreuzkorrelator zur Berechnung des Korrelationskoeffizienten ϕiE zum Vergleich eines Elementarsignals sE(t) mit den Referenzsignalen si(t), die im Referenzspeicher gespeichert sind; Fig. 5 is a cross-correlator for calculating the correlation coefficients φ for comparing an elementary signal s E (t) with the reference signals s i (t) stored in the reference memory iE;

Fig. 6 eine Spektralanalyse zur Berechnung ei­ nes Elementarvektors WE aus einem Ele­ mentarsignalspektrum SE(f). Fig. 6 is a spectrum analysis for calculating ei nes elementary vector W E of a mentarsignalspektrum Ele S E (f).

Die in den Fig. 1 bis 6 dargestellte Erfindung wird im folgenden anhand eines Ausführungsbeispiels näher erläutert. Dabei werden das Kompressionsmodul 10 und das Synthesemodul 22 separat betrachtet. Zu Beginn der Signalverarbeitung im Kompressionsmodul 10 wird die mo­ mentane Lautstärke E(t) des digitalisierten Sprachsignal s(t) mit einem Mittelungsglied 11, wie er in der Fig. 3 dargestellt ist, bestimmt.The invention shown in FIGS. 1 to 6 is explained in more detail below using an exemplary embodiment. The compression module 10 and the synthesis module 22 are considered separately. At the beginning of the signal processing in the compression module 10 , the momentary volume E (t) of the digitized speech signal s (t) is determined with an averaging element 11 , as shown in FIG. 3.

Dazu bestimmt ein Mittelungsglied 11, wie es in der Fig. 3 dargestellt ist, die aktuelle Lautstärke E(t). Ein Autokorrelator 12, wie er in der Fig. 4 darge­ stellt ist, berechnet die Autokorrelationsfunktion ϕss(t, τ) des Sprachsignals. Ein nachgeschalteter Maxi­ mumdetektor 13 ermittelt das Maximum ϕss(t0, τ).For this purpose, an averaging element 11 , as shown in FIG. 3, determines the current volume E (t). An autocorrelator 12 , as shown in FIG. 4, calculates the autocorrelation function ϕ ss (t, τ) of the speech signal. A downstream maximum detector 13 determines the maximum ϕ ss (t 0 , τ).

Die Verzögerungszeit τmax entspricht der Periodenlänge eines Elementarsignals sE(t). Ein Normierglied 14 bringt das Elementarsignal auf eine vorgegebene Peri­ odenlänge und Energie. Zugleich berechnet ein Fourier­ transformator 15 das aktuelle Spektrum S(t, f) des Sprachsignals.The delay time τ max corresponds to the period length of an elementary signal s E (t). A normalization element 14 brings the elementary signal to a predetermined period length and energy. At the same time, a Fourier transformer 15 calculates the current spectrum S (t, f) of the speech signal.

Mittels Spektralanalyse 18, wie ihn die Fig. 6 zeigt, erhält man aus einem Elementarspektrum SE(f) einen Ele­ mentarvektor WE, der in einer Vergleichseinheit 19 mit den Referenzvektoren Wi des Referenzspeichers 16 ver­ glichen wird. Ist der Abstand zum ähnlichsten Referenz­ vektor kleiner als eine Schwelle ϑ, wird statt des ge­ samten Elementarsignals sE(t) der entsprechende Refe­ renzindex imin sowie Lautstärkeninformation E(t) und Frequenzinformation (τmax) in einem Datenblock 21 ausge­ geben. Alternativ wird das Elementarsignal mit den Re­ ferenzsignalen si(t) durch einem Kreuzkorrelator 17, wie ihn die Fig. 5 zeigt, verglichen. Ist keine pas­ sende Referenz vorhanden, werden das Elementarsignal sE(t) und ggf. das Spektrum SE(f) sowie der Elementar­ vektor WE im Referenzspeicher abgelegt. In diesem Fall wird das gesamte Elementarsignal sE(t) bzw. das Elemen­ tarspektrum SE(t) dem Datenblock (21) hinzugefügt.By means of spectral analysis 18 , as shown in FIG. 6, an elementary vector W E is obtained from an elementary spectrum S E (f), which element is compared in a comparison unit 19 with the reference vectors W i of the reference memory 16 . If the distance to the most similar reference vector is less than a threshold ϑ, instead of the entire elementary signal s E (t) the corresponding reference index i min as well as volume information E (t) and frequency information (τ max ) are output in a data block 21 . Alternatively, the elementary signal is compared with the reference signals s i (t) by a cross correlator 17 , as shown in FIG. 5. If there is no suitable reference, the elementary signal s E (t) and possibly the spectrum S E (f) and the elementary vector W E are stored in the reference memory. In this case, the entire elementary signal s E (t) or the elementary spectrum S E (t) is added to the data block ( 21 ).

Unter Zuhilfenahme von E(t) berechnet ein Autokorrela­ tor 12, wie er in der Fig. 4 dargestellt ist, die nor­ mierte Autokorrelationsfunktion ϕss(t, τ) des Sprachsi­ gnals s(t), ϕss(t, τ) wird auf einem definierten Zeitin­ tervall Δt berechnet und ändert sich mit fortschreiten­ der Zeit t.With the aid of E (t), an autocorrelator 12 , as shown in FIG. 4, calculates the normalized autocorrelation function ϕ ss (t, τ) of the speech signal s (t), ϕ ss (t, τ) calculated at a defined time interval Δt and changes as time t progresses.

Im folgenden wird ein fester Zeitpunkt t = t0 betrachtet. Ein Maximumdetektor 13 bestimmt das Maximum der Auto­ korrelationsfunktion ϕss (t0, τ), das sich an der Stelle τmax < 0 befindet. Besonders vorteilhaft ist es, wenn die Länge des Zeitintervalls Δt, auf dem ϕss(t0, τ) be­ rechnet wird, dem Wert von τmax entspricht. Mit Hilfe des Werts von ϕss(t0, τmax) entscheidet das Kompressions­ modul 10 wie folgt, ob das Sprachsignal s(t) zum Zeit­ punkt t0 stimmhaft oder stimmlos ist. Überschreitet ϕss(t0, τmax) eine vorzugebende Schwelle, handelt es sich um einen stimmhaften Laut.A fixed point in time t = t 0 is considered below. A maximum detector 13 determines the maximum of the auto correlation function ϕ ss (t 0 , τ), which is located at the point τ max <0. It is particularly advantageous if the length of the time interval Δt on which ϕ ss (t 0 , τ) is calculated corresponds to the value of τ max . Using the value of Wer ss (t 0 , τ max ), the compression module 10 decides as follows whether the speech signal s (t) is voiced or unvoiced at time t 0 . If ϕ ss (t 0 , τ max ) exceeds a threshold to be specified, it is a voiced sound.

Ein stimmloser Laut besteht im wesentlichen aus Rau­ schen, daher weist seine Autokorrelationsfunktion kein ausgeprägtes Maximum für τmax < 0 auf. Liegt ein stimm­ hafter Laut vor, wird das Sprachsignal durch ein Nor­ mierglied 14 zu einem Elementarsignal sE(t) verarbei­ tet, das eine vorgegebene Länge, Energie und Phasenlage aufweist. Dieses normierte Elementarsignal sE(t) be­ steht aus einer einzigen Periode des Sprachsignals s(t). Die Länge dieser Periode entspricht dem Wert von τmax. Das Elementarsignal sE(t) wird mit den im Refe­ renzspeicher gespeicherten Referenzsignalen si(t) verglichen. Dies kann bei stimmhaften Lauten auf zweierlei Weise geschehen.An unvoiced sound essentially consists of noise, so its autocorrelation function has no pronounced maximum for τ max <0. If there is a harmonious sound, the speech signal is processed by a normalization element 14 to form an elementary signal s E (t) which has a predetermined length, energy and phase position. This normalized elementary signal s E (t) consists of a single period of the speech signal s (t). The length of this period corresponds to the value of τ max . The elementary signal s E (t) is compared with the reference signals s i (t) stored in the reference memory. With voiced sounds, this can be done in two ways.

In dem im folgenden beschriebenen Ausführungsbeispiel werden stimmhafte wie stimmlose Laute mittels Spektral­ analyse 18 im Frequenzraum verglichen. Dazu berechnet ein Fouriertransformator 15 das zeitlich veränderliche Spektrum S(t, f) des Sprachsignals s(t). Das normierte Betragsspektrum zu einem Zeitpunkt t = t0 wird im folgen­ den Elementarspektrum SE(f) genannt. SE(f) kann auch durch Fouriertransformation der Autokorrelation ϕ(t0, τ) gewonnen werden. Mittels Spektralanalyse 18 wird aus einem Elementarspektrum SE(f) durch Anwendung von Filterfunktionen Fk(f) ein Elementarvektor WE berechnet wie dies die Fig. 6 zeigt.In the exemplary embodiment described below, voiced and unvoiced sounds are compared by means of spectral analysis 18 in the frequency domain. For this purpose, a Fourier transformer 15 calculates the time-varying spectrum S (t, f) of the speech signal s (t). The normalized magnitude spectrum at a point in time t = t 0 is called the elementary spectrum S E (f) below. S E (f) can also be obtained by Fourier transformation of the autocorrelation ϕ (t 0 , τ). Using spectral analysis 18 , an elementary vector W E is calculated from an elementary spectrum S E (f) by using filter functions F k (f), as shown in FIG. 6.

Mit Hilfe dieses Elementarvektors WE erfolgt der Ver­ gleich mit den Einträgen des Referenzspeichers 16 auf folgende Weise. Zu jedem gespeicherten Referenzsignal si(t) bzw. Referenzspektrum Si(f) korrespondiert ein Referenzvektor Wi, der dem soeben erläuterten Elemen­ tarvektor WE des jeweiligen Referenzsignals entspricht. Der Vergleich des Elementarvektors WE mit den Referenz­ vektoren Wi erfolgt in einer Vergleichseinheit 19.With the help of this elementary vector W E , the comparison with the entries of the reference memory 16 takes place in the following manner. A reference vector W i corresponds to each stored reference signal s i (t) or reference spectrum S i (f), which corresponds to the element vector W E of the respective reference signal just explained. The comparison of the elementary vector W E with the reference vectors W i takes place in a comparison unit 19 .

Sei imin der Index des Referenzvektors Wi mit dem klein­ sten Abstand aller Wi zum Elementarvektor WE. Das In­ verse dieses Abstands ist ein Maß für die Ähnlichkeit der Signale bzw. Spektren. Ist der minimale Abstand kleiner als ein vorzugebender Schwellwert, läßt sich das Elementarsignal sE(t) bzw. das Elementarspektrum SE(f) durch die entsprechende Referenz ersetzen. In diesem Fall trägt die Vergleichseinheit 19 nur den In­ dex imin zusammen mit der korrekten Lautstärke E(t) in den zu sendenden Datenblock 21 ein. Bei entsprechend gewähltem Schwellwert kann auf diese Weise jeder belie­ bige Laut durch eine Referenz ersetzt werden.Let i min be the index of the reference vector W i with the smallest distance of all W i from the elementary vector W E. The inverse of this distance is a measure of the similarity of the signals or spectra. If the minimum distance is smaller than a threshold value to be specified, the elementary signal s E (t) or the elementary spectrum S E (f) can be replaced by the corresponding reference. In this case, the comparison unit 19 only enters the index i min together with the correct volume E (t) in the data block 21 to be transmitted. If the threshold value is selected accordingly, any sound can be replaced by a reference.

Im Falle eines stimmhaften Lauts enthält der Datenblock 21 zusätzlich den Wert von τmax, der zur Synthese des Sprachsignals mit der korrekten Grundfrequenz benötigt wird. Ein jeder Datenblock 21 beginnt mit einer Kennung 24, in der codiert ist, welcher Art die übertragene In­ formation ist.In the case of a voiced sound, the data block 21 additionally contains the value of τ max , which is required for the synthesis of the speech signal with the correct fundamental frequency. Each data block 21 begins with an identifier 24 , in which the type of the information transmitted is encoded.

In einer anderen Ausführung der Erfindung werden für stimmhafte und stimmlose Laute separate Referenzspei­ cher verwendet. In noch einer anderen Ausführung der Erfindung sind Vergleichseinheit 19 und Referenzspei­ cher 16 in einem selbstorganisierenden neuronalen Netz­ werk zusammengefaßt, das sich durch eine besonders ge­ schickte Behandlung der Referenzvektoren Wi auszeich­ net.In another embodiment of the invention, separate reference memories are used for voiced and unvoiced sounds. In yet another embodiment of the invention, comparison unit 19 and reference memory 16 are combined in a self-organizing neural network, which is distinguished by a particularly clever handling of reference vectors W i .

In wieder einem anderen Ausführungsbeispiel erfolgt der Vergleich stimmhafter Laute im Zeitbereich. Statt des Vergleichs eines Elementarvektors WE mit den Referenz­ vektoren Wi wird das Elementarsignal sE(t), wie in der Fig. 5 dargestellt, per Kreuzkorrelation mit den Refe­ renzsignalen si(t) verglichen. Dazu berechnet ein Kreuzkorrelator 17 die Korrelationskoeffizienten ϕiE.In yet another embodiment, voiced sounds are compared in the time domain. Instead of comparing an elementary vector W E with the reference vectors W i , the elementary signal s E (t), as shown in FIG. 5, is compared by cross-correlation with the reference signals s i (t). For this purpose, a cross correlator 17 calculates the correlation coefficients ϕ iE .

Ist der minimale Korrelationskoeffizienten ϕiE kleiner als eine vorzugebende Schwelle ϑ, wird das Elementarsi­ gnal als bekannt betrachtet und - wie zuvor erläutert - behandelt. Die Verarbeitung stimmloser Laute erfolgt weiterhin wie im zuerst beschriebenen Ausführungsbei­ spiel. If the minimum correlation coefficient ϕ iE is smaller than a predefined threshold ϑ, the elementary signal is regarded as known and - as explained above - treated. The processing of voiceless sounds continues as in the first example.

Allen genannten Ausführungsbeispielen ist gemeinsam, daß ein komplettes Elementarsignal sE(t), bzw. im Falle stimmloser Laute ein Elementarspektrum SE(f) in dem zu sendenden Datenblock 21 übertragen wird, wenn keine passende Referenz gefunden wird. Dies ist insbesondere dann der Fall, wenn der Referenzspeicher leer ist, z. B. am Beginn einer Übertragung, bei der nicht auf Referen­ zen einer früheren Übertragung oder vorgegebene Star­ treferenzen zurückgegriffen wird. Jedes in einen zu sendenden Datenblock 21 eingetragene Elementarsignal sE(t) oder Elementarspektrum SE(f) wird zugleich im Re­ ferenzspeicher 16 zusammen mit dem zugehörigen Refe­ renzvektor Wi abgelegt.All of the above-mentioned exemplary embodiments have in common that a complete elementary signal s E (t), or in the case of unvoiced sounds, an elementary spectrum S E (f) is transmitted in the data block 21 to be transmitted if no suitable reference is found. This is particularly the case when the reference memory is empty, e.g. B. at the beginning of a transmission in which references to a previous transmission or predetermined star references are not used. Each elementary signal s E (t) or elementary spectrum S E (f) entered in a data block 21 to be sent is simultaneously stored in the reference memory 16 together with the associated reference vector W i .

Bei einer begrenzten Größe des Referenzspeichers ist es notwendig, alte Einträge zu überschreiben. Dazu wählt man günstigsten Falls solche Einträge aus, die relativ alt sind und dennoch nur selten als passende Referenzen zur Übertragung ausgewählt wurden. Der Index i der Re­ ferenzspeicherposition des neuen Elements wird eben­ falls in den zu sendenden Datenblock 21 eingetragen, um ihn im Referenzspeicher des Empfängers an der selben Indexposition i als Referenzsignal si(t), bzw. Refe­ renzspektrum Si(f) abzuspeichern.If the size of the reference memory is limited, it is necessary to overwrite old entries. To do this, you select the cheapest entries that are relatively old and yet only rarely selected as suitable references for the transfer. The index i of the reference memory position of the new element is also entered in the data block 21 to be transmitted in order to store it in the reference memory of the receiver at the same index position i as the reference signal s i (t), or reference spectrum S i (f).

Empfängerseitig werden die gesendeten Datenblöcke von einem Synthesemodul 22, wie er in der Fig. 2 darge­ stellt ist, ausgewertet. Ein Signalgenerator 23 setzt aus den empfangenen Elementarsignalen sE(t) und Elemen­ tarspektren SE(f) sowie aus indizierten Referenzsigna­ len si(t) und Referenzspektren Si(f) das synthetisierte Sprachsignal zusammen. Dazu gibt die Kennung 24 eines Datenblocks an, wie die empfangenen Daten zu behandeln sind. Spektren SE(f) und Si(f) müssen zuvor durch inverse Fouriertransformation in Zeitsignale umgewandelt werden.At the receiver end, the transmitted data blocks are evaluated by a synthesis module 22 , as shown in FIG. 2. A signal generator 23 composes the synthesized speech signal from the received elementary signals s E (t) and elementary spectra S E (f) as well as from indexed reference signals s i (t) and reference spectra S i (f). For this purpose, the identifier 24 of a data block specifies how the received data are to be treated. Spectra S E (f) and S i (f) must first be converted into time signals by inverse Fourier transformation.

Zur, Nachbildung der korrekten Signallautstärke dient die im Datenblock 21 enthaltene Lautstärke E(t). Werden stimmhafte Laute aus Elementarsignalen sE(t) oder Refe­ renzsignalen si(t) zusammengesetzt, dient der ebenfalls im Datenblock 21 enthaltene Wert der Verzögerung τmax zur Wiederherstellung der korrekten Frequenz der Grund­ schwingung des Sprachsignals. Wesentlich für die Funk­ tionsweise des Synthesemoduls ist die Speicherung von empfangenen Elementarsignalen sE(t) und Elementarspek­ tren SE(f) an der vorgegebenen Indexposition i eines Referenzspeichers 16.The volume E (t) contained in data block 21 is used to emulate the correct signal volume. If voiced sounds are composed of elementary signals s E (t) or reference signals s i (t), the value of the delay τ max also contained in the data block 21 serves to restore the correct frequency of the basic oscillation of the speech signal. The storage of received elementary signals s E (t) and elementary spectra S E (f) at the predefined index position i of a reference memory 16 is essential for the functioning of the synthesis module.

Der entsprechende Referenzindex i ist in jedem Daten­ block 21 angegeben. Dadurch wird gewährleistet, daß die Referenzspeicher 16 des Kompressionsmoduls 10 auf der Seite des Senders und des Synthesemoduls 22 auf der Seite des Empfängers stets dieselben Einträge aufwei­ sen.The corresponding reference index i is specified in each data block 21 . This ensures that the reference memory 16 of the compression module 10 on the side of the transmitter and the synthesis module 22 on the side of the receiver always have the same entries.

Das beschriebene Verfahren erlaubt die Übertragung ge­ sprochener Sprache mit einer Übertragungsrate von unter 1 kBit/s bei sehr guter Sprachqualität. Selbst mit ei­ nem Referenzspeicher 16, der nur Platz für eine Refe­ renz bietet und somit, lediglich eine Wiederholung des zuletzt übertragenen Elementarsignals sE(t) bzw. Ele­ mentarspektrums SE(f) ermöglicht, läßt sich bereits ei­ ne erhebliche Kompression des Sprachsignals erreichen. The method described allows the transmission of spoken speech with a transmission rate of less than 1 kbit / s with very good speech quality. Even with egg nem reference memory 16 , which only offers space for one reference and thus only allows repetition of the last transmitted elementary signal s E (t) or elementary spectrum S E (f), a considerable compression of the speech signal can already be achieved to reach.

Bezugszeichenreference numeral

1010th

Kompressionsmodul, das ein Sprachsignal s(t) zu Datenblöcken (Compression module that a speech signal s (t) too Data blocks (

2121

) verarbeitet;
) processed;

1111

Mittelungsglied, das die momentane Lautstärke E(t) des Sprachsignals s(t) ermittelt;
Averaging element that determines the current volume E (t) of the speech signal s (t);

1212th

Autokorrelator, bestimmt die Autokorrelations­ funktion ϕss Autocorrelator, determines the autocorrelation function ϕ ss

(t) des Sprachsignals s(t);
(t) of the speech signal s (t);

1313

Maximumdetektor, der das Maximum der Autokorrela­ tionsfunktion ϕss Maximum detector, which is the maximum of the autocorrelation function ϕ ss

(τ) bestimmt, das sich an der Stelle τmax (τ) determines that at the point τ max

= 0 befindet;
= 0;

1414

Normierglied, das eine Periode des Sprachsignals s(t) zu einem normierten Elementarsignal sE Normalization element that converts a period of the speech signal s (t) to a normalized elementary signal s E

(t) definierter Länge und Energie verarbeitet;
(t) defined length and energy processed;

1515

Fouriertransformator, berechnet das Spektrum S(f) des Sprachsignals s(t);
Fourier transformer, calculates the spectrum S (f) of the speech signal s (t);

1616

Referenzspeicher, in dem Referenzsignale si Reference memory in which reference signals s i

(t) und Referenzspektren Si (t) and reference spectra S i

(f) sowie die zugehörigen Referenzvektoren Wi (f) and the associated reference vectors W i

gespeichert werden;
get saved;

1717th

Kreuzkorrelator zur Berechnung des Kreuzkorrela­ tionskoeffizients ϕiE Cross correlator for calculating the cross correlation coefficient ϕ iE

;
;

1818th

Spektralanalyse, die aus einem Spektrum SE Spectral analysis based on a spectrum S E

(f) ei­ nen Elementarvektor WE (f) an elementary vector W E

erzeugt;
generated;

1919th

Vergleichseinheit, die entscheidet, ob im Refe­ renzspeicher (Comparison unit that decides whether in the Refe reference memory (

1616

) eine passendes Referenz vorhan­ den ist, um das Elementarsignal sE ) is a suitable reference to the elementary signal s E

(t) zu erset­ zen;
(t) to replace;

2020th

Übertragungskanal, über den die Datenblöcke (Transmission channel over which the data blocks (

2121

) gesendet werden;
) are sent;

2121

Datenblock, der die Angaben zur empfängerseitigen Sprachsynthese enthält;
Data block that contains the information on the speech synthesis on the receiver side;

2222

Synthesemodul, das die Datenblöcken (Synthesis module that blocks the data (

2121

) empfängt und einen Referenzspeicher () receives and a reference memory (

1616

) sowie einen Sig­ nalgenerator zur Sprachsynthese beinhaltet;
) and a signal generator for speech synthesis;

2323

Signalgenerator, der aus empfangenen Elementarsi­ gnalen sE Signal generator consisting of received elementary signals s E

(t) und gespeicherten Referenzsignalen si (t) and stored reference signals s i

(t) Sprachsignal s(t) erzeugt;
(t) speech signal s (t) generated;

2424th

Kennung eines Datenblocks (Identifier of a data block (

2121

), die dessen Daten charakterisiert;
E(t) momentane Lautstärke des Sprachsignals s(t);
f Frequenz
k Komponentenindizierung von Elementarvektor WE
), which characterizes its data;
E (t) instantaneous volume of the speech signal s (t);
f frequency
k Component indexing of elementary vector W E

und der Filterfunktionen Fk and the filter functions F k

(f);
Fk
(f);
F k

(f) Filterfunktionen, mit denen per Spektralanalyse ((f) Filter functions with which by spectral analysis (

1818th

) aus einem Spektrum SE ) from a spectrum S E

(f) ein Elementarvektor WE (f) an elementary vector W E

berechnet wird;
i Index, mit dem Referenzen im Referenzspeicher adressiert werden;
imin
is calculated;
i Index with which references in the reference memory are addressed;
i min

Index des Referenzvektors mit dem minimalen Ab­ stand zum Elementarvektor WE Index of the reference vector with the minimum distance from the elementary vector W E

;
s(t) digitalisiertes Sprachsignal;
S(t, f) normiertes Betragsspektrum des Sprachsignals in einem vorgegeben Zeitintervall;
sE
;
s (t) digitized speech signal;
S (t, f) normalized magnitude spectrum of the speech signal in a predetermined time interval;
s E

(t) normiertes Elementarsignal, entspricht einer Peri­ ode der Grundschwingung von s(t) zu einem Zeit­ punkt t = t0 (t) normalized elementary signal, corresponds to a period of the fundamental wave of s (t) at a time t = t 0

, auf konstante Länge und Energie ska­ liert;
SE
, scaled to constant length and energy;
S E

(f) normiertes Elementarspektrum, entspricht dem Spek­ trum S(t, f) zum Zeitpunkt t = t0 (f) normalized elementary spectrum, corresponds to the spectrum S (t, f) at time t = t 0

;
si
;
s i

(t) Referenzsignal, im Referenzspeicher ((t) reference signal, in the reference memory (

1616

) abgeleg­ tes Elementarsignal sE ) filed elementary signal s E

(t);
Si
(t);
S i

(f) Referenzspektrum, im Referenzspeicher ((f) reference spectrum, in the reference memory (

1616

) abge­ legtes Elementarspektrum SE ) stored elementary spectrum S E

(f);
t0
(f);
t 0

willkürlich herausgegriffener Zeitpunkt
WE
arbitrary point in time
W E

Elementarvektor, durch Spektralanalyse (Elementary vector, by spectral analysis (

1818th

) aus Elementarspektrum SE ) from elementary spectrum S E

(f) erzeugt;
WEk
(f) generated;
W Ek

Komponenten des Elementarvektors WE Components of the elementary vector W E

;
Wi
;
W i

Referenzvektor, ein im Referenzspeicher (Reference vector, one in the reference memory (

1616

) abge­ legter Elementarvektor WE ) stored elementary vector W E

;
Δt Zeitintervall, auf dem die Lautstärke E(t) und die Autokorrelationsfunktion ϕss
;
Δt time interval at which the volume E (t) and the autocorrelation function ϕ ss

(t, τ) bzw. der Kreuz­ korrelationskoeffizient ϕiE (t, τ) or the cross correlation coefficient ϕ iE

berechnet werden;
ϕss
be calculated;
ϕ ss

(t0 (t 0

, τ) Autokorrelationsfunktion des Sprachsignals s(t) zum Zeitpunkt t0 , τ) autocorrelation function of the speech signal s (t) at time t 0

;
ϕiE
;
ϕ iE

Kreuzkorrelationskoeffizient von Elementarsignal sE Cross-correlation coefficient of elementary signal s E

(t) und Referenzsignal si (t) and reference signal s i

(t);
ϑ Schwellwert beim Vergleich von Elementarsignal sE
(t);
ϑ Threshold when comparing elementary signal s E

(t) und Referenzsignalen si (t) and reference signals s i

(t);
τ Verzögerungszeit als Argument der Autokorrelati­ onsfunktion ϕss
(t);
τ delay time as argument of the autocorrelation function ϕ ss

(t, τ)
τmax
(t, τ)
τ max

Verzögerungszeit, bei der das Maximum der Autokor­ relationsfunktion ϕss Delay time at which the maximum of the Autocor relation function ϕ ss

(t0 (t 0

, τ) für τ < 0 auftritt, was der Periodenlänge des Sprachsignals s(t) ent­ spricht.
, τ) occurs for τ <0, which speaks to the period length of the speech signal s (t) ent.

Claims (16)

1. Verfahren zur Kompression eines digitalisierten Sprachsignals s(t) mittels Benutzung von Referen­ zindizes (i) variabler Einträge von sender- und empfängerseitig vorhandenen Referenzspeichern (16), dadurch gekennzeichnet, daß die Referenzspeicher (16) gefüllt werden indem in einem Kompressionsmo­ dul (10) auf der Seite des Senders mit Hilfe der Autokorrelationsfunktion ϕss(t, τ) des Sprachsignals s(t) zu Zeitpunkten t0 ein Elementarsignal sE(t) und/oder Elementarspektrum SE(f) erzeugt wird, wel­ ches sowohl im Synthesemodul (22) auf der Seite des Empfängers als auch im senderseitigen Kompressions­ modul (10) als Referenzsignal si(t) und/oder Refe­ renzspektrum Si(f) im Referenzspeicher (16) unter dem Index i abgelegt wird, falls dieses Elementar­ signal sE(t) und/oder Elementarspektrum SE(f) zu keinem der bereits vorhandenen Referenzspeicherein­ träge überschwellige Ähnlichkeit aufweist.1. A method for compressing a digitized speech signal s (t) by using reference indices (i) of variable entries from the transmitter and receiver side existing reference memories ( 16 ), characterized in that the reference memories ( 16 ) are filled by in a compression module ( 10 ) on the side of the transmitter using the autocorrelation function ϕ ss (t, τ) of the speech signal s (t) at times t 0 an elementary signal s E (t) and / or elementary spectrum S E (f) is generated, which both in the synthesis module ( 22 ) on the side of the receiver and in the transmitter-side compression module ( 10 ) as reference signal s i (t) and / or reference spectrum S i (f) in the reference memory ( 16 ) under the index i, if this is stored Elemental signal s E (t) and / or elementary spectrum S E (f) has no overlap similarity to any of the existing reference memory entries. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß beim Speichern neuer Referenzsignale si(t) bzw. Referenzspektren Si(f) im Referenzspeicher (16), sofern dort kein freier Speicher mehr vorhanden ist, alte Einträge überschrieben werden, die selten Ähnlichkeit mit Elementarsignalen sE(t) bzw. Ele­ mentarspektren SE(f) zeigten.2. The method according to claim 1, characterized in that when storing new reference signals s i (t) or reference spectra S i (f) in the reference memory ( 16 ), provided that there is no free memory, old entries that are rarely overwritten Show similarity with elementary signals s E (t) or elementary spectra S E (f). 3. Verfahren nach Anspruch 1 oder 2, dadurch gekenn­ zeichnet, daß die Periodenlänge eines Elementarsignals zum Zeitpunkt t0 der Verzögerungszeit τmax entspricht, bei der ein Maximum der Autokorrelati­ onsfunktion ϕss(t0, τ) für τ < 0 auftritt.3. The method according to claim 1 or 2, characterized in that the period length of an elementary signal at time t 0 corresponds to the delay time τ max at which a maximum of the autocorrelation function funktion ss (t 0 , τ) occurs for τ <0. 4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, daß aus dem Sprachsignal s(t) zu jedem Zeitpunkt t0 ein Elementarvektor WE durch An­ wendung von Filterfunktionen Fk(f) auf das Spektrum S(t0, f) berechnet wird, zu jedem Referenzsignal si(t) und jedem Referenzspektrum Si(f) des Refe­ renzspeichers (16) ein entsprechend definierter Re­ ferenzvektor Wi gespeichert ist, wobei in der Ver­ gleichseinheit (19) des Kompressionsmoduls (10) die Ähnlichkeit zwischen Elementarsignal sE(t) und Re­ ferenzsignal si(t) sowie zwischen Elementarspektrum SE(f) und Referenzspektrum Si(f) als inverser Ab­ stand ∥WE - Wi-1 zwischen dem Elementarvektor WE und dem entsprechenden Referenzvektor Wi definiert ist.4. The method according to any one of claims 1 to 3, characterized in that from the speech signal s (t) at any time t 0 an elementary vector W E by applying filter functions F k (f) on the spectrum S (t 0 , f ) is calculated, a correspondingly defined reference vector W i is stored for each reference signal s i (t) and each reference spectrum S i (f) of the reference memory ( 16 ), the comparison unit ( 19 ) of the compression module ( 10 ) storing the Similarity between elementary signal s E (t) and reference signal s i (t) and between elementary spectrum S E (f) and reference spectrum S i (f) as an inverse distance ∥W E - W i-1 between the elementary vector W E and the corresponding reference vector W i is defined. 5. Verfahren nach einem oder mehreren der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß für stimmhafte und stimmlose Laute separate Referenzspeicher (16) verwendet werden.5. The method according to one or more of claims 1 to 4, characterized in that separate reference memories ( 16 ) are used for voiced and unvoiced sounds. 6. Verfahren nach einem oder mehreren der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß Referenzspeicher (16) und Vergleichseinheit (19) in einem selbstor­ ganisierenden neuronalen Netzwerk zusammengefaßt sind.6. The method according to one or more of claims 1 to 5, characterized in that the reference memory ( 16 ) and comparison unit ( 19 ) are combined in a self-organizing neural network. 7. Verfahren nach einem oder mehreren der Ansprüche 1 bis 4, dadurch gekennzeichnet, daß alle Referenzsi­ gnale si(t) des Referenzspeichers auf die gleiche Energie und Länge skaliert sind und mit Hilfe des Kreuzkorrelationskoeffizients ϕiE mit einem Elemen­ tarsignal sE(t) verglichen werden, während Refe­ renzspektren Si(f) und Elementarspektren SE(f) wie in Anspruch 4 verglichen werden.7. The method according to one or more of claims 1 to 4, characterized in that all reference signals s i (t) of the reference memory are scaled to the same energy and length and with the aid of the cross correlation coefficient ϕ iE with an elementary tarsignal s E (t ) are compared, while reference spectra S i (f) and elementary spectra S E (f) are compared as in claim 4. 8. Verfahren nach einem oder mehreren der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß Datenblöcke (21), die die komprimierte Sprachinformation bein­ halten, vom Kompressionsmodul (10) zum Synthesemo­ dul (22) übertragen werden, wobei jeder Datenblock (21) eine Kennung (24) zur Charakterisierung der enthaltenen Information sowie einen Referenzindex i zur Angabe einer Referenzspeicherposition aufweist.8. The method according to one or more of claims 1 to 7, characterized in that data blocks ( 21 ) containing the compressed speech information leg are transmitted from the compression module ( 10 ) to the synthesis module ( 22 ), each data block ( 21 ) Has identifier ( 24 ) for characterizing the information contained and a reference index i for specifying a reference storage position. 9. Verfahren nach einem oder mehreren der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß ein Datenblock (21) zusätzlich Information über die korrekte Si­ gnallautstärke E(t) und die korrekte Grundfrequenz τmax des Sprachsignals enthält.9. The method according to one or more of claims 1 to 8, characterized in that a data block ( 21 ) additionally contains information about the correct Si signal volume E (t) and the correct fundamental frequency τ max of the speech signal. 10. Verfahren nach einem oder mehreren der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß ein Datenblock (21) zusätzlich ein Elementarsignal SE(t) oder ein Elementarspektrum SE(f) beinhaltet.10. The method according to one or more of claims 1 to 9, characterized in that a data block ( 21 ) additionally contains an elementary signal S E (t) or an elementary spectrum S E (f). 11. Vorrichtung zur Kompression eines digitalisierten Sprachsignals s(t) mittels Benutzung von Referen­ zindizes (i) variabler Einträge von sender- und empfängerseitig vorhandenen Referenzspeichern, ge­ kennzeichnet durch eine Kompressionseinheit (10) auf der Seite des Senders, die Datenblöcke (21) va­ riabler Länge über einen Übertragungskanal (20) zu einem Synthesemodul (22) auf der Seite des Empfän­ gers sendet. 11. Device for compressing a digitized speech signal s (t) by using reference indices (i) variable entries from the transmitter and receiver side existing reference memories, characterized by a compression unit ( 10 ) on the side of the transmitter, the data blocks ( 21 ) va riabler length via a transmission channel ( 20 ) to a synthesis module ( 22 ) on the receiver side. 12. Vorrichtung nach Anspruch 11, dadurch gekennzeich­ net, daß das Kompressionsmodul (10) ein Mittelungs­ glied (11) zur Bestimmung der Signallautstärke E(t), einen Autokorrelator (12) zur Bestimmung der Autokorrelationsfunktion ϕss(t, τ) des Sprachsignals s(t), einen Maximumdetektor (13) zur Bestimmung des Maximums der Autokorrelationsfunktion ϕss(t0, τmax) zum Zeitpunkt t0 bei der Verzögerung τmax < 0, ein Normierglied (14) zur Erzeugung eines normierten Elementarsignals sE(t) mit Periodenlänge τmax, einen Fouriertransformator zur Berechnung eines Elemen­ tarspektrums SE(f) und eine Spektralanalyse (18) zur Berechnung von Elementarvektoren WE aufweist.12. The apparatus according to claim 11, characterized in that the compression module ( 10 ) has an averaging element ( 11 ) for determining the signal volume E (t), an autocorrelator ( 12 ) for determining the autocorrelation function ϕ ss (t, τ) of the speech signal s (t), a maximum detector ( 13 ) for determining the maximum of the autocorrelation function ϕ ss (t 0 , τ max ) at time t 0 with the delay τ max <0, a normalization element ( 14 ) for generating a normalized elementary signal s E ( t) with period length τ max , a Fourier transformer for calculating an elementary spectrum S E (f) and a spectral analysis ( 18 ) for calculating elementary vectors W E. 13. Vorrichtung nach Anspruch 11 oder 12, dadurch ge­ kennzeichnet, daß das Kompressionsmodul (10) zu­ sätzlich einen Referenzspeicher (16) zur Speiche­ rung von Referenzsignalen si(t), Referenzspektren Si(f) und Referenzvektoren Wi, sowie eine Ver­ gleichseinheit zur Ermittlung des Referenzsignals si(t) und/oder Referenzspektrums Si(f), das einem Elementarsignal sE(t) und/oder Elementarspektrum SE(f) am ähnlichsten ist.13. The apparatus of claim 11 or 12, characterized in that the compression module ( 10 ) in addition to a reference memory ( 16 ) for storing reference signals s i (t), reference spectra S i (f) and reference vectors W i , and a Comparison unit for determining the reference signal s i (t) and / or reference spectrum S i (f), which is most similar to an elementary signal s E (t) and / or elementary spectrum S E (f). 14. Vorrichtung nach Anspruch 11 oder 12, dadurch ge­ kennzeichnet, daß das Kompressionsmodul (10) zu­ sätzlich ein selbstorganisierendes neuronales Netz­ werk aufweist, das Referenzsignale si(t), Referenz­ spektren Si(f) und Referenzvektoren Wi speichert, sowie ein Referenzsignal si(t) und/oder Referenzspek­ trum Si(f) bestimmt, das einem Elementarsignal sE(t) und/oder Elementarspektrum SE(f) am ähnlich­ sten ist. 14. The apparatus of claim 11 or 12, characterized in that the compression module ( 10 ) additionally has a self-organizing neural network that stores reference signals s i (t), reference spectra S i (f) and reference vectors W i , and determines a reference signal s i (t) and / or reference spectrum S i (f) which is most similar to an elementary signal s E (t) and / or elementary spectrum S E (f). 15. Vorrichtung nach einem der Ansprüche 11 bis 14, da­ durch gekennzeichnet, daß das Kompressionsmodul zu­ sätzlich einen Kreuzkorrelator (17) zur Berechnung eines Kreuzkorrelationskoeffizients aufweist, mit dessen Hilfe ein Elementarsignal sE(t) mit einen Referenzsignal si(t) verglichen wird.15. Device according to one of claims 11 to 14, characterized in that the compression module additionally has a cross correlator ( 17 ) for calculating a cross correlation coefficient, with the aid of which an elementary signal s E (t) is compared with a reference signal s i (t) becomes. 16. Vorrichtung nach Anspruch 11, dadurch gekenn­ zeichnet, daß das Synthesemodul (22) einen Si­ gnalgenerator (23) zur Synthese eines Sprachsi­ gnals s(t) sowie einen Referenzspeicher (16) zur Speicherung von mindestens einem Referenzsignal si(t) oder Referenzspektrum Si(f) aufweist.16. The apparatus according to claim 11, characterized in that the synthesis module ( 22 ) has a signal generator ( 23 ) for synthesis of a speech signal s (t) and a reference memory ( 16 ) for storing at least one reference signal s i (t) or Has reference spectrum S i (f).
DE1998160133 1998-12-17 1998-12-17 Method and device for speech compression Expired - Fee Related DE19860133C2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE1998160133 DE19860133C2 (en) 1998-12-17 1998-12-17 Method and device for speech compression

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE1998160133 DE19860133C2 (en) 1998-12-17 1998-12-17 Method and device for speech compression

Publications (2)

Publication Number Publication Date
DE19860133A1 DE19860133A1 (en) 2001-07-12
DE19860133C2 true DE19860133C2 (en) 2001-11-22

Family

ID=7892709

Family Applications (1)

Application Number Title Priority Date Filing Date
DE1998160133 Expired - Fee Related DE19860133C2 (en) 1998-12-17 1998-12-17 Method and device for speech compression

Country Status (1)

Country Link
DE (1) DE19860133C2 (en)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3006339A1 (en) * 1979-02-20 1980-08-21 Sharp Kk METHOD AND DEVICE FOR VOICE SYNTHESIS
DE3028000A1 (en) * 1980-07-24 1982-02-25 Vdo Adolf Schindling Ag, 6000 Frankfurt Vehicle speech synthesis system equipment - mixes partial signal elements amplitude modulated at formant and noise frequencies
DE3105518A1 (en) * 1981-02-11 1982-08-19 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin METHOD FOR SYNTHESIS OF LANGUAGE WITH UNLIMITED VOCUS, AND CIRCUIT ARRANGEMENT FOR IMPLEMENTING THE METHOD
DE3218755A1 (en) * 1982-05-18 1983-11-24 Siemens AG, 1000 Berlin und 8000 München CIRCUIT ARRANGEMENT FOR THE ELECTRONIC VOICE SYNTHESIS
DE3513243A1 (en) * 1985-04-13 1986-10-16 Telefonbau Und Normalzeit Gmbh, 6000 Frankfurt Method for speech transmission and speech storage
DE3521413A1 (en) * 1985-06-14 1986-12-18 Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt Radiotelephony arrangement
DE4033350A1 (en) * 1989-10-20 1991-04-25 Canon Kk METHOD AND DEVICE FOR VOICE PROCESSING
US5557705A (en) * 1991-12-03 1996-09-17 Nec Corporation Low bit rate speech signal transmitting system using an analyzer and synthesizer

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3006339A1 (en) * 1979-02-20 1980-08-21 Sharp Kk METHOD AND DEVICE FOR VOICE SYNTHESIS
DE3028000A1 (en) * 1980-07-24 1982-02-25 Vdo Adolf Schindling Ag, 6000 Frankfurt Vehicle speech synthesis system equipment - mixes partial signal elements amplitude modulated at formant and noise frequencies
DE3105518A1 (en) * 1981-02-11 1982-08-19 Heinrich-Hertz-Institut für Nachrichtentechnik Berlin GmbH, 1000 Berlin METHOD FOR SYNTHESIS OF LANGUAGE WITH UNLIMITED VOCUS, AND CIRCUIT ARRANGEMENT FOR IMPLEMENTING THE METHOD
DE3218755A1 (en) * 1982-05-18 1983-11-24 Siemens AG, 1000 Berlin und 8000 München CIRCUIT ARRANGEMENT FOR THE ELECTRONIC VOICE SYNTHESIS
DE3513243A1 (en) * 1985-04-13 1986-10-16 Telefonbau Und Normalzeit Gmbh, 6000 Frankfurt Method for speech transmission and speech storage
DE3521413A1 (en) * 1985-06-14 1986-12-18 Licentia Patent-Verwaltungs-Gmbh, 6000 Frankfurt Radiotelephony arrangement
DE4033350A1 (en) * 1989-10-20 1991-04-25 Canon Kk METHOD AND DEVICE FOR VOICE PROCESSING
US5557705A (en) * 1991-12-03 1996-09-17 Nec Corporation Low bit rate speech signal transmitting system using an analyzer and synthesizer

Also Published As

Publication number Publication date
DE19860133A1 (en) 2001-07-12

Similar Documents

Publication Publication Date Title
DE69910058T2 (en) IMPROVING THE PERIODICITY OF A BROADBAND SIGNAL
DE69814517T2 (en) speech coding
DE69727895T2 (en) Method and apparatus for speech coding
DE69534285T3 (en) Method and apparatus for selecting the coding rate in a variable rate vocoder
DE60207061T2 (en) AUDIO COMPRESSION
DE60029990T2 (en) SMOOTHING OF THE GAIN FACTOR IN BROADBAND LANGUAGE AND AUDIO SIGNAL DECODER
DE60006271T2 (en) CELP VOICE ENCODING WITH VARIABLE BITRATE BY MEANS OF PHONETIC CLASSIFICATION
DE69916756T2 (en) Sound processing method and apparatus for adapting a hearing aid for the hearing impaired
EP0668007B1 (en) Mobile radiotelephone set with handsfree device
DE112014000945B4 (en) Speech emphasis device
DE2626793A1 (en) METHOD OF EVALUATING VOICE AND VOICELESS CONDITIONS OF A VOICE SIGNAL
DE60025748T2 (en) VOICE RECOGNITION
EP0642290A2 (en) Mobile communication apparatus with speech processing device
DE19715126C2 (en) Speech signal coding device
DE60124079T2 (en) language processing
EP1280138A1 (en) Method for audio signals analysis
DE60033826T2 (en) AMPLIFICATION CONTROL OF AUDIO SIGNALS IN A SOUND ENVIRONMENT WITH THE HELP OF A FILTER BANK
DE60307965T2 (en) Apparatus and method for changing the playback speed of stored speech signals
EP3197181A1 (en) Method for reducing latency of a filter bank for filtering an audio signal and method for low latency operation of a hearing system
DE60300267T2 (en) Method and device for multi-reference correction of the spectral speech distortions caused by a communication network
EP1282897A1 (en) Method for creating a speech database for a target vocabulary in order to train a speech recognition system
DE4001747A1 (en) Adaptable high pass filter assembly - has controllable cut=off frequency, and passes selectively signal components of higher frequencies
DE60033039T2 (en) DEVICE AND METHOD FOR THE SUPPRESSION OF ZISCHLAUTEN USING ADAPTIVE FILTER ALGORITHMS
DE19860133C2 (en) Method and device for speech compression
EP0658874A1 (en) Process and circuit for producing from a speech signal with small bandwidth a speech signal with great bandwidth

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8327 Change in the person/name/address of the patent owner

Owner name: RUWISCH, DIETMAR, DR., 12557 BERLIN, DE

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee

Effective date: 20110701