DE2622423A1 - Vocodersystem - Google Patents

Vocodersystem

Info

Publication number
DE2622423A1
DE2622423A1 DE19762622423 DE2622423A DE2622423A1 DE 2622423 A1 DE2622423 A1 DE 2622423A1 DE 19762622423 DE19762622423 DE 19762622423 DE 2622423 A DE2622423 A DE 2622423A DE 2622423 A1 DE2622423 A1 DE 2622423A1
Authority
DE
Germany
Prior art keywords
signal
input
frame
poles
pole pairs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE19762622423
Other languages
English (en)
Other versions
DE2622423B2 (de
DE2622423C3 (de
Inventor
Edwin A Sloane
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GEN RAD Inc
Original Assignee
GEN RAD Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GEN RAD Inc filed Critical GEN RAD Inc
Publication of DE2622423A1 publication Critical patent/DE2622423A1/de
Publication of DE2622423B2 publication Critical patent/DE2622423B2/de
Application granted granted Critical
Publication of DE2622423C3 publication Critical patent/DE2622423C3/de
Expired legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

GEN RAD, INC. TIME/DATA DIVISION 2855 Bowers Avenue, Santa Clara, Kalifornien 95051, U.S.A.
Vocodersystem
Die Erfindung betrifft das Gebiet von Vocodern, einschließlich der Übertragung analoger Signale in digitaler Form und der Synthese analoger Signale.
Die Digitaldarstellung analoger Signale, insbesondere Sprechsignale hat in jüngster Zeit zunehmende Bedeutung gewonnen. Das diesbezügliche Interesse wurde durch die rasche Entwicklung digitaler Schaltungen, die Vorzüge der digitalen Übertragung und die an die Datenkompression gestellten Erwartungen verstärkt. Darüberhinaus erlauben digitale Fernsprechkanäle eine Nachrichtenübertragung hoher Zuverlässigkeit.
Die sogenannten "Vocoder-" Methoden sind Methoden zur Analyse von Sprechraustern, welche eine digitale Übertragung von zur Sprachsynthese verwendeten Daten ermöglichen. Die Vocoder-Methoden arbeiten in der Regel unterschiedlich bei stimmhaften und stimmlosen oder Reibelauten (Spiranten), so daß ein System zwischen diesen beiden Laut- bzw. Sprachformen unterscheiden und über eine besondere Einrichtung zur Verarbeitung von stimmlosen bzw. Stummlauten verfügen muß.
COPY
Die Vocoder-Methoden für stimmhafte Laute bzw. Spra<--..o bestimmen eine Tonhöhenkomponente (pitch component) und die Sprachbildung darstellende Daten, die als "Forrnanten" bekannt sind. Sowohl die Tonhöhengewinnung als auch die Bestimmung der Formant-Daten haben schwerwiegende Probleme aufgeworfen, insbesondere in den Fällen, daß mehrere Stimmen oder Störgeräusche, einschließlich periodischer Geräusche vorhanden sind.
In der Regel werden nach bekannten Methoden die Tonhöhen- und Formant-Daten als Voraussetzungen für die Sprachsynthese getrennt gebildet. Verwiesen wird auf IEEE Spectrum, Oktober 1973, "Voice Signals: Bit-by-bit", Seiten 28-34; und IEEE Spectrum, August 1970, "Speech Spectograms Using the Fast Fourier Transformer", Seiten 57-62.
Es ist Aufgabe der Erfindung, ein Vocodersystem zur Verfugung zu stellen, das keiner getrennten Tonhöhenbestimmung (pitch determination) bedarf und das stimmlose Laute bzw. Sprache in gleicher Weise verarbeitet wie stimmhafte Laute bzw. Sprache.
Bei dem erfindungsgemäßen Vocodersystem wird das Spracheingangssignal (oder ein anderes Signal) in Rahmen gleicher Dauer unterteilt. Jeder Rahmen wird einer Laplace-Transformation unterzogen, und die jedem komplex konjugierten Polpaar zugeordnete Energie wird aus dem ; f.^.iduum und der Dämpfungsrate bestimmt. (Die Ausdrücke "Pole" und "Polpaare" werden in der vorliegenden Anmeldung gemischt verwendet. Wie aus dem Modell der Sprachkurve zu sehen ist, handelt es sich bei jedem Pol tatsächlich um ein Polpaar in der S-Ebene). Bei einem Ausführungsbeispiel sind die Polpaare nach der Energie gestuft oder geordnet, und die Frequenz, Dämpfungsrate, Ampli tude und der Phasenwinkel (und auch die Verzögerung) werden für eine Anzahl von Polpaaren mit der höchsten Energie übertragen. Bei einem anderen Ausführungsbeispiel werden die zu übertragenden Polpaars von einer Schwellwerteinrichtung aus-
7Q981S/069Q Copy
gewählt, nachdem der Eingangssprachenergiepegel normiert ist. Von der Schwellwerteinrichtung werden diejenigen Pole zur Übertragung ausgewählt, deren Energiegehalt über einem vorgegebenen Pegel liegt.
Bei einem bevorzugten Ausführungsbeispiel wird die Laplace-Transformation durch "Verschärfen" der Spitzen einer Fourier-Transformationsdarstellung jedes Datenrahmens durchgeführt. Auf diese Weise kann eine Wechselwirkung zwischen den auslaufenden Flanken der Spitzen extrem ,o^ring gehalten werden, so daß die Frequenzen (entlang derjAchse) der Spitzen bestimmt werden können. Aus dieser Information und unter Verwendung endlicher Differentiationen werden die Polstelle und das Residuum berechnet.
Die Synthese erfolgt durch Berechnung der Amplitudenwerte im Zeitbereich aus der inversen Laplace-Transformierten, die aus den übertragenen Polpaardaten berechnet wird. Die Synthese läßt sich auch durch Summieren der durch die Polpaare dargestellten gedämpften, sinusförmigen Funktionen durchführen. Bei einem bevorzugten Ausführungsbeispiel wird diese Synthese in digitaler Form in·einem Rekursivfilter durchgeführt. Zur Kompensation von Schätz- und Annäherungsfehlern und anderen Störungen findet eine Glättung zwischen den Rahmen statt.
Ein Vorteil der Erfindung besteht darin, daß die Qualität der Synthesekurven dadurch verbessert werden kann, daß eine beliebige Anzahl von Polpaaren übertragen wird. Soweit also eine größere Bandbreite zur Verfügung steht, kann die Reproduktionsqualität ohne komplizierte Systemänderungen geeignet verbessert werden. Die Erfindung ermöglicht also eine variable Bitgeschwindigkeitsübertragung.
Bei in der Praxis durchgeführten Untersuchungen hat sich das System selbst bei Hintergrundgeräuschen und mit zwei (gleichzeitigen) Stimmen als gut funktionsfähig erwiesen. Eine
7Q981B/06 GOPY
Sprachwiedergabe hatte eine ausgezeichnete Qualität bei einer Folgefrequenz von 12000 Bits pro Sekunde (entsprechend 16 Polpaaren) und eine gute Synthese wurde bereits bei 2400 Bits pro Sekunde demonstriert.
Im folgenden wird ein Ausführungsbeispiel der Erfindung anhand der Zeichnung näher erläutert. In der Zeichnung zeigen:
Fig. la eine Wellenform einer stimmhaften Sprache; dieses besondere Sprachmodell dient der Erläuterung der mathematischen Grundlagen der beschriebenen Einrichtung;
Fig. Ib eine graphische Darstellung der der Wellenform
nach Fig. la zugeordneten Tonhöhenfunktion (pitch function);
Fig. 2 ein Blockdiagramm der erfindungsgemäßen Gesamteinrichtung;
Fig. 3 ein detailiertes Blockdiagramm einer bevorzugten
Ausführungsform des Analysatorteils der Erfindung; und
Fig. 4 ein detailiertes Blockdiagramm einer bevorzugten Ausführungsform des Syntheseteils der Erfindung.
Im folgenden wird eine Vocodereinrichtung und ein Vocoderverfahren unter Verwendung der Laplace-Transformierten beschrieben. Generell werden die Polpaare jedes Sprachrahmens nach ihrem Energiegehalt geordnet, und eine Anzahl der am höchsten eingestuften Polpaardaten (Frequenz, Stärke, Dämpfungsrate und Phasenwinkel) wird übertragen und zur Synthese verwendet. Wenn auch das beschriebene Ausführungsbeispiel vor allem zur Sprachsynthese dient, ist es auch für andere Phänomene darstellende Wellenformen, z.B. Musik, geeignet.
Die folgende Beschreibung, insbesondere die mathematische Analyse basiert auf einem besonderen Modell von stimmbehafteter Sprache entsprechend Fig. 1. Die Einrichtung und das Verfahren unterscheiden sich nicht für stimmhafte und stimmlose Sprache, sondern verarbeiten die stimmlose Sprache in der gleichen Weise wie die stimmhafte Sprache. Wenn auch in der folgenden Beschrei-
7Ö981S/069Q
bung auf die komplizierte mathematische Analyse als Beweis dafür verzichtet wird, daß die stimmlose Sprache von der beschriebenen Einrichtung reproduziert wird, ist dies tatsächlich der Fall, wenn auch die Qualität der stimmlosen Sprache überwiegend weniger gut als für die stimmhafte Sprache ist. Da jedoch der gesamte durch die Sprache hervorgerufene Klangeindruck in erster Linie aus der stimmhaften Sprache resultiert, stellen das erfindungsgemäße Verfahren und die zugehörige Einrichtung ein ausgezeichnetes Vocodersystem dar.
In Fig. la, auf die im folgenden Bezug genommen wird, ist ein stimmhaftes Sprachmodell entlang der Linie 10 gezeigt, und eine mathematische Analyse dieses Sprachmodells verdeutlicht die vorliegende Erfindung und deren Unterschiede zum Stande der Technik. Das Sprach- oder Sprechsignal bzw. der Wellenverlauf v(t) hat nach der Darstellung eine periodische Struktur und ist von einer die Hüllkurve bildenden Gewichtsoder Bewertungsfunktion x(t) moduliert. Das Sprachmodell weist eine periodische Tonhöhenfunktion p(t) mit einer Periode von T (getrennt in Fig. Ib dargestellt) und eine Formantfunktion f(t) auf. Das Sprachmodell nach Fig. la kann wie folgt geschrieben werden:
OD
v(t) = ff(t)* ^. cT(t-nT)mt) (1)
wobei das Symbol "·" eine Faltung darstellt« Wenn die Formantfunktion in komplexer Exponentialform wie folgt geschrieben wird:
f(t) "Z%C^H^t (2)
so ergibt sich für Werte von t größer als Null die Laplace-Transformierte aus der Gleichung (1) wie folgt:
Ί - C
In dieser Gleichung stellt das Symbol "♦" wiederum eine Faltung,
709816/0690
jetzt jedoch im Frequenzbereich dar. Da die Tonhöhenpole (pitch poles) auf die jco-Achse fallen, kann der Tonhöhenbzw, "pitch-" Ausdruck wie folgt geschrieben werden:
too
Λ ~ C ο/ ' 4·,-«> S daher ergibt sich aus Gleichung (3):
v(s) = -^ τ >2l /Jl —
oder Gleichung (5) in PartiaIbruchform:
(4)
(5)
Vd
S -^
S
(6)
wobei
Diese Gleichung läßt sich ohne Faltung ausdrucken, da generell gilt:
isj^ X (s-f)
(7)
Aus Gleichung (5) wird:
V(S) = i
R.
(8)
Aus Gleichung (8) ist zu sehen, daß bei dem vorausgesetzten Sprachmodell die stimmhafte Sprache als sich periodische verschiebende Pole der umgebenden Gewichtsfunktion ausgedrückt werden kann.
Die jedem Pol zugeordnete Energie ist angenähert proportional zum Quadrat der Größe des Residuums und umgekehrt proportional zur DSmpfungsrate bzw. -geschwindigkeit.
Gleichungen (5) und (8) zeigen, daß die Tonhöhenpole für die
Energie charakteristischer als die Formantpole sind. Die Tonhöhenpole (ßk) sind ungedämpft (auf der j^o-Achse gelegen), während die Formantpole (*L ) außerhalb der j ω -Achse liegen; approximativ kann die Gleichung (7) unter Fortlassen der Formantpole wie folgt geschrieben werden:
Aus Gleichung (9) ist zu schließen, daß die signifikanteren Pole die der Hüllfunktion x(t) zugeordnete periodische Gruppe darstellen. Diese Pole sind jedoch durch die Residuen und Abstände von jedem der Formantpole bewertet. Daher bleibt die Formantinformation erhalten, obwohl die stärker gedämpften Formantpole nicht erhalten werden. Die Formantinformation ist implicite dargestellt durch die resultierenden komplexen Residuen; die Tonhöhen- bzw. pitch—Information geht in die Residuum- und Pol-Verteilung ein.
In der Praxis ist die tatsächliche Anzahl von zur Approximation eines Sprachsegments erhaltenen Polpaaren eine Untergruppe derjenigen nach Gleichung (8). Die Laplace-Transformation gilt für die gesamte gewertete periodische Gruppe bzw. Menge und wählt eine Anzahl von Polpaaren zusammen mit deren komplexen Residuen so aus, daß die für die vorgegebene Anzahl von Polen mögliche Maximalenergie erhalten wird. Mit anderen Worten, das durch die Gleichung (8) dargestellte Sprach- bzw. Sprechsignal wird analysiert und eine Gruppe von Parametern gewonnen, die die Gleichung (8) in einer Partialbruchform darstellen.
^ ^ (10)
(11)
70981S/0S9Ö
•Λ.
oder in der Annäherungsform entsprechend Gleichung (9):
V(S) 3* 5LJ- —H (12)
KL· -S- <
wobei j K, A die Gruppe von komplexen Residuen undjjL. Λ die Gruppe von Polstellen darstellen, welche die Sprache charakterisieren. Das System gibt eine Lösung für diese beiden Gruppen von komplexen Zahlen. Es kann in einigen Anwendungsfällen erwünscht sein, die Gleichung (11) zur Bestimmung der Polpaarstellen und Residuen unter der vereinfachten Annahme gemäß Gleichung (12) zu verwenden.
Die jedem Polpaar zugeordnete Energie ist angenähert proportional zu:
i £i (13)
wobei R die Amplitude des Residuum und 6" die Dämpfuigsrate ist.
In der Praxis wird die Zahl der Polpaare am Ausgang der Laplace-Transformationseinrichtung für jeden Sprachrahmen mit der Zahl der zu übertragenden Polpaare verglichen. Wenn die Zahl der Polpaare von der Laplace-Transformationseinrichtung größer als die Zahl der zu übertragenden Polpaare ist, so wird die jedem Polpaar zugeordnete Energie berechnet, und die Polpaare werden nach ihrem Energiegehalt geordnet bzw. bewertet. Eine feste Anzahl der am höchsten bewerteten Polpaare (diejenigen mit der höchsten Energie) werden zur Übertragung erhalten.
Daher beruht das Vocodersystem auf der Gewinnung einer Laplace-Transformation-Partialbruchzerlegung von aufeinanderfolgenden Sprachsegmenten, wobei eine Anzahl von Polpaarparametern (Frequenz, Dämpfung, Stärke bzw. Amplitude und Phase) entsprechend einem Energie-Auswahlkriterium erhalten und übertragen wird
709815/0690
""" 2622Λ23
und danach das Sprachsignal entsprechend den übertragenen Parametern rekonstruiert wird. Dies geschieht mit aufeinanderfolgende gleichmäßigen Sprachdauern unter geeigneter Glättung zwischen den Segmenten; zur Erzielung einer Glättung zwischen den Rahmen können die Sprachrahmen überlappt werden.
Die oben erläuterte mathematische Analyse zeigt, daß auch ohne Verwendung der stärker gedämpften Polpaare die Formantinformation erhalten bleibt, so daß also das vorliegende System von der getrennten Tonhöhen- und Formantbestimmung keinen Gebrauch macht.
Im folgenden wird auf Fig. 2 Bezug genommen, in der die erfindungsgemäße Einrichtung in Form eines Blockdiagramms dargestellt ist. Der Analysatorteil der Einrichtung umfaßt einen Analog/Digital-Umsetzer 13, einen Puffer 14, eine Laplace-Transformationseinrichtung 15, einen Energie-Schwellwertdiskriminator 16 und einen Kodier-Ausgangspuffer 17. Dieser Teil de s Systems nimmt ein analoges Sprachsignal (Eingangssignal) auf, das zur Übertragung oder Speicherung analysiert bzw. zerlegt wird. Eine als Leitung 18 in Fig. 2 dargestellt Nachrichtenverbindung koppelt den Analysatorteil des Systems mit dem Syntheseteil. Der Syntheseteil weist einen Eingangspuffer 19, ein Synthesegerät 20, eine Glättungseinrichtung 21, einen Digital/Analog-Umsetzer 22 und ein Filter 23 auf. Die Nachrichtenverbindung wird nicht genauei/erläutert; sie kann eine von vielen möglichen Übertragungseinrichtungen, z.B. eine Funk- oder Mikrowellenverbindung oder auch ein Aufzeichnungsgerät zum Aufzeichnen der vom Vocoder verarbeiteten Inörmation sein.
Das Eingangssprachsignal ist als analoges Sprachsignal angenommen, das dem Analog/Digital-Umsetzer 13 zugeführt wird. Der Umsetzer oder Konverter 13 tastet das Eingangssprachsignal periodisch ab und setzt jeden Abtastwert in digitale Form um. Die umgesetzten Abtastwerte werden zum Puffer 14 geleitet.
Bei dem beschriebenen Ausführungsbeispiel speichert der Puffer 14 eine vorgegebene Anzahl von Abtastwerten entsprechend einem Rahmen, z.B. können tausend Abtastwerte für jeden der Vielzahl benachbarter Rahmen verwendet werden. Bei einem Ausführungsbeispiel ist das Eingangssprachsignal verstärkungs- oder amplitudennormiert, wobei ein getrennter Verstärkungsfaktor durch das System zum Synthesegerät übertragen wird. Als Umsetzer 13 und Puffer 14 können bekannte Geräte verwendet werden.
Jeder Rahmen mit digitaler Information vom Puffer 14 wird an die Laplace-Transformationseinrichtung 15 angelegt. Eine Laplace-Transformation wird an jedem Datenrahmen in der Einrichtung 15 durchgeführt, und auf diese Weise v/erden die Polpaare definiert (d.h. die Lage und das komplexe Residuum jedes Pols wird bestimmt). Die Laplace-Transformationseinrichtung 15 kann als Digitalrechner ausgebildet sein, der zur Durchführung einer Laplace-Transformation programmiert ist, oder es kann sich um eine Einrichtung für diesen speziellen Zweck handeln. Bekannte Programme oder Algorithmen können in der Laplace-Transformationseinrichtung 15 verwendet werden.
Die Polpaarinformation aus der Laplace—Transformationseinrichtung 15 wird sodann zur Energie-Schwellwerteinrichtung bzw. zum Energie-Schwellwertdiskrirninator 16 übertragen. In dieser Einrichtung werden eine Anzahl von Polpaaren zur Übertragung an den Kodier-Ausgangspuffer 17 ausgewählt. Diese Auswahl erfolgt auf der Basis der jedem Polpaar zugeordneten Energie. Vorzugsweise wird eine von zwei Auswahlmethoden zur Übertragung der Polpaare verwendet. Bei einem Beispiel, das besonders günstig bei einer Verstärkungsnormierung des Eingangssprachsignals ist, wird ein vorgegebener Energieschwell— wert in der Einrichtung 16 eingestellt, und nur diejenigen Polpaare, deren Energie diesen Schwellwert übersteigt, werden zum Puffer 17 durchgekoppelt. Bei einem anderen Beispiel wird eine feste oder variable Anzahl von Polpaaren von der Energie-Schwellwerteinrichtung 16 ausgewählt und zum Puffer 17 über-
tragen. Es sei beispielsweise angenommen, daß die Nachrichtenverbindung 12000 Bits pro Sekunde übertragen soll und daß diese Bitzahl angenähert 16 Polpaaren der Information pro Rahmen entspricht. Die Energie-SchwellWerteinrichtung 16 bewertet bzw. ordnet die aus der Transformationseinrichtung 15 kommenden Polpaare nach ihrem Energiegehalt entsprechend Gleichung (13) und wählt die ersten 16 Polpaare, d.h. diejenigen mit dem größten Energiegehalt, zur Weiterleitung an den Puffer 17 aus. Es ist verständlich, daß bei einigen Eingangsrahmen in der Laplace-Transformationseinrichtung 15 keine 16 Polpaare zur Übertragung an die Energie-SchwellWerteinrichtung 16 definiert oder festgestellt werden können. Dieser Fall kam während einer Ruheperiode oder bei unkomplizierten Sprechwellenformen auftreben.
Der Kodier-Ausgangspuffer 17 nimmt die Polpaarinformation aus dem Energie-Schwellwertdiskriminator 16 auf und kodiert sie zur Übertragung über die Nachrichtenverbindung. Hierzu kann eine von zahlreichen Kodiermethoden verwendet werden. So kann es beispielsweise zweckmäßig sein, die Frequenzinformation in logarithmischer Form zu übertragen, oder es kann ein Teil der Polpaarinformation in Form einer Differenz übertragen werden, wenn die Information mit der Polpaarinformation des vorhergehenden Rahmens verglichen werden soll.
Der Eingangspuffer 19 nimmt die Information aus der Nachrichtenverbindung oder aus einem Speicher auf und dekodiert sie gegebenenfalls. Das Ausgangssignal des Eingangspuffers wird an ein Synthesegerät 20 angelegt.
Bei dem beschriebenen Ausführungsbeispiel findet, wie nachfolgend noch genauer erläutert werden wird, ein Rekursivfilter Verwendung, das die Verwendung digitaler Schaltungen zur Synthese der Wellenform ohne vorhergehende Gewinnung einer Laplace-Umkeh!transformation ermöglicht.
7Q981S/0690
•/fr.
Ein anderes System, das zur Sprachsynthese aus der Polpaarinformation verwendet werden kann, weist eine Einrichtung zum Umsetzen des das Synthesegerät 20 erreichenden Eingangssignals in eine Zeitbereichsfunktion unter Verwendung einer Laplace-Umkehrtransformation oder einer anderen Transformation und einen Rechner zur Berechnung der jedem der Polpaare für jedes Zeitinkrement zugeordneten Amplitudenwerte auf. Durch Summieren des Amplitudenbeitrags für jedes, den einzelnen Polpaaren zugeordnete Zeitinkrement kann die Sprachsignalsynthese durchgeführt werden. Da jedes der Polpaare im Zeitbereich durch eine gedämpfte Sinuswelle dargestellt werden kann, können die Polpaare regeneriert und (mit dem geeigneten Phasenwinkel) mit anderen gedämpften Sinuswellen für andere Polpaare zur Erzeugung des Sprachsignals summiert werden.
Die Glättungseinrichtung 21 kann irgendeine geeignete Einrichtung zur Schaffung eines glatten Übergangs von einem zum nächstfolgenden Rahmen sein. Eine Methode zur Schaffung eines glatten Übergangs besteht darin, einander überlappende Rahmen anstelle von aufeinanderfolgenden Rahmen zu benutzen. Der A/D-Umsetzer 13 kann zusammen mit dem Puffer 14 zur Bildung einander überlappender Rahmen verwendet werden, die der Laplace-Transformationseinrichtung 15 zugeführt werden. In der Glättungseinrichtung 21 werden das Ende jedes Rahmens und der Beginn des nächsten Rahmens zugespitzt und sodann für die Überlappungsperiode zum Zwecke der Glättung summiert. Diese Glättungsmethode wurde bei VibrationsSteuersystemen verwendet und ist in der U.S.-PS 3 848 115 beschrieben. Andere Glättungsmethoden, z.B. normierte Verstärkungsmethoden können verwendet werden.
Das Ausgangssignal der Glättungseinrichtung 21 wird an den D/A-Umsetzer 22 angelegt, in welchem die digitalen Informationsrahmen in üblicher Weise in analoge Form umgesetzt werden. Das analoge Ausgangssignal des D/A-Umsetzers 22 wird an das Filter 23 angelegt und in üblicher Weise gefiltert. Das Filter 23 kann zum Ausfiltern der von dem System in das Signal einge-
7Q981B/069Q
führten Frequenzkomponenten benutzt werden. So beseitigt das Filter 23 beispielsweise die Abtastfrequenz des A/D-Umsetzers 13 und deren Harmonische oder andere Signale dieser Art.
Das anhand Fig. 2 beschriebene System bildet also einen Vocoder für ein Eingangssignal und synthetisiert das kodierte Signal ohne eine getrennte Tonhöhenbestimmung; ferner wird stimmhafte und stimmlose Sprache in übereinstimmender Weise verarbeitet.
In Fig. 3 ist der Analysatorteil der Gesamteinrichtung genauer dargestellt. Der Analysator nimmt ein Eingangssignal, z.B. ein analoges Sprachsignal v(t) über die Leitung 30 auf und gibt ein Ausgangssignal (Leitung 36) am Ausgang des Ausgangspuffers und Kodierers 63 ab. Dieses Ausgangssignal kann auf eine Nachrichtenverbindung oder ein Aufzeichnungssystem gegeben werden. Im Falle des in Fig. 2 dargestellten Systems stellt das Ausgangssignal auf der Leitung 36 eine Vielzahl von Polpaaren dar, die so gewählt sind, daß eine maximale Energie des Eingangssignals zur Verfügung steht. Bei dem beschriebenen Ausführungsbeispiel wird eine Laplace-Transformierte unter Verwendung einer Fourier-Transformation bestimmt.
Das Eingangssignal zum Analysator wird an eine Abtast- und Halteeinrichtung 31 angelegt. Die Abtast- und Halteeinrichtung 31 kann durch eine der bekannten Schaltungen gebildet sein, die zum Abtasten eines Eingangssignals und zum Halten des Abtastwerts über eine für die Umsetzung in die Digitalform mittels des A/D-Konverters 33 ausreichende Zeit geeignet ausgebildet sind. Das Ausgangssignal der Abtast- und Halteeinrichtung 31 wird daher zum Eingang eines A/D-Umsetzers übertragen. Als Umsetzer 33 kann ein A/D-Umsetzer bekannter Bauart dienen.
7Q&81S/0690
Die Ausgangsleitung vom A/D-Umsetzer 33 ist mit einem Eingangsanschluß einer Multipliziereinrichtung 35 verbunden. Die Multipliziereinrichtung 35 weist mit Leitungen 39, 40 und 48 verbundene Eingangsanschlüsse und einen mit der Leitung 41 verbundenen Ausgangsanschluß auf. Die Multipliziereinrichtung 35 multipliziert das digitale Signal von der Leitung 39 oder der Leitung 48 mit dem Digitalsignal auf der Leitung 40 und entwickelt ein Produktsignal auf der Leitung 41. Als Multipliziereinrichtung 35 kann eine bekannte digitale Multiplizier- und MuItipiexeinrichtung verwendet werden.
Der Ausgangsanschluß der Multipliziereinrichtung 35 ist mit einem Puffer 43 verbunden. Bei dem Puffer 43 handelt es sich um einen Speicher zur Speicherung digitaler Information. Der Ausgang des Puffers 43 ist über eine Leitung 42 mit dem Umsetzer 45 verbunden. Als Puffer 43 kann beispielsweise ein Schieberegister, ein Speicher mit wahlfreiem Zugriff, ein Kernspeicher o.dgl. dienen.
Ein Funktionsgenerator 37 erzeugt eine bekannte Funktion darstellende Digitalsignale. Bei dem beschriebenen Ausführungsbeispiel erzeugt der Funktionsgenerator 37 eine Sinusfunktion, welche über die Leitung 40 in die Multipliziereinrichtung eingegeben wird. Diese Funktion ist mit sin ■ in Fig. 3 angegeben, wobei T die Abtastperiode der Abtast- und Halteeinrichtung 31 ist.
Der Umsetzer 45 ist eine geeignete Recheneinrichtung, mit der eine Fourier-Transformierte bzw. Fourier—Transformation aus einem Eingangssignal gewonnen werden kann. Es sind zahlreiche schnelle Fourier—Transformationseinrichtungen bekannt, die entweder maschinenmäßig oder durch ein Programm auf die besondere Funktion abgestellt sein können. So kann der Umsetzer 45 beispielsweise ein Allzweck-Digitalrechner sein, der mit einem FFT (Fourier-Transformations-) Programm ausgestattet ist. Bei dem beschriebenen Ausführungsbeispiel weist der Fourier-
709815/0690
Transformationsumsetzer 45 vorzugsweise das in der US-PS 3 638 004 beschriebene System auf. Verschiedene andere FFT-Methoden sind in der Beschreibungseinleitung dieser Patentschrift angegeben. Auch in der US-PS 3 638 004 ist in Fig. 7 ein Funktionsgenerator gezeigt, der als Funktionsgenerator 37 der vorliegenden Erfindung verwendet werden kann; dasselbe gilt für die Abtast- und Halteeinrichtung 31 und den A/D-Urnsetzer 33, die in Fig. 6 dieser Druckschrift dargestellt sind.
Wie noch genauer beschrieben werden wird, entwickelt der Umsetzer 45 eine Fourier-Transformation des Signals auf der Leitung 42. Das Signal auf der Leitung 42 ist jedoch nicht einfach die digitale Form des an die Leitung 30 angelegten Eingangssignals, sondern dessen Darstellung nach dessen Verarbeitung mit dem Ausgangssignal des Funktionsgenerators 37 in der Multipliziereinrichtung 35.
Die Ausgangsanschlüsse des Fourier-Transformationsumsetzers 45 sind über eine Leitung 46 mit dem Eingangsanschluß eines Spitzendetektors 49 und über eine Leitung 47 mit einem Speicher 53 verbunden.
Als Spitzendetektor 49 kann eine geeignete digitale Einrichtung zur Bestimmung der Spitzen eines Signals verwendet werden. Der Spitzendetektor 49 bestimmt die Spitzen für jeden Rahmen der über die Leitung 46 von ihm aufgenommenen Eingangsdaten. Der Ausgangsanschluß des Spitzendetektors 49 ist über die Leitung 51 mit dem anderen Eingangsanschluß des Speichers 53 verbunden.
Als Speicher 53 kann ein Digitalspeicher in Form eines Speichers mit wahlfreiem Zugriff, eine Mehrzahl von Schieberegistern, ein Magnetkernspeicher ο.dgl. verwendet werden.
Eine arithmetische Einrichtung 56 dient zur Durchführung gewöhnlicher arithmetischer Funktionen und kann daher durch
709915/0690
einen Allzweck-Digitalrechner, einen Festprogramrorechner oder eine andere digitale Einrichtung gebildet werden. Der Eingangsanschluß der arithmetischen Einrichtung 56 ist mit dem Ausgangsanschluß des Speichers 53 über eine Leitung 54 verbunden. Bei dem beschriebenen Ausführungsbeispiel wird ein Allzweck-Digitalrechner zur Durchführung der arithmetischen Funktionen verwendet, wie sie in dem der arithmetischen Einrichtung 56 zugeordneten Block gezeigt sind. Diese Gleichungen umfassen herkömmliche arithmetische Funktionen, wie Multiplikation, Division, Addition, logarithmische Berechnung usw., so daß bekannte Algorithmen für diesen Zweck geeignet sind. Der Ausgangsanschluß 58 der arithmetischen Einrichtung 56 ist mit einem Energiedetektor und Ordner 61 verbunden.
Der Energiedetektor und Ordner 61 ist eine digitale Schaltung zur Bestimmung der jedem Polpaar zugeordneten Energie aus der über den Eingangsanschluß des Ordners 61 zugeführten Polpaarinformation. Die jedem Pol zugeordnete Energie wird durch Multiplikation- und Divisionsoperationen berechnet, welche in dem beschriebenen Ausführungsbeispiel durch einen Allzweck-Digitalrechner durchgeführt werden, der mit der arithmetischen Einrichtung 56 bei dem beschriebenen Ausführungsbeispiel kombiniert ist. Der Ordner 61 bewertet bzw. ordnet auch die Pole nach der Energie, und zwar durch Vergleich der Energie jedes Polpaars innerhalb eines Rahmens, und überträgt sodann die Polpaarparameter der Pole höherer Energie zum Ausgangspuffer und Kodierer
Bei einer Datengeschwindigkeitssteuerung 59 handelt es sich um ein von Hand betätigbares oder automatisch gesteuertes Gerät, das dem Ordner 61 ein für die Anzahl der zum Ausgangepuffer und Kodierer 63 zu übertragenderjPolpaare repräsentatives Signal zuführt. Wenn auch bei dem beschriebenen Ausführungsbeispiel eine feste Anzahl (z.B. 16) von Polpaaren aus jedem Eingangssignalrahmen ausgewählt wird, kann es in manchen An-
709815/0690
-4T-
Wendungsfällen erwünscht sein, die Zahl der für jeden Rahmen zu übertragenden Polpaare zu ändern.
Der Ausgangspuffer und Kodierer 63 nimmt aus dem Energiedetektor und Ordner Information auf und kodiert die Information in geeignete Form zur Übertragung über die Leitung 36. Hierzu sind geeignete Schaltungen bekannt.
Selbstverständlich werden Zeitgabesignale und Steuersignale an alle in Fig. 3 dargestellten Schaltungen gegeben; diese sind jedoch in Fig. 3 nicht angegeben, um diese Darstellung nicht zu kompliziert zu machen. Bekannte Zeitgabeschaltungen und Binäreinrichtungen können zur Steuerung des Datenflusses durch den in Fig. 3 dargestellten Analysator verwendet werden. Im Betrieb wird ein analoges Sprachsignal über die Leitung 30 an die Abtast- und Halteinrichtung 31 angelegt. Bei dem beschriebenen Ausführungsbeispiel (Fig. 3) findet die zuvor erwähnte Verstärkungseinstellung zur Normierung der Verstärkung in der Abtast- und Halteeinrichtung 31 nicht statt. Wenn eine solche Einstellung oder Normierung des EingangsSprachsignaIs vorgenommen werden soll, so wird ein getrenntes Signal, das für die Verstärkung des Eingangssignals charakteristisch ist, für jeden Rahmen zum Ausgangspuffer und Kodierer 63 zusammen mit der die Polpaare darstellenden Information übertragen. Bei einem derartigen System kann der Energiedetektor und Ordner 61 einfach einen Schwellwert bilden und die Übertragung zum Ausgangspuffer und Kodierer 63 für alle Polpaare freigeben, deren Energiepegel über einem.vorgegebenen Sollwert liegt. Bei dem beschriebenen Ausführungsbeispiel finden in der Abtast- und Halteeinrichtung beispielsweise 500 Abtastungen pro Rahmen (5-10 Millisekunden fortlaufende Rahmen) statt. Im A/D- Umsetzer 33 wird jeder Abtastwert in digitale Form umgesetzt und sodann zur Multipliziereinrichtung 35 übertragen.
Es ist zu sehen, daß jeder Rahmen des Eingangssprachsignals getrennt verarbeitet wird, wobei dessen Polpaare bestimmt
7Q981B/069Q
. η.
i-orden, wenn auch ein "Rohrleitungs" Schema verwendet wird. EBs heißt, während der Fourier-Transformationsumsetzer 45 einen Rahmen des Eingangssignals verarbeitet, können die Abtast- und Halteeinrichtung 31, der A/D-Umsetzer 33, der Funktionsgenerator 37 und die Multipliziereinrichtung 35 bereits den nächsten Rahmen des Eingangssignals verarbeiten.
Im folgenden wird die Funktionsweise des Generators 37, der Multipliziereinrichtung 35, des Puffers 43, des Umsetzers 45, des Spitzendetektors 49, des Speichers 53 und der arithmetischen Einrichtung 56 kurz beschrieben.
Jeder Eingangssignalrahmen wird nach der Umsetzung in Digitalform in der Multipliziereinrichtung 35 mit einer vom Funktionsgenerator 37 erzeugten Sinusfunktion multipliziert, und das sich ergebende Produktsignal wird dem Puffer 43 zugeführt. Dieses Produktsignal gelangt sodann über die Leitung 42 zum Fourier-Transformationsumsetzer 45 und wird außerdem über die Leitung 48 zur Multipliziereinrichtung 35
In
zurückgeführt, der Multipliziereinrichtung wird das Produkt— signal wiederum mit einer vom Funktionsgenerator 37 erzeugten Sinusfunktion multipliziert. Dieses zweite Produktsignal wird (über die Leitung 41) zum Puffer 43 und von dort über die Leitung 42 in den Fourier-Transformationsumsetzer 45 übertragen.
Der Fourier-Transformationsumsetzer 45 entwickelt eine Fourier-Trans formierte sowohl aus dem ersten als auch aus dem zweiten Produktsignal, das ihm über den Puffer 43 in jedem Eingangssignalrahmen zugeführt wird. Die Ergebnisse der beiden Fourier-Transformationen werden über die Leitung 47 direkt zum Speicher 53 und die Ergebnisse der Transformation für das zweite Produktsignal über die Leitung 46 zum Spitzendetektor 49 geleitet. Die mathematischen Darstellung dieser Signale sind neben der Leitung 47 in Fig. 3 angegeben. Zu beachten ist, daß Δ den endlichen Differentialoperator bei dem beschriebenen Ausführungsbeispiel darstellt.
70981S/069Θ
- 49" -
Durch die von der Multipliziereinrichtung 35 durchgeführte Multiplikation im Zeitbereich werden die Spitzen der Frequenzbereichsdarstellung des Eingangssignals verschärft. Diese Verschärfung verringert die Wechselwirkung an den auslaufenden Flanken benachbarter Spitzen und ermöglicht die Bestimmung der Frequenz der Pole entlang der jω -Achse im Spitzendetektor 49. Daher bestimmt der Spitzendetektor 49 für jeden Eingangsdatenrahmen die Frequenzen, an denen Pole auftreten. Diese Frequenzen werden über die Leitung 51 zum Speicher 53 übertragen, wo sie abgespeichert werden. Die ersten und zweiten "Differenzierungen" oder Faltungen (die sich aus den ersten und zweiten Produktsignalen ergeben) werden im Analysator gemäß Fig. 3 benutzt; es können jedoch auch Differenzierungen höherer Ordnung verwendet werden.
Von dem Speicher 53 werden die Frequenzen und die Ergebnisse der Fourier-Transformationsumsetzungen über die Leitung 54 zur arithmetischen Einrichtung 56 übertragen. Die arithmetische Einrichtung löst die beiden im zugehörigen Block des Blockschaltbilds gemäß Fig. 3 angegebenen Gleichungen für jeden Datenrahmen. In der "Sigma" Gleichung bedeuten N die Anzahl von Proben pro Rahmen und C einen Maßstabsfaktor. In der zweiten Gleichung ist "R" gleich der absoluten Höhe der Amplitude (des Pols) und des Phasenwinkels des Pols.
Die Information, dh. die Frequenz, Dämpfungsrate, Amplitude und der Phasenwinkel für jedes Polpaar wird sodann über die Leitung 58 zum Energiedetektor und Ordner 61 übertragen. In dieser Einrichtung wird die jedem der Polpaare zugeordnete Energie bestimmt und danach die Polpaare geordnet, d.h. gespeichert und nach ihrem relativen Energiegehalt identifiziert. Die Steuereinrichtung 59 bestimmt die Anzahl der zum Ausgangspuffer und Kodierer 63 übertragenen Pole, so daß in jedem Rahmen eine vorgegebene Anzahl von Polpaardaten zum Ausgangspuffer und Kodierer 63 übertragen wird. Wie oben erwähnt, ergeben 16 Polpaare eine ausgezeichnete Reproduktion bei einer Rahmendauer von 50 Millisekunden.
709815/0690
Der Ausgangspuffer und Kodierer 63 dient als Schnittstelle für den Analysator und die Nachrichtenverbindung bzw. das Aufzeichnungsgerät und bringt die Polpaarinformation in identifizierbare Form. Ein identifiziertes Wort kann zur Kennzeichnung des Beginns jedes Rahmen verwendet werden, und andere Identifikationsworte können zur Kennzeichnung des Beginns der jedes Polpaar definierenden Daten benutzt werden.
Bei einigen Anwendungsfällen hat es sich als zweckmäßiger erwiesen, die Polpaarinformation in zwei Durchläufen zu berechnen. Zunächst erfolgt eine Grobberechnung der Polpaarinformation, wobei die energiereicheren Pole ausgewählt werden. In einem zweiten Durchlauf wird eine genauere Definition der gewählten Pole durchgeführt. Es ist einzusehen, daß während des zweiten Durchlaufs die Rechenvorgänge redu-
nur ziert sind, da Einzelberechnungen zur genaueren Definition der gewählten Polpaare erforderlich sind. Bei anderen Anwendungen kann es erwünscht sein, die Frequenzen der Pole aus einer Fourier-Transformation ohne vorhergehenden Verschärfungsvorgang zu gewinnen.
Bei dem beschriebenen Ausführungsbeispiel wird die Sprachsynthese ohne Gewinnung einer Fourier-Umkehrtransformation oder einer Laplace-Umkehrtransformation durchgeführt, indem Sinusfunktionen und Exponentialfunktionen entsprechend der Polpaarinformation erzeugt werden. Ein Rekursivfilter (Fig. 4) wird zu diesem Zweck benutzt. Die Eingangsinformation wird dem Filter von der Nachrichtenverbindung oder einem Speicher über die Leitung 71 zugeführt. Diese Leitung ist mit dem Eingangsanschluß eines Eingangspuffers und Dekodierers 65 verbunden. Das Ausgangssignal wird von einer Summierschaltung 76 auf eine Leitung 103 gegeben. Die Schaltung gemäß Fig. 4 kann mit bekannten Digitalschaltungen realisiert werden.
Es ist zu sehen, daß die synthetische bzw. reproduzierte
7Q981S/069Q
Sprache durch die folgende Gleichung dargestellt werden kann, wobei Z den Z-Transformationsoperator darstellt: ν (7Ϊ R cos&* C C0S { "T^- ^ @k) Z (14) vk ΚΔ) K
Ί-2C -τ- cos ^y y ^ y /- C
wobei ^ das Abtastintervall darstellt und die Frequenz f, und die Dämpfungskonstante CT^ durch die folgenden Beziehungen gegeben sind
fk - $ und erk - -^ (15)
Verschiedene Ausdrücke dieser Gleichung sind im Blockschaltbild gemäß Fig. 4 angegeben, um die Schaltung und deren Funktion im Sinne einer Lösung der obengenannten Gleichung (14) zu verdeutlichen.
Der Eingangspuffer und Dekodierer 65 weist fünf mit den Leitungen 66...70 verbundene Ausgangsanschlüsse auf. Der Eingangspuffer und Dekodierer 65 nimmt die ein Polpaar darstellende Information auf und gibt die Amplitude auf der Leitung 66, den Kosinus des Phasenwinkels auf die Leitung 67, die Dämpfungsrate auf die Leitung 68, den Phasenwinkel auf die Leitung 69 und die Frequenz auf die Leitung 70.
Eine Additionsschaltung 73 weist zwei Eingangsanschlüsse und einen Ausgangsanschluß auf, wobei die Eingangsanschlüsse mit der Leitung 66 und mit einer Leitung 77 und der Ausgangsanschluß mit einer Leitung 91 verbunden sind. Verzögerungsschaltungen 88 und 89 können als Schieberegister oder andere Schaltungen zur Verzögerung digitaler Signale ausgebildet sein. Die Verzögerungsschaltungen dienen zur Verzögerung des an ihrem Eingang anstehenden Signals um eine der Abtastperiode entsprechende Zeit. Der Eingangsanschluß der Verzogerungsschaltung 88 ist mit der Leitung 91 und der Eingangsanschluß der Verzogerungsschaltung 89 mit einer Leitung 93 verbunden. Der Ausgangsanschluß der Verzogerungsschaltung 88 ist mit einer Leitung 99 und der Ausgangsanschluß der Verzogerungsschaltung
?Ö981S/Ö69Q
mit einer Leitung 95 verbunden.
Fünf Multiplizierschaltungen 79...83 werden im Rekursivfilter gemäß Fig. 4 verwendet. Jede dieser Multiplizierschaltungen hat zwei Eingangsanschlüsse und einen Ausgangsoder Produktanschluß. Die Multiplizierschaltung 79 ist eingangsseitig mit der Leitung 93 und einer Leitung 101 und ausgangsseitig mit einer Leitung 100 verbunden. Die Eingangsanschlüsse der Multiplizierschaltung 80 sind mit Leitungen 95 und 97 und der Ausgangsanschluß der Multiplizierschaltung 80 mit einer Leitung 96 verbunden. Die Multiplizierschaltung 82 ist eingangsseitig mit Leitung 98 und 99 und ausgangsseitig mit der Leitung 93 verbunden. Die Eingangsanschlüsse der Multiplizierschaltung 81 sind mit den Leitungen 91 und 67 und der Ausgangsanschluß der Multiplizierschaltung 81 ist mit der Leitung 92 verbunden. Die Multiplizierschaltung 83 ist mit ihren Eingangsanschlüssen an die Leitungen 93 und 94 und mit ihrem Ausgangsanschluß an die Leitung 84 angeschaltet.
Zusätzlich zur Additionsschaltung 7 3 weist das Rekursivfilter gemäß Fig. 4 Additionsschaltungen 74 und 75 auf, die jeweils mit zwei Eingangsanschlüssen und einem Ausgangsanschluß versehen sind. Die Additionsschaltung 74 ist mit ihren beiden Eingangsanschlüssen an die Leitungen 96 und 100 und mit ihrem Ausgangsanschluß an die Leitung 77 angeschaltet, während die Additionsschaltung 75 mit ihren beiden Eingangsanschlüssen an die Leitungen 92 und 84 und mit ihrem Ausgangsanschluß an den Eingangsanschluß der Summierschaltung 76 angeschaltet ist.
Ein Sinusgenerator 86 erzeugt konstante Digitalsignale, welche die neben den Leitungen 94 und 101 in Fig. 4 angegebenen Funktionen darstellen. Dieser Generator nimmt eine Eingangsfrequenz entsprechend der Frequenz eines Pols über die Leitung 70 und ein Phasenwinkelsignal über die Leitung 69 auf. Die beiden vom Sinusgenerator 86 erzeugten Sinusfunktionen werden auf die Leitungen 94 und 101 gegeben. Beide Ausgangssignale des
709815/0690
fr.
fr
Sinusgenerators 86 sind in Fig. 4 in Form einer Kosinusfunktion dargestellt. Eines dieser Signale (Leitung 94) ist um den Phasenwinkel des Pols verschoben.
Ein Exponentialfunktionsgenerator 87 erzeugt in digitaler Form ein konstantes Signal entsprechend den im zugehörigen Block der Fig. 4 angegebenen Exponenten.
In der Zeichnung nicht dargestellte Zeitgabeeinrichtungen sind mit jeder Schaltungskomponente der Schaltung gemäß Fig. 4 verbunden und steuern den Informationsfluß von einer zur anderen Schaltungskomponente.
Die Schaltung nach Fig. 4 verarbeitet die ihr eingegebenen Charakteristiken eines einzelnen Polpaars und erzeugt ein Ausgangssignal am Ausgang der Additionsschaltung 75. Die Schaltung wird mit der der Abtastrate des Eingangsanalogsignals entsprechenden Folge getaktet und nimmt daher eine neue Polpaarinformation für jeden Rahmen des Eingangssignals auf. Ein Rekursivfilter entsprechend Fig. 4 kann für jedes Polpaar verwendet werden, und das Ausgangssignal jedes dieser Filter wird in der Summierschaltung 76 summiert. Wenn beispielsweise 16 Polpaare übertragen werden, so finden 16 Schaltungen entsprechend Fig. 4 Verwendung, wobei die Ausgangssignale dieser Filter auf Leitungen 104 gegeben werden und in der Summierschaltung 76 summiert werden. Das Ausgangssignal der Summierschaltung 76 (Leitung 103) wird sodann in analoge Form umgesetzt.
Der zuvor beschriebene Vocoder erfordert keine getrennte Tonhöhenbestimmung und verarbeitet die stimmlose Sprache in gleicher Weise wie die stimmhafte Sprache.
7Q9815/0690
Lee rs e i te

Claims (17)

  1. PATENTANWÄLTE ZENZ & HELBER · D 4300 ESSEN 1 · AM RUHRSTEIN 1 · TEL.: (02 01) 4126 87
    Seite - 34 - G 833
    Patentansprüche
    Vocoderanordnung mit einer Eingabeeinrichtung zur Aufnahme eines Eingangssignals, dadurch gekennzeichnet, daß der Eingabeeinrichtung (13, 14) eine Zeitbereichs/Frequenzbereichs-Transformationseinrichtung (15, 16) zur Bestimmung der Polstellen in der s-Ebene und der Residuen des EingangsSignaIs nachgeschaltet ist, wobei die Transformationseinrichtung (15, 16) so aufgebaut ist, daß sie ein diese Polstellen und Residuen darstellendes Ausgangssignal entwickelt, und daß mit der Transformationseinrichtung eine Syntheseeinrichtung (19...21) zum Zusammensetzen bzw. Reproduzieren eines Signals aus dem die Polstellen und Residuen darstellenden Ausgangssignal gekoppelt ist, wobei ein Sprache o.dgl. darstellendes Signal in Form von s-Ebenen-Parametern speicherbar oder übertragbar ist.
  2. 2. Anordnung, insbesondere nach Anspruch 1, zum Übertragen eines Eingangssignals in kodierter Form, gekennzeichnet durch eine Laplace-Transformationseinrichtung (15) zur Berechnung der Laplace-Transformation des Eingangssignals und zur Erzeugung eines die Polpaare des Eingangssignals darstellenden Ausgangssignals und durch eine die Polpaare aus dem Ausgangssignal der Laplace-Transformationseinrichtung (15) zur Übertragung auswählende Schwellwerteinrichtung (16), die mit der Laplace-Transformationseinrichtung verbunden ist, wobei die Anordnung so getroffen isty daß das Eingangssignal in Form der am Ausgang der SchwellWerteinrichtung (16) erscheinenden ausgewählten Polpaare übertragbar ist.
    z/bu.
    ■ λ-
  3. 3. Anordnung nach Anspruch 2, dadurch gekennzeichnet, daß die Schwellwerteinrichtung (16) als Energie-Schwellwertdiskriminator ausgebildet ist, der diejenigen Polpaare auswählt, deren Energiegehalt einen vorgegebenen Pegel übersteigt.
  4. 4. Anordnung nach Anspruch 2 oder 3, dadurch gekennzeichnet, daß die SchwellWerteinrichtung (16) so ausgebildet ist, daß sie den den Polpaaren zugeordneten Energiegehalt bestimmt und eine vorgegebene Anzahl von Polpaaren mit dem höchsten Energiegehalt auswählt.
  5. 5. Vocoderanordnung, insbesondere nach Anspruch 1, mit einem Analysator, dadurch gekennzeichnet, daß der Analysator eine das Eingangssignal aufnehmende und in eine Vielzahl von Rahmen ordnende Eingabeeinrichtung (13, 14), eine der Eingabeeinrichtung nachgeschaltete Laplace-Transformationseinrichtung (15) zur Bestimmung der Frequenz, der Dämpfungsrate, des Phasenwinkels und der Amplitude der Pole jedes der Rahmen in der s-Ebene, eine die jedem Pol zugeordnete Energie bestimmende Recheneinrichtung (56), die mit der Laplace-Transformationseinrichtung verbunden ist, und eine mit der Recheneinrichtung (56) verbundene Wähleinrichtung (61) zur Auswahl der Pole mit dem maximalen Energiegehalt aus jedem Rahmen aufweist, wobei die Charakteristiken der Pole mit der höchsten Energie zur Übertragung oder Aufzeichnung vorgesehen sind.
  6. 6. Anordnung nach Anspruch 5, dadurch gekennzeichnet, daß die Laplace-Transformationseinrichtung eine Einrichtung (45) zur Gewinnung einer Fourier-Transformierten eines Signals aufweist.
  7. 7. Anordnung nach Anspruch 6, dadurch gekennzeichnet, daß der Analysator einen Funktionsgenerator (37)und eine mit dem Funktionsgenerator verbundene Multipliziereinrichtung (35) aufweist, in der jeder Signalrahmen ntit einer vorgegebenen Funktion multiplizierbar ist, wobei die am Ausgang der Multipliziereinrichtung (35) erscheinenden Produktsignale dein Eingang der
    7O9815/Q6ÖÖ
    Fourier-Transformationseinrichtung (45) zuführbar sind.
  8. 8. Anordnung nach Anspruch 6 oder 7, dadurch gekennzeichnet, daß die Laplace-Transformationseinrichtung einen Spitzendetektor (49) aufweist.
  9. 9. Anordnung nach Anspruch 7 oder 8, dadurch gekennzeichnet, daß der Funktionsgenerator (37) eine Sinusfunktion als vorgegebene Funktion erzeugt.
  10. 10. Vocoderanordnung zur übertragung und Synthese eines Ausgangssignals aus der übertragenen Information, durch gekennzeichnet, daß einer ein Eingangssignal in eine Vielzahl von periodischen Rahmen digitaler Signale umsetzenden Eingabeeinrichtung (13, 14) ein die Polpaarcharakteristiken in der s-Ebene für die Polpaare jedes Rahmens des digitalen Signals bestimmendes Rechengerät (15) nachgeschaltet ist, daß mit dem Rechengerät (15) ein Energiedetektor (16) verbunden ist, der so ausgebildet ist, daß er die Polpaare mit dem höchsten Energiegehalt für jeden Rahmen zur Übertragung auswählt, und daß ein Synthesegerät (19, 20, 21) mit dem Energiedetektor (16) derart gekoppelt ist, daß es die Charakteristiken des oder der übertragenen Polpaare jedes Rahmens des digitalen Signals aufnimmt und ein das Eingangssignal darstellendes Ausgangssignal zusammensetzt bzw. reproduziert.
  11. 11. Anordnung nach Anspruch 10, dadurch gekennzeichnet, daß das Synthesegerät (19, 20, 21) wenigstens ein Rekursivfilter (Fig. 4) aufweist.
  12. 12. Anordnung nach Anspruch 10 oder 11, dadurch gekennzeichnet, daß das Synthesegerät eine Glättungseinrichtung (21) zur Glättung des Ausgangssignals aufweist.
  13. 13. Anordnung nach einem der Ansprüche 10 bis 12, dadurch gekennzeichnet, daß die Zahl der im Synthesegerät (19, 20, 21) verwendeten Rekursivfilter gleich der vorgegebenen Anzahl von
    zur Übertragung in jedem Rahmen des digitalen Signals ausgewählten Polpaaren ist.
  14. 14. Anordnung nach Anspruch 10, dadurch gekennzeichnet, daß die Eingabeeinrichtung (13, 14) eine die Amplituden des Eingangssignals normierende Verstärkungs-Normierschaltung aufweist.
  15. 15. Verfahren zum Kodieren eines Analogsignals zum Zwecke der Übertragung oder Aufzeichnung, dadurch gekennzeichnet, daß das Analogsignal zunächst in eine Vielzahl von periodischen Rahmen digitaler Signale umgesetzt, daß die periodischen Rahmen der Digitalsignale durch Laplace-Transformation in eine s-Ebenen-Darstellung transformiert werden, daß die jedem der Pole der s-Ebenen-Darstellung zugeordnete Energie für jeden Rahmen des digitalen Signals bestimmt wird und daß schließlich die Pole mit dem höchsten Energiegehalt für jeden Rahmen des digitalen Signals zur Übertragung oder Aufzeichnung ausgewählt werden.
  16. 16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, daß die Transformation der Rahmen des digitalen Signals durch Berechnungen unter Verwendung endlicher Differenzierung durchgeführt wird.
  17. 17. Verfahren nach Anspruch 15 oder 16, dadurch gekennzeichnet, daß eine vorgegebene Anzahl von Polen bzw. Polpaaren für jeden Rahmen des digitalen Signals übertragen oder aufgezeichnet wird.
    7Q981S/
    COPY
DE2622423A 1975-05-23 1976-05-20 Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form Expired DE2622423C3 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US05/580,479 US4045616A (en) 1975-05-23 1975-05-23 Vocoder system

Publications (3)

Publication Number Publication Date
DE2622423A1 true DE2622423A1 (de) 1977-04-14
DE2622423B2 DE2622423B2 (de) 1979-06-07
DE2622423C3 DE2622423C3 (de) 1980-02-07

Family

ID=24321275

Family Applications (1)

Application Number Title Priority Date Filing Date
DE2622423A Expired DE2622423C3 (de) 1975-05-23 1976-05-20 Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form

Country Status (4)

Country Link
US (1) US4045616A (de)
JP (1) JPS51144104A (de)
DE (1) DE2622423C3 (de)
GB (2) GB1528345A (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3012771A1 (de) * 1979-04-04 1980-10-16 Philips Nv Verfahren fuer ein sprachanalysensystem
DE4342975A1 (de) * 1993-12-16 1995-06-22 Adolf Wuerth Gmbh & Co Kg Verfahren und Vorrichtung zur Übertragung von Diktaten

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1172366A (en) 1978-04-04 1984-08-07 Harold W. Gosling Methods and apparatus for encoding and constructing signals
US4270025A (en) * 1979-04-09 1981-05-26 The United States Of America As Represented By The Secretary Of The Navy Sampled speech compression system
US4536886A (en) * 1982-05-03 1985-08-20 Texas Instruments Incorporated LPC pole encoding using reduced spectral shaping polynomial
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
US4868869A (en) * 1988-01-07 1989-09-19 Clarity Digital signal processor for providing timbral change in arbitrary audio signals
DE58908326D1 (de) * 1988-05-26 1994-10-13 Telefunken Fernseh & Rundfunk Verfahren zur übertragung eines audiosignals.
US5257262A (en) * 1990-02-22 1993-10-26 Nec Corporation DCME unit capable of processing a wide variety of input information signals
FI110220B (fi) * 1993-07-13 2002-12-13 Nokia Corp Puhesignaalin kompressio ja rekonstruktio
EP0883244A4 (de) * 1996-12-04 2005-01-12 Ebara Corp Filterschaltung
US7397867B2 (en) * 2000-12-14 2008-07-08 Pulse-Link, Inc. Mapping radio-frequency spectrum in a communication system
US7075978B2 (en) * 2001-08-06 2006-07-11 Broadcom Corporation Multi-tone transmission
US7133443B2 (en) * 2001-08-06 2006-11-07 Broadcom Corporation Multi-tone transmission
GB201617409D0 (en) 2016-10-13 2016-11-30 Asio Ltd A method and system for acoustic communication of data
GB201617408D0 (en) 2016-10-13 2016-11-30 Asio Ltd A method and system for acoustic communication of data
GB201704636D0 (en) 2017-03-23 2017-05-10 Asio Ltd A method and system for authenticating a device
GB2565751B (en) 2017-06-15 2022-05-04 Sonos Experience Ltd A method and system for triggering events
GB2570634A (en) 2017-12-20 2019-08-07 Asio Ltd A method and system for improved acoustic transmission of data
US11988784B2 (en) 2020-08-31 2024-05-21 Sonos, Inc. Detecting an audio signal with a microphone to determine presence of a playback device

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3360610A (en) * 1964-05-07 1967-12-26 Bell Telephone Labor Inc Bandwidth compression utilizing magnitude and phase coded signals representative of the input signal
US3484556A (en) * 1966-11-01 1969-12-16 Bell Telephone Labor Inc Bandwidth compression eliminating frequency transposition and overcoming phase ambiguity
US3581078A (en) * 1967-11-24 1971-05-25 Bell Telephone Labor Inc Fast fourier analyzer
US3638004A (en) * 1968-10-28 1972-01-25 Time Data Corp Fourier transform computer
US3624302A (en) * 1969-10-29 1971-11-30 Bell Telephone Labor Inc Speech analysis and synthesis by the use of the linear prediction of a speech wave
US3702393A (en) * 1970-10-21 1972-11-07 Bell Telephone Labor Inc Cascade digital fast fourier analyzer
US3925648A (en) * 1974-07-11 1975-12-09 Us Navy Apparatus for the generation of a high capacity chirp-Z transform

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3012771A1 (de) * 1979-04-04 1980-10-16 Philips Nv Verfahren fuer ein sprachanalysensystem
DE4342975A1 (de) * 1993-12-16 1995-06-22 Adolf Wuerth Gmbh & Co Kg Verfahren und Vorrichtung zur Übertragung von Diktaten

Also Published As

Publication number Publication date
JPS5536160B2 (de) 1980-09-18
GB1528344A (en) 1978-10-11
DE2622423B2 (de) 1979-06-07
JPS51144104A (en) 1976-12-10
US4045616A (en) 1977-08-30
GB1528345A (en) 1978-10-11
DE2622423C3 (de) 1980-02-07

Similar Documents

Publication Publication Date Title
DE2622423A1 (de) Vocodersystem
DE69529356T2 (de) Wellenforminterpolation mittels Zerlegung in Rauschen und periodische Signalanteile
DE69230308T2 (de) Transformationsverarbeitungsgerät und -verfahren und Medium zum Speichern komprimierter Digitaldaten
DE2659096C2 (de)
DE2626793C3 (de) Elektrische Schaltungsanordnung zum Bestimmen des stimmhaften oder stimmlosen Zustandes eines Sprachsignals
DE69009545T2 (de) Verfahren zur Sprachanalyse und -synthese.
DE69901606T2 (de) Breitbandsprachsynthese von schmalbandigen sprachsignalen
DE3117920C2 (de) Verfahren und Vorrichtung zur angenäherten Darstellung eines Analogsignals mit reduzierter Datenmenge
DE69731588T2 (de) Coderienrichtung mit verringerter komplexität für ein signalübertragungssystem
DE69700087T2 (de) Gerät und Verfahren zur Signalanalyse
DE69425808T2 (de) Vorrichtung zur Kompression und Expansion der Bandbreite eines Sprachsignals, Verfahren zur Übertragung eines komprimierten Sprachsignals sowie Verfahren zu dessen Wiedergabe
DE2229149A1 (de) Verfahren zur Übertragung von Sprache
WO1983000231A1 (en) Method for testing analog/digital converters and/or digital/analog converters or sections of information transmission circuits, comprising such converters or connected in series therewith, for communication apparatus, particularly for testing coders-decoders for pcm apparatus, as well as device for implemeting such method
DE4417406C2 (de) Hochauflösender Frequenzanalysator und Vektorspektrumanalysator
DE3012771C2 (de)
DE69017842T2 (de) Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate.
DE102019119776B4 (de) Zeitverschachtelte digital-analog-wandler-korrektur
DE2636032C3 (de) Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal
DE3019823C2 (de)
DE69324732T2 (de) Selektive Anwendung von Sprachkodierungstechniken
DE69732746T2 (de) Signalübertragungssystem mit verringerter komplexität
DE4033350B4 (de) Verfahren und Vorrichtung für die Sprachverarbeitung
DE60016305T2 (de) Verfahren zum Betrieb eines Sprachkodierers
DE60018246T2 (de) System zur übertragung eines audiosignals
DE69824613T2 (de) Ein system und verfahren zur prosodyanpassung

Legal Events

Date Code Title Description
C3 Grant after two publication steps (3rd publication)
8339 Ceased/non-payment of the annual fee