DE1572453A1

DE1572453A1 - Schaltungsanordnung zur Analyse und Synthese von Sprachsignalen

Info

Publication number: DE1572453A1
Application number: DE19671572453
Authority: DE
Inventors: Dipl-Ing Erwin Paulus; Rothauser Dr-Ing Ernst Wien
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1967-12-16
Filing date: 1967-12-16
Publication date: 1970-07-16

Description

Schaltungsanordnung zur Analyse und Synthese von Sprachsignalen Die Erfindung betrifft eine Schaltungsanordnung zur Analyse und Synthese von Sprachsignalen mittels orthogonaler Basisfunktionen. Stimmhafte Abschnitte eines Sprachsignales lassen sich ganz allgemein als eine quasi-periodische Folge von Impulsantworten des -Artikulationstraktes betrachten. Diese Impulsantworten des Artikulationstraktes bestehen aus gedämpften Sinusschwingungen, deren Amplituden exponentiell abnehmen. Nur drei bis vier dieser Schwingungen besitzen eine nicht vernachlässigbare Größe.
Die Analyse und Synthese von Sprachsignalen mit Hilfe von Filtern, deren Zeitfunktion der Zeitfunktion bestimmter orthogonaler Basisfunktionen entspricht, ist insbesondere durch einen Aufsatz von L. Dolansky, "Choise of Base Signals in Speech Signal Analy-.

Ses", IRE Transactiona an Audi4, Vol. 10 (1960), Noo 6p Seiten 221-229 bekannt geworden®

Es sind allerdings nur wenige Gruppen orthogonaler Basi.sfunktio-

gi (t) 0 i - 1, 2,7 -* am?

nen bekannt, (wobei jede Basisfunktion das Verhalten einer ge- dämpften Schwingung zeigt), welche die Entwicklung der Impuls- antwort des Artikulationstraktes in eine schnell konvergierende unendliche Reihe gestatten. Durch die Betrachtung einer endlichen oberen Grenze n anstelle von unendlichen vielen guten Näherungen kann die Impulsantwort folgendermaßen errechnet werden: Zur Messung der Koeffizienten ai kann ein Satz von Filtern ver- wendet werden, von welchen jedes eine Impulsantwort entsprechend einer der orthogonalen Basiefunktionen liefert (siehe den er- wähnten Aufsatz, insbesondere S. 225). Die Impulsantwort des Artikulationstraktes, welche analysiert werden soll, muß zuvor auf Rand aufgezeichnet werden, bevor sie-zu den Filtern mit um- gekehrter Zeitfunktion übertragen. werden kann. Das Ausgangssignal des j-gen Filters stellt dann das Faltprodukt der wngekehrten Impulsantwort des Artikulationstraks und der Dasiwfunktion j (t) dar. Die Abtastung des Filterausgangmsignales zur Zeit t = O ergibt den Koeffizienten hj: Zur Analyse stimmhafter Abschnitte wird das Sprachsignal in der umgekehrten zeitlichen Folge zu den Filtern übertragen. Die Aus-. gangssignale der Filter werden dann zu Beginn jeder Impulsantwort des Artikulatianstraktes abgetastet (oder ziemlich am Ende jeder zeitlich umgekehrten Impulsantwort).

Zur Synthese des Sprachsignalsmüssen die abgeleiteten Koeffi-

zienten gespeichert werden. sie dienen dann in ihrer umgekehrter

Reihenfolge zur Stenmrung der egungs®Amplitudenƒ Die Anrengd®

Impulse werden danach zu den Filtern ertragen, deren Ausgangsƒ

signale zu einem Addierverstrker übertragen verdena an dessen

Ausgang dadurch dos synthetische Sprachsignal entsteht.

Das oben erläuterte bekannte Analyse- und Sneserh@ir

auch für die Analyse und Synthese stimmloser; schnitte dGo Sprach®

signales mit ziemlich guten Ergebnissen verwendet. Die ibtast®

frequenz wird hierbei aber konstant gewählt.

Das bekannte Verfahren zur Analyse une Syntacae von SpLpacchsignalen

mittels orthogonaler Basisfunktionen hat jedoch den entacheiden-

den Nachteil, daß es für eine Analyse sofort nach den Einlangen

(Echtzeit-Analyse oder -Kodierung) von Sprechsignalen nicht ver-

wendet werden kann. Dieses liegt daran, daß das Sprachsignal zuerst aufgezeichnet werden muß, damit es dann in der zeitlich umgekehrten Folge zu den Filtern übertragen werden kann.

Der Erfindung liegt deshalb die Aufgabe zugrunde, ein Verfahren und eine Vorrichtung zu schaffen, mit deren Hilfe eine Echtzeit-Analyse und -Synthese von Sprachsignalen-mittels orthogonaler Basisfunktionen möglich ist.
Für eine .Vorrichtung zur Analyse und Synthese von Sprachsignalen mittels orthogonaler Basisfunktionen besteht die erfindungsgemäße Lösung darin, daß zur Echtzeit-Analyse der Sprachsignale -Filter vorgesehen sind, deren Ausgangssignale der zeitlichen Umkehr der Impulsantworten entsprechen, daß die Ausgangssignale der Filter in von den Sprachsignalen abgeleiteten zeitlichen Intervallen abgetastet werden, und daß zur Sprachsynthese Filter vorgesehen sind, auf die die beim Abtastvorgang gewonnenen Signale geleitet werden und daß die Ausgangsgröße dieser Filter -der zeitlich nicht umgekehrten, einem bestimmten Kanal zugeordneten@orthogonalen Basisfunktion entspricht. Gemäß einer vorteilhaften Lösung ist als Filter zur Erzeugung einer Zeitfunktion, die-der umgekehrten Zeitfunktion einer orthogonalen Basisfunktion entspricht, ein transversales Filter Fi - F vorgesehen., n Eine vorteilhafte Weiterbildung der Analyseeinrichtung ist dadurch gekennzeichnet, daß zur Abtastung der analyseseitigen Filterausgangssignale die Abtastintervalle durch individuell phasenregelbare Anregungsimpulse gesteuert werden, die nach Art des Kanalvocoders mit Impulsanregung abgeleitet sind.
Die Sprachanalyse- und Syntheseeinrichtung nach der Erfindung besitzt im wesentlichen den Vorteil, daß die Kodierung und Analyse der Sprache mit Hilfe orthogonaler nasiefunktionen nun auch für die Echtzeit-Analyse zu einer beträchtlichen Reduktion der bei der __Übertragug_äerprabhe fuhrt. Die Übertragungsrate der Nachrichtenimpulse ist selbst niedriger als bei der Sprachübertragung nach dem Vocoderprinzip, wobei sogar die Sprachqualität noch besser ist.
Im folgenden wird die Erfindung an Hand der Figuren beispielsweise näher beschrieben. Es zeigen: Fig: l das Blockschaltbild der Sprachanalyse- und Syntheseeinrichtung und Fig. 2 das Blockschaltbild eines tranaversalen Filters. Der Filtersatz F'1 bis Fn des Analysators in Fig. 1 besteht aus transversalen Filtern, die so entworfen sind, daß sie als Ausgangssignale-die zeitliche Umkehr der Impulsantworten liefern. Diese zeitliche Umkehr ist so aufzufassen, daß sie die zeitliche Umkehr der Impulsantworten jener Filter darstellt, die beider bekannten Anordnung .verwendet werden und welchen die zeitliche Umkehr des zu analysierenden Eingangssprachsignales zugeführt wird. Für den Entwurf der transversalen Filter wird angenommen, daß die im eingangs erwähnten Aufsatz behandelten kontinuierlichen Filter mit dem Unterschied ersetzt, werden sollen, daß die Impulsantwort des diskreten Filters die zeitlich umgekehrte Impulsantwort des ersetzten kontinuierlichen Filters ist.

Um geeignete orthogonale Basisfunktionen zu erhalten,#Icann man (s. den eingangs zitierten Aufsatz, ü. 222) z.S. so vorgehen, daü man die Bedingung für die Orthogonali tä#t G1. (1) im komplexen Frequenzbereich formuliert:

N ° Li' 1?fl'i ...... 1.a24#1

voraus, so erhält man aus dieser Beziehung "Bestimmungsgleichun- gen" für die Laplace-Transformierten der orthogonalen Basisfunk- tionen. Ein günstiger Ausgangspunkt für die Verwendung dieser Bestimmungs- gleichungen ist z.B. die Festsetzung

(9) _ Sk $ "k Fj ßk = k (-a1 Flßk) k = 1,2,3,4,5,6,7

' mit

Unter diesen Voraussetzungen ergeben sich die beiden ersten ortho-

gonalen Basisfunktionen als

91 (t) - 22e-125®7 ,t. sin (2512t +0,811)

(10)

92 (t) - 22o95e®925,7 t $1n (2512.t + 2,38:1)

wobei t.in Sekunden gerechnet wird.

Ausgehend von derartigen o@@t-1 Dasiofunktionen es#liält man

die Impulaantwort do-"* narawnovorsalen Filter durch

CImhalär der Zlt und em .U. Die a11,@G1;@n G2"und-

Basisfunktionen von unendlicher Dauer sind, doch angenommen werden kann, daß sie mit wachsender Zeit vernachlässigbar niedrige Werte besitzen Daher können auch Impulsantworten einer geeigneten endlichen Zeitdauer T verwendet werden. Die Filter hierfür-können dann als Filter mit angezapfter Verzögerungsleitung ausgeführt werden. Im folgenden wird ein Filter mit der nachstehenden Impulsantwort zu Grunde gelegt: Ferner ist die Antwort aufs die nachstehende Gleichung: - Die Abtastung von h (t) zur Zeit t = T ergibt näherungsweise den Koeffizienten a - .Die in Fig1 dargestellte Schaltungsanordnung zur Sprachanalyse und zur -Synthese besitzt einen Sprachsignaleingang SE, auf dem das Ograchaignal erscheint. Von diesem Eingang wird das Sprach- signal einmal einer Schaltungsanordnung PAM zur Pulsamplituden-Modulation zugeleitet und zum anderen einem Anregungskanal AR. Der Anregungskanal AR besteht aus einem nichtlinearen System zur Regenerierung oder Verstärkung einer eventuell.ausgefilterten oder nur schwach vorhandenen Grundschwingung durch Differenztonbildung aus den vorhandenen Oberwellen. Des weiteren besteht diese Schaltung aus einem Randfilter mit einem Durchlaßbereich von ungefähr 70 bis 300 Hz zur Unterdrückung der Oberwellen der Grundschwingung. Die Grundschwingung kommt an den Eingang eines Schmidt-Triggers, der zu den Zeitpunkten der positiven Nulldurchgänge der Grundschwingung kurze Impulse abgibt. Diese Impulse werden dann über ein bekanntes Differenzierglied und über einen Gleichrichter an eine monostabile Kippschaltung abgegeben, die dadurch jeweils dann einen kurzen Impuls erzeugt, wenn die aus dem Randfilter kommende Grundschwingung beim Steigen in die positive Halbwelle einen Nullpunkt durchläuft. Mit dem Ausgang des Anregungskanals ist eine Schaltungsanordnung zur

manuellen Phasensteuerung PHST verbunden. Die Phasensteuerung

beoteht im wesentlichen aus einer einstellbaren Verzögerung

zur Regelung der Phasenlage des Ausgangssignals des Anregungs-

kanz-Us. Die Ausgangssignale der Phasensteuerungs-Schaltung wer-

den dem Eingang einer tast-Steuerschaltung AST zugeführt. Durch

die tastƒSteuerungsschaltung werden die Schalter Slbis Sn -.

gleich2eitig mit jedem Ausgangsimpuls von der Phasensteuerungs-

Schaltg betätigt.

Die Auogmngssignale-der Schaltungsanordnung zur Pulsamplituden-

Mcüulation werden dun, gemeinsamen Eingang FE der Filter F1 bis

?n zur Sprachanalyse zugeleitet. In einem praktischen Ausführungs-

beispiel hönn2n die Schalter S1 bis sn aus Torschaltungen be-

stehen, die direkt durch die Ausgangsimpulse der Schaltungsan-

ordnung sur Abtaststeuerung AST gesteuert werden. In diesem:

Falle hät die Abtaststeuerung dann nur die Aufgabe, während-

stimmloser Abschnitte des Sprachsignals auf eine konstante -Schaltfrequenz umzuschalten. Jede bekannte Einrichtung zur Unterscheidung zwischen stimmhaften und stimmlosen Abschnitten einen Sprachsignals-kann hierzu verwendet werden. - _ Die Anzahl der Filter F1 bis Fn beträgt vorteilhafterweise bei einer praktischen Ausführung 14 Filter.

Während stimmhafter Abschnitte des Sprachsignals entspricht die Abtastfrequenz der Sprachgrundfrequenz. Die n Abtastergebnisse - eines für das Ausgangssignal jedes Filters --, die gleichzeitig entstehen, stellen die ersten n Koeffizienten einer Reihenentwicklung des Sprachsignales dar, welche Gültigkeit für die vorangegangene Periode besitzt. Diese koeffizienten können für die Synthese des Sprachsignales entweder gleich übertragen oder für eine spätere Synthesegespeichert werden.
Die Filter können, wie bereits erwähnt, durch eine Verzögerungsleitung VZ und eine Reihe von Dämpfungsgliedern realisiert werden. Ein gemeinsamer Eingang FE (Fis. 2) gestattet allen Filtern-F1 bis Fn die Benutzung einer einzigen angezapften Verzögerungsleitung VZ. Die Verzögerungsleitung besitzt einen Eingang, i.-2 Anzapfungen und einen Ausgang, wobei alle diese Anschlüsse als Vielfachanschlüsse ausgeführt sind. Die Verzögerungszeit zwischen den einzelnen Anschlüssen der Verzögerungsleitung ist einheitlich mit @at gewählt. Jedes Filter besitzt i Dämpfungsglieder G, die mit einem Eingang an jeweils einem Anschlua der Verzögerungsleitung liegen und deren anderer Anschlug zusammengefaßt den Ausgang des entsprechenden Filters bildet. Wird ein Impuls zu dem Eingang-der Verzögerungsleitung übertragen, dann erzeugen alle i Dämpfungsglieder in ihrem gemeinsamen Ausgang die Impulsantwort des betreffenden Filters, welche in Intervallen von ät abgetastet wird. Das Eingangssignal für alle Filter ist, wie schon erwähnt wurde, eine impulsamplitudenmodulierte Daratellung des"Sprachsignales, wobei die Impulse einen Abstand von dt besitzen: Die Impulsantwort der entsprechenden transversalen Filter P1 bis Fn erhält man aus den zugeordneten orthogonalen Basiafünktionen durch Umkehr der Zeit und Verschiebung um T: (15) r1 (t) = g1 (-t + T) (16) r2 (t) = 92 (-t + T) Eine realistische Annahme für T ist die kürzeste, während notmalet Sprache mit nennenswerter Häufigkeit vorkommende Periodendauet bei einer durchschnittlichen Männerstimme. Das ist ungefähr: (17) 5 ms < T < 8 ms -Für die endgültige Dimensionierung der transversalen Filter- wird noch die Abtastfrequenz bzw. der Abtastschritt At benötigt. Für die Verwendung der ersten 14, aus (7) und (8) mit (9) berechenbaren Basisfunktionen (k W 1, 2, 3, 4, 5, 6, 7) ist eine Abtastfrequenz von 10 kHz bzw. ein Abtastschritt von 0,1 ms ausreichend. Jedes der transversalen Filter besteht dann aus einer Verzögerungsleitung mit beispielsweise 501nschlüssen (T - 5 ms), wobei die Verzögerung zwischen zweilaufeinanderfolgenden Anschlüssen At = 0,1 ms ist. Das Signal an jeder dieser Anzapfungen wird nun durch die Dämpfungsglieder GO bis-Gi abgeschwächt. Die Summe aller abgeschwächten Signale ist das Ausgangssignal des Filters. Die Abschwächung für die i-te Anzapfung beim ersten Filter läßt sich aus (15) und (16) berechnen (siehe Fiq. 2, F1),.

Der Aufbau des Filters gestattet auch, wie Fig. 2 erkennen läßt, bei Verwendung eines geeigneten Zeitmultiplexverfahrens eine gemeinsame Verwendung der Verzögerungsleitung VZ für mehrere Filtersätze.

Die Synthese der Sprachsignale aus den durch die Sprachanalyse

gewonnenen Signalen wird mit eine Satz von n Filtern F ' 1 bis

as ' n (Fig.. 1) durchgeführt. Die d,ü99s.i.@.@CS Ader Filter entspricht

der zeitlich nicht umgelb-e-hLtonei`_ bastiwmten itlial@,ugordna-

ten orthogonalen Basisfunktion: Die Filter werden mit Impulsen . erregt, deren Amplituden mit den bei der Analyse abgeleiteten Koeffizienten übereinstimmen. Die Überlagerung der Filterausgangssignale führt zu einer guten Näherung des originalen Sprach- signales.

Die für die Synthese verwendeten Filter können entweder nach der üblichen Technik oder aber als transversale Filter mit angezapften Verzögerungsleitungen ausgeführt werden: In dem letzteren Fall kann auch wieder -ein solcher Aufbau gewählt werden, daß mehrere Filtersätze auf einer Zeitmultiplescbasis eine gemeinsame Ver-® zögerungaleitung verwenden können: Heider Echtzeitanalyse der Sprache sind die Zeitpunkte der Ab® tastungen, zu denen dass Filterausgangssignal ermittelt wird®

kritisch (siehe G1. 14). Es wird daher vorgeschlagen, die Inter®,

walle zwischen zwei Abtastungen mit Hilfe einer Einrichtung dach-

zuführen, die zur Gewinnung der Anregungsirpulse bei impuloGrrreg-

ten Kanalvocodern Verwendung findet. Die EinsteUung dar genauen

Phasenlage dieser Smpulse, mit deren Hilfe die Abtaststeurung

AST in Fig. 1: die fit: @ ;@"°@-chalter S1 bis sn betätgto kann manuell,

mit Hilfe der Phasensteuezung PHST, deren ingangsimp@lsc Aia

Einrichtung AR liefert, vorgenommen werden. Die manuelle gin-

stellung der Phasenlage erfolgt nb unter otgndigeigs hören

der Qualätät.der künstlich erzeugten S ach.

Im folgenden soll nun ein Beispiel fUr die al5Zoe einer Sprach-

Schwingung gegeben werden. Fig: 3 zeigt den Verlaus- einGrc

lichen Sprachschwingung (Vokal, gesprochen von einer tAegen

Männerstimme) und die aus der Sprachschwingung abgeleitete- Inaƒ

pulafolge G1. die die AbtasteteuerschltunASä An Tigö R .

steuert-.

. Die Fig. 4 zeigt hingegen die

entlang der-

Verzögerungsleitung VZ zum Zeitpunkt t m 1, et _. T sowie das

Ausgangssignal hj (T) s ai-des j-Kennfilters. Dabei ist der Wert h (T) der. Koeffizient a . Die Fig. 5 soll.nochmals zeigen, wie durch Abtastung der Größen hi(t) zum Zeitpunkt t = T der Koeffizient a; bestimmt wird. Dabei stellt wiederum der in der zweiten Linie eingezeich- nete Impulszug GP das Ausgangssignal der Schaltungsanordnung zur Phasensteuerung dar.

Claims

Patentansprüche. 1, Einrichtung zur Analyse :und Synthese von Sprachsignalen mittels orthogonaier Basisfunktionen, dadurch gekennzeichnet, dass zur Echtzeitanalyse der Sprachsignale transversale Filter (F1 bis Fnj Fig, 1) vorgesehen sind, deren Ausgangssignale der zeitlichen Umkehr der Impulsantworten entsprechen, dass die Ausgangssignale der Filter in von den Sprachsignalen abgeleiteten zeitlichen Intervallen abgetastet werden, und dass zur Sprachsynthese Filter (F' 1 bis F' n) vorgesehen sind, auf die die beim Abtastvorgang gewonnenen Signale geleitet werden und dass die Ausgangsgrösse: dieser Filter der zeitlich nicht umgekehrten, einem bestimmten Kanal zugeordneten orthogonalen Basisfunktion entspricht,
2. Einrichtung nach Anspruch 1, dadurch gekennzeichnet, dass -zur Abtastung der analyseseitigen Filterausgangssignale die Abtastintervalle durch von Hand phasenregelbare Anregungsirhpulse gesteuert werden, die nach der Art des Kanalvocoders mit Impulsanregungen abgeleitet sind.