DE1487540C3

DE1487540C3 - Verfahren für Analyse und Synthese von elektrischen Akustiksignalen

Info

Publication number: DE1487540C3
Application number: DE19661487540
Authority: DE
Inventors: Heinz Dipl.-Phys. 7801 Umkirch Kusch
Original assignee: Individual
Current assignee: Individual
Priority date: 1966-12-01
Filing date: 1966-12-01
Publication date: 1981-06-25
Also published as: DE1487540A1; DE1487540B2

Description

Die Erfindung betrifft ein Verfahren für die Analyse (automatische Erkennung), Übertragung und Synthese der in elektrischen Akustiksignalen enthaltenen Information gemäß dem Oberbegriff des Anspruchs 1.

Bei derartiger Signalverarbeitung ist die Ableitung von invarianten Merkmalen erforderlich, die einerseits für alle drei Signalverarbeitungen einheitlich sind, andererseits ohne Redundanz sind. Die Eindeutigkeit muß bei allen drei Verarbeitungsarten sichergestellt sein.

Es ist bekannt, unterschiedliche Verfahren und Merkmale für die drei Verarbeitungsarten zu verwenden. Überwiegend wird mit der Frequenzanalyse im Sinne der Bildung und Auswertung von Frequenzen, insbesondere Momentan-Ausziige aus dem veränderlichen Frequenzspektrum der Sprachschwingungen, gearbeitet. Auch sind Vorschläge bekanntgeworden, die Signale ganz oder überwiegend aus extrahierten ■"> Form-Merkmalen der Sprachschwingungen zu gewinnen.

Demgegenüber besteht die zu lösende Aufgabe darin, unabhängig von den Frequenzanteilen im Signal und unabhängig vom Sprecher einen Typen-Code zu finden.

ι» Gemäß der Erfindung wird die gestellte Aufgabe dadurch gelöst wie in Anspruch 1 angegeben. Hierdurch wird eine Analyse, Übertragung und Nachbildung der in einer Sprachschwingung enthaltenen Information in codierter Form in verhältnismäßig einfacher, leicht durchführbarer Weise und weitgehend verlustfreier Rückgewinnbarkeit der Information ermöglicht.

Vorteilhafte Weiterbildungen der Erfindung ergeben sich aus den Unteransprüchen.

Mit diesen einheitlichen Merkmalen der Kernsegmente hat man schon alle notwendigen Unterscheidungsmerkmale für die Erkennung, Übertragung und Synthese des Signals.

Weder der Stand der Technik gemäß der deutschen Auslegeschrift 11 97 638, der französischen Patentschrift 14 45 760, der deutschen Auslegeschrift 12 02517, der NTZ, 1965, H 2, S. 57-62, noch ältere Patentanmeldungen geben die Lehre, durch Lokalisierung Segmente maximaler Amplituden ausgewählte Abschnitte, die als Kernsegmente einheitliche Merkma-Ie für die Erkennung, Übertragung und Synthese liefern, zu bilden, da es nicht erkannt wurde, mit diesen speziellen Merkmalen der Typen-Code, den Kern aus den fortlaufenden Divisionen der Differenzwerte zwischen dem Maxima und dem Minima Verlauf zu bestimmen, zu kennzeichnen und die im Signal enthaltene information z. B. der Laute mit diesen speziellen Merkmalen aus den Kernsegmenten zu identifizieren. NTZ, H. 2, 1965 beinhaltet zwar die Feststellung der Hüllkurven-Maxima, doch fehlt die

■Ό Aussage, daß darunter ein ganzes Segment, das Kernsegment, fällt und verwendet werden soll. Auch die dort angegebene Mittelwertbildung zwischen aufeinanderfolgenden Extremwerten (Maximum/Minimum) entspricht der anwendungsgemäßen Lehre nicht, da dies keine Differenzen- und Verhältnisbildung darstellt.

Es ist auch vorgeschlagen worden, eine Differenzenbildung zwischen den Endpunkten einer Tonperiode und dem Anfang der nächsten vorzunehmen, entsprechend FR-PS 14 45 760 und DE-AS 14 72 004. Diese findet aber nicht bei jedem aufeinanderfolgenden Schwingungs-Maximum und Minimum statt, sondern nur an den Tonperiodenendpunkten und dient auch einem anderen Zweck, nämlich der Erzeugung eines Sägezahnes zum Zwecke des Ausgleichs der darauf folgenden Periode. Ferner handelt es sich dort lediglich um einen Vergleich nur von Maximum zu Maximum zum Speichern des größten Maximums. Beide haben aber weder mit dem Verhältnis der Hubgrößen, die erfindungsgemäß aus den Differenzen gemessen werfet den, noch mit der Codierung der Hubgrößen-Verhältnisse oder der Kernsegmente eine Verbindung. Um das vorliegende Verfahren technisch ausführen zu können, gibt es verschiedene Möglichkeiten.

Ein Ausführungsbeispiel soll dies näher erläutern, siehe auch F i g. 1 bis 8. Zur Unterscheidung der in einem gesprochenen Laut bzw. Wort enthaltenen Information genügt es schon, nur eine Periode gleichartiger Perioden, Segmente durch Lokalisierung des größten

Maxima bzw. Minima bzw. größte Gesamtaiislenkung maximaler Amplituden, deren Umhüllenden festzustellen, um ausgewä+ilte Abschnitte zu bilden (Fig. 5), die als Kernsegmente einheitliche Merkmale bereitstellen. Als weiteres Kriterium braucht nur noch deren Maxima- > und Minima-Verlauf, in dem die gegenseitigen Größenverhältnisse der Hübe, d. h. die Differenzwerte zwischen den Maxima und Minima (Fig.3a) nach fortlaufender Division zu typischen Reihen zusammengefaßt, als Typen-Code den Kern kennzeichnen. Mit Hilfe dieser i< > Kriterien kann man z. B. die gesprochenen Laute, Worte eindeutig erkennen, unterscheiden, übertragen und synthetisch herstellen. In Fig.4 ist ein ßlockschema für eine mögliche Ausführung eines einfachen Gerätes zur Verwirklichung des genannten Verfahrens dargestellt. Die Schallschwingungen der gesprochenen Laute werden, wie das Blockschaltbild Fig.4 zeigt, in ein Mikrophon W eingesprochen, über einen Verstärker V zu einem Scheitel-Detektor SE entsprechend Fig. 1 geleitet. Die Ausgangs-Impulse siM und sim des Detektors steuern über jetzt zusammenfassend mit G bezeichnete Torschaltungen die Speicherung der Scheitelamplituden in dem Scheitelwertspeicher SS, wie er anhand von Fi g. 2, 2a beschrieben ist. Mit SD ist der Scheitelamplituden-Differenzbildner nach Fig. 3 bezeichnet. Dieser gibt in der bereits erläuterten Weise von Fig. 3a die schraffierten, nach Maßgabe der Scheitelwertdifferenzen modulierten, Impulse HA an. Diese Impulse gelangen auf eine Umsetzungsschaltung AM/DM, die in bekannter Art die amplitudenmodulier- jo ten Impulse in dauermodulierte Impulse umsetzt. Dies kann z. B. wie bekannt durch einen Sägezahn SG und Begrenzer BG erfolgen und so einen Impulsgenerator IG über ein Tor Gl steuern, so daß die Dauer der Impulse der Anzahl von IG entspricht, der auf einen Impulszähler /Zl Klemme 5 und 6 als Code zur Verfügung steht, dem Anspruch 2 entsprechend. In dem Blockschaltbild der Fig.4 sind außer der Klemme 6 noch Klemmenl —5 vorgesehen, die mit verschiedenen Zwischenpunkten der bisher angegebenen Schaltung verbunden sind. Entsprechend den Darstellungen der Fig. 5 wird die Typisierung nach Typen Tj,e nach den gegenseitigen Größenverhältnissen der Hübe zwischen den Scheiteln vorgenommen, wobei der Verlauf nach F i g. 3a für die Typisierung an Klemme 3 herangezogen wird. Die Anzahl der Hübe in einem Segment wird an Klemme 8 angegeben.

Die Lokalisierung von Segmenten maximaler Amplitude erfolgt zunächst durch den Block SEi; er ist im wesentlichen aufgebaut wie die Schaltung SE, also entsprechend Fig. 1, und zeigt durch den Impuls hsM das Hüllkurven-Maximum und durch hsm das Hüllkurven-Minimum an.

Die weitere Stufe SE2, gesteuert durch das Tor G 9 von SEi, arbeitet wiederum wie Fig. 1, so daß ausgewählte Abschnitte gebildet werden, die als Kernsegmente einheitliche Merkmale darstellen. Die wiederholte Anwendung dieser Schaltung liefert übergeordnete Hüllkurven. Für die Erkennung werden so an diesen Stellen AsM die Typen-Code von Klemme 3 bzw. 1 bis 6 abgenommen.

Für die Übertragung werden die zwischen diesen Kernsegmenten liegenden, unwesentlichen Segmente, Abschnitte durch ein Tor unterdrückt und nur der Kernsegment-Code als Signalkomprimierung übertragen. Für die Synthese werden die gleichen Kernsegmente-Merkmale durch Wiederholung bis zum jeweils nächsten Kernsegment wieder aufgefüllt und entsprechend F ig. 8 aus dem Hubgrößenverlauf wie H Fig. 3a (»Zinnenkurve«) wieder dem zugehörigen Scheitelamplitudenverlauf wie Z in F i g. 2a zurückgewonnen :bzw. hergestellt. Über einen Tiefpaß TP werden die Impulse zu Schwingungen verschliffen, wie sie in Fig.8b gestrichelt eingezeichnet ist, und über den Verstärker VL auf einen Lautsprecher L hörbar gemacht.

Wie bereits erwähnt gibt es verschiedene Möglichkeiten, das vorliegende Verfahren technisch auszuführen. Fig.6 zeigt ein Blockschaltbild, das die Codierung der Anzahl N der Scheitel und der Typen T für die g- und r-Schwingung Fig.5a ermöglicht und eine Sprachcodier- und Erkennungsschaltung darstellt. Das Eingangssignal gelangt über den Wandler Wund Verstärker V auf einen Scheitelwert-Extrahierer SA gemäß 2a und Kernsegmentierung. Danach werden in einem g-r-Separator Sg/rd\e Scheitelwerte des g- und des r-Anteils des Signals separiert. In einer nachfolgenden Stufe werden nebeneinander die größten N(g), T(g), N(r) und T(r) bereitgestellt. Diese Größen werden einer Kodiermatrix Mxzugeführt, an deren Ausgängen ein Lautanzeigespeicher L Sp angeschlossen ist. Von diesem aus können Lautindikatoren (Taste, Lampen od. dgl.) betätigt werden.

Eine relativ einfache Schaltung, eine Sprach- oder Signalinformation von vornherein synthetisch zu bilden entsprechend dem Scheitelverlauf F i g. 2a, ist mit F i g. 7 gegeben. Hier ist ein Ringzähler RZ vorgesehen, in dem durch die Impulse eines Schiebetaktgenerators RG ein L-Zustand von Stufe zu Stufe (in F i g. 7 nach oben) weiter- und von der letzten Stufe wieder in die erste Stufe geschoben wird. Wenn das »L« in die erste Stufe gelangt, gibt diese Stufe über eine Leitung si einen Impuls auf ein bistabiles Flip-Flop FFl, das hierdurch umgeschaltet wird und über einen Ausgang a I ein Tor G12 durchlässig macht, über welches ein Kondensator C sich linear aufzuladen beginnt. In den Spalten der Matrix werden von links nach rechts Spannungswerte eingestellt, die z. B. den Scheitelspannungswerten des Verlaufs Z in F i g. 2a entsprechen. Am Ausgang AS entsteht eine Folge von amplitudenverschiedenen Impulsen, etwa wie MA und mA in Fig.2a oder H Fig.3a. Diese Segmente werden über GZgestrichelte Linie beliebig oft automatisch wiederholt, zweckmäßigerweise bis ein neues anderes Kernsegment eingestellt ist. Über einen Lautsprecher nach AS können so ganze Folgen von Kernsegmenten d. h. Laute und Worte hörbar gemacht werden.

Hierzu 6 Blatt Zeichnungen

Claims

1 -4- ö / Patentansprüche:

1. Verfahren für die Analyse, automatische Erkennung, Übertragung und Synthese der in elektrischen Akustiksignalen, insbesondere Sprachsignalen enthaltenen Information in der Form von extrahierten Teilmerkmalen, Segmenten des Signals, das bereits als extrahierte Maxima- und Minima-Folge vorliegen kann, gekennzeichnet durch folgende Merkmale:

a) daß durch Lokalisierung von Segmenten maximaler und minimaler Amplituden ein ausgewählter Abschnitt gebildet wird, der als Kernsegment einheitliche Merkmale für die Erkennung durch Bestimmung dessen Maxima- und Minima-Verlaufs liefert, in dem die Differenzwerte zwischen den Maxima und Minima nach fortlaufender Division zu typischen Reihen zusammengefaßt und als Kernsegment-Code (Typen-Code) den Kern kennzeichnen;

b) Übertragung durch Weglassen aller Segmente, die zwischen zwei Kernsegmenten liegen, als Signal-Komprimierung wird nur der Kernsegmente-Code übertragen;

c) Synthese durch Wiederholungen des jeweils letzten Kernsegmentes bis zum nächsten Kernsegment die Lücken zwischen den Kernsegmenten wieder aufgefüllt werden, wobei die Wiederholungen der Größe der Kernsegmente als Hüllkurve folgen.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß statt aller Amplituden-Maxima und Minima-Werte die Zeitwerte zwischen diesen verwendet werden und mit diesen entsprechend den Amplitudenwerten verfahren wird.

3. Verfahren nach Anspruch 1 und 2, dadurch gekennzeichnet, daß Kernsegmente vom Maximum bzw. Minimum der Hüllkurven verschiedener Ordnung den Typen-Code kennzeichnen.

4. Verfahren nach Anspruch 1 bis 3, dadurch gekennzeichnet, daß die Scheitel-Anzahl und -Typen innerhalb der Kernsegmente codiert werden.

5. Verfahren nach Anspruch 1 bis 4, dadurch gekennzeichnet, daß die Kernsegmente zur weiteren Verarbeitung lokalisiert werden.

6. Verfahren nach Anspruch 1 bis 5, dadurch gekennzeichnet, daß die Frequenzanteile der Kernsegmente weiterverarbeitet werden.