AT247018B

AT247018B - Anordnung zur Gewinnung einer digitalisierten Darstellung natürlicher Sprache

Info

Publication number: AT247018B
Application number: AT739364A
Authority: AT
Original assignee: Ibm
Priority date: 1964-04-06
Filing date: 1964-08-26
Publication date: 1966-05-25

Description

Anordnung zur Gewinnung einer digitalisierten Darstellung natürlicher Sprache
Die Erfindung betrifft eine Anordnung zur Gewinnung einer digitalisierten Darstellung natürlicher
Sprache durch Sprachanalyse nach dem Prinzip des impulserregten Kanalvocoders.

Das Kanalvocoderprinzip als solches ist in mehreren grundsätzlichen Varianten bekannt, zu denen auch das Prinzip der Impulsanregung zu zählen ist.

Bei dem impulserregten Kanalvocoder wird das Sprachsignal in eine Reihe von Spektrumkanälen, zur Darstellung der Spektrumfunktion, und in einem Anregungskanal, zur Darstellung der Anregungs- funktion. zerlegt.

Im Anregungskanal werden die Anregungssignale, die für die spätere Synthese des Sprachsignals von besonderer Bedeutung sind, aus der Sprachgrundwelle abgeleitet. Diese Ableitung der rechteckförmigen Anregungsimpulse erfolgt immer bei Punkten gleicher Phasenlage der Sprachgrundwelle, z. B. bei deren positiven oder negativen Nulldurchgängen. Der Abstand zwischen zwei Anregungsimpulsen entspricht dann der Periode der im Augenblick analysierten Sprachgrundwelle.

Im allgemeinen lässt sich dieses Prinzip zur Gewinnung der Anregungsimpulse nur für stimmhafte Sprachabschnitte exakt durchführen, da nur bei diesen Sprachlauten die Energie der Sprachanregung ausreicht, um die Nulldurchgänge feststellen zu können.

Man hat deshalb besondere Massnahmen getroffen, um auch bei stimmlosen Sprachabschnitten durch die Bildung einer scheinbaren Grundwelle, Anregungsimpulse bilden zj können. Diese besonderen Massnahmen erstrecken sich meist auf eine besondere Dimensionierung des Eirgangsfilters desAnregungskanales.

Einrichtungen zur Gewinnung einer digitalisierten Darstellung der Sprache gewinnen in der heutigen Technik der Datenverarbeitungsanlagen immer mehr an Bedeutung, da sie für die Datenausgabe in gesprochener Form besonders geeignet sind.

Ein weiterer Vorteil besteht darin, dass die in Sprachform vorliegenden Ausgabedaten leicht über ein weitverzweigtes Telephonnetz an ferne Orte übertragen werden können.

Es ist die Aufgabe der Erfindung, eine Anordnung zur Gewinnung einer digitalisierten Darstellung natürlicher Sprache durch Sprachanalyse nach dem Prinzip des impulserregten Kanalvocoders anzugeben, bei dem aus der Sprachgrundwelle eine Anregungsfunktion durch Feststellung der Nulldurchgänge der Sprachgrundwelle zur Markierung der Zeitpunkte der Anregungsimpulse und aus dem zeitlichen Verlauf der momentanen Energie in Teilfrequenzkanälen des Sprachsignals mittels Bandfilter, Gleichrichter und Tiefpass in jedem Kanal Spektrumsignale abgeleitet werden.

Die Erfindung besteht darin, dass jeder Anregungsimpuls einen in einer angeschlossenen Datenverarbeirungsanlage ablaufenden Zählvorgang zur Ermittlung der Periode der Sprachgrundwelle beendet, das Abspeichern des Zählerstandes zur Angabe des relativen Zeitintervalls veranlasst, den Zähler zurücksetzt und den Zählvorgang neu beginnen lässt, dass ferner in den Intervallen zwischen je zwei aufeinanderfolgenden Anregungsimpulsen ein Wählschalter die Ausgänge der Spektrumkanäle nacheinander abtastet, jeder ab-

getastete Wert von einer analogen in eine digitale Darstellung umgewandelt wird und die so erhaltenen digitalen Daten über die Kanalenergiewerte an die Datenverarbeitungsanlage abgegeben werden,

welche diese Daten anschliessend an die vorhergegangene Speicherung des Zählerstandswertes einspeichert.

Ferner ist es vorteilhaft, das Signal, welches den Nulldurchgang der Sprachgrundwelle kennzeichnet, nach seiner Ableitung in seiner Laufzeit derartig zu verzögern. dass die gespeicherten Kanalwerte über die momentane Kanalenergie und die gespeicherten Zählerstände unter Zugrundelegung des ursprünglichen Sprachsignals keine relative Zeitverschiebung erleidet.

Eine günstige Anodnung zur Verzögerung der Laufzeit der Nulldurchgangssignale der Sprachgrundwel- le besteht aus einer Kette an sich bekannter monostabiler Schaltkreise, deren Gesamtverzögerung sich aus dersumme der Einzelverzögerung des einzelnen monostabilen Schaltkreises ergibt, dessen Kippzeit gleich der minimalen Zeit zwischen zwei aufeinanderfolgenden Durchgängen gewählt wird.

Im folgenden wird die Erfindung an Hand eines durch die Zeichnungen erläuterten Ausführungsbeispiels näher beschrieben. Es zeigen :
Fig. 1 ein Blockschaltbild zur Erläuterung der Einrichtung zur Gewinnung einer digitalisierten Darstel- lung natürlicher Sprache, Fig. 2 ein Blockschaltbild einer Verzögerungsanordnung und Fig. 3 ein Zeitdia- gramm zur Veranschaulichung der Abtastvorgänge des Schalters.

Wie Fig. l zeigt, wird das beispielsweise von einem Mikrophon M gelieferte Sprachsignal SpS nach dem bekannten Vocoderprinzip mittels Bandpässen BP, Gleichrichtern G und Tiefpässen TP
EMI2.1
der Spektrum-quenzbänder zerlegten Sprachsignals SpS entsprechen. Diese Signale werden getrennt je Kanal einem Drehschalter S mit n Drehschritten, beispielsweise nach Art eines Drehwählers, zugeführt, welcher die Signale der Spektrumkanäle nach Erhalt eines Anregungsimpulses in einer bestimmten Zeiteinheit, die kleiner als das zeitlicheintervall zweier Punkte gleicher Phasenlage (z. B. Nulldurchgänge einer Richtung) der Sprachgrundwelle ist, einmal abtastet.
EMI2.2
Weise dadurch gewonnen, dass die Nulldurchgänge des Sprachsignals festgestellt werden und daraus ein Rechteckimpuls abgeleitet wird.

Bezeichnet man die Frequenz der Grundwelle mit fA, so hat der zeitliche Abstand der Rechteckimpulse, die der Diskriminator ND liefert, die Grösse 1/fA. Die Drehgeschwindigkeit des Schalters S, die die Abtastung des Energieinhaltes der einzelnen Kanäle be- stimmt, wird nun, wie in Fig. 3 dargestellt ist, so gewählt, dass alle n-Kanäle in der Zeit l/t A einmal abgetastet werden. Der Abtastvorgang beginnt jeweils beim Auftreten eines Anregungsimpulses. Die jeweiligeAusgangsg : 5sse bei der Abtastung eines Kanals wird über die Leitung 1 einem Analog-Digital-Wandler DAW zugeführt, welcher das analogsignal in eine in einem k-stelligen Code dargestellte digitale Grösse umwandelt.

Diese Grösse wird dann im Anschluss an die Abspeicherung derGrundwelleninformation, die über die Leitung b einer elektronischen Datenverarbeitungsanlage EDV zugeführt wird, ebenfalls in dieser Anlage gespeichert.
EMI2.3
frequenz dieses Tiefpassfilters TP2 sind zwei Grenzwerte gegeben. Die untere Grenze dieses Wertes hängt davon ab, wie empfindlich der nachfolgende Diskriminator ND gemacht werden kann, um auch bei stimmlosen Sprachabschnitten die Anregungsimpulse zu erzeugen. Der obere Grenzwert wird durch die maximale Geschwindigkeit der Abtastung für die Spektrumfunktion bestimmt. Im allgemeinen wird dieser Wert nicht unter 600 Hz aber auch nicht wesentlich über 700 Hz gewählt.

Die Begrenzung der Sprachgrundwelle hat zur Folge, dass die in dem nachgeschalteten Nulldurch- gangs-Diskriminator ND festgestellten Nulldurchgänge einen, abhängig von der gewählten Grenzfre- quenz dieses Tiefpasses, definierten minimaler. Zeitabstand besitzen. Das Ausgangssignal des Diskriminators ND wird dann über die Leitung a einer Verzögerungseinrichtung zugeführt, die dieses Signal in seiner Laufzeit derartig verzögert, dass die gespeicherten Kanalwerte und Zählerstände unter Zugrundelegung des ursprünglichen Sprachsignals keine relative Zeitverschiebung erleiden.

DieZeitverschiebungen entstehen dadurch, dass die Signale in den Spektrumkanälen stärker (15 msec) als im Anregungskanal (3 msec) verzögert werden. Da das menschliche Ohr im allgemeinen schon Abweichungen ab : 5 msec als störend empfindet, müssen die Signale im Anregungskanal entsprechend verzögert werden. Auch der Abtastvorgang zur Abtastung des Sprachspektrums wird jeweils durch die verzögerten An- regungsimpulse ausgelöst.

Die Fig. 2 zeigt das Blockschaltbild dieser Verzögerungseinrichtung VZ. Diese besteht aus einer
Kette von bistabilen Schaltkreisen, beispielsweise bistabilen Multivibratoren MV 1 - MV n'welche eine Kippzeit besitzen, die gleich ist der mininalen Zeit TV F. = 1/f'A zwischen zwei aufeinanderfol- gendenNulldurchgängen, f'A ist in diesem Falle die Bezeichnung für die obere Grundfrequenz der Sprach- grundwelle. Auf diese Weise soll verhindert werden, dass Anregungsimpulse auftreten können, die von einer monostabilen Stufe dadurch unterdrückt werden, dass sie diese noch während ihrer instabilen Phase erreichen. Die Gesamtverzögerungszeit TV (j derVerzögerungskette VZ ergibt sich dann als Summe der Einzelverzögerungszeiten TVE der einzelnen bistabilen Schaltkreise.

PATENTANSPRÜCHE :
1. Anordnung zur Gewinnung einer digitalisierten Darstellung natürlicher Sprache durch Sprachana- lyse nach dem Prinzip des impulserregten Kanalvocoders, bei dem aus der Sprachgrundwelle eine Anre- gungsfunktion durch Feststellung der Nulldurchgänge der Sprachgrundwelle zur Markierung der Zeitpunkte der Anregungsimpulse und aus dem zeitlichen Verlauf der momentanen Energie in Teilfrequenzkanälen
EMI3.1
einenineinerangeschlossenenDatenverarbeitungsanlage (EDV) ablaufenden Zählvorgang zur Ermittlung der Periode der Sprachgrundwelle beendet, das Abspeichern des Zählerstandes zur Angabe des relativen Zeitintervalls veranlasst, den Zähler zurücksetzt und den Zählvorgang neu beginnen lässt, dass ferner in den Intervallen zwischen je zwei aufeinanderfolgenden Anregungsimpulsen ein Wählschalter (S)

die Ausgänge der Spektrumkanäle (1-n) nacheinander abtastet, jeder abgetastete Wert von einer analogen in eine digitale Darstellung umgewandelt wird und die so erhaltenen digitalen Daten über die Kanalenergiewerte an die Datenverarbeitungsan- lage abgegeben werden, welche diese Daten anschliessend an die vorhergegangene Speicherung des Zählerstandswertes einspeichert (Fig. 1).

Claims

2. Anordnung nach Anspruch l, dadurch gekennzeichnet, dass im AnregungskanalMittel (TP2) vorgesehen sind, welche die obereGrenzfrequenz der Sprachgrundwelle vor der Ermittlung der Nulldurchgänge begrenzt, so dass zwei aufeinanderfolgende Anregungsimpulse einen definierten minimalen Zeitabstand aufweisen.

3. Anordnung nach Anspruch 1 oder 2. dadurch gekennzeichnet, dass im Anregungskanal eine Verzögerungseinrichtung (VZ) vorgesehen ist. welche die Anregungsimpulse nach ihrer Ableitungin ihrer Laufzeit derart verzögert, dass die gespeicherten Spektrumsignale und Zählerstände unter Zugrundelegung des ursprünglichen Sprachsignals keine relative Zeitverschiebung gegeneinander aufweisen.

4. Anordnung zur Verzögerung der Laufzeit der Anregungsimpulse nach Anspruch 3, gekennzeichnet durch eine Kette an sich bekannter monostabiler Schaltkreise, z. B. Multivibratoren (MVl - MVn), die jeder für sich eine Kippzeit aufweisen, die gleich der minimalen Zeit zwischen zwei aufeinanderfolgenden Anregungsimpulsen ist (Fig. 2).