AT247018B - Anordnung zur Gewinnung einer digitalisierten Darstellung natürlicher Sprache - Google Patents

Anordnung zur Gewinnung einer digitalisierten Darstellung natürlicher Sprache

Info

Publication number
AT247018B
AT247018B AT739364A AT739364A AT247018B AT 247018 B AT247018 B AT 247018B AT 739364 A AT739364 A AT 739364A AT 739364 A AT739364 A AT 739364A AT 247018 B AT247018 B AT 247018B
Authority
AT
Austria
Prior art keywords
excitation
speech
time
arrangement
channel
Prior art date
Application number
AT739364A
Other languages
English (en)
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Application granted granted Critical
Publication of AT247018B publication Critical patent/AT247018B/de

Links

Landscapes

  • Analogue/Digital Conversion (AREA)

Description


   <Desc/Clms Page number 1> 
 



  Anordnung zur Gewinnung einer digitalisierten Darstellung natürlicher Sprache 
Die Erfindung betrifft eine Anordnung zur Gewinnung einer digitalisierten Darstellung natürlicher
Sprache durch Sprachanalyse nach dem Prinzip des impulserregten Kanalvocoders. 



   Das Kanalvocoderprinzip als solches ist in mehreren grundsätzlichen Varianten bekannt, zu denen auch das Prinzip der Impulsanregung zu zählen ist. 



   Bei dem impulserregten Kanalvocoder wird das Sprachsignal in eine Reihe von Spektrumkanälen, zur Darstellung der Spektrumfunktion, und in einem Anregungskanal, zur Darstellung der Anregungs- funktion. zerlegt. 



   Im Anregungskanal werden die Anregungssignale, die für die spätere Synthese des Sprachsignals von besonderer Bedeutung sind, aus der Sprachgrundwelle abgeleitet. Diese Ableitung der rechteckförmigen Anregungsimpulse erfolgt immer bei Punkten gleicher Phasenlage der Sprachgrundwelle,   z. B.   bei deren positiven   oder negativen Nulldurchgängen. Der   Abstand zwischen zwei Anregungsimpulsen entspricht dann der Periode der im Augenblick analysierten Sprachgrundwelle. 



   Im allgemeinen lässt sich dieses Prinzip zur Gewinnung der Anregungsimpulse nur für stimmhafte Sprachabschnitte exakt durchführen, da nur bei diesen Sprachlauten die Energie der Sprachanregung ausreicht, um die Nulldurchgänge feststellen zu können. 



   Man hat deshalb besondere Massnahmen getroffen, um auch bei stimmlosen Sprachabschnitten durch die Bildung einer scheinbaren Grundwelle, Anregungsimpulse bilden   zj   können. Diese besonderen Massnahmen erstrecken sich meist auf eine besondere Dimensionierung des Eirgangsfilters desAnregungskanales. 



   Einrichtungen zur Gewinnung einer digitalisierten Darstellung der Sprache gewinnen in der heutigen Technik der Datenverarbeitungsanlagen immer mehr an Bedeutung, da sie für die Datenausgabe in gesprochener Form besonders geeignet sind. 



   Ein weiterer Vorteil besteht darin, dass die in Sprachform vorliegenden Ausgabedaten leicht über ein weitverzweigtes Telephonnetz an ferne Orte übertragen werden können. 



   Es ist die Aufgabe der Erfindung, eine Anordnung zur Gewinnung einer digitalisierten Darstellung natürlicher Sprache durch Sprachanalyse nach dem Prinzip des impulserregten Kanalvocoders anzugeben, bei dem aus der Sprachgrundwelle eine Anregungsfunktion durch Feststellung der Nulldurchgänge der Sprachgrundwelle   zur Markierung der Zeitpunkte der Anregungsimpulse   und aus dem zeitlichen Verlauf der momentanen Energie in   Teilfrequenzkanälen   des Sprachsignals mittels Bandfilter, Gleichrichter und Tiefpass in jedem Kanal Spektrumsignale abgeleitet werden. 



   Die Erfindung besteht   darin, dass jeder Anregungsimpuls einen in einer angeschlossenen   Datenverarbeirungsanlage ablaufenden Zählvorgang zur Ermittlung der Periode der Sprachgrundwelle beendet, das Abspeichern des Zählerstandes zur Angabe des   relativen Zeitintervalls veranlasst, den   Zähler zurücksetzt und den Zählvorgang neu beginnen lässt, dass ferner in den Intervallen zwischen je zwei aufeinanderfolgenden Anregungsimpulsen ein Wählschalter die Ausgänge der Spektrumkanäle nacheinander abtastet, jeder ab- 

 <Desc/Clms Page number 2> 

 getastete Wert von einer analogen in eine digitale Darstellung umgewandelt wird und die so erhaltenen digitalen Daten über die Kanalenergiewerte an die Datenverarbeitungsanlage abgegeben werden,

   welche diese Daten anschliessend an die vorhergegangene Speicherung des Zählerstandswertes einspeichert. 



   Ferner ist es vorteilhaft, das Signal, welches den Nulldurchgang der Sprachgrundwelle kennzeichnet, nach seiner Ableitung in seiner Laufzeit derartig zu verzögern. dass die gespeicherten Kanalwerte über die momentane Kanalenergie und die gespeicherten Zählerstände unter Zugrundelegung des ursprünglichen Sprachsignals keine relative Zeitverschiebung erleidet. 



   Eine günstige Anodnung zur Verzögerung der Laufzeit der Nulldurchgangssignale der Sprachgrundwel- le besteht aus einer Kette an sich bekannter monostabiler Schaltkreise, deren Gesamtverzögerung sich aus   dersumme der Einzelverzögerung   des einzelnen monostabilen Schaltkreises ergibt,   dessen Kippzeit   gleich der minimalen Zeit zwischen zwei aufeinanderfolgenden Durchgängen gewählt wird. 



   Im folgenden wird die Erfindung an Hand eines durch die Zeichnungen erläuterten Ausführungsbeispiels näher beschrieben. Es zeigen :
Fig. 1 ein Blockschaltbild zur Erläuterung der Einrichtung zur Gewinnung einer digitalisierten Darstel- lung natürlicher Sprache, Fig. 2 ein Blockschaltbild einer Verzögerungsanordnung und Fig. 3 ein Zeitdia- gramm zur Veranschaulichung der Abtastvorgänge des Schalters. 



   Wie Fig. l zeigt, wird das beispielsweise von einem Mikrophon M gelieferte Sprachsignal SpS nach dem bekannten Vocoderprinzip mittels Bandpässen BP, Gleichrichtern G und Tiefpässen TP 
 EMI2.1 
 der Spektrum-quenzbänder zerlegten Sprachsignals SpS entsprechen. Diese Signale werden getrennt je Kanal einem Drehschalter S mit n Drehschritten, beispielsweise nach Art eines Drehwählers, zugeführt, welcher   die Signale der Spektrumkanäle nach Erhalt   eines Anregungsimpulses in einer bestimmten Zeiteinheit, die kleiner als das zeitlicheintervall zweier Punkte gleicher Phasenlage (z. B. Nulldurchgänge einer Richtung) der Sprachgrundwelle ist, einmal abtastet. 
 EMI2.2 
 Weise dadurch gewonnen, dass die Nulldurchgänge des Sprachsignals festgestellt werden und daraus ein Rechteckimpuls abgeleitet wird.

   Bezeichnet man die Frequenz der Grundwelle mit fA, so hat der zeitliche Abstand der Rechteckimpulse, die der Diskriminator ND liefert, die Grösse   1/fA.   Die Drehgeschwindigkeit des Schalters S, die die Abtastung des   Energieinhaltes   der   einzelnen Kanäle be-   stimmt, wird nun, wie in Fig. 3 dargestellt ist, so gewählt, dass alle n-Kanäle in der Zeit   l/t A   einmal abgetastet werden. Der Abtastvorgang beginnt jeweils beim Auftreten eines Anregungsimpulses. Die   jeweiligeAusgangsg : 5sse   bei der Abtastung eines Kanals wird über die Leitung 1 einem Analog-Digital-Wandler DAW zugeführt, welcher das analogsignal in eine in einem k-stelligen Code dargestellte   digitale Grösse   umwandelt.

   Diese Grösse wird dann im Anschluss an die Abspeicherung derGrundwelleninformation, die über die Leitung b einer elektronischen Datenverarbeitungsanlage EDV zugeführt wird, ebenfalls in dieser Anlage gespeichert. 
 EMI2.3 
 frequenz dieses Tiefpassfilters   TP2   sind zwei Grenzwerte gegeben. Die untere Grenze dieses Wertes hängt davon ab, wie empfindlich der nachfolgende Diskriminator ND gemacht werden kann, um auch bei stimmlosen Sprachabschnitten die Anregungsimpulse zu erzeugen. Der obere Grenzwert wird durch die maximale Geschwindigkeit der Abtastung für die Spektrumfunktion bestimmt. Im allgemeinen wird dieser Wert nicht unter 600 Hz aber auch nicht wesentlich über 700 Hz gewählt. 



   Die Begrenzung der Sprachgrundwelle hat zur Folge, dass die in dem   nachgeschalteten Nulldurch-   gangs-Diskriminator ND festgestellten Nulldurchgänge einen, abhängig von der gewählten   Grenzfre-   quenz dieses Tiefpasses, definierten   minimaler. Zeitabstand   besitzen. Das Ausgangssignal des Diskriminators ND wird dann über die Leitung a einer   Verzögerungseinrichtung zugeführt,   die dieses Signal in seiner Laufzeit derartig verzögert, dass die gespeicherten Kanalwerte und   Zählerstände unter   Zugrundelegung des ursprünglichen Sprachsignals keine relative Zeitverschiebung erleiden. 



   DieZeitverschiebungen entstehen dadurch, dass die Signale in   den Spektrumkanälen stärker   (15 msec) als im Anregungskanal (3 msec) verzögert werden. Da das menschliche Ohr im allgemeinen schon Abweichungen ab :   5   msec als störend empfindet, müssen die Signale im Anregungskanal entsprechend verzögert werden. Auch der Abtastvorgang zur Abtastung des Sprachspektrums wird jeweils durch   die verzögerten An-   regungsimpulse ausgelöst. 

 <Desc/Clms Page number 3> 

 



   Die Fig. 2 zeigt das Blockschaltbild dieser Verzögerungseinrichtung VZ. Diese besteht aus einer
Kette von bistabilen Schaltkreisen, beispielsweise bistabilen Multivibratoren   MV 1 - MV n'welche   eine Kippzeit besitzen, die gleich ist der   mininalen Zeit TV F.   = 1/f'A zwischen zwei aufeinanderfol-   gendenNulldurchgängen, f'A ist in diesem Falle die Bezeichnung für die obere Grundfrequenz der Sprach-    grundwelle. Auf diese Weise soll verhindert werden, dass Anregungsimpulse auftreten können, die von einer monostabilen Stufe dadurch unterdrückt werden, dass sie diese noch während ihrer instabilen Phase   erreichen. Die Gesamtverzögerungszeit TV (j derVerzögerungskette   VZ ergibt sich dann als Summe der Einzelverzögerungszeiten TVE der einzelnen bistabilen Schaltkreise. 



   PATENTANSPRÜCHE   :   
1. Anordnung zur Gewinnung einer digitalisierten Darstellung natürlicher Sprache durch Sprachana- lyse nach dem Prinzip des impulserregten Kanalvocoders, bei dem aus der Sprachgrundwelle eine Anre- gungsfunktion durch Feststellung der Nulldurchgänge der Sprachgrundwelle zur Markierung der Zeitpunkte der Anregungsimpulse und aus dem zeitlichen Verlauf der momentanen Energie in Teilfrequenzkanälen 
 EMI3.1 
    einenineinerangeschlossenenDatenverarbeitungsanlage (EDV) ablaufenden Zählvorgang   zur Ermittlung der Periode der Sprachgrundwelle beendet, das Abspeichern des Zählerstandes zur Angabe des relativen Zeitintervalls veranlasst, den Zähler zurücksetzt und den Zählvorgang neu beginnen lässt, dass ferner in den Intervallen zwischen je zwei aufeinanderfolgenden Anregungsimpulsen ein Wählschalter (S)

   die Ausgänge der Spektrumkanäle   (1-n)   nacheinander abtastet, jeder abgetastete Wert von einer analogen in eine digitale Darstellung umgewandelt wird und die so erhaltenen   digitalen Daten über die Kanalenergiewerte   an die Datenverarbeitungsan- lage abgegeben werden, welche diese Daten anschliessend an die vorhergegangene Speicherung des Zählerstandswertes einspeichert (Fig.   1).  

Claims (1)

  1. 2. Anordnung nach Anspruch l, dadurch gekennzeichnet, dass im AnregungskanalMittel (TP2) vorgesehen sind, welche die obereGrenzfrequenz der Sprachgrundwelle vor der Ermittlung der Nulldurchgänge begrenzt, so dass zwei aufeinanderfolgende Anregungsimpulse einen definierten minimalen Zeitabstand aufweisen.
    3. Anordnung nach Anspruch 1 oder 2. dadurch gekennzeichnet, dass im Anregungskanal eine Verzögerungseinrichtung (VZ) vorgesehen ist. welche die Anregungsimpulse nach ihrer Ableitungin ihrer Laufzeit derart verzögert, dass die gespeicherten Spektrumsignale und Zählerstände unter Zugrundelegung des ursprünglichen Sprachsignals keine relative Zeitverschiebung gegeneinander aufweisen.
    4. Anordnung zur Verzögerung der Laufzeit der Anregungsimpulse nach Anspruch 3, gekennzeichnet durch eine Kette an sich bekannter monostabiler Schaltkreise, z. B. Multivibratoren (MVl - MVn), die jeder für sich eine Kippzeit aufweisen, die gleich der minimalen Zeit zwischen zwei aufeinanderfolgenden Anregungsimpulsen ist (Fig. 2).
AT739364A 1964-04-06 1964-08-26 Anordnung zur Gewinnung einer digitalisierten Darstellung natürlicher Sprache AT247018B (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE247018X 1964-04-06

Publications (1)

Publication Number Publication Date
AT247018B true AT247018B (de) 1966-05-25

Family

ID=5935257

Family Applications (1)

Application Number Title Priority Date Filing Date
AT739364A AT247018B (de) 1964-04-06 1964-08-26 Anordnung zur Gewinnung einer digitalisierten Darstellung natürlicher Sprache

Country Status (1)

Country Link
AT (1) AT247018B (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3232835A1 (de) * 1981-09-04 1983-03-24 Sharp K.K., Osaka Verfahren und schaltungsgruppenanordnung zur sprachsynthese

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3232835A1 (de) * 1981-09-04 1983-03-24 Sharp K.K., Osaka Verfahren und schaltungsgruppenanordnung zur sprachsynthese

Similar Documents

Publication Publication Date Title
DE2524497C3 (de) Verfahren und Schaltungsanordnung zur Sprachsynthese
DE2420830C2 (de) Verfahren und Anordnung zur Bandbreitenkompression eines Videosignals
DE69030192T2 (de) Synchronisationsschaltung
DE2609297C3 (de) Übertragungssystem für Gesprächssignale
DE2634426A1 (de) Bandkompressionseinrichtung
DE2523625A1 (de) Digitalfilter
AT247018B (de) Anordnung zur Gewinnung einer digitalisierten Darstellung natürlicher Sprache
DE1541624A1 (de) Verfahren zur Frequenzumsetzung
DE1905680A1 (de) Anlage zur Signalverarbeitung
DE1762441A1 (de) Verfahren zum UEbertragen von Sprache in chiffreierter Form und Anordnung zur Durchfuehrung des Verfahrens
DE69127339T2 (de) Methode und Einrichtung zur Kodierung und Dekodierung eines abgetasteten Analogsignals mit Wiederholungseigenschaften
DE2307441C1 (de) Verfahren zum Verschleiern von Sprachsignalen
DE2051589A1 (de) Anordnung zur Synthese eines Signals
DE69119005T2 (de) Verfahren und Einrichtung zur Kodierung eines Analogsignals mit Wiederholeigenschaft
DE2060375B2 (de) Empfänger für frequenzumgetastete Signale
DE1206027B (de) Verfahren zur Gewinnung einer digitalisierten Darstellung natuerlicher Sprache
DE2407072A1 (de) Abtastverfahren und vorrichtung zum durchfuehren des verfahrens zum fortschreitenden abtasten eines quasi stationaeren signals
DE3332220C1 (de) Zeitverdichtendes Zeitmultiplex-Übertragungssystem
DE2104012C3 (de) Elektrische Einrichtung zur Erkennung von Sprachlauten
DE2062589A1 (de) Verfahren zur Ermittlung der Grundfrequenz eines wenigstens zeitweise periodischen signals
DE2017355C3 (de) Frequenzerkennungseinrichtung
DE1762336C (de) Schaltungsanordnung zur Sprachanalyse und Sprachsynthese nach Art eines Vocoders
DE2205359A1 (de) Verfahren und Anordnung zur Spektralanalyse
DE1762128C3 (de) Decodervorstufe für ein mehrkanaliges Übertragungssystem
DE2848945A1 (de) Vorrichtung zum uebertragen stochastischer informationen