-
Verfahren und Anordnung zur Gewinnung der Anregungsfunktion bei Kanalvocodern
Die Erfindung betrifft ein Verfahren und eine Anordnung zur Gewinnung der Anregungsfunktion
bei der Sprachanalyse nach dem Kanalvocoderprinzip mit Messung von Punkten gleicher
Phasenlage der Sprachgrundwelle und ihrer Harmonischen.
-
Die Aufgabe des Vocoders besteht darin, eine Sprachübertragung über
Kanäle mit begrenzter Bandbreite zu ermöglichen. Nach diesem Prinzip wird das Sprachfrequenzband
in eine Anzahl von mehr oder weniger schmalen Frequenzbändern aufgeteilt. Die Sprachlaute
werden dann mit Hilfe von zwei Funktionen dargestellt, von denen die Information
der einen in der Zeitdimension und die Information der anderen in der Amplitudendimension
angegeben wird. Die erste Funktion, die als Anregungsfunktion bezeichnet wird, gibt
die Frequenz der Sprachgrundwelle an, sofern sie periodischen oder quasiperiodischen
Charakter besitzt. Die zweite, die sogenannte Spektrumfunktion, gibt Aufschluß über
die in den einzelnen Frequenzbändern nach der Aufteilung des Spektrums enthaltene
Energie.
-
Durch die USA.-Patentschrift 3102 928 ist es bekannt, eine Messung
der Werte von Punkten gleicher Phasenlage der Sprachgrundwelle und ihrer Harmonischen
vorzunehmen, und es ist dort eine Schaltungsanordnung angegeben, die zur Messung
der Nulldurchgänge der Grundwelle dient.
-
Weiterhin ist durch die deutsche Auslegeschrift 1146 924 bekanntgeworden,
durch Harmonische hervorgerufene Nulldurchgänge dadurch zu eliminieren, daß die
darauf beruhenden Markierungsimpulse gesperrt werden. Der Nachteil der letztgenannten
Vorrichtung besteht jedoch darin, daß die Grundperiode eines Sprachsignals bei geringen
Verzerrungen nur mit einem sehr hohen Schaltungsaufwand ermittelt werden kann. Außerdem
werden an die zeitliche Genauigkeit der einzelnen Impulse sehr hohe Anforderungen
gestellt, so daß ein einwandfreies Arbeiten dieser Schaltungsanordnung nur sehr
schwer zu erreichen ist.
-
Die weiteren bekannten Methoden zur Ermittlung der Nulldurchgänge,
wobei die Anregungsfunktion als das Zeitintervall zwischen zwei aufeinanderfolgenden
Nulldurchgängen definiert wird, bringen den Nachteil mit sich, daß Störsignale und
Oberwellen des Sprachgrundsignals die Zeitpunkte der Nulldurchgänge verschieben.
Der Einfiuß der Oberwellen mit konstanter Amplitude macht sich in einer konstanten
Verschiebung bemerkbar, welche jedoch die gemessene Periode des Sprachgrundsignals
nicht berührt. Störend sind jedoch die Oberwellen mit variabler Amplitude, die ihrerseits
zu variablen Verschiebungen führen und deshalb auch eine Veränderung der Perioden
des Sprachgrundsignals zur Folge haben. Störsignale, wie sie beispielsweise durch
Rauschen verursacht werden, führen zu von dem Zufall abhängigen Verschiebungen und
infolgedessen zu unregelmäßigen Veränderungen der gemessenen Grundperiode. Außerdem
hat sich gezeigt, daß auch schon ganz kleine Verschiebungen in der Periodizität
des Sprachgrundsignals zu beträchtlichen Verschlechterungen der Sprachqualität bei
der späteren Synthese führen. Beispielsweise bringen schon Verschiebungen von etwa
100 Mikrosekunden eine spürbare Verschlechterung der Sprachqualität mit sich.
-
Zur Veranschaulichung des Einflusses dieser Verschiebungen sind in
F i g. 1 unter A bis C drei Funktionen 0 (w) in Abhängigkeit von der Frequenz f
dargestellt. A zeigt das Linienspektrum einer periodischen Funktion; B und C zeigen
das Linien-und das kontinuierliche Spektrum einer Funktion, die aus der unter A
dargestellten Funktion abgeleitet sind und zu den Zeitpunkten der Nulldurchgänge
mittlere Verschiebungen A aufweisen.
-
Diese Nachteile können zum Teil dadurch beseitigt werden, daß die
Störsignale, soweit wie möglich, eliminiert werden und die Genauigkeit der Nulldurchgangsbestimmung
verbessert wird. Der Einfluß der Oberwellen der Sprachgrundwelle ist jedoch auf
diese
Weise nicht zu beseitigen. Auch eine vollständige Aussiebung
der Oberwellen durch Filter ist nicht möglich, da der Bereich der Sprachgrundfrequenz
innerhalb eines von 300 bis 800 Hz reichenden Bandes liegt und die zweite und unter
Umständen auch die dritte Oberwelle einer im unteren Bereich liegenden Frequenz
ebenfalls in dieses Band hineinfallen.
-
Es wurde deshalb auch schon vorgeschlagen, zur Verbesserung der Qualität
künstlicher Sprache die auf Grund von Messungen ermittelten Intervalle durch die
Mittelwerte mehrerer aufeinanderfolgender Intervalle zu ersetzen. In F i g. 2 wird
dieses Verfahren erläutert. Der ausgezogen gezeichnete Kurvenverlauf A stellt in
dieser Figur die Schwankung in der Periode des originalen Sprachsignals dar, während
die Punkte die aufeinanderfolgenden Messungen dieser Periode angeben. Der Kurvenzug
B zeigt an den Stellen der Punkte das Ergebnis der Mittelwertbildung. In F i g.
2 ist jeweils in der Richtung der Abszissenachse die Nummer der Messung, z. B. 1.
Messung, 2. Messung usw., und in Richtung der Ordinatenachse der Wert der Periodendauer
aufgetragen.
-
Dieses Verfahren führt jedoch zu Fehlern, wenn das Sprachgrundsignal
Oberwellen enthält, die zusätzliche Nulldurchgänge verursachen. In F i g. 3 ist
diese Wirkung verdeutlicht. Die Impulse, die bei Nulldurchgängen der Grundwelle
des Sprachsignals abgeleitet wurden, sind durch ausgezogene Linien dargestellt,
während die Impulse an den Stellen der Nulldurchgänge der Oberwellen der Grundwelle
punktiert gezeichnet sind. Die F i g. 3 läßt erkennen, daß zu bestimmten Zeitpunkten
des Signals die gemessenen Zeitintervalle kürzer sind als die Periode der Grundwelle
selbst, so daß auch die vorher erwähnte Mittelwertbildung zu fehlerhaften Resultaten
führt. F i g. 4 zeigt eine durch Oberwellen verfälschte Periodenmessung. In dieser
Figur sind ähnlich wie in F i g. 2 unter A das originale Sprachsignal und die gemessenen
Resultate dargestellt, während die Ergebnisse der Mittelwertbildung in der Kurve
B gezeigt sind.
-
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Gewinnung
der Anregungsfunktion bei der Sprachanalyse nach dem Kanalvocoderprinzip und eine
Vorrichtung zur Durchführung des Verfahrens zu schaffen, wobei an die zeitliche
Konstanz der Impulse nur geringe Anforderungen gestellt werden und nur ein geringer
Aufwand an Schaltungsmitteln benötigt wird.
-
Die erfindungsgemäße Lösung der Aufgabe besteht darin, daß die Eliminierung
der durch die Harmonischen verursachten Nulldurchgänge durch Summierung des Wertes
der jeweils zuletzt gemessenen Grundwellenperiode und des Wertes mindestens einer
vorausgegangenen gemessenen Grundwellenperiode als vorläufiger Wert und durch Vergleich
des Summenwertes mit dem bisher gültigen Periodenwert der Grundwelle erfolgt, daß
bei nur geringfügiger Abweichung vom Vergleichswert dieser Summenwert den neuen
gültigen Periodenwert bildet, während bei einer starken Abweichung des Summenwertes
vom Vergleichswert der vorläufige Wert als neuer gültiger Periodenwert gesetzt wird,
und daß aus den gewonnenen Periodenwerten jeweils ein Mittelwert gebildet wird,
der die gewünschte Anregungsfunktion ergibt. Der technische Fortschritt des erfindungsgemäßen
Verfahrens besteht darin, daß zur Ermittlung der Grundperiode eines Sprachsignals
an die zeitliche Genauigkeit der einzelnen Impulse wesentlich geringere Anforderungen
gestellt werden als bei dem zum Stand der Technik gehörenden Verfahren. Außerdem
zeichnet sich die erfindungsgemäße Schaltungsanordnung durch einen sehr geringen
technischen Aufwand aus.
-
Die Mittelwertbildung wird im einzelnen dadurch ermöglicht, daß die
nachstehenden Verfahrensschritte ausgeführt werden: a) Die ersten n gültigen Periodenwerte
werden summiert; b) beim nächsten Auftreten eines gültigen Periodenwertes wird zu
dieser Summe die Differenz des ersten Periodenwertes und dieses nächsten Wertes
addiert; c) die in dem vorhergehenden Schritt gebildete Summe wird durch den Wert
n geteilt und das Resultat als mittlerer Periodenwert behandelt; d) beim nächsten
Auftreten eines gültigen Periodenwertes wird der erste Wert nicht mehr berücksichtigt,
der zweite Wert tritt an die Stelle des ersten, und alle übrigen Werte rücken eine
Stelle weiter; e) die Verfahrensschritte a bis d werden in der verschobenen Reihenfolge
entsprechend fortgeführt. Für eine Anordnung zur Beseitigung des Einflusses der
Harmonischen der Sprachgrundwelle besteht die Erfindung darin, daß die Ausgänge
dreier in Reihe geschalteter Register, in denen sich aufeinanderfolgende, schrittweise
zwischengespeicherte Meßwerte der Grundwellenprioden befinden, mit einer Addier-Subtrahier-Schaltung
verbunden sind, welche die Werte des ersten und zweiten Registers addiert und diese
Summe von dem Wert des dritten Registers subtrahiert und sowohl diese Summe als
auch diese Differenz zwischenspeichert, daß ferner der Speicherteil dieser Addier-Subtrahier-Schaltung
sowohl mit dem zweiten Register als auch mit einer Entscheidungslogik verbunden
ist, welche die Differenz mit einem vorgebbaren Wert vergleicht und bei geringer
Abweichung ein Steuersignal erzeugt, welches bewirkt, daß der Summenwert über eine
Summenleitung in dem zweiten Register zwischengespeichert und das erste Register
gelöscht wird, und daß die Entscheidungslogik bei starker Abweichung ein Verschiebesignal
erzeugt, welches auf einer Verschiebeleitung zu allen Registern übertragen wird
und bewirkt, daß über die Registerleitungen der Wert des ersten Registers in das
zweite, der Wert des zweiten in das dritte Register übertragen und der Wert des
dritten Registers als gültiger Wert der Grundwellenperiode ausgegeben wird.
-
Die Anordnung zur Durchführung des Verfahrens zur Mittelwertbildung
der Grundwellenperiode ist dadurch gekennzeichnet, daß sie aus einem Eingangsregister
zur Speicherung eines Periodenwertes T1 und einem mit diesem verbundenen n-stelligen
Schieberegister besteht, dessen n-te Stufe den Periodenwert T2 enthält, daß ferner
eine Addier-Subtrahier-Schaltung zur Bestimmung des Wertes S + Ti-T2 vorgesehen
ist, die mit der n-ten Stufe des Schieberegisters, mit dem Eingangsregister und
mit einem
weiteren Register verbunden ist, welches den jeweiligen
Wert S enthält, und daß schließlich dieses Register mit einer Teilerschaltung verbunden
ist, die den Wert S durch den Wert n dividiert, so daß das Resultat den Mittelwert
der Grundwellenperiode angibt.
-
Die Zusammenschaltung der beiden Anordnungen ist dadurch gekennzeichnet,
daß über die Verschiebeleitung die Schiebeimpulse der Entscheidungslogik auch zu
dem n-stelligen Schieberegister der Mittelwertanordnung übertragen werden.
-
Im folgenden wird die Erfindung an Hand eines durch Zeichnungen erläuterten
Ausführungsbeispieles näher beschrieben. Es zeigt F i g. 3 das Zeitdiagramm eines
mit Oberwellen behafteten Grundwellensignals, F i g. 5 die Charakteristik eines
speziellen Tiefpaßfilters und F i g. 6 das Blockschaltbild des Grundwellenanalysators
nach der Erfindung.
-
Für die Durchführung der Sprachanalyse nach dem Kanalvocoderprinzip
ist es notwendig, vor der Mittelwertbildung der Grundwellenperioden den Einfluß
der Harmonischen auf die Auswertung der Nulldurchgänge zu beseitigen.
-
Ein teilweise, jedoch ausreichende Elimination der Harmonischen kann
in an sich bekannter Weise zwar mit Hilfe eines Filters erreicht werden, welches
für Frequenzen bis etwa 80 Hz hinauf keine Dämpfung besitzt. Ab 80 Hz sollte dann
die Dämpfung um sechs Dezibel (db) je Oktave zunehmen. Die Durchlaßkurve eines solchen
Filters zeigt F i g. 5. Dieses Filter deformiert jedoch die Sprachsignale, was sich
besonders bei der Analyse von weiblichen Stimmen, die höherfrequente Anteile enthalten,
bemerkbar macht.
-
Es ist daher vorteilhaft, ein solches Filter durch eine Anordnung
nach der Erfindung zu ersetzen, die den Einfluß der Harmonischen auf Grund logischer
Operationen beseitigt.
-
F i g. 6 zeigt eine Einrichtung gemäß der Erfindung zur Ableitung
der Anregungsfunktion. Diese Einrichtung ist mit einer Unterdrückungsschaltung für
die Harmonischen der Sprachgrundfrequenz ausgerüstet und besteht im wesentlichen
aus folgenden Einheiten: einem Tiefpaßfilter 2, einer Detektorschaltung 3 zur Ermittlung
der Nulldurchgänge, einem Impulsgenerator 4, einem Impulszähler 5, einer Torschaltung
6, einer Unterdrückerschaltung 7 zur Unterdrückung der Harmonischen der Sprachgrundfrequenz
und einem mittelwertbildenden Netzwerk B.
-
Das Sprachsignal s (t) wird über die Leitung 1 zu einem Filter
2 übertragen, welches nur den unteren Frequenzbereich (bis etwa 300 Hz) der Sprachgrundfrequenz
überträgt. Die Ausgangssignale dieses Filters werden zu einem Detektor 3 übertragen,
welcher die Nulldurchgänge dieser Schwingungen ermittelt. Jedesmal, wenn dieser
Detektor einen Nulldurchgang einer bestimmten Richtung feststellt, liefert er an
seinem Ausgang einen Impuls. Dieser Ausgangsimpuls öffnet die Torschaltung 6, so
daß eine übertragung des Inhaltes des Zählers 5 zu dem Register 11 in der Unterdrückerschaltung
7 erfolgen kann. Außerdem steuern die Ausgangsimpulse des Detektors 3 die Löschung
des Zählers 5 und den Arbeitsablauf der Unterdrückerschaltung 7.
-
Der Zähler 5 zählt die Impulse, die von dem Impulsgenerator
4 geliefert werden. Gelöscht wird dieser Zähler, wie bereits erwähnt, durch
die Ausgangsimpulse des Detektors 3. Auf diese Weise ermittelt der Zähler die Zeitintervalle
zwischen zwei aufeinanderfolgenden Nulldurchgängen einer Richtung. Wie bereits früher
erwähnt, entspricht dieses Zeitintervall der Periode der Anregungsfunktion, solange
die Harmonischen der Sprachgrundwelle keine zusätzlichen Nulldurchgänge verursachen.
Andernfalls ist die Periode der Anregungsfunktion gleich der Summe mehrerer aufeinanderfolgender
Intervalle. In der Praxis hat sich gezeigt, daß die Harmonischen nicht mehr als
einen zusätzlichen Impuls zwischen zwei aufeinanderfolgenden Impulsen des Sprachgrundanteils
erzeugen, so daß die Zahl der Intervalle, die aufaddiert werden, nicht größer als
Zwei ist. Es ist aber auch möglich, die Einrichtung an eine größere Anzahl von durch
Harmonische verursachten Nulldurchgängen anzupassen. Die Schaltung 7 zur Unterdrückung
der Harmonischen enthält eine Addier-Subtrahier-Schaltung 9, eine Entscheidungslogik
10
und drei Register 11, 12 und 13. Wenn das codierte Signal, welches den
Meßwert des letzten gemessenen Zeitintervalls zwischen zwei aufeinanderfolgenden
Nulldurchgängen darstellt, zu dem Register 11 übertragen worden ist, dann wird der
Inhalt dieses Registers zu dem Inhalt des Registers 12 in der mit den genannten
Registern über Leitungen Ei und E2 verbundenen Schaltung 9 addiert und das entstandene
Resultat von dem Inhalt des über die Leitung E3 angekoppelten Registers 13 subtrahiert.
Wenn der absolute Wert dieser Differenz einen vorgegebenen Wert, z. B. 1 Millisekunde,
nicht übersteigt, dann ersetzt die Summe der Werte, die in den Registern 11 und
12 enthalten sind, über die Leitung SL den Inhalt des Registers 12. übersteigt diese
Differenz den vorgegebenen Wert, dann wird von der Logik 10 über die Leitung VL
eine Verschiebung des Inhaltes des Registers 11 über die Leitung RLi nach Register
12, des Registers 12 über die Leitung RL2 nach Register 13 und des Registers 13
zu dem Schieberegister 14 der Einrichtung zur Mittelwertbildung 8 vorgenommen.
-
Wie aus F i g. 3 zu erkennen ist, empfangen und übertragen die erwähnten
Register die aufeinanderfolgenden Werte der gemessenen Intervalle t1, t2 usw., wenn
die Oberwellen keine zusätzlichen Nulldurchgänge erzeugen. Wenn aber ein zusätzlicher
Impuls am Ausgang des Detektors 3 der F i g. 6 erscheint, dann repräsentiert der
Wert, der in dem Register 11 gespeichert wird, das gemessene Intervall t3'. Dieses
Intervall stellt jedoch nur einen Teil der momentanen Periode der Anregungsfunktion
dar. Der andere Teil dieser Periode wird von dem folgenden Intervall t"" gebildet.
Beim nächsten Impuls wird daher der Wert t3 ' im Register 11 gespeichert, nachdem
der Wert t3 über RLi zu dem Register 12 und der Wert t2 über RL2 zu dem Register
13 übertragen wurde. Wenn die Summe t3 = t3 + t3," etwa gleich dem Wert t2 ist,
dann ersetzt diese Summe den Wert t3 in dem Register 12, und die Verschiebung der
Registerinhalte unterbleibt. Bei dem folgenden Impuls der Sprachanregung wird der
Wert t ' im Register 11 gespeichert. Wenn die Summe t4 -I- t3 jedoch von dem Wert
t2 stark abweicht, wird eine Verschiebung durchgeführt. Das bedeutet, daß der Wert
t2 zur Einrichtung 8 übertragen, der Wert t3 zu
dem Register 13
und der Wert t4 zu dem Register 12 übertragen wird. Beim nächsten Impuls wird der
Wert t4' im Register 11 gespeichert und die Summe t4-t4 +t4i mit dem Wert t3 verglichen.
Wenn diese beiden Werte annähernd gleich sind, dann ersetzt der Wert t4 den Wert
t4 im Register 12, und auch in diesem Fall unterbleibt eine Verschiebung. Dieses
Verfahren wird so lange fortgesetzt, bis die Oberwellen keine zusätzlichen Impulse
mehr hervorrufen. Zu diesem Zeitpunkt überschreitet der Wert der Periode, welche
im Register 13 gespeichert ist, die Summe des Wertes des zuletzt gemessenen Intervalls
und des Wertes des Intervalls, welches im Register 12 gespeichert ist, und es erfolgt
jedesmal eine Verschiebung.
-
Wenn zusätzliche Anregungsimpulse gleich zu Beginn der Operation auftreten,
dann wird die Funktionsfähigkeit des Systems für eine bestimmte Zeitdauer beeinträchtigt.
Im Betrieb treten jedoch Perioden ohne zusätzliche Impulse sehr bald auf, so daß
dieser Effekt vernachlässigbar ist.
-
Die mittelwertbildende Einrichtung 8 zur Erzeugung der Periodenmittelwerte
besteht aus einem Schieberegister 14, einer Addierschaltung 15, einem Register 16
und einer Divisionsschaltung 17. Das Schieberegister 14 besitzt zehn Stufen, in
welche die letzten zehn Werte, die von dem Register 13 geliefert werden, eingespeichert
werden. Jedesmal, wenn eine Verschiebung durchgeführt wurde, führt die Addierschaltung
15 folgende Operation durch: S+tn-tn_10> wobei S denjenigen Wert angibt, welcher
im Register 16 enthalten ist. t, gibt den letzten Wert der gespeicherten Periode
an, welche im Register 13 gespeichert und über die Leitung RL3 zugeführt ist, und
tn_1o den Wert, welcher bei der zehnten vorausgegangenen Operation gewonnen wurde
und welcher in der letzten Stufe des Schieberegisters 14 gespeichert ist. Das Ergebnis
dieser Operation ersetzt den Wert S im Register 16.
-
Infolgedessen enthält dieses Register 16 die Summe der zehn zuletzt
gespeicherten Werte der Periode der Anregungsfunktion. Diese Summe wird in der Divisionseinrichtung
17 durch zehn geteilt und zu einer Speichereinrichtung, z. B. der Speichereinrichtung
einer Rechenmaschine, zur Speicherung der Anregungsfunktion übertragen.
-
Der so gewonnene Mittelwert kann vor der übertragung zur Speichereinrichtung
auch noch abgerundet werden, damit die Anzahl der Baueinheiten dem gewünschten Umfang
für die Darstellung des Mittelwertes angepaßt werden kann.
-
Diese Einrichtung zur Ableitung der Sprachgrundwelle besitzt mehrere
Anwendungsmöglichkeiten. Vor allem dann, wenn der Analysator mit einer elektronischen
Rechenanlage verbunden ist, können die Funktionen der Baueinheiten 4, 5, 6, 7 und
8 oder nur Teile von diesen Funktionen in das Programm des Rechners aufgenommen
und von diesem ausgeführt werden.