DE69614799T2

DE69614799T2 - Übertragungssystem und -verfahren für die sprachkodierung mit verbesserter detektion der grundfrequenz

Info

Publication number: DE69614799T2
Application number: DE69614799T
Authority: DE
Inventors: Eric Kathmann; Johannes Sluijter; Rabesh Taori
Original assignee: Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1995-05-10
Filing date: 1996-05-07
Publication date: 2002-06-13
Anticipated expiration: 2016-05-08
Also published as: WO1996036041A2; CN1153565A; EP0770254B1; US5963895A; HK1012752A1; WO1996036041A3; DE69614799D1; CN1155942C; EP0770254A2

Description

Die Erfindung bezieht sich auf ein Übertragungssystem mit einem Sender mit einem Codierer zum Herleiten eines codierten Signals aus einem quasi-periodischen Signal, wobei der Sender vorgesehen ist zum Ausstrahlen des codierten Signals zu einem Empfänger über ein Medium, wobei der Codierer einen Pitchdetektor aufweist zum Herleiten von Pitchinformation aus dem quasi-periodischen Signal.
Die Erfindung bezieht sich ebenfalls auf einen Codierer, einen Detektor zum Detektieren der Periode eines quasi-periodischen Signals und auf ein Verfahren zur Pitchdetektion.
Ein Pitchdetektor, der bei einem Übertragungssystem der eingangs beschriebenen Art verwendet werden soll, ist bekannt aus dem Artikel: "Automatic and Reliable Estimation of Glottal Closure Instant and Period" von Y. M. Cheng und D. O. Shaughnessy, in "IEEE Transactions on Acoustics, Speech and Signal Processing", Heft ASSP-23, Seiten 418-423, 1976.
Solche Übertragungssysteme werden beispielsweise zum Übertragen von Sprachsignalen über ein Übertragungsmedium, wie einen Funkkanal, ein Koaxkabel oder über eine Glasfaser. Auf alternative Weise können solche Übertragungssysteme angewandt werden zum Speichern von Sprachsignalen auf einem Speichermedium, wie einem Magnetband oder einer Magnetplatte. Anwendungsbereiche sind beispielsweise automatische Telephonbeantwortungsgeräte und Diktiergeräte.
Ein Sprachsignal besteht aus stimmlosen und stimmhaften Elementen. Ein stimmloses Element eines Sprachsignals tritt auf, wenn einige Konsonanten ausgesprochen werden und wobei keine Priodizität auftritt. Ein stimmhaftes Element eines Sprachsignals tritt dann auf, wenn Vokale ausgesprochen werden und mehr oder weniger Periodizität auftritt. Ein derartiges Signal wird auch als quasi-periodisch bezeichnet. Ein wichtiger Parameter eines derartigen Signals ist die Periode, die üblicherweise als Pitch bezeichnet wird. Für mehrere Typen von Sprachcodierern ist es von großer Bedeutung, den Pitch der stimmhaften Elemente des Sprachsignals genau zu berechnen.
Ein erstes Verfahren zur Bestimmung der s Pitches ist die Berechnung der Autokorrelationsfunktion des quasi-periodischen Signals, wobei die Pitchinformation durch die Differenz in der Verzögerung zwischen zwei Spitzen der Autokorrelationsfunktion dargestellt wird. Ein Problem ist dann, dass ein einziger Pitchwert über ein Signalsegment berechnet wird, das eine bestimmte Zeitdauer hat. Schwankungen des Pitches in der bestimmten Zeitdauer können nicht gemessen werden, führen aber nur zu einer (unerwünschten) Verbreiterung der Spitzen der Autokorrelationsfunktion.
In dem aus dem genannten Zeitschriftenartikel bekannten Pitchdetektor wird die Pitchinformation hergeleitet aus der Kreuzkorrelationsfunktion zwischen dem Sprachsignal und einer modellierten Antwort des menschlichen Sprachsystems zu einem Anregungssignal, das verursacht wird durch Abschliessung der Stimmbänder. Die Eigenschaften des menschlichen Sprachsystems werden durch linear Prädiktionsparameter beschrieben, die von dem Sprachsignal hergeleitet sind. Aus dieser Kreuzkorrelationsfunktion wird ein Signal hergeleitet, worin Spitzen auftreten, welche die Anregungszeitpunkte angeben. Der Mittelwert dieses Signals wird von diesem Signal subtrahiert und zugeschnitten, so dass das impulsförmige Signal erhalten wird, worin die Impulse die Anregungszeitpunkte bezeichnen. Es scheint, dass Impulse in Signalen mit einem nicht konstanten Pitch verlorengehen können, oder es können sekundäre Impulse auftreten, und zwar dadurch, dass der Mittelwert vorübergehend zu hoch oder zu niedrig ist. Dies wird zu einer verringerten Zuverlässigkeit der Pitchdetektion führen.
Es ist nun u. a. eine Aufgabe der vorliegenden Erfindung ein Übertragungssystem der eingangs beschriebenen Art zu schaffen, wobei das quasi-periodische Signal für eine zuverlässige Pitchdetektion nicht stationär zu sein braucht.
Dazu weist die Erfindung das Kennzeichen auf, dass der Pitchdetektor Selektionsmittel aufweist zum Selektieren eines einzelnen chrakteristischen Signalteils eines Hilfssignals, wobei dieses Hilfssignal für das quasi-periodische Signal repräsentativ ist, weiterhin Suchmittel zum Suchen wenigstens eines weiteren Signalteils des Hilfssignals, das dem einzelnen charakteristischen Hilfssignalteil ausreichend entspricht, und Mittel zum Herleiten der Pitchinformation aus den Zeitpunkten, an denen der einzelne charakteristische Hilfssignalteil und der weitere Signalteil auftreten.
Durch Selektion eines einzelnen charakteristischen Hilfssignalteils aus dem Hilfssignal und durch die Suche nach wenigstens einem weiteren Hilfssignalteil des Hilfssignals, der dem einzelnen charakteristischen Hilfssignalteil ausreichend entspricht, ist es möglich, Pitchinformation zu erhalten ohne die Notwendigkeit, die Stationarität des quasi-periodischen Signals zu benutzen.
Ein hinzukommender Vorteil der Erfindung ist, dass keine lineare Prädiktionsparameter berechnet zu werden brauchen, so dass der Pitchdetektor nach der vorliegenden Erfindung einfacher sein kann als der bekannte Pitchdetektor. Ein weiterer hinzukommender Vorteil ist, dass eine fehlerhafte Pitchdetektion, die auftritt, wenn zwei Anregungsimpulse in einer einzigen Pitchperiode vorhanden sind, vermieden wird. In dieser Hinsicht hat sich gezeigt, dass zwei Anregungszeitpunkte regelmäßig in einer einzigen Pitchperiode in Sprachsignalen auftreten. In einer derartigen Situation wird der bekannte Pitchdetektor, bei dem Anregungszeitpunkte gesucht werden, die Pitchperiode falsch berechnen. Da der Pitchdetektor nach der vorliegenden Erfindung keine Anregungszeitpunkte sucht, sondern das wiederholte Auftreten eines charakteristischen Hilfssignalteils, wird diese fehlerhafte Berechnung der Pitchperiode nicht auftreten.
In "IEEE Transactions on Acoustics, Speech and Signal Processing" Heft 39, 1991, Seiten 40-48 wird ein Pitchdetektionsalgorithmus beschrieben, der die nachfolgenden Schritte umfasst:
erstens wird ein Kreuzkorrelationskoeffizient von zwei benachbarten und nicht überlappenden und gleich langen Segmente eines Eingangssignals für alle Segmentlängen aus einem Bereich verwirklichbarer Segmentlängen berechnet,
zweitens wird der Kreuzkorrelationskoeffizient mit dem höchsten Wert aus dem Satz berechneter Kreuzkorrelationskoeffizienten selektiert. Zum Schluss ist die der Pitch gleich der Segmentlänge, die dem selektierten Kreuzkorrelationskoeffizienten entspricht.
Eine Ausführungsform der Erfindung weist das Kennzeichen auf, dass die Selektionsmittel vorgesehen sind zum Selekieren desjenigen einzelnen charakteristischen Hilfssignalteils, der über ein bestimmtes Zeitsegment einen maximalen laufenden Energieinhalt hat.
Ein geeigneter einzelner charakteristischer Hilfssignalteil ist ein Hilfssignalteil, dessen Energie über ein spezifisches Zeitsegment maximiert wird. Ein derartiger Signalteil kann auf einfache Weise dadurch gefunden werden, dass ein maximaler laufender Energiefunktionswert gesucht wird. Der laufende Energiefunktionswert kann dadurch berechnet werden, dass ein nicht linearer Vorgang an dem Hilfssignal durchgeführt wird, wobei dieser Vorgang durch eine gerade Funktion beschrieben wird und dass das Ergebnis dieses Vorgangs über ein bestimmtes Zeitintervall integriert wird. Geeignete gerade Funktionen sind (x) = x² und (x) = x . Eine alternative Art und Weise zum Finden eines einzelnen charakteristischen Hilfssignalteils ist die Suche nach dem Maximalwert des Hilfssignals in einem spezifischen Zeitsegment. Im Allgemeinen eignen sich Hilfssignalteile mit einer maximalen Stärke dazu, als charakteristischer Hilfssignalteil aufzutreten.
Eine weitere Ausführungsform der Erfindung weist das Kennzeichen auf, dass die Zeitdauer des einzelnen charakteristischen Hilfssignalteils kleiner ist als die kürzeste auftretende Pitchperiode, oder dieser Periode entspricht.
Ein geeigneter einzelner charakteristischer Hilfssignalteil ist eine Pitchperiode oder ein wesentlicher Teil davon. Dadurch, dass ein einzelner charakteristischer Hilfssignalteil von etwa der kürzesten Pitchperiode in der Länge genommen wird, kann ein geeigneter einzelner charakteristischer Hilfssignalteil für die meisten Situationen gefunden werden. Es ist denkbar, dass die Länge des Hilfssignalteils in Abhängigkeit von der auftretenden Pitchperiode selektiert wird, so dass ein adaptives System erhalten wird.
Eine weitere Ausführungsform der Erfindung weist das Kennzeichen auf, dass die Suchmittel Korrelationsmittel aufweisen zum berechnen der Korrelation zwischen dem einzelnen charakteristischen Hilfssignalteil und dem Hilfssignal, wobei die Pitchinformation durch den Teil der Spitzen in der Korrelationsfunktion dargestellt wird.
Eine einfache Art und Weise der Suche nach einem weiteren Hilfssignalteil, der dem einzelnen charakteristischen Hilfssignalteil entspricht, ist das Berechnen der Kreuzkorrelationsfunktion zwischen dem einzelnen charakteristischen Hilfssignalteil und dem Hilfssignal. Die Pitchinformation wird dann durch die Lage der Maximalwerte der Kreuzkorrelationsfunktion dargestellt. Die Pitchperiode kann aus der Zeitdifferenz zwischen zwei aufeinanderfolgenden Maximalwerten der Kreuzkorrelationsfunktion berechnet werden.
Eine weitere Ausführungsform der Erfindung weist das Kennzeichen auf, dass der Pitchdetektor Mittel aufweist zum Berechnen der Oberfläche der Spitzen in der Korrelationsfunktion, wobei der Pitchdetektor vorgesehen ist zum Herleiten der Pitchinformation aus der Oberfläche der Spitzen der gegenüber der Zeit aufgetragenen Korrelationsfunktion.
Versuche haben gezeigt, dass die Kreuzkorrelationsfunktion des charakteristischen Hilfssignalteils und des Hilfssignals nicht nur gewünschte Spitzen aufweist, sondern auch unerwünschte sekundäre Spitzen, die eine geringere Breite haben als die gewünschten Spitzen. Dadurch, dass die Pitchinformation durch Impulse dargestellt wird mit einer Amplitude, die zu der Oberfläche der entsprechenden Spitze in der Autokorrelationsfunktion proportional ist, wird es einfacher zwischen den gewünschten und unerwünschten Spitzen zu unterscheiden. Das Unterscheiden kann weiterhin dadurch vereinfacht werden, dass ein erweiterter Oberflächenwert anstelle der Oberflächen benutzt wird. Eine geeignete Art und Weise, den erweiterten Oberflächenwert zu erhalten, ist das Multiplizieren der Oberfläche einer Spitze mit dem Maximalwert der betreffenden Spitze.
Es dürfte einleuchten, dass sich die Erfindung nicht aus die Pitchdetektion in Sprachsignalen beschränkt, sondern dass sie ebenfalls angewandt werden kann in Situationen, in denen eine Verzögerung zwischen zwei oder mehr Signalanteilen ermittelt werden soll. Beispiele davon sind das Trennen einer Anzahl Quellen voneinander, wie dies bei Systemen zur Austastung von Hintergrundgeräusch und Strahlbildung bei Radarsystemen auftreten kann, In einem derartigen Anwendungsbereich kann es passieren, dass das quasi-periodische Signal nicht mehr als zwei Perioden hat.
Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und werden im Folgenden näher beschrieben. Es zeigen:
Fig. 1 ein Übertragungssystem, bei dem die Erfindung angewandt worden ist,
Fig. 2 eine Ausführungsform des Pitchdetektors nach der vorliegenden Erfindung,
Fig. 3 einige Signalformen, wie diese in dem in Fig. 2 dargestellten Pitchdetektor auftreten können, und
Fig. 4 ein Flussdiagramm eines Programms für einen programmierbaren Prozessor zum Ermitteln des Pitches nach der vorliegenden Erfindung.
Bei dem in Fig. 1 dargestellten Übertragungssystem wird ein digitales Sprachsignal S'[n] einem Sender 2 zugeführt. In diesem Sender 2 wird das Sprachsignal S'[n] einem Codierer zugeführt, in dem es einem Pitchdetektor 12 sowie pitchsynchronen Codiermitteln 10 zugeführt wird. Ein Ausgang des Pitchdetektors 12, der die Pitchinformation als Ausgangssignalträgt, ist mit einem Eingang eines Multiplizierers 14 sowie mit einem ersten Eingang der Pitchsynchronen Codiermittel 10 verbunden. Ein Ausgang der pitchsynchronen Codiermittel 10 ist mit einem zweiten Eingang des Multiplexers 14 verbunden. Der Ausgang des Multiplexers 14 ist mit dem Ausgang des Senders 2 gekoppelt.
Der Ausgang des Senders 2 ist über den Kanal 4 mit dem Eingang eines Empfängers 6 verbunden. Der Eingang des Empfängers 6 ist mit einem Eingang eines Demultiplexers 16 verbunden. Ein erster Ausgang des Demultiplexers ist mit einem ersten Eingang eines pitchsynchronen Decoders 8 verbunden. Ein zweiter Ausgang des Demultiplexers 16, der die Pitchinformation als Ausgangssignal aufweist, ist mit einem zweiten Eingang des Pitchsynchronen Decoders 8 verbunden. Ein Ausgang des Pitchsynchronen Decoders 8, der das rekonstruierte Sprachsignal als Ausgangssignal trägt, ist mit dem Ausgang des Empfängers 6 verbunden.
Bei dem Übertragungssystem nach Anspruch Fig. 1 wird die Pitchinformation durch den Pitchdetektor 12 von dem quasi-periodischen Sprachsignal hergeleitet. Diese Pitchinformation wird von dem pitchsynchronen Codierer 10 benutzt zum Reduzieren der erforderlichen Übertragungskapazität für das codierte Signal. Beispiele des Pitchsynchronen Codierers 10 sind beschrieben in den Artikeln "A glottal LPC-Vocoder" von P. Hedelin in "Proceedings of the International Confernence of the IEEE, ASSP'84" San Diego, 1984 und "Encoding Speech Using Prototype Waveforms" von W.B. Kleyn in "IEEE Transactions on Speech and Audio processing" Heft 1, Nr. 4, Oktober 1993.
Das codierte Sprachsignal und die Pitchinformation werden von dem Multiplexer 14 zu einem einzigen codierten Ausgangssignal kombiniert. Das codierte Ausgangssignal wird über den Übertragungskanal 4 zu dem Empfänger 6 übertragen.
In dem Empfänger 6 wird das empfangene Signal detektiert und in ein digitales Signal umgewandelt. Dieses digitale Signal wird von dem Demultiplexer 16 in ein codiertes Signal und ein Signal, das Pitchinformation darstellt, gedemultiplext. Der pitchsynchrone Decoder 18 leitet das rekonstruierte Sprachsignal aus dem codierten Signal und der Pitchinformation her. Dieses rekonstruierte Sprachsignal ist an dem Ausgang des Empfängers 6 verfügbar.
In dem in Fig. 2 dargestellten Pitchdetektor wird das quasi-periodische Signal S'[n] einem Tiefpassfilter 20 zugeführt. Der Ausgang des Tiefpassfilters 20, der das Hilfssignal S[n] als Ausgangssignal trägt, ist mit einem Eingang von Energiemessmitteln 22, mit einem ersten Eingang von Selektionsmitteln 24 und mit einem Eingang eines Umhüllendendetektors 30 verbunden.
Der Ausgang der Energiemessmitteln 22, der das Ausgangssignal E[n] trägt, ist mit einem zweiten Eingang der Selektionsmittel 24 verbunden. Der Ausgang der Selektionsmittel 24, der den charakteristischen Hilfssignalteil f[n] als Ausgangssignal trägt, ist mit einem ersten Eingang der in diesem Fall durch einen Korrelator 28 gebildeten Suchmittel verbunden. Der Ausgang des steuerbaren Verstärkers 26, der das Ausgangssignal Sec[n] trägt, ist mit einem zweiten Eingang des Korrelators 28 verbunden. Ein Ausgang des Umhüllendendetektors 30, der ein Steuersignal ec[n] trägt, ist mit einem zweiten Eingang des steuerbaren Verstärkers 26 verbunden. Der steuerbare Verstärker 26 und der Umhüllendendetektor 30 bilden zusammen die Amplitudensteuermittel.
Der Ausgang des Korrelators 28, der ein Ausgangssignal Rsf[n] trägt, ist mit einem Integrator 32 verbunden. Der Ausgang des Integrators 32, der das Ausgangssignal A[n] trägt, ist mit einem Eingang von Expansionsmitteln 34 verbunden, während der Ausgang der Expansionsmittel 34, der ein Ausgangssignal P[n] trägt, mit einem Eingang eines Detektors 36 verbunden ist. An dem Ausgang des Detektors 36 ist die Pitchinformation in Form des Signals P'[n] verfügbar.
Das Sprachsignal, das durch das Signal S'[n] digital dargestellt ist, wird von dem Tiefpassfilter 20 gefiltert mit der Absicht der Befreiung des Signals von Signalanteilen, die eine relativ hohe Frequenz und einen zerstörenden Effekt auf die Pitchdetektion haben. Die Grenzfrequenz des Tiefpassfilters 20 wird derart selektiert, dass diese hinter der höchst möglichen Pitchfrequenz liegt. Ein Wert, der sich in der Praxis als nützlich erwiesen hat, beträgt 600 Hz.
Die Energiemessmittel 22 berechnen eine laufende Energiefunktion eines Hilfssignalteils mit der Länge eines M-Abtastwertes für ein Segment, das eine Länge von N Abtastwerten hat. Eine als geeignet sich erwiesene Segmentdauer ist beispielsweise 40 ms, während eine Dauer von 2 ms geeignet ist für die laufende Energiefunktion. Mit einer Abtastfrequenz von 8 kHz ist N gleich 320 und M ist gleich 16. Für das Signal E[n] kann geschrieben werden:
E[n] = S²[n + k] 0 ≤ n ≤ N - M (1)
Der charakteristische Hilfssignalteil ist nun der Hilfssignalteil, dessen laufende Energiefunktion E[n] maximal ist. Wenn vorausgesetzt wird, dass E[n] maximal ist für n = nm, ist der charakteristische Hilfssignalteil f[n] gleich:
Dieser Hilfssignalteil f[n] wird mit Hilfe der Selektionsmittel 24 von dem Signal S[n] hergeleitet, während der durch E[n] berechnete Wert nm benutzt wird. Der Korrelator 28 berechnet die Kreuzkorrelationsfunktion Rsf[n] des Amplitudensteuersignals Sec[n], das an dem Ausgang des steuerbaren Verstärkers 26 verfügbar ist. Für diese Korrelationsfunktion Rsf[n] gilt dann:
(3) kann ebenfalls wie folgt geschrieben werden:
Die MAX-Funktion wird in (3) und (4) benutzt um das Auftreten negativer Werte von Rsf[n] zu vermeiden. Dieser negativen Korrelationswerte haben überhaupt keine Bedeutung, wenn nach Signalteilen gesucht wird, die dem charakteristischen Hilfssignalteil entsprechen.
Ein Signal A[n], das ein Maß der Oberfläche der Spitze ist, die zu dem betreffenden Wert von n in der Kreuzkorrelationsfunktion Rsf[n] gehört, wird mit Hilfe des Integrators 32 hergeleitet. Die k. Spitze in der Kreuzkorrelationsfunktion kann wie folgt beschrieben werden:
bk und ek bezeihnen den Anfang und das Ende der k. Spitze der Autokorrelationsfunktion. Für die Oberfläche Ak der k. Spitze gilt nun:
ak = Lk[i] (6)
Der Wert von nk, der zu ak gehört, ist der Wert von n, der zu dem Maximum mk der Spitze Lk[n] gehört. Für mk gilt dann:
mk = MAX {Lk[n]} (7)
Die Oberfläche A wird skaliert durch Benutzung des größten Wertes von ak, so dass der Wert A[n] kleiner ist als Eins oder dem Wert Eins entspricht. Für die Funktion A[n] kann dann gefunden werden:
In (8) ist q die Anzahl Spitzen in einem Signalsegment. Die Transformation der Funktion Rsf[n] zu der Funktion A[n] führt zu einer relativen Dämpfung der unerwünschten sekundären Spitzen der Funktion Rsf[n], weil diese unerwünschten Impulse nicht nur niedriger sind, sondern auch weniger breit, so dass die Oberfläche der sekundären Spitzen wesentlich kleiner sein wird als die Oberfläche der gewünschten Spitzen.
Zur weiteren Steigerung der Differenz zwischen gewünschten Spitzen und unerwüschten sekundären Spitzen führen die Expansionsmittel 34 einen nicht linearen Vorgang durch, wobei große Werte von A[n] mehr verstärkt werden als kleine Werte von A[n]. Dies kann effektuiert werden beispielsweise durch Multiplikation der Funktion A[n] mit dem betreffenden Wert von mk. Für das Ausgangssignal P[n] der Expansionsmittel gilt dann:
Es dürfte einleuchten, dass anstelle von (9) eine andere Bearbeitung von A[n] durchgeführt wird.
Der Detektor 36 entfernt sekundäre Impulse aus dem Signal P[n]. Eine erste Selektion kann dadurch gemacht werden, dass die kleinsten Impulse P[n] entfernt werden, die um mehr als 2 ms auseinander liegen. Diese Maßnahme basiert auf der Tatsache, dass eine Pitchperiode von weniger als 2 ms höchst unerwünscht ist. Eine Endselektion wird erhalten durch Entfernung von Impulsen, die eine Amplitude haben, die kleiner ist als ein bestimmter Bruchteil der amplitude des vorhergehenden Impulses. Die Pitchinformation kann durch das Signal P'[n] dargestellt werden, während für die Werte von n, wenn ein Pitchimpuls auftritt, das Signal P'[n] einen ersten logischen Wert ("1") und für die anderen Werte von n einen zweiten logischen Wert ("0") hat.
In Fig. 3 zeigt die Graphik das quasi-periodische Sprachsignal S'[n] aufgetragen gegenüber n. Die Graphik 38 zeigt deutlich die quasi-periodische Charakteristik des Sprachsignals. Die Graphik 40 zeigt das Hilfssignal S[n] aufgetragen gegenüber der Zeit. Dieses Signal wird befreit von den HF-Anteilen, welche die Pitchdetektion kompliziert machen. Die Graphik 42 zeigt den Wert der laufenden Energiefunktion E[n] aufgetragen gegenüber n. Der maximale Wert von E[n] wird gefunden für nmax. In der Graphik 44 ist der charakteristische Hilfssignalteil f[n] dargestellt. Dieser charakteristische Hilfssignalteil f[n] wird von S[n] in der Nähe von n = nmax extrahiert.
Die Graphik 46 zeigt das Kreuzkorrelationssignal Rsf[n], aufgetragen gegenüber n. In dieser Graphik sind die erwünschten sowie die unerwünschten sekundären Spitzen sichtbar. In der Graphik 48 ist die Oberflächengröße A[n] gegenüber n aufgetragen. Die Graphik 48 zeigt deutlich, dass der Unterschied zwischen den gewünschten und den unerwünschten Spitzen zugenommen hat.
In der Graphik 50 ist das durch einen nicht linearen Vorgang aus dem Signal A[n] erhaltene Signal P[n] gegenüber n aufgetragen. In diesem Fall ist der Unterschied zwischen den gewünschten Impulsen und den unerwünschten Impulsen größer geworden. Zum Schluss zeigt die Graphik die Pitchinformation in Form eines logischen Signals, das den Wert "1" hat für Werte von n, wobei ein gewünschter Impuls auftritt. Die unerwünschten Impulse werden entfernt, wie bereits oben erwähnt wurde.
In de Flussdiagramm nach Fig. 4 haben die Blöcke die nachfolgende Bedeutung.

Nr. Bezeichnung Bedeutung

60 START Die Prozedur wird gestartet.
62 INIT Die verwendeten Variablen werden initialisiert
64 TAKE SEGM {S[n]} Ein Segment von Abtastwerten des Hilfssignals wird gespeichert.
66 VOICED Es wird überprüft, ob das Hilfssignal noch stimmhaft ist.
68 CALC E[n] Die laufende Energiefunktion des gespeicherten Segmentes wird berechnet.
70 EXTR f[n] Der charakteristische Hilfssignalteil wird von dem Hilfssignal extrahiert.
72 CORR ENV. Aus dem Hilfssignal wird ein amplitudengesteuertes Hilfssignal hergeleitet.
74 CALC Rsf[n] Die Kreuzkorrelationsfunktion Rsf[n] wird berechnet.
76 CALC A[n] Die Oberfläche der Spitzen in Rfs[n] wird berechnet.
78 EXPAND Mittels eines nicht linearen Vorgangs wird das Signal P[n] aus A[n] berechnet.
80 DEL PEAKS Die unerwünschten Spitzen werden gelöscht.
82 CALC n&sub1;, n&sub2; Die Positionen n&sub1; und n&sub2; der ersten zwei Pitchimpulse in dem Segment werden berechnen.
84 FIRST VOICED SEGMENT Es wird überprüft, ob das betreffende Segment das erste stimmhafte Segment in einem Teil des Sprachsignals ist.
86 PITCHMARK AT n&sub1;, n&sub2; Für n = n&sub1; und n=n&sub2; wird der logische Wert P[n] gleich "1" gemacht
88 LPM: = n&sub2; Die Position des letzten zugeordneten Pitchmerkers wird gespeichert
90 LPM: = LPM+n&sub2;-n&sub1; Die Position des neuen Pitchmerkers wird berechnet und gespeichert.
92 PITCHMARK AT LPM Für n = LPM wird der logische Wert von P'[n] gleich "1" gemacht
94 TAKE SEGM{S[n] + n&sub2;-n&sub1;} Es wird das nächste Segment von Abtastwerten des Hilfssignals genommen.
In den Blöcken 60 und 62 wird das Programm gestartet, wenn es ein stimmhaftes Sprachsignal gibt und die benutzten Variablen werden auf einen gewünschten Ausgangswert eingestellt. In dem Block 64 wird ein Segment des Signals S[n] gespeichert. Die Länge dieses Segmentes kann einen Wert zwischen 20-40 ms haben.
In dem Block 66 wird überprüft, ob das Segment von S[n] noch immer stimmhaft ist. Wenn das Signal nicht länger stimmhaft ist, wird das Programm in dem Block 96 gestoppt. Die Information, ob das Sprachsignal stimmhaft ist, wird durch eine (nicht dargestellte) Prozedur erzeugt.
In dem Block 68 wird die laufende Energiefunktion E[n] berechnet. Dies kann nach (1) effektuiert werden. Danach wird in dem Block 70 der charakteristische Hilfssignalteil extrahiert, der nach (2) effektuiert werden kann. Indem Schritt 72 wird das amplitudengesteuerte Hilfssignal Sec[n] berechnet. Dazu wird zunächst eine Größe Se[n] für die Umhüllende des Hilfssignal berechnet. Dies kann wie folgt durchgeführt werden:
Se[n] = S[n - i] · h[i] (10)
In (10) ist i eine laufende Variable, L ist die Länge der Stoßantwort des Filters, simuliert durch (10), und h[i] ist die Stoßantwort des Filters, simuliert durch (10). Ein sich als geeignet erwiesener Grenzfrequenzwert des durch (10) simulierten Filters ist 25 Hz. Ein geeigneter Wert von L ist 121.
Ein Amplitudenkorrektursignal 1c[n] wird aus dem Signal Se[n] berechnet, und zwar gemäß:
Mit Hilfe von (11) wird ein amplitudengesteuertes Hilfssignal Sec[n] wie folgt hergeleitet:
Sec[n] = S[n] ec[n] (12)
Es wurde gefunden, dass in dem Fall einer niedrigen Amplitude des Hilfssignals die Amplitudenkorrektur unerwünschte sekundäre Spitzen derart verstärkt, dass sie als gewünschte Spitzen detektiert werden. Um dies zu vermeiden, kant die Amplitudenkorrektur angeschaltet werden, wenn die (mittlere) Amplitude des Hilfssignals einen bestimmten Schwellenwert unterschreitet.
In dem Block 74 wird die Korrelationsfunktion Rsf[n] berechnet. Dies geschieht gemäß (3) oder (4). Danach wird in dem Block 76 das Signal A[n] gemäß (8) berechnet, und in dem Block 78 wird das Signal P[n] dadurch berechnet, dass der nicht lineare Vorgang nach (9) durchgeführt wird.
In dem Block 80 werden die unerwünschten sekundären Impulse aus dem Signal A[n] entfernt. Dies kann auf die bereits oben beschriebene Art und Weise erfolgen.
In dem Block 82 werden die Positionen n&sub1; und n&sub2; der ersten zwei Impulse in dem Signal P[n] des aktuellen Segmentes berechnet. Danach wird in dem Block 84 überprüft, ob das aktuelle Segment das erste Segment ist, das stimmhafte Sprache enthält. Wenn ja, wird in dem Block 86 in das Signal P'[n] ein Merker eingeführt, und zwar an den Stellen, die n&sub1; und n&sub2; entsprechen. In dem Block 88 wird die Position des zuletzt in das Signal P'[n] eingeführten Pitchmerkers zur späteren Verwendung in variablen LPM gespeichert.
Wenn das aktuelle Segment nicht das erste Segment ist, dass stimmhafte Sprache enthält, wird die Position des letzten Pitchmerkers in dem Block 90 dadurch berechnet, dass der Wert n&sub2;-n&sub1; zu dem alten Wert von LPM hinzuaddiert. Danach wird in dem Block 92 an die Stelle LPM ein Pitchmerker in dem Signal P'[n] gesetzt.
In dem Block 94 wird das nächste Segment genommen. Dieses Segment ist nicht angrenzend an das vorhergehende Segment, sondern überlappt dasselbe. Der Anfang des nächsten Segmentes wird um n&sub2;-n&sub1; Abtastwerte verschieben. Der Grund dazu ist, dass in dem Fall eines Übergangs zwischen zwei benachbarten Segmenten ungleichmäßige Änderungen in dem gebildeten Pitchwert auftreten können im Falle variabler charakteristischer Signalteile. Dadurch, dass dafür gesorgt wird, dass die Segmente sich weitgehend überlappen, wird dies weitgehend vermieden.
Nach dem Block 94 geht man wieder zu dem Block 66 zum Verarbeiten des neuen Segmentes.

Claims

1. Übertragungssystem mit einem Sender (2) mit einem Codierer zum Herleiten eines codierten Signals aus einem quasi-periodischen Signal (S'[n]), wobei der Sender (2) vorgesehen ist zum Ausstrahlen des codierten Signals zu einem Empfänger (6) über ein Medium (4), wobei der Codierer einen Pitchdetektor (12) aufweist zum Herleiten von Pitchinformation (P'[n]) aus dem quasi-periodischen Signal (S'[n]), dadurch gekennzeichnet, dass der Pitchdetektor (12) Selektionsmittel (24) aufweist zum Selektieren eines einzelnen charakteristischen Signalteils (f[n]) eines Hilfssignals (S[n]), wobei dieses Hilfssignal (S[n]) für das quasi-periodische Signal (S'[n]) repräsentativ ist, weiterhin Suchmittel (28) zum Suchen wenigstens eines weiteren Signalteils des Hilfssignals (S[n]), das dem einzelnen charakteristischen Hilfssignalteil (f[n]) ausreichend entspricht, und Mittel (36) zum Herleiten der Pitchinformation (P'[n]) aus den Zeitpunkten, an denen der einzelne charakteristische Hilfssignalteil (f[n]) und der weitere Signalteil auftreten.

2. Übertragungssytem nach Anspruch 1, dadurch gekennzeichnet, dass die selektionsmittel (24) zum Selektieren des einzelnen charakteristischen Hilfssignalsteils (f[n]), der einen maximalen laufenden Energiewert über ein bestimmtes Zeitsegment hat.

3. Übertragungssystem nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Dauer des einzelnen charakteristischen Hilfssignalteils (f[n]) kleiner ist als die kürzeste auftretende Pitchperiode oder dieser Periode entspricht.

4. Übertragungssystem nach Anspruch 1, 2 oder 3, dadurch gekennzeichnet, dass die Suchmittel (28) Korrelationsmittel aufweisen zum Berechnen der Korrelation zwischen dem einzelnen charakteristischen Signalteil (f[n]) und dem Hilfssignalteil (S[n]), wobei die Pitchinformation durch die Position der Spitzen in der Korrelationsfiinktion dargestellt wird.

5. Übertragungssystem nach Anspruch 4, dadurch gekennzeichnet, dass der Pitchdetektor (12) Mittel (32) aufweist zum Berechnen der Oberfläche der Spitzen in der Korrelationsfunktion (A[n]), wobei der Pitchdetektor vorgesehen ist zum Herleiten der Pitchinformation aus der Oberfläche der Spitzen der Korrelationsfunktion (A[n]), aufgetragen gegenüber Zeit.

6. Übertragungssystem nach Anspruch 5, dadurch gekennzeichnet, dass der Pitchdetektor (12) Expansionsmittel (34) aufweist zum Umwandeln der Oberfläche der Spitzen der Korrelationsfunktion (A[n]) zu expandierten Oberflächenwerten (P[n]) der Spitzen der Korrelationsfunktion.

7. Codierer zum Herleiten eines codierten Signals aus einem quasiperiodischen Signal (S'[n]), wobei der Codierer einen Pitchdetektor (12) aufweist zum Herleiten von Pitchinformation (P'[n]) aus dem quasi-periodischen Signal (S'[n]), dadurch gekennzeichnet, dass der Pitchdetektor (12) Selektionsmittel (24) aufweist zum Selektieren eines einzelnen charakteristischen Signalteils (f[n]) eines Hilfssignals (S[n]), wobei dieses Hilfssignal (S[n]) repräsentativ ist für das quasi-periodische Signal (S'[n]), Suchmittel (28) zum Suchen nach wenigstens einem weiteren Signalteil des Hilfssignals (S[n]), der dem einzelnen charakteristischen Hilfssignalteil (f[n]) ausreichend entspricht, und Mittel (36) zum Herleiten der Pitchinformation (P'[n]) aus den Zeitpunkten, an denen der einzelne charakteristische Hilfssignalteil (f[n]) und der weitere Signalteil auftreten.

8. Codierer nach Anspruch 7, dadurch gekennzeichnet, dass die Selektionsmittel (24) vorgesehen sind zum Selektieren des einzelnen charakteristischen Hilfssignalteils (f[n]), der einen maximalen laufenden Energiewert über ein bestimmtes Zeitsegment hat.

9. Anordnung (12) zum Berechnen der Periode des quasi-periodischen Signals (S'[n]), dadurch gekennzeichnet, dass die Anordnung (12) Selektionsmittel (24) aufweist zum Selektieren eines einzelnen charakteristischen Signalteils (f[n]) eines Hilfssignals (S[n]), wobei dieses Hilfssignal (S[n]) repäsentativ ist für das quasiperiodische Signal (S'[n]), Suchmittel (28) zum Suchen nach wenigstens einem weiteren Signalteil des Hilfssignals (S[n]), der dem einzelnen charakteristischen Hilfssignalteil (f[n]) ausreichend entspricht, und Mittel (36) zum Herleiten der Pitchinformation (P'[n]) aus den Zeitpunkten, an denen der einzelne charakteristische Hilfssignalteil (f[n]) und der weitere Signalteil auftreten.

10. Codierungsverfahren zum Herleiten eines codierten Signals aus einem quasi-periodischen Signal (S'[n]), wobei das Codierungsverfahren das Herleiten von Pitchinformation (P'[n]) aus dem quasi-periodischen Signal (S'[n]) umfasst, dadurch gekennzeichnet, dass das Verfahren das Selektieren eines einzelnen charakteristischen Signalteils (f[n]) eines Hilfssignals (S[n]) umfasst, wobei dieses Hilfssignal (S[n]) repräsentativ ist für das quasi-periodische Signal (S'[n]), das Suchen nach einem weiteren Signalteil des Hilfssignals (S[n]), der dem einzelnen charakteristischen Hilfssignalteil (f[n]) ausreichen entspricht und das Herleiten von Pitchinformation (P'[n]) aus den Zeitpunkten, an denen der einzelne charakteristische Hilfssignalteil (f[n]) und der weitere Signalteil auftreten.