DE60025596T2

DE60025596T2 - Verfahren zur feststellung der wahrscheinlichkeit, dass ein sprachsignal stimmhaft ist

Info

Publication number: DE60025596T2
Application number: DE60025596T
Authority: DE
Inventors: Suat Germantown YELDENER
Original assignee: Comsat Corp
Current assignee: Comsat Corp
Priority date: 1999-02-23
Filing date: 2000-02-23
Publication date: 2006-09-14
Anticipated expiration: 2020-02-24
Also published as: AU3694800A; US6253171B1; ES2257289T3; ATE316282T1; EP1163662B1; DE60025596D1; US6377920B2; WO2000051104A1; EP1163662A1; EP1163662A4; US20010018655A1

Description

Bereich der Erfindung
Die vorliegende Erfindung bezieht sich auf ein Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit (voicing probability), welches einen Prozentsatz an nicht stimmhafter und stimmhafter Energie in einem Sprachsignal anzeigt. Speziell bezieht sich die vorliegende Erfindung auf ein Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit für eine Anzahl von Bändern eines Sprachspektrums eines Sprachsignals für die Verwendung bei der Sprachcodierung, um die Sprachqualität bei einer Vielzahl von Eingangszuständen zu verbessern.
Hintergrund der Erfindung
Die Entwicklung von Sprachcodierverfahren mit geringer Bitrate (4,8 kb/s und darunter) mit sehr hoher Sprachqualität ist gegenwärtig eine populäre Forschungsaufgabe. Um eine Sprachkompression mit hoher Qualität zu erreichen, ist eine robuste Stimmhaftigkeitsklassifizierung der Sprachsignale erforderlich.
Eine genaue Wiedergabe von Sprachsignalen der stimmhaften oder gemischten Art ist für das Synthetisieren sehr hoch qualitativer Sprache bei niedrigen Bitraten (4,8 kb/s und darunter) unentbehrlich. Für Bitraten von 4,8 kb/s und darunter liefert die herkömmliche Code Excited Linear Prediction bzw. Codeangeregte lineare Vorhersage (CELP) nicht den passenden Grad an Periodizität. Eine kleine Code-Buchgröße und Grobquantisierung der Verstärkungsfaktoren bei diesen Raten führen zu großen spektralen Fluktuationen zwischen den Tonhöhenoberwellen. Alternative Sprachcodieralgorithmen für CELP sind Techniken für Oberwellen. Jedoch erfordern diese Techniken robuste Ton höhen- und Stimmhaftigkeitsalgorithmen, um eine Sprache hoher Qualität zu erzeugen.
Zuvor wurde die Information der Stimmhaftigkeit mit einer Vielzahl von Wegen geboten. Bei einer Vorgehensweise kann ein gesamter Rahmen der Sprache entweder als stimmhaft oder als nicht stimmhaft klassifiziert werden. Obwohl diese Art zur Festlegung bzw. Bestimmung der Stimmhaftigkeit sehr effizient ist, führt sie zu einer synthetischen, unnatürlichen Sprachqualität.
Eine andere Vorgehensweise zur Bestimmung der Stimmhaftigkeit basiert auf der Vielband-Technik. Bei dieser Technik wird das Sprachspektrum in verschiedene Zahlen von Bändern aufgeteilt, und es wird eine binäre Entscheidung über die Stimmhaftigkeit (stimmhaft oder nicht stimmhaft) für jedes Band getroffen. Obwohl diese Art der Bestimmung der Stimmhaftigkeit viele Bits erfordert, um die Information über die Stimmhaftigkeit wiederzugeben, können Fehler während der Klassifizierung der Stimmhaftigkeit auftreten, da das Bestimmungsverfahren zur Stimmhaftigkeit ein nicht perfektes Modell ist, welches ein gewisses "Brummen" und Artefakte in die synthetisierte Sprache einführt. Diese Fehler sind sehr wahrnehmbar, speziell bei niedrigen Frequenzbändern.
Ein weiteres Verfahren zur Bestimmung der Stimmhaftigkeit basiert auf einer Grenzfrequenz der Stimmhaftigkeit. In diesem Fall werden die Frequenzanteile unterhalb der Grenzfrequenz als stimmhaft und diejenigen oberhalb der Grenzfrequenz als nicht stimmhaft betrachtet. Obwohl die Technik effizienter als das herkömmliche Konzept der Vielband-Stimmhaftigkeit ist, ist es nicht in der Lage, eine stimmhafte Sprache für hohe Frequenzkomponenten zu erzeugen.
Entsprechend ist es eine Aufgabe der vorliegenden Erfindung, ein Verfahren zur Stimmhaftigkeit zu liefern, welches es gestattet, dass jedes Frequenzband sowohl aus stimmhafter als auch aus nicht stimmhafter Energie aufgebaut ist, um die Ausgangssprachqualität zu verbessern.
In der US 5774837A wird ein Verfahren zum Bestimmen der Stimmhaftigkeitswahrscheinlichkeit eines Sprachsignals veröffentlicht, welches die Schritte aufweist: Erzeugen eines Originalspektrums S_ω(ω) des Sprachsignals, wobei ω eine Frequenz ist, Erzeugen eines synthetischen Sprachspektrums aus dem Originalsprachspektrum, basierend auf der Annahme, dass das Sprachsignal rein stimmhaft ist, Aufteilen des Originalsprachspektrums und des synthetischen Sprachspektrums in eine Vielzahl von Bändern, wobei jedes eine Vielzahl von Frequenzen enthält, Vergleichen des Original-synthetischen Sprachspektrums innerhalb jedes Bandes und Bestimmen der Stimmhaftigkeitswahrscheinlichkeit für jedes Band auf der Basis dieses Vergleichs.
Zusammenfassung der Erfindung
Entsprechend der vorliegenden Erfindung, wie in den angehängten Ansprüchen beansprucht, wird ein Verfahren zur Bestimmung der Stimmhaftigkeitswahrscheinlichkeit geliefert, um einen Prozentsatz von nicht stimmhafter und stimmhafter Energie für jede Oberwelle innerhalb jedes Bandes aus einer Vielzahl von Bändern eines Sprachsignalspektrums abzuschätzen.
Anfangs wird ein synthetisches Sprachspektrum basierend auf der Annahme erzeugt, dass die Sprache rein stimmhaft ist. Das originale Sprachspektrum und das synthetische Sprachspektrum werden dann in eine Vielzahl von Bändern aufgeteilt. Das synthetische und das originale Sprachspektrum werden dann vergli chen, Oberwelle um Oberwelle, und jeder Oberwelle der Bänder des Originalsprachspektrums wird eine Entscheidung über die Stimmhaftigkeit zugeordnet, entweder als vollständig stimmhaft oder nicht stimmhaft durch Vergleichen des Fehlers mit einem adaptiven Schwellwert. Wenn der Fehler für jede Oberwelle kleiner als der adaptive Schwellwert ist, wird die entsprechende Oberwelle als stimmhaft erklärt; anderenfalls wird die Oberwelle als nicht stimmhaft erklärt. Die Stimmhaftigkeitswahrscheinlichkeit für jedes Band wird dann als das Verhältnis zwischen der Anzahl von stimmhaften Oberwellen zu der Gesamtanzahl der Oberwellen innerhalb des entsprechenden Entscheidungsbandes berechnet.
Außerdem wird das Signal/Rausch-Verhältnis für jedes der Bänder basierend auf dem originalen und dem synthetischen Sprachspektrum bestimmt, und die Stimmhaftigkeitswahrscheinlichkeit für jedes Band wird basierend auf dem Signal/Rausch-Verhältnis für das einzelne Band bestimmt.
Kurze Beschreibung der Zeichnungen
Die vorliegende Erfindung wird im Detail nachfolgend mit Bezug auf die beigefügten Figuren beschrieben, in welchen:
1 ein Blockdiagramm des Verfahrens der Stimmhaftigkeitswahrscheinlichkeit entsprechend einer ersten Ausführungsform der vorliegenden Erfindung ist;
2 ein Blockdiagramm des Verfahrens zur Stimmhaftigkeitswahrscheinlichkeit entsprechend einer zweiten Ausführungsform der vorliegenden Erfindung ist; und
3A und 3B Blockdiagramme jeweils eines Sprachcodierers und -decodierers sind, welche das Verfahren der vorliegenden Erfindung beinhalten.
Detaillierte Beschreibung der Erfindung
Um die Stimmhaftigkeit eines Segmentes der Sprache abzuschätzen, nimmt das Verfahren der vorliegenden Erfindung an, dass eine Tonhöhenperiode (Fundamental- bzw. Grundfrequenz) eines Eingangssprachsignals bekannt ist. Anfangs wird ein Sprachspektrum S_ω(ω) aus einem Segment eines Eingangssprachsignals erhalten, indem eine Verarbeitung mit einer Fast Fourier Transformation bzw. Schnellen Fourier-Transformation (FFT) benutzt wird. Außerdem wird ein synthetisches Sprachspektrum basierend auf der Annahme geschaffen, dass das Segment des Eingangssprachsignals voll stimmhaft ist.
1 stellt eine erste Ausführungsform des Verfahrens zur Bestimmung der Stimmhaftigkeitswahrscheinlichkeit der vorliegenden Erfindung dar. Das Sprachspektrum S_ω(ω) wird an einen Oberwellen-Sample- bzw. Abtastabschnitt 1 geliefert, in welchem das Sprachspektrum S_ω(ω) bei Oberwellen der Grundfrequenz abgetastet wird, um eine Größe jeder Oberwelle zu erhalten. Die Oberwellengrößen werden an einen Abschnitt 2 zur Rekonstruktion des Spektrums geliefert, in welchem eine Keule (Bandbreite der Oberwelle) für jede Oberwelle erzeugt wird, und jede Oberwellenkeule wird normiert, um eine Spitzenamplitude zu besitzen, welche gleiche der entsprechenden Oberwellengröße der Oberwelle ist, um ein synthetisches Sprachspektrum Ŝ_ω(ω) zu erzeugen. Das Originalsprachspektrum S_ω(ω) und das synthetische Sprachspektrum Ŝ_ω(ω) werden dann in verschiedene Zahlen von Entscheidungsbändern B (z.B. typischerweise 8 nicht gleichförmige Frequenzbänder) über einen Bandaufteilungsabschnitt 3 aufgeteilt.
Als Nächstes werden die Entscheidungsbänder B des Originalsprachspektrums von S_ω(ω) und des synthetischen Sprachspektrums Ŝ_ω(ω) an einen Berechnungsabschnitt 4 für ein Signal/Rausch-Verhältnis (SNR) geliefert, in welchem ein Signal/Rausch-Verhältnis, SNR_b, für jedes Band b aus der gesamten Anzahl von Entscheidungsbändern B wie folgt berechnet wird:
wobei W_b der Frequenzbereich eines b-ten Entscheidungsbandes ist.
Das Signal/Rausch-Verhältnis SNR_b für jedes Entscheidungsband b wird an einen Berechnungsabschnitt 5 für die Stimmhaftigkeitswahrscheinlichkeit geliefert, in welchem eine Stimmhaftigkeitswahrscheinlichkeit, Pν(b), für das b-te Band dann berechnet wird als:
wobei 0 ≤ β ≤ 1 ein konstanter Faktor ist, welcher experimentell festgelegt werden kann. Das Experimentieren hat gezeigt, dass der typische optimale Wert von β 0,5 ist.
2 ist ein Blockdiagramm, welches eine zweite Ausführungsform des Verfahrens zur Bestimmung der Stimmhaftigkeitswahrscheinlichkeit der vorliegenden Erfindung zeigt. Wie in
1, wird das synthetische Sprachspektrum Ŝ_ω(ω) durch den Oberwellen-Sampling-Abschnitt 1 und den Abschnitt 2 zur Rekonstruktion des Spektrums erzeugt, und das Originalsprachspektrum S_ω(ω) und das synthetische Sprachspektrum Ŝ_ω(ω) werden in eine Vielzahl von Entscheidungsbändern B durch einen Abschnitt 3 des Bandaufteilens aufgeteilt. Das Originalsprachspektrum S_ω(ω) und das synthetische Sprachspektrum Ŝ_ω(ω) werden dann verglichen, Oberwelle für Oberwelle, für jedes Entscheidungsband b durch einen Abschnitt 6 zur Klassifikation einer Oberwelle. Falls der Unterschied zwischen dem Originalsprachspektrum S_ω(ω) und dem synthetischen Sprachspektrum Ŝ_ω(ω) für das Entscheidungsband b kleiner als der adaptive Schwellwert ist, wird die entsprechende Oberwelle als stimmhaft durch den Abschnitt 6 zur Klassifikation der Oberwelle erklärt, anderenfalls wird die Oberwelle als nicht stimmhaft erklärt. Im Einzelnen wird jede Oberwelle des Sprachspektrums bestimmt, dass sie entweder stimmhaft, V (k) = 1, oder nicht stimmhaft, V(k) = 0, ist (wobei k die Anzahl der Oberwellen bzw. Harmonischen und 1 ≤ k ≤ L ist), abhängig von der Größe der Differenz (dem Fehler) zwischen dem originalen Sprachspektrum S_ω(ω) und dem synthetischen Sprachspektrum Ŝ_ω(ω) für die entsprechende Oberwelle k. Hier ist L die Gesamtanzahl der Oberwellen bzw. Harmonischen innerhalb eines 4-kHz-Sprachbandes.
Die Stimmhaftigkeitswahrscheinlichkeit Pν(b) für jedes Band b wird dann durch einen Abschnitt 7 zur Stimmhaftigkeitswahrscheinlichkeit berechnet, als das Energieverhältnis zwischen dem stimmhaften und allen Oberwellen innerhalb des entsprechenden Entscheidungsbandes:
wobei V(k) die binäre Entscheidung über die Stimmhaftigkeit und A(k) die spektrale Amplitude für die k-te Oberwelle innerhalb des b-ten Entscheidungsbandes ist.
Das oben beschriebene Verfahren der Bestimmung der Stimmhaftigkeitswahrscheinlichkeit kann in einem Harmonic Excited Linear Predictive Coder bzw. Oberwellen angeregter linearer Vorhersage-Codierer (HE-LPC) angewendet werden, wie dies in den Blockdiagrammen der 3A und 3B gezeigt wird. In dem HE-LPC-Codierer (3A) besteht die Vorgehensweise, um ein Eingangssprachsignal darzustellen, darin, ein Sprachherstellungsmodell zu benutzen, wobei die Sprache als Ergebnis des Durchlaufenlassens eines Anregungssignals durch ein lineares, die Zeit variierendes LPC-inverses Filter gebildet wird, welches die Resonanzcharakteristika der spektralen Spracheinhüllenden nachbildet. Das LPC-inverse Filter wird durch die LPC-Koeffizienten repräsentiert, welche in der Form von Linienspektralfrequenzen (LSF) quantisiert sind. In dem HE-LPC wird das Anregungssignal durch die Grundfrequenz, durch die spektralen Oberwellenamplituden und die Stimmhaftigkeitswahrscheinlichkeiten für verschiedene Frequenzbänder spezifiziert.
Am Decoder (3B) wird der stimmhafte Teil des Anregungsspektrums als die Summe der Sinusoberwellen bestimmt, welche richtige stimmhafte/nicht stimmhafte Energieverhältnisse ergeben, basierend auf den Stimmhaftigkeitswahrscheinlichkeiten für jedes Frequenzband. Die Oberwellen-Phasen der Sinuswellen werden aus der vorherigen Information des Rahmens vorhergesagt. Für den nicht stimmhaften Teil des Anregungsspektrums wird ein weißes Rauschspektrum bezüglich nicht stimmhafter O-berwellenamplituden normiert, um geeignete stimmhafte/nicht stimmhafte Energieverhältnisse für jedes Frequenzband zu liefern. Die stimmhaften und nicht stimmhaften Anregungssignale werden dann zusammenaddiert, um das gesamte synthetisierte Anregungssignal zu bilden. Die resultierende Anregung wird dann durch ein lineares zeitvariierendes LPC-Filter so geformt, um die endgültige synthetisierte Sprache zu bilden. Um die Ausgangssprachqualität zu erhöhen und diese reiner zu machen, wird ein Frequenzdomäne-Nachfilter benutzt.
Informelle Hörtests haben aufgezeigt, dass der HE-LPC-Algorithmus eine sehr hohe Sprachqualität für eine Vielzahl von sauberen Eingangs- und Hintergrundrauschzuständen erzeugt. Das Experimentieren hat gezeigt, dass größere Verbesserungen durch das Benutzen des Verfahrens zur Bestimmung der Stimmhaftigkeitswahrscheinlichkeit der vorliegenden Erfindung in dem HE-LPC eingebracht wurden.
Obwohl die vorliegende Erfindung mit Bezug auf bevorzugte Ausführungsformen gezeigt und beschrieben wurde, werden verschiedene Änderungen und Modifikationen innerhalb des Umfangs der Erfindung für Fachleute schließlich offenbar werden. Der Umfang der Erfindung wird durch die angehängten Ansprüche definiert.

Claims

Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit eines Sprachsignals, welches die Schritte aufweist: Erzeugen eines Original-Sprachspektrums S_ω(ω) des Sprachsignals, wobei ω eine Frequenz ist; Erzeugen eines synthetischen Sprachspektrums Ŝ_ω(ω) aus dem Originalsprachspektrum S_ω(ω) basierend auf der Annahme, dass das Sprachsignal rein stimmhaft ist; Aufteilen des Originalsprachspektrums Ŝ_ω(ω) und des synthetischen Sprachspektrums Ŝ_ω(ω) in eine Vielzahl von Bändern B, wobei jedes eine Vielzahl von Frequenzen ω enthält, Vergleichen des originalen und des synthetischen Sprachspektrums innerhalb jedes Bandes; und Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit für jedes Band auf der Grundlage des Vergleichs, wobei die Stimmhaftigkeitswahrscheinlichkeit ein Wert ist, welcher einen Prozentsatz von nicht stimmhafter und stimmhafter Energie für jedes Band anzeigt, wobei angezeigt wird, ob jedes Band eine Mischung aus nicht stimmhafter und stimmhafter Energie enthält, wobei ferner der Schritt des Berechnens eines Signalrauschverhältnisses SNR_b für jedes Band b aus der Vielzahl von Bändern B basierend auf diesem Vergleich berechnet wird, wobei
wobei 1 ≤ b ≤ B und W_b der Frequenzbereich eines b-ten Entscheidungsbandes ist und wobei die Stimmhaftigkeitswahrscheinlichkeit gegeben ist durch: Pν(b) = 1,0, wenn SNR_b ≥ 40,
für 0 ≤ β ≤ 1, wenn 2,5 < SNR_b < 40, und Pν(b) = 0,0, wenn SNR_b ≤ 2,5, wobei Pν(b) die Stimmhaftigkeitswahrscheinlichkeit Pν(b) für das b-te Band ist und β ein vorher festgelegter Zahlenwert ist.
Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit eines Sprachsignals nach Anspruch 1, wobei der Schritt des Erzeugens eines synthetischen Sprachspektrums S_ω(ω) die Schritte aufweist: Abtasten des Originalsprachspektrums S_ω(ω) bei Oberwellen einer Grundfrequenz des Sprachsignals, um eine Oberwellenamplitude bzw. -wert für jede Oberwelle zu erhalten; Erzeugen einer Oberwelllenkeule für jede Oberwelle basierend auf der Oberwellenamplitude jeder Oberwelle; Normieren der Oberwellenkeule für jede Oberwelle, um eine Spitzenamplitude zu erhalten, welche gleich der Oberwellenamplitude jeder Oberwelle ist, um das synthetische Sprachspektrum S_ω(ω) zu erzeugen.
Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit für ein Sprachsignal nach Anspruch 1, wobei β gleich 0,5 ist.
Verfahren nach Anspruch 1, wobei ω eine Oberwelle einer Grundfrequenz des Sprachsignals wiedergibt und der Schritt des Vergleichens das Vergleichen des Original-Sprachspektrums und des synthetischen Sprachspektrums für jede Oberwelle jedes Bandes b aus der Vielzahl von Bändern B aufweist, um eine Differenz bzw. einen Unterschied zwischen dem Originalsprachspektrum und dem synthetischen Sprachspektrum für jede Oberwelle jedes Bandes b aus der Vielzahl von Entscheidungsbändern B zu bestimmen; und der Schritt des Bestimmens aufweist: Bestimmen, ob jede Oberwelle des Original-Sprachspektrums stimmhaft ist, V(k) = 1, oder nicht stimmhaft ist, V(k) = 0, basierend auf dem Unterschied zwischen dem Original-Sprachspektrum und dem synthetischen Sprachspektrum für jede Oberwelle k, wobei V(k) eine binäre Stimmhaftigkeitsfestlegung ist, 1 < k ≤ L, und L die Gesamtzahl der Oberwellen innerhalb eines 4-kHz-Sprachbandes ist; und Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit Pν(b) für jedes Band b, wobei
wobei A(k) eine spektrale Amplitude für die k-te Oberwelle im b-ten Band ist.
Verfahren zum Bestimmen einer Stimmhaftigkeitswahrscheinlichkeit eines Sprachsignals nach Anspruch 4, wobei der Schritt des Erzeugens eines synthetischen Sprachspektrums die Schritte aufweist: Abtasten des Originalsprachspektrums bei Oberwellen einer Grundfrequenz des Sprachsignals, um eine Oberwellenamplitude für jede Oberwelle zu erhalten; Erzeugen einer Oberwellenkeule für jede Oberwelle, basierend auf der Oberwellenamplitude jeder Oberwelle; und Normieren der Oberwellenkeule für jede Oberwelle, um eine Spitzenamplitude zu besitzen, welche gleich der Oberwellenamplitude jeder Oberwelle ist, um das synthetische Sprachspektrum zu erzeugen.