-
VERWANDTE
ANMELDUNGEN
-
Diese
Anmeldung beansprucht die Priorität der vorläufigen US-Anmeldung Nr. US
19970036227P mit dem Titel "Voice
Conversion by Segmental Codebook Mapping of Line Spectral Frequencies
and Excitation System",
die am 27. Januar 1997 von Levent M. Arslan und David Talkin eingereicht
wurde.
-
GEBIET DER
ERFINDUNG
-
Die
vorliegende Erfindung betrifft Stimmumwandlung und insbesondere
Systeme und Methodologien zur Codebuch-basierten Stimmumwandlung.
-
ALLGEMEINER
STAND DER ERFINDUNG
-
Ein
System zur Stimmumwandlung empfängt
Sprache von einem Sprecher und wandelt die Sprache so um, dass sie
wie die Sprache eines anderen Sprechers klingt. Stimmumwandlung
ist in einer Vielfalt von Anwendungen nützlich. Beispielsweise kann
ein Spracherkennungssystem so ausgebildet werden, dass es die Stimme
einer bestimmten Person oder eine normalisierte Zusammensetzung
von Stimmen erkennt. Die Stimmumwandlung im Vorfeld (front-end)
des Spracherkennungssystems ermöglicht
es einer neuen Person, das System effizient zu nutzen, indem die
Stimme der neuen Person in die Stimme umgewandelt wird, für deren Erkennung
das Spracherkennungssystem ausgelegt ist. In einem nachgeschalteten
Verarbeitungsschritt ändert
die Stimmumwandlung die Stimme eines Text/Sprache-Sprachgenerators.
Die Stimmumwandlung findet auch Anwendungen beim Stimmen unkenntlich
machen, bei Dialekt-Modifizierungen, beim Synchronisieren in Fremdsprachen,
um die Stimme eines Original-Schauspielers beizubehalten, und bei
neuen Systemen, wie beispielsweise der Nachahmung der Stimme von
Prominenten, beispielsweise in Karaoke-Anlagen.
-
Um
Sprache von einer "Ausgangs"-Stimme in eine "Ziel"-Stimme umzuwandeln,
werden Codebücher der
Ausgangsstimme und Zielstimme üblicherweise
in einer Ausbildungs phase vorbreitet. Ein Codebuch ist eine Sammlung
von "Phonemen" (phones), die Einheiten
von Sprachklängen
sind, die eine Person äußert. Beispielsweise
enthält
das gesprochene englische Wort "cat" im allgemeinen amerikanischen
Dialekt drei Phoneme [K], [AE] und [T], und das Wort "cot" enthält drei
Phoneme [K], [AA] und [T]. In diesem Beispiel haben "cat" und "cot" den Anfangs- und
Endkonsonanten gemeinsam, verwenden aber unterschiedliche Vokale.
Codebücher
sind so strukturiert, dass sie eine Eins-zu-Eins-Zuordnung zwischen den Phonem-Einträgen in einem Quellen-Codebuch
und den Phonem-Einträgen
in dem Ziel-Codebuch bereitstellen.
-
Das
US-Patent Nr. 5,327,521 beschreibt ein herkömmliches System zur Stimmumwandlung,
das eine Codebuch-Methode verwendet. Ein Eingangssignal von einem
Ausgangssprecher wird abgetastet und durch Segmentierung in "Rahmen" aufbereitet, die
einer Spracheinheit entsprechen. Jeder Rahmen wird mit dem "am nächsten kommenden" Quellen-Codebucheintrag
abgeglichen und anschließend
zu dem entsprechenden Ziel-Codebucheintrag zugeordnet, um ein Phonem
in der Stimme des Zielsprechers zu erhalten. Die zugeordneten Rahmen
werden verkettet, um Sprache in der Zielstimme zu erzeugen. Ein
Nachteil bei diesem und ähnlichen
Systemen zur Stimmumwandlung ist die Einführung von Artefakten an Rahmengrenzen,
die zu einem ziemlich groben Übergang
zwischen den Zielrahmen führen.
Des Weiteren wird die Abweichung zwischen dem Klang des Rahmens
mit eingegebener Sprache (input speech frame) und dem Quellen-Codebucheintrag
verworfen, der die beste Entsprechung ist, was zu einer Stimmumwandlung
mit geringer Qualität
führt.
-
Eine
allgemeine Ursache für
die Abweichung zwischen den Klängen
in der Sprache und im Codebuch besteht darin, dass die Klänge je nach
ihrer Position in einem Wort unterschiedlich sind. Beispielsweise
besitzt das Phonem /t/ mehrere "Allophone". Am Anfang eines
Worts, wie in der allgemeinen amerikanischen Aussprache des Worts "top", ist das /t/-Phonem
ein stimmloser, harter, gehauchter alveolarer Stopplaut. In einer Anfangsgruppe
mit einem /s/, wie im Wort "stop", ist es ein stimmloser,
harter, nicht gehauchter alveolarer Stopplaut. In der Mitte eines
Worts zwischen Vokalen, wie in "potter", ist es ein alveolarer
Flap. Am Ende eines Wortes, wie in "pot",
ist es ein stimmloser, weicher, nicht gehauchter alveolarer Stopplaut.
Obwohl die Allophone eines Konsonanten wie /t/ unterschiedlich ausgesprochen
werden, erzeugt ein Codebuch mit nur einem Eintrag für das /t/-Phonem
nur eine Art von /t/-Klang und damit eine nicht überzeugende Ausgabe. Der Satzrhythmus
trägt ebenfalls
zu Unterschieden im Klang bei, da ein Konsonant oder Vokal etwas
anders klingen, wenn sie in einer höheren oder tieferen Stimmlage,
mehr oder weniger schnell und mit mehr oder weniger Betonung gesprochen
werden.
-
Dementsprechend
besteht ein herkömmlicher
Versuch, die Qualität
der Stimmumwandlung zu verbessern darin, die Menge der Ausbildungsdaten
und die Anzahl der Codebuch-Einträge stark zu erhöhen, um
die verschiedene Allophone der gleichen Phoneme und unterschiedliche
prosodische Bedingungen zu berücksichtigen.
Umfangreichere Codebuch-Größen führen zu
erhöhten
Speicher- und Rechnerkosten. Herkömmliche Systeme zur Stimmumwandlung
leiden auch deswegen unter einem Qualitätsverlust, weil sie ihre Codebuch-Zuordnung
typischerweise in einem akustischen Raum durchführen, der durch lineare prädiktive
Codierungskoeffizienten definiert wird. Die lineare prädiktive
Codierung ist eine allpolige Modellierung von Sprache und stellt
daher die Nullen in einem Sprachsignal, die im Allgemeinen häufiger in
Nasallauten und in nicht an der Stimmritze erzeugten Klängen zu
finden sind, nicht adäquat
dar. Die lineare prädiktive
Codierung hat auch Schwierigkeiten mit Klängen in höheren Stimmlagen, beispielsweise
Frauenstimmen und Kinderstimmen.
-
Der
Artikel "Speaker
adaptation and voice conversion by codebook mapping", Shikano K. und
andere, 1999, IEEE Internationales Symposium über Schaltkreise und Systeme
offenbart ein Verfahren zum Umwandeln eines Quellensignals einer
Ausgangsstimme in ein Zielsignal, das eine Zielstimme darstellt.
Das System weist maschinenimplementierte Schritte auf.
-
Es
besteht ein Bedarf an einem System und einer Methodologie zur Stimmumwandlung,
die eine Ausgabe mit verbesserter Qualität aufweisen, die vorzugsweise
aber immer noch rechnerisch handhabbar sind. Unterschiede im Klang
auf Grund von Wortstellung und Satzrhythmus müssen behandelt werden, ohne
die Größe der Codebücher zu
erhöhen.
Des Weiteren besteht ein Bedarf, Stimm-Merkmale zu berücksichtigen, die
von der linearen prädiktiven
Codierung nicht gut unterstützt
werden, wie beispielsweise die Anregung der Glottis, nasalierte
Klänge
und Klänge,
die nicht an der Stimmritze entstehen.
-
Dementsprechend
ist ein Gesichtspunkt der Erfindung ein Verfahren zum Umwandeln
eines Quellensignals, das eine Ausgangsstimme darstellt, in ein
Zielsignal, das eine Zielstimme darstellt, wobei das Verfahren die
folgenden maschinenimplementierten Schritte umfasst:
-
- Aufbereiten des Quellensignals zum Erzeugen eines Quellensignalsegments;
- Vergleichen des Quellensignalsegments mit einer Vielzahl von
Quellen-Codebucheinträgen,
die Sprecheinheiten in der Ausgangsstimme darstellen, um daraus
eine Vielzahl von entsprechenden Wertigkeiten zu erzeugen;
- Umwandeln des Quellensignalsegments in ein Zielsignalsegment
auf der Basis der Vielzahl von Wertigkeiten und einer Vielzahl von
Ziel-Codebucheinträgen,
die Sprecheinheiten in der Zielstimme darstellen, wobei die Ziel-Codebucheinträge der Vielzahl
von Quellen-Codebucheinträgen
entsprechen; und
- Nachbearbeiten des Zielsignalsegments zum Generieren des Zielsignals;
dadurch gekennzeichnet, dass das Umwandeln des Quellensignalsegments
in ein Zielsignalsegment das Reduzieren von Formanten-Bandbreiten
in dem Zielsegment umfasst.
-
Die
Erfindung umfasst auch ein entsprechendes computerlesbares Medium.
-
Unter
einem anderen Gesichtspunkt der Erfindung wird das Quellensignalsegment
mit den Quellen-Codebucheinträgen
als Linienspektrum-Frequenzen verglichen, um das Berechnen des gewichteten Durchschnittwerts
zu erleichtern. Unter noch einem weiteren Gesichtspunkt der Erfindung
werden die Wertigkeiten durch eine Gradientabfall-Analyse verfeinert,
um die Stimmenqualität
weiter zu verbessern. Unter einem weiteren Gesichtspunkt der Erfindung
werden beide, Vokaltrakt-Merkmale und Anregungsmerkmale entsprechend
den Wertigkeiten umgewandelt, wobei Anregungsmerkmale in einer rechnerisch
handhabbaren Weise bearbeitet werden.
-
Weitere
Anforderungen, Aufgaben, Vorteile und neue Merkmale der vorliegenden
Erfindung werden teilweise in der folgenden Beschreibung erläutert und
werden teilweise aus der Prüfung
oder durch die Anwendung der Prüfung
offenkundig oder erfahren. Die Aufgaben und Vorteile der Erfindung
können
durch die in den Ansprüchen
im Anhang besonders hervorgehobenen Mitwirkungen und Kombinationen
ausgeführt
und erhalten werden.
-
KURZE BESCHREIBUNG
DER ZEICHNUNGEN
-
Die
vorliegende Erfindung wird beispielhaft, aber nicht einschränkend in
den Figuren der folgenden begleitenden Zeichnungen veranschaulicht,
und in diesen beziehen sich gleiche Bezugszeichen auf ähnliche
Elemente:
-
1 stellt schematisch ein
Computersystem dar, das die vorliegende Erfindung implementieren kann;
-
2 stellt Codebuch-Einträge für einen
Ausgangssprecher und einen Zielsprecher dar;
-
3 ist ein Ablaufdiagramm,
das den Vorgang der Stimmumwandlung gemäß einer Ausführungsform
der vorliegenden Erfindung veranschaulicht;
-
4 ist ein Ablaufdiagramm,
das den Vorgang des Verfeinerns der Codebuch-Wertigkeit durch eine Gradientabfall-Analyse
gemäß einer
Ausführungsform
der vorliegenden Erfindung veranschaulicht; und
-
5 stellt eine Bandbreitenreduzierung
von Formanten eines gewichteten Zielstimmenspektrums gemäß einer
Ausführungsform
der vorliegenden Erfindung dar.
-
BESCHREIBUNG
DER BEVORZUGTEN AUSFÜHRUNGSFORM
-
Es
wird ein Verfahren und eine Vorrichtung zur Stimmumwandlung beschrieben.
In der folgenden Beschreibung werden zu Erklärungszwecken zahlreiche spezifische
Details erläutert,
um ein gründliches
Verständnis
der vorliegenden Erfindung bereitzustellen.
-
Für einen
Fachmann wird es jedoch offenkundig, dass die vorliegende Erfindung
ohne diese spezifischen Details angewendet werden kann. In anderen
Beispielen werden bekannte Strukturen und Einrichtungen im Blockschaltbild-Format
gezeigt, um die vorliegende Erfindung nicht unnötig undeutlich zu machen.
-
HARDWARE-ÜBERSICHT
-
1 ist ein Blockschaltbild,
das ein Computersystem 100 darstellt, auf dem eine Ausführungsform der
Erfindung implementiert werden kann. Das Computersystem 100 enthält einen
Bus 102 oder einen anderen Kommunikationsmechanismus zum Übermitteln
von Informationen und einen Prozessor (oder eine Vielzahl von Zentraleinheiten,
die zusammenwirkend arbeiten) 104, der mit dem Bus 102 für die Verarbeitung
von Informationen gekoppelt ist. Das Computersystem 100 enthält auch
einen Hauptspeicher 106, wie beispielsweise einen Direktzugriffsspeicher
(RAM) oder eine andere dynamische Speichereinrichtung, die mit dem
Bus 102 zum Speichern von Informationen und Anweisungen
gekoppelt sind, die vom Prozessor 104 ausgeführt werden
sollen. Der Hauptspeicher 106 kann auch zum Speichern von
temporären
Variablen oder anderen Zwischeninformationen während der Ausführung von
Anweisungen verwendet werden, die vom Prozessor 104 ausgeführt werden
sollen. Der Computer 100 enthält des Weiteren einen Festwertspeicher
(ROM) 108 oder eine andere statische Speichereinrichtung,
die zum Speichern statischer Informationen und Anweisungen für den Prozessor 104 an
den Bis 102 gekoppelt sind. Eine Speichereinrichtung 110,
wie beispielsweise eine Magnetplatte oder Bildplatte, ist bereitgestellt
und mit dem Bus 102 zum Speichern von Informationen und
Anweisungen gekoppelt.
-
Das
Computersystem 100 kann über den Bus 102 mit
einer Anzeigevorrichtung 111, wie beispielsweise einer
Kathodenstrahlröhre
(CRT), zum Anzeigen von Informationen für einen Computer-Benutzer gekoppelt werden.
Eine Eingabeeinrichtung 113, die alphanumerische und andere
Tasten umfasst, ist mit dem Bus 102 zum Übermitteln
von Informationen und Befehlsauswahlen an den Prozessor 104 gekoppelt.
Eine weitere Art von Benutzer-Eingabeeinrichtung ist die Schreibmarkensteuerung 115,
wie beispielsweise eine Maus, eine Rollkugel oder Schreibmarken-Richtungstasten
zum Übermitteln
von Richtungsinformationen und Befehlsauswahlen an den Prozessor 104 und
zum Steuern der Schreibmarken-Bewegung auf der Anzeigevorrichtung 111.
Diese Eingabeeinrich tung weist üblicherweise
zwei Freiheitsgrade in zwei Achsen auf, einer ersten Achse (z.B.
x) und einer zweiten Achse (z.B. y), die es der Einrichtung ermöglichen,
Positionen in einer Ebene anzugeben. Für eine Audio-Ausgabe und -Eingabe
kann das Computersystem 100 jeweils mit einem Lautsprecher 117 und
einem Mikrofon 119 gekoppelt werden.
-
Die
Erfindung steht in Beziehung mit der Verwendung des Computersystems 100 zur
Stimmumwandlung. Gemäß einer
Ausführungsform
der Erfindung wird die Stimmumwandlung durch ein Computersystems 100 in
Reaktion auf einen Prozessor 104 bereitgestellt, der eine
oder mehr Sequenzen von einer oder mehr Anweisungen ausführt, die
im Hauptspeicher 106 gespeichert sind. Solche Anweisungen
können
in den Hauptspeicher 106 aus einem anderen computerlesbaren
Medium eingelesen werden, wie beispielsweise der Speichereinrichtung 110.
Die Ausführung
der Anweisungssequenzen, die im Hauptspeicher 106 enthalten
sind, veranlasst den Prozessor 104, die darin beschriebenen
Schritte auszuführen.
Einer oder mehr Prozessoren in einer Simultanverarbeitungs-Anordnung
können
ebenfalls eingesetzt werden, um die im Hauptspeicher 106 enthaltenen
Anweisungssequenzen auszuführen.
In alternativen Ausführungsformen
können
festverdrahtete Schaltkreise an Stelle von oder in Kombination mit
Software-Anweisungen zum Implementieren der Erfindung verwendet
werden. Daher sind Ausführungsformen
der Erfindung nicht auf eine bestimmte Kombination von Hardware-Schaltkreisen
und Software beschränkt.
-
Der
Begriff "computerlesbares
Medium", wie er
hier verwendet wird, bezieht sich auf jedes Medium, das an der Bereitstellung
von Anweisungen für
den Prozessor 104 zur Ausführung teilnimmt. Ein solches
Medium kann viele Formen annehmen, einschließlich, jedoch nicht darauf
beschränkt,
nicht-flüchtige
Medien, flüchtige
Medien und Übertragungsmedien.
Nicht-flüchtige
Medien umfassen beispielsweise Bild- oder Magnetplatten, wie die
Speichereinrichtung 110. Flüchtige Medien umfassen dynamische
Speicher, wie beispielsweise den Hauptspeicher 106. Übertragungsmedien
umfassen koaxiale Kabel, Kupferdraht und Glasfasern, einschließlich der
Drähte,
die den Bus 102 enthalten. Übertragungsmedien können auch
die Form von Schall- oder Lichtwellen annehmen, wie diejenigen,
die während
der Hochfrequenz- (HF) und Infrarot- (IR) Datenkommunikationen erzeugt
werden. Allgemeine Formen von computerlesbaren Medien umfassen beispielsweise eine
Diskette, eine Floppy-Disk, eine Festplatte, ein Magnetband, jedes andere
Magnetmedium, eine CD-ROM, eine DVD, jedes andere Bildmedium, Lochkarten,
Lochstreifen, jedes andere physikalische Medium mit Lochmustern,
ein RAM, ein PROM und EPROM, ein Flash-EPROM, jeden anderen Speicher-Chip
bzw. Speicher-Steckmodul,
eine Trägerwelle,
wie im Folgenden beschrieben, oder jedes andere Medium, aus dem ein
Computer lesen kann.
-
Verschiedene
Formen von computerlesbaren Medien können als Träger von einer oder mehr Sequenzen
von einer oder mehr Anweisungen zur Ausführung an den Prozessor 104 beteiligt
sein. Beispielsweise können
die Anweisungen anfänglich
auf einer Magnetplatte eines entfernten Computers getragen werden.
Der entfernte Computer kann die Anweisungen in seinen dynamischen
Speicher laden und die Anweisungen unter Verwendung eines Modems über eine
Telefonleitung senden. Ein lokales Modem des Computersystems 100 kann
die Daten auf der Telefonleitung empfangen und einen Infrarot-Sender verwenden,
um die Daten in ein Infrarot-Signal umzuwandeln. Ein Infrarot-Detektor,
der mit dem Bus 102 gekoppelt ist, kann die Daten empfangen,
die in dem Infrarot-Signal getragen werden, und die Daten auf den
Bus 102 stellen. Der Bus 102 trägt die Daten
zum Hauptspeicher 106, von dem aus der Prozessor 104 die
Anweisungen abruft und ausführt.
Die vom Hauptspeicher 106 empfangenen Anweisungen können vor
oder nach der Ausführung
durch den Prozessor 104 optional in der Speichereinrichtung 110 gespeichert
werden.
-
Das
Computersystem 100 umfasst auch eine Kommunikationsschnittstelle 120,
die an den Bus 102 gekoppelt ist. Die Kommunikationsschnittstelle 120 stellt
eine Zweiwege-Datenübertragungskopplung
an eine Netzwerkverbindung 121 bereit, die mit einem lokalen
Netzwerk 122 verbunden ist. Beispiele für die Kommunikationsschnittstelle 120 umfassen
eine Karte für
ein diensteintegrierendes digitales Netzwerk (ISDN), ein Modem für die Bereitstellung
einer Datenübertragungs-Verbindung
mit einem entsprechenden Typ von Telefonleitung und eine Karte für ein lokales
Netzwerk (LAN) für
die Bereitstellung einer Datenübertragungs-Verbindung
zu einem kompatiblen LAN. Es können
auch drahtlose Verbindungen implementiert werden. In jeder derartigen
Implementierung sendet und empfängt
die Kommunikationsschnittstelle 120 elektrische, elektromagnetische
oder optische Signale, die digitale Datenströme tragen, die verschiedene
Arten von Informationen aufweisen.
-
Die
Netzwerkverbindung 121 stellt üblicherweise eine Datenübertragung über ein
oder mehr Netzwerke zu anderen Dateneinrichtungen bereit. Beispielsweise
kann die Netzwerkverbindung 121 eine Verbindung über ein
lokales Netzwerk 122 zu einem Host-Rechner 124 oder einer Dateneinrichtung
bereitstellen, die über einen
Internetdienstanbieter (ISP) 126 betrieben werden. Der
ISP 126 wiederum stellt eine Datenübertragung über das weltweite Paketdaten-Übertragungsnetzwerk
bereit, das jetzt im Allgemeinen als das "Internet" 128 bezeichnet wird. Das lokale
Netzwerk 122 und das Internet 128 verwenden beide
elektrische, elektromagnetische oder optische Signale, die digitale
Datenströme
tragen. Die Signale über
die verschiedenen Netzwerke und die Signale auf der Netzwerkverbindung 121 und über die
Kommunikationsschnittstelle 120, die digitale Daten zu
und von dem Computersystem 100 tragen, sind beispielhafte
Formen von Trägerwellen,
welche die Informationen transportieren.
-
Das
Computersystem 100 kann über das bzw. die Netzwerke,
die Netzwerkverbindung 121 und die Kommunikationsschnittstelle
Nachrichten senden und Daten empfangen, einschließlich Programmcode.
Im Internet-Beispiel könnte
ein Server 130 einen angeforderten Code für ein Anwendungsprogramm über das
Internet 128, den ISP 126, das lokale Netzwerk 122 und
die Kommunikationsschnittstelle 118 übertragen. In Übereinstimmung
mit der Erfindung ermöglicht
eine solche heruntergeladene Anwendung die hier beschriebene Stimmumwandlung.
Der empfangene Code kann vom Prozessor 104 ausgeführt werden,
nachdem er empfangen wurde, und/oder in einer Speichereinrichtung 110 oder
einem anderen nicht-flüchtigen
Speicher für
die spätere
Ausführung
gespeichert werden. Auf diese Weise kann das Computersystem 100 einen
Anwendungscode in der Form einer Trägerwelle erhalten.
-
QUELLEN- UND
ZIEL-CODEBÜCHER
-
In Übereinstimmung
mit der vorliegenden Erfindung werden Codebücher für die Ausgangsstimme und die
Zielstimme als einleitender Schritt vorbereitet, wobei jeweils verarbeitete
Abtastungen der Ausgangs- und Zielsprache verwendet werden. Die
Anzahl der Einträge
in den Codebüchern
kann von Implementierung zu Implementierung unterschiedlich sein
und hängt
von einer abgestimmten Umwandlungsqualität (trade-off conversion quality)
und der rechnerischen Handhabbarkeit (tractability) ab. Beispielsweise
kann eine bessere Umwandlungsqualität durch die Aufnahme einer
größeren Anzahl von
Phonemen in verschiedenen phonetischen Kontexten erhalten werden,
allerdings auf Kosten einer erhöhten
Nutzung von Rechnerressourcen und einem höheren Bedarf an Ausbildungsdaten.
Vorzugsweise enthalten die Codebücher
wenigstens einen Eintrag für jedes
Phonem in der Umwandlungssprache. Allerdings können die Codebücher erweitert
werden, um Allophone von Phonemen aufzunehmen, und allgemeine Phonemkombinationen
können
das Codebuch erweitern. 2 veranschaulicht
ein beispielhaftes Codebuch, das 64 Einträge enthält. Da die Vokalqualität oft von
der Länge
und Betonung des Vokals abhängt,
wird eine Vielzahl von Vokalphonemen für einen bestimmten Vokal, beispielsweise
[AA], [AA1] und [AA2] in das beispielhafte Codebuch aufgenommen.
-
Die
Einträge
in das Quellen-Codebuch und das Ziel-Codebuch werden jeweils durch
Aufzeichnen der Sprache des Ausgangssprechers und des Zielsprechers
und ihrer Sprache in Phonemen erhalten. Gemäß einem Ausbildungsansatz werden
die Ausgangs- und Ziel-Sprecher gebeten, Wörter und Sätze zu sagen, für die eine
orthografische Umschrift vorbereitet wird. Die Ausbildungssprache
wird bei einer entsprechenden Frequenz abgetastet, wie beispielsweise
16 kHz, und automatisch segmentiert, wozu beispielsweise eine erzwungene
Ausrichtung auf eine phonetische Übersetzung der orthografischen
Umschrift innerhalb eines HMM-Bezugssystems verwendet wird, das
Mel-Cepstrum-Koeffzienten und Delta-Koeffizienten verwendet, wie
dies im Detail beschrieben ist bei C. Wightman & D. Talkin, The Aligner User's Manual, Entropic
Research Laboratory, Inc. Washington, D.C., 1994.
-
Vorzugsweise
werden die Quellen- und Ziel-Vokaltraktmerkmale in den Codebucheinträgen als
Linienspektrum-Frequenzen (LSF) dargestellt. Im Gegensatz zu herkömmlichen
Ansätzen,
bei denen lineare prädiktive
Koeffizienten (LPC) oder Formanten-Frequenzen verwendet werden,
können
Linienspektrum-Frequenzen ziemlich zuverlässig geschätzt werden und besitzen einen
festen Bereich, der für
die Implementierung einer Digitalsignal-Echtzeitverarbeitung von
Nutzen ist. Die Linienspektrum-Frequenzwerte für die Quellen- und Ziel-Codebücher können erhalten
werden, indem zuerst die linearen prädiktiven Koeffizienten a
k für
das abgetastete Signal gemäß im Fach
bekannten Techniken ermittelt werden. Beispielsweise können eine
spezielle Hardware, das Ausführen
von Software auf einem Mehrzweck-Computer oder einem Mikroprozessor
oder eine Kombination davon die linearen prädiktiven Koeffizienten durch
Techniken wie beispiels weise Quadratwurzel- oder Cholesky-Zerlegung,
Levinson-Durbin-Rekursion und Gitteranalyse bestimmt werden, die
von Itakura und Saito eingeführt
wurde. Die linearen prädiktiven
Koeffizienten ak, die rekursiv mit einer Sequenz von Teilkorrelations-Koeffizienten
(PARCOR) in Beziehung stehen, bilden ein umgekehrtes Filterpolynom
das mit +1 und –1 vergrößert werden
kann, um folgende Polynome zu bilden, wobei die Winkel der Wurzeln w
k die Linienspektrum-Frequenzen sind:
-
-
Vorzugsweise
wird eine Vielzahl von Abtastungen für jeden Quellen- und Ziel-Codebucheintrag
vorgenommen und gemittelt oder anderweitig verarbeitet, wie beispielsweise
das Übernehmen
der mittleren Abtastung oder der Abtastung, die dem Mittelwert am
nächsten
kommt, um einen jeweils Quellen-Schwerpunktsvektor Si und
Ziel-Vektor-Schwerpunkt
Ti zu erzeugen, wobei i ∊ 1..L
ist und L die Größe des Codebuchs
ist. Linienspektrum-Frequenzen können
zurück
in lineare prädiktive
Koeffizienten umgewandelt werden, indem eine Sequenz von Koeffizienten über die
Polynome P(z) und Q(z) generiert wird und von dort aus die linearen
prädiktiven
Koeffizienten ak.
-
Daher
weisen das Quellen-Codebuch und das Ziel-Codebuch entsprechende
Einträge
auf, die Sprachabtastungen enthalten, die jeweils vom Ausgangssprecher
und vom Zielsprecher stammen. Unter Bezugnahme auf 2 stellen die hellen Kurven in jedem
Codebucheintrag die Stimme des (männlichen) Ausgangssprechers
dar, und die dunklen Kurven in jedem Codebucheintrag stellen die
Stimme des (weiblichen) Zielsprechers dar.
-
UMWANDELN
VON SPRACHE
-
Wenn
die entsprechenden Codebücher
für die
Quellen- und Zielsprecher vorbereitet worden sind, wird die in der
Ausgangsstimme eingegebene Sprechweise in die Stimme des Zielsprechers
gemäß einer
Ausführungsform
der vorliegenden Erfindung umgewandelt, indem die in 2 dargestellten Schritte
ausgeführt
werden. In Schritt 300 wird die eingegebene Sprechweise
aufbereitet, um einen Rahmen für
die eingegebene Sprache zu erhalten. Insbesondere wird die eingegebene
Sprache bei einer entsprechenden Frequenz abgetastet, wie beispielsweise
16 kHz, und die Gleichstromvorspannung (DC bias) wird durch Entfernen
des Mittelwerts entfernt (removed as by mean removal). Das abgetastete
Signal wird auch gefenstert, um den Rahmen für die eingegebene Sprache x(n)
= w(n)s(n) zu erzeugen, wobei w(n) eine Datenfenstertechnik-Funktion
ist, die ein gewichtetes Cosinusfenster bereitstellt, z.B. ein Hamming-Fenster
oder ein Hanning-Fenster
oder ein anderes Fenster, wie beispielsweise ein Rechteckfenster
oder mittengewichtetes (center-weighted) Fenster.
-
In
Schritt 302 wird der Rahmen für die eingegebene Sprache in
das Linienspektrum-Frequenzformat umgewandelt.
Gemäß einer
Ausführungsform
der vorliegenden Erfindung wird zunächst eine lineare prädiktive Codierungsanalyse
durchgeführt,
um die Prädiktionskoeffizienten
ak für
den Rahmen für
die eingegebene Sprache zu ermitteln. Die lineare prädiktive
Codierungsanalyse weist eine entsprechende Ordnung auf, beispielsweise
aus einer Analyse von einer 14. Ordnung bis zu einer 30. Ordnung,
zum Beispiel eine Analyse 18. Ordnung oder 20. Ordnung. Basierend
auf den Prädiktionskoeffizienten
ak wird ein Linienspektrum-Frequenzvektor wk unter
Verwendung der Polynome P(z) und Q(z) abgeleitet, die oben im Detail
erläutert
wurden.
-
CODEBUCH-WERTIGKEITEN
-
Herkömmliche
Stimmumwandlungen mittels Codebuch-Methodologien leiden unter Informationsverlust
auf Grund der Abstimmung auf nur ein einziges, "nächstliegendes" Ausgangsphonem.
Infolgedessen können
Artefakte an Rahmengrenzen eingeführt werden, die zu groben Übergängen von
einem Rahmen zum nächsten
führen.
Dementsprechend stimmt eine Ausführungsform
der Erfindung den Rahmen für
die eingegebene Sprache mit einem gewichteten Durchschnitt einer
Vielzahl von Codebucheinträgen
ab, statt nur mit einem einzigen Codebucheintrag. Die Wertigkeit
der Codebucheinträge
gibt vorzugsweise Wahrnehmungskriterien wieder. Die Verwendung einer
Vielzahl von Codebucheinträgen
glättet
den Übergang
zwischen Sprachrahmen und erfasst stimmliche Nuancen zwischen zusammengehörigen Klängen in
der Zielsprachen-Ausgabe. Daher werden in Schritt
304 Codebuch-Wertigkeiten
v
i durch Vergleichen des eingegebenen Linienspektrum-Frequenzvektors
w
k mit jedem Schwerpunktsvektor S
i im Quellen-Codebuch geschätzt, um
einen entsprechenden Abstand d
i zu berechnen:
wobei L die Codebuch-Größe ist.
Die Abstandsberechnung enthält
einen Wertigkeitsfaktor h
k, der auf einem Wahrnehmungskriterium
basiert, wobei eng beabstandeten Linienspektrum-Frequenzpaare, die
voraussichtlich Formanten-Positionen entsprechen, höhere Wertigkeiten
zugeordnet werden:
wobei
K für stimmhafte
Klänge
3 und
für stimmlose
6 ist,
da die durchschnittliche Energie bei zunehmender Frequenz (für stimmhafte
Töne) abnimmt
und (für
stimmlose Klänge)
zunimmt. Auf der Basis der berechneten Abstände d; werden die normierten
Codebuch-Wertigkeiten v
i wie folgt erhalten.
wobei
der Wert von y für
jeden Rahmen durch eine inkrementelle Suche im Bereich von 0,2 bis
2,0 mit dem Kriterium zur Minimierung des wahrzunehmenden gewichteten
Abstands zwischen dem geschätzten
Linienspektrum-Frequenzvektor vS
k und dem
eingegebenen Linienspektrum-Frequenzvektors w
k gefunden
wird.
-
VERFEINERN
DER CODEBUCH-WERTIGKEITEN
-
In
einigen Anwendungen kann es vorkommen, dass selbst die normierten
Codebuch-Wertigkeiten
vi keine optimale Gruppe von Wertigkeiten
für das
ursprüngliche
Sprachspektrum sein würden.
Gemäß einer Ausführungsform
der vorliegenden Erfindung wird eine Gradientabfall-Analyse durchgeführt, um
die geschätzten
Codebuch-Wertigkeiten vi zu verbessern.
Unter Bezugnahme auf das in 4 dargestellt
Ablaufdiagramm umfasst eine Implementierung einer Gradientabfall-Analyse
einen Initialisierungsschritt 400, in dem ein Fehlerwert
E mit einer sehr hohen Zahl initialisiert wird, und eine Konvergenzkonstante η auf einen
geeigneten Wert von 0,05 bis 0,5 initialisiert wird, wie beispielsweise
0,1.
-
In
der Hauptschleife der Gradientabfall-Analyse, die bei Schritt 402 beginnt,
wird ein Fehlervektor e basierend auf dem Abstand zwischen dem geschätzten Linienspektrum-Frequenzvektor vS
und dem eingegebenen Linienspektrum-Frequenzvektor v berechnet und
durch den Höhenfaktor
h gewichtet. In Schritt 404 wird der Fehlerwert E unter
einer alten Fehlervariablen oldE gespeichert und der neue Fehlerwert
E wird aus dem Fehlervektor e berechnet, beispielsweise durch eine
Summe der absoluten Werte oder eine Summe von Quadraten. In Schritt 406 werden
die Codebuch-Wertigkeiten vi aktualisiert
durch eine Addition des Fehlers in Bezug auf den Quellen-Codebuchvektor
eS, der durch die Konvergenzkonstante η gewichtet wird und erzwungen positiv
ist, um unrealistische Schätzwerte
zu verhindern. Um die Berechnung gemäß einer Ausführungsform der
vorliegenden Erfindung zu reduzieren, wird die Konvergenzkonstante η basierend
auf der fehlerhaften Reduzierung (reduction in error) eingestellt.
Insbesondere, wenn eine fehlerhafte Reduzierung vorliegt, wird die Konvergenzkonstante η erhöht, andernfalls
wird sie verringert (Schritt 408). Die Hauptschleife wird
wiederholt, bis die fehlerhafte Reduzierung unter einen entsprechenden
Schwellenwert fällt,
wie beispielsweise ein Zehntausendstel (Schritt 410).
-
Es
wird beobachtet, dass nur einigen wenigen Codebucheinträgen erheblich
große
Wertigkeitswerte in der ersten Wertigkeitsvektor-Schätzung v
zugewiesen werden. Um daher Rechnerressourcen zu sparen, aktualisiert
eine Ausführungsform
der vorliegenden Erfindung die Wertigkeiten v im Schritt 406 nur
bei den ersten wenigen größten Wertigkeiten,
beispielsweise bei den fünf
größten Wertigkeiten.
Die Verwendung dieses Gradientabfall-Verfahrens führte zu
zusätzlichen
15% Verringerung des durchschnittlichen Itakura-Saito-Abstands zwischen
den ursprünglichen
Spektren wk und den geschätzten Spektren
vSk. Die durchschnittliche spektrale Verzerrung
(SD), die eine allgemeine Bewertung der spektralen Quantisierungsleistung
(common spectral quantizer performance evaluation) ist, wurde ebenfalls
von 1,8 dB auf 1,4 dB reduziert.
-
ZUORDNUNG
DES VOKALTRAKTSPEKTRUMS
-
Unter
erneuter Bezugnahme auf 3 wird
in Schritt 306 ein Ziel-Vokaltraktfilter (target vocal
tract filter) Vi(ω) als gewichteter Durchschnitt
der Einträge
in das Ziel-Codebuch berechnet, um die Stimme des Zielsprechers
für den
gegenwärtigen
Sprachrahmen darzustellen. Gemäß einer
Ausführungsform
der vorliegenden Erfindung werden die verfeinerten Codebuch-Wertigkeiten
vi auf die Ziel-Linienspektrum-Frequenzvektoren
Ti angewendet, um den Ziel-Linienspektrum-Frequenzvektor
vTk zu konstruieren:
-
-
Die
Ziel-Linienspektrum-Frequenzen werden anschließend in zielbezogene lineare
Prädiktionskoeffizienten ã
k umgewandelt, beispielsweise mittels der
Polynome P(z) und Q(z). Die zielbezogenen linearen Prädiktionskoeffizienten
ak werden wiederum verwendet, um den Ziel-Vokaltraktfilter V
i(ω)
zu schätzen:
wobei β theoretisch
0,5 betragen sollte. Die Durchschnittsberechnung von Linienspektrum-Frequenzen
führt jedoch
oft zu Formanten oder spektralen Spitzenwerten mit größeren Bandbreiten,
was als Summ-Artefakt zu hören
ist. Ein Ansatz zur Bewältigung
dieses Problems besteht darin, den Wert von β zu erhöhen, wodurch der dynamische
Bereich des Spektrum angepasst wird und damit die Bandbreiten der
Formanten-Frequenzen reduziert werden. Ein Nachteil der Erhöhung von β ist jedoch,
dass die Bandbreite auch in anderen Frequenzbändern reduziert wird, nicht
nur an den Formanten-Stellen
(formant locations), wodurch das Zielstimmenspektrum verzerrt wird.
-
Dementsprechend
besteht ein anderer Ansatz darin, die Bandbreiten der Formanten
durch direktes Anpassen der Linienspektrum-Frequenzen zu reduzieren.
Die Ziel-Linienspektrum-Paare
und
um die ersten F Formanten-Frequenzstellen f
j, j∈1..F
werden geändert,
wenn F auf eine kleinere Ganzzahl gesetzt wird, wie beispielsweise
vier (4). Die Quellen-Formantenbandbreiten b
j und
die Ziel-Formantenbandbreiten
werden
zum Schätzen
eines Bandbreiten-Anpassungsverhältnisses
r verwendet:
-
-
Dementsprechend
wird jedes Ziel-Linienspektrum-Paar
um
die entsprechenden Formanten-Frequenzstellen f; wie folgt angepasst:
-
-
Ein
Bandbreiten-Mindestwert, z.B.
oder 50 Hz, kann eingestellt
werden, um die Schätzung
von unangemessenen Bandbreiten zu verhindern.
5 veranschaulicht einen Vergleich des
Zielsprachen-Leistungsspektrums (target speech power spectrum) für den Vokal
[AA] vor (helle Kurve
500) und nach (dunkle Kurve
510)
der Anwendung dieser Bandbreiten-Reduzierungstechnik. Die Reduzierung
in den Bandbreiten der ersten vier Formaten
520,
530,
540 und
550 führt zu höheren und
ausgeprägteren
spektralen Spitzen. Gemäß detaillierten
Beobachtungen und subjektiven Hörtests
führte
die Verwendung dieser Bandbreiten-Reduzierungstechnik zu einer verbesserten
Stimm-Ausgabenqualität.
-
ZUORDNUNG
DER ANREGUNGSMERKMALE
-
Ein
weiterer Faktor, der die Sprecher-Individualität und damit die Qualität der Stimmumwandlung
beeinflusst, sind die Anregungsmerkmale. Die Anregung kann für verschiedene
Phoneme sehr unterschiedlich sein. Beispielsweise werden stimmhafte
Klänge
durch eine periodische Impulsfolge bzw. ein "Summen" angeregt, und stimmlose Klänge wer den
durch weißes
Rauschen bzw. "Zischen" angeregt. Gemäß einer
Ausführungsform
der vorliegenden Erfindung wird der lineare prädiktive Codierungs-Restwert
(linear predictive coding residual) als eine Approximation des Anregungssignals
verwendet. Insbesondere werden die linearen prädiktiven Codierungs-Restwerte
für jeden
Eintrag in das Quellen-Codebuch und das Ziel-Codebuch als die Anregungssignale
aus den Ausbildungsdaten gesammelt, um eine entsprechende kurzzeitige
durchschnittliche diskrete (short-time average discrete) Fourier-Analyse
oder ein stimmlagensynchrones (pitchsynchronous) Größenspektrum
der Anregungssignale zu berechnen. Die Anregungsspektren werden
auch verwendet, um Anregungs-Umwandlungsspektren für Einträge des Quellen-Codebuchs
und
des Ziel-Codebuchs
zu
formulieren. Da die lineare prädiktive
Codierung ein allpoliges Modell ist, dienen die formulierten Anregungs-Umwandlungsfilter
ebenfalls zum Umwandeln der Nullen im Spektrum, wodurch die Qualität der Stimmumwandlung
des Weiteren verbessert wird.
-
Unter
erneuter Bezugnahme auf 3 werden
in Schritt 308 die Anregungen im eingegebenen Sprachsegment
von der Ausgangsstimme in die Zielstimme durch die gleichen Codebuch-Wertigkeiten
vi umgewandelt, die zum Umwandeln der Vokaltraktmerkmale
verwendet werden. Insbesondere wird ein allumfassender Anregungsfilter
konstruiert als eine gewichtete Kombination der Anregungs-Codebuch-Anregungsspektren
(excitation codebook excitation spectra):
-
-
Gemäß einer
Ausführungsform
der vorliegenden Erfindung wird der allumfassende Anregungsfilter H
g(ω)
auf den linearen prädiktiven
Codierungs-Restwert e(n) des Eingabe-Sprachsignals x(n) angewendet, um einen
Ziel-Anregungsfilter zu erzeugen:
wobei der lineare prädiktive
Codierungs-Restwert e(n) angegebenen wird durch:
-
-
Sowohl
die Vokaltrakt-Merkmale als auch die Anregungsmerkmale werden in
dem gleichen rechnerischen Bezugssystem umgewandelt, indem ein gewichteter
Durchschnitt der Codebucheinträge
berechnet wird. Demzufolge ermöglicht
dieser Gesichtspunkt der vorliegenden Erfindung die Aufnahme von
Anregungsmerkmalen in ein System zur Stimmumwandlung in einer rechnerisch
handhabbaren Weise.
-
ZIELSPRACHE-FILTER
-
Unter
erneuter Bezugnahme auf 3 basiert
ein Zielsprache-Filter Y(ω)
auf dem Vokaltraktfilter Vt(ω), und in
einigen Ausführungsformen
der vorliegenden Erfindung auf dem Anregungsfilter Gt(ω). Gemäß einer
Ausführungsform
wird der Zielsprachefilter Y(ω)
als der Anregungsfilter Gt(ω) definiert,
auf den der Vokaltraktfilter Vt(ω) folgt:
-
-
In Übereinstimmung
mit einer anderen Ausführungsform
der vorliegenden Erfindung kann eine weitere Verfeinerung an der
Konstruktion des Zielsprachefilters Y(ω) für eine verbesserte Handhabung
von stimmlosen Klängen
wünschenswert
sein. Das eingehende Sprachspektrum X(ω), das von der abgetasteten
und gefensterten eingegebenen Sprache x(n) abgeleitet wird, kann
dargestellt werden als:
wobei G
s(ω) und V
s(ω)
jeweils die Filter für
Ausgangssprecher-Anregung und Vokaltrakt-Spektrum darstellen. Demzufolge
kann der Zielsprache-Spektrumsfilter Y(ω) formuliert werden als:
-
-
Unter
Verwendung des allumfassenden Anregungsfilters Hg(ω) als einen
Schätzwert
des Anregungsfilters, wird der Zielsprache-Spektrumsfilter Y(ω) zu:
-
-
Wenn
die Menge der Ausbildungsdaten klein oder die Genauigkeit der Segmentierung
fraglich ist, ist es schwierig, stimmlose Segmente exakt darzustellen,
was zu einer Fehlanpassung in den Ausgangs- und Ziel-Vokaltraktfiltern
führt.
Demzufolge schätzt
eine Ausführungsform
der vorliegenden Erfindung einen Ausgangssprecher-Vokaltrakt-Spektrumsfilter
Vs(ω)
für stimmhafte
Segmente und für
stimmlose Segmente verschieden. In stimmhaften Segmenten wird der
Ausgangssprecher-Vokaltrakt-Spektrumsfilter Vs(ω) durch
das Spektrum ersetzt, das von dem ursprünglichen linearen prädiktiven
Koeffizientenvektor ak abgeleitet wird:
-
-
Andererseits
werden die linearen prädiktiven
Vektor-Approximationskoeffizienten, die von der Codebuch-gewichteten
Linienspektrums-Frequenzvektor-Approximation vSk (codebook
weighted line spectral frequency vector approximation) abgeleitet
werden, für
die Ermittlung des Ausgangssprecher-Vokaltrakt-Spektrumsfilters
Vs(ω)
für stimmlose
Segmente verwendet.
-
In
Schritt
312 wird das Ergebnis der Anwendung des Vokaltrakt-Spektrumfilters
Y(ω) auf
das aktuelle Segment in ein Zeitbereich-Zielsignal in der Stimme
des Zielsprechers nachbearbeitet. Insbesondere wird eine umgekehrte
diskrete Fourier-Umwandlung angewendet, um die synthetische Zielstimme
zu erzeugen:
-
SATZRHYTHMUSUMWANDLUNG
-
Gemäß einer
Ausführungsform
der vorliegenden Erfindung können
prosodische Umwandlungen auf das Frequenzbereich-Zielstimmensignal
Y(ω) vor
der Nachbearbeitung in den Zeitbereich angewendet werden. Prosodische
Umwandlungen gestatten es, die Zielstimme an die Ausgangsstimme
in Stimmlage, Dauer und Betonung anzugleichen. Beispielsweise kann
ein Stimmlagenskala-Änderungsfaktor β in jedem
Rahmen eingestellt werden als
wobei σ 2 / s die Ausgangsstimmen-Abweichung
ist, σ 2 / t ist
die Zielstimmen-Abweichung, f
0 ist die Ausgangssprecher-Grundfrequenz, μ
s ist
der mittlere Ausgangsstimmlagenwert und μ
t ist
der mittlere Zielstimmlagenwert. Für die Dauermerkmale kann ein
Zeitskalen-Änderungsfaktor γ gemäß den gleichen
Codebuch-Wertigkeiten eingestellt werden:
wobei
d s / i die durchschnittliche Ausgangssprecher-Dauer und d s / j die durchschnittliche
Zielsprecher-Dauer ist. Hinsichtlich der Betonungsmerkmale der Sprecher
kann ein Energieskalen-Änderungsfaktor η gemäß den gleichen
Codebuch-Wertigkeiten eingestellt werden:
wobei
e s / i die durchschnittliche Effektivenergie (RMS energy) des Ausgangssprechers
und e t / i die durchschnittliche Effektivenergie des Zielsprechers ist.
-
Der
Stimmlagenskala-Änderungsfaktor β, der Zeitskalen-Änderungsfaktor γ und der
Energieskalen-Änderungsfaktor η werden
mit einer entsprechenden Methodologie angewendet, wie beispielsweise
innerhalb eines stimmlagensynchronen Überlappungs-Additions-Synthese-Bezugssystems (overlap-add
synthesis framework), um die prosodische Synthese auszuführen. Eine
Methodologie zur Überlappungs-Additions-Synthese
ist in größerem Detail
in EP-A-1 019906 erläutert.
-
Obwohl
diese Erfindung in Verbindung mit der Ausführungsform, die als gegenwärtig am
praktischsten und als bevorzugt betrachtet wird, beschrieben wurde,
sollte klar sein, dass die Erfindung nicht auf die offenbarte Ausführungsform
beschränkt
ist, sondern im Gegenteil verschiedene Modifizierungen und gleichwertige Anordnungen
abdecken soll, die im Umfang der Ansprüche im Anhang enthalten sind.