-
Die
vorliegende Erfindung bezieht sich auf ein Telekommunikationsendgerät zur Veränderung eines übertragenen
Sprachsignals bei einer bestehenden Fernsprechverbindung, das insbesondere
für ein
Mobilfunksystem geeignet ist.
-
Auch
wenn die Sprachübertragung
das wichtigste Element im Mobilfunk bleibt, so bleibt doch die Tatsache
bestehen, dass die Hersteller bestrebt sind, ihre Produkte zu differenzieren,
indem sie neue attraktive und abwechslungsreiche Dienstleistungen für den Verbraucher
anbieten. Die Spiele, die mit der Spracherkennung verbundenen Dienste
oder die Vervielfachung der Klingeltöne sind Beispiele dafür.
-
Diese
neuen Dienstleistungen verursachen zusätzliche Kosten für das Telefon
aufgrund der Ergänzung
von Software- und Hardwareelementen.
-
Mit
der vorliegenden Erfindung soll ein Telekommunikationsendgerät geliefert
werden, mit dem das übertragene
Sprachsignal von dem Benutzer des Endgerätes während einer Fernsprechverbindung verändert werden
kann. Es handelt sich dabei um eine attraktive und abwechslungsreiche
Dienstleistung, die auf einfache und wirtschaftliche Weise umgesetzt
werden kann.
-
In
dem Dokument
WO 98/35340 wird
ein System zur Sprachumwandlung beschrieben, bei dem ein Ausgangssignal
(die Stimme des ersten Benutzers) in ein Zielsignal (die Stimme
des zweiten Benutzers) umgewandelt werden muss. Bei diesem System
wird das Prinzip des Codebook verwendet, d.h. voreingestellte Bibliotheken
von Phonemen für jeden
möglichen
Benutzer (Lernphase) mit einer eindeutigen Übereinstimmung zwischen der Bibliothek von
Phonemen, die mit dem ersten Benutzer verbunden ist, und der Bibliothek
von Phonemen, die dem zweiten Benutzer entspricht.
-
In
dem Dokument
US 5,956,685 wird
ein System beschrieben, mit dem insbesondere ein Sprachsignal in
ein anderes Signal verwandelt werden kann, das für eine veränderte Stimme repräsentativ
ist. Dieses System beruht auf der Verarbeitung von Sprachdaten,
die den Aufteilungen des digitalisierten Ausgangssprachsignals in
Abhängigkeit
von der Interpunktion entspricht.
-
Mit
der vorliegenden Erfindung wird ein Telekommunikationsendgerät vorgeschlagen,
wie es in Anspruch 1 definiert wird.
-
Dank
der Erfindung erfolgt der Einsatz einer Dienstleistung zur Veränderung
der durch ein Mobiltelefon übertragenen
Stimme auf einfache und wirtschaftliche Art und Weise, indem ein
Vocoder verwendet wird, der zur Verschlüsselung der Stimme bereits
in dem Telephon vorhanden ist. Die Rekonstruktionsparameter sind
repräsentativ
für die
zu übertragende
Stimme und ihre Veränderung
erlaubt es, direkt auf den Klang der übertragenen Stimme zu wirken.
-
Vorteilhafterweise
besitzen die Einrichtungen zur Veränderung der Rekonstruktionsparameter Elemente,
um die Grundfrequenz der Stimme zu verändern.
-
Nach
einer Ausführungsart
der Erfindung handelt es sich bei der Verschlüsselung der Quelle des Sprachsignals
um eine RPE-LTP-Verschlüsselung
(Regular Pulse Excitation Long Term Prediction).
-
Vorteilhafterweise
besitzen die Einrichtungen zur Veränderung der Rekonstruktionsparameter Elemente,
um die Parameter des Kurzzeit-Filters des Vocoders zu verändern.
-
Bei
den Parametern des Kurzzeit-Filters handelt es sich beispielsweise
um die Reflexionskoeffizienten, die sogenannten LAR [Log Area Ratio] – Koeffizienten,
die während
einer RPE-LTP-Verschlüsselung
bestimmt werden.
-
Nach
einer Variante besitzen die Einrichtungen zur Veränderung
der Rekonstruktionsparameter Elemente, um die Parameter des Langzeit-Filters
des Vocoders zu verändern.
-
Ein
Parameter des Langzeit-Filters ist beispielsweise die Grundfrequenz,
die mit einem pitch (Tonhöhe)
verbunden ist, der während
einer RPE-LTP-Verschlüsselung
festgelegt wurde.
-
Vorteilhafterweise
besitzen die Einrichtungen zur Veränderung der Rekonstruktionsparameter Elemente
zur Veränderung
der Parameter, die mit Erregungsgrößen des Vocoders verbunden
sind.
-
Ein
Parameter, der mit einer Erregungsgröße verbunden ist, kann beispielsweise
ein Parameter sein, der das Erregungs-Impulssignal definiert, das während einer
RPE-LTP-Verschlüsselung
bestimmt wird.
-
Nach
einer Ausführungsart
besitzen die Einrichtungen zur Veränderung der Rekonstruktionsparameter
Elemente zur Veränderung
der Parameter in Abhängigkeit
von verschlüsselten
Daten, die repräsentativ
sind für
eine Gesamtheit von Tönen,
die durch ihre jeweiligen Frequenzen und ihre jeweilige Dauer definiert
werden.
-
Vorteilhafterweise
besitzt das Endgerät
Einrichtungen zur Auswahl einer Art der Veränderung für die zu übertragende Stimme.
-
Vorteilhafterweise
besitzt das Endgerät
Einrichtungen zur manuellen Konfiguration der Veränderungen
der Rekonstruktionsparameter des Sprachsignals.
-
Nach
einer Ausführungsart
besitzt das Endgerät
Einrichtungen zur Durchführung
der Änderungen
in einem Testmodus.
-
Vorteilhafterweise
handelt es sich bei dem Endgerät
um ein Mobiltelephon.
-
Weitere
Merkmale und Vorteile der vorliegenden Erfindung werden in der nachfolgenden
Beschreibung einer Ausführungsart
der Erfindung erläutert,
die lediglich der Veranschaulichung dient und in keiner Weise einschränkend zu
verstehen ist.
-
In
den Figuren zeigen:
-
1 eine
schematische Darstellung eines Telekommunikationsendgerätes gemäß der Erfindung,
-
2 eine
schematische Darstellung der Verschlüsselungseinrichtungen und Einrichtungen zur
Veränderung
der Stimme, die in einem erfindungsgemäßen Telekommunikationsendgerät verwendet
werden, wobei eine RPE-LTP-Verschlüsselung
gemäß der Norm
GSM 06.10 Verwendung findet.
-
In
allen Figuren tragen die gleichen Elemente die gleichen Bezugsziffern.
-
1 zeigt
ein Telekommunikationsendgerät 8 gemäß der Erfindung,
wie beispielsweise ein Mobiltelephon.
-
Das
Endgerät 8 besitzt
ein Mikrophon 9, einen Analog-Digital-Umsetzer ADU 10, einen Vocoder 11,
einen Datenformatierer 12, Einrichtungen 13 zur Veränderung
der Rekonstruktionsparameter der Stimme, Einrichtungen 14 zur
Auswahl einer Art der Veränderung
für die
zu übertragende
Stimme, Einrichtungen 15 zur manuellen Konfiguration der Änderungen
der Rekonstruktionsparameter des Sprachsignals und Einrichtungen 16 zur
Durchführung
der Änderungen
in einem Testmodus.
-
Der
Vocoder 11, der Datenformatierer 12 und die Einrichtungen 13 zur
Veränderung
der Rekonstruktionsparameter der Stimme werden nachstehend unter
Bezugnahme auf 2 beschrieben.
-
2 zeigt
einen Vocoder 11 zur Durchführung einer RPE-LTP-Verschlüsselung
gemäß der Norm
GSM 06.10, einen Datenfluss-Formatierer 12 und
Einrichtungen 13 zur Veränderung der Rekonstruktionsparameter
des Sprachsignals. Bei dem Vocoder 11, dem Formatierer 12 und
den Einrichtungen 13 handelt es sich um Software-Elemente,
die von einem nicht gezeigten, programmierbaren Prozessor ausgeführt werden.
-
Der
Vocoder 11 besitzt Einrichtungen 2 zur Bestimmung
von Reflexionskoeffizienten LAR, Einrichtungen 3 zur Bestimmung
einer Grundfrequenz der Stimme und Einrichtungen 4 zur
Bestimmung eines Erregungs-Impulssignals, ausgehend von einem abgetasteten
Signal S.
-
Das
Verschlüsselungsprinzip
RPE-LTP besteht darin, das Sprachsignal wie einen linearen Filter darzustellen,
dessen Parameter sich über
die Zeit weiterentwickeln, wobei der lineare Filter durch ein Impulssignal
erregt wird. Somit besteht die Zielsetzung. dieser Verschlüsselung
darin, das Erregungs-Impulssignal, die verschiedenen Parameter, die
den linearen Filter definieren, und die Grundfrequenz der zu übertragenden
Stimme zu bestimmen. Diese Art der Sprachverschlüsselung funktioniert auf Datenübertragungsblöcken von
20 ms auf dem Band [300-3400 Hz]. Der lineare Filter besteht aus
zwei Teilen: einem ersten Teil, der die Kurzzeit- Korrelationen
des Sprachsignals berücksichtigt
und einem zweiten Teil, der die Langzeit-Korrelationen des Sprachsignals berücksichtigt.
Nachfolgend wird von Kurzzeit-Filter und Langzeit-Filter die Rede
sein.
-
Das
Signal S besteht aus einem Sprach-Datenübertragungsblock von 20 ms,
der mit 8 kHz abgetastet wird.
-
Die
Einrichtungen 2 ermöglichen
die Bestimmung der Reflexionskoeffizienten LAR des Kurzzeit-Filters.
Dazu wird der Durbin-Algorithmus verwendet, der auf das gefilterte
Signal angewendet wird, um daraus eine lineare Vorhersage zu erhalten. Der
Durbin-Algorithmus erzeugt zehn Reflexionskoeffizienten, die sogenannten
LAR-Koeffizienten, zwischen – 1
und 1, die auf der logarithmischen Skala LAR (Log Area Ratio) ausgedrückt werden.
-
Die
Einrichtungen 3 zur Bestimmung einer Grundfrequenz der
Stimme verwenden ein Vorhersageverfahren, das mit dem Langzeit-Filter
auf den Datenübertragungsblöcken von
5 ms verbunden ist, und sie ermöglichen
es, die Grundfrequenz zu reproduzieren, die mit einer Tonhöhe (pitch)
P zwischen 56 und 444 Hz verbunden ist, und die Charakteristik des Sprechers
sowie die Verstärkung,
die mit dieser Frequenz verbunden ist.
-
Die
Einrichtungen 4 ermöglichen
die Bestimmung des Erregungs-Impulssignals
I.
-
Die
Gesamtheit der Daten, die von den Einrichtungen 2, 3 und 4 für einen
Datenübertragungsblock
von 20 ms geliefert werden, wird in dem Datenfluss-Formatierer 12 formatiert,
der ein verschlüsseltes
Sprachsignal C erzeugt.
-
Wenn
diese Parameter definiert sind, kann man verschiedene Wirkungen
auf die Stimme erzeugen, indem man die Parameter LAR, P und I verändert. Die
Einrichtungen zur Veränderung 13 ermöglichen
die Veränderung
dieser verschiedenen Parameter.
-
So
können
die Einrichtungen zur Veränderung 13 nur
den Wert der Tonhöhe
(pitch) verändern, der
mit der Grundfrequenz verbunden ist, so dass eine männliche
Stimme in eine weibliche Stimme verwandelt wird. Dazu wird der Wert
der Tonhöhe (pitch) P
jedes Datenübertragungsblockes
in einen Wert Min (P + Peffet, Max (P))
verändert,
wobei Peffet ein vorher festgelegter Wert
ist, beispielsweise 90 Hz, und Max (P) der maximale Tonhöhenwert
ist, der von dem Standardsystem akzeptiert wird. Eine männliche Stimme
hat nämlich
einen Tonhöhenwert
von ungefähr
120 Hz, während
eine weibliche Stimme einen Tonhöhenwert
von ungefähr
210 Hz besitzt.
-
Mit
den Einrichtungen zur Veränderung 13 kann
in ähnlicher
Form vorgegangen werden, um eine weibliche Stimme in eine männliche
Stimme zu verwandeln. Dazu wird der Tonhöhenwert P jedes Datenübertragungsblockes
in einen Wert Max (P – Peffet, Min (P)) verändert, wobei Peffet ein
vorher festgelegter Wert von 90 Hz ist, und Min (P) der minimale Tonhöhenwert
ist, der von dem Standardsystem akzeptiert wird.
-
Man
kann auch einen Flüstereffekt
erzielen, wenn die Tonhöhe
und die Verstärkung
durch die Einrichtungen 13 verändert wird. Dazu wird die Tonhöhe durch
die Einrichtungen zur Veränderung 13 angehoben
und die Verstärkung
wird verringert, so dass der Signalausgang des Langzeit-Filters
wesentlich verändert
wird, indem die Wirkung der Vibrationen der Stimmbänder verringert
wird. Die LAR-Parameter bleiben unverändert.
-
Man
kann auch einen Roboterstimm-Effekt erzielen, wenn die Parameter
des Langzeit-Filters durch die Einrichtungen 13 verändert werden.
Dazu wird die Tonhöhe
(pitch) auf einen relativ hohen Wert festgelegt. Wie für den Flüstereffekt,
wird die Prosodie, d.h. die Gesamtheit der phonischen Elemente, die
die gesprochene Sprache charakterisieren, vollständig verändert und in einen monotonen
Ton verwandelt, der eine einzige Grundfrequenz und unveränderte LAR-Parameter
besitzt.
-
Eine
weitere bemerkenswerte Eigenschaft der Parameter der Stimmencodierer
betrifft die Tatsache, dass die LAR-Parameter den vokalen Weg und den
nasalen Weg repräsentieren,
der mit der Erzeugung von Sprache verbunden ist, wobei diese beiden Wege
durch Resonanzfilter des Typs Allpolfilter dargestellt werden, und
jeder Pol eine Resonanzfrequenz repräsentiert. Da durch die Erzeugung
von Sprache der vokale Weg und der nasale Weg zum Einsatz gebracht
werden, können
diese Parameter folglich durch die Einrichtungen 13 verändert werden, so
dass die Vokale wie die einer Person mit verstopfter Nase nachklingen.
-
Der
vokale Weg und der nasale Weg können jeweils
durch einen Allpolfilter dargestellt werden, aber die Summe dieser
beiden Filter ist nicht "Allpol". Um die Kombination
dieser beiden Wege in Form eines Allpolfilters darzustellen, muss
ein Nullwert konstruiert werden, indem man zwei Pole nebeneinander platziert.
Dieser Nullwert repräsentiert
den Anteil des nasalen Resonators auf dem vokalen Resonator.
-
Durch
Annäherung
dieser beiden Pole nebeneinander verringern die Einrichtungen zur
Veränderung 13 den
Anteil des nasalen Resonators und verleihen der Stimme somit einen "verschnupften" Effekt.
-
Die
Parameter können
auch in Abhängigkeit von
verschlüsselten
Daten verändert
werden, die repräsentativ
sind für
eine Gesamtheit von Tönen,
die durch ihre jeweiligen Frequenzen und ihre jeweilige Dauer definiert
werden. So kann die modifizierte Stimme einer Partitur folgen, die
in einem Verschlüsselungsformat
definiert wird, das eine Gesamtheit von Paaren (Frequenz, Dauer)
bestimmt und so einen gesungenen Effekt haben. Eine Partitur wird
den Einrichtungen zur Veränderung 13 der
Rekonstruktionsparameter geliefert. Diese Partitur kann ein Musikverschlüsselungsformat
MIDI, SMAF von Yamaha®, EMR R5 polyphon, IrDA
iMelody von IrMC (Infrared Mobile Communications) oder ein anderes Format
vektorieller Beschreibung der Musik besitzen. In einer Vorbearbeitungsphase
wird die Partitur ggfs. automatisch umgeschrieben, damit die Frequenzen der
Töne in
dem Intervall [56 Hz, 444 Hz] liegen.
-
Die
Töne werden
in Dauer und Frequenz interpretiert, wobei jede Note einem Beginn,
einem Ende und einer Frequenz entspricht. Die Sprach-Datenübertragungsblöcke von
5 ms werden durch die Einrichtungen 12 verändert, so
dass die Tonhöhe gleich
der Frequenz des Tons im gleichen Augenblick ist.
-
Die
Veränderungen
der Parameter erfolgen im allgemeinen über den Austausch zwischen
dem Datenfluss-Formatierer und den Einrichtungen 13 zur Veränderung
der Parameter. Dennoch kann man auch Veränderungen der Parameter erwägen, die
direkt am Vocoder 11 vorgenommen werden.
-
In 1 hat
der Benutzer die Möglichkeit, die
Art der an der zu übertragenden
Stimme gewünschten
Effekte über
die Einrichtungen 14 zur Auswahl einer Veränderungsart
zu wählen.
Er kann die Veränderungen
der Rekonstruktionsparameter des Sprachsignals über die Einrichtungen 15 auch manuell
konfigurieren. So kann er beispielsweise den bei Min (P+ Peffet, Max (P)) veränderten Tonhöhenwert
im Falle einer Umwandlung der männlichen Stimme
in eine weibliche Stimme beeinflussen, indem er selbst den Wert
von Peffet festlegt. Den erhaltenen Effekt
kann er auch über
die Einrichtungen 16 testen, die es ihm erlauben, die Art
der ausgewählten Veränderung
mit den Parametern, wie er sie festgelegt hat, auszuführen.
-
Bei
einer Mobilfunkkommunikation wird die Stimme des Benutzers durch
die Einrichtungen 9 zunächst
abgetastet und digitalisiert. Im Anschluss daran wird sie durch
den Vocoder 11 verschlüsselt,
der die Phase 7 ausführt,
wie in Verbindung mit 1 beschrieben.
-
Die
verschlüsselte
Stimme wird anschließend
durch den Formatierer 12 formatiert, und zwar in Form von
Rekonstruktionsparametern der Stimme, die man dank des Vocoders 11 erhalten
hat.
-
Die
Einrichtungen 13, die durch die Einrichtungen 14, 15 und 16 gesteuert
werden, verändern nun
die formatierten Rekonstruktionsparameter der Stimme, so dass man
die von dem Benutzer gewünschten
Effekte erhält.
Die veränderten
Parameter werden anschließend
wieder zu den Einrichtungen 12 zurückübertragen und sodann über das
Fernmeldenetz an den Gesprächspartner
gesendet oder im Testmodus für
den Benutzer ausgeführt.
-
Man
kann auch eine Veränderung
der Rekonstruktionsparameter direkt an den Einrichtungen 11 durch
die Einrichtungen 13 erwägen.
-
Selbstverständlich ist
die Erfindung nicht auf die Ausführungsart
beschränkt,
die soeben beschrieben worden ist.
-
Die
Ausführungsart
erstreckt sich insbesondere auf eine RPE-LTP-Verschlüsselung der Quelle, aber man
kann auch jede andere Verschlüsselung der
Quelle in Betracht ziehen, wie beispielsweise ETS 300 726 GSM EFF
(Enhanced Full Rate) und 3GPP TS 26.071 AM (Adaptive Multirate).