DE60315544T2

DE60315544T2 - Telekommunikationsendgerät zur Veränderung eines übertragenen Sprachsignals bei einer bestehenden Fernsprechverbindung

Info

Publication number: DE60315544T2
Application number: DE60315544T
Authority: DE
Inventors: Pierre Bonnard; Ivan Bourmeyster; Xavier Fourquin; Pierre Ladouce
Original assignee: TCT Mobile Ltd
Current assignee: TCT Mobile Ltd
Priority date: 2002-05-16
Filing date: 2003-05-06
Publication date: 2008-05-15
Anticipated expiration: 2023-05-07
Also published as: DE60315544D1; CN101668271B; US7796748B2; FR2839836A1; ATE370496T1; FR2839836B1; CN101668271A; CN1474622A; EP1363272A1; PT1363272E; ES2292919T3; EP1363272B1; US20030215085A1

Description

Die vorliegende Erfindung bezieht sich auf ein Telekommunikationsendgerät zur Veränderung eines übertragenen Sprachsignals bei einer bestehenden Fernsprechverbindung, das insbesondere für ein Mobilfunksystem geeignet ist.
Auch wenn die Sprachübertragung das wichtigste Element im Mobilfunk bleibt, so bleibt doch die Tatsache bestehen, dass die Hersteller bestrebt sind, ihre Produkte zu differenzieren, indem sie neue attraktive und abwechslungsreiche Dienstleistungen für den Verbraucher anbieten. Die Spiele, die mit der Spracherkennung verbundenen Dienste oder die Vervielfachung der Klingeltöne sind Beispiele dafür.
Diese neuen Dienstleistungen verursachen zusätzliche Kosten für das Telefon aufgrund der Ergänzung von Software- und Hardwareelementen.
Mit der vorliegenden Erfindung soll ein Telekommunikationsendgerät geliefert werden, mit dem das übertragene Sprachsignal von dem Benutzer des Endgerätes während einer Fernsprechverbindung verändert werden kann. Es handelt sich dabei um eine attraktive und abwechslungsreiche Dienstleistung, die auf einfache und wirtschaftliche Weise umgesetzt werden kann.
In dem Dokument WO 98/35340 wird ein System zur Sprachumwandlung beschrieben, bei dem ein Ausgangssignal (die Stimme des ersten Benutzers) in ein Zielsignal (die Stimme des zweiten Benutzers) umgewandelt werden muss. Bei diesem System wird das Prinzip des Codebook verwendet, d.h. voreingestellte Bibliotheken von Phonemen für jeden möglichen Benutzer (Lernphase) mit einer eindeutigen Übereinstimmung zwischen der Bibliothek von Phonemen, die mit dem ersten Benutzer verbunden ist, und der Bibliothek von Phonemen, die dem zweiten Benutzer entspricht.
In dem Dokument US 5,956,685 wird ein System beschrieben, mit dem insbesondere ein Sprachsignal in ein anderes Signal verwandelt werden kann, das für eine veränderte Stimme repräsentativ ist. Dieses System beruht auf der Verarbeitung von Sprachdaten, die den Aufteilungen des digitalisierten Ausgangssprachsignals in Abhängigkeit von der Interpunktion entspricht.
Mit der vorliegenden Erfindung wird ein Telekommunikationsendgerät vorgeschlagen, wie es in Anspruch 1 definiert wird.
Dank der Erfindung erfolgt der Einsatz einer Dienstleistung zur Veränderung der durch ein Mobiltelefon übertragenen Stimme auf einfache und wirtschaftliche Art und Weise, indem ein Vocoder verwendet wird, der zur Verschlüsselung der Stimme bereits in dem Telephon vorhanden ist. Die Rekonstruktionsparameter sind repräsentativ für die zu übertragende Stimme und ihre Veränderung erlaubt es, direkt auf den Klang der übertragenen Stimme zu wirken.
Vorteilhafterweise besitzen die Einrichtungen zur Veränderung der Rekonstruktionsparameter Elemente, um die Grundfrequenz der Stimme zu verändern.
Nach einer Ausführungsart der Erfindung handelt es sich bei der Verschlüsselung der Quelle des Sprachsignals um eine RPE-LTP-Verschlüsselung (Regular Pulse Excitation Long Term Prediction).
Vorteilhafterweise besitzen die Einrichtungen zur Veränderung der Rekonstruktionsparameter Elemente, um die Parameter des Kurzzeit-Filters des Vocoders zu verändern.
Bei den Parametern des Kurzzeit-Filters handelt es sich beispielsweise um die Reflexionskoeffizienten, die sogenannten LAR [Log Area Ratio] – Koeffizienten, die während einer RPE-LTP-Verschlüsselung bestimmt werden.
Nach einer Variante besitzen die Einrichtungen zur Veränderung der Rekonstruktionsparameter Elemente, um die Parameter des Langzeit-Filters des Vocoders zu verändern.
Ein Parameter des Langzeit-Filters ist beispielsweise die Grundfrequenz, die mit einem pitch (Tonhöhe) verbunden ist, der während einer RPE-LTP-Verschlüsselung festgelegt wurde.
Vorteilhafterweise besitzen die Einrichtungen zur Veränderung der Rekonstruktionsparameter Elemente zur Veränderung der Parameter, die mit Erregungsgrößen des Vocoders verbunden sind.
Ein Parameter, der mit einer Erregungsgröße verbunden ist, kann beispielsweise ein Parameter sein, der das Erregungs-Impulssignal definiert, das während einer RPE-LTP-Verschlüsselung bestimmt wird.
Nach einer Ausführungsart besitzen die Einrichtungen zur Veränderung der Rekonstruktionsparameter Elemente zur Veränderung der Parameter in Abhängigkeit von verschlüsselten Daten, die repräsentativ sind für eine Gesamtheit von Tönen, die durch ihre jeweiligen Frequenzen und ihre jeweilige Dauer definiert werden.
Vorteilhafterweise besitzt das Endgerät Einrichtungen zur Auswahl einer Art der Veränderung für die zu übertragende Stimme.
Vorteilhafterweise besitzt das Endgerät Einrichtungen zur manuellen Konfiguration der Veränderungen der Rekonstruktionsparameter des Sprachsignals.
Nach einer Ausführungsart besitzt das Endgerät Einrichtungen zur Durchführung der Änderungen in einem Testmodus.
Vorteilhafterweise handelt es sich bei dem Endgerät um ein Mobiltelephon.
Weitere Merkmale und Vorteile der vorliegenden Erfindung werden in der nachfolgenden Beschreibung einer Ausführungsart der Erfindung erläutert, die lediglich der Veranschaulichung dient und in keiner Weise einschränkend zu verstehen ist.
In den Figuren zeigen:
1 eine schematische Darstellung eines Telekommunikationsendgerätes gemäß der Erfindung,
2 eine schematische Darstellung der Verschlüsselungseinrichtungen und Einrichtungen zur Veränderung der Stimme, die in einem erfindungsgemäßen Telekommunikationsendgerät verwendet werden, wobei eine RPE-LTP-Verschlüsselung gemäß der Norm GSM 06.10 Verwendung findet.
In allen Figuren tragen die gleichen Elemente die gleichen Bezugsziffern.
1 zeigt ein Telekommunikationsendgerät 8 gemäß der Erfindung, wie beispielsweise ein Mobiltelephon.
Das Endgerät 8 besitzt ein Mikrophon 9, einen Analog-Digital-Umsetzer ADU 10, einen Vocoder 11, einen Datenformatierer 12, Einrichtungen 13 zur Veränderung der Rekonstruktionsparameter der Stimme, Einrichtungen 14 zur Auswahl einer Art der Veränderung für die zu übertragende Stimme, Einrichtungen 15 zur manuellen Konfiguration der Änderungen der Rekonstruktionsparameter des Sprachsignals und Einrichtungen 16 zur Durchführung der Änderungen in einem Testmodus.
Der Vocoder 11, der Datenformatierer 12 und die Einrichtungen 13 zur Veränderung der Rekonstruktionsparameter der Stimme werden nachstehend unter Bezugnahme auf 2 beschrieben.
2 zeigt einen Vocoder 11 zur Durchführung einer RPE-LTP-Verschlüsselung gemäß der Norm GSM 06.10, einen Datenfluss-Formatierer 12 und Einrichtungen 13 zur Veränderung der Rekonstruktionsparameter des Sprachsignals. Bei dem Vocoder 11, dem Formatierer 12 und den Einrichtungen 13 handelt es sich um Software-Elemente, die von einem nicht gezeigten, programmierbaren Prozessor ausgeführt werden.
Der Vocoder 11 besitzt Einrichtungen 2 zur Bestimmung von Reflexionskoeffizienten LAR, Einrichtungen 3 zur Bestimmung einer Grundfrequenz der Stimme und Einrichtungen 4 zur Bestimmung eines Erregungs-Impulssignals, ausgehend von einem abgetasteten Signal S.
Das Verschlüsselungsprinzip RPE-LTP besteht darin, das Sprachsignal wie einen linearen Filter darzustellen, dessen Parameter sich über die Zeit weiterentwickeln, wobei der lineare Filter durch ein Impulssignal erregt wird. Somit besteht die Zielsetzung. dieser Verschlüsselung darin, das Erregungs-Impulssignal, die verschiedenen Parameter, die den linearen Filter definieren, und die Grundfrequenz der zu übertragenden Stimme zu bestimmen. Diese Art der Sprachverschlüsselung funktioniert auf Datenübertragungsblöcken von 20 ms auf dem Band [300-3400 Hz]. Der lineare Filter besteht aus zwei Teilen: einem ersten Teil, der die Kurzzeit- Korrelationen des Sprachsignals berücksichtigt und einem zweiten Teil, der die Langzeit-Korrelationen des Sprachsignals berücksichtigt. Nachfolgend wird von Kurzzeit-Filter und Langzeit-Filter die Rede sein.
Das Signal S besteht aus einem Sprach-Datenübertragungsblock von 20 ms, der mit 8 kHz abgetastet wird.
Die Einrichtungen 2 ermöglichen die Bestimmung der Reflexionskoeffizienten LAR des Kurzzeit-Filters. Dazu wird der Durbin-Algorithmus verwendet, der auf das gefilterte Signal angewendet wird, um daraus eine lineare Vorhersage zu erhalten. Der Durbin-Algorithmus erzeugt zehn Reflexionskoeffizienten, die sogenannten LAR-Koeffizienten, zwischen – 1 und 1, die auf der logarithmischen Skala LAR (Log Area Ratio) ausgedrückt werden.
Die Einrichtungen 3 zur Bestimmung einer Grundfrequenz der Stimme verwenden ein Vorhersageverfahren, das mit dem Langzeit-Filter auf den Datenübertragungsblöcken von 5 ms verbunden ist, und sie ermöglichen es, die Grundfrequenz zu reproduzieren, die mit einer Tonhöhe (pitch) P zwischen 56 und 444 Hz verbunden ist, und die Charakteristik des Sprechers sowie die Verstärkung, die mit dieser Frequenz verbunden ist.
Die Einrichtungen 4 ermöglichen die Bestimmung des Erregungs-Impulssignals I.
Die Gesamtheit der Daten, die von den Einrichtungen 2, 3 und 4 für einen Datenübertragungsblock von 20 ms geliefert werden, wird in dem Datenfluss-Formatierer 12 formatiert, der ein verschlüsseltes Sprachsignal C erzeugt.
Wenn diese Parameter definiert sind, kann man verschiedene Wirkungen auf die Stimme erzeugen, indem man die Parameter LAR, P und I verändert. Die Einrichtungen zur Veränderung 13 ermöglichen die Veränderung dieser verschiedenen Parameter.
So können die Einrichtungen zur Veränderung 13 nur den Wert der Tonhöhe (pitch) verändern, der mit der Grundfrequenz verbunden ist, so dass eine männliche Stimme in eine weibliche Stimme verwandelt wird. Dazu wird der Wert der Tonhöhe (pitch) P jedes Datenübertragungsblockes in einen Wert Min (P + P_effet, Max (P)) verändert, wobei P_effet ein vorher festgelegter Wert ist, beispielsweise 90 Hz, und Max (P) der maximale Tonhöhenwert ist, der von dem Standardsystem akzeptiert wird. Eine männliche Stimme hat nämlich einen Tonhöhenwert von ungefähr 120 Hz, während eine weibliche Stimme einen Tonhöhenwert von ungefähr 210 Hz besitzt.
Mit den Einrichtungen zur Veränderung 13 kann in ähnlicher Form vorgegangen werden, um eine weibliche Stimme in eine männliche Stimme zu verwandeln. Dazu wird der Tonhöhenwert P jedes Datenübertragungsblockes in einen Wert Max (P – P_effet, Min (P)) verändert, wobei P_effet ein vorher festgelegter Wert von 90 Hz ist, und Min (P) der minimale Tonhöhenwert ist, der von dem Standardsystem akzeptiert wird.
Man kann auch einen Flüstereffekt erzielen, wenn die Tonhöhe und die Verstärkung durch die Einrichtungen 13 verändert wird. Dazu wird die Tonhöhe durch die Einrichtungen zur Veränderung 13 angehoben und die Verstärkung wird verringert, so dass der Signalausgang des Langzeit-Filters wesentlich verändert wird, indem die Wirkung der Vibrationen der Stimmbänder verringert wird. Die LAR-Parameter bleiben unverändert.
Man kann auch einen Roboterstimm-Effekt erzielen, wenn die Parameter des Langzeit-Filters durch die Einrichtungen 13 verändert werden. Dazu wird die Tonhöhe (pitch) auf einen relativ hohen Wert festgelegt. Wie für den Flüstereffekt, wird die Prosodie, d.h. die Gesamtheit der phonischen Elemente, die die gesprochene Sprache charakterisieren, vollständig verändert und in einen monotonen Ton verwandelt, der eine einzige Grundfrequenz und unveränderte LAR-Parameter besitzt.
Eine weitere bemerkenswerte Eigenschaft der Parameter der Stimmencodierer betrifft die Tatsache, dass die LAR-Parameter den vokalen Weg und den nasalen Weg repräsentieren, der mit der Erzeugung von Sprache verbunden ist, wobei diese beiden Wege durch Resonanzfilter des Typs Allpolfilter dargestellt werden, und jeder Pol eine Resonanzfrequenz repräsentiert. Da durch die Erzeugung von Sprache der vokale Weg und der nasale Weg zum Einsatz gebracht werden, können diese Parameter folglich durch die Einrichtungen 13 verändert werden, so dass die Vokale wie die einer Person mit verstopfter Nase nachklingen.
Der vokale Weg und der nasale Weg können jeweils durch einen Allpolfilter dargestellt werden, aber die Summe dieser beiden Filter ist nicht "Allpol". Um die Kombination dieser beiden Wege in Form eines Allpolfilters darzustellen, muss ein Nullwert konstruiert werden, indem man zwei Pole nebeneinander platziert. Dieser Nullwert repräsentiert den Anteil des nasalen Resonators auf dem vokalen Resonator.
Durch Annäherung dieser beiden Pole nebeneinander verringern die Einrichtungen zur Veränderung 13 den Anteil des nasalen Resonators und verleihen der Stimme somit einen "verschnupften" Effekt.
Die Parameter können auch in Abhängigkeit von verschlüsselten Daten verändert werden, die repräsentativ sind für eine Gesamtheit von Tönen, die durch ihre jeweiligen Frequenzen und ihre jeweilige Dauer definiert werden. So kann die modifizierte Stimme einer Partitur folgen, die in einem Verschlüsselungsformat definiert wird, das eine Gesamtheit von Paaren (Frequenz, Dauer) bestimmt und so einen gesungenen Effekt haben. Eine Partitur wird den Einrichtungen zur Veränderung 13 der Rekonstruktionsparameter geliefert. Diese Partitur kann ein Musikverschlüsselungsformat MIDI, SMAF von Yamaha^®, EMR R5 polyphon, IrDA iMelody von IrMC (Infrared Mobile Communications) oder ein anderes Format vektorieller Beschreibung der Musik besitzen. In einer Vorbearbeitungsphase wird die Partitur ggfs. automatisch umgeschrieben, damit die Frequenzen der Töne in dem Intervall [56 Hz, 444 Hz] liegen.
Die Töne werden in Dauer und Frequenz interpretiert, wobei jede Note einem Beginn, einem Ende und einer Frequenz entspricht. Die Sprach-Datenübertragungsblöcke von 5 ms werden durch die Einrichtungen 12 verändert, so dass die Tonhöhe gleich der Frequenz des Tons im gleichen Augenblick ist.
Die Veränderungen der Parameter erfolgen im allgemeinen über den Austausch zwischen dem Datenfluss-Formatierer und den Einrichtungen 13 zur Veränderung der Parameter. Dennoch kann man auch Veränderungen der Parameter erwägen, die direkt am Vocoder 11 vorgenommen werden.
In 1 hat der Benutzer die Möglichkeit, die Art der an der zu übertragenden Stimme gewünschten Effekte über die Einrichtungen 14 zur Auswahl einer Veränderungsart zu wählen. Er kann die Veränderungen der Rekonstruktionsparameter des Sprachsignals über die Einrichtungen 15 auch manuell konfigurieren. So kann er beispielsweise den bei Min (P+ P_effet, Max (P)) veränderten Tonhöhenwert im Falle einer Umwandlung der männlichen Stimme in eine weibliche Stimme beeinflussen, indem er selbst den Wert von P_effet festlegt. Den erhaltenen Effekt kann er auch über die Einrichtungen 16 testen, die es ihm erlauben, die Art der ausgewählten Veränderung mit den Parametern, wie er sie festgelegt hat, auszuführen.
Bei einer Mobilfunkkommunikation wird die Stimme des Benutzers durch die Einrichtungen 9 zunächst abgetastet und digitalisiert. Im Anschluss daran wird sie durch den Vocoder 11 verschlüsselt, der die Phase 7 ausführt, wie in Verbindung mit 1 beschrieben.
Die verschlüsselte Stimme wird anschließend durch den Formatierer 12 formatiert, und zwar in Form von Rekonstruktionsparametern der Stimme, die man dank des Vocoders 11 erhalten hat.
Die Einrichtungen 13, die durch die Einrichtungen 14, 15 und 16 gesteuert werden, verändern nun die formatierten Rekonstruktionsparameter der Stimme, so dass man die von dem Benutzer gewünschten Effekte erhält. Die veränderten Parameter werden anschließend wieder zu den Einrichtungen 12 zurückübertragen und sodann über das Fernmeldenetz an den Gesprächspartner gesendet oder im Testmodus für den Benutzer ausgeführt.
Man kann auch eine Veränderung der Rekonstruktionsparameter direkt an den Einrichtungen 11 durch die Einrichtungen 13 erwägen.
Selbstverständlich ist die Erfindung nicht auf die Ausführungsart beschränkt, die soeben beschrieben worden ist.
Die Ausführungsart erstreckt sich insbesondere auf eine RPE-LTP-Verschlüsselung der Quelle, aber man kann auch jede andere Verschlüsselung der Quelle in Betracht ziehen, wie beispielsweise ETS 300 726 GSM EFF (Enhanced Full Rate) und 3GPP TS 26.071 AM (Adaptive Multirate).

Claims

Telekommunikationsendgerät (8) mit Eingangselementen (9) für den Benutzer des Endgerätes für ein analoges Sprachsignal, Einrichtungen (10) zur Umwandlung des analogen Sprachsignals in ein numerisches Sprachsignal (S), einem Vocoder (11) zur Durchführung einer Verschlüsselung der Quelle des numerischen Sprachsignals (S), wobei der Vocoder (11) Einrichtungen (2, 3, 4) besitzt, um Rekonstruktionsparameter (LAR, P I) des numerischen Sprachsignals abzufragen bzw. zu extrahieren, und einen Daten-Formatierer (12), der ein verschlüsseltes Sprachsignal (C) in Abhängigkeit von den abgefragten bzw. extrahierten Rekonstruktionsparametern liefert, dadurch gekennzeichnet, dass das Endgerät (8) Einrichtungen (13) besitzt, um während einer Fernsprechverbindung mindestens einen der Rekonstruktionsparameter zu verändern, so dass die mit dem verschlüsselten Sprachsignal (C) übertragene Stimme verändert wird, wobei die Einrichtungen durch Auswahleinrichtungen (14) gesteuert werden, so dass der Benutzer eine Änderungsart für die zu übertragende Stimme auswählen kann, und/oder durch Einrichtungen (15) zur manuellen Konfiguration der Änderungen der Rekonstruktionsparameter für die Sprache gesteuert werden.
Endgerät (8) nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die Einrichtungen (13) zur Veränderung der Rekonstruktionsparameter Elemente besitzen, um einen repräsentativen Parameter der Grundfrequenz der Stimme zu verändern.
Endgerät (8) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass es sich bei der Verschlüsselung der Quelle des Sprachsignals um eine RPE-LTP-Verschlüsselung handelt.
Endgerät (8) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Einrichtungen (13) zur Veränderung der Rekonstruktionsparameter Elemente besitzen, um die Parameter des Kurzzeit-Filters des Vocoders zu verändern.
Endgerät (8) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Einrichtungen (13) zur Veränderung der Rekonstruktionsparameter Elemente besitzen, um die Parameter, die mit den Erregungsgrößen verbunden sind, zu verändern.
Endgerät (8) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Einrichtungen (13) zur Veränderungen der Rekonstruktionsparameter Elemente besitzen, um die Parameter des Langzeit-Filters des Vocoders zu verändern.
Endgerät (8) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Einrichtungen (13) zur Veränderung der Rekonstruktionsparameter Elemente besitzen, um die Parameter in Abhängigkeit von den verschlüsselten Daten zu verändern, die repräsentativ sind für eine Gesamtheit von Tönen, die durch ihre jeweiligen Frequenzen und ihre jeweilige Dauer definiert werden.
Endgerät (8) nach einem der vorhergehenden Ansprüche, das Einrichtungen (16) zur Durchführung der Änderungen in einem Testmodus besitzt.
Endgerät (8) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass es sich bei dem Endgerät um ein Mobiltelephon handelt.