DE60027177T2

DE60027177T2 - Gerät und verfahren für ein telekommunikationssystem

Info

Publication number: DE60027177T2
Application number: DE60027177T
Authority: DE
Inventors: Jim Sundqvist; Tomas Frankkila; Anders Nohlgren
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 1999-09-09
Filing date: 2000-09-01
Publication date: 2006-12-28
Anticipated expiration: 2020-09-02
Also published as: EP1218876B1; WO2001018790A8; EP1218876A1; US6873954B1; AU7326500A; WO2001018790A1; SE9903223L; SE9903223D0; DE60027177D1

Description

TECHNISCHES GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft allgemein Verfahren zum Verbessern einer Sprachqualität in z.B. IP-Telefoniesystemen. Spezifischer betrifft die vorliegende Erfindung ein Verfahren zum Verringern von Audioartefakten auf Grund eines Überlaufs oder Unterlaufs in einem Wiedergabepuffer.
Die Erfindung betrifft auch eine Anordnung zum Ausführen des Verfahrens.
BESCHREIBUNG DES VERWANDTEN SACHSTANDES
Wenn Abtastfrequenzen, z.B. in einem Sprachcodiersystem, nicht gesteuert werden, können ein Unterlauf oder Überlauf in dem Wiedergabepuffer auftreten, der ein Puffer ist, der Sprachabtastwerte für eine spätere Wiedergabe speichert. Ein Unterlauf bedeutet, dass der Wiedergabepuffer in ein Verhungern laufen wird, d.h. er wird nicht mehr irgendwelche Abtastwerte aufweisen, um die Ausgabe wiederzugeben. Ein Überlauf bedeutet, dass der Wiedergabepuffer mit Abtastwerten gefüllt werden wird, und dass folgende Abtastwerte nicht gepuffert werden können und folglich verloren gehen. Ein Unterlauf ist wahrscheinlich verbreiteter als ein Überlauf, da die Größe des Wiedergabepuffers zunehmen kann, bis kein Speicher verblieben ist, wohingegen er nur abnehmen kann, bis keine Abtastwerte vorhanden sind.
Gegenwärtig behandeln die meisten Systeme das Problem nicht, dass sich die Abtastfrequenz beträchtlich zwischen der Sende- und der Empfangsseite unterscheiden kann. Eine mögliche Lösung, die in der EP-0680033 A2 vorgeschlagen ist, arbeitet auf Teilungsperioden. Ein Hinzufügen oder Entfernen von Teilungsperioden in dem Sprachsignal erzielt eine unterschiedliche Dauer eines Sprachsegments, ohne andere Sprachcharakteristika als Geschwindigkeit zu beeinflussen. Die vorgeschlagene Lösung kann als ein indirektes Abtastraten-Konversionsverfahren verwendet werden.
Eine weitere Lösung verwendet den Beginn von Talkspurts als eine Anzeige, den Wiedergabepuffer auf einen spezifizierten Pegel zurückzusetzen. Der Abstand, in Anzahl von Abtastwerten, zwischen zwei aufeinander folgenden Talkspurts wird erhöht, wenn die Empfangsseite schneller wiedergibt als die Sendeseite, und verringert, wenn die Empfangsseite langsamer wiedergibt als die Sendeseite. Bei IP-Telefonielösungen unter Verwendung der IP/UDP/RTP-Protokolle (Internet Protocol/User Datagram Protocol/Real Time Protocol) wird das Markierungs-Flag in dem RTP-Header verwendet, um den Beginn eines Talkspurts zu identifizieren. Bei dem Beginn eines Talkspurts wird der Wiedergabepuffer auf eine geeignete Größe gesetzt.
Die Lösung gemäß der EP-0680033 A2, wo Teilungsperioden entfernt oder eingefügt werden, nimmt einen festen Konversionsfaktor zwischen der Empfangs- und Sendeseite an. Deswegen kann sie nicht in dynamischen Systemen verwendet werden, d. h. dort, wo die Abtastfrequenzen variieren. Ferner löst sie nicht das Problem mit Unterlauf- oder Überlaufsituationen, sondern ist statt dessen auf ein Ändern der Wiedergaberate eines Sprachsignals, das in einer komprimierten Form gespeichert ist, für eine Wiedergabe, später und bei einer anderen Geschwindigkeit verglichen mit derjenigen, wenn es gespeichert wurde, fokussiert.
Eine Verwendung des Verfahrens eines Rücksetzens des Wiedergabepuffers auf eine bestimmte Größe verursacht Probleme, wenn sehr lange Talkspurts vorhanden sind, d. h. eine Sendung von einem Sprecher zu mehreren Hörern. Da die Länge eines Talkspurts nicht an dem Beginn des Talkspurts definiert ist, kann die Größe zum Rücksetzen entweder zu klein oder zu groß sein. Wenn sie zu klein ist, wird ein Unterlauf auftreten, und wenn sie zu groß ist, wird eine unnötige Verzögerung eingeführt, womit das Problem bestehen bleibt.
Die EP 0743773 beschreibt eine Anordnung, bei der mehrfache Sprachbitstrom-Rahmenpuffer zwischen dem Controller und dem Sprachdecoder verwendet werden. Wann immer übermäßige oder fehlende Sprachpakete erfasst werden, schaltet der Sprachdecoder auf einen speziellen Korrekturmodus. Wenn zu viele vorhanden sind, werden die gepufferten Rahmen schnell wiedergegeben, wenn zu wenige vorhanden sind, werden die gepufferten Rahmen langsam wiedergegeben. Für die schnelle Wiedergabe muss eine bestimmte Sprachinformation verworfen werden, während für die langsame Wiedergabe eine bestimmte sprachähnliche Information synthetisiert werden muss. Die Sprache kann in Unterrahmeneinheiten gehandhabt werden, die Abtastwerte zu einer Zeit sein können. Niedrigenergie-, ruhige oder nicht mit Sprache versehene Sprachrahmen, die auch eine Nicht-Periodizität anzeigen, werden erfasst und verarbeitet. Außerdem wird das decodierte Signal bei der Anregungsphase vor dem End-LPC-Synthesefilter verarbeitet, was zu einem transparenten Wahrnehmungseffekt über die verarbeitete Sprachqualität führt. Zusätzlich sind die Puffer derart vergrößert, dass das Problem, das durch eine Controller-Asynchronität herbeigeführt wird, beseitigt ist. Ferner halten die Puffer für eine Bulk-Verzögerung, die durch ein Multiplexen von Daten- und Sprach-Übertragungen herbeigeführt wird, die kleinste Anzahl von Sprachpaketen, die notwendig ist, um einen Pufferunterlauf während einer Datenpaketübertragung zu verhindern, während eine Sprachverzögerung minimiert wird und eine Datenübertragungseffizienz erhalten wird.
Das allgemeine Problem mit gegenwärtig bekannten Zugängen besteht darin, dass sie statisch und unflexibel sind. Folglich sind dynamische Lösungen erforderlich.
ZUSAMMENFASSUNG DER ERFINDUNG
Die vorliegende Erfindung behandelt das Problem eines Verbesserns einer Sprachqualität in Systemen, wo sich die Abtastrate an einem Sendeendgerät von der Wiedergaberate eines Empfangspuffers an einem Empfangsendgerät unterscheidet. Dies ist bei der z.B. IP-Telefonie oft der Fall.
Wenn Abtastfrequenzen nicht gesteuert werden, können ein Unterlauf oder ein Überlauf in dem Wiedergabepuffer an der Empfangsseite auftreten, was hörbare Artefakte in dem Sprachsignal verursacht. Um den Überlauf oder Unterlauf zu vermeiden, besteht ein Bedarf nach einem dynamischen Halten des Wiedergabepuffers auf einer durchschnittlichen Größe, d. h. ein Steuern der Füllung des Wiedergabepuffers.
Eine Aufgabe der vorliegenden Erfindung besteht somit darin, ein Verfahren zum Verringern von Audioartefakten in einem Sprachsignal auf Grund eines Überlaufs oder Unterlaufs in dem Wiedergabepuffer bereitzustellen.
Eine weitere Aufgabe der Erfindung besteht darin, die Füllung des Wiedergabepuffers zu steuern, um so nicht eine zusätzliche Verzögerung einzuführen.
Die oben erwähnten Aufgaben werden mittels einer dynamischen Abtastratenkonversion von Sprachrahmen gelöst, d.h. einem Konvertieren von Sprachrahmen, die N Abtastwerte umfassen, um stattdessen entweder N + 1 oder N – 1 Abtastwerte zu umfassen. Spezifischer arbeitet die Erfindung auf einem LPC-Residuum des Sprachrahmens, und durch ein Addieren oder Entfernen eines Abtastwerts in dem LPC-Residuum wird eine Abtastratenkonversion erreicht. Das LPC-Residuum ist der Ausgang aus einem LPC-Filter, der ein linearer prädiktiver Codierungsfilter ist, wobei jeder Abtastwert als eine lineare Kombination vorhergehender Abtastwerte vorhergesagt wird.
Unter Verwendung des vorgeschlagenen Abtastraten-Konversionsverfahrens kann der Wiedergabepuffer von z.B. einem IP-Telefonieendgerät kontinuierlich mit nur kleinen Audioartefakten gesteuert werden. Da das Verfahren auf einer Abtastwert-zu-Abtastwert-Grundlage arbeitet, kann der Wiedergabepuffer auf einem Minimum gehalten werden, und somit wird keine zusätzliche Verzögerung eingeführt. Die Lösung weist auch eine sehr geringe Komplexität auf, insbesondere dann, wenn das LPC-Residuum bereits verfügbar ist, was in z.B. einem Sprachdecoder der Fall ist.
Der Ausdruck "umfasst/umfassend" wird, wenn er in dieser Beschreibung verwendet wird, dazu herangezogen, das Vorhandensein dargelegter Merkmale, Ganzzahlen, Schritte oder Komponenten zu spezifizieren, schließt aber nicht das Vorhandensein oder die Hinzufügung eines oder mehrerer Merkmale, Ganzzahlen, Schritte, Komponenten oder Gruppen davon aus.
Obwohl die Erfindung oben stehend zusammengefasst worden ist, definieren das Verfahren und die Anordnung gemäß der angehängten unabhängigen Ansprüche 1 und 9 den Umfang der Erfindung. Verschiedene Ausführungsformen sind weiter in den abhängigen Ansprüchen 2–8 und 10–16 definiert.
BESCHREIBUNG DER ZEICHNUNGEN
In den Zeichnungen zeigen:
1 einen Sender und einen Empfänger, auf welchen das Verfahren der Erfindung angewandt werden kann;
2 ein Sprachsignal in dem Zeitbereich;
3 ein LPC-Residuum eines Sprachsignals in dem Zeitbereich;
4 vier Module des Abtastraten-Konversionsverfahrens gemäß der Erfindung;
5A einen Analyse-durch-Synthese-Sprachcodierer mit LTP-Filter;
5B einen Analyse-durch-Synthese-Sprachcodierer mit einem adaptiven Codebuch;
5C–5F unterschiedliche Implementierungen der LPC-Residuumsextraktion in Abhängigkeit von der Verwirklichung des Sprachcodierers;
5G–5J vier Arten eines Platzierens der Abtastratenkonversion innerhalb der Rückkopplungsschleife des Sprachdecoders;
6 wie eine Information über Teilungspulse zu verwenden ist, um Abtastwerte mit einer niedrigen Energie zu finden;
7 eine LPC-Vorgeschichte-Erweiterung; und
8 ein Kopieren der Vorgeschichte des LPC-Residuums.
DETAILLIERTE BESCHREIBUNG
Die vorliegende Erfindung beschreibt unter Bezugnahme auf 1 ein Verfahren zum Verbessern einer Sprachqualität in einem Kommunikationssystem, umfassend eine erste Endgeräteeinheit TRX1, die Sprachsignale sendet, die eine erste Abtastfrequenz F₁ aufweisen, und eine zweite Endgeräteeinheit TRX2, die die Sprachsignale empfängt, sie in einem Wiedergabepuffer 100 mit der ersten Frequenz F₁ puffert und sie aus dem Wiedergabepuffer mit einer zweiten Frequenz F₂ wiedergibt. Wenn die Pufferfrequenz F₁ größer als die Wiedergabefrequenz F₂ ist, wird der Wiedergabepuffer schließlich mit Abtastwerten gefüllt werden, und nachfolgende Abtastwerte werden zu verwerfen sein. Wenn die Pufferfrequenz F₁ niedriger als die Wiedergabefrequenz F₂ ist, wird der Puffer in eine Verhungerung laufen, d. h. er wird nicht mehr jedwede Abtastwerte aufweisen, um sie an dem Ausgang wiederzugeben. Diese beiden Probleme werden als Überlauf bzw. Unterlauf bezeichnet und verursachen hörbare Artefakte, wie Knall- und Knack-Töne in dem Sprachsignal.
Die obigen Probleme mit Unterlauf und Überlauf werden durch Verwendung einer dynamischen Abtastratenkonversion auf der Grundlage eines Modifizierens des LPC-Residuums des Sprachsignals gelöst, und werden weiter unter Bezugnahme auf die 2–8 beschrieben werden.
2 zeigt ein typisches Segment eines Sprachsignals in dem Zeitbereich. Dieses Sprachsignal zeigt eine Kurzzeitkorrelation, die dem Stimmtrakt entspricht, und eine Langzeitkorrelation, die den Stimmbändern entspricht. Die Kurzzeitkorrelation kann unter Verwendung eines LPC-Filters vorhergesagt werden, und die Langzeitkorrelation kann unter Verwendung eines LTP-Filters vorhergesagt werden. LPC bedeutet lineares prädiktives Codieren und LTP bedeutet Langzeitprädiktion. Linear in diesem Fall impliziert, dass die Prädiktion eine lineare Kombination vorangehender Abtastwerte des Sprachsignals ist.
üblicherweise bezeichnet als:
Indem ein Sprachrahmen durch das LPC-Filter H(z) zugespeist wird, wird das LPC-Residuum gefunden. Das LPC-Residuum, das in 3 gezeigt ist, enthält Teilungspulse P, die durch Stimmbänder erzeugt werden. Der Abstand L zwischen zwei Teilungspulsen P wird als Zeitabstand bezeichnet. Die Zeitpulse P sind auch vorhersagbar, und da sie die Langzeitkorrelation des Sprachsignals darstellen, werden sie durch einen LTP-Filter vorhergesagt, der durch den Abstand L zwischen den Teilungspulsen P und die Verstärkung b eines Teilungspulses P gegeben ist. Der LTP-Filter wird üblicherweise bezeichnet als: F(z) = b·z–L
Wenn das LPC-Residuum durch das Inverse des LTP-Filters F(z) gespeist wird, wird ein LTP-Residuum geschaffen. In dem LTP-Residuum ist die Langzeitkorrelation in dem LPC-Residuum entfernt, was dem LTP-Residuum eine rauschähnliche Erscheinung gibt.
Die Lösung gemäß der Erfindung modifiziert das LPC-Residuum, das in 3 gezeigt ist, auf einer Abtastwert-zu-Abtastwert-Grundlage. Das heißt, ein LPC-Residuumsblock, der N Abtastwerte umfasst, wird in einen LPC-Residuumsblock konvertiert, der entweder N + 1 oder N – 1 Abtastwerte umfasst. Das LPC-Residuum enthält weniger Information und weniger Energie verglichen mit dem Sprachsignal, aber die Teilungspulse P sind noch einfach zu lokalisieren. Wenn das LPC-Residuum modifiziert wird, sollten Abtastwerte, die nahe einem Teilungspuls P sind, vermieden werden, weil diese Abtastwerte mehr Information enthalten und somit einen großen Einfluss auf die Sprachsynthese aufweisen. Das LTP-Residuum ist nicht so geeignet wie das LPC-Residuum, um für eine Modifikation verwendet zu werden, da die Teilungspuls-Positionen P nicht mehr verfügbar sind. Folglich ist das LPC-Residuum besser für eine Modifikation verglichen sowohl mit dem Sprachsignal als auch dem LTP-Residuum geeignet, da die Teilungspulse P auf einfache Weise in dem LPC-Residuum lokalisiert sind.
Die vorgeschlagene Abtastratenkonversion besteht aus vier Modulen, die in 4 gezeigt sind:

1) Ein Abtastratencontroller-(SRC)-Modul 400, das berechnet, ob ein Abtastwert hinzugefügt oder entfernt werden sollte;
2) LPC-Residuumsextraktions-(LRE)-Module 410 werden verwendet, um das LPC-Residuum r_LPC zu erhalten;
3) Abtastraten-Konversionsverfahren-(RCM)-Module 420 finden die Position, wo Abtastwerte hinzuzufügen oder zu entfernen sind, und wie die Einfügung und Löschung durchzuführen ist, d. h. der LPC-Residuumsblock r_LPC, der N Abtastwerte umfasst, in einen modifizierten LPC-Residuumsblock r'_LPC zu konvertieren ist, der N + 1 oder N – 1 Abtastwerte umfasst; und
4) ein Sprachsynthetisierermodul (SSM) 430, um die Sprache zu reproduzieren.

Die Idee hinter der Erfindung besteht darin, dass es möglich ist, die Wiedergaberate des Wiedergabepuffers 440 zu ändern, indem Abtastwerte in dem LPC-Residuum r_LPC entfernt oder hinzugefügt werden.
Das SRC-Modul 400 entscheidet, ob Abtastwerte in dem LPC-Residuum r_LPC hinzugefügt oder entfernt werden. Dies wird auf der Grundlage von zumindest einem der folgenden Parameter durchgeführt; den Abtastfrequenzen der Sende-TRX1 und Empfangs-Endgeräteeinheiten TRX2, einer Information über das Sprachsignal, z.B. ein Sprachaktivitäts-Detektorsignal, einem Status des Wiedergabepuffers oder einem Indikator bei dem Beginn eines Talkspurts. Diese Eingänge sind in der Figur als SRC-Eingänge bezeichnet. Auf der Grundlage einer Funktion eines oder mehrerer dieser Parameter bildet der SRC 400 eine Entscheidung darüber, wann ein Abtastwert in das LPC-Residuum r_LPC einzufügen oder aus diesem zu entfernen ist, und wahlweise, welches RCM 420 zu verwenden ist. Da eine digitale Verarbeitung der Sprachsignale üblicherweise auf einer Rahmen-zu-Rahmen-Grundlage durchgeführt wird, besteht die Entscheidung darüber, wann Abtastwerte zu entfernen oder hinzuzufügen sind, grundsätzlich darin, zu entscheiden, innerhalb welchem LPC-Residuums-r_LPC-Rahmen das RCM 420 einen Abtastwert einfügen oder entfernen sollte.
Es sind grundsätzlich drei Verfahren zum Erhalten des LPC-Residuums r_LPC vorhanden, das als Eingang in die RCM's 420 benötigt wird. Die Verfahren hängen von der Implementierung des Sprachcodierers ab und werden unter Bezugnahme auf die 5A–5F beschrieben werden. Die LRE-Lösung beeinflusst auch direkt die SSM-Lösung, was unten offensichtlich werden wird.
In 5A ist ein Analyse-durch-Synthese-Sprachcodierer 500 mit einem LTP-Filter 540 gezeigt. Dies ist ein Hybridcodierer, wobei der Stimmtrakt mit einem LPC-Filter 550 beschrieben ist, und die Stimmbänder mit einem LTP-Filter 540 beschrieben sind, während das LTP-Residuum r ^_LTP(n) mit einem Satz von mehr oder weniger stochastischen Codebuchvektoren aus dem festen Codebuch 530 wellenform-verglichen wird. Das Eingangssignal S ist im Rahmen 510 mit einer typischen Länge von 10–30 ms geteilt. Für jeden Rahmen wird ein LPC-Filter 550 über eine LPC-Analyse 520 berechnet, und das LPC-Filter 550 ist in einer geschlossenen Schleife enthalten, um die Parameter des LTP-Filters 540 zu finden. Der Sprachdecoder 580 ist in dem Codierer enthalten und besteht aus dem festen Codebuch 530, dessen Ausgang r ^_LTP(n) mit dem LTP-Filter 540 verbunden ist, dessen Ausgang r ^_LPC(n) mit dem LPC-Filter 550 verbunden ist, das eine Abschätzung ss ^(n) des ursprünglichen Sprachsignals s(n) erzeugt. Jedes abgeschätzte Signal ss ^(n) wird mit dem ursprünglichen Sprachsignal s(n) verglichen, und ein Differenzsignal e(n) wird berechnet. Das Differenzsignal e(n) wird dann gewichtet 560, um ein wahrgenommenes gewichtetes Fehlermaß e_w(n) zu berechnen. Der Satz von Parametern, der das kleinste wahrgenommene gewichtete Fehlermaß e_w(n) ergibt, wird zu der Empfangsseite 570 übertragen.
Wie in 5C ersehen werden kann, ist das LPC-Residuum r ^_LPC(n) der Ausgang von dem LTP-Filter 540. Die SRC/RCM-Module 545 können somit direkt mit diesem Ausgang verbunden und in den Sprachcodierer integriert werden. Das LRE besteht aus dem festen Codebuch 530 und dem Langzeitprädiktor 540 und das SSM besteht aus einem LPC-Filter 550, somit sind das LRE-Modul und das SSM-Modul natürliche Teile des Sprachdecoders.
Wenn der Sprachcodierer andererseits ein Analyse-durch-Synthese-Sprachcodierer ist, wo das LTP-Filter 540 in ein adaptives Codebuch 590 getauscht ist, wie in 5B gezeigt, wird das LPC-Residuum aus der r ^_LPC(n) aus der Summe des adaptiven und festen Codebuchs 590 und 530 ausgegeben. Sämtliche anderen Elemente weisen die gleiche Funktion wie in 5A auf, die den Analyse-durch-Synthese-Sprachcodierer mit einem LPT-Filter 500 zeigt. Wie aus 5D ersehen werden kann, ist das LPC-Residuum r ^_LPC(n) die Summe des Ausgangs aus dem adaptiven und festen Codebuch 590 und 530. Die SRC/RCM-Module 545 können somit wieder direkt mit diesem Ausgang verbunden und in den Sprachcodierer integriert werden, wie in 5D gezeigt. Die LRE besteht aus dem adaptiven und dem festen Codebuch 590 und 530, und das SSM besteht aus einem LPC-Filter 550, womit das LRE-Modul und das SSM-Modul wiederum natürliche Teile des Sprachdecoders sind.
Wenn der Sprachcodierer eine bestimmte Art einer Rückwärtsadaption aufweist, ist es nicht machbar, Änderungen in dem LPC-Residuum auszuführen, da dies den Adaptionsprozess auf eine schädliche Weise beeinflussen würde. In 5E ist gezeigt, wie die Parameter ss ^(n) von dem LPC-Filter 550 in diesen Fällen einem inversen LPC-Filter 525 zugeführt werden können, das nach dem Sprachdecoder platziert ist. Nachdem die Abtastratenkonversion in den SRC/RCM-Modulen 540 ausgeführt worden ist, wird eine LPC-Filterung 550 durchgeführt, um das Sprachsignal zu reproduzieren. Das LRE-Modul besteht aus dem inversen LPC-Filter 525, und das SSM-Modul besteht aus dem LPC-Filter 550.
In 5F ist gezeigt, wie es möglich ist, ein LPC-Residuum r ^_LPC(n) durch eine vollständige LPC-Analyse zu erzeugen. Der Ausgang ss ^(n) aus dem Sprachdecoder wird sowohl einem LPC-Analyseblock 520 als auch einem inversen LPC-Filter 525 zugeführt. Nachdem die Abtastratenkonversion in den SRC/RCM-Modulen 545 ausgeführt worden ist, wird eine LPC-Filterung 550 durchgeführt, um das Sprachsignal zu reproduzieren. Die LRE besteht in diesem Fall aus der LPC-Analyse 520 bzw. dem inversen LPC-Filter 525, und das SSM-Modul besteht aus dem LPC-Filter 550. Ein Durchführen einer LPC-Analyse wird als für eine Durchschnittsfachperson bekannt angesehen und wird deswegen nicht weiter diskutiert.
Unter Bezugnahme wiederum auf 4 sei angenommen, dass das SRC-Modul 400 entschieden hat, dass ein Abtastwert in dem LPC-Residuum r_LPC hinzuzufügen oder zu entfernen ist, und dass das LRE-Modul 410 ein LPC-Residuum r_LPC erzeugt hat. Das RCM-Modul 420 muss dann die exakte Position in dem LPC-Residuum r_LPC finden, wo ein Abtastwert hinzuzufügen oder zu entfernen ist, und das Hinzufügen bzw. Entfernen durchführen. Es sind vier unterschiedliche Verfahren vorhanden, damit das RCM-Modul 420 den Einfügungs- oder Löschungspunkt findet.
Das erste und einfachste Verfahren entfernt einen Abtastwert willkürlich oder fügt diesen hinzu, wann immer dies notwendig wird. Wenn die Abtastratendifferenz zwischen den Endgeräten klein ist, wird dies nur zu geringen Artefakten führen, da das Hinzufügen oder Entfernen sehr selten durchgeführt wird.
Durch ein Einfügen oder Entfernen von Abtastwerten an Positionen, wo das LPC-Residuum niedrig ist, wird die Synthese weniger beeinflusst werden. Dies liegt an der Tatsache, dass Segmente nahe der Teilungspulse dann vermieden werden. Um diese Segmente einer niedrigen Energie zu finden, können entweder ein Gleitfensterverfahren oder eine einfacherere Blockenergieanalyse verwendet werden.
Das zweite Verfahren, das als das Gleitfenster-Energieverfahren bezeichnet wird, berechnet einen gewichteten Energiewert für jeden Abtastwert in dem LPC-Residuum. Dies wird durch ein Multiplizieren von k Abtastwerten, die einen Abtastwert umgeben, mit einer Fensterfunktion einer Größe k (k<<N) ausgeführt, wobei N gleich die Anzahl von Abtastwerten in dem LPC-Residuum ist. Jeder Abtastwert wird dann quadriert, und die Summe der resultierenden k Werte wird berechnet. Das Fenster wird um eine Position verschoben und die Prozedur wird wiederholt. Die Position, wo Abtastwerte einzufügen oder zu entfernen sind, ist durch den Abtastwert mit dem niedrigsten gewichteten Energiewert gegeben.
Das dritte Verfahren, eine Blockenergieanalyse, ist eine einfacherere Lösung zum Auffinden des Einfügungs- oder Löschungspunkts. Das LPC-Residuum wird einfach in Blöcke gleicher Länge geteilt, und ein beliebiger Abtastwert wird in dem Block mit der niedrigsten Energie entfernt oder hinzugefügt.
Das vierte Verfahren, wie es in 6 veranschaulicht ist, verwendet eine Kenntnis über die Position P eines Teilungspulses und des Zeitabstands L zwischen zwei Teilungspulsen. Mit der Kenntnis darüber ist es möglich, eine Position P' zu berechnen, die eine niedrige Energie aufweist, und wo es deswegen geeignet ist, einen Abtastwert hinzuzufügen oder zu entfernen. Die neue Position P' kann ausgedrückt werden als P' = P + k·L, wobei die Konstante k so gewählt ist, dass P' gewählt ist, irgendwo in der Mitte zwischen den beiden Teilungspulsen zu liegen, womit Positionen mit einer hohen Energie vermieden werden. Ein typischer Wert von k ist in dem Bereich von 0,5 bis 0,8.
Wenn das RCM-Modul 420 die Position berechnet hat, wo ein Abtastwert hinzuzufügen oder zu entfernen ist, muss bestimmt werden, wie die Einfügung oder Löschung durchzuführen ist. Es sind drei Verfahren zum Einfügen oder zur Löschung in Abhängigkeit von dem Typ des LRE-Moduls, das verwendet wird, vorhanden.
Bei dem ersten Verfahren werden entweder Nullen hinzugefügt oder Abtastwerte mit kleinen Amplituden werden entfernt. Dieses Verfahren kann für die gesamte LRE-Lösung, die oben beschrieben ist, verwendet werden, siehe 5C–5F. Es sei darauf hingewiesen, dass in den 5C und 5D die SRC/RCM-Module vor dem Synthesefilter SSM, aber nach der Rückkopplung des LPC-Residuums in den LTP-Filter 540 bzw. das adaptive Codebuch 590 platziert sind.
Bei dem zweiten Verfahren wird eine Einfügung durch ein Hinzufügen von Nullen und ein Interpolieren umgebender Abtastwerte ausgeführt. Eine Löschung wird durch ein Entfernen von Abtastwerten und vorzugsweise ein Glätten umgebender Abtastwerte durchgeführt. Dieses Verfahren kann auch für sämtliche der LRE-Lösungen, die oben beschrieben sind, verwendet werden, siehe 5C–5F. Es sei darauf hingewiesen, dass in der 5C und FD die SRC/RCM-Module vor dem Synthesefilter SSM, aber nach der Rückkopplung des LPC-Residuums in das LTP-Filter 540 bzw. das adaptive Codebuch 590 platziert sind.
Bei dem dritten Verfahren sind die SRC/RCM-Module 545 innerhalb der Rückkopplungsschleife des Sprachdecoders platziert, siehe 5G–5J, anstelle nach der Rückkopplungsschleife wie bei den vorhergehenden Verfahren.
Ein Platzieren der SRC/RCM-Module innerhalb der Rückkopplungsschleife verwendet reale LPC-Residuums-Abtastwerte für die Abtasteratenkonversion, indem die Anzahl von Komponenten in dem LPC-Residuum geändert wird. Die Implementierung unterscheidet sich in Abhängigkeit davon, ob es ein Analyse-durch-Synthese-Sprachcodierer mit einem LTP-Filter, der in 5A gezeigt ist, oder ein Analyse-durch-Synthese-Sprachcodierer mit einem adaptiven Codebuch, der in 5B gezeigt ist, der verwendet wird.
Für den Sprachdecoder mit dem LTP-Filter, siehe 5A, können die SRC/RCM-Module 545 innerhalb der Rückkopplungsschleife auf zwei unterschiedliche Arten platziert werden, entweder innerhalb der LTP-Rückkopplungsschleife, wie in 5G gezeigt, oder an dem Ausgang aus dem festen Codebuch 530, wie in 5H gezeigt. Für den Sprachdecoder mit dem adaptiven Codebuch, siehe 5B, können die SRC/RCM auch auf zwei unterschiedliche Arten platziert werden, d. h. entweder vor, 5J, oder nach, 5I, der Summation der Ausgänge aus dem adaptiven und dem festen Codebuch.
Die Änderungen an dem LPC-Residuum bestehen aus einem Entfernen oder Hinzufügen von Abtastwerten genau wie vorher, aber da die SRC/RCM-Module 545 innerhalb der LTP-Rückkopplungsschleife platziert sind, müssen bestimmte Modifikationen ausgeführt werden. Das Erweitern oder Kürzen eines Segments kann auf drei Arten entweder an den jeweiligen Enden des Segments oder irgendwo in der Mitte des Segments durchgeführt werden. 7 zeigt den Fall, wo das LPC-Residuum durch ein Kopieren zweier überlappender Segmente, Segment 1 und Segment 2, von der Vorgeschichte des LPC-Residuums erweitert wird, um das längere LPC-Residuum zu schaffen. Der normale Fall, wenn keine Einfügung oder Löschung benötigt wird, wäre es, N Abtastwerte zu kopieren. Ein Kürzen des LPC-Residuums wird durch ein Kopieren zweier Segmente erreicht, die eine Lücke dazwischen aufweisen, anstatt dass sie sich überlappen. Wie zuvor ist es wichtig, dass ein Teilungspuls nicht gedoppelt oder entfernt wird, da dies wahrnehmbare Artefakte einführen würde. Somit sollte eine Analyse durchgeführt werden, um zu evaluieren, ob Segmente hinzuzufügen oder zu entfernen sind. Diese Analyse wird vorzugsweise unter Verwendung der gleichen Verfahren wie oben diskutiert hinsichtlich dessen ausgeführt, wie die Position aufzufinden ist, wo ein Abtastwert in dem RCM-Modul hinzuzufügen oder zu entfernen ist.
Für sämtliche Implementierungen außer dann, wenn die SRC/RCM-Module 545 zwischen dem festen Codebuch und dem LTP-Filter 540 platziert sind, muss die Vorgeschichte des LPC-Residuums auch modifiziert werden. Der Zeitabstand L wird für den spezifischen Teil der Vorgeschichte, wo ein Abtastwert eingefügt oder gelöscht wird, erhöht oder verringert werden. Somit bedarf die Startposition des Segments, das von der Vorgeschichte des LPC-Residuums, ein Zeiger 1 oder ein Zeiger 2 in 8, kopiert werden wird, einer Modifikation. Wenn das zu kopierende Segment neuer ist, d. h. der Fall des Zeigers 1, besteht kein Bedarf, die Startposition zu modifizieren. Wenn jedoch das zu kopierende Segment älter ist, d. h. der Fall des Zeigers 2, dann sollte der Zeiger in Abhängigkeit davon, ob ein Abtastwert eingefügt oder gelöscht wird, erhöht oder verringert werden. Dies muss für nachfolgende Unterrahmen und Rahmen verwaltet werden, solange die Modifikation innerhalb der Vorgeschichte des LPC-Residuums ist.
Wenn SRC/RCM-Module vor der Summation der Ausgänge von dem adaptiven und dem festen Codebuch platziert sind, wie in 5J gezeigt, muss die Länge des festen Codebuchs auch geändert werden. Dies wird durch ein Addieren eines Abtastwerts, vorzugsweise eines Null-Abtastwerts, in dem Ausgang aus dem festen Codebuch oder durch ein Entfernen einer der Komponenten ausgeführt. Die Einfügung und Löschung in dem festen Codebuch sollte mit der Einfügung und Löschung in dem adaptiven Codebuch synchronisiert sein.
Indem die Erfindung somit beschrieben ist, wird es offensichtlich sein, dass dieselbe auf viele Arten variiert werden kann. Derartige Variationen sind nicht als eine Abweichung von dem Umfang der Erfindung anzusehen, und es ist beabsichtigt, dass sämtliche derartige Modifikationen, wie sie Fachleuten offensichtlich sind, in dem Umfang der folgenden Ansprüche enthalten sind.

Claims

Verfahren zum Betreiben eines Kommunikationssystems, umfassend eine erste Endgeräteeinheit (TRX1), die Sprachsignale sendet, die eine erste Abtastfrequenz (F₁) aufweisen, und eine zweite Endgeräteeinheit (TRX2), die die Sprachsignale empfängt und sie in einem Ausgabepuffer mit der ersten Frequenz (F₁) puffert und sie mit einer zweiten Frequenz (F₂) ausgibt, um so eine Sprachqualität zu verbessern, wobei das Verfahren ein Durchführen einer dynamischen Abtastratenkonversion eines Sprachrahmens, der N Sprach-Abtastwerte umfasst, auf einer Rahmen-zu-Rahmen-Grundlage durchführt, wobei die dynamische Abtastratenkonversion die Schritte umfasst: Schaffen eines LPC-Residuumblocks, der N Sprachabtastwerte umfasst; Berechnen, ob ein Abtastwert entweder dem LPC-Residuumblock für jeden Sprachrahmen und auf der Grundlage von zumindest einem von: (a) dem Unterschied zwischen den Abtastfrequenzen (F₁ und F₂) der Sende- (TRX1)- und Empfangs-(TRX2)-Endgeräteeinheiten, (b) einem Sprachaktivitäts-Detektorsignal, (c) einem Status des Ausgabepuffers und (d) einem Indikator des Beginns einer Sprachsequenz entweder hinzugefügt oder von diesem entfernt werden sollte; Auswählen der Position, wo in dem LPC-Residuumblock ein Abtastwert hinzugefügt oder entfernt werden sollte, indem nach einem Segment des LPC-Residuumblocks mit einer niedrigen Energie gesucht wird, indem eine Energieanalyse des LPC-Residuumblocks durchgeführt wird; und Durchführen der Hinzufügung bzw. der Entfernung des Abtastwerts, und dadurch Erzeugen eines modifizierten LPC-Residuumblocks, der N – 1 oder N + 1 Abtastwerte umfasst, wenn es die Berechnung so erfordert; und Synthetisieren eines Sprachsignals aus dem modifizierten LPC-Residuumblock.
Verfahren nach Anspruch 1, ferner dadurch gekennzeichnet, dass die Hinzufügung eines Abtastwerts durch eine Hinzufügung eines Null-Abtastwerts ausgeführt wird.
Verfahren nach Anspruch 1, ferner gekennzeichnet dadurch, dass die Hinzufügung eines Abtastwerts durch eine Hinzufügung eines Null-Abtastwerts und einer Interpolation umgebender Abtastwerte ausgeführt wird.
Verfahren nach Anspruch 1, ferner gekennzeichnet dadurch, dass die Hinzufügung eines Abtastwerts durch eine Hinzufügung eines Abtastwerts in der Vorgeschichte des LPC-Residuums; und ein Erhöhen eines Verzögerungszeigers, solange das Hinzufügen innerhalb der LPC-Residuumsvorgeschichte ist, ausgeführt wird.
Verfahren nach Anspruch 1, ferner gekennzeichnet dadurch, dass die Entfernung eines Abtastwerts durch ein Entfernen eines Abtastwerts in der Vorgeschichte des LPC-Residuums; und ein Verringern eines Verzögerungszeigers, solange die Entfernung innerhalb der LPC-Residuumsvorgeschichte ist, ausgeführt wird.
Verfahren nach Anspruch 1, wobei die zweite Endgeräteinheit (TRX2) ein adaptives und ein festes Codebuch umfasst, wobei das Verfahren ferner dadurch gekennzeichnet ist, dass die Hinzufügung eines Abtastwerts durch ein Hinzufügen eines Abtastwerts in dem Ausgang aus dem adaptiven Codebuch; ein Erweitern des Ausgangs aus dem festen Codebuch; und ein Erhöhen eines Verzögerungszeigers, so lange das Hinzufügen innerhalb der LPC-Residuumsvorgeschichte ist, ausgeführt wird.
Verfahren nach Anspruch 1, wobei die zweite Endgeräteeinheit (TRX2) ein adaptives und ein festes Codebuch umfasst, wobei das Verfahren ferner dadurch gekennzeichnet ist, dass die Entfernung eines Abtastwerts durch ein Entfernen eines Abtastwerts in dem Ausgang aus dem adaptiven Codebuch; ein Verkürzen des Ausgangs aus dem festen Codebuch; und ein Verringern eines Verzögerungszeigers, so lange das Entfernen innerhalb der LPC-Residuumsvorgeschichte ist, ausgeführt wird.
Verfahren nach Anspruch 1, wobei die zweite Endgeräteeinheit (TRX2) ein festes Codebuch umfasst, wobei das Verfahren ferner dadurch gekennzeichnet ist, dass die Hinzufügung oder Entfernung eines Abtastwerts durch ein Hinzufügen oder Entfernen eines Abtastwerts in dem Ausgang aus dem festen Codebuch ausgeführt wird.
Vorrichtung zum Verbessern der Sprachqualität eines Kommunikationssystems, das eine erste Endgeräteeinheit (TRX1), die Sprachsignale sendet und eine erste Abtastfrequenz (F₁) aufweist, und eine zweite Endgeräteeinheit (TRX2), die die Sprachsignale in einem Ausgabepuffer (110) mit der ersten Frequenz (F₁) speichert und sie mit einer zweiten Frequenz (F₂) ausgibt, umfasst, wobei die Vorrichtung zur Verwendung in Verbindung mit der zweiten Endgeräteeinheit ausgelegt ist, und wobei die Vorrichtung umfasst: eine Einrichtung zum Durchführen einer dynamischen Abtastratenkonversion eines Sprachrahmens, der N Abtastwerte umfasst, auf einer Abtastwert-zu-Abtastwert-Grundlage; eine LPC-Residuum-Extraktionseinrichtung (410) zum Schaffen eines LPC-Residuumblocks, der N Abtastwerte umfast, die aus dem Sprachrahmen abgeleitet sind, um den LPC-Parameter des gleichen Rahmens zu finden; eine Berechnungseinrichtung (400) zum Berechnen jedes Sprachrahmens auf der Grundlage einer Funktion einer oder mehrerer Parameter, ob ein Abtastwert dem LPC-Residuumblock auf der Grundlage einer Funktion von zumindest einem der folgenden Eingabeparameter hinzugefügt oder von diesem entfernt werden sollte: (a) dem Unterschied zwischen den Abtastfrequenzen (F₁ und F₂) der Sende- (TRX1)- und Empfangs-(TRX2)-Endgeräteeinheiten, (b) einem Sprachaktivitäts-Detektorsignal (c) eines Status des Ausgabepuffers und (d) einem Indikator des Beginns einer Sprachsequenz; eine Abtastratenkonversionseinrichtung (420) zum Auswählen der Position, wo Abtastwerte hinzuzufügen oder zu entfernen sind, indem nach einem Segment des LPC-Residuums mit einer niedrigen Energie gesucht wird, indem eine Energieanalyse des LPC-Residuumblocks durchgeführt wird, und zum Durchführen des Hinzufügens und Entfernes, und dadurch zum Erzeugen eines modifizierten LPF-Residuumblocks, der aus N – 1 oder N + 1 Abtastwerten besteht, wenn es die Berechnung so erfordert; und einer Sprachsynthesizereinrichtung (430) zum Synthetisieren eines Sprachsignals aus dem modifizierten LPC-Residuumblock.
Vorrichtung nach Anspruch 9, wobei die Einrichtung zum Durchführen eines Hinzufügens oder Entfernens ferner durch eine Einrichtung zum Hinzufügen eines Null-Abtastwerts gekennzeichnet ist.
Vorrichtung nach Anspruch 9, wobei die Einrichtung zum Durchführen einer Hinzufügung oder einer Entfernung ferner durch eine Einrichtung zum Hinzufügen eines Null-Abtastwerts und zum Interpolieren umgebender Abtastwerte gekennzeichnet ist.
Vorrichtung nach Anspruch 9, wobei die Einrichtung zum Durchführen einer Hinzufügung oder einer Entfernung ferner durch eine Einrichtung zum Hinzufügen eines Abtastwerts in der Vorgeschichte des LPC-Residuums; und eine Einrichtung zum Erhöhen eines Verzögerungszeigers, so lange das Hinzufügen innerhalb der LPC-Residuumsvorgeschichte ist, gekennzeichnet ist.
Vorrichtung nach Anspruch 9, wobei die Einrichtung zum Durchführen einer Hinzufügung oder einer Entfernung ferner durch eine Einrichtung zum Entfernen eines Abtastwerts in der Vorgeschichte des LPC-Residuums; und eine Einrichtung zum Entfernen eines Abtastwerts in der Vorgeschichte des LPC-Residuums, und eine Einrichtung zum Verringern eines Verzögerungszeigers, so lange das Entfernen innerhalb der LPC-Residuumsvorgeschichte ist, gekennzeichnet ist.
Vorrichtung nach Anspruch 9 zur Verwendung, wo die zweite Endgeräteeinheit (TRX2) ein adaptives und ein festes Codebuch umfasst, wobei die Vorrichtung ferner durch eine Einrichtung zum Hinzufügen eines Abtastwerts in dem Ausgang aus dem adaptiven Codebuch; eine Einrichtung zum Erweitern des Ausgangs aus dem festen Codebuch; und eine Einrichtung zum Erhöhen eines Verzögerungszeigers, so lange das Hinzufügen innerhalb der LPC-Residuumsvorgeschichte ist, gekennzeichnet ist.
Vorrichtung nach Anspruch 9 zur Verwendung, wo die zweite Endgeräteeinheit (TRX2) ein adaptives und ein festes Codebuch umfasst, wobei die Vorrichtung ferner durch eine Einrichtung zum Entfernen eines Abtastwerts in dem Ausgang aus dem adaptiven Codebuch; eine Einrichtung zum Entfernen eines Abtastwerts in den Ausgang aus dem festen Codebuch; und eine Einrichtung zum Verringern eines Verzögerungszeigers, so lange das Entfernen innerhalb der LPC-Residuumsvorgeschichte ist, gekennzeichnet ist.
Vorrichtung nach Anspruch 9 zur Verwendung, wo die zweite Endgeräteeinheit (TRX2) ein festes Codebuch umfasst, wobei die Vorrichtung ferner durch eine Einrichtung zum Hinzufügen oder Entfernen eines Abtastwerts in dem Ausgang aus dem festen Codebuch gekennzeichnet ist.