DE60125219T2

DE60125219T2 - Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder

Info

Publication number: DE60125219T2
Application number: DE60125219T
Authority: DE
Inventors: Jari MÄKINEN; J. Hannu MIKKOLA; Janne Vainio; Jani Rotola-Pukkila
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 2000-10-23
Filing date: 2001-10-17
Publication date: 2007-03-29
Anticipated expiration: 2021-10-18
Also published as: JP2004522178A; BR0114827A; ATE348385T1; WO2002035520A3; ES2276839T3; KR100581413B1; EP1332493A2; CN1291374C; JP2007065679A; AU2002210799B2; AU1079902A; WO2002035520A2; ZA200302778B; CN1535461A; US20070239462A1; BRPI0114827B1; CA2425034A1; US7529673B2; US20020091523A1; KR20030048067A

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung bezieht sich auf Sprachdekodierer und insbesondere auf Verfahren, die verwendet werden, um schlechte Rahmen, die von den Sprachdekodierern empfangen werden, zu handhaben.
HINTERGRUND DER ERFINDUNG
In digitalen zellularen Systemen wird ein Bitstrom durch einen Kommunikationskanal übertragen, der eine Mobilstation mit einer Basisstation über die Luftschnittstelle verbindet. Der Bitstrom ist in Rahmen aufgeteilt, die Sprachrahmen einschließen. Ob ein Fehler während der Übertragung auftritt oder nicht, hängt von den vorherrschenden Kanalzuständen ab. Ein Sprachrahmen, bei dem entdeckt wird, dass er Fehler enthält, wird einfach als schlechter Rahmen bezeichnet. Gemäß dem Stand der Technik werden im Fall eines schlechten Rahmens Sprachparameter, die aus vergangenen korrekten Parametern (aus nicht fehlerhaften Sprachrahmen) abgeleitet werden, anstelle der Sprachrahmen des schlechten Rahmens gesetzt. Das Ziel des Handhabens eines schlechten Rahmens durch das Vornehmen einer solchen Ersetzung besteht darin, die beschädigten Sprachparameter des fehlerhaften Sprachrahmens zu verbergen, ohne eine wahrnehmbare Verschlechterung der Sprachqualität zu verursachen.
Moderne Sprach-Kodierer-Dekodierer arbeiten, indem sie ein Sprachsignal in kurzen Segmenten, das sind die oben erwähnten Rahmen, verarbeiten. Eine typische Rahmenlänge eines Sprach-Kodierer-Dekodierers beträgt 20 ms, was 160 Sprachabtastwerten entspricht, wenn man eine Abtastfrequenz von 8 kHz annimmt. In sogenannten Breitband-Kodierern-Dekodierern kann die Rahmenlänge wieder 20 ms betragen, wobei sie aber 320 Sprachabtastwerten entsprechen kann, wenn man eine Abtastfrequenz von 16 kHz annimmt. Ein Rahmen kann weiter in eine Anzahl von Unterrahmen unterteilt werden.
Für jeden Rahmen bestimmt ein Kodierer eine parametrische Darstellung des Eingangssignals. Die Parameter werden quantisiert und dann durch einen Kommunikationskanal in digitaler Form übertragen. Ein Dekodierer erzeugt ein synthetisiertes Sprachsignal auf der Basis der empfangenen Parameter (siehe 1).
Ein typischer Satz von extrahierten Kodierparametern umfasst Spektralparameter (sogenannte Parameter einer linearen Voraussagekodierung oder LPC-Parameter), die bei einer kurzfristigen Voraussage verwendet werden, Parameter, die für eine langfristige Voraussage des Signals verwendet werden (sogenannte langfristige Voraussageparameter oder LTP-Parameter), verschiedene Verstärkungsparameter und schließlich Anregungsparameter.
Was als lineare Voraussagekodierung bezeichnet wird, ist ein weit verbreitetes und erfolgreiches Verfahren für das Kodieren von Sprache für eine Übertragung über einen Kommunikationskanal; es stellt die Frequenzformungsattribute des vokalen Trakts dar. Die LPC-Parametrisierung charakterisiert die Form des Spektrums eines kurzen Segments der Sprache. Die LPC-Parameter können entweder als LSFs (Linienspektralfrequenzen) oder äquivalent als ISPs (Immitanzspektralpaare) dargestellt werden. ISPs werden durch das Zerlegen der inversen Filtertransferfunktion A(z) in einen Satz von zwei Transferfunktionen erhalten, wobei eine eine gerade Symmetrie und die andere eine ungerade Symmetrie aufweist. Die ISPs, die auch Immitanzspektralfrequenzen (ISFs) genannt werden, sind die Wurzeln der Polynome auf dem z-Einheitskreis. Linienspektralpaare (die auch Linienspektralfrequenzen) genannt werden, können in derselben Weise wie Immitanzspektralpaare definiert werden; der Unterschied zwischen diesen Darstellungen ist der Umwandlungsalgorithmus, der die LP-Filterkoeffizienten in eine andere LPC-Parameterdarstellung (LSP oder ISP) transformiert.
Manchmal ist der Zustand des Kommunikationskanals, durch den die kodierten Sprachparameter übertragen werden, schlecht, was Fehler im Bitstrom, das heißt Rahmenfehler, verursacht (und so schlechte Rahmen verursacht). Es gibt zwei Arten von Rahmenfehlern: verlorene Rahmen und beschädigte Rahmen. In einem beschädigten Rahmen sind nur einige der Parameter, die ein spezielles Sprachsegment (typischerweise mit einer Dauer von 20 ms) beschreiben, beschädigt. Beim Rahmenfehler in Form eines verlorenen Rahmens ist ein Rahmen entweder total beschädigt oder wird überhaupt nicht empfangen.
In einem Übertragungssystem auf Paketbasis für das Kommunizieren von Sprache (ein System, bei dem ein Rahmen gewöhnlicherweise als ein einzelnes Paket befördert wird), wie es manchmal durch eine normale Internet-Verbindung geliefert wird, ist es möglich, dass ein Datenpaket (oder Rahmen) niemals den beabsichtigten Empfänger erreicht, oder dass ein Datenpaket (oder Rahmen) so spät ankommt, dass es wegen der Echtzeitnatur der gesprochenen Sprache nicht verwendet werden kann. Ein solcher Rahmen wird als ein verlorener Rahmen bezeichnet. Ein beschädigter Rahmen ist in so einer Situation ein Rahmen, der beim Empfänger ankommt (gewöhnlicherweise innerhalb eines einzelnen Pakets), aber der einige fehlerhafte Parameter enthält, wie das beispielsweise durch eine zyklische Redundanzprüfung (CRC) angezeigt wird. Dies ist für gewöhnlich die Situation in einer leitungsvermittelten Verbindung, wie einer Verbindung in einem System des globalen Systems für Mobilkommunikation (GSM), wobei die Bitfehlerrate (BER) in einem beschädigten Rahmen typischerweise unter 5% liegt.
Somit kann man sehen, dass die optimale korrigierende Antwort auf das Auftreten eines schlechten Rahmens hin für die zwei Fälle der schlechten Rahmen (der beschädigte Rahmen und der verloren gegangene Rahmen) unterschiedlich ist. Es gibt verschiedene Antworten, da im Fall beschädigter Rahmen eine unzuverlässige Information über die Parameter vorliegt, und im Fall der verlorenen Rahmen keine Information verfügbar ist.
Gemäß dem Stand der Technik wird, wenn ein Fehler in einem empfangenen Sprachrahmen detektiert wird, ein Ersetzungs- und Stummschaltungsverfahren begonnen; die Sprachparameter des schlechten Rahmens werden durch gedämpfte oder modifizierte Werte vom vorherigen guten Rahmen ersetzt, obwohl einige der weniger wichtigen Parameter vom fehlerhaften Rahmen verwendet werden, beispielsweise die kodeangesteuerten linearen Voraussageparameter (CELPs) oder einfacher die Anregungsparameter.
In einigen Verfahren des Stands der Technik wird ein Puffer (im Empfänger) verwendet, der als Parameterhistorie bezeichnet wird, wo die letzten Sprachparameter, die ohne einen Fehler empfangen wurden, gespeichert werden. Wenn ein Rahmen ohne Fehler empfangen wird, wird die Parameterhistorie aktualisiert, und die Sprachparameter, die vom Rahmen befördert werden, werden für die Dekodierung verwendet. Wenn ein schlechter Rahmen über einen CRC-Prüfung oder ein anderes Fehlerdetektionsverfahren detektiert wird, wird eine Schlechtrahmenanzeige (BFI) auf wahr gesetzt, und es wird dann eine Parameterverbergung begonnen (Ersetzen und Unterdrücken der entsprechenden schlechten Rahmen); die Verfahren des Stands der Technik für eine Parameterverbergung verwenden eine Parameterhistorie für das Verbergen beschädigter Rahmen. Die US55502713 beschreibt beispielsweise die Verwendung einer gewichteten Kombination vorher empfangener Rahmen. Wie oben erwähnt wurde, so können, wenn ein empfangener Rahmen als ein schlechter Rahmen klassifiziert ist (BFI ist auf wahr gesetzt), einige Sprachparameter vom schlechten Rahmen verwendet werden; beispielsweise wird bei der beispielhaften Lösung für das Ersetzen eines beschädigten Rahmens eines GSM-AMR-Sprach- Kodierers-Dekodierers (AMR = adaptive Multirate), die in der ETSI-Spezifikation 06.91 (European Telecommunications Standards Institute) angegeben ist, der Anregungsvektor vom Kanal immer verwendet. Wenn ein Sprachrahmen verloren geht (einschließlich der Situation, bei dem ein Rahmen zu spät ankommt, um verwendet zu werden, wie beispielsweise in einigen IP-basierten Übertragungssystemen), sind offensichtlich keine Parameter vom verlorenen Rahmen, die verwendet werden könnten, verfügbar.
In einigen Systemen des Stands der Technik werden die zuletzt empfangenen gute Spektralparameter an die Stelle der Spektralparameter eines schlechten Rahmens gesetzt, nachdem sie leicht hin zu einem konstanten vorbestimmten Mittel verschoben wurden. Gemäß der GSM-Spezifikation 06.91 des ETSI erfolgt die Verbergung im LSF-Format und ist durch den folgenden Algorithmus gegeben:
für i = 0 bis N–1: LSF_q1(i) = a·past_LSF_q(i) + (1 – α)·mean_LSF(i); (Gleichung 1) LSF_q2(i) = LSF_q1(i);wobei α = 0,95 und N die Ordnung des verwendeten linearen Voraussagefilters (LP-Filters) ist. Die Größe LSF_q1 ist der quantisierte LSF-Vektor des zweiten Unterrahmens, und die Größe LSF_q2 ist der quantisierte LSF-Vektor des vierten Unterrahmens. Die LSF-Vektoren der ersten und der dritten Unterrahmen werden aus diesen zwei Vektoren interpoliert. (Der LSF-Vektor für den ersten Unterrahmen im Rahmen n wird aus dem LSF-Vektor des vierten Unterrahmens im Rahmen n-1, das ist der vorherige Rahmen, interpoliert). Die Größe past_LSF_q ist die Größe LSF_q2 vom vorherigen Rahmen. Die Größe mean_LSF ist ein Vektor, dessen Komponenten vorbestimmte Konstanten sind; die Komponenten hängen nicht von einer dekodierten Sprachsequenz ab. Die Größe mean_LSF mit konstanten Komponenten erzeugt ein konstantes Sprachspektrum.
Solche Systeme des Stands der Technik verschieben die Spektrumskoeffizienten immer hin zu konstanten Größen, hier als mean_LSF(i) bezeichnet. Die konstanten Größen werden durch eine Mittelwertbildung über eine lange Zeitdauer und über mehrere aufeinander folgende Sprecher gebildet. Solche Systeme liefern somit nur eine Kompromisslösung und keine Lösung, die für einen speziellen Sprecher oder eine Situation optimal ist; die Einschränkungen des Kompromisses bestehen zwischen dem Belassen ermüdender Artefakte in der synthetisierten Sprache und dem Bilden der Sprache, so dass sie sich natürlicher anhört (das ist die Qualität der synthetisierten Sprache).
Was benötigt wird, ist eine verbesserte Spektralparameterersetzung im Fall eines beschädigten Sprachrahmens, möglicherweise eine Ersetzung auf der Basis der Analyse der Sprachparameterhistorie und des fehlerhaften Rahmens. Eine geeignete Substitution fehlerhafter Sprachrahmen hat eine signifikante Wirkung auf die Qualität der synthetisierten Sprache, die aus dem Bitstrom erzeugt wird.
Die Erfindung wird durch die Ansprüche definiert.
KURZE BESCHREIBUNG DER ZEICHNUNGEN
Die obige Aufgabe und andere Aufgabe, Merkmale und Vorteile der Erfindung werden aus der Betrachtung der nachfolgenden detaillierten Beschreibung, die in Verbindung mit den begleitenden Zeichnungen präsentiert wird, deutlich.
1 ist ein Blockdiagramm der Komponenten eines Systems gemäß dem Stand der Technik für das Übertragen oder Speichern eines Sprach- oder Audiosignals;
2 ist ein Schaubild, das LSF-Koeffizienten [0 ... 4 kHz] benachbarter Rahmen in einem Fall stationärer Sprache darstellt, wobei die Y-Achse die Frequenz und die X-Achse die Rahmen darstellt;
3 ist ein Schaubild, das LSF-Koeffizienten [0 ... 4 kHz] benachbarter Rahmen im Fall einer nicht stationären Sprache zeigt, wobei die Y-Achse die Frequenz und die X-Achse die Rahmen darstellt;
4 ist ein Schaubild, das einen absoluten spektralen Abweichungsfehler im Verfahren des Stands der Technik darstellt;
5 ist ein Schaubild, das den absoluten spektralen Abweichungsfehler in der vorliegenden Erfindung darstellt (das zeigt, dass die vorliegende Erfindung eine bessere Ersetzung der spektralen Parameter als das Verfahren des Stands der Technik gibt), wobei der höchste Balken im Schaubild (der den wahrscheinlichsten Rest anzeigt) ungefähr null ist;
6 ist ein schematisches Flussdiagramm, das zeigt, wie Bits gemäß einem Stand der Technik klassifiziert werden, wenn ein schlechter Rahmen detektiert wird;
7 ist ein Flussdiagramm des Gesamtverfahrens der Erfindung; und
8 ist ein Satz von zwei Schaubildern, die Aspekte der Kriterien zeigen, die verwendet werden, um zu bestimmen, ob eine LSF eines Rahmen, der als fehlerhaft bezeichnet ist, akzeptabel ist.
BESTE ART FÜR DAS AUSFÜHREN DER ERFINDUNG
Gemäß der Erfindung werden, wenn ein schlechter Rahmen durch einen Dekodierer nach der Übertragung eines Sprachsignals durch einen Kommunikationskanal (1) detektiert wird, die beschädigten Spektralparameter des Sprachsignals verborgen (indem sie durch andere Spektralparameter ersetzt werden), basierend auf der Analyse der Spektralparameter, die jüngst durch den Kommunikationskanal übertragen wurden. Es ist wichtig, beschädigte Spektralparameter eines schlechten Rahmens wirksam zu verbergen, nicht nur da die beschädigten Spektralparameter Artefakte verursachen können (hörbare Töne, die offensichtlich keine Sprache sind), sondern auch weil die subjektive Qualität der nachfolgenden fehlerfreien Sprachrahmen abnimmt (zumindest wenn eine lineare Voraussagequantisierung verwendet wird).
Eine Analyse gemäß der Erfindung verwendet auch die lokale Natur des spektralen Einflusses der Spektralparameter, wie Linienspektralfrequenzen (LSFs). Es wird gesagt, dass der spektrale Einfluss (spectral impact) von LSFs örtlich dadurch festgelegt ist, dass wenn ein LSF-Parameter durch ein Quantisierungs- und Kodierverfahren negativ geändert wird, sich das LP-Spektrum nur nahe der Frequenz ändern wird, die durch den LSF-Parameter dargestellt wird, wobei der Rest des Spektrums unverändert bleibt.
DIE ERFINDUNG IM ALLGEMEINEN ENTWEDER FÜR EINEN VERLORENEN RAHMEN ODER EINEN BESCHÄDIGTEN RAHMEN
Gemäß der Erfindung bestimmt eine Analysevorrichtung die Spektralparameterverbergung im Falle eines schlechten Rahmens auf der Basis der Historie der vorher empfangenen Sprachparameter. Die Analysevorrichtung bestimmt den Typ des dekodierten Sprachsignals (das heißt, ob es stationär oder nicht stationär ist). Die Historie der Sprachparameter wird verwendet, um das dekodierte Sprachsignal zu klassifizieren (als stationär oder nicht, und insbesondere als stimmhaft oder nicht); die Historie, die verwendet wird, kann hauptsächlich aus den jüngsten Werte des LTP und der Spektralparameter abgeleitet werden.
Die Ausdrücke "stationäres Sprachsignal" und "stimmhaftes Sprachsignal" sind praktisch synonym; eine stimmhafte Sprachsequenz ist gewöhnlicherweise ein relativ stationäres Signal, während eine stimmlose Sprachsequenz das nicht ist. Wir verwenden hier die Terminologie "stationäre und nicht stationäre Sprachsignale", da diese Terminologie präziser ist.
Ein Rahmen kann als stimmhaft oder stimmlos (und also als stationär oder nicht stationär) gemäß dem Verhältnis der Leistung der adaptiven Anregung zu dem der gesamten Anregung klassifiziert werden, wie das im Rahmen für die Sprache, die dem Rahmen entspricht, angezeigt ist. (Ein Rahmen enthält Parameter gemäß denen sowohl die adaptive als auch die gesamte Anregung konstruiert werden; wenn dies getan ist, kann die Gesamtleistung berechnet werden).
Wenn eine Sprachsequenz stationär ist, sind die Verfahren des Stands der Technik, durch die beschädigte Spektralparameter verborgen werden, wie das oben angeführt wurde, nicht sehr effektiv. Das ergibt sich daraus, dass stationäre, benachbarte Spektralparameter sich nur langsam ändern, so dass die vorherigen guten Spektralwerte (nicht beschädigte oder verlorene Spektralwerte) gewöhnlicherweise gute Schätzwerte für die nächsten Spektralkoeffizienten sind, und insbesondere besser sind als die Spektralparameter vom vorherigen Rahmen, die auf den konstanten Mittelwert verschoben wurden, die der Stand der Technik anstelle der schlechten Spektralparameter verwenden würde (um diese zu verbergen). 2 zeigt für ein stationäres Sprachsignal (und insbesondere ein stimmhaftes Sprachsignal) die Charakteristika der LSFs als ein Beispiel von Spektralparametern; sie zeigt LSF-Koeffizienten [0 ... 4 kHz] benachbarter Rahmen stationärer Sprache, wobei die Y-Achse die Frequenz und die X-Achse Rahmen darstellt, die zeigt, dass sich die LSFs für eine stationäre Sprache von Rahmen zu Rahmen relativ langsam ändern.
Während stationärer Sprachsegmente wird eine Verbergung gemäß der Erfindung (für entweder verlorene oder beschädigte Rahmen) unter Verwendung des folgenden Algorithmus ausgeführt:
für i = 0 bis N–1 (Elemente in einem Rahmen): adaptive_mean_LSF(i) = (past_LSF_good(i)(0) + past_LSF_good(i)(l) + ... + past_LSF_good(i)(K – l))/K; LSF_q1(i) = α·past_LSF_good(i)(0) + (1 – α)·adaptive_mean_LSF(i); (2.1) LSF_q2(i) = LSF_q1(i). wobei α ungefähr 0,95 sein kann, N die Ordnung des LP-Filters ist, und k die Adaptionslänge darstellt. LSF_q1(i) ist der quantisierte LSF-Vektor des zweiten Unterrahmens, und LSF_q2(i) ist der quantisierte LSF-Vektor des vierten Unterrahmens. Die LSF-Vektoren der ersten und dritten Unterrahmen werden aus diesen zwei Vektoren interpoliert. Die Größe past_LSF_good(i)(0) ist gleich dem Wert der Größe LSF_q2(i – 1) vom vorherigen guten Rahmen. Die Größe past_LSF_good(i)(n) ist eine Komponente des Vektors der LSF-Parameter vom n + 1-ten vorherigen guten Rahmen (das ist der gute Rahmen, der dem aktuellen schlechten Rahmen um n + 1 Rahmen vorhergeht). Schließlich ist die Größe adaptive_mean_LSF(i) der Mittelwert (arithmetischer Durchschnitt) der vorherigen guten LSF-Vektoren (das heißt, sie ist eine Komponente einer Vektorgröße, wobei jede Komponente ein Mittelwert der entsprechenden Komponenten der vorherigen guten LSF-Vektoren darstellt).
Es wurde gezeigt, dass das adaptive Mittelwertverfahren der Erfindung die subjektive Qualität der synthetisierten Sprache im Vergleich zum Verfahren des Stands der Technik verbessert. Die Demonstration verwendet Simulationen, bei denen Sprache durch einen einen Fehler verursachenden Kommunikationskanal übertragen wird. Jedes Mal, wenn ein schlechter Rahmen detektiert wurde, wurde der Spektralfehler berechnet. Der Spektralfehler wurde durch das Subtrahieren des Spektrums, das für das Verbergen während des schlechten Rahmens verwendet wurde, vom ursprünglichen Spektrum erhalten. Der absolute Fehler wird berechnet, indem man den absoluten Wert vom Spektralfehler nimmt. Die 4 und 5 zeigen Histogramme des absoluten Abweichungsfehlers der LSFs für den Stand der Technik beziehungsweise das erfinderische Verfahren. Die optimale Fehlerverbergung weist einen Fehler nahe null auf, das heißt, wenn der Fehler nahe null ist, so sind die Spektralparameter, die für das Verbergen verwendet werden, sehr dicht an den ursprünglichen (beschädigten oder verlorenen) Spektralparametern. Wie man aus den Histogrammen der 4 und 5 sehen kann, verbirgt das Verfahren des adaptiven Mittels der Erfindung (5) Fehler besser als das Verfahren des Stands der Technik (4) während stationärer Sprachsequenzen.
Wie oben erwähnt wurde, so fluktuieren die Spektralkoeffizienten nicht stationärer Signale (oder weniger genau, stimmloser Signale) zwischen benachbarten Rahmen, wie das in 3 gezeigt ist, die ein Schaubild ist, das LSFs benachbarter Rahmen in einem Fall einer nicht stationären Sprache darstellt, wobei die Y-Achse die Frequenz und die X-Achse Rahmen darstellt. In einem solchen Fall ist das optimale Verbergungsverfahren nicht dasselbe wie im Fall eines stationären Sprachsignals. Bei nicht stationärer Sprache liefert die Erfindung eine Verbergung für schlechte (beschädigte oder verlorene) nicht stationäre Sprachsegmente gemäß dem folgenden Algorithmus (dem nicht stationären Algorithmus)
Für i = 0 bis N–1: partly_adaptive_mean_LSF(i) = β·mean_LSF(i) + (1 – β)·adaptive_mean_LSF(i); (2.3) LSF_q1(i) = α·past_LSF_good(i)(0) + (1 – α)·partly_adaptive_mean_LSF(i); (2.2) LSF_q2(i) = LSF_q1(i);wobei N die Ordnung des LP-Filters ist, wobei α typischerweise ungefähr 0,90 ist, wobei LSF_q1(i) und LSF_q2(i) zwei Sätze von LSF-Vektoren für den aktuellen Rahmen, wie in Gleichung (2.1) sind, wobei past_LSF_q(i) das LSF_q2(i) vom vorherigen guten Rahmen ist, wobei partly_adaptive_mean_LSF(i) eine Kombination des adaptiven Mittel-LSF-Vektors und des Durchschnitts-LSF-Vektors ist, und wobei adaptive_mean_lsf(i) das Mittel der letzten K guten LSF-Vektoren ist (das aktualisiert wird, wenn BFI nicht gesetzt ist), und wobei mean_LSF(i) ein konstanter Durchschnitts-LSF ist und während des Konstruktionsverfahrens des Kodierer-Dekodierers, der für eine Synthetisierung der Sprache verwendet wird, erzeugt wird es ist ein Durchschnitts-LSF einer Sprachdatenbank. Der Parameter β beträgt typischerweise ungefähr 0,75, ein Wert, der verwendet wird, um das Ausmaß auszudrücken, bis zu dem die Sprache stationär im Gegensatz zu nicht stationär ist. (Er wird manchmal berechnet auf der Basis des Verhältnisses einer Langzeit-Voraussage-Anregungsenergie zur festen Kodebuch-Anregungsenergie oder präziser unter Verwendung der Formel β = (1 + voiceFactor)/2wobei voiceFactor = (energypitch – energyinovation)/(energypitch + energyinovation) in der energy_pitch die Energie der Tonhöhenanregung und energy_inovation die Energie der Inovationskodeanregung ist. Wenn sich das meiste der Energie in der Langzeit-Voraussagen-Anregung befindet, so ist die Sprache, die dekodiert wird, hauptsächlich stationär. Wenn sich das meiste der Energie in der festen Kodebuchanregung befindet, ist die Sprache hauptsächlich nicht stationär.)
Für β = 1,0 reduziert sich Gleichung (2.3) auf Gleichung (1.0), die den Stand der Technik darstellt. Für β = 0,0 reduziert sich Gleichung (2.3) auf die Gleichung (2.1), die von der vorliegenden Erfindung für stationäre Segmente verwendet wird. Für komplexitätsempfindliche Implementierungen (in Anwendungen, wo es wichtig ist, die Komplexität auf einem vernünftigen Niveau zu halten), kann β auf einen Kompromisswert, beispielsweise 0,75, für stationäre und nicht stationäre Segmente festgelegt werden. Dies ist eine Spektralparameterverbergung insbesondere für verlorene Rahmen.
Im Fall eines verlorenen Rahmens ist nur die Information der vergangenen Spektralparameter verfügbar. Die substituierten Spektralparameter werden gemäß einem Kriterium auf der Basis der Parameterhistorien von beispielsweise spektralen und LTP-Werten (Langzeitvorhersagewerten) berechnet; LTP-Parameter umfassen LTP-Verstärkungs- und LTP-Verzögerungswerte. Die LTP stellt die Korrelation eines aktuellen Rahmens zu einem vorherigen Rahmen dar. Beispielsweise kann das Kriterium, das verwendet wird, um die substituierten Spektralparameter zu berechnen, Situationen unterscheiden, wo die letzten guten LSFs durch ein adaptives LSF-Mittel oder, wie im Stand der Technik, durch ein konstantes Mittel modifiziert werden sollen.
ADAPTIVE SPEKTRALE PARAMETERVERBERGUNG INSBESONDERE FÜR BESCHÄDIGTE RAHMEN
Wenn ein Sprachrahmen beschädigt ist (im Gegensatz zu verloren), kann das Verbergungsverfahren der Erfindung weiter optimiert werden. In einem solchen Fall können die Spektralparameter vollständig oder teilweise korrekt sein, wenn sie im Sprachdekodierer empfangen werden. Beispielsweise ist in einer Verbindung auf Paketbasis (wie bei einer normalen TCP/IP-Intenetverbindung) das Verbergungsverfahren für beschädigte Rahmen gewöhnlicherweise nicht möglich, da bei den Verbindungen des TCP/IP-Typs gewöhnlicherweise alle schlechte Rahmen verlorene Rahmen sind, aber für andere Arten von Verbindungen, wie beispielsweise in leitungsvermittelten GSM- oder EDGE-Verbindungen, kann das Verbergungsverfahren für beschädigte Rahmen der Erfindung verwendet werden. Somit kann für paketvermittelte Verbindungen das folgende alternative Verfahren nicht verwendet werden, aber für leitungsvermittelte Verbindungen kann es verwendet werden, da in solchen Verbindungen schlechte Rahmen zumindest manchmal (und tatsächlich fast immer) nur beschädigte Rahmen sind.
Gemäß den Spezifikationen für GSM wird ein schlechter Rahmen detektiert, wenn ein BFI-Flag auf eine CRC-Prüfung oder einen anderen Fehlerdetektionsmechanismus hin, der im Kanaldekodierverfahren verwendet wird, gesetzt ist. Fehlerdetektionsmechanismen werden verwendet, um Fehler in den subjektiv signifikantesten Bits zu detektieren, das heißt in den Bits, die die größte Wirkung auf die Qualität der synthetisierten Sprache haben. In einigen Verfahren des Stands der Technik werden diese signifikantesten Bits nicht verwendet, wenn angezeigt wird, das ein Rahmen ein schlechter Rahmen ist. Es kann jedoch sein, dass ein Rahmen nur einige wenige Bitfehler aufweist (wobei jeder ausreicht, um das BFI-Flag zu setzen), so dass es sein könnte, dass der gesamte Rahmen verworfen wird, obwohl die Meisten der Bits korrekt sind. Eine CRC-Prüfung erkennt nur, ob ein Rahmen fehlerhafte Bits aufweist, aber er ergibt keine Schätzung der BER (Bitfehlerrate). 6 zeigt, wie Bits gemäß dem Stand der Technik klassifiziert werden, wenn ein schlechter Rahmen detektiert wird. In 6 ist gezeigt, wie ein einzelner Rahmen Bit für Bit (von links nach rechts) an einen Dekodierer über einen Kommunikationskanal mit solchen Bedingungen übertragen wird, dass einige Bits des Rahmens, die bei einer CRC-Prüfung eingeschlossen werden, beschädigt werden, so dass die BFI auf eins gesetzt wird.
Wie man aus 6 sehen kann, so verwendet der Stand der Technik, sogar wenn ein empfangener Rahmen manchmal viele korrekte Bits enthält (die BER ist in einem Rahmen gewöhnlicherweise klein, wenn die die Kanalzustände relativ gut sind), diese nicht. Im Gegensatz dazu versucht die vorliegende Erfindung zu schätzen, ob die empfangenen Parameter beschädigt sind, und wenn sie dies nicht sind, so verwendet das Verfahren der Erfindung diese.
Tabelle 1 zeigt die Idee hinter der Verbergung eines beschädigten Rahmens gemäß der Erfindung am Beispiel eines adaptiven Multiraten-(AMR)-Breitband-(WB)-Dekodierers.
Tabelle 1: Prozentsatz der korrekten Spektralparameter in einem beschädigten Sprachrahmen.
Im Fall eines AMR-WB-Dekodierers ist der Modus 12,65 kBit/s eine gute Wahl, wenn das Kanalträger-zu-Interferenz-Verhältnis (C/I) im Bereich von ungefähr 9 dB bis 10 dB liegt. Aus Tabelle 1 kann man sehen, dass im Fall von Bedingungen des GSM-Kanals mit einem C/I im Bereich von 9 bis 10 dB bei der Verwendung eines GMSK-Modulationsschemas (Frequenzumtastung mit vorgeschaltetem Gauss-Filter), ungefähr 35–50% der empfangenen schlechten Rahmen ein vollständig korrektes Spektrum aufweisen. Auch ungefähr 75–85% aller Spektralparameterkoeffizienten der schlechten Rahmen sind korrekt. Durch die lokale Natur des spektralen Einflusses kann, wie das früher erwähnt wurde, Spektralparameterinformation in den schlechten Rahmen verwendet werden. Kanalzustände mit einem C/I im Bereich von 6–8 dB oder weniger sind so schlecht, dass der Modus 12,65 kBit/s nicht verwendet werden sollte; stattdessen sollte ein niedrigerer Modus verwendet werden.
Die Grundidee der vorliegenden Erfindung im Fall beschädigter Rahmen besteht darin, dass gemäß einem Kriterium (unten beschrieben) Kanalbits von einem beschädigten Rahmen für das Dekodieren des beschädigten Rahmens verwendet werden. Das Kriterium für die Spektralkoeffizienten basiert auf den vergangenen Werten der Sprachparameter des dekodierten Signals. Wenn ein schlechter Rahmen detektiert wird, so werden die empfangenen LSFs oder andere Spektralparameter, die über den Kanal übertragen wurden, verwendet, wenn das Kriterium erfüllt wird; mit anderen Worten, wenn die empfangenen LSFs das Kriterium erfüllen, so werden sie beim Dekodieren gerade so verwendet, wie das der Fall sein würde, wenn der Rahmen kein schlechter Rahmen sein würde. Ansonsten wird, das heißt wenn die LSFs vom Kanal das Kriterium nicht erfüllen, das Spektrum für einen schlechten Rahmen gemäß dem oben beschriebenen Verbergungsverfahren unter Verwendung der Gleichungen (2.1) oder (2.2) berechnet. Das Kriterium für das Akzeptieren der Spektralparameter kann beispielsweise unter Verwendung einer spektralen Distanzberechnung, wie einer Berechnung einer sogenannten Itakura-Saito-Spektraldistanz, implementiert werden. (Siehe beispielsweise Seite 329 von "Discrete-Time Processing of Speech Signals" von John R. Deller Jr., John H.L. Hansen und Johne G. Proakis, veröffentlicht von der IEEE-Presse, 2000).
Das Kriterium für das Akzeptieren der Spektralparameter vom Kanal sollte im Falle eines stationären Sprachsignals sehr streng sein. Wie in 3 gezeigt ist, sind die Spektralkoeffizienten während einer stationären Sequenz sehr stabil (per Definition), so dass beschädigte LSFs (oder andere Sprachparameter) eines stationären Sprachsignals gewöhnlicherweise leicht detektiert werden können (da sie von nicht beschädigten LSFs auf der Basis, dass sie sich sehr stark von den LSFs nicht beschädigter benachbarter Rahmen unterscheiden würden, unterscheidbar sein würden). Andererseits müssen für ein nicht stationäres Sprachsignal die Kriterien nicht so streng sein; das Spektrum für ein nicht stationäres Sprachsignal darf eine größere Variation aufweisen. Für ein nicht stationäres Sprachsignal (das ist eine mehr oder weniger stimmlose Sprache) ist die Exaktheit der korrekten Spektralparameter in Bezug auf hörbare Artefakte nicht streng, da keine hörbaren Artefakte wahrscheinlich sind, unabhängig davon, ob die Sprachparameter korrekt sind oder nicht. Mit anderen Worten, sogar wenn Bits der Spektralparameter beschädigt sind, können sie gemäß dem Kriterium dennoch akzeptabel sein, da ein Spektralparameter für nicht stationäre Sprache mit einigen beschädigten Bits gewöhnlicherweise keine hörbaren Artefakte erzeugen wird. Gemäß der Erfindung soll im Falle beschädigter Rahmen die subjektive Qualität der synthetisierten Sprache so wenig wie möglich vermindert werden, indem alle verfügbare Information über die empfangenen LSFs verwendet wird, und durch das Auswählen, welche LSFs gemäß den Eigenschaften der beförderten Sprache zu verwenden sind.
Somit umfasst, obwohl die Erfindung ein Verfahren für das Verbergen beschädigter Rahmen einschließt, sie auch als eine Alternative die Verwendung eines Kriteriums im Falle eines beschädigten Rahmens, der nicht stationäre Sprache befördert, das, wenn es erfüllt wird, den Dekodierer veranlassen wird, den beschädigten Rahmen so zu verwenden, wie er ist; mit anderen Worten, der Rahmen wird verwendet, obwohl die BFI gesetzt ist. Das Kriterium ist im wesentlichen ein Schwellwert, der verwendet wird, um zwischen einem beschädigten Rahmen, der benutzbar ist, und einen, der es nicht ist, zu unterscheiden; der Schwellwert basiert darauf, wie stark sich die Spektralparameter des beschädigten Rahmens von den Spektralparametern der jüngst empfangenen guten Rahmen unterscheiden.
Die Verwendung von möglicherweise beschädigten Spektralparametern ist gegenüber hörbaren Artefakten wahrscheinlich empfindlicher als die Verwendung anderer beschädigter Parameter, wie beschädigter LTP-Verzögerungswerte. Aus diesem Grund sollte das Kriterium, das verwendet wird, um zu bestimmen, ob ein möglicherweise beschädigter Spektralparameter zu verwenden ist oder nicht, sehr zuverlässig sein. In einigen Ausführungsformen ist es vorteilhaft, als das Kriterium eine maximale Spektraldistanz (von einem entsprechenden Spektralparameter in einem vorherigen Rahmen, über die hinaus der verdächtige Spektralparameter nicht verwendet werden soll) zu verwenden; in einer solchen Ausführungsform könnte die wohl bekannte Itakura-Saito-Distanzberechnung verwendet werden, um die Spektraldistanz, die mit dem Schwellwert zu vergleichen ist, zu quantifizieren. Alternativ könnten feste oder adaptive Statistiken von Spektralparametern für die Bestimmung verwendet werden, ob möglicherweise beschädigte Spektralparameter verwendet werden sollen oder nicht. Es können auch andere Sprachparameter, wie Verstärkungsparameter, für das Erzeugen des Kriteriums verwendet werden. (Wenn sich die andere Sprachparameter im Vergleich zu den Werten im jüngst empfangenen guten Rahmen im aktuellen Rahmen nicht drastisch unterscheiden, dann können die Spektralparameter wahrscheinlich verwendet werden, vorausgesetzt, dass die empfangenen Spektralparameter auch das Kriterium erfüllen. Mit anderen Worten, andere Parameter, wie eine LTP-Verstärkung, können als zusätzliche Komponente verwendet werden, um passende Kriterien aufzustellen, um zu bestimmen, ob die empfangenen Spektralparameter verwendet werden sollen oder nicht. Die Historie der anderen Sprachparameter kann für eine verbesserte Erkennung der Spracheigenschaft verwendet werden. Beispielsweise kann die Historie verwendet werden, um zu entscheiden, ob die dekodierte Sprachsequenz eine stationäre oder eine nicht stationäre Eigenschaft hat. Wenn die Eigenschaften der dekodierten Sprachsequenz bekannt sind, ist es leichter, mögliche korrekte Spektralparameter aus dem beschädigten Rahmen zu detektieren, und es ist leichter, abzuschätzen, welche Art von Spektralparameterwerten in einem empfangenen beschädigten Rahmen vermutlich befördert werden).
Gemäß der Erfindung in der bevorzugten Ausführungsform und nun unter Bezug auf 8 basiert das Kriterium für die Bestimmung, ob ein Spektralparameter für einen beschädigten Rahmen verwendet werden soll oder nicht, auf der Idee einer Spektraldistanz, wie das oben erwähnt wurde. Um zu bestimmen, ob das Kriterium für das Akzeptieren der LSF-Koeffizienten eines beschädigten Rahmens erfüllt wird, führt ein Prozessor des Empfängers einen Algorithmus aus, der prüft, wie stark sich die LSF-Koeffizienten im Vergleich zu den LSF-Koeffizienten des letzten guten Rahmens, die in einem LSF-Puffer zusammen mit den LSF-Koeffizienten einer vorbestimmten Anzahl früherer, jüngster Rahmen gespeichert sind, entlang der Frequenzachse bewegt haben.
Das Kriterium gemäß der bevorzugten Ausführungsform umfasst das Vornehmen von einem oder mehreren von vier Vergleichen:
ein Vergleich zwischen den Rahmen, ein Vergleich innerhalb des Rahmens, ein Zweipunktvergleich und ein Einpunktvergleich.
Im ersten Vergleich, dem Vergleich zwischen den Rahmen, werden die Differenzen zwischen LSF-Vektorelementen in benachbarten Rahmen des beschädigten Rahmens mit den entsprechenden Differenzen vorheriger Rahmen verglichen. Die Differenzen werden folgendermaßen bestimmt: dn(i) = |Ln-1(i) – Ln(i)|, 1 ≤ i ≤ P – 1, wobei P die Anzahl der Spektralkoeffizienten für einen Rahmen ist, L_n(i) das i-te LSF-Element eines beschädigten Rahmens ist, und L_n-1(i) das i-te LSF-Element des Rahmens vor dem beschädigten Rahmen ist. Das LSF-Element L_n(i) des beschädigten Rahmens wird verworfen, wenn die Differenz d_n(i) verglichen mit d_n-1)i), d_n-2(i), ..., d_n-k(i) zu hoch ist, wobei k die Länge des LSF-Puffers ist.
Der zweite Vergleich, der Vergleich innerhalb des Rahmens, ist ein Vergleich der Differenz zwischen benachbarten LSF-Vektorelementen im selben Rahmen. Die Distanz zwischen dem Kandidaten i-tes LSF-Element, L_n(i) des n-ten Rahmens und dem (i-1)-ten LSF-Element L_n-1(i) des n-ten Rahmens wird folgendermaßen bestimmt: en(i) = Ln(i – 1) – Ln(i), 2 ≤ i ≤ P – 1wobei P die Anzahl der Spektralkoeffizienten ist, und e_n(i) die Distanz zwischen LSF-Elementen ist. Distanzen werden zwischen allen LSF-Vektorelementen des Rahmens berechnet. Eines oder das andere oder beide der LSF-Elemente L_n(i) und L_n(i – 1) werden verworfen, wenn die Differenz e_n(i) im Vergleich zu e_n-1(i), e_n-2(i), ..., e_n-k(i) zu groß oder zu klein ist.
Der dritte Vergleich, der Zweipunktvergleich, bestimmt ob eine Überkreuzung aufgetreten ist, die das Kandidaten-LSF-Element L_n(i) betrifft, das heißt, ob ein Element L_n(i – 1), das eine geringe Ordnung als das Kandidatenelement aufweist, einen größeren Wert als das Kandidaten-LSF-Element L_n(i) aufweist. Eine Überkreuzung zeigt einen oder mehrere stark beschädigte LSF-Werte an. Alle sich kreuzenden LSF-Elemente werden gewöhnlicherweise verworfen.
Der vierte Vergleich, der Einpunktvergleich, vergleicht den Wert des Kandidaten-LSF-Vektorelements L_n(i) mit einem Minimum-LSF-Element L_min(i) und mit einem Maximum-LSF-Element L_max(i), wobei beide aus dem LSF-Puffer berechnet werden, und verwirft das Kandidaten-LSF-Element, wenn es außerhalb des Bereichs liegt, der durch die Minimum- und Maximum-LSF-Elemente eingeschlossen wird.
Wenn ein LSF-Element eines beschädigten Rahmens verworfen wird (basierend auf dem obigen Kriterium oder anderswie), dann wird ein neuer Wert für das LSF-Element gemäß dem Algorithmus unter Verwendung von Gleichung (2.2) berechnet.
Wenn man nun die 7 betrachtet, so ist dort ein Flussdiagramm des Gesamtverfahrens der Erfindung gezeigt, das die verschiedenen Vorkehrungen für stationäre und nicht stationäre Sprachrahmen und für beschädigte im Gegensatz zu verlorenen nicht stationären Sprachrahmen zeigt.
DISKUSSION
Die Erfindung kann in einem Sprachdekodierer entweder in einer Mobilstation oder einem mobilen Netzelement angewandt werden. Sie kann auch auf jeden Sprachdekodierer, der in einem System verwendet wird, das einen fehlerbehafteten Übertragungskanal aufweist, angewandt werden.
UMFANG DER ERFINDUNG
Es sollte verständlich sein, dass die oben beschriebenen Anordnungen nur die Prinzipien der vorliegenden Erfindung zeigen. Es sollte insbesondere verständlich sein, dass obwohl die Erfindung unter Verwendung von Linienspektrumpaaren für eine konkrete Darstellung gezeigt und beschrieben wurde, die Erfindung auch die Verwendung anderer, äquivalenter Parameter, wie Immitanz-Spektral-Paare umfasst. Verschiedene Modifikationen und alternative Anordnungen können von Fachleuten ins Auge gefasst werden, ohne vom Umfang der vorliegenden Erfindung abzuweichen, und die angefügten Ansprüche sollen solche Modifikationen und Anordnungen abdecken.

Claims

Verfahren zum Verbergen der Effekte von Rahmenfehlern in Rahmen, die von einem Dekodierer beim Bereitstellen von synthetisierter Sprache dekodiert werden sollen, wobei die Rahmen dem Dekoder über einen Kommunikationskanal bereitgestellt werden, wobei jeder Rahmen Parameter bereitstellt, die von dem Dekoder beim Synthetisieren von Sprache verwendet werden, wobei das Verfahren den Schritt des Bestimmens umfasst, ob ein Rahmen ein schlechter Rahmen ist, wobei das Verfahren durch den Schritt des Bereitstellens eines Ersatzes für die Spektralparameter des schlechten Rahmens gekennzeichnet ist, der einzig auf Spektralparameter für vorher und jüngst erhaltene guten Rahmen basiert und ein zumindest teilweise adaptives Mittel der Spektralparameter einer vordefinierten Anzahl der vorher und am jüngsten erhaltenen guten Rahmen einschließt.
Verfahren nach Anspruch 1, weiter umfassend, den Schritt des Bestimmens, ob der schlechte Rahmen stationäre oder nicht-stationäre Sprache überträgt, und wobei der Schritt des Bereitstellens eines Ersatzes für den schlechten Rahmen auf eine Weise ausgeführt wird, die davon abhängt, ob der schlechte Rahmen stationäre oder nicht-stationäre Sprache überträgt.
Verfahren nach Anspruch 2, wobei im Falle, dass ein schlechter Rahmen stationäre Sprache überträgt, der Schritt des Bereitstellens eines Ersatzes für den schlechten Rahmen unter Verwendung eines Mittels vom Parameter einer vorbestimmten Anzahl der am jüngsten empfangenen guten Rahmen, ausgeführt wird.
Verfahren nach Anspruch 3, wobei im Falle, dass ein schlechten Rahmen stationäre Sprache überträgt und im Falle, dass ein linearer Voraussagefilter verwendet wird, der Schritt des Bereitstellens eines Ersatzes für den schlechten Rahmen gemäß dem Algorithmus ausgeführt wird: Für i = 0 bis N–1 adaptive_mean_LSF(i) = (past_LSF_good(i)(0) + past_LSF_good(i)(1) + ... + past_LSF_good(i)(K-1))/K; LSF_q1(i) = α·past_LSF_good(i)(0) + (1 – α)·adaptive_mean_LSF(i); LSF_q2(i) = LSF_q1(i);worin α ein vordefinierter Parameter ist, worin N die Ordnung des linearen Voraussagefilter ist, worin K die Adaptionslänge ist, worin LSF_q1(i) der quantisierte LSF-Vektor des zweiten Unterrahmen ist und LSF_g2(i) der quantisierte LSF-Vektor des vierten Unterrahmen ist, worin past_LSF_good(i)(0) gleich dem Wert der Größe LSF_q2(i – 1) von dem vorherigen guten Rahmen ist, worin past_LSF_good(i)(n) eine Komponente des Vektors von LSF-Parametern von dem n + 1ten vorherigen guten Rahmen ist und worin adaptive_mean_LSF(i) das Mittel der vorherigen guten LSF-Vektoren ist.
Verfahren nach Anspruch 2, wobei im Falle, dass ein schlechten Rahmen nicht-stationäre Sprache überträgt, der Schritt des Bereitstellens eines Ersatzes für den schlechten Rahmen unter Verwendung höchstens eines vordefinierten Anteils eines Mittels von Parametern einer vorbestimmten Anzahl der jüngsten empfangenen guten Rahmen ausgeführt wird.
Verfahren nach Anspruch 2, wobei im Falle, dass ein schlechten Rahmen nicht-stationäre Sprache überträgt, und im Falle, dass ein linearer Voraussagefilter verwendet wird, der Schritt des Bereitstellens eines Ersatzes für den schlechten Rahmen gemäß dem Algorithmus ausgeführt wird: Für i = 0 bis N–1 partly_adaptive_mean_LSF(i) = β·mean_LSF(i) + (1 – β)·adaptive_mean_LSF(i); LSF_q1(i) = α·past_LSF_good(i)(0) + (1 – α)·partly_adaptive_mean_LSF(i); LSF_q2(i) = LSF_q1(i);worin N die Ordnung des linearen Voraussagefilters ist, worin α und β vordefinierte Parameter sind, worin LSF_q1(i) der quantisierte LSF-Vektor des zweiten Unterrahmen ist und LSF_q2(i) der quantisierte LSF-Vektor des vierten Unterrahmen ist, worin past_LSF_q(i) der Wert des LSF_q2(i) des vorherigen guten Rahmens ist, worin partly_adaptive_mean_LSF(i) eine Kombination des adaptiven-Mittel-LSF-Vektors und des Durchschnitts-LSF-Vektors ist, worin adaptive_mean_LSF(i) das Mittel der letzten K guten LSF-Vektoren ist, worin K die Adaptionslänge ist, und worin mean_LSF(i) eine konstante Durchschnitts-LSF ist.
Verfahren nach Anspruch 1, weiter umfassend den Schritt des Bestimmens, ob der schlechte Rahmen ein vordefiniertes Kriterium erfüllt, und wenn, Verwenden des schlechten Rahmens anstatt Ersetzen des schlechten Rahmens.
Verfahren nach Anspruch 7, wobei das vordefinierte Kriterium das Ziehen von eine oder mehreren von vier Vergleichen aufruft: einen Vergleich zwischen den Rahmen, einen Vergleich innerhalb des Rahmens, einen Zwei-Punkte-Vergleich, und einen Einzel-Punkt-Vergleich.
Verfahren nach Anspruch 1, in dem der Schritt des Bereitstellens eines Ersatzes für die Parameter des schlechten Rahmens Bereitstellen eines Ersatzes umfasst, in dem vergangene Immittanz-Spektralfrequenzen zu einem teilweise adaptiven Mittel verschoben werden, das gegeben ist durch: ISFq(i) = α·past_ISFq(i) + (1 – α)·ISFmean(i), für i = 0 .. 16,worin α = 0,9 ISF_q(i) die i-te Komponente des Immittanz-Spektralfrequenzen-Vektors für einen derzeitigen Rahmen ist, past_ISF_q(i) die i-te Komponente des Immittanz-Spektralfrequenzen-Vektors des vorherigen Rahmens ist; ISF_mean(i) die i-te Komponente des Vektors ist, der eine Kombination des adaptiven Mittels und der konstanten vorbestimmten mittleren Immittanz-Spektralfrequenzen-Vektoren ist und unter Verwendung folgender Formel berechnet wird: ISFmean(i) = β·ISFconst_mean(i) + (1 – β)·ISFadaptiv_mean(i), für I = 0 .. 16,worin β = 0,75, worin
und immer dann, wenn BFI = 0 ist, aktualisiert wird, worin BFI ein Indikator für einen schlechter Rahmen ist, und worin ISF_{const_mean}(i) die i-te Komponente eines Vektors ist, der aus einem Langzeit-Durchschnitt von Immittanz-Spektralfrequenzen-Vektor gebildet wird.
Vorrichtung zum Verbergen der Effekte von Rahmenfehlern in Rahmen, die von einem Dekodierer beim Bereitstellen von synthetisierter Sprache dekodiert werden sollen, wobei die Rahmen dem Dekoder über einen Kommunikationskanal bereitgestellt werden, wobei jeder Rahmen Parameter bereitstellt, die von dem Dekoder beim Synthetisieren von Sprache verwendet werden, wobei die Vorrichtung Mittel zum Bestimmen umfasst, ob ein Rahmen ein schlechter Rahmen ist, wobei die Vorrichtung durch Mittel zum Bereitstellen eines Ersatzes für die Spektralparameter des schlechten Rahmens gekennzeichnet ist, der einzig auf Spektralparameter für vorher und jüngst erhaltenen guten Rahmen basiert und ein zumindest teilweise adaptives Mittel der Spektralparameter einer vordefinierten Anzahl der vorher und am jüngsten erhaltenen guten Rahmen einschließt.
Vorrichtung nach Anspruch 10, weiter umfassend, Mittel zum Bestimmen, ob der schlechte Rahmen stationäre oder nicht-stationäre Sprache überträgt, und wobei das Mittel zum Bereitstellen eines Ersatzes für den schlechten Rahmen den Ersatz auf eine Weise ausführt, die davon abhängt, ob der schlechte Rahmen stationäre oder nicht-stationäre Sprache überträgt.
Vorrichtung nach Anspruch 11, wobei im Falle, dass ein schlechter Rahmen stationäre Sprache überträgt, die Mittel zum Bereitstellen eines Ersatzes für den schlechten Rahmen, das durch Verwendung eines Mittels von Parametern einer vorbestimmten Anzahl der jüngsten empfangenen guten Rahmen tut.
Vorrichtung nach Anspruch 12, wobei im Falle, dass ein schlechten Rahmen stationäre Sprache überträgt und im Falle, dass ein linearer Voraussagefilter verwendet wird, die Mittel zum Bereitstellung eines Ersatzes für den schlechten Rahmen gemäß dem Algorithmus betriebsfähig sind: Für i = 0 bis N–1 adaptive_mean_LSF(i) = (past_LSF_good(i)(0) + past_LSF_good(i)(1) + ... + past_LSF_good(i)(K-1))/K; LSF_q1(i) = α·past_LSF_good(i)(0) + (1 – α)·adaptive_mean_LSF(i); LSF_q2(i) = LSF_q1(i);worin α ein vordefinierter Parameter ist, worin N die Ordnung des linearen Voraussagefilters ist, wobei K die Adaptionslänge ist, worin LSF_q1(i) der quantisierte LSF-Vektor des zweiten Unterrahmen ist und LSF_q2(i) der quantisierte LSF-Vektor des vierten Unterrahmen ist, worin past_LSF_good(i)(0) gleich dem Wert der Größe LSF_q2(i – 1) von dem vorherigen guten Rahmen ist, worin past_LSF_good(i)(n) eine Komponente des Vektors von LSF-Parameter von dem n + 1ten vorherigen guten Rahmen ist und worin adaptive_mean_LSF(i) das Mittel der vorherigen guten LSF-Vektoren ist.
Vorrichtung nach Anspruch 11, wobei im Falle, dass ein schlechten Rahmen nicht-stationäre Sprache überträgt, die Mittel zum Bereitstellen eines Ersatzes für den schlechten Rahmen das unter Verwendung höchstens eines vordefinierten Anteils eines Mittels von Parameter einer vorbestimmten Anzahl der jüngsten empfangenen guten Rahmen tut.
Vorrichtung nach Anspruch 11, wobei im Falle, dass ein schlechten Rahmen nicht-stationäre Sprache überträgt, und im Falle, dass ein linearer Voraussagefilter verwendet wird, die Mittel zum Bereitstellen eines Ersatzes für den schlechten Rahmen gemäß dem Algorithmus betriebsfähig sind: Für i = 0 bis N–1 partly_adaptive_mean_LSF(i) = β·mean_LSF(i) + (1 – β)·adaptive_mean_LSF(i); LSF_q1(i) = α*past_LSF_good(i)(0) + (1 – α)·partly_adaptive_mean_LSF(i); LSF_q2(i) = LSF_q1(i);worin N die Ordnung des linearen Voraussagefilters ist, worin α und β vordefinierte Parameter sind, worin LSF_q1(i) der quantisierte LSF-Vektor des zweiten Unterrahmens ist und LSF_q2(i) der quantisierte LSF-Vektor des vierten Unterrahmens ist, worin past_LSF_q(i) der Wert des LSF_g2(i) des vorherigen guten Rahmen ist, worin partly_adaptive_mean_LSF(i) eine Kombination des adaptiven-Mittel-LSF-Vektors und des Durchschnitts-LSF-Vektors ist, worin adaptive_mean_LSF(i) das Mittel der letzten K guten LSF-Vektoren ist, worin K die Adaptionslänge ist, und worin mean_LSF(i) eine konstante Durchschnitts-LSF ist.
Vorrichtung nach Anspruch 10, weiter umfassend Mittel zum Bestimmen, ob der schlechte Rahmen ein vordefiniertes Kriterium erfüllt, und wenn, Verwenden des schlechten Rahmens anstatt Ersetzen des schlechten Rahmens.
Vorrichtung nach Anspruch 16, wobei das vordefinierte Kriterium das Ziehen von einem oder mehreren von vier Vergleichen aufruft: einen Vergleich zwischen den Rahmen, einen Vergleich innerhalb des Rahmens, einen Zwei-Punkte-Vergleich, und einen Einzel-Punkt-Vergleich.
Vorrichtung nach Anspruch 10, in dem die Mittel zum Bereitstellen eines Ersatzes für die Parameter des schlechten Rahmens Mittel zum Bereitstellen eines Ersatzes umfassen, in dem vergangene Immittanz-Spektralfrequenzen zu einem teilweise adaptiven Mittel verschoben werden, das gegeben ist durch: ISFq(i) = α·past_ISFq(i) + (1 – α)·ISFmean(i), für i = 0 .. 16,worin α = 0,9, ISF_q(i) die i-te Komponente des Immittanz-Spektralfrequenzen-Vektors für einen derzeitigen Rahmen ist, past_ISFq(i) die i-te Komponente des Immittanz-Spektralfrequenzen-Vektors des vorherigen Rahmen ist; ISF_mean(i) die i-te Komponente des Vektors ist, der eine Kombination des adaptiven Mittels und der konstanten vorbestimmten mittleren Immittanz-Spektralfrequenzen-Vektoren ist und unter Verwendung folgender Formel berechnet wird: ISFmean(i) = β·ISFconst_mean(i) + (1 – β)·ISFadaptiv_mean(i), für I = 0 .. 16,worin β = 0,75, worin
und immer dann, wenn BFI = 0 ist, aktualisiert wird, worin BFI ein Indikator für einen schlechter Rahmen ist, und worin ISF_{const_mean}(i) die i-te Komponente eines Vektors ist, der aus einem Langzeit-Durchschnitt von Immittanz-Spektralfrequenzen-Vektoren gebildet wird.
Mobilstation, die eine Vorrichtung nach einem der Ansprüche 10 bis 18 einschließt.
Netzelement, das eine Vorrichtung nach einem der Ansprüche 10 bis 18 einschließt.