DE60125219T2 - Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder - Google Patents

Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder Download PDF

Info

Publication number
DE60125219T2
DE60125219T2 DE60125219T DE60125219T DE60125219T2 DE 60125219 T2 DE60125219 T2 DE 60125219T2 DE 60125219 T DE60125219 T DE 60125219T DE 60125219 T DE60125219 T DE 60125219T DE 60125219 T2 DE60125219 T2 DE 60125219T2
Authority
DE
Germany
Prior art keywords
lsf
frame
mean
good
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Revoked
Application number
DE60125219T
Other languages
English (en)
Other versions
DE60125219D1 (de
Inventor
Jari MÄKINEN
J. Hannu MIKKOLA
Janne Vainio
Jani Rotola-Pukkila
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=22915004&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=DE60125219(T2) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Nokia Oyj filed Critical Nokia Oyj
Application granted granted Critical
Publication of DE60125219D1 publication Critical patent/DE60125219D1/de
Publication of DE60125219T2 publication Critical patent/DE60125219T2/de
Anticipated expiration legal-status Critical
Revoked legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Description

  • GEBIET DER ERFINDUNG
  • Die vorliegende Erfindung bezieht sich auf Sprachdekodierer und insbesondere auf Verfahren, die verwendet werden, um schlechte Rahmen, die von den Sprachdekodierern empfangen werden, zu handhaben.
  • HINTERGRUND DER ERFINDUNG
  • In digitalen zellularen Systemen wird ein Bitstrom durch einen Kommunikationskanal übertragen, der eine Mobilstation mit einer Basisstation über die Luftschnittstelle verbindet. Der Bitstrom ist in Rahmen aufgeteilt, die Sprachrahmen einschließen. Ob ein Fehler während der Übertragung auftritt oder nicht, hängt von den vorherrschenden Kanalzuständen ab. Ein Sprachrahmen, bei dem entdeckt wird, dass er Fehler enthält, wird einfach als schlechter Rahmen bezeichnet. Gemäß dem Stand der Technik werden im Fall eines schlechten Rahmens Sprachparameter, die aus vergangenen korrekten Parametern (aus nicht fehlerhaften Sprachrahmen) abgeleitet werden, anstelle der Sprachrahmen des schlechten Rahmens gesetzt. Das Ziel des Handhabens eines schlechten Rahmens durch das Vornehmen einer solchen Ersetzung besteht darin, die beschädigten Sprachparameter des fehlerhaften Sprachrahmens zu verbergen, ohne eine wahrnehmbare Verschlechterung der Sprachqualität zu verursachen.
  • Moderne Sprach-Kodierer-Dekodierer arbeiten, indem sie ein Sprachsignal in kurzen Segmenten, das sind die oben erwähnten Rahmen, verarbeiten. Eine typische Rahmenlänge eines Sprach-Kodierer-Dekodierers beträgt 20 ms, was 160 Sprachabtastwerten entspricht, wenn man eine Abtastfrequenz von 8 kHz annimmt. In sogenannten Breitband-Kodierern-Dekodierern kann die Rahmenlänge wieder 20 ms betragen, wobei sie aber 320 Sprachabtastwerten entsprechen kann, wenn man eine Abtastfrequenz von 16 kHz annimmt. Ein Rahmen kann weiter in eine Anzahl von Unterrahmen unterteilt werden.
  • Für jeden Rahmen bestimmt ein Kodierer eine parametrische Darstellung des Eingangssignals. Die Parameter werden quantisiert und dann durch einen Kommunikationskanal in digitaler Form übertragen. Ein Dekodierer erzeugt ein synthetisiertes Sprachsignal auf der Basis der empfangenen Parameter (siehe 1).
  • Ein typischer Satz von extrahierten Kodierparametern umfasst Spektralparameter (sogenannte Parameter einer linearen Voraussagekodierung oder LPC-Parameter), die bei einer kurzfristigen Voraussage verwendet werden, Parameter, die für eine langfristige Voraussage des Signals verwendet werden (sogenannte langfristige Voraussageparameter oder LTP-Parameter), verschiedene Verstärkungsparameter und schließlich Anregungsparameter.
  • Was als lineare Voraussagekodierung bezeichnet wird, ist ein weit verbreitetes und erfolgreiches Verfahren für das Kodieren von Sprache für eine Übertragung über einen Kommunikationskanal; es stellt die Frequenzformungsattribute des vokalen Trakts dar. Die LPC-Parametrisierung charakterisiert die Form des Spektrums eines kurzen Segments der Sprache. Die LPC-Parameter können entweder als LSFs (Linienspektralfrequenzen) oder äquivalent als ISPs (Immitanzspektralpaare) dargestellt werden. ISPs werden durch das Zerlegen der inversen Filtertransferfunktion A(z) in einen Satz von zwei Transferfunktionen erhalten, wobei eine eine gerade Symmetrie und die andere eine ungerade Symmetrie aufweist. Die ISPs, die auch Immitanzspektralfrequenzen (ISFs) genannt werden, sind die Wurzeln der Polynome auf dem z-Einheitskreis. Linienspektralpaare (die auch Linienspektralfrequenzen) genannt werden, können in derselben Weise wie Immitanzspektralpaare definiert werden; der Unterschied zwischen diesen Darstellungen ist der Umwandlungsalgorithmus, der die LP-Filterkoeffizienten in eine andere LPC-Parameterdarstellung (LSP oder ISP) transformiert.
  • Manchmal ist der Zustand des Kommunikationskanals, durch den die kodierten Sprachparameter übertragen werden, schlecht, was Fehler im Bitstrom, das heißt Rahmenfehler, verursacht (und so schlechte Rahmen verursacht). Es gibt zwei Arten von Rahmenfehlern: verlorene Rahmen und beschädigte Rahmen. In einem beschädigten Rahmen sind nur einige der Parameter, die ein spezielles Sprachsegment (typischerweise mit einer Dauer von 20 ms) beschreiben, beschädigt. Beim Rahmenfehler in Form eines verlorenen Rahmens ist ein Rahmen entweder total beschädigt oder wird überhaupt nicht empfangen.
  • In einem Übertragungssystem auf Paketbasis für das Kommunizieren von Sprache (ein System, bei dem ein Rahmen gewöhnlicherweise als ein einzelnes Paket befördert wird), wie es manchmal durch eine normale Internet-Verbindung geliefert wird, ist es möglich, dass ein Datenpaket (oder Rahmen) niemals den beabsichtigten Empfänger erreicht, oder dass ein Datenpaket (oder Rahmen) so spät ankommt, dass es wegen der Echtzeitnatur der gesprochenen Sprache nicht verwendet werden kann. Ein solcher Rahmen wird als ein verlorener Rahmen bezeichnet. Ein beschädigter Rahmen ist in so einer Situation ein Rahmen, der beim Empfänger ankommt (gewöhnlicherweise innerhalb eines einzelnen Pakets), aber der einige fehlerhafte Parameter enthält, wie das beispielsweise durch eine zyklische Redundanzprüfung (CRC) angezeigt wird. Dies ist für gewöhnlich die Situation in einer leitungsvermittelten Verbindung, wie einer Verbindung in einem System des globalen Systems für Mobilkommunikation (GSM), wobei die Bitfehlerrate (BER) in einem beschädigten Rahmen typischerweise unter 5% liegt.
  • Somit kann man sehen, dass die optimale korrigierende Antwort auf das Auftreten eines schlechten Rahmens hin für die zwei Fälle der schlechten Rahmen (der beschädigte Rahmen und der verloren gegangene Rahmen) unterschiedlich ist. Es gibt verschiedene Antworten, da im Fall beschädigter Rahmen eine unzuverlässige Information über die Parameter vorliegt, und im Fall der verlorenen Rahmen keine Information verfügbar ist.
  • Gemäß dem Stand der Technik wird, wenn ein Fehler in einem empfangenen Sprachrahmen detektiert wird, ein Ersetzungs- und Stummschaltungsverfahren begonnen; die Sprachparameter des schlechten Rahmens werden durch gedämpfte oder modifizierte Werte vom vorherigen guten Rahmen ersetzt, obwohl einige der weniger wichtigen Parameter vom fehlerhaften Rahmen verwendet werden, beispielsweise die kodeangesteuerten linearen Voraussageparameter (CELPs) oder einfacher die Anregungsparameter.
  • In einigen Verfahren des Stands der Technik wird ein Puffer (im Empfänger) verwendet, der als Parameterhistorie bezeichnet wird, wo die letzten Sprachparameter, die ohne einen Fehler empfangen wurden, gespeichert werden. Wenn ein Rahmen ohne Fehler empfangen wird, wird die Parameterhistorie aktualisiert, und die Sprachparameter, die vom Rahmen befördert werden, werden für die Dekodierung verwendet. Wenn ein schlechter Rahmen über einen CRC-Prüfung oder ein anderes Fehlerdetektionsverfahren detektiert wird, wird eine Schlechtrahmenanzeige (BFI) auf wahr gesetzt, und es wird dann eine Parameterverbergung begonnen (Ersetzen und Unterdrücken der entsprechenden schlechten Rahmen); die Verfahren des Stands der Technik für eine Parameterverbergung verwenden eine Parameterhistorie für das Verbergen beschädigter Rahmen. Die US55502713 beschreibt beispielsweise die Verwendung einer gewichteten Kombination vorher empfangener Rahmen. Wie oben erwähnt wurde, so können, wenn ein empfangener Rahmen als ein schlechter Rahmen klassifiziert ist (BFI ist auf wahr gesetzt), einige Sprachparameter vom schlechten Rahmen verwendet werden; beispielsweise wird bei der beispielhaften Lösung für das Ersetzen eines beschädigten Rahmens eines GSM-AMR-Sprach- Kodierers-Dekodierers (AMR = adaptive Multirate), die in der ETSI-Spezifikation 06.91 (European Telecommunications Standards Institute) angegeben ist, der Anregungsvektor vom Kanal immer verwendet. Wenn ein Sprachrahmen verloren geht (einschließlich der Situation, bei dem ein Rahmen zu spät ankommt, um verwendet zu werden, wie beispielsweise in einigen IP-basierten Übertragungssystemen), sind offensichtlich keine Parameter vom verlorenen Rahmen, die verwendet werden könnten, verfügbar.
  • In einigen Systemen des Stands der Technik werden die zuletzt empfangenen gute Spektralparameter an die Stelle der Spektralparameter eines schlechten Rahmens gesetzt, nachdem sie leicht hin zu einem konstanten vorbestimmten Mittel verschoben wurden. Gemäß der GSM-Spezifikation 06.91 des ETSI erfolgt die Verbergung im LSF-Format und ist durch den folgenden Algorithmus gegeben:
    für i = 0 bis N–1: LSF_q1(i) = a·past_LSF_q(i) + (1 – α)·mean_LSF(i); (Gleichung 1) LSF_q2(i) = LSF_q1(i);wobei α = 0,95 und N die Ordnung des verwendeten linearen Voraussagefilters (LP-Filters) ist. Die Größe LSF_q1 ist der quantisierte LSF-Vektor des zweiten Unterrahmens, und die Größe LSF_q2 ist der quantisierte LSF-Vektor des vierten Unterrahmens. Die LSF-Vektoren der ersten und der dritten Unterrahmen werden aus diesen zwei Vektoren interpoliert. (Der LSF-Vektor für den ersten Unterrahmen im Rahmen n wird aus dem LSF-Vektor des vierten Unterrahmens im Rahmen n-1, das ist der vorherige Rahmen, interpoliert). Die Größe past_LSF_q ist die Größe LSF_q2 vom vorherigen Rahmen. Die Größe mean_LSF ist ein Vektor, dessen Komponenten vorbestimmte Konstanten sind; die Komponenten hängen nicht von einer dekodierten Sprachsequenz ab. Die Größe mean_LSF mit konstanten Komponenten erzeugt ein konstantes Sprachspektrum.
  • Solche Systeme des Stands der Technik verschieben die Spektrumskoeffizienten immer hin zu konstanten Größen, hier als mean_LSF(i) bezeichnet. Die konstanten Größen werden durch eine Mittelwertbildung über eine lange Zeitdauer und über mehrere aufeinander folgende Sprecher gebildet. Solche Systeme liefern somit nur eine Kompromisslösung und keine Lösung, die für einen speziellen Sprecher oder eine Situation optimal ist; die Einschränkungen des Kompromisses bestehen zwischen dem Belassen ermüdender Artefakte in der synthetisierten Sprache und dem Bilden der Sprache, so dass sie sich natürlicher anhört (das ist die Qualität der synthetisierten Sprache).
  • Was benötigt wird, ist eine verbesserte Spektralparameterersetzung im Fall eines beschädigten Sprachrahmens, möglicherweise eine Ersetzung auf der Basis der Analyse der Sprachparameterhistorie und des fehlerhaften Rahmens. Eine geeignete Substitution fehlerhafter Sprachrahmen hat eine signifikante Wirkung auf die Qualität der synthetisierten Sprache, die aus dem Bitstrom erzeugt wird.
  • Die Erfindung wird durch die Ansprüche definiert.
  • KURZE BESCHREIBUNG DER ZEICHNUNGEN
  • Die obige Aufgabe und andere Aufgabe, Merkmale und Vorteile der Erfindung werden aus der Betrachtung der nachfolgenden detaillierten Beschreibung, die in Verbindung mit den begleitenden Zeichnungen präsentiert wird, deutlich.
  • 1 ist ein Blockdiagramm der Komponenten eines Systems gemäß dem Stand der Technik für das Übertragen oder Speichern eines Sprach- oder Audiosignals;
  • 2 ist ein Schaubild, das LSF-Koeffizienten [0 ... 4 kHz] benachbarter Rahmen in einem Fall stationärer Sprache darstellt, wobei die Y-Achse die Frequenz und die X-Achse die Rahmen darstellt;
  • 3 ist ein Schaubild, das LSF-Koeffizienten [0 ... 4 kHz] benachbarter Rahmen im Fall einer nicht stationären Sprache zeigt, wobei die Y-Achse die Frequenz und die X-Achse die Rahmen darstellt;
  • 4 ist ein Schaubild, das einen absoluten spektralen Abweichungsfehler im Verfahren des Stands der Technik darstellt;
  • 5 ist ein Schaubild, das den absoluten spektralen Abweichungsfehler in der vorliegenden Erfindung darstellt (das zeigt, dass die vorliegende Erfindung eine bessere Ersetzung der spektralen Parameter als das Verfahren des Stands der Technik gibt), wobei der höchste Balken im Schaubild (der den wahrscheinlichsten Rest anzeigt) ungefähr null ist;
  • 6 ist ein schematisches Flussdiagramm, das zeigt, wie Bits gemäß einem Stand der Technik klassifiziert werden, wenn ein schlechter Rahmen detektiert wird;
  • 7 ist ein Flussdiagramm des Gesamtverfahrens der Erfindung; und
  • 8 ist ein Satz von zwei Schaubildern, die Aspekte der Kriterien zeigen, die verwendet werden, um zu bestimmen, ob eine LSF eines Rahmen, der als fehlerhaft bezeichnet ist, akzeptabel ist.
  • BESTE ART FÜR DAS AUSFÜHREN DER ERFINDUNG
  • Gemäß der Erfindung werden, wenn ein schlechter Rahmen durch einen Dekodierer nach der Übertragung eines Sprachsignals durch einen Kommunikationskanal (1) detektiert wird, die beschädigten Spektralparameter des Sprachsignals verborgen (indem sie durch andere Spektralparameter ersetzt werden), basierend auf der Analyse der Spektralparameter, die jüngst durch den Kommunikationskanal übertragen wurden. Es ist wichtig, beschädigte Spektralparameter eines schlechten Rahmens wirksam zu verbergen, nicht nur da die beschädigten Spektralparameter Artefakte verursachen können (hörbare Töne, die offensichtlich keine Sprache sind), sondern auch weil die subjektive Qualität der nachfolgenden fehlerfreien Sprachrahmen abnimmt (zumindest wenn eine lineare Voraussagequantisierung verwendet wird).
  • Eine Analyse gemäß der Erfindung verwendet auch die lokale Natur des spektralen Einflusses der Spektralparameter, wie Linienspektralfrequenzen (LSFs). Es wird gesagt, dass der spektrale Einfluss (spectral impact) von LSFs örtlich dadurch festgelegt ist, dass wenn ein LSF-Parameter durch ein Quantisierungs- und Kodierverfahren negativ geändert wird, sich das LP-Spektrum nur nahe der Frequenz ändern wird, die durch den LSF-Parameter dargestellt wird, wobei der Rest des Spektrums unverändert bleibt.
  • DIE ERFINDUNG IM ALLGEMEINEN ENTWEDER FÜR EINEN VERLORENEN RAHMEN ODER EINEN BESCHÄDIGTEN RAHMEN
  • Gemäß der Erfindung bestimmt eine Analysevorrichtung die Spektralparameterverbergung im Falle eines schlechten Rahmens auf der Basis der Historie der vorher empfangenen Sprachparameter. Die Analysevorrichtung bestimmt den Typ des dekodierten Sprachsignals (das heißt, ob es stationär oder nicht stationär ist). Die Historie der Sprachparameter wird verwendet, um das dekodierte Sprachsignal zu klassifizieren (als stationär oder nicht, und insbesondere als stimmhaft oder nicht); die Historie, die verwendet wird, kann hauptsächlich aus den jüngsten Werte des LTP und der Spektralparameter abgeleitet werden.
  • Die Ausdrücke "stationäres Sprachsignal" und "stimmhaftes Sprachsignal" sind praktisch synonym; eine stimmhafte Sprachsequenz ist gewöhnlicherweise ein relativ stationäres Signal, während eine stimmlose Sprachsequenz das nicht ist. Wir verwenden hier die Terminologie "stationäre und nicht stationäre Sprachsignale", da diese Terminologie präziser ist.
  • Ein Rahmen kann als stimmhaft oder stimmlos (und also als stationär oder nicht stationär) gemäß dem Verhältnis der Leistung der adaptiven Anregung zu dem der gesamten Anregung klassifiziert werden, wie das im Rahmen für die Sprache, die dem Rahmen entspricht, angezeigt ist. (Ein Rahmen enthält Parameter gemäß denen sowohl die adaptive als auch die gesamte Anregung konstruiert werden; wenn dies getan ist, kann die Gesamtleistung berechnet werden).
  • Wenn eine Sprachsequenz stationär ist, sind die Verfahren des Stands der Technik, durch die beschädigte Spektralparameter verborgen werden, wie das oben angeführt wurde, nicht sehr effektiv. Das ergibt sich daraus, dass stationäre, benachbarte Spektralparameter sich nur langsam ändern, so dass die vorherigen guten Spektralwerte (nicht beschädigte oder verlorene Spektralwerte) gewöhnlicherweise gute Schätzwerte für die nächsten Spektralkoeffizienten sind, und insbesondere besser sind als die Spektralparameter vom vorherigen Rahmen, die auf den konstanten Mittelwert verschoben wurden, die der Stand der Technik anstelle der schlechten Spektralparameter verwenden würde (um diese zu verbergen). 2 zeigt für ein stationäres Sprachsignal (und insbesondere ein stimmhaftes Sprachsignal) die Charakteristika der LSFs als ein Beispiel von Spektralparametern; sie zeigt LSF-Koeffizienten [0 ... 4 kHz] benachbarter Rahmen stationärer Sprache, wobei die Y-Achse die Frequenz und die X-Achse Rahmen darstellt, die zeigt, dass sich die LSFs für eine stationäre Sprache von Rahmen zu Rahmen relativ langsam ändern.
  • Während stationärer Sprachsegmente wird eine Verbergung gemäß der Erfindung (für entweder verlorene oder beschädigte Rahmen) unter Verwendung des folgenden Algorithmus ausgeführt:
    für i = 0 bis N–1 (Elemente in einem Rahmen): adaptive_mean_LSF(i) = (past_LSF_good(i)(0) + past_LSF_good(i)(l) + ... + past_LSF_good(i)(K – l))/K; LSF_q1(i) = α·past_LSF_good(i)(0) + (1 – α)·adaptive_mean_LSF(i); (2.1) LSF_q2(i) = LSF_q1(i). wobei α ungefähr 0,95 sein kann, N die Ordnung des LP-Filters ist, und k die Adaptionslänge darstellt. LSF_q1(i) ist der quantisierte LSF-Vektor des zweiten Unterrahmens, und LSF_q2(i) ist der quantisierte LSF-Vektor des vierten Unterrahmens. Die LSF-Vektoren der ersten und dritten Unterrahmen werden aus diesen zwei Vektoren interpoliert. Die Größe past_LSF_good(i)(0) ist gleich dem Wert der Größe LSF_q2(i – 1) vom vorherigen guten Rahmen. Die Größe past_LSF_good(i)(n) ist eine Komponente des Vektors der LSF-Parameter vom n + 1-ten vorherigen guten Rahmen (das ist der gute Rahmen, der dem aktuellen schlechten Rahmen um n + 1 Rahmen vorhergeht). Schließlich ist die Größe adaptive_mean_LSF(i) der Mittelwert (arithmetischer Durchschnitt) der vorherigen guten LSF-Vektoren (das heißt, sie ist eine Komponente einer Vektorgröße, wobei jede Komponente ein Mittelwert der entsprechenden Komponenten der vorherigen guten LSF-Vektoren darstellt).
  • Es wurde gezeigt, dass das adaptive Mittelwertverfahren der Erfindung die subjektive Qualität der synthetisierten Sprache im Vergleich zum Verfahren des Stands der Technik verbessert. Die Demonstration verwendet Simulationen, bei denen Sprache durch einen einen Fehler verursachenden Kommunikationskanal übertragen wird. Jedes Mal, wenn ein schlechter Rahmen detektiert wurde, wurde der Spektralfehler berechnet. Der Spektralfehler wurde durch das Subtrahieren des Spektrums, das für das Verbergen während des schlechten Rahmens verwendet wurde, vom ursprünglichen Spektrum erhalten. Der absolute Fehler wird berechnet, indem man den absoluten Wert vom Spektralfehler nimmt. Die 4 und 5 zeigen Histogramme des absoluten Abweichungsfehlers der LSFs für den Stand der Technik beziehungsweise das erfinderische Verfahren. Die optimale Fehlerverbergung weist einen Fehler nahe null auf, das heißt, wenn der Fehler nahe null ist, so sind die Spektralparameter, die für das Verbergen verwendet werden, sehr dicht an den ursprünglichen (beschädigten oder verlorenen) Spektralparametern. Wie man aus den Histogrammen der 4 und 5 sehen kann, verbirgt das Verfahren des adaptiven Mittels der Erfindung (5) Fehler besser als das Verfahren des Stands der Technik (4) während stationärer Sprachsequenzen.
  • Wie oben erwähnt wurde, so fluktuieren die Spektralkoeffizienten nicht stationärer Signale (oder weniger genau, stimmloser Signale) zwischen benachbarten Rahmen, wie das in 3 gezeigt ist, die ein Schaubild ist, das LSFs benachbarter Rahmen in einem Fall einer nicht stationären Sprache darstellt, wobei die Y-Achse die Frequenz und die X-Achse Rahmen darstellt. In einem solchen Fall ist das optimale Verbergungsverfahren nicht dasselbe wie im Fall eines stationären Sprachsignals. Bei nicht stationärer Sprache liefert die Erfindung eine Verbergung für schlechte (beschädigte oder verlorene) nicht stationäre Sprachsegmente gemäß dem folgenden Algorithmus (dem nicht stationären Algorithmus)
    Für i = 0 bis N–1: partly_adaptive_mean_LSF(i) = β·mean_LSF(i) + (1 – β)·adaptive_mean_LSF(i); (2.3) LSF_q1(i) = α·past_LSF_good(i)(0) + (1 – α)·partly_adaptive_mean_LSF(i); (2.2) LSF_q2(i) = LSF_q1(i);wobei N die Ordnung des LP-Filters ist, wobei α typischerweise ungefähr 0,90 ist, wobei LSF_q1(i) und LSF_q2(i) zwei Sätze von LSF-Vektoren für den aktuellen Rahmen, wie in Gleichung (2.1) sind, wobei past_LSF_q(i) das LSF_q2(i) vom vorherigen guten Rahmen ist, wobei partly_adaptive_mean_LSF(i) eine Kombination des adaptiven Mittel-LSF-Vektors und des Durchschnitts-LSF-Vektors ist, und wobei adaptive_mean_lsf(i) das Mittel der letzten K guten LSF-Vektoren ist (das aktualisiert wird, wenn BFI nicht gesetzt ist), und wobei mean_LSF(i) ein konstanter Durchschnitts-LSF ist und während des Konstruktionsverfahrens des Kodierer-Dekodierers, der für eine Synthetisierung der Sprache verwendet wird, erzeugt wird es ist ein Durchschnitts-LSF einer Sprachdatenbank. Der Parameter β beträgt typischerweise ungefähr 0,75, ein Wert, der verwendet wird, um das Ausmaß auszudrücken, bis zu dem die Sprache stationär im Gegensatz zu nicht stationär ist. (Er wird manchmal berechnet auf der Basis des Verhältnisses einer Langzeit-Voraussage-Anregungsenergie zur festen Kodebuch-Anregungsenergie oder präziser unter Verwendung der Formel β = (1 + voiceFactor)/2wobei voiceFactor = (energypitch – energyinovation)/(energypitch + energyinovation) in der energypitch die Energie der Tonhöhenanregung und energyinovation die Energie der Inovationskodeanregung ist. Wenn sich das meiste der Energie in der Langzeit-Voraussagen-Anregung befindet, so ist die Sprache, die dekodiert wird, hauptsächlich stationär. Wenn sich das meiste der Energie in der festen Kodebuchanregung befindet, ist die Sprache hauptsächlich nicht stationär.)
  • Für β = 1,0 reduziert sich Gleichung (2.3) auf Gleichung (1.0), die den Stand der Technik darstellt. Für β = 0,0 reduziert sich Gleichung (2.3) auf die Gleichung (2.1), die von der vorliegenden Erfindung für stationäre Segmente verwendet wird. Für komplexitätsempfindliche Implementierungen (in Anwendungen, wo es wichtig ist, die Komplexität auf einem vernünftigen Niveau zu halten), kann β auf einen Kompromisswert, beispielsweise 0,75, für stationäre und nicht stationäre Segmente festgelegt werden. Dies ist eine Spektralparameterverbergung insbesondere für verlorene Rahmen.
  • Im Fall eines verlorenen Rahmens ist nur die Information der vergangenen Spektralparameter verfügbar. Die substituierten Spektralparameter werden gemäß einem Kriterium auf der Basis der Parameterhistorien von beispielsweise spektralen und LTP-Werten (Langzeitvorhersagewerten) berechnet; LTP-Parameter umfassen LTP-Verstärkungs- und LTP-Verzögerungswerte. Die LTP stellt die Korrelation eines aktuellen Rahmens zu einem vorherigen Rahmen dar. Beispielsweise kann das Kriterium, das verwendet wird, um die substituierten Spektralparameter zu berechnen, Situationen unterscheiden, wo die letzten guten LSFs durch ein adaptives LSF-Mittel oder, wie im Stand der Technik, durch ein konstantes Mittel modifiziert werden sollen.
  • ADAPTIVE SPEKTRALE PARAMETERVERBERGUNG INSBESONDERE FÜR BESCHÄDIGTE RAHMEN
  • Wenn ein Sprachrahmen beschädigt ist (im Gegensatz zu verloren), kann das Verbergungsverfahren der Erfindung weiter optimiert werden. In einem solchen Fall können die Spektralparameter vollständig oder teilweise korrekt sein, wenn sie im Sprachdekodierer empfangen werden. Beispielsweise ist in einer Verbindung auf Paketbasis (wie bei einer normalen TCP/IP-Intenetverbindung) das Verbergungsverfahren für beschädigte Rahmen gewöhnlicherweise nicht möglich, da bei den Verbindungen des TCP/IP-Typs gewöhnlicherweise alle schlechte Rahmen verlorene Rahmen sind, aber für andere Arten von Verbindungen, wie beispielsweise in leitungsvermittelten GSM- oder EDGE-Verbindungen, kann das Verbergungsverfahren für beschädigte Rahmen der Erfindung verwendet werden. Somit kann für paketvermittelte Verbindungen das folgende alternative Verfahren nicht verwendet werden, aber für leitungsvermittelte Verbindungen kann es verwendet werden, da in solchen Verbindungen schlechte Rahmen zumindest manchmal (und tatsächlich fast immer) nur beschädigte Rahmen sind.
  • Gemäß den Spezifikationen für GSM wird ein schlechter Rahmen detektiert, wenn ein BFI-Flag auf eine CRC-Prüfung oder einen anderen Fehlerdetektionsmechanismus hin, der im Kanaldekodierverfahren verwendet wird, gesetzt ist. Fehlerdetektionsmechanismen werden verwendet, um Fehler in den subjektiv signifikantesten Bits zu detektieren, das heißt in den Bits, die die größte Wirkung auf die Qualität der synthetisierten Sprache haben. In einigen Verfahren des Stands der Technik werden diese signifikantesten Bits nicht verwendet, wenn angezeigt wird, das ein Rahmen ein schlechter Rahmen ist. Es kann jedoch sein, dass ein Rahmen nur einige wenige Bitfehler aufweist (wobei jeder ausreicht, um das BFI-Flag zu setzen), so dass es sein könnte, dass der gesamte Rahmen verworfen wird, obwohl die Meisten der Bits korrekt sind. Eine CRC-Prüfung erkennt nur, ob ein Rahmen fehlerhafte Bits aufweist, aber er ergibt keine Schätzung der BER (Bitfehlerrate). 6 zeigt, wie Bits gemäß dem Stand der Technik klassifiziert werden, wenn ein schlechter Rahmen detektiert wird. In 6 ist gezeigt, wie ein einzelner Rahmen Bit für Bit (von links nach rechts) an einen Dekodierer über einen Kommunikationskanal mit solchen Bedingungen übertragen wird, dass einige Bits des Rahmens, die bei einer CRC-Prüfung eingeschlossen werden, beschädigt werden, so dass die BFI auf eins gesetzt wird.
  • Wie man aus 6 sehen kann, so verwendet der Stand der Technik, sogar wenn ein empfangener Rahmen manchmal viele korrekte Bits enthält (die BER ist in einem Rahmen gewöhnlicherweise klein, wenn die die Kanalzustände relativ gut sind), diese nicht. Im Gegensatz dazu versucht die vorliegende Erfindung zu schätzen, ob die empfangenen Parameter beschädigt sind, und wenn sie dies nicht sind, so verwendet das Verfahren der Erfindung diese.
  • Tabelle 1 zeigt die Idee hinter der Verbergung eines beschädigten Rahmens gemäß der Erfindung am Beispiel eines adaptiven Multiraten-(AMR)-Breitband-(WB)-Dekodierers.
  • Figure 00150001
    Tabelle 1: Prozentsatz der korrekten Spektralparameter in einem beschädigten Sprachrahmen.
  • Im Fall eines AMR-WB-Dekodierers ist der Modus 12,65 kBit/s eine gute Wahl, wenn das Kanalträger-zu-Interferenz-Verhältnis (C/I) im Bereich von ungefähr 9 dB bis 10 dB liegt. Aus Tabelle 1 kann man sehen, dass im Fall von Bedingungen des GSM-Kanals mit einem C/I im Bereich von 9 bis 10 dB bei der Verwendung eines GMSK-Modulationsschemas (Frequenzumtastung mit vorgeschaltetem Gauss-Filter), ungefähr 35–50% der empfangenen schlechten Rahmen ein vollständig korrektes Spektrum aufweisen. Auch ungefähr 75–85% aller Spektralparameterkoeffizienten der schlechten Rahmen sind korrekt. Durch die lokale Natur des spektralen Einflusses kann, wie das früher erwähnt wurde, Spektralparameterinformation in den schlechten Rahmen verwendet werden. Kanalzustände mit einem C/I im Bereich von 6–8 dB oder weniger sind so schlecht, dass der Modus 12,65 kBit/s nicht verwendet werden sollte; stattdessen sollte ein niedrigerer Modus verwendet werden.
  • Die Grundidee der vorliegenden Erfindung im Fall beschädigter Rahmen besteht darin, dass gemäß einem Kriterium (unten beschrieben) Kanalbits von einem beschädigten Rahmen für das Dekodieren des beschädigten Rahmens verwendet werden. Das Kriterium für die Spektralkoeffizienten basiert auf den vergangenen Werten der Sprachparameter des dekodierten Signals. Wenn ein schlechter Rahmen detektiert wird, so werden die empfangenen LSFs oder andere Spektralparameter, die über den Kanal übertragen wurden, verwendet, wenn das Kriterium erfüllt wird; mit anderen Worten, wenn die empfangenen LSFs das Kriterium erfüllen, so werden sie beim Dekodieren gerade so verwendet, wie das der Fall sein würde, wenn der Rahmen kein schlechter Rahmen sein würde. Ansonsten wird, das heißt wenn die LSFs vom Kanal das Kriterium nicht erfüllen, das Spektrum für einen schlechten Rahmen gemäß dem oben beschriebenen Verbergungsverfahren unter Verwendung der Gleichungen (2.1) oder (2.2) berechnet. Das Kriterium für das Akzeptieren der Spektralparameter kann beispielsweise unter Verwendung einer spektralen Distanzberechnung, wie einer Berechnung einer sogenannten Itakura-Saito-Spektraldistanz, implementiert werden. (Siehe beispielsweise Seite 329 von "Discrete-Time Processing of Speech Signals" von John R. Deller Jr., John H.L. Hansen und Johne G. Proakis, veröffentlicht von der IEEE-Presse, 2000).
  • Das Kriterium für das Akzeptieren der Spektralparameter vom Kanal sollte im Falle eines stationären Sprachsignals sehr streng sein. Wie in 3 gezeigt ist, sind die Spektralkoeffizienten während einer stationären Sequenz sehr stabil (per Definition), so dass beschädigte LSFs (oder andere Sprachparameter) eines stationären Sprachsignals gewöhnlicherweise leicht detektiert werden können (da sie von nicht beschädigten LSFs auf der Basis, dass sie sich sehr stark von den LSFs nicht beschädigter benachbarter Rahmen unterscheiden würden, unterscheidbar sein würden). Andererseits müssen für ein nicht stationäres Sprachsignal die Kriterien nicht so streng sein; das Spektrum für ein nicht stationäres Sprachsignal darf eine größere Variation aufweisen. Für ein nicht stationäres Sprachsignal (das ist eine mehr oder weniger stimmlose Sprache) ist die Exaktheit der korrekten Spektralparameter in Bezug auf hörbare Artefakte nicht streng, da keine hörbaren Artefakte wahrscheinlich sind, unabhängig davon, ob die Sprachparameter korrekt sind oder nicht. Mit anderen Worten, sogar wenn Bits der Spektralparameter beschädigt sind, können sie gemäß dem Kriterium dennoch akzeptabel sein, da ein Spektralparameter für nicht stationäre Sprache mit einigen beschädigten Bits gewöhnlicherweise keine hörbaren Artefakte erzeugen wird. Gemäß der Erfindung soll im Falle beschädigter Rahmen die subjektive Qualität der synthetisierten Sprache so wenig wie möglich vermindert werden, indem alle verfügbare Information über die empfangenen LSFs verwendet wird, und durch das Auswählen, welche LSFs gemäß den Eigenschaften der beförderten Sprache zu verwenden sind.
  • Somit umfasst, obwohl die Erfindung ein Verfahren für das Verbergen beschädigter Rahmen einschließt, sie auch als eine Alternative die Verwendung eines Kriteriums im Falle eines beschädigten Rahmens, der nicht stationäre Sprache befördert, das, wenn es erfüllt wird, den Dekodierer veranlassen wird, den beschädigten Rahmen so zu verwenden, wie er ist; mit anderen Worten, der Rahmen wird verwendet, obwohl die BFI gesetzt ist. Das Kriterium ist im wesentlichen ein Schwellwert, der verwendet wird, um zwischen einem beschädigten Rahmen, der benutzbar ist, und einen, der es nicht ist, zu unterscheiden; der Schwellwert basiert darauf, wie stark sich die Spektralparameter des beschädigten Rahmens von den Spektralparametern der jüngst empfangenen guten Rahmen unterscheiden.
  • Die Verwendung von möglicherweise beschädigten Spektralparametern ist gegenüber hörbaren Artefakten wahrscheinlich empfindlicher als die Verwendung anderer beschädigter Parameter, wie beschädigter LTP-Verzögerungswerte. Aus diesem Grund sollte das Kriterium, das verwendet wird, um zu bestimmen, ob ein möglicherweise beschädigter Spektralparameter zu verwenden ist oder nicht, sehr zuverlässig sein. In einigen Ausführungsformen ist es vorteilhaft, als das Kriterium eine maximale Spektraldistanz (von einem entsprechenden Spektralparameter in einem vorherigen Rahmen, über die hinaus der verdächtige Spektralparameter nicht verwendet werden soll) zu verwenden; in einer solchen Ausführungsform könnte die wohl bekannte Itakura-Saito-Distanzberechnung verwendet werden, um die Spektraldistanz, die mit dem Schwellwert zu vergleichen ist, zu quantifizieren. Alternativ könnten feste oder adaptive Statistiken von Spektralparametern für die Bestimmung verwendet werden, ob möglicherweise beschädigte Spektralparameter verwendet werden sollen oder nicht. Es können auch andere Sprachparameter, wie Verstärkungsparameter, für das Erzeugen des Kriteriums verwendet werden. (Wenn sich die andere Sprachparameter im Vergleich zu den Werten im jüngst empfangenen guten Rahmen im aktuellen Rahmen nicht drastisch unterscheiden, dann können die Spektralparameter wahrscheinlich verwendet werden, vorausgesetzt, dass die empfangenen Spektralparameter auch das Kriterium erfüllen. Mit anderen Worten, andere Parameter, wie eine LTP-Verstärkung, können als zusätzliche Komponente verwendet werden, um passende Kriterien aufzustellen, um zu bestimmen, ob die empfangenen Spektralparameter verwendet werden sollen oder nicht. Die Historie der anderen Sprachparameter kann für eine verbesserte Erkennung der Spracheigenschaft verwendet werden. Beispielsweise kann die Historie verwendet werden, um zu entscheiden, ob die dekodierte Sprachsequenz eine stationäre oder eine nicht stationäre Eigenschaft hat. Wenn die Eigenschaften der dekodierten Sprachsequenz bekannt sind, ist es leichter, mögliche korrekte Spektralparameter aus dem beschädigten Rahmen zu detektieren, und es ist leichter, abzuschätzen, welche Art von Spektralparameterwerten in einem empfangenen beschädigten Rahmen vermutlich befördert werden).
  • Gemäß der Erfindung in der bevorzugten Ausführungsform und nun unter Bezug auf 8 basiert das Kriterium für die Bestimmung, ob ein Spektralparameter für einen beschädigten Rahmen verwendet werden soll oder nicht, auf der Idee einer Spektraldistanz, wie das oben erwähnt wurde. Um zu bestimmen, ob das Kriterium für das Akzeptieren der LSF-Koeffizienten eines beschädigten Rahmens erfüllt wird, führt ein Prozessor des Empfängers einen Algorithmus aus, der prüft, wie stark sich die LSF-Koeffizienten im Vergleich zu den LSF-Koeffizienten des letzten guten Rahmens, die in einem LSF-Puffer zusammen mit den LSF-Koeffizienten einer vorbestimmten Anzahl früherer, jüngster Rahmen gespeichert sind, entlang der Frequenzachse bewegt haben.
  • Das Kriterium gemäß der bevorzugten Ausführungsform umfasst das Vornehmen von einem oder mehreren von vier Vergleichen:
    ein Vergleich zwischen den Rahmen, ein Vergleich innerhalb des Rahmens, ein Zweipunktvergleich und ein Einpunktvergleich.
  • Im ersten Vergleich, dem Vergleich zwischen den Rahmen, werden die Differenzen zwischen LSF-Vektorelementen in benachbarten Rahmen des beschädigten Rahmens mit den entsprechenden Differenzen vorheriger Rahmen verglichen. Die Differenzen werden folgendermaßen bestimmt: dn(i) = |Ln-1(i) – Ln(i)|, 1 ≤ i ≤ P – 1, wobei P die Anzahl der Spektralkoeffizienten für einen Rahmen ist, Ln(i) das i-te LSF-Element eines beschädigten Rahmens ist, und Ln-1(i) das i-te LSF-Element des Rahmens vor dem beschädigten Rahmen ist. Das LSF-Element Ln(i) des beschädigten Rahmens wird verworfen, wenn die Differenz dn(i) verglichen mit dn-1)i), dn-2(i), ..., dn-k(i) zu hoch ist, wobei k die Länge des LSF-Puffers ist.
  • Der zweite Vergleich, der Vergleich innerhalb des Rahmens, ist ein Vergleich der Differenz zwischen benachbarten LSF-Vektorelementen im selben Rahmen. Die Distanz zwischen dem Kandidaten i-tes LSF-Element, Ln(i) des n-ten Rahmens und dem (i-1)-ten LSF-Element Ln-1(i) des n-ten Rahmens wird folgendermaßen bestimmt: en(i) = Ln(i – 1) – Ln(i), 2 ≤ i ≤ P – 1wobei P die Anzahl der Spektralkoeffizienten ist, und en(i) die Distanz zwischen LSF-Elementen ist. Distanzen werden zwischen allen LSF-Vektorelementen des Rahmens berechnet. Eines oder das andere oder beide der LSF-Elemente Ln(i) und Ln(i – 1) werden verworfen, wenn die Differenz en(i) im Vergleich zu en-1(i), en-2(i), ..., en-k(i) zu groß oder zu klein ist.
  • Der dritte Vergleich, der Zweipunktvergleich, bestimmt ob eine Überkreuzung aufgetreten ist, die das Kandidaten-LSF-Element Ln(i) betrifft, das heißt, ob ein Element Ln(i – 1), das eine geringe Ordnung als das Kandidatenelement aufweist, einen größeren Wert als das Kandidaten-LSF-Element Ln(i) aufweist. Eine Überkreuzung zeigt einen oder mehrere stark beschädigte LSF-Werte an. Alle sich kreuzenden LSF-Elemente werden gewöhnlicherweise verworfen.
  • Der vierte Vergleich, der Einpunktvergleich, vergleicht den Wert des Kandidaten-LSF-Vektorelements Ln(i) mit einem Minimum-LSF-Element Lmin(i) und mit einem Maximum-LSF-Element Lmax(i), wobei beide aus dem LSF-Puffer berechnet werden, und verwirft das Kandidaten-LSF-Element, wenn es außerhalb des Bereichs liegt, der durch die Minimum- und Maximum-LSF-Elemente eingeschlossen wird.
  • Wenn ein LSF-Element eines beschädigten Rahmens verworfen wird (basierend auf dem obigen Kriterium oder anderswie), dann wird ein neuer Wert für das LSF-Element gemäß dem Algorithmus unter Verwendung von Gleichung (2.2) berechnet.
  • Wenn man nun die 7 betrachtet, so ist dort ein Flussdiagramm des Gesamtverfahrens der Erfindung gezeigt, das die verschiedenen Vorkehrungen für stationäre und nicht stationäre Sprachrahmen und für beschädigte im Gegensatz zu verlorenen nicht stationären Sprachrahmen zeigt.
  • DISKUSSION
  • Die Erfindung kann in einem Sprachdekodierer entweder in einer Mobilstation oder einem mobilen Netzelement angewandt werden. Sie kann auch auf jeden Sprachdekodierer, der in einem System verwendet wird, das einen fehlerbehafteten Übertragungskanal aufweist, angewandt werden.
  • UMFANG DER ERFINDUNG
  • Es sollte verständlich sein, dass die oben beschriebenen Anordnungen nur die Prinzipien der vorliegenden Erfindung zeigen. Es sollte insbesondere verständlich sein, dass obwohl die Erfindung unter Verwendung von Linienspektrumpaaren für eine konkrete Darstellung gezeigt und beschrieben wurde, die Erfindung auch die Verwendung anderer, äquivalenter Parameter, wie Immitanz-Spektral-Paare umfasst. Verschiedene Modifikationen und alternative Anordnungen können von Fachleuten ins Auge gefasst werden, ohne vom Umfang der vorliegenden Erfindung abzuweichen, und die angefügten Ansprüche sollen solche Modifikationen und Anordnungen abdecken.

Claims (20)

  1. Verfahren zum Verbergen der Effekte von Rahmenfehlern in Rahmen, die von einem Dekodierer beim Bereitstellen von synthetisierter Sprache dekodiert werden sollen, wobei die Rahmen dem Dekoder über einen Kommunikationskanal bereitgestellt werden, wobei jeder Rahmen Parameter bereitstellt, die von dem Dekoder beim Synthetisieren von Sprache verwendet werden, wobei das Verfahren den Schritt des Bestimmens umfasst, ob ein Rahmen ein schlechter Rahmen ist, wobei das Verfahren durch den Schritt des Bereitstellens eines Ersatzes für die Spektralparameter des schlechten Rahmens gekennzeichnet ist, der einzig auf Spektralparameter für vorher und jüngst erhaltene guten Rahmen basiert und ein zumindest teilweise adaptives Mittel der Spektralparameter einer vordefinierten Anzahl der vorher und am jüngsten erhaltenen guten Rahmen einschließt.
  2. Verfahren nach Anspruch 1, weiter umfassend, den Schritt des Bestimmens, ob der schlechte Rahmen stationäre oder nicht-stationäre Sprache überträgt, und wobei der Schritt des Bereitstellens eines Ersatzes für den schlechten Rahmen auf eine Weise ausgeführt wird, die davon abhängt, ob der schlechte Rahmen stationäre oder nicht-stationäre Sprache überträgt.
  3. Verfahren nach Anspruch 2, wobei im Falle, dass ein schlechter Rahmen stationäre Sprache überträgt, der Schritt des Bereitstellens eines Ersatzes für den schlechten Rahmen unter Verwendung eines Mittels vom Parameter einer vorbestimmten Anzahl der am jüngsten empfangenen guten Rahmen, ausgeführt wird.
  4. Verfahren nach Anspruch 3, wobei im Falle, dass ein schlechten Rahmen stationäre Sprache überträgt und im Falle, dass ein linearer Voraussagefilter verwendet wird, der Schritt des Bereitstellens eines Ersatzes für den schlechten Rahmen gemäß dem Algorithmus ausgeführt wird: Für i = 0 bis N–1 adaptive_mean_LSF(i) = (past_LSF_good(i)(0) + past_LSF_good(i)(1) + ... + past_LSF_good(i)(K-1))/K; LSF_q1(i) = α·past_LSF_good(i)(0) + (1 – α)·adaptive_mean_LSF(i); LSF_q2(i) = LSF_q1(i);worin α ein vordefinierter Parameter ist, worin N die Ordnung des linearen Voraussagefilter ist, worin K die Adaptionslänge ist, worin LSF_q1(i) der quantisierte LSF-Vektor des zweiten Unterrahmen ist und LSF_g2(i) der quantisierte LSF-Vektor des vierten Unterrahmen ist, worin past_LSF_good(i)(0) gleich dem Wert der Größe LSF_q2(i – 1) von dem vorherigen guten Rahmen ist, worin past_LSF_good(i)(n) eine Komponente des Vektors von LSF-Parametern von dem n + 1ten vorherigen guten Rahmen ist und worin adaptive_mean_LSF(i) das Mittel der vorherigen guten LSF-Vektoren ist.
  5. Verfahren nach Anspruch 2, wobei im Falle, dass ein schlechten Rahmen nicht-stationäre Sprache überträgt, der Schritt des Bereitstellens eines Ersatzes für den schlechten Rahmen unter Verwendung höchstens eines vordefinierten Anteils eines Mittels von Parametern einer vorbestimmten Anzahl der jüngsten empfangenen guten Rahmen ausgeführt wird.
  6. Verfahren nach Anspruch 2, wobei im Falle, dass ein schlechten Rahmen nicht-stationäre Sprache überträgt, und im Falle, dass ein linearer Voraussagefilter verwendet wird, der Schritt des Bereitstellens eines Ersatzes für den schlechten Rahmen gemäß dem Algorithmus ausgeführt wird: Für i = 0 bis N–1 partly_adaptive_mean_LSF(i) = β·mean_LSF(i) + (1 – β)·adaptive_mean_LSF(i); LSF_q1(i) = α·past_LSF_good(i)(0) + (1 – α)·partly_adaptive_mean_LSF(i); LSF_q2(i) = LSF_q1(i);worin N die Ordnung des linearen Voraussagefilters ist, worin α und β vordefinierte Parameter sind, worin LSF_q1(i) der quantisierte LSF-Vektor des zweiten Unterrahmen ist und LSF_q2(i) der quantisierte LSF-Vektor des vierten Unterrahmen ist, worin past_LSF_q(i) der Wert des LSF_q2(i) des vorherigen guten Rahmens ist, worin partly_adaptive_mean_LSF(i) eine Kombination des adaptiven-Mittel-LSF-Vektors und des Durchschnitts-LSF-Vektors ist, worin adaptive_mean_LSF(i) das Mittel der letzten K guten LSF-Vektoren ist, worin K die Adaptionslänge ist, und worin mean_LSF(i) eine konstante Durchschnitts-LSF ist.
  7. Verfahren nach Anspruch 1, weiter umfassend den Schritt des Bestimmens, ob der schlechte Rahmen ein vordefiniertes Kriterium erfüllt, und wenn, Verwenden des schlechten Rahmens anstatt Ersetzen des schlechten Rahmens.
  8. Verfahren nach Anspruch 7, wobei das vordefinierte Kriterium das Ziehen von eine oder mehreren von vier Vergleichen aufruft: einen Vergleich zwischen den Rahmen, einen Vergleich innerhalb des Rahmens, einen Zwei-Punkte-Vergleich, und einen Einzel-Punkt-Vergleich.
  9. Verfahren nach Anspruch 1, in dem der Schritt des Bereitstellens eines Ersatzes für die Parameter des schlechten Rahmens Bereitstellen eines Ersatzes umfasst, in dem vergangene Immittanz-Spektralfrequenzen zu einem teilweise adaptiven Mittel verschoben werden, das gegeben ist durch: ISFq(i) = α·past_ISFq(i) + (1 – α)·ISFmean(i), für i = 0 .. 16,worin α = 0,9 ISFq(i) die i-te Komponente des Immittanz-Spektralfrequenzen-Vektors für einen derzeitigen Rahmen ist, past_ISFq(i) die i-te Komponente des Immittanz-Spektralfrequenzen-Vektors des vorherigen Rahmens ist; ISFmean(i) die i-te Komponente des Vektors ist, der eine Kombination des adaptiven Mittels und der konstanten vorbestimmten mittleren Immittanz-Spektralfrequenzen-Vektoren ist und unter Verwendung folgender Formel berechnet wird: ISFmean(i) = β·ISFconst_mean(i) + (1 – β)·ISFadaptiv_mean(i), für I = 0 .. 16,worin β = 0,75, worin
    Figure 00250001
    und immer dann, wenn BFI = 0 ist, aktualisiert wird, worin BFI ein Indikator für einen schlechter Rahmen ist, und worin ISFconst_mean(i) die i-te Komponente eines Vektors ist, der aus einem Langzeit-Durchschnitt von Immittanz-Spektralfrequenzen-Vektor gebildet wird.
  10. Vorrichtung zum Verbergen der Effekte von Rahmenfehlern in Rahmen, die von einem Dekodierer beim Bereitstellen von synthetisierter Sprache dekodiert werden sollen, wobei die Rahmen dem Dekoder über einen Kommunikationskanal bereitgestellt werden, wobei jeder Rahmen Parameter bereitstellt, die von dem Dekoder beim Synthetisieren von Sprache verwendet werden, wobei die Vorrichtung Mittel zum Bestimmen umfasst, ob ein Rahmen ein schlechter Rahmen ist, wobei die Vorrichtung durch Mittel zum Bereitstellen eines Ersatzes für die Spektralparameter des schlechten Rahmens gekennzeichnet ist, der einzig auf Spektralparameter für vorher und jüngst erhaltenen guten Rahmen basiert und ein zumindest teilweise adaptives Mittel der Spektralparameter einer vordefinierten Anzahl der vorher und am jüngsten erhaltenen guten Rahmen einschließt.
  11. Vorrichtung nach Anspruch 10, weiter umfassend, Mittel zum Bestimmen, ob der schlechte Rahmen stationäre oder nicht-stationäre Sprache überträgt, und wobei das Mittel zum Bereitstellen eines Ersatzes für den schlechten Rahmen den Ersatz auf eine Weise ausführt, die davon abhängt, ob der schlechte Rahmen stationäre oder nicht-stationäre Sprache überträgt.
  12. Vorrichtung nach Anspruch 11, wobei im Falle, dass ein schlechter Rahmen stationäre Sprache überträgt, die Mittel zum Bereitstellen eines Ersatzes für den schlechten Rahmen, das durch Verwendung eines Mittels von Parametern einer vorbestimmten Anzahl der jüngsten empfangenen guten Rahmen tut.
  13. Vorrichtung nach Anspruch 12, wobei im Falle, dass ein schlechten Rahmen stationäre Sprache überträgt und im Falle, dass ein linearer Voraussagefilter verwendet wird, die Mittel zum Bereitstellung eines Ersatzes für den schlechten Rahmen gemäß dem Algorithmus betriebsfähig sind: Für i = 0 bis N–1 adaptive_mean_LSF(i) = (past_LSF_good(i)(0) + past_LSF_good(i)(1) + ... + past_LSF_good(i)(K-1))/K; LSF_q1(i) = α·past_LSF_good(i)(0) + (1 – α)·adaptive_mean_LSF(i); LSF_q2(i) = LSF_q1(i);worin α ein vordefinierter Parameter ist, worin N die Ordnung des linearen Voraussagefilters ist, wobei K die Adaptionslänge ist, worin LSF_q1(i) der quantisierte LSF-Vektor des zweiten Unterrahmen ist und LSF_q2(i) der quantisierte LSF-Vektor des vierten Unterrahmen ist, worin past_LSF_good(i)(0) gleich dem Wert der Größe LSF_q2(i – 1) von dem vorherigen guten Rahmen ist, worin past_LSF_good(i)(n) eine Komponente des Vektors von LSF-Parameter von dem n + 1ten vorherigen guten Rahmen ist und worin adaptive_mean_LSF(i) das Mittel der vorherigen guten LSF-Vektoren ist.
  14. Vorrichtung nach Anspruch 11, wobei im Falle, dass ein schlechten Rahmen nicht-stationäre Sprache überträgt, die Mittel zum Bereitstellen eines Ersatzes für den schlechten Rahmen das unter Verwendung höchstens eines vordefinierten Anteils eines Mittels von Parameter einer vorbestimmten Anzahl der jüngsten empfangenen guten Rahmen tut.
  15. Vorrichtung nach Anspruch 11, wobei im Falle, dass ein schlechten Rahmen nicht-stationäre Sprache überträgt, und im Falle, dass ein linearer Voraussagefilter verwendet wird, die Mittel zum Bereitstellen eines Ersatzes für den schlechten Rahmen gemäß dem Algorithmus betriebsfähig sind: Für i = 0 bis N–1 partly_adaptive_mean_LSF(i) = β·mean_LSF(i) + (1 – β)·adaptive_mean_LSF(i); LSF_q1(i) = α*past_LSF_good(i)(0) + (1 – α)·partly_adaptive_mean_LSF(i); LSF_q2(i) = LSF_q1(i);worin N die Ordnung des linearen Voraussagefilters ist, worin α und β vordefinierte Parameter sind, worin LSF_q1(i) der quantisierte LSF-Vektor des zweiten Unterrahmens ist und LSF_q2(i) der quantisierte LSF-Vektor des vierten Unterrahmens ist, worin past_LSF_q(i) der Wert des LSF_g2(i) des vorherigen guten Rahmen ist, worin partly_adaptive_mean_LSF(i) eine Kombination des adaptiven-Mittel-LSF-Vektors und des Durchschnitts-LSF-Vektors ist, worin adaptive_mean_LSF(i) das Mittel der letzten K guten LSF-Vektoren ist, worin K die Adaptionslänge ist, und worin mean_LSF(i) eine konstante Durchschnitts-LSF ist.
  16. Vorrichtung nach Anspruch 10, weiter umfassend Mittel zum Bestimmen, ob der schlechte Rahmen ein vordefiniertes Kriterium erfüllt, und wenn, Verwenden des schlechten Rahmens anstatt Ersetzen des schlechten Rahmens.
  17. Vorrichtung nach Anspruch 16, wobei das vordefinierte Kriterium das Ziehen von einem oder mehreren von vier Vergleichen aufruft: einen Vergleich zwischen den Rahmen, einen Vergleich innerhalb des Rahmens, einen Zwei-Punkte-Vergleich, und einen Einzel-Punkt-Vergleich.
  18. Vorrichtung nach Anspruch 10, in dem die Mittel zum Bereitstellen eines Ersatzes für die Parameter des schlechten Rahmens Mittel zum Bereitstellen eines Ersatzes umfassen, in dem vergangene Immittanz-Spektralfrequenzen zu einem teilweise adaptiven Mittel verschoben werden, das gegeben ist durch: ISFq(i) = α·past_ISFq(i) + (1 – α)·ISFmean(i), für i = 0 .. 16,worin α = 0,9, ISFq(i) die i-te Komponente des Immittanz-Spektralfrequenzen-Vektors für einen derzeitigen Rahmen ist, past_ISFq(i) die i-te Komponente des Immittanz-Spektralfrequenzen-Vektors des vorherigen Rahmen ist; ISFmean(i) die i-te Komponente des Vektors ist, der eine Kombination des adaptiven Mittels und der konstanten vorbestimmten mittleren Immittanz-Spektralfrequenzen-Vektoren ist und unter Verwendung folgender Formel berechnet wird: ISFmean(i) = β·ISFconst_mean(i) + (1 – β)·ISFadaptiv_mean(i), für I = 0 .. 16,worin β = 0,75, worin
    Figure 00280001
    und immer dann, wenn BFI = 0 ist, aktualisiert wird, worin BFI ein Indikator für einen schlechter Rahmen ist, und worin ISFconst_mean(i) die i-te Komponente eines Vektors ist, der aus einem Langzeit-Durchschnitt von Immittanz-Spektralfrequenzen-Vektoren gebildet wird.
  19. Mobilstation, die eine Vorrichtung nach einem der Ansprüche 10 bis 18 einschließt.
  20. Netzelement, das eine Vorrichtung nach einem der Ansprüche 10 bis 18 einschließt.
DE60125219T 2000-10-23 2001-10-17 Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder Revoked DE60125219T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US24249800P 2000-10-23 2000-10-23
US242498P 2000-10-23
PCT/IB2001/001950 WO2002035520A2 (en) 2000-10-23 2001-10-17 Improved spectral parameter substitution for the frame error concealment in a speech decoder

Publications (2)

Publication Number Publication Date
DE60125219D1 DE60125219D1 (de) 2007-01-25
DE60125219T2 true DE60125219T2 (de) 2007-03-29

Family

ID=22915004

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60125219T Revoked DE60125219T2 (de) 2000-10-23 2001-10-17 Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder

Country Status (14)

Country Link
US (2) US7031926B2 (de)
EP (1) EP1332493B1 (de)
JP (2) JP2004522178A (de)
KR (1) KR100581413B1 (de)
CN (1) CN1291374C (de)
AT (1) ATE348385T1 (de)
AU (1) AU1079902A (de)
BR (2) BR0114827A (de)
CA (1) CA2425034A1 (de)
DE (1) DE60125219T2 (de)
ES (1) ES2276839T3 (de)
PT (1) PT1332493E (de)
WO (1) WO2002035520A2 (de)
ZA (1) ZA200302778B (de)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6810377B1 (en) * 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
US6609118B1 (en) * 1999-06-21 2003-08-19 General Electric Company Methods and systems for automated property valuation
US6968309B1 (en) * 2000-10-31 2005-11-22 Nokia Mobile Phones Ltd. Method and system for speech frame error concealment in speech decoding
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP2004151123A (ja) * 2002-10-23 2004-05-27 Nec Corp 符号変換方法、符号変換装置、プログラム及びその記憶媒体
US20040143675A1 (en) * 2003-01-16 2004-07-22 Aust Andreas Matthias Resynchronizing drifted data streams with a minimum of noticeable artifacts
US7835916B2 (en) * 2003-12-19 2010-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Channel signal concealment in multi-channel audio systems
FI119533B (fi) * 2004-04-15 2008-12-15 Nokia Corp Audiosignaalien koodaus
CN1950883A (zh) * 2004-04-30 2007-04-18 松下电器产业株式会社 可伸缩性解码装置及增强层丢失的隐藏方法
EP1603262B1 (de) * 2004-05-28 2007-01-17 Alcatel Anpassungsverfahren für ein Mehrraten-Sprach-Codec
US7971121B1 (en) * 2004-06-18 2011-06-28 Verizon Laboratories Inc. Systems and methods for providing distributed packet loss concealment in packet switching communications networks
WO2006028009A1 (ja) * 2004-09-06 2006-03-16 Matsushita Electric Industrial Co., Ltd. スケーラブル復号化装置および信号消失補償方法
US7409338B1 (en) * 2004-11-10 2008-08-05 Mediatek Incorporation Softbit speech decoder and related method for performing speech loss concealment
US7596143B2 (en) * 2004-12-16 2009-09-29 Alcatel-Lucent Usa Inc. Method and apparatus for handling potentially corrupt frames
BRPI0607251A2 (pt) * 2005-01-31 2017-06-13 Sonorit Aps método para concatenar um primeiro quadro de amostras e um segundo quadro subseqüente de amostras, código de programa executável por computador, dispositivo de armazenamento de programa, e, arranjo para receber um sinal de áudio digitalizado
KR100612889B1 (ko) * 2005-02-05 2006-08-14 삼성전자주식회사 선스펙트럼 쌍 파라미터 복원 방법 및 장치와 그 음성복호화 장치
GB0512397D0 (en) * 2005-06-17 2005-07-27 Univ Cambridge Tech Restoring corrupted audio signals
KR100723409B1 (ko) * 2005-07-27 2007-05-30 삼성전자주식회사 프레임 소거 은닉장치 및 방법, 및 이를 이용한 음성복호화 방법 및 장치
US8069035B2 (en) * 2005-10-14 2011-11-29 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus, and methods of them
WO2007091926A1 (en) * 2006-02-06 2007-08-16 Telefonaktiebolaget Lm Ericsson (Publ) Method and arrangement for speech coding in wireless communication systems
US7457746B2 (en) 2006-03-20 2008-11-25 Mindspeed Technologies, Inc. Pitch prediction for packet loss concealment
US8280728B2 (en) * 2006-08-11 2012-10-02 Broadcom Corporation Packet loss concealment for a sub-band predictive coder based on extrapolation of excitation waveform
WO2008022181A2 (en) * 2006-08-15 2008-02-21 Broadcom Corporation Updating of decoder states after packet loss concealment
WO2008056775A1 (fr) * 2006-11-10 2008-05-15 Panasonic Corporation Dispositif de décodage de paramètre, dispositif de codage de paramètre et procédé de décodage de paramètre
KR101292771B1 (ko) * 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
KR100862662B1 (ko) 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
KR101291193B1 (ko) 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
CN100578618C (zh) * 2006-12-04 2010-01-06 华为技术有限公司 一种解码方法及装置
CN101226744B (zh) * 2007-01-19 2011-04-13 华为技术有限公司 语音解码器中实现语音解码的方法及装置
KR20080075050A (ko) * 2007-02-10 2008-08-14 삼성전자주식회사 오류 프레임의 파라미터 갱신 방법 및 장치
ES2642091T3 (es) * 2007-03-02 2017-11-15 Iii Holdings 12, Llc Dispositivo de codificación de audio y dispositivo de decodificación de audio
EP1973254B1 (de) * 2007-03-22 2009-07-15 Research In Motion Limited Vorrichtung und Verfahren zur verbesserten Maskierung von Rahmenverlusten
US8165224B2 (en) 2007-03-22 2012-04-24 Research In Motion Limited Device and method for improved lost frame concealment
WO2008146466A1 (ja) * 2007-05-24 2008-12-04 Panasonic Corporation オーディオ復号装置、オーディオ復号方法、プログラム及び集積回路
US8751229B2 (en) * 2008-11-21 2014-06-10 At&T Intellectual Property I, L.P. System and method for handling missing speech data
EP2189976B1 (de) * 2008-11-21 2012-10-24 Nuance Communications, Inc. Verfahren zur Adaption eines Codierungsbuches für Spracherkennung
CN101615395B (zh) * 2008-12-31 2011-01-12 华为技术有限公司 信号编码、解码方法及装置、系统
JP2010164859A (ja) * 2009-01-16 2010-07-29 Sony Corp オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム
US20100185441A1 (en) * 2009-01-21 2010-07-22 Cambridge Silicon Radio Limited Error Concealment
US8676573B2 (en) * 2009-03-30 2014-03-18 Cambridge Silicon Radio Limited Error concealment
US8316267B2 (en) * 2009-05-01 2012-11-20 Cambridge Silicon Radio Limited Error concealment
CN101894565B (zh) * 2009-05-19 2013-03-20 华为技术有限公司 语音信号修复方法和装置
US8908882B2 (en) * 2009-06-29 2014-12-09 Audience, Inc. Reparation of corrupted audio signals
KR101761629B1 (ko) 2009-11-24 2017-07-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
JP5724338B2 (ja) * 2010-12-03 2015-05-27 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
MX2013012301A (es) * 2011-04-21 2013-12-06 Samsung Electronics Co Ltd Aparato para cuantificar coeficientes de codificacion predictiva lineal, aparato de codificacion de sonido, aparato para decuantificar coeficientes de codificacion predictiva lineal, aparato de decodificacion de sonido y dispositivo electronico para los mismos.
WO2012144878A2 (en) 2011-04-21 2012-10-26 Samsung Electronics Co., Ltd. Method of quantizing linear predictive coding coefficients, sound encoding method, method of de-quantizing linear predictive coding coefficients, sound decoding method, and recording medium
JP6024191B2 (ja) * 2011-05-30 2016-11-09 ヤマハ株式会社 音声合成装置および音声合成方法
CN104011793B (zh) * 2011-10-21 2016-11-23 三星电子株式会社 帧错误隐藏方法和设备以及音频解码方法和设备
KR20130113742A (ko) * 2012-04-06 2013-10-16 현대모비스 주식회사 오디오 데이터 디코딩 방법 및 장치
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
CN103117062B (zh) * 2013-01-22 2014-09-17 武汉大学 语音解码器中帧差错隐藏的谱参数代替方法及系统
ES2603266T3 (es) * 2013-02-13 2017-02-24 Telefonaktiebolaget L M Ericsson (Publ) Ocultación de errores de trama
US9842598B2 (en) * 2013-02-21 2017-12-12 Qualcomm Incorporated Systems and methods for mitigating potential frame instability
CA2916150C (en) 2013-06-21 2019-06-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method realizing improved concepts for tcx ltp
KR102132326B1 (ko) * 2013-07-30 2020-07-09 삼성전자 주식회사 통신 시스템에서 오류 은닉 방법 및 장치
CN103456307B (zh) * 2013-09-18 2015-10-21 武汉大学 音频解码器中帧差错隐藏的谱代替方法及系统
JP5981408B2 (ja) 2013-10-29 2016-08-31 株式会社Nttドコモ 音声信号処理装置、音声信号処理方法、及び音声信号処理プログラム
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
EP2922054A1 (de) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und zugehöriges Computerprogramm zur Erzeugung eines Fehlerverschleierungssignals unter Verwendung einer adaptiven Rauschschätzung
EP2922056A1 (de) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und zugehöriges Computerprogramm zur Erzeugung eines Fehlerverschleierungssignals unter Verwendung von Leistungskompensation
EP2922055A1 (de) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und zugehöriges Computerprogramm zur Erzeugung eines Fehlerverschleierungssignals mit einzelnen Ersatz-LPC-Repräsentationen für individuelle Codebuchinformationen
CN107369454B (zh) 2014-03-21 2020-10-27 华为技术有限公司 语音频码流的解码方法及装置
CN108011686B (zh) * 2016-10-31 2020-07-14 腾讯科技(深圳)有限公司 信息编码帧丢失恢复方法和装置
US10784988B2 (en) 2018-12-21 2020-09-22 Microsoft Technology Licensing, Llc Conditional forward error correction for network data
US10803876B2 (en) * 2018-12-21 2020-10-13 Microsoft Technology Licensing, Llc Combined forward and backward extrapolation of lost network data
CN111554308A (zh) * 2020-05-15 2020-08-18 腾讯科技(深圳)有限公司 一种语音处理方法、装置、设备及存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5406532A (en) * 1988-03-04 1995-04-11 Asahi Kogaku Kogyo Kabushiki Kaisha Optical system for a magneto-optical recording/reproducing apparatus
JP3104400B2 (ja) * 1992-04-27 2000-10-30 ソニー株式会社 オーディオ信号符号化装置及び方法
JP3085606B2 (ja) * 1992-07-16 2000-09-11 ヤマハ株式会社 ディジタルデータの誤り補正方法
JP2746033B2 (ja) * 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
JP3123286B2 (ja) * 1993-02-18 2001-01-09 ソニー株式会社 ディジタル信号処理装置又は方法、及び記録媒体
SE501340C2 (sv) 1993-06-11 1995-01-23 Ericsson Telefon Ab L M Döljande av transmissionsfel i en talavkodare
US5502713A (en) * 1993-12-07 1996-03-26 Telefonaktiebolaget Lm Ericsson Soft error concealment in a TDMA radio system
JP3404837B2 (ja) * 1993-12-07 2003-05-12 ソニー株式会社 多層符号化装置
CA2142391C (en) 1994-03-14 2001-05-29 Juin-Hwey Chen Computational complexity reduction during frame erasure or packet loss
JP3713288B2 (ja) 1994-04-01 2005-11-09 株式会社東芝 音声復号装置
JP3416331B2 (ja) 1995-04-28 2003-06-16 松下電器産業株式会社 音声復号化装置
SE506341C2 (sv) * 1996-04-10 1997-12-08 Ericsson Telefon Ab L M Metod och anordning för rekonstruktion av en mottagen talsignal
JP3583550B2 (ja) 1996-07-01 2004-11-04 松下電器産業株式会社 補間装置
WO1998045951A1 (en) * 1997-04-07 1998-10-15 Koninklijke Philips Electronics N.V. Speech transmission system
US6810377B1 (en) 1998-06-19 2004-10-26 Comsat Corporation Lost frame recovery techniques for parametric, LPC-based speech coding systems
US6373842B1 (en) * 1998-11-19 2002-04-16 Nortel Networks Limited Unidirectional streaming services in wireless systems
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
US6418408B1 (en) 1999-04-05 2002-07-09 Hughes Electronics Corporation Frequency domain interpolative speech codec system

Also Published As

Publication number Publication date
JP2004522178A (ja) 2004-07-22
BR0114827A (pt) 2004-06-15
ATE348385T1 (de) 2007-01-15
WO2002035520A3 (en) 2002-07-04
ES2276839T3 (es) 2007-07-01
KR100581413B1 (ko) 2006-05-23
EP1332493A2 (de) 2003-08-06
CN1291374C (zh) 2006-12-20
JP2007065679A (ja) 2007-03-15
AU2002210799B2 (en) 2005-06-23
AU1079902A (en) 2002-05-06
WO2002035520A2 (en) 2002-05-02
ZA200302778B (en) 2004-02-27
CN1535461A (zh) 2004-10-06
US20070239462A1 (en) 2007-10-11
BRPI0114827B1 (pt) 2018-09-11
CA2425034A1 (en) 2002-05-02
US7529673B2 (en) 2009-05-05
US20020091523A1 (en) 2002-07-11
KR20030048067A (ko) 2003-06-18
US7031926B2 (en) 2006-04-18
PT1332493E (pt) 2007-02-28
DE60125219D1 (de) 2007-01-25
EP1332493B1 (de) 2006-12-13

Similar Documents

Publication Publication Date Title
DE60125219T2 (de) Spektralmerkmal ersatz für die verschleierung von rahmenfehlern in einem sprachdekoder
DE69915830T2 (de) Verbesserte verfahren zur rückgewinnung verlorener datenrahmen für ein lpc-basiertes, parametrisches sprachkodierungsystem.
DE60121201T2 (de) Verfahren und vorrichtung zur verschleierung von fehlerhaften rahmen während der sprachdekodierung
DE60220485T2 (de) Verfahren und Vorrichtung zur Verschleierung von Rahmenausfall von prädiktionskodierter Sprache unter Verwendung von Extrapolation der Wellenform
DE60117144T2 (de) Sprachübertragungssystem und verfahren zur behandlung verlorener datenrahmen
DE10041512B4 (de) Verfahren und Vorrichtung zur künstlichen Erweiterung der Bandbreite von Sprachsignalen
DE60217522T2 (de) Verbessertes verfahren zur verschleierung von bitfehlern bei der sprachcodierung
DE69534285T2 (de) Verfahren und Vorrichtung zur Auswahl der Kodierrate in einem Vocoder mit variabler Rate
DE69727895T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60121405T2 (de) Transkodierer zur Vermeidung einer Kaskadenkodierung von Sprachsignalen
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
DE60131639T2 (de) Vorrichtungen und Verfahren zur Bestimmung von Leistungswerten für die Geräuschunterdrückung für ein Sprachkommunikationssystem
DE60122203T2 (de) Verfahren und system zur erzeugung von behaglichkeitsrauschen bei der sprachkommunikation
DE69910240T2 (de) Vorrichtung und verfahren zur wiederherstellung des hochfrequenzanteils eines überabgetasteten synthetisierten breitbandsignals
DE69730721T2 (de) Verfahren und vorrichtungen zur geräuschkonditionierung von signalen welche audioinformationen darstellen in komprimierter und digitalisierter form
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60029147T2 (de) Qualitätsverbesserung eines audiosignals in einem digitalen netzwerk
DE69913262T2 (de) Vorrichtung und verfahren zur anpassung der rauschschwelle zur sprachaktivitätsdetektion in einer nichtstationären geräuschumgebung
DE60032797T2 (de) Geräuschunterdrückung
DE60017763T2 (de) Verfahren und vorrichtung zur erhaltung einer ziel-bitrate in einem sprachkodierer
DE60031002T2 (de) Multimodaler mischbereich-sprachkodierer mit geschlossener regelschleife
DE69911169T2 (de) Verfahren zur dekodierung eines audiosignals mit korrektur von übertragungsfehlern
DE60118631T2 (de) Verfahren zum ersetzen verfälschter audiodaten
EP1386307B2 (de) Verfahren und vorrichtung zur bestimmung eines qualitätsmasses eines audiosignals
DE60117558T2 (de) Verfahren zur rauschrobusten klassifikation in der sprachkodierung

Legal Events

Date Code Title Description
8363 Opposition against the patent
8331 Complete revocation