DE60132217T2 - Übertragungsfehler-verdeckung in einem audiosignal - Google Patents

Übertragungsfehler-verdeckung in einem audiosignal Download PDF

Info

Publication number
DE60132217T2
DE60132217T2 DE60132217T DE60132217T DE60132217T2 DE 60132217 T2 DE60132217 T2 DE 60132217T2 DE 60132217 T DE60132217 T DE 60132217T DE 60132217 T DE60132217 T DE 60132217T DE 60132217 T2 DE60132217 T2 DE 60132217T2
Authority
DE
Germany
Prior art keywords
signal
samples
synthesis
voiced
decoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60132217T
Other languages
English (en)
Other versions
DE60132217D1 (de
Inventor
Balazs Kovesi
Dominique Massaloux
David Deleam
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Application granted granted Critical
Publication of DE60132217D1 publication Critical patent/DE60132217D1/de
Publication of DE60132217T2 publication Critical patent/DE60132217T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Automobile Manufacture Line, Endless Track Vehicle, Trailer (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)

Description

  • 1. TECHNISCHES GEBIET
  • Die vorliegende Erfindung betrifft die Techniken der Verdeckung von aufeinander folgenden Übertragungsfehlern in Übertragungssystemen, die einen beliebigen Typ der digitalen Codierung des Sprach- und/oder Tonsignals verwenden.
  • Üblicherweise werden zwei große Kategorien von Codierern unterschieden:
    • – die so genannten zeitlichen Codierer, die die Komprimierung der Proben eines Probe für Probe digitalisierten Signals durchführen (Fall der Codierer MIC oder MICDA [DAUMER] [MAITRE] zum Beispiel),
    • – und die parametrischen Codierer, die aufeinanderfolgende Rahmen von Proben des zu codierenden Signals analysieren, um in jedem dieser Rahmen eine gewisse Anzahl von Parametern zu entnehmen, die anschließend codiert und übertragen werden (Fall der Vocoder [TREMAIN], der Codierer IMBE [HARDWICK], oder der Transformationscodierer [BRANDENBURG]).
  • Es gibt Zwischenkategorien, die die Codierung der für die parametrischen Codierer repräsentativen Parameter durch die Codierung einer Rest-Zeitwellenform vervollständigen. Zur Vereinfachung, diese Codierer können in die Kategorie der parametrischen Codierer eingeordnet werden.
  • In dieser Kategorie findet man die prädiktiven Codierer und insbesondere die Familie der Codierer mit Analyse durch Synthese wie der RPE-LTP ([HELLWIG]) oder die CELP([ATAL]).
  • Bei allen diesen Codierern werden die codierten Werte anschließend in einen Bitstrom umgewandelt, der in einem Übertragungskanal übertragen wird. Je nach der Qualität dieses Kanals und dem Transporttyp können Störungen das übertragene Signal beeinträchtigen und Fehler im vom Decodierer empfangenen Bitstrom erzeugen. Diese Fehler können isoliert im Bitstrom auftreten, zeigen sich aber sehr häufig in Bursts. Es ist dann ein einem vollständigen Signalabschnitt entsprechendes Bitpaket, das falsch ist oder nicht empfangen wird. Auf diese Art von Problem trifft man zum Beispiel bei den Übertragungen in den Mobilnetzen. Man findet es auch bei den Übertragungen in den Paketnetzen und insbesondere in den Netzen vom Typ Internet.
  • Wenn das Übertragungssystem oder die mit dem Empfang beauftragten Module es ermöglichen festzustellen, dass die empfangenen Daten stark fehlerhaft sind (zum Beispiel in den Mobilnetzen), oder dass ein Datenblock nicht empfangen wurde (zum Beispiel Fall der Paketübertragungssysteme), werden Fehlerverdeckungsprozeduren angewendet. Diese Prozeduren erlauben es, im Decodierer die Proben des fehlenden Signals ausgehend von den verfügbaren Signalen und Daten zu extrapolieren, die aus den den gelöschten Zonen vorhergehenden oder ggf. darauf folgenden Rahmen stammen.
  • Solche Techniken wurden hauptsächlich im Fall der parametrischen Codierer verwendet (Techniken der Wiederherstellung der gelöschten Rahmen). Sie ermöglichen es, die subjektive Verschlechterung des im Decodierer in Gegenwart von gelöschten Rahmen wahrgenommenen Signals stark zu begrenzen. Die meisten der entwickelten Algorithmen beruhen auf der Technik, die für den Codierer und den Decodierer verwendet wird, und bilden tatsächlich eine Erweiterung des Decodierers.
  • Ein allgemeines Ziel der Erfindung ist es, für jedes Sprach- und Tonkomprimierungssystem die subjektive Qualität des im Decodierer wiederhergestellten Sprachsignals zu verbessern, wenn aufgrund einer schlechten Qualität des Übertragungskanals oder nach dem Verlust oder dem Nicht-Empfang eines Pakets in einem Paketübertragungssystem eine Gruppe von aufeinanderfolgenden codierten Daten verloren gegangen ist.
  • Sie schlägt zu diesem Zweck eine Technik vor, die es ermöglicht, die aufeinanderfolgenden Übertragungsfehler (Fehlerpakete) zu verdecken, unabhängig von der verwendeten Technik, wobei die vorgeschlagene Technik zum Beispiel im Fall der zeitlichen Codierer verwendet werden kann, deren Struktur a priori für die Verdeckung der Fehlerpakete weniger gut geeignet ist.
  • 2. STAND DER TECHNIK
  • Die meisten Codieralgorithmen vom prädiktiven Typ schlagen Technik der Wiederherstellung von gelöschten Rahmen vor ([GSM-FR], [REC G.723.1A], [SALAMI], [HONKANEN), [COX-2], (CHEN-2], [CHEN-3], [CHEN-4], [CHEN-5], [CHEN-6], [CHEN-7], [KROON-2], [WATKINS]). Der Decodierer wird auf die eine oder andere Weise über das Auftreten eines gelöschten Rahmens informiert, zum Beispiel im Fall der Mobilfunksysteme durch die Übertragung der vom Kanaldecodierer stammenden Rahmenlöschinformation. Die Vorrichtungen zur Wiederherstellung von gelöschten Rahmen haben zum Ziel, die Parameter des gelöschten Rahmens ausgehend von dem (oder den) letzten als gültig angesehenen vorhergehenden Rahmen zu extrapolieren. Bestimmte Parameter, die von den prädiktiven Codierern manipuliert oder codiert werden, haben eine starke Korrelation zwischen Rahmen (Fall der Kurzzeitvorhersage-Parameter, auch "LPC" genannt von "Linear Predictive Coding" (siehe [RABINER]), die die Spektralhülle darstellen, und der Langzeitvorhersage- Parameter für die stimmhaften Töne, zum Beispiel). Aufgrund dieser Korrelation ist es sehr viel vorteilhafter, die Parameter des letzten gültigen Rahmens wieder zu verwenden, um den gelöschten Rahmen zu synthetisieren, als fehlerhafte oder Zufalls-Parameter zu verwenden.
  • Für den Codieralgorithmus CELP (von "Code Excited Linear Prediction", siehe [RABINER]) werden die Parameter des gelöschten Rahmens üblicherweise wie folgt erhalten:
    • – Das LPC-Filter wird ausgehend von den LPC-Parametern des letzten gültigen Rahmens erhalten, entweder durch Kopie der Parameter oder mit Einführung einer gewissen Dämpfung (siehe Codierer G723.1 [REC G.723.1A]).
    • – Man erfasst die Stimmhaftigkeit, um den Harmonizitätsgrad des Signals auf der Ebene des gelöschten Rahmens zu bestimmen [SALAMI], wobei diese Erfassung folgendermaßen eintritt:
    • – im Fall eines nicht stimmhaften Signals: wird ein Anregungssignal zufällig erzeugt (Ziehen eines Codeworts und Verstärkung der vergangenen Anregung leicht gedämpft [SALAMI], Zufallsauswahl in der vergangenen Anregung [CHEN], Verwendung der übertragenen Codes, ggf. völlig fehlerhaft [HONKANEN], ...)
    • – im Fall eines stimmhaften Signals: ist die LTP-Verzögerung allgemein die im vorhergehenden Rahmen berechnete Verzögerung, ggf. mit einem leichten "Jitter" ([SALAMI]), wobei die LTP-Verstärkung sehr nahe von 1 oder gleich 1 genommen wird. Das Anregungssignal ist auf die Langzeitvorhersage begrenzt, die ausgehend von der vergangenen Anregung durchgeführt wird.
  • In allen oben erwähnten Beispielen sind die Prozeduren der Verdeckung der gelöschten Rahmen stark mit dem Decodierer verbunden und verwenden Module dieses Decodierers, wie den Synthesemodul des Signals. Sie verwenden auch Zwischensignale, die innerhalb dieses Decodierers verfügbar sind, wie das vergangene und gespeicherte Anregungssignal bei der Verarbeitung der gültigen Rahmen, die vor den gelöschten Rahmen liegen.
  • Die meisten verwendeten Methoden, um die Fehler zu verdecken, die von beim Transport von von den Codierern vom zeitlichen Typ codierten Daten verlorenen Paketen erzeugt werden, benutzen Techniken der Wellenform-Substitution, wie sie in [GOODMAN], [ERDÖL], (AT&T] vorgestellt werden. Die Methoden dieses Typs stellen das Signal wieder her, indem sie Abschnitte des decodierten Signals vor der verlorenen Periode auswählen und keine Synthesemodelle benutzen. Glättungstechniken werden ebenfalls angewendet, um die Artefakte zu vermeiden, die von der Verkettung der verschiedenen Signale erzeugt werden.
  • Für die Transformationscodierer stützen die Techniken der Wiederherstellung der gelöschten Rahmen sich ebenfalls auf die verwendete Codierungsstruktur: Die Algorithmen, wie [PICTEL, MAHIEUX-2], zielen darauf ab, die verlorenen transformierten Koeffizienten ausgehend von den Werten zu regenerieren, die von diesen Koeffizienten vor dem Löschen angenommen wurden.
  • Die in [PARIKH] beschriebene Methode kann auf jeden Signaltyp angewendet werden; sie beruht auf der Konstruktion eines sinusförmigen Modells ausgehend von dem dem Löschen vorhergehenden decodierten Signal, um den verlorenen Teil des Signals zu regenerieren.
  • Schließlich gibt es eine Familie von Techniken der Verdeckung der gelöschten Rahmen, die zusammen mit der Kanalcodierung entwickelt werden. Diese Methoden, wie diejenige, die in [FINGSCHEIDT] beschrieben ist, bedienen sich Informationen, die vom Kanaldecodierer geliefert werden, zum Beispiel Informationen, die den Zuverlässigkeitsgrad der empfangenen Parameter betreffen. Sie sind grundlegend anders als die vorliegende Erfindung, die kein Vorhandensein eines Kanalcodierers voraussetzt.
  • Ein Stand der Technik, der als der vorliegenden Erfindung am nächsten liegend betrachtet werden kann, ist derjenige, der in [COMBESCURE] beschrieben wird, der eine Methode des Verdeckens der gelöschten Rahmen gleich derjenigen vorschlug, die in den Codierern CELP für einen Transformationscodierer verwendet wird. Die Nachteile der vorgeschlagenen Methode waren das Einführen von hörbaren spektralen Verzerrungen ("synthetische" Stimme, Störresonanzen, ...) aufgrund insbesondere der Verwendung von schlecht gesteuerten Langzeit-Synthesefiltern (harmonische Komponente nur bei stimmhaften Tönen, Erzeugung des Anregungssignals begrenzt auf die Verwendung von Abschnitten des vergangenen Restsignals). Außerdem fand die Energiesteuerung in [COMBESCURE] auf der Ebene des Anregungssignals statt, das Energieziel dieses Signals wurde während der ganzen Dauer der Löschung konstant gehalten, was ebenfalls störende Artefakte erzeugte. Die gleichen Anmerkungen gelten für die Druckschrift US 5884010 .
  • 3. DARSTELLUNG DER ERFINDUNG
  • Die Erfindung, wie sie in den Ansprüchen 1, 17 und 18 definiert ist, erlaubt ihrerseits das Verdecken der gelöschten Rahmen ohne ausgeprägte Verzerrung bei höheren Fehlerraten und/oder bei längeren gelöschten Intervallen.
  • Sie schlägt insbesondere ein Verfahren zur Verdeckung eines Übertragungsfehlers in einem digitalen Audiosignal vor, gemäß dem ein decodiertes Signal nach Übertragung empfangen wird, die decodierten Proben gespeichert werden, wenn die übertragenen Daten gültig sind, mindestens ein Kurzzeitvorhersage-Operator und mindestens ein Langzeitvorhersage-Operator in Abhängigkeit von den gespeicherten gültigen Proben geschätzt wird, und mögliche fehlende oder fehlerhafte Proben in dem decodierten Signal mit Hilfe der so geschätzten Operatoren erzeugt werden.
  • Gemäß einem ersten, besonders vorteilhaften Aspekt der Erfindung wird die Energie des so erzeugten Synthesesignals mit Hilfe einer berechneten und angepassten Verstärkung Probe für Probe gesteuert.
  • Dies trägt insbesondere dazu bei, die Leistungen der Technik in Löschungszonen längerer Dauer zu verbessern.
  • Insbesondere wird die Verstärkung für die Steuerung des Synthesesignals vorteilhafterweise in Abhängigkeit von mindestens einem der folgenden Parameter berechnet: vorher gespeicherte Energiewerte für die gültigen Daten entsprechenden Proben, Grundperiode für die stimmhaften Töne, oder jeder das Frequenzspektrum kennzeichnende Parameter.
  • Ebenfalls vorteilhafterweise nimmt die an das Synthesesignal angewendete Verstärkung progressiv in Abhängigkeit von der Dauer ab, während der die Syntheseproben erzeugt werden.
  • In ebenfalls bevorzugter Weise werden in den gültigen Daten die stationären Töne und die nicht-stationären Töne unterschieden, und es werden unterschiedliche Anpassungsgesetze dieser Verstärkung (zum Beispiel abnehmende Geschwindigkeit) einerseits für die Proben, die nach stationären Tönen entsprechenden gültigen Daten erzeugt werden, und andererseits für die Proben angewendet, die nach nicht-stationären Tönen entsprechenden gültigen Daten erzeugt werden.
  • Gemäß einem anderen unabhängigen Aspekt der Erfindung wird in Abhängigkeit von den erzeugten Syntheseproben der Inhalt der Speicher aktualisiert, die für die Decodierverarbeitung verwendet werden.
  • Auf diese Weise begrenzt man einerseits den möglichen Synchronisationsverlust des Codierers und des Decodierers (siehe nachfolgenden Paragraph 5.1.4), und man vermeidet die abrupten Unstetigkeiten zwischen der erfindungsgemäß rekonstruierten gelöschten Zone und den auf diese Zone folgenden Proben.
  • Insbesondere wird zumindest teilweise an den synthetisierten Proben eine Codierung analog zu derjenigen angewendet, die im Sender angewendet wird, ggf. gefolgt von einer (ggf. teilweisen) Decodieroperation, wobei die erhaltenen Daten dazu dienen, die Speicher des Decodierers zu regenerieren.
  • Insbesondere kann diese Operation der ggf. teilweisen Codierung-Decodierung vorteilhafterweise verwendet werden, um den ersten gelöschten Rahmen zu regenerieren, da sie es ermöglicht, den Inhalt der Speicher des Decodierers vor der Unterbrechung auszuwerten, wenn diese Speicher Informationen enthalten, die nicht von den letzten decodierten gültigen Proben geliefert werden (zum Beispiel im Fall der Transformationscodierer mit Addition-Überlappung, siehe Paragraph 5.2.2.2.1 Punkt 10).
  • Gemäß einem noch anderen Aspekt der Erfindung wird am Eingang des Kurzzeitvorhersage-Operators ein Anregungssignal erzeugt, das in der stimmhaften Zone die Summe einer harmonischen Komponente und einer schwach harmonischen oder nicht-harmonischen Komponente, und in der nicht-stimmhaften Zone auf eine nicht-harmonische Komponente beschränkt ist.
  • Insbesondere wird die harmonische Komponente vorteilhafterweise durch Anwenden einer Filterung mittels des Langzeitvorhersage-Operators erhalten, die an ein Restsignal angewendet wird, das unter Anwendung einer inversen Kurzzeit-Filterung an die gespeicherten Proben berechnet wird.
  • Die andere Komponente kann mit Hilfe eines Langzeitvorhersage-Operators bestimmt werden, an den pseudo-zufällige Störungen angewendet werden (zum Beispiel Störung der Verstärkung oder der Periode).
  • In besonders bevorzugter Weise stellt zur Erzeugung eines stimmhaften Anregungssignals die harmonische Komponente die niederen Frequenzen des Spektrums dar, während die andere Komponente die hohen Frequenzen darstellt.
  • Gemäß noch einem anderen Aspekt wird der Langzeitvorhersage-Operator ausgehend von den gültigen gespeicherten Rahmenproben bestimmt, mit einer Anzahl von für diese Schätzung verwendeten Proben, die zwischen einem minimalen Wert und einem Wert gleich mindestens der doppelten Grundperiode variiert, die für den stimmhaften Ton geschätzt wird.
  • Außerdem wird das Restsignal vorteilhafterweise durch Verarbeitungen vom nicht-linearen Typ verändert, um Amplitudenspitzen zu unterdrücken.
  • Ebenfalls gemäß einem weiteren vorteilhaften Aspekt wird die Stimmaktivität erfasst, indem Rauschparameter geschätzt werden, wenn das Signal als nicht aktiv angesehen wird, und man lässt Parameter des synthetisierten Signals zu denjenigen des geschätzten Rauschens tendieren.
  • Weiter vorzugsweise wird die Spektralhülle des Rauschens der gültigen decodierten Proben geschätzt, und es wird ein synthetisiertes Signal erzeugt, das sich zu einem Signal entwickelt, das die gleiche Spektralhülle besitzt.
  • Die Erfindung schlägt ebenfalls ein Verfahren zur Verarbeitung von Tonsignalen vor, dadurch gekennzeichnet, dass eine Unterscheidung zwischen der Sprache und den Musik-Tönen angewendet wird, und dass, wenn Musik-Töne erfasst werden, ein Verfahren des erwähnten Typs ohne Schätzung eines Langzeitvorhersage-Operators angewendet wird, wobei das Anregungssignal auf eine nicht harmonische Komponente begrenzt ist, die zum Beispiel durch Erzeugung eines gleichmäßigen weißen Rauschens erhalten wird.
  • Die Erfindung betrifft außerdem eine Vorrichtung zur Übertragungsfehler-Verdeckung in einem digitalen Audiosignal, die am Eingang ein decodiertes Signal empfängt, das ihr ein Decodierer überträgt, und die fehlende oder fehlerhafte Proben in diesem decodierten Signal erzeugt, dadurch gekennzeichnet, dass sie Verarbeitungsmittel aufweist, die in der Lage sind, das erwähnte Verfahren anzuwenden.
  • Sie betrifft ebenfalls ein Übertragungssystem, das mindestens einen Codierer, mindestens einen Übertragungskanal, einen Modul, der erfassen kann, ob übertragene Daten verloren wurden oder stark fehlerhaft sind, mindestens einen Decodierer und eine Fehlerverdeckungsvorrichtung aufweist, die das decodierte Signal empfängt, dadurch gekennzeichnet, dass diese Fehlerverdeckungsvorrichtung eine Vorrichtung des erwähnten Typs ist.
  • 4. DARSTELLUNG DER FIGUREN
  • Weitere Merkmale und Vorteile der Erfindung gehen noch aus der nachfolgenden Beschreibung hervor, die rein veranschaulichend und nicht einschränkend ist, und die unter Bezug auf die beiliegenden Zeichnungen gelesen werden muss. Es zeigen:
  • 1 ein Funktionsschaltbild, das ein Übertragungssystem gemäß einer möglichen Ausführungsform der Erfindung veranschaulicht,
  • 2 und 3 Funktionsschaltbilder, die eine Anwendung gemäß einer möglichen Ausführungsform der Erfindung veranschaulichen,
  • die 4 bis 6 schematisch die Fenster, die mit dem Fehlerverdeckungsverfahren gemäß einer möglichen Anwendungsform der Erfindung verwendet werden,
  • die 7 und 8 schematische Darstellungen, die eine mögliche Anwendungsform der Erfindung im Fall von Musiksignalen veranschaulichen.
  • 5. BESCHREIBUNG EINER ODER MEHRERER MÖGLICHER AUSFÜHRUNGSFORMEN DER ERFINDUNG
  • 5.1 Prinzip einer möglichen Ausführungsform
  • 1 zeigt eine Codier- und Decodiervorrichtung des digitalen Audiosignals, mit einem Codierer 1, einem Übertragungskanal 2, einem Modul 3, der es ermöglicht festzustellen, dass übertragene Daten verloren wurden oder stark fehlerhaft sind, einem Decodierer 4, und mit einem Modul 5 zur Verdeckung der Fehler oder verlorenen Pakete gemäß einer möglichen Ausführungsform der Erfindung.
  • Man stellt fest, dass dieser Modul 5 außer der Anzeige von gelöschten Daten das decodierte Signal in gültiger Periode empfängt und an den Decodierer Signale überträgt, die für seine Aktualisierung verwendet werden.
  • Genauer beruht die vom Modul 5 verwendete Verarbeitung auf:
    • 1. der Speicherung der decodierten Proben, wenn die übertragenen Daten gültig sind (Verarbeitung 6);
    • 2. während eines Blocks von gelöschten Daten, der Synthese der Proben entsprechend den verlorenen Daten (Verarbeitung 7);
    • 3. wenn die Übertragung wiederhergestellt wird, dem Glätten zwischen den Syntheseproben, die während der gelöschten Periode erzeugt wurden, und den decodierten Proben (Verarbeitung 8);
    • 4. der Aktualisierung der Speicher des Decodierers (Verarbeitung 9) (Aktualisierung, die entweder während der Erzeugung der gelöschten Proben oder im Moment der Wiederherstellung der Übertragung durchgeführt wird).
  • 5.1.1. In gültiger Periode
  • Nach der Decodierung der gültigen Daten wird der Speicher der decodierten Proben aktualisiert, der eine ausreichende Anzahl von Proben für die Regenerierung der möglichen nachfolgend gelöschten Perioden enthält. Typischerweise werden in der Größenordnung von 20 bis 40 ms Signal gespeichert. Es wird ebenfalls die Energie der gültigen Rahmen berechnet, und es werden die Energien gespeichert, die den letzten verarbeiteten gültigen Rahmen entsprechen (typischerweise in der Größenordnung von 5 s).
  • 5.1.2 Während eines Blocks von gelöschten Daten
  • Es werden die folgenden Operationen durchgeführt, die durch 3 veranschaulicht werden:
  • 1. Schätzung der laufenden Spektralhülle:
  • Diese Spektralhülle wird in Form eines LPC-Filters berechnet [RABINER] [KLEIJN]. Die Analyse wird durch klassische Methoden ([KLEIJN]) nach Fensteraufteilung der in gültiger Periode gespeicherten Proben durchgeführt. Insbesondere wird eine LPC-Analyse angewendet (Schritt 10), um die Parameter eines Filters A(z) zu erhalten, dessen Kehrwert für die LPC-Filterung verwendet wird (Schritt 11). Da die so berechneten Koeffizienten nicht übertragen werden müssen, kann man für diese Analyse eine hohe Ordnung verwenden, was es ermöglicht, bei den Musiksignalen gute Leistungen zu erhalten.
  • 2. Erfassung der stimmhaften Töne und Berechnung der Parameter LTP:
  • Eine Methode der Erfassung der stimmhaften Töne (Verarbeitung 12 der 3: Erfassung V/NV, für "stimmhaft/nicht stimmhaft") wird an den letzten gespeicherten Daten verwendet. Zum Beispiel kann man hierzu die normalisierte Korrelation ([KLEIJN]) oder das im nachfolgenden Ausführungsbeispiel dargelegte Kriterium verwenden.
  • Wenn das Signal als stimmhaft erklärt wird, werden die Parameter berechnet, die die Erzeugung eines Langzeit-Synthesefilters erlauben, das auch LTP-Filter genannt wird ([KLEIJN]) (3: LTP-Analyse, durch B(Z) wird das berechnete inverse LTP-Filter definiert). Ein solches Filter wird allgemein durch eine Periode, die der Grundperiode entspricht, und eine Verstärkung dargestellt. Die Präzision dieses Filters kann durch die Verwendung eines partiellen Pitchs oder einer Mehrkoeffizientenstruktur [KROON] verbessert werden.
  • Wenn das Signal als nicht stimmhaft erklärt wird, wird dem LTP-Synthesefilter ein besonderer Wert zugeteilt (siehe Paragraph 4).
  • Es ist bei dieser Schätzung des LTP-Synthesefilters besonders interessant, die analysierte Zone auf das Ende der vor dem Löschen liegenden Periode zu beschränken. Die Länge des Analysefensters variiert zwischen einem minimalen Wert und einem mit der Grundperiode des Signals verbundenen Wert.
  • 3. Berechnung eines Restsignals
  • Man berechnet ein Restsignal durch inverse LPC-Filterung (Verarbeitung 10) der letzten gespeicherten Proben. Dieses Signal wird anschließend verwendet, um ein Anregungssignal des LPC-Synthesefilters 11 zu erzeugen (siehe unten).
  • 4. Synthese der fehlenden Proben:
  • Die Synthese der Ersatzproben erfolgt durch Einführen eines Anregungssignals (berechnet in 13 ausgehend von dem Signal am Ausgang des inversen LPC-Filters) in das LPC-Synthesefilter 11 (1/A(z)) berechnet in 1. Dieses Anregungssignal wird auf zwei verschiedene Weisen erzeugt, je nachdem, ob das Signal stimmhaft oder nicht stimmhaft ist:
  • 4.1 In der stimmhaften Zone
  • Das Anregungssignal ist die Summe von zwei Signalen, eine stark harmonische Komponente und die andere weniger harmonisch oder gar nicht.
  • Die stark harmonische Komponente wird durch LTP-Filterung (Verarbeitungsmodul 14) mit Hilfe der in 2 berechneten Parameter des in 3 erwähnten Restsignals erhalten.
  • Die zweite Komponente kann ebenfalls durch LTP-Filterung erhalten werden, aber nicht-periodisch gemacht durch Zufallsänderungen der Parameter, durch Erzeugung eines pseudozufälligen Signals.
  • Es ist besonders interessant, den Bandbereich der ersten Komponente auf die niederen Frequenzen des Spektrums zu begrenzen. Desgleichen ist es interessant, die zweite Komponente auf die höchsten Frequenzen zu begrenzen.
  • 4.2 In der nicht stimmhaften Zone
  • Wenn das Signal nicht stimmhaft ist, wird ein nicht harmonisches Anregungssignal erzeugt. Es ist interessant, eine Erzeugungsmethode ähnlich derjenigen zu verwenden, die für die stimmhaften Töne verwendet wird, mit Parameteränderungen (Periode, Verstärkung, Vorzeichen), die es ermöglichen, sie nicht harmonisch zu machen.
  • 4.3 Steuerung der Amplitude des Restsignals:
  • Wenn das Signal nicht stimmhaft oder schwach stimmhaft ist, wird das zur Erzeugung der Anregung verwendete Restsignal verarbeitet, um die Amplitudenspitzen zu entfernen, die sich deutlich über dem Mittelwert befinden.
  • 5. Steuerung der Energie des Synthesesignals
  • Die Energie des Synthesesignals wird mit Hilfe einer berechneten und Probe für Probe angepassten Verstärkung gesteuert. In dem Fall, in dem die Löschungsperiode relativ lang ist, ist es notwendig, die Energie des Synthesesignals progressiv zu senken. Das Anpassungsgesetz der Verstärkung wird in Abhängigkeit von verschiedenen Parametern berechnet: vor dem Löschen gespeicherte Energiewerte (siehe unter 1), Grundperiode, und lokale Stationarität des Signals im Moment der Unterbrechung.
  • Wenn das System einen Modul aufweist, der die Unterscheidung der stationären Töne (wie die Musik) und nicht stationären Töne (wie die Sprache) erlaubt, können auch andere Anpassungsgesetze verwendet werden.
  • Im Fall von Transformationscodierern mit Addition-Überlappung enthält die erste Hälfte des Speichers des letzten korrekt empfangenen Rahmens ziemlich genaue Informationen über die erste Hälfte des ersten verlorenen Rahmens (sein Gewicht in der Addition-Überlappung ist größer als dasjenige des aktuellen Rahmens). Diese Information kann auch für die Berechnung der adaptiven Verstärkung verwendet werden.
  • 6. Entwicklung der Syntheseprozedur im Lauf der Zeit:
  • Im Fall relativ langer Löschungsperioden kann man ebenfalls die Syntheseparameter sich entwickeln lassen. Wenn das System mit einer Vorrichtung zur Erfassung von Sprachaktivität mit Schätzung der Rauschparameter gekoppelt ist (wie [REC-G.723.1A], [SALAMI-2], [BENYASSINE]), ist es besonders interessant, die Erzeugungsparameter des zu rekonstruierenden Signals zu denjenigen des geschätzten Rauschens tendieren zu lassen: Insbesondere auf der Ebene der Spektralhülle (Interpolation des LPC-Filters mit demjenigen des geschätzten Rauschens, wobei die Koeffizienten der Interpolation sich im Lauf der Zeit bis zum Erhalt des Rauschfilters entwickeln) und der Energie (Niveau, das sich progressiv zu demjenigen des Rauschens entwickelt, zum Beispiel durch Fensteraufteilung).
  • 5.1.3 Bei der Wiederherstellung der Übertragung
  • Bei der Wiederherstellung der Übertragung ist es besonders wichtig, die abrupten Unterbrechungen zwischen der gelöschten Periode, die man gemäß den in den vorhergehenden Paragraphen definierten Techniken rekonstruiert hat, und den folgenden Perioden zu vermeiden, während denen man über jede übertragene Information verfügt, um das Signal zu decodieren. Die vorliegenden Erfindung führt eine Gewichtung im Zeitbereich mit Interpolation zwischen den Ersatzproben, die vor der Wiederherstellung der Kommunikation liegen, und den gültigen decodierten Proben durch, die auf die gelöschte Periode folgen. Diese Operation ist a priori unabhängig vom Typ des verwendeten Codierers.
  • Im Fall von Transformationscodierern mit Addition-Überlappung erfolgt diese Operation gemeinsam mit der Aktualisierung der Speicher, die im folgenden Paragraph beschrieben wird (siehe Ausführungsbeispiel).
  • 5.1.4 Aktualisierung der Speicher des Decodierers
  • Wenn die Decodierung der gültigen Proben nach einer gelöschten Periode wieder aufgenommen wird, kann es eine Verschlechterung geben, wenn der Decodierer Daten verwendet, die normalerweise während der vorhergehenden und gespeicherten Rahmen erzeugt wurden. Es ist wichtig, diese Speicher korrekt zu aktualisieren, um diese Artefakte zu vermeiden.
  • Dies ist besonders wichtig für die Codierungsstrukturen, die rekursive Verfahren verwenden, die sich für eine Probe oder eine Folge von Proben Informationen bedienen, die nach Decodierung der vorhergehenden Proben erhalten werden. Es sind zum Beispiel Vorhersagen ([KLEIJN]), die es erlauben, Redundanz aus dem Signal zu entnehmen. Diese Informationen sind normalerweise im Codierer, der hierzu für diese vorhergehenden Proben eine Art lokaler Decodierung durchgeführt haben muss, und im fernen Decodierer verfügbar, der empfangsseitig vorhanden ist. Sobald der Übertragungskanal gestört ist und der ferne Decodierer nicht mehr über die gleichen Informationen verfügt wie der sendeseitig vorhandene lokale Decodierer, gibt es einen Synchronisationsverlust zwischen dem Codierer und dem Decodierer. Im Fall von stark rekursiven Codiersystemen kann dieser Synchronisationsverlust hörbare Verschlechterungen hervorrufen, die lange Zeit andauern und sich sogar im Lauf der Zeit verstärken können, wenn es Instabilitäten in der Struktur gibt. In diesem Fall ist es also wichtig, sich zu bemühen, den Codierer und den Decodierer wieder zu synchronisieren, d. h. eine Schätzung der Speicher des Decodierers durchzuführen, die so nahe wie möglich denjenigen des Codierers ist. Die Resynchronisationstechniken hängen aber von der verwendeten Codierungsstruktur ab. Es wird eine davon vorgestellt, deren Prinzip im vorliegenden Patent allgemein ist, deren Komplexität aber potentiell groß ist.
  • Eine mögliche Methode besteht darin, in den Decodierer empfangsseitig einen Codiermodul von dem gleichen Typ einzufügen, wie er sendeseitig vorhanden ist, der es ermöglicht, die Codierung-Decodierung der Proben des Signals durchzuführen, das von den im vorhergehenden Paragraph erwähnten Techniken während der gelöschten Perioden erzeugt wurde. Auf diese Weise werden die Speicher, die notwendig sind, um die folgenden Proben zu decodieren, mit Daten vervollständigt, die a priori nahe (unter Vorbehalt einer gewissen Stationarität während der gelöschten Periode) denjenigen sind, die verloren gegangen sind. In dem Fall, in dem diese Hypothese der Stationarität nicht beachtet wird, zum Beispiel nach einer langen gelöschten Periode, verfügt man in jedem Fall nicht über ausreichende Informationen, um es besser zu machen.
  • Es ist nämlich allgemein nicht notwendig, die komplette Codierung dieser Proben durchzuführen, man beschränkt sich auf die zur Aktualisierung der Speicher notwendigen Module.
  • Diese Aktualisierung kann im Moment der Erzeugung der Ersatzproben erfolgen, was die Komplexität auf die ganze Löschungszone verteilt, sich aber mit der oben beschriebenen Syntheseprozedur kumuliert.
  • Wenn die Codierungsstruktur es erlaubt, kann man auch die obige Prozedur auf eine Zwischenzone zu Beginn der Periode von gültigen Daten beschranken, die auf eine gelöschte Periode folgt, wobei die Aktualisierungsprozedur sich dann mit der Decodieroperation kumuliert.
  • 5.2. Beschreibung von besonderen Ausführungsbeispielen
  • Nachfolgend werden mögliche besondere Anwendungsbeispiele angegeben. Der Fall der Transformationscodierer vom Typ TDAC oder TCDM ([MAHIEUX]) wird insbesondere angesprochen.
  • 5.2.1 Beschreibung der Vorrichtung
    • Digitales Transformationscodier-/decodiersystem vom Typ TDAC.
    • Codierer im Breitband (50–7000 Hz) mit 24 kb/s oder 32 kb/s.
    • Rahmen von 20 ms (320 Proben).
  • Fenster von 40 ms (640 Proben) mit Addition-Überlappung von 20 ms. Ein Bitrahmen enthält die codierten Parameter, die durch die Transformation TDAC in einem Fenster erhalten werden. Nach der Decodierung dieser Parameter erhält man durch Durchführung der inversen Transformation TDAC einen Ausgangsrahmen von 20 ms, der die Summe der zweiten Hälfte des vorhergehenden Fensters und der ersten Hälfte des aktuellen Fensters ist. In 4 wurden die zwei Fensterteile fett markiert, die für die Rekonstruktion des Rahmens n (zeitlich) verwendet werden. So stört ein verlorener Bitrahmen die Rekonstruktion von zwei aufeinanderfolgenden Rahmen (den aktuellen und den folgenden, 5). Wenn man dagegen den Ersatz der verlorenen Parameter korrekt durchführt, kann man die Teile der Information, die vom vorhergehenden und folgenden Bitrahmen stammen (6), für die Rekonstruktion dieser zwei Rahmen wiedergewinnen.
  • 5.2.2 Anwendung
  • Alle nachfolgend beschriebenen Operationen werden empfangsseitig gemäß den 1 und 2 entweder innerhalb des Verdeckungsmoduls der gelöschten Rahmen, der mit dem Decodierer kommuniziert, oder im Decodierer selbst angewendet (Aktualisierung der Speicher des Decodierers).
  • 5.2.2.1 In gültiger Periode
  • Entsprechend Paragraph 5.1.2 wird der Speicher der decodierten Proben aktualisiert. Dieser Speicher wird für die LPC- und LTP-Analysen des vergangenen Signals im Fall eines Löschens eines Bitrahmens verwendet. Im hier vorgestellten Beispiel wird die LPC-Analyse an einer Signalperiode von 20 ms (320 Proben) durchgeführt. Allgemein erfordert die LTP-Analyse mehr zu speichernde Proben. In unserem Beispiel, um die LTP-Analyse korrekt durchführen zu können, ist die Anzahl der gespeicherten Proben doppelt so groß wie der maximale Wert des Pitch. Wenn zum Beispiel der maximale Wert des Pitchs MaxPitch auf 320 Proben (50 Hz, 20 ms) festgelegt wird, werden die letzten 640 Proben gespeichert (40 ms des Signals). Man berechnet ebenfalls die Energie der gültigen Rahmen und speichert sie in einem Ringspeicher der Länge 5 s. Wenn ein gelöschter Rahmen erfasst wird, vergleicht man die Energie des letzten gültigen Rahmens mit dem Maximum und dem Minimum dieses Ringspeichers, um seine relative Energie zu kennen.
  • 5.2.2.2 Während eines Blocks von gelöschten Daten
  • Wenn ein Bitrahmen verloren gegangen ist, unterscheidet man zwei unterschiedliche Fälle:
  • 5.2.2.2.1 Erster verlorener Bitrahmen nach einer gültigen Periode
  • Zunächst wird eine Analyse des gespeicherten Signals durchgeführt, um die Parameter des Modells zu schätzen, das dazu dient, das regenerierte Signal zu synthetisieren. Dieses Modell erlaubt es anschließend, 40 ms Signal zu synthetisieren, was dem verlorenen Fenster von 40 ms entspricht. Indem die Transformation TDAC gefolgt von der inversen Transformation TDAC an diesem synthetisierten Signal durchgeführt wird (ohne Codierung/Decodierung der Parameter), erhält man das Ausgangssignal von 20 ms. Aufgrund dieser Operationen TDAC – inverse TDAC wertet man die Information aus, die vom vorhergehenden korrekt empfangenen Fenster kommt (siehe 6). Gleichzeitig werden die Speicher des Decodierers aktualisiert. So kann der folgende Bitrahmen, wenn er richtig empfangen wird, normal decodiert werden, und die decodierten Rahmen werden automatisch synchronisiert (6).
  • Die durchzuführenden Operationen sind die folgenden:
    • 1. Fensteraufteilung des gespeicherten Signals. Man kann zum Beispiel ein asymmetrisches Hamming-Fenster von 20 ms verwenden.
    • 2. Berechnung der Autokorrelationsfunktion am fensteraufgeteilten Signal.
    • 3. Bestimmung der Koeffizienten des LPC-Filters. Hierzu wird üblicherweise der iterative Levinson-Durbin-Algorithmus verwendet. Die Analyseordnung kann hoch sein, insbesondere, wenn der Codierer verwendet wird, um Musiksequenzen zu codieren.
    • 4. Erfassung der Stimmhaftigkeit und Langzeitanalyse des gespeicherten Signals für die Modellisierung der möglichen Periodizität des Signals (stimmhafte Töne). In der dargestellten Ausführung haben die Erfinder die Schätzung der Grundperiode Tp auf die ganzzahligen Werte beschränkt und eine Schätzung des Stimmhaftigkeitsgrads in Form des Korrelationskoeffizienten MaxCorr berechnet (siehe unten), der in der ausgewählten Periode ermittelt wird. Es sei Tm = max(T, Fs/200), wobei Fs die Tastfrequenz ist, also entsprechen Fs/200 Proben einer Dauer von 5 ms. Zur besseren Modellisierung der Entwicklung des Signals am Ende des vorhergehenden Rahmens werden die einer Verzögerung T entsprechenden Korrelationskoeffizienten Corr(T) berechnet, indem nur 2·Tm Proben am Ende des gespeicherten Signals verwendet werden:
      Figure 00220001
      wobei m0...mLmem-1 der Speicher des vorher decodierten Signals ist. Aus dieser Formel ersieht man, dass die Länge dieses Speichers Lmem mindestens doppelt so groß wie der maximale Wert der Grundperiode (auch "Pitch" genannt) MaxPitch sein muss.
  • Es wurde ebenfalls der minimale Wert der Grundperiode MinPitch entsprechend einer Frequenz von 600 Hz (26 Proben mit Fs = 16 kHz) festgelegt.
  • Es wird Corr(T) für T = 2
    Figure 00230001
    MaxPitch berechnet. Wenn T' die kleinste Verzögerung ist, derart, dass gilt Corr(T') < 0 (man unterdrückt so die sehr kurzfristigen Korrelationen), sucht man MaxCorr, Maximum von Corr(T) für T' < T <= MaxPitch. Es sei Tp die Periode entsprechend MaxCorr (Corr(Tp) = MaxCorr). Man sucht ebenfalls MaxCorrMP, Maximum von Corr(T) für T' < T <= 0.75·MinPitch. Wenn gilt Tp < MinPitch oder MaxCorrMP > 0.7·MaxCorr, und wenn die Energie des letzten gültigen Rahmens relativ schwach ist, wird bestimmt, dass der Rahmen nicht stimmhaft ist, da man bei Verwendung der Vorhersage LTP Gefahr laufen würde, eine sehr störende Resonanz in den hohen Frequenzen zu erhalten. Der gewählte Pitch ist Tp = MaxPitch/2, und der Korrelationskoeffizient MaxCorr auf einen schwachen Wert fixiert (0.25).
  • Man betrachtet ebenfalls den Rahmen als nicht-stimmhaft, wenn mehr als 80% seiner Energie sich in den letzten MinPitch-Proben konzentriert. Es handelt sich also um einen Beginn des Sprechens, aber die Anzahl von Proben ist nicht ausreichend, um die mögliche Grundperiode zu schätzen, es ist besser, ihn als einen nicht-stimmhaften Rahmen zu behandeln und sogar noch schneller die Energie des synthetisierten Signals zu verringern (um dies anzuzeigen, wird gesetzt DiminFlag = 1).
  • In dem Fall, in dem gilt MaxCorr > 0,6, wird überprüft, ob man nicht ein Vielfaches (4, 3 oder 2 Mal) der Grundperiode gefunden hat. Hierzu sucht man das lokale Maximum der Korrelation um Tp/4, Tp/3 und Tp/2 herum. Mit T1 sei die Position dieses Maximums bezeichnet, und MaxCorrL = Corr(T1). Wenn gilt T1 > MinPitch und MaxCorrL > 0.75·MaxCorr, wählt man T1 als neue Grundperiode.
  • Wenn T geringer ist als MaxPitch/2, kann man überprüfen, ob es sich wirklich um einen stimmhaften Rahmen handelt, indem man das lokale Maximum der Korrelation um 2·Tp(TPP) sucht und überprüft, ob gilt Corr{Tpp) > 0.4. Wenn gilt Corr{Tpp) < 0.4, und wenn die Energie des Signals abnimmt, setzt man DiminFlag = 1 und verringert den Wert von MaxCorr, sonst sucht man das folgende lokale Maximum zwischen dem aktuellen T und MaxPitch.
  • Ein anderes Stimmhaftigkeitskriterium besteht darin zu überprüfen, ob mindestens in 2/3 der Fälle das durch die Grundperiode verzögerte Signal das gleiche Vorzeichen hat wie das nicht verzögerte Signal.
  • Man überprüft dies über eine Länge gleich dem Maximum zwischen 5 ms und 2·Tp.
  • Man überprüft ebenfalls, ob die Energie des Signals die Tendenz hat, sich zu verringern oder nicht. Wenn ja, setzt man DiminFlag = 1 und lässt den Wert von MaxCorr in Abhängigkeit vom Verringerungsgrad abnehmen.
  • Die Stimmhaftigkeitsentscheidung berücksichtigt ebenfalls die Energie des Signals: Wenn die Energie stark ist, erhöht man den Wert von MaxCorr, so ist es wahrscheinlicher, dass der Rahmen als stimmhaft festgelegt wird. Wenn dagegen die Energie sehr schwach ist, verringert man den Wert von MaxCorr.
  • Schließlich trifft man die Stimmhaftigkeitsentscheidung in Abhängigkeit vom Wert von MaxCorr: Der Rahmen ist nicht stimmhaft, wenn und nur wenn gilt MaxCorr < 0.4. Die Grundperiode T eines nicht stimmhaften Rahmens ist begrenzt, sie muss geringer als oder gleich MaxPitch/2 sein.
    • 5. Berechnung des Restsignals durch inverse LPC-Filterung der letzten gespeicherten Proben. Dieses Restsignal wird in dem Speicher Restsem gespeichert.
    • 6. Entzerrung der Energie des Restsignals. Im Fall eines nicht stimmhaften oder schwach stimmhaften Signals (MaxCorr < 0.7) kann die Energie des in ResMem gespeicherten Restsignals sich abrupt von einem Teil zum anderen ändern. Die Wiederholung dieser Anregung führt zu einer sehr unangenehmen periodischen Störung im synthetisierten Signal. Um dies zu vermeiden, vergewissert man sich, dass keine große Amplitudenspitze in der Anregung eines schwach stimmhaften Rahmens auftritt. Da die Anregung ausgehend von den letzten Tp Proben des Restsignals konstruiert wird, verarbeitet man diesen Vektor von Tp Proben. Die in unserem Beispiel verwendete Methode ist die folgende:
    • – Man berechnet den Mittelwert MeanAmpl der Absolutwerte der letzten Tp Proben des Restsignals.
    • – Wenn der zu behandelnde Probenvektor n Nulldurchgänge aufweist, wird er in n + 1 Subvektoren unterteilt, das Vorzeichen des Signals in jedem Subvektor ist also unveränderlich.
    • – Man sucht die maximale Amplitude MaxAmplSv jedes Subvektors. Wenn gilt MaxAmplSv > 1.5·MeanAmpl, multipliziert man den Subvektor mit 1.5·MeanAmpl/MaxAmplsv.
    • 7. Bereitstellung des Anregungssignals einer Länge von 640 Proben entsprechend der Länge des Fensters TDAC. Man unterscheidet zwei Fälle gemäß der Stimmhaftigkeit:
      Figure 00250001
      Das Anregungssignal ist die Summe von zwei Signalen, eine stark harmonische Komponente im Band auf die niederen Frequenzen des Spektrums excb begrenzt, und eine andere, weniger harmonische, begrenzt auf die höheren Frequenzen exch.
  • Die stark harmonische Komponente wird durch LTP-Filterung der Ordnung 3 des Restsignals erhalten: Excb(i) = 0.15·exc(i – Tp – 1) + 0.7·exc(i – Tp) + 0.15·exc(i – Tp + 1)
  • Die Koeffizienten [0.15, 0.7, 0.15] entsprechen einem Tiefpassfilter FIR von 3 dB Dämpfung bei Fs/4.
  • Die zweite Komponente wird ebenfalls durch eine LTP-Filterung erhalten, die durch die Zufallsänderung ihrer Grundperiode Tph nicht-periodisch gemacht wird. Tph wird als der ganze Teil eines realen Zufallswerts Tpa gewählt. Der Anfangswert von Tpa ist gleich Tp, dann wird er Probe für Probe verändert, indem ein Zufallswert in [–0.5, 0.5) addiert wird. Außerdem wird diese LTP-Filterung mit einer IIR-Hochpassfilterung kombiniert: Exch(i) = –0.0635·(exc(i – Tph – 1) + exc(i – Tph + 1)) + 0.1182·exc(i – Tph) – 0.9926·exch(i – 1) – 0.7679·exch(i – 2)
  • Die stimmhafte Anregung ist dann die Summe dieser 2 Komponenten: Exc(i) = excb(i) + exch(i)
    • – Im Fall eines nicht stimmhaften Rahmens wird das Anregungssignal exc ebenfalls durch LTP-Filterung der Ordnung 3 mit den Koeffizienten [0.15, 0.7, 0.15] erhalten, aber es wird durch Erhöhung der Grundperiode um einen Wert gleich 1 alle 10 Proben und Umkehr des Vorzeichens mit einer Wahrscheinlichkeit von 0.2 nicht-periodisch gemacht.
    • 8. Synthese der Ersatzproben durch Einführen des Anregungssignals exc in das LPC-Filter, berechnet in 3.
    • 9. Steuerung des Niveaus der Energie des Synthesesignals. Die Energie tendiert progressiv zu einem vorab festgelegten Niveau ab dem ersten synthetisierten Ersatzrahmen. Dieses Niveau kann zum Beispiel als die Energie des schwächsten Ausgangsrahmens definiert werden, der während der 5 letzten Sekunden vor dem Löschen gefunden wird. Es wurden zwei Anpassungsgesetze der Verstärkung definiert, die in Abhängigkeit vom Flag DiminFlag gewählt werden, das in 4 berechnet wird. Die Verringerungsgeschwindigkeit der Energie hängt ebenfalls von der Grundperiode ab. Es gibt ein drittes, radikaleres Anpassungsgesetz, das verwendet wird, wenn man feststellt, dass der Anfang des erzeugten Signals dem ursprünglichen Signal nicht gut entspricht, wie später erläutert wird (siehe Punkt 11}.
    • 10. TDAC-Transformation am in 8 synthetisierten Signal, wie zu Beginn des Kapitels erklärt. Die erhaltenen TDAC-Koeffizienten ersetzen die verlorenen TDAC-Koeffizienten. Dann, indem die inverse TDAC-Transformation durchgeführt wird, erhält man den Ausgangsrahmen. Diese Operationen haben drei Ziele:
    • – Im Fall des ersten verlorenen Fensters wird auf diese Weise die Information des vorhergehenden korrekt empfangenen Fensters ausgewertet, das die Hälfte der Daten enthält, die notwendig sind, um den ersten gestörten Rahmen wiederherzustellen (6).
    • – Der Speicher des Decodierers wird für die Decodierung des folgenden Rahmens aktualisiert (Synchronisation des Codierer und des Decodierers, siehe Paragraph 5.1.4).
    • – Es wird automatisch der durchgehende Übergang (ohne Unterbrechung) des Ausgangssignals gewährleistet, wenn der erste korrekt empfangene Bitrahmen nach einer gelöschten Periode ankommt, die man gemäß den oben vorgestellten Techniken wiederhergestellt hat (siehe Paragraph 5.1.3).
    • 11. Die Technik der Addition-Überlappung ermöglicht es, zu überprüfen, ob das synthetisierte stimmhafte Signal dem Ursprungssignal entspricht oder nicht, da für die erste Hälfte des ersten verlorenen Rahmens das Gewicht des Speichers des letzten korrekt empfangenen Fensters größer ist (6). Indem man also die Korrelation zwischen der ersten Hälfte des ersten synthetisierten Rahmen und der ersten Hälfte des nach den Operationen TDAC
      Figure 00280001
      inverse TDAC nimmt, kann man die Gleichheit zwischen dem verlorenen Rahmen und dem Ersatzrahmen schätzen. Eine schwache Korrelation (< 0.65) zeigt an, dass das Ursprungssignal ziemlich unterschiedlich von demjenigen ist, das durch die Ersatzmethode erhalten wird, und es ist besser, die Energie dieses letzteren schnell auf das minimale Niveau zu verringern.
  • 5.2.2.2.2 Verlorene Rahmen nach dem ersten Rahmen einer gelöschten Zone
  • Im vorhergehenden Paragraph betreffen die Punkte 1–6 die Analyse des decodierten Signals, das vor dem ersten gelöschten Rahmen liegt, und die Konstruktion eines Synthesemodells (LPC und ggf. LTP) dieses Signals erlaubt. Für die folgenden gelöschten Rahmen wird die Analyse nicht wiederholt, der Ersatz des verlorenen Signals basiert auf den Parametern (Koeffizienten LPC, Pitch, MaxCorr, ResMem), die beim ersten gelöschten Rahmen berechnet wurden. Man führt also nur die Operationen entsprechend der Synthese des Signals und der Synchronisation des Decodierers mit den folgenden Veränderungen bezüglich des ersten gelöschten Rahmens durch:
    • – Im Synthese-Teil (Punkte 7 und 8) werden nur 320 neue Proben erzeugt, da das Fenster der TDAC-Transformation die letzten 320 Proben, die im vorhergehenden gelöschten Rahmen erzeugt wurden, und diese neuen 320 Proben abdeckt.
    • – In dem Fall, in dem die Löschperiode relativ lang ist, ist es wichtig, die Syntheseparameter sich zu den Parametern eines weißen Rauschens oder zu denjenigen des Hintergrundrauschens entwickeln zu lassen (siehe Punkt 5 im Paragraph 3.2.2.2). Da das in diesem Beispiel dargestellte System keine VAD/CNG aufweist, haben wir zum Beispiel die Möglichkeit, eine oder mehrere der folgenden Veränderungen durchzuführen:
    • – Progressive Interpolation des LPC-Filters mit einem flachen Filter, um das synthetisierte Signal weniger farbig zu machen.
    • – Progressive Erhöhung des Werts des Pitch.
    • – Im stimmhaften Modus wird nach einer bestimmten Zeit (zum Beispiel, wenn die minimale Energie erreicht ist) in den nicht-stimmhaften Modus umgeschaltet.
  • 5.3 Spezifische Verarbeitung für die Musiksignale
  • Wenn das System einen Modul aufweist, der die Unterscheidung Sprache/Musik erlaubt, kann man dann nach Auswahl eines Musik-Synthesemodus eine spezifische Verarbeitung der Musiksignale anwenden. In 7 wurde der Musiksynthesemodul mit 15, derjenige der Sprachsynthese mit 16 und der Sprache/Musik-Schalter mit 17 bezeichnet.
  • Eine solche Verarbeitung verwendet zum Beispiel für den Musiksynthesemodul die folgenden Schritte, die in 8 veranschaulicht sind:
  • 1. Schätzung der laufenden Spektralhülle:
  • Diese Spektralhülle wird in Form eines LPC-Filters berechnet [RABINER][KLEIJN]. Die Analyse wird durch klassische Methoden durchgeführt ([KLEIJN]). Nach Fensteraufteilung der in gültiger Periode gespeicherten Proben wird eine LPC-Analyse angewendet, um ein LPC-Filter A(Z) zu berechnen (Schritt 19). Für diese Analyse wird eine hohe Ordnung verwendet (> 100), um gute Leistungen bei den Musiksignalen zu erhalten.
  • 2. Synthese der fehlenden Proben:
  • Die Synthese der Ersatzproben erfolgt durch Einführen eines Anregungssignals in das LPC-Synthesefilter (1/A(z)), das im Schritt 19 berechnet wird. Dieses Anregungssignal – berechnet in einem Schritt 20 – ist ein weißes Rauschen, dessen Amplitude gewählt wird, um ein Signal zu erhalten, das die gleiche Energie wie diejenige der letzten in gültiger Periode gespeicherten N Proben hat. In 8 ist der Filterungsschritt mit 21 bezeichnet.
  • Beispiel der Steuerung der Amplitude des Restsignals:
  • Wenn die Anregung als ein gleichmäßiges weißes Rauschen multipliziert mit einer Verstärkung vorliegt, kann man diese Verstärkung G folgendermaßen berechnen:
  • Schätzung der Verstärkung des LPC-Filters:
  • Der Durbin-Algorithmus gibt die Energie des Restsignals an. Da ebenfalls die Energie des zu modellisierenden Signals bekannt ist, wird die Verstärkung GLPC des LPC- Filters als das Verhältnis dieser zwei Energien geschätzt.
  • Berechnung der Zielenergie:
  • Es wird die Zielenergie gleich der Energie der letzten in gültiger Periode gespeicherten N Proben geschätzt (N ist typischerweise < die Länge des für die LPC-Analyse verwendeten Signals).
  • Die Energie des synthetisierten Signals ist das Produkt der Energie des weißen Rauschens mit G2 und GLPC. Man wählt G so, dass diese Energie gleich der Zielenergie ist.
  • 3. Steuerung der Energie des Synthesesignals
  • Wie für die Sprachsignale, abgesehen davon, dass die Verringerungsgeschwindigkeit der Energie des Synthesesignals wesentlich langsamer ist und nicht von der Grundperiode (nicht vorhanden) abhängt:
    Die Energie des Synthesesignals wird mit Hilfe einer berechneten und Probe für Probe angepassten Verstärkung gesteuert. Wenn die Löschperiode relativ lang ist, ist es notwendig, progressiv die Energie des Synthesesignals abnehmen zu lassen. Das Anpassungsgesetz der Verstärkung kann in Abhängigkeit von verschiedenen Parametern, wie den vor dem Löschen gespeicherten Energiewerten, und der lokalen Stationarität des Signals im Moment der Unterbrechung berechnet werden.
  • 6. Entwicklung der Syntheseprozedur im Lauf der Zeit:
  • Wie für die Sprachsignale:
    Im Fall von relativ langen Löschperioden kann man ebenfalls die Syntheseparameter sich weiterentwickeln lassen. Wenn das System mit einer Vorrichtung zur Erfassung einer Sprachaktivität oder von Musiksignalen mit Schätzung der Rauschparameter gekoppelt ist (wie [REC-G.723.1A], [SALAMI-2], [BENYASSINE]), ist es besonders interessant, die Parameter der Erzeugung des zu rekonstruierenden Signals zu denjenigen des geschätzten Rauschens tendieren zu lassen: Insbesondere auf der Ebene der Spektralhülle (Interpolation des LPC-Filters mit demjenigen des geschätzten Rauschens, wobei die Koeffizienten der Interpolation sich im Lauf der Zeit bis zum Erhalt des Rauschfilters entwickeln) und der Energie (Niveau, das sich progressiv bis zu demjenigen des Rauschens entwickelt, zum Beispiel durch Fensteraufteilung).
  • 6. ALLGEMEINE ANMERKUNG
  • Wie man verstanden hat, hat die soeben beschriebene Technik den Vorteil, mit jeder Art von Codierer verwendet werden zu können; insbesondere ermöglicht sie es, die Probleme der verlorenen Bitpakete für die zeitlichen Codierer oder Transformationscodierer bei Sprach- und Musiksignalen mit guten Leistungen zu lösen: In der vorliegenden Technik sind nämlich nur die Signale, die während der Perioden gespeichert werden, in denen die übertragenen Daten gültig sind, die vom Decodierer stammenden Proben, eine Information, die unabhängig von der verwendeten Codierungsstruktur verfügbar ist.
  • 7. BIBLIOGRAPHISCHE REFERENZEN
    • [AT&T] AT&T (D.A. Kapilow, R.V. Cox) "A high quality low-complexity algorithm for frame erasure concealment (FEC) with G.711", Delayed Contribution D.249 (WP 3/16), ITU, may 1999.
    • [ATAL] B.S. Atal und M.R. Schroeder. "Predictive coding of speech signal and subjectives error criteria". IEEE Trans. on Acoustics, Speech and Signal Processing, 27: 247–254, Juni 1979.
    • [BENYASSINE] A. Benyassine, E. Shlomot und H.Y. Su. "ITU-T recommendation G.729 Annex B: "A silence compression scheme for use with G.729 optimized for V.70 digital simultaneous voice and data applications". IEEE Communication Magazine, September 97, PP. 56–63.
    • [BRANDENBURG] K.R. Brandenburg und M. Bossi. "Overview of MPEG audio: current and future standards for low-bit-rate audio coding". Journal of Audio Eng. Soc., Vol. 45-1/2, Januar/Februar 1997, PP. 4–21.
    • [CHEN] J.H. Chef, R.V. Cox, Y.C. Lin, N. Jayant und M.J. Melchner. "A low-delay CELP coder for the CCITT 16 kb/s speech coding standard" IEEE Journal on Selected Areas on Communications, Vol. 10–5, Juni 1992, PP. 830–849.
    • [CHEN-2] J.H. Chef, C.R. Watkins. "Linear prediction coefficient generation during frame erasure or packet loss". Patent US 5574825 , EP 0673018 .
    • [CHEN-3] J.H. Chef, C.R. Watkins. "Linear prediction coefficient generation during frame erasure or packet loss". Patent 884010.
    • [CHEN-4] J.H. Chef, C.R. Watkins. "Frame erasure or packet loss compensation method". Patent US 5550543 , EP 0707308 .
    • [CHEN-5] J.H. Chef. "Excitation signal synthesis during frame erasure or packet loss". Patent US 5615298 , EP 0673017 .
    • [CHEN-6] J.H. Chef. "Computational complexity reduction during frame erasure of packet loss". Patent US 5717822 .
    • [CHEN-7] J.H. Chef. "Computational complexity reduction during frame erasure or packet loss". Patent US 940212435 , EP 0673015 .
    • [COX] R.V. Cox. "Three new speech coders from the ITU cover a range of applications". IEEE Communication Magazine, September 97, PP. 40–47.
    • [COX-2] R.V. Cox. "An improved frame erasure concealment method for ITU-T Rec. G728". Delayed contribution D.107 (WP 3/16), ITU-T, Januar 1998.
    • [COMBESCURE] P. Combescure, J. Schnitzler, K. Ficher, R. Kirchherr, C. Lamblin, A. Le Guyader, D. Massaloux, C. Quinquis, J. Stegmann, P. Vary. "A 16,24,32 kbit/s Wideband Speech Codec Based on ATCELP". Proc. of ICASSP conference, 1998.
    • [DAUMER] W.R. Daumer, P. Mermelstein, X. Maître und I. Tokizawa. "Overview of the ADPCM coding algorithm". Proc. of GLOBECOM 1984, PP.23.1.1–23.1.4.
    • [ERDÖL] N. Erdöl, C. Castelluccia, A. Zilouchian "Recovery of Missing Speech Packets Using the Short-Time Energy and Zero-Crossing Measurements" IEEE Trans. on Speech and Audio Processing, Vol. 1–3, Juli 1993, PP. 295–303.
    • [FINGSCHEIDT] T. Fingscheidt, P. Vary, "Robust speech decoding: a universal approach to bit error concealment", Proc. of ICASSP conference, 1997, pp. 1667–1670.
    • [GOODMAN] D.J. Goodman, G.B. Lockhart, O.J. Wasem, W.C. Wong. "Waveform Substitution Techniques for Recovering Missing Speech Segments in Packet Voice Communications". IEEE Trans. on Acoustics, Speech and Signal Processing, Vol. ASSP-34, Dezember 1986, PP. 1440–1448.
    • [GSM-FR] Recommendation GSM 06.11. "Substitution and muting of lost frames for full rate speech traffic channels". ETSI/TC SMG, ver.: 3.0.1., Februar 1992.
    • [HARDWICK] J.C. Hardwick und J.S. Lim. "The application of the IMRE speech coder to mobile communications". Proc. of ICASSP conference, 1991, PP.249–252.
    • [HELLWIG] K. Hellwig, P. Vary, D. Massaloux, J.P. Petit, C. Galand und M. Rosso. "Speech codec for the European mobile radio system". GLOBECOM conference, 1989, PP. 1065–1069.
    • [HONKANEN] T. Honkanen, J. Vainio, P. Kapanen, P. Haavisto, R. Salami, C. Laflamme und J.P. Adoui "GSM enhanced full rate speech codec" Proc. Of ICASSP conference, 1997, PP. 771–774
    • [KROON] P. Kroon, B.S. Atal. "On the use of pitch predictors with high temporal resolution". IEEE Trans. on Signal Processing, Vol. 39–3, März 1991, PP. 733–735.
    • [KROON-2] P. Kroon, "Linear prediction coefficient generation during frame erasure or packet loss" Patent US 5450449 , EP 0673016 .
    • [MAHIEUX] Y. Mahieux, J.P. Petit. "High quality audio transform coding at 64 kbit/s". IEEE Trans. on Com., Vol. 42–11, Nov. 1994, PP. 3010–3019.
    • [MAHIEUX-2] Y. Mahieux, "Dissimulation erreurs de transmission", Patent 92 06720 eingereicht am 3. Juni 1992.
    • [MAITRE] X. Maitre. "7 kHz audio coding within 64 kbit/s" IEEE Journal on Selected Areas on Communications, Vol. 6–2, Februar 1988, PP. 283–298.
    • [PARIKH] V.N. Parikh, J.H. Chef, G. Aguilar. "Frame Erasure Concealment Using Sinusoidal Analysis-Synthesis and its Application to MDCT-Based Codecs". Proc. of ICASSP conference, 2000.
    • [PICTEL] PictureTel Corporation, "Detailed Description of the PTC (PictureTel Transform Coder), Contribution ITU-T, SG15/WP2/Q6, 8–9 Oktober 1996 Baltimore meeting, TD7.
    • [RABINER] L.R. Rabiner, R.W. Schafer. "Digital processing of speech signals". Bell Laboratories inc., 1978.
    • [REC G.723.1A] ITU-T Annex A to recommendation G.723.1 "Silence compression scheme for dual rate speech coder for multimedia communications transmitting at 5.3 & 6.3 kbit/s".
    • [SALAMI] R. Salami, C. Laflamme, J.P. Adoul, A. Kataoka, S. Hayashi, T. Moriya, C. Lamblin, D. Massaloux, S. Proust, P. Kroon und Y. Shoham. "Design and description of CS-ACELP: a toll quality 8 kb/s speech coder" IEEE Trans. on Speech and Audio processing, Vol. 6–2, März 1998, PP. 116–130.
    • [SALAMI-2] R. Salami, C. Laflamme, J.P. Adoui "ITU-T G.729 Annex A: Reduced complexity 8 kb/s CS-ACELP codec for digital simulataneous voice and data" IEEE Communication Magazine, September 97, PP. 56–63.
    • [TREMAIN] T.E. Tremain. "The government standard linear predictive coding algorithm: LPC 10". Speech technology, April 1982, PP. 40–49.
    • [WATKINS] C.R. Watkins, J.H. Chef. "Improving 16 kb/s G.728 LD-CELP Speech Coder for Frame Erasure Channels". Proc. of ICASSP conference, 1995, PP. 241–244.

Claims (18)

  1. Verfahren zur Verdeckung eines Übertragungsfehlers in einem digitalen Audiosignal, bei dem bei Erfassung (3) von fehlenden oder fehlerhaften Proben in einem Signal Syntheseproben (5) mit Hilfe mindestens eines Kurzzeitvorhersage-Operators und mindestens für die stimmhaften Töne eines Langzeitvorhersage-Operators, geschätzt in Abhängigkeit von decodierten Proben eines vergangenen decodierten Signals, erzeugt, wobei die decodierten Proben vorher gespeichert werden (6), wenn die übertragenen Daten des vergangenen Signals gültig sind, dadurch gekennzeichnet, dass die Energie des so erzeugten Synthesesignals mit Hilfe einer berechneten und angepassten Verstärkung Probe für Probe gemäß einem Anpassungsgesetz gesteuert wird, das von mindestens einem Parameter der decodierten gespeicherten Proben abhängt.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Verstärkung für die Steuerung des Synthesesignals in Abhängigkeit von mindestens einem der folgenden Parameter berechnet wird: vorher gespeicherte Energiewerte für die gültigen Daten entsprechenden Proben, Grundperiode für die stimmhaften Töne, oder jeder das Frequenzspektrum kennzeichnende Parameter.
  3. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die an das Synthesesignal angewendete Verstärkung progressiv in Abhängigkeit von der Dauer abnimmt, während der die Syntheseproben erzeugt werden.
  4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass in den gültigen Daten die stationären Töne und die nicht-stationären Töne unterschieden werden und dass Anpassungsgesetze der Verstärkung, die es ermöglichen, das Synthesesignal zu steuern, angewendet werden, die einerseits für die Proben, die nach stationären Tönen entsprechenden gültigen Daten erzeugt werden, und andererseits für die Proben, die nach nicht-stationären Tönen entsprechenden gültigen Daten erzeugt werden, unterschiedlich sind.
  5. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass in Abhängigkeit von den erzeugten Syntheseproben der Inhalt von Speichern aktualisiert wird, die für die Decodierungsverarbeitung verwendet werden.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass mindestens teilweise an die synthetisierten Proben ein Codierung analog zu derjenigen angewendet wird, die an den Emitter angewendet wird, gefolgt ggf. von einem mindestens teilweisen Decodierungsvorgang, wobei die erhaltenen Daten dazu dienen, die Speicher des Decodierers zu regenerieren.
  7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass der erste gelöschte Rahmen mittels dieses Codier-Decodier-Vorgangs regeneriert wird, indem der Inhalt der Speicher des Decodierers vor dem Abschalten ausgewertet wird, wenn die Speicher in diesem Vorgang auswertbare Informationen enthalten.
  8. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass am Eingang des Kurzzeitvorhersage-Operators ein Anregungssignal erzeugt wird, das in der stimmhaften Zone die Summe einer harmonischen Komponente und einer gering harmonischen oder nicht-harmonischen Komponente ist und in der nicht-stimmhaften Zone auf eine nicht-harmonische Komponente beschränkt ist.
  9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die harmonische Komponente durch Anwenden einer Filterung mittels des Langzeitvorhersage-Operators erhalten wird, die an ein Restsignal angewendet wird, das unter Anwendung einer umgekehrten Kurzzeit-Filterung an die gespeicherten Proben berechnet wird.
  10. Verfahren nach Anspruch 9, dadurch gekennzeichnet, dass die andere Komponente mit Hilfe eines Langzeitvorhersage-Operators bestimmt wird, an den pseudo-zufällige Störungen angelegt werden.
  11. Verfahren nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet, dass zur Erzeugung eines stimmhaften Anregungssignals die harmonische Komponente auf die niederen Frequenzen des Spektrums begrenzt ist, während die andere Komponente auf die hohen Frequenzen begrenzt ist.
  12. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Langzeitvorhersage-Operator ausgehend von den gültigen gespeicherten Rahmenproben bestimmt wird, mit einer Anzahl von für diese Schätzung verwendeten Proben, die zwischen einem minimalen Wert und einem Wert gleich mindestens der doppelten Grundperiode variiert, die für den stimmhaften Ton geschätzt wird.
  13. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Restsignal nicht-linear verarbeitet wird, um Amplitudenspitzen zu unterdrücken.
  14. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Stimmaktivität erfasst wird, indem Rauschparameter geschätzt werden und indem Parameter des synthetisierten Signals zu denjenigen des geschätzten Rauschens ausgeweitet werden.
  15. Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass die Spektralhülle des Rauschens der gültigen decodierten Proben geschätzt wird, und dass ein synthetisiertes Signal erzeugt wird, das sich zu einem Signal entwickelt, das die gleiche Spektralhülle besitzt.
  16. Verfahren zur Verarbeitung von Tonsignalen, dadurch gekennzeichnet, dass eine Unterscheidung zwischen den stimmhaften Tönen und den musikalischen Tönen angewendet wird, und dass, wenn musikalische Töne erfasst werden, ein Verfahren nach einem der vorhergehenden Ansprüche ohne Schätzung eines Langzeitvorhersage-Operators angewendet wird.
  17. Vorrichtung zur Übertragungsfehler-Verdeckung in einem digitalen Audiosignal, die am Eingang ein decodiertes Signal empfängt, das ihr ein Decodierer überträgt, und die fehlende oder fehlerhafte Proben in diesen decodierten Signal erzeugt, dadurch gekennzeichnet, dass sie Verarbeitungsmittel aufweist, die in der Lage sind, das Verfahren nach einem der vorhergehenden Ansprüche anzuwenden.
  18. Übertragungssystem, das mindestens einen Codierer, mindestens einen Übertragungskanal, ein Modul, das erfassen kann, ob übertragene Daten verloren wurden oder stark fehlerhaft sind, mindestens einen Decodierer und eine Fehlerverdeckungsvorrichtung aufweist, die das decodierte Signal empfängt, dadurch gekennzeichnet, dass diese Fehlerverdeckungsvorrichtung eine Vorrichtung gemäß Anspruch 17 ist.
DE60132217T 2000-09-05 2001-09-05 Übertragungsfehler-verdeckung in einem audiosignal Expired - Lifetime DE60132217T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0011285 2000-09-05
FR0011285A FR2813722B1 (fr) 2000-09-05 2000-09-05 Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
PCT/FR2001/002747 WO2002021515A1 (fr) 2000-09-05 2001-09-05 Dissimulation d'erreurs de transmission dans un signal audio

Publications (2)

Publication Number Publication Date
DE60132217D1 DE60132217D1 (de) 2008-02-14
DE60132217T2 true DE60132217T2 (de) 2009-01-29

Family

ID=8853973

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60132217T Expired - Lifetime DE60132217T2 (de) 2000-09-05 2001-09-05 Übertragungsfehler-verdeckung in einem audiosignal

Country Status (11)

Country Link
US (2) US7596489B2 (de)
EP (1) EP1316087B1 (de)
JP (1) JP5062937B2 (de)
AT (1) ATE382932T1 (de)
AU (1) AU2001289991A1 (de)
DE (1) DE60132217T2 (de)
ES (1) ES2298261T3 (de)
FR (1) FR2813722B1 (de)
HK (1) HK1055346A1 (de)
IL (2) IL154728A0 (de)
WO (1) WO2002021515A1 (de)

Families Citing this family (71)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030163304A1 (en) * 2002-02-28 2003-08-28 Fisseha Mekuria Error concealment for voice transmission system
FR2849727B1 (fr) * 2003-01-08 2005-03-18 France Telecom Procede de codage et de decodage audio a debit variable
EP1589330B1 (de) 2003-01-30 2009-04-22 Fujitsu Limited EINRICHTUNG UND VERFAHREN ZUM VERBERGEN DES VERSCHWINDENS VON AUDIOPAKETEN, EMPFANGSENDGERûT UND AUDIOKOMMUNIKAITONSSYSTEM
US7835916B2 (en) * 2003-12-19 2010-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Channel signal concealment in multi-channel audio systems
KR100587953B1 (ko) * 2003-12-26 2006-06-08 한국전자통신연구원 대역-분할 광대역 음성 코덱에서의 고대역 오류 은닉 장치 및 그를 이용한 비트스트림 복호화 시스템
JP4761506B2 (ja) * 2005-03-01 2011-08-31 国立大学法人北陸先端科学技術大学院大学 音声処理方法と装置及びプログラム並びに音声システム
DE502006004136D1 (de) * 2005-04-28 2009-08-13 Siemens Ag Verfahren und vorrichtung zur geräuschunterdrückung
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
US8620644B2 (en) * 2005-10-26 2013-12-31 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding
US7805297B2 (en) 2005-11-23 2010-09-28 Broadcom Corporation Classification-based frame loss concealment for audio signals
US8417185B2 (en) 2005-12-16 2013-04-09 Vocollect, Inc. Wireless headset and method for robust voice data communication
WO2007077841A1 (ja) * 2005-12-27 2007-07-12 Matsushita Electric Industrial Co., Ltd. 音声復号装置および音声復号方法
US7773767B2 (en) 2006-02-06 2010-08-10 Vocollect, Inc. Headset terminal with rear stability strap
US7885419B2 (en) * 2006-02-06 2011-02-08 Vocollect, Inc. Headset terminal with speech functionality
JP4678440B2 (ja) * 2006-07-27 2011-04-27 日本電気株式会社 音声データ復号装置
US8015000B2 (en) * 2006-08-03 2011-09-06 Broadcom Corporation Classification-based frame loss concealment for audio signals
US8417520B2 (en) 2006-10-20 2013-04-09 France Telecom Attenuation of overvoicing, in particular for the generation of an excitation at a decoder when data is missing
EP1921608A1 (de) * 2006-11-13 2008-05-14 Electronics And Telecommunications Research Institute Verfahren für die Einfügung von Vektorinformationen zum Schätzen von Sprachdaten in der Phase der Neusynchronisierung von Schlüsseln, Verfahren zum Übertragen von Vektorinformationen und Verfahren zum Schätzen der Sprachdaten bei der Neusynchronisierung von Schlüsseln unter Verwendung der Vektorinformationen
KR100862662B1 (ko) 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
JP4504389B2 (ja) * 2007-02-22 2010-07-14 富士通株式会社 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
WO2008108080A1 (ja) * 2007-03-02 2008-09-12 Panasonic Corporation 音声符号化装置及び音声復号装置
US7853450B2 (en) * 2007-03-30 2010-12-14 Alcatel-Lucent Usa Inc. Digital voice enhancement
US20080249767A1 (en) * 2007-04-05 2008-10-09 Ali Erdem Ertan Method and system for reducing frame erasure related error propagation in predictive speech parameter coding
EP2112653A4 (de) * 2007-05-24 2013-09-11 Panasonic Corp Audiodekodierungsvorrichtung, audiodekodierungsverfahren, programm und integrierter schaltkreis
KR100906766B1 (ko) * 2007-06-18 2009-07-09 한국전자통신연구원 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법
WO2009047461A1 (fr) * 2007-09-21 2009-04-16 France Telecom Dissimulation d'erreur de transmission dans un signal numerique avec repartition de la complexite
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
CN101588341B (zh) * 2008-05-22 2012-07-04 华为技术有限公司 一种丢帧隐藏的方法及装置
KR20090122143A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
USD605629S1 (en) 2008-09-29 2009-12-08 Vocollect, Inc. Headset
JP2010164859A (ja) * 2009-01-16 2010-07-29 Sony Corp オーディオ再生装置、情報再生システム、オーディオ再生方法、およびプログラム
CN101609677B (zh) * 2009-03-13 2012-01-04 华为技术有限公司 一种预处理方法、装置及编码设备
US8160287B2 (en) 2009-05-22 2012-04-17 Vocollect, Inc. Headset with adjustable headband
US8438659B2 (en) 2009-11-05 2013-05-07 Vocollect, Inc. Portable computing device and headset interface
WO2011074233A1 (ja) * 2009-12-14 2011-06-23 パナソニック株式会社 ベクトル量子化装置、音声符号化装置、ベクトル量子化方法、及び音声符号化方法
WO2012110478A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Information signal representation using lapped transform
PT2676267T (pt) 2011-02-14 2017-09-26 Fraunhofer Ges Forschung Codificação e descodificação de posições de pulso de faixas de um sinal de áudio
BR112013020587B1 (pt) 2011-02-14 2021-03-09 Fraunhofer-Gesellschaft Zur Forderung De Angewandten Forschung E.V. esquema de codificação com base em previsão linear utilizando modelagem de ruído de domínio espectral
EP2676270B1 (de) 2011-02-14 2017-02-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodierung eines teils eines audiosignals anhand einer transientendetektion und eines qualitätsergebnisses
KR101551046B1 (ko) * 2011-02-14 2015-09-07 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법
WO2012110415A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for processing a decoded audio signal in a spectral domain
US8849663B2 (en) * 2011-03-21 2014-09-30 The Intellisis Corporation Systems and methods for segmenting and/or classifying an audio signal from transformed audio information
US8767978B2 (en) 2011-03-25 2014-07-01 The Intellisis Corporation System and method for processing sound signals implementing a spectral motion transform
US9026434B2 (en) * 2011-04-11 2015-05-05 Samsung Electronic Co., Ltd. Frame erasure concealment for a multi rate speech and audio codec
US9183850B2 (en) 2011-08-08 2015-11-10 The Intellisis Corporation System and method for tracking sound pitch across an audio signal
US8548803B2 (en) 2011-08-08 2013-10-01 The Intellisis Corporation System and method of processing a sound signal including transforming the sound signal into a frequency-chirp domain
US8620646B2 (en) 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
EP2770503B1 (de) 2011-10-21 2019-05-29 Samsung Electronics Co., Ltd. Verfahren und vorrichtung zum verbergen von frame-fehlern und verfahren und vorrichtung zur audiodekodierung
TWI591620B (zh) * 2012-03-21 2017-07-11 三星電子股份有限公司 產生高頻雜訊的方法
US9123328B2 (en) * 2012-09-26 2015-09-01 Google Technology Holdings LLC Apparatus and method for audio frame loss recovery
EP2926339A4 (de) * 2012-11-27 2016-08-03 Nokia Technologies Oy Gemeinsam genutzte audioszenenvorrichtung
US9437203B2 (en) * 2013-03-07 2016-09-06 QoSound, Inc. Error concealment for speech decoder
FR3004876A1 (fr) * 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
FR3011408A1 (fr) * 2013-09-30 2015-04-03 Orange Re-echantillonnage d'un signal audio pour un codage/decodage a bas retard
PL3285256T3 (pl) 2013-10-31 2020-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder audio i sposób dostarczania zdekodowanej informacji audio z wykorzystaniem ukrywania błędów na bazie sygnału pobudzenia w dziedzinie czasu
SG10201609146YA (en) 2013-10-31 2016-12-29 Fraunhofer Ges Forschung Audio Decoder And Method For Providing A Decoded Audio Information Using An Error Concealment Modifying A Time Domain Excitation Signal
US9437211B1 (en) * 2013-11-18 2016-09-06 QoSound, Inc. Adaptive delay for enhanced speech processing
EP2922056A1 (de) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und zugehöriges Computerprogramm zur Erzeugung eines Fehlerverschleierungssignals unter Verwendung von Leistungskompensation
EP2922055A1 (de) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und zugehöriges Computerprogramm zur Erzeugung eines Fehlerverschleierungssignals mit einzelnen Ersatz-LPC-Repräsentationen für individuelle Codebuchinformationen
EP2922054A1 (de) * 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung, Verfahren und zugehöriges Computerprogramm zur Erzeugung eines Fehlerverschleierungssignals unter Verwendung einer adaptiven Rauschschätzung
TWI602172B (zh) * 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
US10424305B2 (en) * 2014-12-09 2019-09-24 Dolby International Ab MDCT-domain error concealment
US9870785B2 (en) 2015-02-06 2018-01-16 Knuedge Incorporated Determining features of harmonic signals
US9922668B2 (en) 2015-02-06 2018-03-20 Knuedge Incorporated Estimating fractional chirp rate with multiple frequency representations
US9842611B2 (en) 2015-02-06 2017-12-12 Knuedge Incorporated Estimating pitch using peak-to-peak distances
ES2874629T3 (es) * 2016-03-07 2021-11-05 Fraunhofer Ges Forschung Unidad de ocultación de error, decodificador de audio y método y programa informático relacionados que desvanecen una trama de audio ocultada según factores de amortiguamiento diferentes para bandas de frecuencia diferentes
RU2712093C1 (ru) * 2016-03-07 2020-01-24 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Блок маскирования ошибок, аудиодекодер и соответствующие способ и компьютерная программа, использующие характеристики декодированного представления надлежащим образом декодированного аудиокадра
EP3553777B1 (de) * 2018-04-09 2022-07-20 Dolby Laboratories Licensing Corporation Verdecken von paketverlusten mit niedriger komplexität für transcodierte audiosignale
US10763885B2 (en) 2018-11-06 2020-09-01 Stmicroelectronics S.R.L. Method of error concealment, and associated device
CN111063362B (zh) * 2019-12-11 2022-03-22 中国电子科技集团公司第三十研究所 一种数字语音通信噪音消除和语音恢复方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2746033B2 (ja) * 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
CA2142391C (en) * 1994-03-14 2001-05-29 Juin-Hwey Chen Computational complexity reduction during frame erasure or packet loss
US5574825A (en) * 1994-03-14 1996-11-12 Lucent Technologies Inc. Linear prediction coefficient generation during frame erasure or packet loss
US5699485A (en) * 1995-06-07 1997-12-16 Lucent Technologies Inc. Pitch delay modification during frame erasures
US5732389A (en) * 1995-06-07 1998-03-24 Lucent Technologies Inc. Voiced/unvoiced classification of speech for excitation codebook selection in celp speech decoding during frame erasures
CA2177413A1 (en) * 1995-06-07 1996-12-08 Yair Shoham Codebook gain attenuation during frame erasures
EP1426925B1 (de) * 1997-12-24 2006-08-02 Mitsubishi Denki Kabushiki Kaisha Audio Dekodierverfahren und -vorrichtung
FR2774827B1 (fr) * 1998-02-06 2000-04-14 France Telecom Procede de decodage d'un flux binaire representatif d'un signal audio
US6449590B1 (en) * 1998-08-24 2002-09-10 Conexant Systems, Inc. Speech encoder using warping in long term preprocessing
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6556966B1 (en) * 1998-08-24 2003-04-29 Conexant Systems, Inc. Codebook structure for changeable pulse multimode speech coding
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
JP3365360B2 (ja) * 1999-07-28 2003-01-08 日本電気株式会社 音声信号復号方法および音声信号符号化復号方法とその装置
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform

Also Published As

Publication number Publication date
AU2001289991A1 (en) 2002-03-22
IL154728A0 (en) 2003-10-31
ES2298261T3 (es) 2008-05-16
US7596489B2 (en) 2009-09-29
US20040010407A1 (en) 2004-01-15
JP5062937B2 (ja) 2012-10-31
FR2813722A1 (fr) 2002-03-08
EP1316087A1 (de) 2003-06-04
JP2004508597A (ja) 2004-03-18
IL154728A (en) 2008-07-08
HK1055346A1 (en) 2004-01-02
ATE382932T1 (de) 2008-01-15
FR2813722B1 (fr) 2003-01-24
US8239192B2 (en) 2012-08-07
EP1316087B1 (de) 2008-01-02
US20100070271A1 (en) 2010-03-18
DE60132217D1 (de) 2008-02-14
WO2002021515A1 (fr) 2002-03-14

Similar Documents

Publication Publication Date Title
DE60132217T2 (de) Übertragungsfehler-verdeckung in einem audiosignal
DE69926821T2 (de) Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
DE60220485T2 (de) Verfahren und Vorrichtung zur Verschleierung von Rahmenausfall von prädiktionskodierter Sprache unter Verwendung von Extrapolation der Wellenform
CN101627423B (zh) 有音调周期的校正的数字音频信号丢失块的合成
DE60117144T2 (de) Sprachübertragungssystem und verfahren zur behandlung verlorener datenrahmen
RU2419891C2 (ru) Способ и устройство эффективной маскировки стирания кадров в речевых кодеках
AU755258B2 (en) Improved lost frame recovery techniques for parametric, LPC-based speech coding systems
KR100736817B1 (ko) 패킷 손실 또는 프레임 삭제 은폐를 실행하는 방법 및 장치
DE60219351T2 (de) Signaländerungsverfahren zur effizienten kodierung von sprachsignalen
EP1141946B1 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
EP2037450B1 (de) Verfahren und Vorrichtung zur Durchführung von Rahmenlöschungsverdeckung bei einem Signal mit höherer Frequenz
EP1509903B1 (de) Verfahren und vorrichtung zur wirksamen verschleierung von rahmenfehlern in linear prädiktiven sprachkodierern
DE69911169T2 (de) Verfahren zur dekodierung eines audiosignals mit korrektur von übertragungsfehlern
JP2004512561A (ja) 符号化音響信号の復号に関するエラー隠匿
US6826527B1 (en) Concealment of frame erasures and method
DE60224142T2 (de) Verfahren und Vorrichtung zur Wellenformdämpfung von fehlerbehafteten Sprachrahmen
KR20090090312A (ko) 정보의 부재 시에 디코더측에서의 여기를 생성하기 위한 과유성음화의 감쇄
De Martin et al. Improved frame erasure concealment for CELP-based coders
JPH09120297A (ja) フレーム消失の間のコードブック利得減衰
JP5604572B2 (ja) 複雑さ分散によるデジタル信号の転送誤り偽装
VonColln et al. San Diego, CA 92152–5001

Legal Events

Date Code Title Description
8364 No opposition during term of opposition