DE60116809T2 - Vorrichtung zum Transkodieren eines Audiodatenstroms - Google Patents

Vorrichtung zum Transkodieren eines Audiodatenstroms Download PDF

Info

Publication number
DE60116809T2
DE60116809T2 DE60116809T DE60116809T DE60116809T2 DE 60116809 T2 DE60116809 T2 DE 60116809T2 DE 60116809 T DE60116809 T DE 60116809T DE 60116809 T DE60116809 T DE 60116809T DE 60116809 T2 DE60116809 T2 DE 60116809T2
Authority
DE
Germany
Prior art keywords
quantization
signal
decoding
section
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60116809T
Other languages
English (en)
Other versions
DE60116809D1 (de
Inventor
c/o NEC Corporation Yuichiro Takamizawa
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Application granted granted Critical
Publication of DE60116809D1 publication Critical patent/DE60116809D1/de
Publication of DE60116809T2 publication Critical patent/DE60116809T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Analogue/Digital Conversion (AREA)

Description

  • HINTERGRUND DER ERFINDUNG
  • Gebiet der Erfindung
  • Die vorliegende Erfindung bezieht sich auf eine Umsetzungsvorrichtung für das Format eines codierten Sprachsignals und insbesondere auf eine Umsetzungsvorrichtung für das Format eines codierten Sprachsignals, die ein Format eines durch Kompression oder dergleichen codierten Sprachsignals zwischen zwei verschiedenen Sprachcodierungs-/Sprachdecodierungssystemen umsetzt.
  • Die vorliegende Anmeldung beansprucht die Priorität der japanischen Patentanmeldung Nr. 2000-052037, eingereicht am 28. Februar 2000.
  • Beschreibung des verwandten Gebiets
  • Während die Kommunikationstechnologie in den letzten Jahren fortschreitet, werden Sprachsignale allgemein auf codierte Weise unter Verwendung eines Kompressionsverfahrens oder dergleichen behandelt, was eine Umsetzungsvorrichtung für das Format eines codierten Sprachsignals erfordert, die ein Signalformat der durch das Kompressionsverfahren oder dergleichen codierten Sprachsignale umsetzt. Wenn das Format des codierten Sprachsignals unter Verwendung dieser Umsetzungsvorrichtung für das Format eines codierten Sprachsignals umgesetzt wird, ist es erwünscht, dass die Umsetzung des Signalformats durch Berechnungen in verringerten Mengen erfolgen kann. Darüber hinaus wird die Technologie für das Umsetzen von Signalformaten dieser Art nicht nur auf Sprachsignale, sondern auch auf Bildsignale angewendet.
  • Ein Beispiel einer herkömmlichen Umsetzungsvorrichtung für das Format eines codierten Signals, die so beschaffen ist, dass sie ein Format eines durch ein Kompressionsverfahren oder dergleichen codierten Bildsignals durch Berechnungen in verringerten Mengen umsetzt, ist z. B. in der offen gelegten japanischen Patentanmeldung Nr. Hei 10-336672 offenbart. Die herkömmliche Umsetzungsvorrichtung für das Format eines codierten Signals, wie sie in 6 gezeigt ist, besteht aus einem Decodierungsabschnitt 51, aus einem Bewegungsvektorspeicher 52, aus einem Auflösungsumsetzungsabschnitt 53 und aus einem Codierungsabschnitt 54 mit einem Bewegungskompensationsabschnitt 55 und einem Codie rungsverarbeitungsabschnitt 56.
  • In den oben beschriebenen Konfigurationen wird ein codiertes Bewegtbild (Bildsignal), das aus einem MPEG-2-Videoeingangssignal (Motion Picture Experts Group 2-Videoeingangssignal) über einen Eingangsanschluss 61 besteht, durch den Decodierungsabschnitt 51 in sein ursprüngliches Bewegbild decodiert und gleichzeitig ein Bewegungsvektor, der zur Zeit der Codierung vorhanden war und in den jeweiligen codierten Daten enthalten ist, in dem Bewegungsvektorspeicher 52 gespeichert. Das decodierte Bewegbild wird in den Auflösungsumsetzungsabschnitt 53 eingegeben und, nachdem es so bemessen worden ist, dass es durch ein Verfahren behandelt werden kann, in dem das eingegebene Bewegbild durch den Auflösungsumsetzungsabschnitt 53 umcodiert wird, weiter in den Codierungsabschnitt 54 eingegeben. In dem Codierungsabschnitt 54 wird das Bewegbild anhand des durch den Bewegungskompensationsabschnitt 55 erfassten Bewegungsvektors aus dem Bewegungsvektorspeicher 52 umcodiert und daraufhin über einen Ausgangsanschluss 62 an äußere Kommunikationsvorrichtungen oder dergleichen ausgegeben.
  • Allerdings hat die in der obigen offen gelegten japanischen Patentanmeldung Nr. Hei 10-336672 offenbarte herkömmliche Umsetzungsvorrichtung für das Format eines codierten Signals ein Problem dahingehend, dass diese Vorrichtung, da sie für die Umsetzung des Formats von Bildsignalen vorgesehen ist, die aus Bewegbildern bestehen, nicht auf Sprachsignale angewendet werden kann, die keine Informationen über Bewegungsvektoren enthalten. Somit wird stark erwartet, dass eine Umsetzungsvorrichtung für das Format eines codierten Sprachsignals realisiert wird, die ein Format eines Sprachsignals durch Berechnungen in verringerten Mengen umsetzen kann.
  • In der herkömmlichen Umsetzungsvorrichtung für das Format eines codierten Sprachsignals ist allgemein eine Decodierungsvorrichtung mit einer Codierungsvorrichtung in Reihe geschaltet. Wenn z. B. ein Format eines codierten Sprachsignals, das durch eine Codierungsvorrichtung komprimiert worden ist, die in Übereinstimmung mit einem ersten Codierungs-/Decodierungssystem (Sprachcodierungs-/Sprachdecodierungssystem) arbeitet, in ein Format umgesetzt wird, das durch eine Decodierungsvorrichtung decodiert werden kann, die in Übereinstimmung mit einem zweiten Codierungs-/Decodierungssystem (Sprachcodierungs/Sprachdecodierungssystem) arbeitet, wird zunächst ein codiertes Sprach signal, dessen Format nicht umgesetzt worden ist, durch die Decodierungsvorrichtung, die in Übereinstimmung mit dem ersten Codierungs-/Decodierungssystem arbeitet, decodiert und ein Sprachsignal erhalten. Daraufhin wird das erhaltene Sprachsignal unter Verwendung der Codierungsvorrichtung, die in Übereinstimmung mit dem zweiten Codierungs-/Decodierungssystem arbeitet, codiert und ein codiertes Sprachsignal erhalten, das durch die Decodierungsvorrichtung, die in Übereinstimmung mit dem zweiten Codierungs-/Decodierungssystem arbeitet, decodiert werden kann. Als die Decodierungsvorrichtung und als die Codierungsvorrichtung, die die herkömmliche Umsetzungsvorrichtung für das Format eines codierten Sprachsignals bilden, können im Allgemeinen vorhandene, verfügbare Decodierungs- und Codierungsvorrichtungen verwendet werden.
  • Das obige erste Codierungs-/Decodierungssystem ist so beschaffen, dass es z. B. in Übereinstimmung mit irgendeinem der folgenden Systeme arbeitet: MPEG-Audiosystem, MPEG-2AAC-System und Dolby-AC-3-System. Das obige zweite Codierungs-/Decodierungssystem ist ebenfalls so beschaffen, dass es in Übereinstimmung mit irgendeinem der folgenden Systeme arbeitet: MPEG-Audiosystem, MPEG-2AAC-System und Dolby-AC-3-System, wobei aber, obgleich sowohl das erste als auch das zweite Codierungs-/Decodierungsverfahren in Übereinstimmung mit irgendeinem dieser drei Systeme betrieben werden, die Konfigurationen des ersten Codierungs-/Decodierungssystems verschieden von jenen des zweiten Codierungs-/Decodierungssystems sind.
  • Das MPEG-Audiosystem ist z. B. ausführlich beschrieben in "ISO/IEC/11172-3, Coding of Moving Pictures and Associated Audio for Digital Storage Media at up to about 1.5 Mb/s" (im Folgenden als "Literaturhinweis 1" bezeichnet). Das MPEG-2AAC-System ist z. B. ausführlich beschrieben in "ISO/IEC/13818-7, Generic Coding of Moving Pictures and Associated Audio Information, 1993" (im Folgenden als "Literaturhinweis 2" bezeichnet). Das Dolby-AC-3-System ist z. B. ausführlich beschrieben in "Advanced Television Systems Committee A152, Digital Audio Compression Standard (AC-3), 1995 (im Folgenden als "Literaturhinweis 3" bezeichnet).
  • Anhand von 5 werden nachfolgend Konfigurationen einer herkömmlichen Umsetzungsvorrichtung für das Format eines codierten Sprachsignals beschrieben. Wie in 5 gezeigt ist, ist in der herkömmlichen Umsetzungsvorrichtung für das Format eines codierten Sprachsignals eine erste Decodierungsvorrichtung 310, die so beschaffen ist, dass sie in Übereinstimmung mit einem ersten Codierungs/Decodierungssystem arbeitet, mit einer zweiten Codierungsvorrichtung 320, die so beschaffen ist, dass sie in Übereinstimmung mit einem zweiten Codierungs/Decodierungssystem arbeitet, in Reihe geschaltet. Ein Sprachsignal, das im Voraus mit dem ersten Codierungs-/Decodierungssystem decodiert worden ist, wird, nachdem es durch die erste Decodierungsvorrichtung 310 decodiert worden ist, durch die zweite Codierungsvorrichtung 320 codiert, wobei es durch eine Decodierungsvorrichtung decodiert werden kann, die so beschaffen ist, dass sie in Übereinstimmung mit dem zweiten Codierungs-/Decodierungsverfahren arbeitet.
  • Die erste Decodierungsvorrichtung 310 enthält einen Erzeugungsabschnitt 311 für ein abgebildetes Signal, einen inversen Abbildungsumsetzungsabschnitt 312 und einen Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 313. Selbst wenn durch die erste Decodierungsvorrichtung 310 irgendeines der folgenden Systeme genutzt wird: MPEG-Audiosystem, MPEG-2AAC-System und Dolby-AC-3-System, sind die Konfigurationen der ersten Decodierungsvorrichtung 310 für irgendeines der drei Systeme gemeinsam. Dagegen ändern sich die Konfigurationen des Erzeugungsabschnitts 311 für ein abgebildetes Signal, des inversen Abbildungsumsetzungsabschnitts 312 und des Quantisierungsgenauigkeitsinformations-Decodierungsabschnitts 313 in Abhängigkeit von jedem der drei Systeme, wobei Einzelheiten dieser drei Systeme in dem obigen Literaturhinweis 1 bis Literaturhinweis 3 gegeben sind.
  • Die zweite Codierungsvorrichtung 320 enthält einen Abbildungsumsetzungsabschnitt 321, einen Codierungsabschnitt 322 des abgebildeten Signals und einen Quantisierungsgenauigkeits-Berechnungsabschnitt 323. Selbst wenn irgendeines der Folgenden genutzt wird: MPEG-Audio, MPEG-2AAC und Dolby-AC-3, sind die Konfigurationen der ersten Decodierungsvorrichtung 310 ähnlich für irgendeines der drei Systeme gemeinsam. Dagegen ändern sich die Konfigurationen des Abbildungsumsetzungsabschnitts 321, des Codierungsabschnitts 322 für ein abgebildetes Signal und des Quantisierungsgenauigkeits-Berechnungsabschnitts 323 in Abhängigkeit von jedem der drei Systeme, wobei Einzelheiten jedes der drei Systeme in dem wie oben beschriebenen Literaturhinweis 1 bis Literaturhinweis 3 gegeben sind.
  • Nachfolgend werden anhand von 5 Operationen der Umsetzungsvorrichtung für das Format eines codierten Sprachsignals beschrieben. Sowohl in den Erzeu gungsabschnitt 311 für ein abgebildetes Signal als auch in den Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 313 in der ersten Decodierungsvorrichtung 310 wird über einen Eingangsanschluss 300 ein codiertes Sprachsignal eingegeben, das im Voraus in Übereinstimmung mit dem ersten Codierungs-/Decodierungssystem codiert worden ist und dessen Format umgesetzt worden ist. Der Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 313 enthält durch Decodieren eines Teils des eingegebenen codierten Sprachsignals Informationen über die Quantisierungsgenauigkeit, die angeben, wie hoch jede der Frequenzkomponenten des Sprachsignals quantisiert worden ist. Zunächst erhält der Erzeugungsabschnitt 311 für ein abgebildetes Signal durch Decodieren eines Teils des codierten Sprachsignals einen quantisierten Wert eines abgebildeten Signals. Daraufhin erhält der Erzeugungsabschnitt 311 für ein abgebildetes Signal durch umgekehrte Quantisierung des erhaltenen quantisierten Werts des abgebildeten Signals anhand der Quantisierungsgenauigkeit, die durch die Quantisierungsgenauigkeitsinformationen bestimmt ist, die von dem Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 313 ausgegeben werden, ein erstes abgebildetes Signal.
  • Der inverse Abbildungsumsetzungsabschnitt 312 erhält durch Vornehmen inverser Abbildungsumsetzungen des von dem Erzeugungsabschnitt 311 für ein abgebildetes Signal ausgegebenen ersten abgebildeten Signals ein erstes Sprachsignal. Die inverse Abbildungsumsetzung ist äquivalent einer in dem Literaturhinweis 1 beschriebenen Unterband-Synthesefilterverarbeitung und einer in dem Literaturhinweis 2 und in dem Literaturhinweis 3 beschriebenen inversen modifizierten diskreten Cosinustransformationsverarbeitung.
  • Das von dem inversen Abbildungsumsetzungsabschnitt 312 in der ersten Decodierungsvorrichtung 310 ausgegebene erste Sprachsignal wird in den Abbildungsumsetzungsabschnitt 321 und in den Quantisierungsgenauigkeits-Berechnungsabschnitt 323 in der zweiten Codierungsvorrichtung 320 eingegeben. Der Abbildungsumsetzungsabschnitt 321 erhält durch Vornehmen von Abbildungsumsetzungen des eingegebenen Sprachsignals ein zweites abgebildetes Signal. Die Abbildungsumsetzung ist äquivalent einer in dem Literaturhinweis 1 beschriebenen Unterband-Analysefilterverarbeitung und einer in dem Literaturhinweis 2 und in dem Literaturhinweis 3 beschriebenen inversen modifizierten diskreten Cosinustransformationsverarbeitung. Das abgebildete Signal gibt eine Frequenzkomponente des eingegebenen Sprachsignals an.
  • Der Quantisierungsgenauigkeits-Berechnungsabschnitt 323 analysiert das eingegebene Sprachsignal und bestimmt, wie hoch das abgebildete Signal, das jede Sprachkomponente des Sprachsignals angibt, quantisiert ist. Das heißt, an der Frequenzkomponente, die durch ein menschliches Ohr leicht wahrgenommen werden kann, wird eine höhere Quantisierung ausgeführt, während an der Frequenzkomponente, die durch das menschliche Ohr nicht leicht wahrgenommen werden kann, eine weniger hohe Quantisierung ausgeführt wird. Ob die Frequenzkomponente durch das menschliche Ohr leicht wahrgenommen werden kann, wird durch eine Analyse an dem Eingangssprachsignal unter Verwendung eines Verfahrens bestimmt, in dem ein Wahrnehmungsmodell des menschlichen Ohrs nachgeahmt wird. Das Analyseverfahren ist ausführlich in dem Literaturhinweis 1 und in dem Literaturhinweis 2 beschrieben, und seine Erläuterung wird dementsprechend weggelassen. Das Verfahren, in dem das Wahrnehmungsmodell des menschlichen Ohrs nachgeahmt wird, wird eine "psychologische Hörsinnanalyse" genannt, wobei die Verarbeitung des Verfahrens aber sehr kompliziert ist und das Verfahren im Allgemeinen sehr große Mengen an Rechenprozessen erfordert.
  • Der Codierungsabschnitt 322 für ein abgebildetes Signal quantisiert das von dem Abbildungsumsetzungsabschnitt 321 ausgegebene abgebildete Signal anhand der durch den Quantisierungsgenauigkeits-Berechnungsabschnitt 323 berechneten Quantisierungsgenauigkeit, um einen quantisierten Wert zu erhalten. Daraufhin setzt der Quantisierungsgenauigkeits-Berechnungsabschnitt 323 den erhaltenen quantisierten Wert in codierte Zeichenketten um, um ein codiertes Sprachsignal zu erhalten. Das codierte Sprachsignal, dessen Format somit umgesetzt worden ist, wird von einem Ausgangsanschluss 301 ausgegeben.
  • Allerdings besitzt die obige herkömmliche Umsetzungsvorrichtung für das Format eines codierten Sprachsignals ein Problem dahingehend, dass sie Konfigurationselemente enthält, die große Mengen an Rechenprozessen erfordern und es somit erschweren, die Umsetzung für das Format eines Sprachsignals durch Berechnungen in verringerten Mengen auszuführen. Das heißt, in der herkömmlichen Umsetzungsvorrichtung für das Format eines codierten Sprachsignals, wie sie in 5 gezeigt ist, ist die erste Decodierungsvorrichtung 310, die so beschaffen ist, dass sie in dem ersten Codierungs-/Decodierungssystem arbeitet, mit der zweiten Codierungsvorrichtung 320, die so beschaffen ist, dass sie in Übereinstimmung mit dem zweiten Codierungs-/Decodierungssystem arbeitet, in Reihe geschaltet, wobei die zweite Codierungsvorrichtung 320 aber den Quantisierungsgenauigkeits-Berechnungsabschnitt 323 enthält, der große Mengen an Rechenprozessen erfordert.
  • Der Quantisierungsgenauigkeits-Berechnungsabschnitt 323 bestimmt anhand der oben beschriebenen psychologischen Hörsinnanalyse die Quantisierungsgenauigkeit, die definiert, wie hoch das abgebildete Signal, das jede der Frequenzkomponenten des eingegebenen Sprachsignals angibt, quantisiert wird. Allerdings ist ihre Verarbeitung sehr kompliziert und erfordert große Mengen an Rechenprozessen, was somit veranlasst, dass die Mengen an Rechenprozessen, die für die Umsetzung von Sprachsignalformaten erforderlich sind, vergrößert werden.
  • In US 5.530.750 ist eine Kompressionsbetriebsartumsetzung aus einer Kompressionsbetriebsart in eine andere Kompressionsbetriebsart beschrieben. Ein Codierer bestimmt zunächst, ob zwei aufeinander folgende Kompressionsbetriebsartblöcke mit einer besonderen Blocklänge orthogonal umgewandelt worden sind. Daraufhin bestimmt der Codierer, ob die Skalensektoren und die Wortlängen zweier aufeinander folgender Blöcke gleich sind. Falls diese zwei Bedingungen erfüllt sind, werden die Skalensektoren und die Wortlänge zweier aufeinander folgender Blöcke für einen großen Block, der aus den zwei Blöcken besteht, gemeinsam gemacht. Dies verringert die Menge an Unterinformationen, die für die zwei Blöcke, die den großen Block bilden, erforderlich sind, und ermöglicht, die Menge der Hauptinformationen in dem komprimierten Signal der Betriebsart B zu erhöhen. Dies verringert die Beeinträchtigung der Schallqualität wegen Verringerung der Bitrate.
  • In Nakajima u. a., Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing, Bd. 6, 12.–15. Mai 1998, S. 3669–3672, sind Algorithmen zum Transcodieren von MPEG-Audiodaten beschrieben. Ein in der Abhandlung vorgeschlagener Algorithmus führt die Umquantisierung des decodierten MPEG-Signals aus, wobei ein psychoakustisches Modell widerspiegelt wird. Ein Bitzuweisungsprozess führt in dem Codierer die Minimierung des Rauschen/Maske-Verhältnisses in jedem Unterband aus. Um ein kleineres Rauschen/Maske-Verhältnis zu erhalten, wird der Quantisierungsschritt in jedem Iterationsschritt erhöht. Die Iteration wird so lange wiederholt, wie die Bitzuweisung verfügbar ist. Nach der Iteration wird das Rauschen/Maske-Verhältnis für jedes Unterband fast gleich. Somit ist es dadurch, dass die Unterbandabtastwerte so umquantisiert werden, dass sie gleich werden, möglich, eine Bitratenskalierung zu erzielen, die ein psychoakustisches Modell widerspiegelt, wobei, obgleich in dem Decodierer keine Informationen über das absolute Signal/Maske-Verhältnis erhalten werden können, Relativwerte für die Berechnung verwendet werden können.
  • Aus John Fletcher: "ISO/MPEG Layer 2- Optimum re-encoding of decoded audio using a MOLE signal", Mai 1998, ist eine Decodierungs-/Codierungsvorrichtung bekannt, die ein decodiertes Audiosignal unter Verwendung eines so genannten MOLE-Signals umcodiert. Wenn ein codiertes Audiosignal decodiert wird, wird zusammen mit dem decodierten Audio ein Zusatzdaten umfassendes MOLE-Signal verborgen, das ausführlich beschreibt, wie das Audiosignal zuvor codiert war. Wenn das Audiosignal erneut codiert werden muss, sucht ein Spezialcodierer nach dem MOLE-Signal, um eine optimale Umcodierungsverarbeitung auszuführen und somit die Signalverschlechterung aus der hintereinander geschalteten Codierung und Decodierung mit niedriger Bitrate zu verringern.
  • ZUSAMMENFASSUNG DER ERFINDUNG
  • Angesichts des Obigen ist es eine Aufgabe der vorliegenden Erfindung, eine Umsetzungsvorrichtung für das Format eines codierten Sprachsignals zu schaffen, die ein Signalformat eines codierten Sprachsignals durch Berechnungen in verringerten Mengen umsetzen kann.
  • Gemäß einem ersten Aspekt der vorliegenden Erfindung wird eine Umsetzungsvorrichtung für das Format eines codierten Sprachsignals zum Umsetzen eines Formats eines codierten Sprachsignals zwischen zwei verschiedenen Codierungs/Decodierungssystemen geschaffen, wie sie in Anspruch 1 definiert ist.
  • Dadurch, dass der Decodierungsvorrichtung mit der Codierungsvorrichtung in Reihe geschaltet ist, dass der Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt in der Codierungsvorrichtung genutzt wird, dass die von dem Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt in der Decodierungsvorrichtung ausgegebenen ersten Quantisierungsgenauigkeitsinformationen in den Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt eingegeben werden, dass das abgebildete Signal unter Verwendung des Codierungsabschnitts für ein abgebildetes Signal in der zweiten Codierungsvorrichtung quantisiert wird, um den quantisierten Wert zu erhalten und das codierte Sprachsignal zu erzeugen, und dass das Format der ersten Quantisierungsgenauigkeitsinformationen in der Weise umgesetzt wird, dass die Quantisierungsgenauigkeitsinformationen durch den Codierungsabschnitt für ein abgebildetes Signal verwendet werden können, um die zweiten Quantisierungsgenauigkeitsinformationen zu bestimmen, ist es mit den obigen Konfigurationen möglich, die zweiten Quantisierungsgenauigkeitsinformationen durch Berechnungen in verringerten Mengen zu erlangen.
  • Mit einer anderen Konfiguration wie oben können unter Verwendung desselben Abbildungsumsetzungsverfahrens und inversen Abbildungsumsetzungsverfahrens für das Sprachcodierungs-/Sprachdecodierungssystem in der Decodierungsvorrichtung und in der Codierungsvorrichtung zum Entfernen der inversen Abbildungsumsetzungsverarbeitung und der Abbildungsumsetzungsverarbeitung die Mengen der für die Umsetzung erforderlichen Rechenprozesse weiter verringert werden. Somit kann die Umsetzung des Formats eines codierten Sprachsignals durch Berechnungen in verringerten Mengen erzielt werden.
  • KURZBESCHREIBUNG DER ZEICHNUNG
  • Die obigen und weitere Aufgaben, Vorteile und Merkmale der vorliegenden Erfindung werden klarer aus der folgenden Beschreibung in Verbindung mit der beigefügten Zeichnung, in der:
  • 1 ein Prinzipblockschaltplan ist, der Konfigurationen einer Umsetzungsvorrichtung für das Format eines codierten Sprachsignals gemäß einer ersten Ausführungsform der vorliegenden Erfindung zeigt;
  • 2 ein Ablaufplan ist, der Operationen der Umsetzungsvorrichtung für das Format eines codierten Sprachsignals gemäß der ersten Ausführungsform der vorliegenden Erfindung erläutert;
  • 3 ebenfalls ein Ablaufplan ist, der Operationen der Umsetzungsvorrichtung für das Format eines codierten Sprachsignals gemäß der ersten Ausführungsform der vorliegenden Erfindung erläutert;
  • 4 ein Prinzipblockschaltplan ist, der Konfigurationen einer Umsetzungsvorrichtung für das Format eines codierten Sprachsignals gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zeigt;
  • 5 ein Prinzipblockschaltplan ist, der Konfigurationen einer herkömmlichen Umsetzungsvorrichtung für das Format eines codierten Sprachsignals zeigt; und
  • 6 ein Prinzipblockschaltplan ist, der Konfigurationen einer weiteren herkömmlichen Umsetzungsvorrichtung für das Format eines codierten Sprachsignals zeigt.
  • AUSFÜHRLICHE BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMEN
  • Unter Verwendung verschiedener Ausführungsformen werden anhand der beigefügten Zeichnung die besten Ausführungsarten der vorliegenden Erfindung ausführlicher beschrieben.
  • Erste Ausführungsform
  • 1 ist ein Prinzipblockschaltplan, der Konfigurationen einer Umsetzungsvorrichtung für das Format eines codierten Sprachsignals gemäß einer ersten Ausführungsform der vorliegenden Erfindung zeigt. 2 und 3 sind Ablaufpläne, die Operationen der Umsetzungsvorrichtung für das Format eines codierten Sprachsignals der ersten Ausführungsform erläutern. Wie in 1 gezeigt ist, ist in der Umsetzungsvorrichtung für das Format eines codierten Sprachsignals der ersten Ausführungsform eine erste Decodierungsvorrichtung 110, die so beschaffen ist, dass sie in Übereinstimmung mit einem ersten Codierungs-/Decodierungssystem arbeitet, mit einer zweiten Codierungsvorrichtung 120, die so beschaffen ist, dass sie in Übereinstimmung mit einem zweiten Codierungs-/Decodierungssystem arbeitet, in Reihe geschaltet. Ein Sprachsignal, das im Voraus in Übereinstimmung mit dem ersten Codierungs-/Decodierungssystem codiert worden ist, wird, nachdem es durch die erste Decodierungsvorrichtung 110 decodiert worden ist, durch die zweite Codierungsvorrichtung 120 codiert und zu einem codierten Sprachsignal, das durch eine Decodierungsvorrichtung, die so beschaffen ist, dass sie in Übereinstimmung mit dem zweiten Codierungs-/Decodierungssystem arbeitet, decodiert werden kann.
  • Die erste Decodierungsvorrichtung 110 enthält einen Erzeugungsabschnitt 111 für ein abgebildetes Signal, einen inversen Abbildungsumsetzungsabschnitt 112 und einen Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 113. Selbst dann, wenn irgendeines der folgenden Systeme genutzt wird: MPEG-Audiosystem, MPEG-2AAC-System und Dolby-AC-3-System, sind die Konfigurationen der ersten Decodierungsvorrichtung 110 für irgendeines der drei Systeme gemeinsam. Dagegen ändern sich die Konfigurationen des Erzeugungsabschnitts 111 für ein abgebildetes Signal, des inversen Abbildungsumsetzungsabschnitts 112 und des Quantisierungsgenauigkeitsinformations-Decodierungsabschnitts 113 in Abhängigkeit von jedem der drei Systeme, wobei Einzelheiten jedes dieser drei Systeme in dem obigen Literaturhinweis 1 bis Literaturhinweis 3 gegeben sind.
  • Die zweite Codierungsvorrichtung 120 enthält einen Abbildungsumsetzungsabschnitt 121, einen Codierungsabschnitt 122 für ein abgebildetes Signal und einen Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt 123. In den Quantisierungsgenauigkeitsinformations-Umsetzungsberechnungsabschnitt 123 werden erste Quantisierungsgenauigkeitsinformationen von dem Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 113 eingegeben. Anstelle des in dem herkömmlichen Beispiel verwendeten Quantisierungsgenauigkeits-Berechnungsabschnitts 323 wird in der Ausführungsform der Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt 123 genutzt, in den ein Ausgangssignal des Quantisierungsgenauigkeitsinformations-Decodierungsabschnitts 113 in der ersten Decodierungsvorrichtung 110 eingegeben wird. Selbst dann, wenn irgendeines der folgenden Systeme genutzt wird: MPEG-Audiosystem, MPEG-2AAC-System und Dolby-AC-3-System, sind die Konfigurationen der zweiten Codierungsvorrichtung 120 wie im Fall der ersten Decodierungsvorrichtung 110 für irgendeines der drei Systeme gemeinsam. Dagegen unterscheiden sich die Konfigurationen des Umsetzungsabschnitts 121 für ein abgebildetes Signal, des Abbildungscodierungsabschnitts 122 und des Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitts 123 in Abhängigkeit von jedem der drei Systeme, wobei Einzelheiten jedes dieser drei Systeme in dem obigen Literaturhinweis 1 bis Literaturhinweis 3 gegeben sind.
  • Nachfolgend werden anhand von 2 und 3 Operationen der Umsetzungsvorrichtung für das Format eines codierten Sprachsignals beschrieben. Das von einem Eingangsanschluss 100 eingegebene codierte Sprachsignal, das im Voraus in Übereinstimmung mit dem ersten Codierungs-/Decodierungssystem codiert worden ist und dessen Format umgesetzt worden ist, wird sowohl in den Erzeugungsabschnitt 111 für ein abgebildetes Signal als auch in den Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 113 in der ersten Decodierungsvor richtung 110 eingegeben (Schritt S11). Der Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 113 erhält durch Decodieren eines Teils des codierten Sprachsignals die ersten Quantisierungsgenauigkeitsinformationen, die angeben, wie hoch jede der Frequenzkomponenten des codierten Sprachsignals quantisiert ist (Schritt S12). Die erhaltenen ersten Quantisierungsgenauigkeitsinformationen werden an den Erzeugungsabschnitt 111 für ein abgebildetes Signal in der ersten Decodierungsvorrichtung 110 und an den Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt 123 in der zweiten Codierungsvorrichtung 120 ausgegeben.
  • Der Erzeugungsabschnitt 111 für ein abgebildetes Signal decodiert einen Teil des codierten Sprachsignals und erhält einen quantisierten Wert des abgebildeten Signals. Der Erzeugungsabschnitt 111 für ein abgebildetes Signal quantisiert anhand der Quantisierungsgenauigkeit, die durch die von dem Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 113 ausgegebenen ersten Quantisierungsgenauigkeitsinformationen bestimmt ist, den quantisierten Wert des erhaltenen abgebildeten Signals invers und erhält ein erstes abgebildetes Signal (Schritt S13). Der inverse Abbildungsumsetzungsabschnitt 112 führt inverse Abbildungsumsetzungen des von dem Erzeugungsabschnitt 111 für ein abgebildetes Signal ausgegebenen ersten abgebildeten Signals aus und erhält ein erstes Sprachsignal (Schritt S14). Die inverse Abbildungsumsetzung ist äquivalent der in dem Literaturhinweis 1 beschriebenen Unterband-Synthesefilterverarbeitung und der in dem Literaturhinweis 2 und in dem Literaturhinweis 3 beschriebenen inversen modifizierten diskreten Cosinustransformationsverarbeitung.
  • Das von dem inversen Abbildungsumsetzungsabschnitt 112 in der ersten Decodierungsvorrichtung 110 ausgegebene erste Sprachsignal wird in den Abbildungsumsetzungsabschnitt 121 in der zweiten Codierungsvorrichtung 120 eingegeben. Der Abbildungsumsetzungsabschnitt 121 führt Abbildungsumsetzungen des eingegebenen ersten Sprachsignals aus und erhält ein zweites abgebildetes Signal (Schritt S15). Die inverse Abbildungsumsetzung ist äquivalent der in dem Literaturhinweis 1 beschriebenen Unterband-Analysefilterverarbeitung und der in dem Literaturhinweis 2 und in dem Literaturhinweis 3 beschriebenen inversen modifizierten diskreten Cosinustransformationsverarbeitung. Das abgebildete Signal gibt die Frequenzkomponente des eingegebenen Sprachsignals an.
  • Der Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt 123 setzt das Format der von dem Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 113 in dem ersten Decodierungsabschnitt 110 ausgegebenen ersten Quantisierungsgenauigkeitsinformationen so um, dass die Informationen durch den Codierungsabschnitt 122 für ein abgebildetes Signal in der zweiten Codierungsvorrichtung 120 verwendet werden können, und bestimmt die zweiten Quantisierungsgenauigkeitsinformationen (Schritt S16). Das Verfahren für die Umsetzung des Formats wird später beschrieben. Die durch die Umsetzung des Formats erhaltenen zweiten Quantisierungsgenauigkeitsinformationen werden an den Codierungsabschnitt 122 für ein abgebildetes Signal ausgegeben. Der Codierungsabschnitt 122 für ein abgebildetes Signal quantisiert zunächst anhand der Quantisierungsgenauigkeit, die durch die von dem Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt 123 ausgegebenen zweiten Quantisierungsgenauigkeitsinformationen bestimmt ist, das von dem Abbildungsumsetzungsabschnitt 121 ausgegebene zweite abgebildete Signal und erhält einen quantisierten Wert. Nachfolgend wird der erhaltene quantisierte Wert in Codezeichenketten umgesetzt, um das codierte Sprachsignal zu erhalten (Schritt S17). Das codierte Sprachsignal, dessen Format somit umgesetzt worden ist, wird an einen Ausgangsanschluss 101 ausgegeben.
  • Die Operationen des Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitts 123 werden ausführlich weiter beschrieben. Wie oben beschrieben wurde, setzt der Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt 123 die Frequenzauflösung oder einen Zeitabschnitt oder beide so um, dass die von dem Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 113 in der ersten Decodierungsvorrichtung 110 ausgegebenen ersten Quantisierungsgenauigkeitsinformationen von dem Codierungsabschnitt 122 für ein abgebildetes Signal in der zweiten Codierungsvorrichtung 120 verwendet werden können.
  • Zunächst wird die Umsetzung der Frequenzauflösung beschrieben. Zum Beispiel wird angenommen, dass der Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 113 in der ersten Decodierungsvorrichtung 110 eine Quantisierungsgenauigkeit in jedem der durch Aufteilen eines Spektrums eines Sprachsignals in "512" erhaltenen Bänder ausgibt, während der Codierungsabschnitt 122 für ein abgebildetes Signal in der zweiten Codierungsvorrichtung 120 erfordert, dass eine Quantisierungsgenauigkeit in "1024" Bändern erhalten wird. Somit ist es, falls sich die Anzahl der Bänder, in denen die Quantisierungsgenauigkeit erhalten wird, zwischen dem Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 113 und dem Codierungsabschnitt 122 für ein abgebildetes Signal unterscheidet, notwendig, Umsetzungen der Frequenzauflösung vorzunehmen.
  • In dem Beispiel wird die Quantisierungsgenauigkeit in einem n-ten ("n" ist eine natürliche Zahl) durch den Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt 123 auszugebenden Unterband dadurch erhalten, dass eine Berechnung der Quantisierungsgenauigkeit ausgeführt wird, die von dem Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 113 ausgegeben und in einem oder in mehreren Teilbändern, in denen es eine, wenn auch kleine, Überlappung der Frequenz zwischen dem für den Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt 123 verwendeten Band und dem für den Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 113 verwendeten Band gibt, erhalten wird. Zur Ausführung der Berechnung kann z. B. ein Berechnungsverfahren genutzt werden, durch das die maximale Quantisierungsgenauigkeit ihr Rechenergebnis wird, oder kann ein Mittelungsberechnungsverfahren genutzt werden.
  • Nachfolgend wird die Umsetzung des Zeitabschnitts beschrieben. In dem Fall wird die Quantisierungsgenauigkeit anhand einer Analyse in jedem der Zeitabschnitte berechnet, die durch Teilen eines Sprachsignals in einer Weise erhalten werden, dass jeder Zeitabschnitt für jedes Codierungs-/Decodierungssystem eine andere Zeitlänge hat. Falls der zu analysierende Zeitabschnitt, der von der zweiten Codierungsvorrichtung 120 zum Berechnen der Quantisierungsgenauigkeit benötigt wird, nicht mit dem Zeitabschnitt übereinstimmt, der zum Berechnen der von der ersten Decodierungsvorrichtung 110 ausgegebenen Quantisierungsgenauigkeit verwendet worden ist, ist es notwendig, den Zeitabschnitt umzusetzen.
  • Die Quantisierungsgenauigkeit in einem n-ten Unterband und in einem Zeitabschnitt, die durch den Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt 123 auszugeben ist, wird dadurch erhalten, dass eine Berechnung der Quantisierungsgenauigkeit ausgeführt wird, die von dem Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 113 ausgegeben und in dem n-ten Unterband und in einem oder in mehreren Zeitabschnitten, während denen es eine, wenn auch kleine, Überlappung zwischen dem für den Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt 123 verwendeten Zeitabschnitt und dem für den Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 113 verwendeten Zeitabschnitt gibt, erhalten wird. Zur Ausführung der Berechnung kann z. B. das Berechnungsverfahren, durch das die maximale Quantisierungsgenauig keit ihr Rechenergebnis wird, oder ein Mittelungsberechnungsverfahren genutzt werden.
  • Darüber hinaus sind in einigen Fällen Umsetzungen sowohl der Frequenzauflösung als auch des Zeitabschnitts erforderlich. In diesem Fall wird die Quantisierungsgenauigkeit in einem n-ten Unterband und in einem Zeitabschnitt, die durch den Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt 123 auszugeben ist, dadurch erhalten, dass eine Berechnung der Quantisierungsgenauigkeit ausgeführt wird, die von dem Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 113 ausgegeben und in dem n-ten Unterband und in einem oder in mehreren Zeitabschnitten, in und während denen es eine, wenn auch kleine, Überlappung der Frequenzauflösung zwischen dem für den Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt 123 verwendeten Zeitabschnitt und Unterband und dem für den Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 113 verwendeten Zeitabschnitt und Unterband gibt, erhalten wird. Zur Ausführung der Berechnung kann z. B. das Berechnungsverfahren, durch das die maximale Quantisierungsgenauigkeit ihr Rechenergebnis wird, oder das Mittelungsberechnungsverfahren genutzt werden.
  • Somit wird gemäß der ersten Ausführungsform anstelle des in der herkömmlichen Vorrichtung genutzten Quantisierungsgenauigkeits-Berechnungsabschnitts 323 der Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt 123 in der zweiten Codierungsvorrichtung 120, der die Umsetzungsvorrichtung für das Format eines codierten Sprachsignals bildet, verwendet, wobei in den Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt 123 die von dem Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 113 in der ersten Decodierungsvorrichtung 110 ausgegebenen ersten Quantisierungsgenauigkeitsinformationen eingegeben werden, die durch den Codierungsabschnitt 122 für ein abgebildetes Signal in der zweiten Codierungsvorrichtung 120 quantisiert werden, um den quantisierten Wert zu erhalten und das codierte Sprachsignal zu erzeugen. Da das Format der ersten Quantisierungsgenauigkeitsinformationen so umgesetzt wird, dass die Informationen durch den Codierungsabschnitt 122 für ein abgebildetes Signal in der zweiten Codierungsvorrichtung 120 verwendet werden können, um die zweite Quantisierungsgenauigkeit zu bestimmen, ist es möglich, die zweiten Quantisierungsgenauigkeitsinformationen im Vergleich zum herkömmlichen Fall durch Berechnungen in kleineren Mengen zu erhalten. Dies ist so, da der Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt 123 der Aus führungsform nicht unter Verwendung der herkömmlichen psychologischen Hörsinnanalyse, die sehr komplizierte Prozeduren verursacht, sondern durch das gewöhnlich bekannte einfache Berechnungsverfahren erzielt wird.
  • Somit kann die Umsetzung des Formats codierter Sprachsignale durch Berechnungen in verringerten Mengen erzielt werden.
  • Zweite Ausführungsform
  • 4 ist ein Prinzipblockschaltplan, der Konfigurationen einer Umsetzungsvorrichtung für das Format eines codierten Sprachsignals gemäß einer zweiten Ausführungsform der vorliegenden Erfindung zeigt. Die Umsetzungsvorrichtung für das Format eines codierten Sprachsignals der zweiten Ausführungsform unterscheidet sich dahingehend stark von der der ersten Ausführungsform, dass ein in der ersten Ausführungsform verwendeter inverser Abbildungsumsetzungsabschnitt 112 in einer ersten Decodierungsvorrichtung 110 und ein in der ersten Ausführungsform genutzter Abbildungsumsetzungsabschnitt 121 in einer zweiten Codierungsvorrichtung 120 entfernt sind. Wenn in einer ersten Decodierungsvorrichtung 210 und in einer zweiten Codierungsvorrichtung 220 in der Umsetzungsvorrichtung für das Format eines codierten Sprachsignals der zweiten Ausführungsform ein Sprachcodierungs-/Decodierungssystem ein gleiches Abbildungsumsetzungsverfahren und ein gleiches inverses Abbildungsumsetzungsverfahren verwenden, d. h., wenn die vor der Umsetzung eines Formats eines codierten Sprachsignals zu verwendenden und die nach der Umsetzung des Formats des codierten Sprachsignals zu verwendenden Sprachcodierungs-/Sprachdecodierungssysteme dasselbe Abbildungsverfahren und dasselbe inverse Abbildungsumsetzungsverfahren verwenden, können der inverse Abbildungsumsetzungsabschnitt 112 in der ersten Decodierungsvorrichtung 110 und der Abbildungsumsetzungsabschnitt 121 in der zweiten Codierungsvorrichtung 120, die in der ersten Ausführungsform genutzt werden, entfernt werden.
  • Wie in 4 gezeigt ist, enthält die Umsetzungsvorrichtung für das Format eines codierten Sprachsignals der zweiten Ausführungsform die erste Decodierungsvorrichtung 210 und die zweite Codierungsvorrichtung 220, die beide so beschaffen sind, dass sie in Übereinstimmung mit einem selben Sprachcodierungs-/Sprachdecodierungssystem arbeiten. Das heißt, die erste Decodierungsvorrichtung 210 enthält nur einen Erzeugungsabschnitt 211 für ein abgebildetes Signal und einen Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt 213, besitzt aber nicht den inversen Abbildungsumsetzungsabschnitt 112. Darüber hinaus enthält die zweite Codierungsvorrichtung 220 nur einen Codierungsabschnitt 222 für ein abgebildetes Signal und einen Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt 223, besitzt aber nicht den Abbildungsumsetzungsabschnitt 121. Ein codiertes Sprachsignal, dessen Format nicht umgesetzt worden ist, wird über einen Eingangsanschluss 200 eingegeben und das codierte Sprachsignal, dessen Format umgesetzt worden ist, wird von einem Ausgangsanschluss 201 ausgegeben.
  • Durch irgendeines der Folgenden: MPEG Audio Layer1, MPEG Audio Layer2 und MPEG Audio Layer3, wird dasselbe Sprachcodierungs-/Sprachdecodierungssystem konfiguriert. Auf jeden Fall können dasselbe Abbildungsumsetzungsverfahren und inverse Abbildungsumsetzungsverfahren genutzt werden.
  • Wie oben beschrieben wurde, wird durch Konfigurieren der ersten Decodierungsvorrichtung 210 und der zweiten Codierungsvorrichtung 220 in Übereinstimmung mit demselben Sprachcodierungs-/Sprachdecodierungssystem ein Ausgangssignal des Erzeugungsabschnitts 211 für ein abgebildetes Signal äquivalent einem Eingangssignal des Codierungsabschnitts 222 für ein abgebildetes Signal, so dass eine Notwendigkeit des inversen Abbildungsumsetzungsabschnitts 112 und des Abbildungsumsetzungsabschnitts 121 beseitigt wird. Dies ermöglicht eine weitere Verringerung der Mengen an Rechenprozessen. Darüber hinaus sind die Operationen der Umsetzungsvorrichtung für das Format eines codierten Sprachsignals der zweiten Ausführungsform im Wesentlichen dieselben wie in der ersten Ausführungsform, wobei ihre Beschreibungen dementsprechend weggelassen werden.
  • Somit können gemäß der zweiten Ausführungsform fast dieselben Wirkungen realisiert werden, wie sie in der ersten Ausführungsform erhalten werden. Da gemäß der zweiten Ausführungsform der Einbau des inversen Abbildungsumsetzungsabschnitts 112 und des Abbildungsumsetzungsabschnitts 121 weggelassen ist, ist es außerdem möglich, nicht nur die Konfigurationen der Umsetzungsvorrichtung für das Format eines codierten Sprachsignals zu vereinfachen, sondern auch die Mengen der für die Umsetzung benötigten Rechenprozesse weiter zu verringern.
  • Offensichtlich ist die vorliegende Erfindung nicht auf die obigen Ausführungsformen beschränkt, sondern kann geändert und abgewandelt werden, ohne von dem Umfang der Erfindung abzuweichen. Zum Beispiel sind in den obigen Ausführungsformen das erste Codierungs-/Decodierungssystem (Sprachcodierungs/Sprachdecodierungssystem) und das zweite Codierungs/Decodierungssystem (Sprachcodierungs-/Decodierungssystem) durch die folgenden Systeme konfiguriert: MPEG-Audiosystem, MPEG-2AAC-System oder Dolby-AC-3-System, wobei aber das erste und das zweite Codierungs-/Decodierungssystem nur dann durch andere Systeme konfiguriert werden können, wenn im Wesentlichen dieselben Konfigurationen wie die erste Decodierungsvorrichtung 110 und die zweite Decodierungsvorrichtung 120 bereitgestellt sind, wie sie in der ersten Ausführungsform gezeigt sind.

Claims (9)

  1. Umsetzungsvorrichtung für das Format eines codierten Sprachsignals, die ein Format eines codierten Sprachsignals zwischen einem ersten und einem zweiten Sprachcodierungs-/Sprachdecodierungssystem, die hinsichtlich der Frequenzauflösung und/oder der Zeitabschnittslänge, die für die Erhaltung von Quantisierungsgenauigkeitsinformationen erforderlich sind, verschieden sind, umsetzt, wobei die Vorrichtung umfasst: eine erste Decodierungsvorrichtung (110, 210), die verwendet wird, um das codierte Sprachsignal zu decodieren, dessen Format nicht umgesetzt worden ist, und um ein erstes Sprachsignal in Übereinstimmung mit dem ersten Sprachcodierungs-/Decodierungssystem zu erzeugen; eine zweite Codierungsvorrichtung (120, 220), die verwendet wird, um das erste Sprachsignal zu codieren und um ein codiertes Sprachsignal zu erzeugen, dessen Format in Übereinstimmung mit dem zweiten Sprachcodierungs/Sprachdecodierungssystem umgesetzt worden ist; wobei die erste Decodierungsvorrichtung (110, 210) umfasst: einen Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt (113, 213), der erste Quantisierungsgenauigkeitsinformationen decodiert, die in das codierte Sprachsignal, dessen Format nicht umgesetzt worden ist, codiert sind, und ein erstes Quantisierungsgenauigkeitsinformations-Signal erzeugt, einen Erzeugungsabschnitt (111, 211) für ein abgebildetes Signal der einen quantisierten Wert, der in das codierte Sprachsignal, dessen Format nicht umgesetzt worden ist, codiert worden ist, in Übereinstimmung mit den ersten Quantisierungsgenauigkeitsinformationen decodiert und invers quantisiert und ein erstes abgebildetes Signal erzeugt, dadurch gekennzeichnet, dass die zweite Codierungsvorrichtung (120, 220) umfasst: einen Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt (123, 223), der das erste Quantisierungsgenauigkeitsinformations-Signal von dem Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt (113, 213) der ersten Decodierungsvorrichtung empfängt und in Reaktion darauf zweite Quantisierungsgenauigkeitsinformationen bestimmt, und einen Codierungsabschnitt (122, 222) für ein abgebildetes Signal, der das erste Sprachsignal, das von der ersten Decodierungsvorrichtung (110, 210) ausgegeben wird, anhand der zweiten Quantisierungsgenauigkeitsinformationen quantisiert und codiert und das codierte Sprachsignal, dessen Format umgesetzt worden ist, erzeugt.
  2. Umsetzungsvorrichtung für das Format eines codierten Sprachsignals nach Anspruch 1, bei der das erste Sprachcodierungs-/Sprachdecodierungssystem durch eines der folgenden Systeme konfiguriert ist: MPEG-Audiosystem (Motion Picture Experts Group-Audiosystem), MPEG-2AAC-System und Dolby-AC3-System.
  3. Umsetzungsvorrichtung für das Format eines codierten Sprachsignals nach Anspruch 1 oder 2, bei der Konfigurationen des zweiten Sprachcodierungs-/Sprachdecodierungssystems von jenen des ersten Sprachcodierungs-/Sprachdecodierungssystems verschieden sind und das zweite Sprachcodierungs/Sprachdecodierungssystem durch eines der folgenden Systeme konfiguriert ist: MPEG-Audiosystem (Motion Picture Experts Group-Audiosystem), MPEG-2AAC-System und Dolby-AC3-System.
  4. Umsetzungsvorrichtung für das Format eines codierten Sprachsignals nach einem der Ansprüche 1 bis 3, bei der: die erste Decodierungsvorrichtung (110) einen inversen Abbildungsumsetzungsabschnitt (112) umfasst, der inverse Abbildungsumsetzungen des ersten abgebildeten Signals ausführt und das erste Sprachsignal erzeugt, und die zweite Codierungsvorrichtung (120) einen Abbildungsumsetzungsabschnitt (121), der Abbildungsumsetzungen des ersten Sprachsignals ausführt und ein zweites abgebildetes Signal erzeugt, den Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt (123), der die zweiten Quantisierungsgenauigkeitsinformationen bestimmt, und den Codierungsabschnitt (122) für ein abgebildetes Signal, der das zweite abgebildete Signal anhand der Quantisierungsgenauigkeitsinformationen quantisiert und codiert und das codierte Sprachsignal, dessen Format umgesetzt worden ist, erzeugt, umfasst; und bei der die zweiten Quantisierungsgenauigkeitsinformationen durch Umsetzen der von dem Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt der ersten Decodierungsvorrichtung empfangenen ersten Quantisierungsgenauigkeitsinformationen bestimmt werden, so dass die ersten Quantisierungsgenauigkeitsinformationen eine Zeitabschnittslänge und/oder eine Frequenzauflösung, die für die Erhaltung der zweiten Quantisierungsgenauigkeitsinformationen erforderlich sind, werden.
  5. Umsetzungsvorrichtung für das Format eines codierten Sprachsignals nach Anspruch 4, bei der in dem Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt (123, 223) die zweiten Quantisierungsgenauigkeitsinformationen eines ersten Frequenzbandes für einen ersten Zeitabschnitt in einem Zustand, in dem der Zeitabschnitt und das Frequenzband jeweils mit dem ersten Zeitabschnitt bzw. mit dem ersten Frequenzband überlappen, die höchste Quantisierungsgenauigkeit in den ersten Quantisierungsgenauigkeitsinformationen haben, wobei die ersten Quantisierungsgenauigkeitsinformationen von dem Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt (113, 223) zugeführt werden.
  6. Umsetzungsvorrichtung für das Format eines codierten Sprachsignals nach Anspruch 4 oder 5, bei der der inverse Abbildungsumsetzungsabschnitt (112) inverse Abbildungsumsetzungen durch Verwenden einer Unterband-Synthesefilterverarbeitung oder einer inversen modifizierten diskreten Kosinustransformationsverarbeitung ausführt.
  7. Umsetzungsvorrichtung für das Format eines codierten Sprachsignals nach einem der Ansprüche 4 bis 6, bei der der Abbildungsumsetzungsabschnitt (121) Abbildungsumsetzungen unter Verwendung einer Unterband-Analysefilterverarbeitung oder einer modifizierten diskreten Kosinustransformationsverarbeitung ausführt.
  8. Umsetzungsvorrichtung für das Format eines codierten Sprachsignals nach einem der Ansprüche 1 bis 3, bei der die beiden unterschiedlichen Sprachcodierungs-/Sprachdecodierungssysteme das gleiche Abbildungsumsetzungsverfahren und das gleiche inverse Abbildungsumsetzungsverfahren verwenden und bei der in dem Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt (123, 223) die zweiten Quantisierungsgenauigkeitsinformationen durch Umsetzen der ersten Quantisierungsgenauigkeitsinformationen bestimmt werden, so dass die ersten Quantisierungsgenauigkeitsinformationen eine Zeitabschnittslänge und/oder eine Frequenzauflösung, die für die Erhaltung der zweiten Quantisierungsgenauigkeitsinformationen erforderlich sind, werden.
  9. Umsetzungsvorrichtung für das Format eines codierten Sprachsignals nach Anspruch 8, bei der in dem Quantisierungsgenauigkeitsinformations-Umsetzungsabschnitt (123, 223) die zweiten Quantisierungsgenauigkeitsinformationen eines ersten Frequenzbandes für einen ersten Zeitabschnitt in einem Zustand, in dem der Zeitabschnitt und das Frequenzband jeweils mit dem ersten Zeitabschnitt bzw. mit dem ersten Frequenzband überlappen, die höchste Quantisierungsgenauigkeit in den ersten Quantisierungsgenauigkeitsinformationen haben, wobei die ersten Quantisierungsgenauigkeitsinformationen von dem Quantisierungsgenauigkeitsinformations-Decodierungsabschnitt (113, 223) zugeführt werden.
DE60116809T 2000-02-28 2001-02-28 Vorrichtung zum Transkodieren eines Audiodatenstroms Expired - Fee Related DE60116809T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2000052037 2000-02-28
JP2000052037A JP3487250B2 (ja) 2000-02-28 2000-02-28 符号化音声信号形式変換装置

Publications (2)

Publication Number Publication Date
DE60116809D1 DE60116809D1 (de) 2006-04-13
DE60116809T2 true DE60116809T2 (de) 2006-09-14

Family

ID=18573613

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60116809T Expired - Fee Related DE60116809T2 (de) 2000-02-28 2001-02-28 Vorrichtung zum Transkodieren eines Audiodatenstroms

Country Status (5)

Country Link
US (1) US7099823B2 (de)
EP (1) EP1136986B1 (de)
JP (1) JP3487250B2 (de)
CA (1) CA2338266C (de)
DE (1) DE60116809T2 (de)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
JP4263412B2 (ja) * 2002-01-29 2009-05-13 富士通株式会社 音声符号変換方法
US7109894B2 (en) * 2002-10-03 2006-09-19 Koninklijke Philips Electronics N.V. Encoding and decoding a media signal with high and low quality versions
JP4396524B2 (ja) 2003-04-08 2010-01-13 日本電気株式会社 符号変換方法及び装置
US7983835B2 (en) 2004-11-03 2011-07-19 Lagassey Paul J Modular intelligent transportation system
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
US7688888B2 (en) * 2005-04-22 2010-03-30 Zenith Electronics Llc CIR estimating decision feedback equalizer with phase tracker
JP4721355B2 (ja) * 2006-07-18 2011-07-13 Kddi株式会社 符号化データの符号化則変換方法および装置
CN104281609B (zh) * 2013-07-08 2020-03-17 腾讯科技(深圳)有限公司 语音输入指令匹配规则的配置方法及装置
CN104347082B (zh) * 2013-07-24 2017-10-24 富士通株式会社 弦波帧检测方法和设备以及音频编码方法和设备
TWI726822B (zh) * 2019-10-08 2021-05-01 創未來科技股份有限公司 訊號轉換裝置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3123286B2 (ja) 1993-02-18 2001-01-09 ソニー株式会社 ディジタル信号処理装置又は方法、及び記録媒体
KR100352351B1 (ko) * 1994-02-05 2003-01-06 소니 가부시끼 가이샤 정보부호화방법및장치와정보복호화방법및장치
US5541852A (en) * 1994-04-14 1996-07-30 Motorola, Inc. Device, method and system for variable bit-rate packet video communications
US6141446A (en) * 1994-09-21 2000-10-31 Ricoh Company, Ltd. Compression and decompression system with reversible wavelets and lossy reconstruction
US5848391A (en) * 1996-07-11 1998-12-08 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method subband of coding and decoding audio signals using variable length windows
JP3283200B2 (ja) 1996-12-19 2002-05-20 ケイディーディーアイ株式会社 符号化音声データの符号化レート変換方法および装置
GB2321577B (en) 1997-01-27 2001-08-01 British Broadcasting Corp Audio compression
JPH10336672A (ja) 1997-05-30 1998-12-18 Oki Electric Ind Co Ltd 符号化方式変換装置およびその動きベクトル検出方法
KR20000068538A (ko) * 1997-07-11 2000-11-25 이데이 노부유끼 정보 복호 방법 및 장치, 정보 부호화 방법 및 장치, 및 제공매체
JPH11112985A (ja) * 1997-09-29 1999-04-23 Sony Corp 画像符号化装置、画像符号化方法、画像復号装置、画像復号方法、および、伝送媒体
JP4242516B2 (ja) * 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
GB0003954D0 (en) 2000-02-18 2000-04-12 Radioscape Ltd Method of and apparatus for converting a signal between data compression formats

Also Published As

Publication number Publication date
US20010018651A1 (en) 2001-08-30
EP1136986B1 (de) 2006-01-25
US7099823B2 (en) 2006-08-29
EP1136986A3 (de) 2002-11-13
JP2001242891A (ja) 2001-09-07
CA2338266A1 (en) 2001-08-28
CA2338266C (en) 2006-10-17
DE60116809D1 (de) 2006-04-13
EP1136986A2 (de) 2001-09-26
JP3487250B2 (ja) 2004-01-13

Similar Documents

Publication Publication Date Title
DE602004013031T2 (de) Verfahren zum codieren eines digitalen signals in einen skalierbaren bitstrom, verfahren zum decodieren eines skalierbaren bitstroms
DE19811039B4 (de) Verfahren und Vorrichtungen zum Codieren und Decodieren von Audiosignalen
DE60313332T2 (de) Audiocodierung mit niedriger bitrate
DE69927505T2 (de) Verfahren zum einfügen von zusatzdaten in einen audiodatenstrom
DE60206390T2 (de) Effiziente und skalierbare parametrische stereocodierung für anwendungen mit niedriger bitrate
DE60222692T2 (de) Vorwärtskopplungsprädiktion von skalierungsfaktoren auf der basis zulässiger verzerrungen für die rauschformung bei der komprimierung auf psychoakustischer basis
DE602005002833T2 (de) Kompensation von multikanal-audio energieverlusten
DE602004010885T2 (de) Audio-transkodierung
EP0931386B1 (de) Verfahren zum signalisieren einer rauschsubstitution beim codieren eines audiosignals
EP0954909B1 (de) Verfahren zum codieren eines audiosignals
DE69901273T2 (de) Verfahren zur Codierung und Quantisierung von Audiosignalen
DE60310716T2 (de) System für die audiokodierung mit füllung von spektralen lücken
DE19747132C2 (de) Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
DE60110679T3 (de) Perzeptuelle Kodierung von Audiosignalen unter Verwendung von getrennter Reduzierung von Irrelevanz und Redundanz
DE69737489T2 (de) Formung des erkennbaren Rauschsignals in der Zeitdomäne mittels LPC-Voraussage im Frequenzraum
DE69529393T2 (de) Verfahren zur gewichteten Geräuschfilterung
DE102004009954B4 (de) Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
DE60214027T2 (de) Kodiervorrichtung und dekodiervorrichtung
DE69317958T2 (de) Kodierer von Audiosignalen mit niedriger Verzögerung, unter Verwendung von Analyse-durch-Synthese-Techniken
DE69634645T2 (de) Verfahren und Vorrichtung zur Sprachkodierung
DE60011051T2 (de) Celp-transkodierung
DE602004005197T2 (de) Vorrichtung und verfahren zum kodieren eines audiosignals und vorrichtung und verfahren zum dekodieren eines kodierten audiosignals
DE4320990B4 (de) Verfahren zur Redundanzreduktion
DE69621393T2 (de) Quantisierung von Sprachsignalen in prädiktiven Kodiersystemen unter Verwendung von Modellen menschlichen Hörens
DE69705642T2 (de) Audio-kodierverfahren mit veränderlicher kodelänge unter verwendung einer mehrzahl von teilband-bitverteilungsmoden

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee