DE69926693T2

DE69926693T2 - Digitales Audio-Aufzeichungsmedium und Wiedergabevorrichtung für dieses

Info

Publication number: DE69926693T2
Application number: DE69926693T
Authority: DE
Inventors: Hitoshi Otomo; Hideki Mimura; Junichi Uota
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1998-06-26
Filing date: 1999-06-24
Publication date: 2006-06-22
Anticipated expiration: 2019-06-25
Also published as: CN1148731C; US20030123349A1; JP3473828B2; US7269105B2; KR100333117B1; EP0967603A3; US6580671B1; TW448436B; KR20000006405A; US20050270938A1; JP2000011546A; EP0967603A2; CN1240987A; EP0967603B1; DE69926693D1; US7050370B2

Description

Die Erfindung betrifft ein digitales Aufzeichnungsmedium und eine Wiedergabevorrichtung für dieses. Insbesondere wird die Erfindung effektiv auf ein Aufzeichnungsformat digitaler Audiosignale auf einem Aufzeichnungsmedium bzw. Datenträger mit hoher Dichte angewandt, wie etwa einer optischen Platte, und auf eine Wiedergabevorrichtung zum Wiedergeben des mit hoher Dichte aufgezeichneten Mediums.
In den letzten Jahren wurden optische Platten zum Aufzeichnen mit hoher Dichte entwickelt, auf denen das Hauptbildsignal, mehrere Arten von Unterbildsignalen zusammen mit dem Hauptbildsignal und Audiosignalen für mehrere Kanäle aufgezeichnet werden können. Die optische Platte mit hoher Aufzeichnungsdichte wird DVD genannt. Im folgenden wird auf diese Technik als DVD-Video Bezug genommen.
Auf der Grundlage der DVD-Video-Technik wurde die DVD-Audio-Technik entwickelt. Die Entwicklung von DVD-Audio war darauf gerichtet, eine spezielle Audio-Technologie zum Erzielen hoher Tonqualität zu etablieren.
Bei der Entwicklung von DVD-Audio gab es Forderungen, den Standard von DVD-Audio hin zu dem Standard von DVD-Datenstrukturen in DVD-Video anzunähern. Ein konventionelles Äquivalent bezüglich DVD-Audio wurde beispielsweise in der japanischen Patentanmeldung KOKAI 9-312066 offenbart.
Ein Aufzeichnungsmedium entsprechend dem Oberbegriff des Anspruchs 1 ist aus EP-A-0 797 198 bekannt. Dieses Dokument offenbart ein Verfahren zum Anordnen von Daten, das es sowohl Maschinen niedriger Klassen als auch hoher Klassen ermöglicht, leicht den Wiedergabeprozess durchzuführen, und das mit mehreren Kanälen umgehen kann. Die Daten haben eine Struktur, bei der jede Datenprobe von 20 Bit oder 24 Bit einzelner Kanäle in ein Hauptwort aus 16 Bit und ein Extrawort aus 4 bis 8 Bits getrennt wird, eine Sammlung von 2n-ten Hauptwörtern der jeweiligen Kanäle angeordnet wird, eine Sammlung von (2n + 1)-ten Hauptwörtern der jeweiligen Kanäle dann angeordnet wird, eine Sammlung von 2n-ten Extrawörtern der jeweiligen Kanäle dann angeordnet wird, und eine Sammlung von (2n + 1)-ten Extrawörtern der jeweiligen Kanäle dann angeordnet wird, und die Daten werden auf einem Aufzeichnungsmedium aufgezeichnet oder übertragen.
Es ist dementsprechend eine Aufgabe der Erfindung, nicht nur ein digitales Audio-Aufzeichnungsmedium bereitzustellen, das in der Lage ist, einen DVD-Audiostandard mit einer Hochtonqualitäts-Spezifikation bereitzustellen, indem die Audiodatenstruktur des DVD-Videos am besten ausgenutzt wird, sondern auch eine Wiedergabevorrichtung für das digitale Audio-Aufzeichnungsmedium.
Erfindungsgemäß wird die obige Aufgabe durch ein Aufzeichnungsmedium nach Anspruch 1 und durch eine Wiedergabevorrichtung für ein solches Aufzeichnungsmedium nach Anspruch 8 gelöst. Die abhängigen Ansprüche beziehen sich auf weitere vorteilhafte Aspekte der Erfindung.
Das Aufzeichnungsmedium enthält des Weiteren Mittel zum Dekodieren von Daten, die von dem Aufzeichnungsmedium in mehrere Kanal-Audiosignale gelesen werden. Darüber hinaus enthält das Aufzeichnungsmedium des Weiteren Mittel zum Übertragen eines Signals der oben genannten Datenstruktur und um dieses auf einem Aufzeichnungsmedium aufzuzeichnen. Zusätzlich enthält das Aufzeichnungsmedium des Weiteren Mittel zum Übertragen eines Signals der oben genannten Datenstruktur.
Der Einsatz dieser Mittel ermöglicht es, alle Datenübertragungsraten in einem bestimmten Datenübertragungs-Ratenbereich zu bringen, da die Abtastfrequenz oder die Anzahl der Quantisierungsbits des ersten Kanal-Audiosignals unterschiedlich gegenüber dem des zweiten Kanal-Audiosignals gemacht wird. Dies ermöglicht das Erhalten eines hochqualitativen Tons in dem Datenübertragungs-Ratenbereich entsprechend dem gewünschten Standard. Somit können Daten, die einen hochqualitativen Ton sicherstellen, auf dem Aufzeichnungsmedium aufgezeichnet werden.
Diese Zusammenfassung der Erfindung enthält nicht notwendigerweise alle wesentlichen Merkmale, so dass die Erfindung auch durch eine Unterkombination dieser Merkmale gebildet werden kann.
Die Erfindung kann besser aus der folgenden detaillierten Beschreibung verstanden werden, wenn diese zusammen mit den beiliegenden Zeichnungen betrachtet wird, in denen zeigen:
1A bis 1D DVD-Videodatenprobe-Strukturen und Probeanordnungen bezüglich der Erfindung;
2 ein Diagramm zur Unterstützung der Erläuterung eines Beispiels der Anordnung von Paketen bezüglich des DVD-Videos und der Struktur eines Audiopacks in der Anordnung;
3A und 3B Diagramme zur Unterstützung der Erläuterung einer detaillierten Struktur des Audiopacks bezüglich DVD-Video;
4A und 4B Diagramme zur Unterstützung der Erläuterung von Beispielen der Datengröße in einem Paket bei linearen PCM-Daten;
5 ein Diagramm zur Unterstützung der Erläuterung eines Beispiels der Erzeugung eines Audiopacks im Zusammenhang mit DVD-Video;
6 eine Tabelle zur Unterstützung der Erläuterung der Größen von linearen PCM-Daten im Zusammenhang mit DVD-Video;
7 eine Tabelle zur Unterstützung der Erläuterung des Pack-Kopfes eines Audiopacks;
8 eine Tabelle zur Unterstützung der Erläuterung des Paket-Kopfes eines Audiopacks;
9A und 9B Blockdiagramme, die die grundlegende Konfiguration einer Plattenaufzeichnungsvorrichtung und diejenige einer Plattenwiedergabevorrichtung zeigen, die jeweils Skalierung verwenden;
10 ein Diagramm zur Unterstützung der Erläuterung des Prinzips der Skalierbarkeit, das bei der Erfindung verwendet wird, wobei ein Beispiel von Proben verwendet wird;
11 ein Diagramm zur Unterstützung der Erläuterung der Prinzipien der Skalierbarkeit, das bei der Erfindung verwendet wird, wobei ein weiteres Beispiel von Proben verwendet wird;
12 ein Diagramm zur Unterstützung der Erläuterung der Prinzipien der Skalierbarkeit, das bei der Erfindung verwendet wird, wobei noch ein weiteres Beispiel von Proben verwendet wird;
13 ein Diagramm zur Unterstützung der Erläuterung der Prinzipien der Skalierbarkeit, das bei der Erfindung verwendet wird, wobei noch ein weiteres Beispiel von Proben verwendet wird;
14 ein Diagramm zur Unterstützung der Erläuterung eines Beispiels der Datenprobenstruktur, die mit der Erfindung zusammenhängt;
15 ein Diagramm zur Unterstützung der Erläuterung eines weiteren Beispiels der Datenprobenstruktur, die mit der Erfindung zusammenhängt;
16 ein Diagramm zur Unterstützung der Erläuterung eines weiteren Beispiels der Datenprobenstruktur, die mit der Erfindung zusammenhängt;
17 ein Diagramm zur Unterstützung der Erläuterung eines weiteren Beispiels der Datenprobenstruktur, die mit der Erfindung zusammenhängt;
18 ein Diagramm zur Unterstützung der Erläuterung eines weiteren Beispiels der Datenprobenstruktur, die mit der Erfindung zusammenhängt;
19 ein Diagramm zur Unterstützung der Erläuterung eines weiteren Beispiels der Datenprobenstruktur, die mit der Erfindung zusammenhängt;
20 ein vereinfachtes Diagramm zur Unterstützung der Erläuterung der internen Struktur eines Audiopacks, das mit der Erfindung zusammenhängt;
21 ein hierarchisches Diagramm zur Unterstützung der Erläuterung der Beziehung zwischen dem Audio-Objekt-Set und den Audiopacks im Zusammenhang mit der Erfindung;
22 ein Diagramm zur Unterstützung der Erläuterung der Beziehung zwischen den Zellen in einem offenen Audio-Title-Set und der Programmketten-Information im Zusammenhang mit der Erfindung;
23 ein Diagramm zur Erläuterung der Anordnung von logischen Daten-Items auf einer Platte, auf der DVD-Audio bezüglich der Erfindung aufgezeichnet wurde;
24 eine Tabelle zur Unterstützung der Erläuterung einer Audio-Titel-Set-Informationsmanagement-Tabelle, die sich auf die Erfindung bezieht;
25 ein Diagramm zur Unterstützung der Erläuterung von Stücken von Information, die einen Audio-Titel-Set-Programmketteninformation-Suchzeiger bilden, der in 23 gezeigt ist;
26 eine Tabelle zur Unterstützung der Erläuterung einer Kanalzuordnungstabelle, die mit der Erfindung zusammenhängt;
27 ein Diagramm zur Unterstützung der Erläuterung der internen Struktur eines Audiopacks, das mit der Erfindung zusammenhängt;
28A und 28B Tabellen zur Unterstützung der Erläuterung des Inhalts des Paket-Kopfes im Audiopack aus 27;
29 eine Tabelle zur Unterstützung der Erläuterung des Inhalts des Privat-Paket-Kopfes in dem Audiopack aus 27;
30 ein Blockdiagramm, das die Konfiguration einer Plattenwiedergabevorrichtung entsprechend der Erfindung zeigt;
31 ein Blockdiagramm, das die interne Konfiguration des Dekoders in der Plattenwiedergabevorrichtung entsprechend 30 zeigt;
32A bis 32D jeweils eine Platte, Bit-Folgen, Sektor-Folgen und einen physikalischen Sektor;
33A und 33B Diagramme zur Unterstützung der Erläuterung des Inhalts eines physikalischen Sektors;
34A und 34B Diagramme zur Unterstützung der Erläuterung der Struktur eines Aufzeichnungssektors; und
35A und 35B Diagramme zur Unterstützung der Erläuterung der Struktur eines Fehlerkorrekturblocks.
Im folgenden wird unter Bezugnahme auf die Zeichnungen eine Ausführungsform der Erfindung im Detail erläutert. Als erstes wird das Audiosignal-Aufzeichnungsformat, das in dem DVD-Videostandard festgelegt ist, erläutert.
Die Erläuterung wird hier vorgestellt, wobei die Datenanordnung mittels linearem PCM (Pulse Code Modulation) als ein Beispiel verwendet wird. Bei der linearen PCM, die weiter unten erläutert wird, sei angenommen, dass in Abhängigkeit der Situation die Anzahl der Quanisierungsbits beispielsweise gleich 16, 20 oder 24 ist.
Es gibt acht Arten von Audio-Modi: Monoaural (Kanal 1), Stereo (Kanal 2), Kanal 3, Kanal 4, Kanal 5, Kanal 6, Kanal 7 und Kanal 8.
Audiosignale der acht Kanäle A bis H werden verwendet. Jedes Audiosignal wird mit einer Abtastfrequenz von 48 kHz oder 96 kHz abgetastet und dann quantifiziert. Im folgenden wird die Erläuterung mit der Annahme gegeben, dass beispielsweise die Anzahl der Quanisierungsbits gleich 20 ist.
1A zeigt, dass Audiosignale von acht Kanälen A bis H abgetastet wurden. Für jedes Datenprobe-Item wird angenommen, dass es beispielsweise mit 20 Bits quantifiziert wurde. Jedes 20 Bit Datenprobe-Item wird in ein Hauptwort und ein Extrawort aufgeteilt.
Die Hauptwörter der Kanäle A bis H werden durch Großbuchstaben aus dem Alphabet, An bis Hn, dargestellt und die Extraworte werden durch Kleinbuchstaben, an bis hn, dargestellt. Im folgenden bedeutet der Zusatz n (n = 0, 1, 2, 3, ...) die Reihenfolge der Proben. Jedes Hauptwort enthält 16 Bit. Jedes Extrawort enthält 4 Bit.
Daher wird jedes Datenprobe-Item wie folgt gebildet:
Ein Audiosignal des Kanals A wird aufgebaut aus A0, a0, A1, a1, A2, a2, A3, a3, A4, a4 ....
Ein Audiosignal des Kanals B wird aufgebaut aus B0, b0, B1, b1, B2, b2, B3, b3, B4, b4 ...
Ein Audiosignal des Kanals C wird aufgebaut aus C0, c0, C1, c1, C2, c2, C3, c3, C4, c4 ...
Ein Audiosignal des Kanals H wird aufgebaut aus H0, h0, H1, h1, H2, h2, H3, h3, H4, h4 ...
1B zeigt das Anordnungsformat jedes Wortes in einer Probefolge (sample train) wenn die vorgenannten Hauptwörter und die Extrawörter auf dem Aufzeichnungsmedium aufgezeichnet werden.
Genauer gesagt, jedes Datenprobe-Item, das 20 (= M) Bits enthält, wird in ein 16 (= ml) Bit-Hauptwort auf der MSB-Seite (Most Significnat Bit side; obere oder hochwertigsten Bit-Seite) und ein 4 (= m2) Bit-Extrawort auf der LSB-Seite (Least Significant Bit side; untere oder niederrangige Bitseite) gebildet.
Als erstes werden die 0-ten (= 2n-ten) Hauptwörter A0 bis H0 der Kanäle A bis H zusammen angeordnet. Als nächstes werden die ersten (= 2n + 1) Hauptwörter A1 bis H1 der Kanäle A bis H zusammen angeordnet.
Dann werden 0-ten (= 2n-ten) Extrawörter a0 bis h0 der Kanäle A bis H zusammen angeordnet. Als nächstes werden die ersten (= 2n + 1) Extrawörter a1 bis h1 der Kanäle A bis H zusammen angeordnet, wobei n = 0, 1, 2, .... ist.
Eine Gruppe von Hauptwörtern A0 bis H0 der Kanäle A bis H wird als Hauptprobe S0 bezeichnet; eine Gruppe von Hauptwörtern A1 bis H1 der Kanäle A bis H wird als Hauptprobe S1 bezeichnet, eine Gruppe von Hauptwörtern A2 bis H2 der Kanäle A bis H wird als Hauptprobe 52 bezeichnet usw.
Eine Gruppe von Extrawörtern a0 bis h0 der Kanäle A bis H wird als Extraprobe e0 bezeichnet; eine Gruppe von Extrawörtern a1 bis h1 der Kanäle A bis H wird als Extraprobe e1 bezeichnet; eine Gruppe von Extrawörtern a2 bis h2 der Kanäle a bis H wird als Extraprobe e2 bezeichnet usw.
1B zeigt die jeweiligen Datenprobe-Items, die in dieser Reihenfolge angeordnet sind: Hauptprobe SO der Hauptwörter A0 bis H0, Hauptprobe S1 der Hauptwörter A1 bis H1, Extraprobe e0 der Extrawörter a0 bis h0, Extraprobe e1 der Extrawörter a1 bis h1, ...
Ein solcher Satz von zwei Hauptproben und zwei Extraproben wird als 4er-Probe oder als Zwei-Paar-Probe bezeichnet.
In diesem Format, wenn die Daten mit einer vereinfachten Maschine (beispielsweise einer Maschine die mit 16 Bit-Modus arbeitet) wiedergegeben werden, werden nur die Hauptwörter in einem der Kanäle zur Wiedergabe gehandhabt, oder bei Stereo, nur die Hauptwörter in zwei der Kanäle für die Wiedergabe gehandhabt.
Wenn Daten mit einer High-Level-Maschine (beispielsweise einer Maschine, die im 20 Bit-Modus arbeitet) wiedergegeben werden, wird das Hauptwort und das zugehörige Extrawort für die Wiedergabe gehandhabt.
1C zeigt die Anordnung der Hauptproben und der Extraproben bei Verwendung einer bestimmten Anzahl von Bits (16) in acht Hauptwörtern, die eine Hauptprobe bilden und der spezifischen Anzahl von Bits (4) in acht Extrawörtern, die eine Extraprobe bilden.
Bei Aufteilen eines 20-Bit Datenprobe-Items in einem quantifizierten linearen PCM-Code in ein 16-Bit Hauptwort und ein 4-Bit Extrawort wird folgendes möglich.
In dem Fall einer vereinfachten Maschine, die in einem 16-Bit Modus arbeitet, wenn eine Probenanordnung gehandhabt wird, kann der unnötige Teil leicht verworfen werden, indem die Daten in Einheiten von 8 Bits in den Extraprobegebieten gehandhabt werden. Dies liegt daran, dass die Menge von Daten in zwei Extraproben, die eine Zwei-Paar-Probe bilden, gleich 4 Bits × 8 Kanäle + 4 Bits × 8 Kanäle ist. Diese Datenmenge kann verarbeitet (verworfen) in Einheiten von 8 Bits acht mal in Folge werden.
Das Merkmal einer solchen Probeanordnung ist nicht auf die beschriebene Ausführungsform beschränkt. Beispielsweise kann, wenn die Anzahl der Kanäle ungerade ist, und wenn ein Extrawort 8 Bits enthält, die Gesamtzahl der Bits in zwei aufeinanderfolgenden Extraproben ein ganzzahliges Vielfaches von 8 Bits sein.
Demzufolge können mit der vereinfachten Maschine, die nur Hauptwörter wiedergibt, Extraproben leicht übersprungen werden, indem ein 8 Bit Verwerfungsprozess n-Male hintereinander entsprechend dem Modus durchgeführt wird.
Bei der Probeanordnung aus 1B können die Daten moduliert und auf einem Aufzeichnungsmedium (auf den Spuren einer optischen Platte) aufgezeichnet werden. Zusätzlich, wenn die Daten zusammen mit weiterer Steuerinformation aufgezeichnet sind, ist es wünschenswert, dass die Daten in einer solchen Form aufgezeichnet werden, dass sie Zeitmanagement erleichtern, um die Datenhandhabung und Synchronisation zu erleichtern. Um dies zu erreichen, wird die folgende Rahmenbildung (framing), Gruppierung von Frames und Paketierung ausgeführt.
1D zeigt eine Audio-Frame-Folge. Insbesondere ist eine Einheit aus Daten mit einer spezifischen Wiedergabezeit (1/600 sec) als ein Frame festgelegt. In einem Frame werden 80 oder 160 Proben angeordnet.
Wenn die Abtastfrequenz, mit der ein Audio-Signal abgetastet wird, 48 kHz beträgt, entspricht eine Abtastung bzw. Probe 1/48000 sec und die für ein Frame benötigte Zeit beträgt (1/48000 sec) × 80 Proben = 1/600 sec.
Des Weiteren, wenn die Abtastfrequenz 96 kHz ist, entspricht eine Probe 1/9600 sec und die für einen Frame benötigt Zeit = (1/96000 sec) × 160 Proben = 1/600 sec Somit werden entweder 80 oder 160 Proben einem Frame zugeordnet.
2 zeigt die Beziehung zwischen einem Frame und einer Framegruppe. Ein Frame enthält 80 oder 160 Proben und ist 1/600 sec der Daten. Eine GOF enthält 20 Frames. Damit entspricht eine GOF einer Zeitspanne von (1/600 sec) × 20 = 1/30 sec.
Dies ist die Frame- bzw. Teilbild-Frequenz beim Fernsehen. Eine Reihe von solchen GOFs bildet einen Audio-Strom (audio stream). Das Bestimmen einer Einheit von einem GOF auf diese Art ist effektiv bei der Synchronisation eines Audio-Stroms mit einem Videosignal.
Das Frame wird weiter in Pakete unterteilt, um die Daten auf dem gleichen Aufzeichnungsmedium aufzuzeichnen, auf dem andere Steuersignale und Videosignale aufgezeichnet wurden. Die Beziehung zwischen dem Paket und dem Frame wird im Anschluss erläutert.
3A zeigt die Beziehung zwischen Paketen und Frames. NV zeigt ein Navigations-Pack. In diesem Navigations-Pack NV ist ein Pack-Kopf, ein Paket-Kopf, ein PCI_PKT (presentation control Paket) und ein DSI_PKT (Datensuchinformations-Ppaket) geschrieben.
Die Daten in dem DSI_PKT sind Datensuchinformation. V bedeutet ein Video-Objekt-Pack, A bedeutet ein Audio-Objekt-Pack und S bedeutet ein Unterbild-Objekt-Pack.
Ein Pack ist festgelegt, so dass es 2048 Bytes enthält. Zusätzlich enthält ein Pack ein Paket und ist aus einem Pack-Kopf, einem Paket-Kopf und einem Paket zusammengesetzt. In DSI_PKT ist Information zur Steuerung jedes Daten-Items bei der Wiedergabe, einschließlich der Startadresse und der Endadresse für jedes Pack, geschrieben.
In 3B sind nur Audio-Packs gezeigt. Tatsächlich, wie es in 3A gezeigt ist, sind DSI_PKTs, Video-Packs V und Audio-Packs A in einer gemischten Art angeordnet. In 3B sind jedoch nur Audio-Packs A entnommen und gezeigt, um es leichter zu machen, die Beziehung zwischen den Frames und den Packs zu verstehen.
In dem Standard für das System wird so viel Information, wie die Playbackzeit zwischen einem DSI_PKT und dem nächsten DSI_PKT ausmacht, mit 0,5 sec festgelegt. Da ein Frame etwa 1/600 sec entspricht, ist die Anzahl von Audio-Frames, die zwischen einem DSI_PKT und dem nächsten DSI_PKT bestehen, gleich 30 Frames.
Die Datenmenge D in einem Frame unterscheidet sich in Abhängigkeit von der Abtastfrequenz fs der Anzahl der Kanäle N und der Anzahl von Quantisierungsbits Qb. Genauer gesagt, wenn fs = 48 kHz, dann ist D = 80 × N × Qb. Wenn fs = 96 kHz dann ist D = 160 × N × Qb.
Dementsprechend entspricht ein Frame nicht notwendigerweise einem Pack. Ein Pack kann mehreren Frames oder weniger als einem Frame entsprechen. Im Ergebnis ist der Kopf eines Frames in der Mitte eines Packs angeordnet, wie es in 3B gezeigt ist.
Positionsinformation bezüglich des Frame-Kopfs sind in dem Pack-Kopf als die Anzahl von Daten-Items (timing) geschrieben, die von dem Pack-Kopf oder DSI_PKT gezählt werden. Somit kann mit der Wiedergabevorrichtung, wenn das Aufzeichnungsmedium wiedergegeben wird, ein Frame aus dem Audiopaket entnommen werden, und die Daten in dem Kanal, der wiederzugeben ist, werden extrahiert und in einen Audiodekoder geladen, der dann einen Dekodierprozess durchführt.
4B zeigt wie ein 16-Bit Hauptwort und ein 4-Bit Extrawort angeordnet sind, wenn 20 Quantisierungs-Bits verwendet werden. 4B zeigt wie ein 16-Bit Hauptwort und ein 8-Bit Extrawort angeordnet sind, wenn 24 Quantisierungs-Bits verwendet werden.
Wie es in 4A und 4B gezeigt ist, sind die Datenprobe in einem Frame und einem Paket in Form eines ganzzahligen Vielfaches einer Einheit angeordnet, die aus zwei Paaren von Proben besteht, wobei jedes Paar aus einer Hauptprobe und einer Extraprobe besteht.
Wie es vorangehend beschrieben wurde, ist es möglich, ein Datenanordnungsverfahren zum Aufzeichnen und Übertragen von Mehrkanal-kompatiblen linearen PCM-Daten, die sowohl mit einer vereinfachten Maschine als auch mit einer High-Level-Maschine wiedergegeben werden können, und zusätzlich ein Aufzeichnungsmedium, auf dem die Daten mittels dieses Verfahrens aufgezeichnet sind, als auch einer Wiedergabevorrichtung für das Aufzeichnungsmedium bereitzustellen.
Wie es vorangehend beschrieben wurde, werden als Informationsmenge, die die Wiedergabezeit zwischen einem DSI_PKT und dem nächsten DSI_PKT ausmacht, etwa 0,5 sec festgelegt, die in dem Standard für das System bereitgestellt werden.
Ein Pack ist aus einem Pack-Kopf, einem Paket-Kopf und einem Paketdatenabschnitt aufgebaut. Sowohl im Pack-Kopf als auch im Paket-Kopf ist die zur Wiedergabe eines Audiosignals nötige Information geschrieben. Die Information enthält die Größe des Audio-Packs, die Präsentationszeitmarke (presentation time stamp) PTS für die Zeitsteuerung der Wiedergabeausgabe zum Video, den Kanalidentifikationscode (channel or stream identification code), die Anzahl der Quantisierungsbits, die Abtastfrequenz, die Datenstartadresse und die Datenendadresse.
Das Audiosignal wird in ein Paket mit einer zwei Paar-Probe als Einheit eingefügt. Eine zwei Paar-Probe besteht aus zwei Hauptproben und zwei Extraproben, wie es in den 1A bis 1C gezeigt ist.
5 ist eine vergrößerte Ansicht eines Audio-Packs. In dem Datenabschnitt des Audio-Packs sind die ersten Hauptproben S0, S1 (Hauptwörter A0 bis H0, A1 bis H1) der Zwei-Paar-Probe am Kopf des Datenbereichs angeordnet. Anschließend sind die Audiosignale in Einheiten von Zwei-Paar-Proben angeordnet.
Die Anzahl der Bytes in einem Pack ist mit 2048 fest. Andererseits, da die Datenproben Daten variabler Länge sind, sind 2048 Bytes nicht notwendigerweise ein ganzzahliges Vielfaches einer Zwei-Paar-Probe.
Deshalb kann die maximale Bytelänge eines Packs von der Bytelänge eines (Zwei-Paar-Probe × Ganzzahl) abweichen. In diesem Fall wird eine Einstellung vorgenommen, um die Gleichung zu erfüllen: Bytelänge eines Packs ≥ (Zwei-Paar-Probe × ganze Zahl). Wenn ein teil eines Packs weggelassen wird, wird die folgende Maßnahme getroffen.
Wenn der verbleibende Teil des Packs 7 Byte oder weniger enthält, werden Füllbytes bzw. Stuffing-Bytes eingefügt. Wenn der verbleibende Teil des Packs mehr als 7 Bytes oder 8 Byte oder mehr enthält, werden "Padding"-Pakete am Ende des Packs eingefügt, wie es in dem schraffierten Abschnitt in 5 gezeigt ist.
Mit Audioinformation in dieser Pack-Form ist die Handhabung beim Playback einfach. Insbesondere, da die Audiodaten am Kopf jedes Packs immer der Kopf einer Zwei-Paar-Probe sind, d.h., Hauptproben S0, S1, wird die Playback-Zeitsteuerung leicht erzielt.
Dies liegt daran, dass die Herstellungsvorrichtung Daten in Packs aufnimmt und die Daten verarbeitet. Wenn eine Audiodatenprobe in einer solchen Art angeordnet ist, dass sie sich über zwei Packs erstreckt, wird die Wiedergabevorrichtung 2 Packs aufnehmen, die Audiodaten-Items integrieren, und die verbleibenden Daten-Items dekodieren, was den Prozess komplizieren würde.
Bei dem Verfahren der Erfindung jedoch sind die Audiodaten am Kopf eines jeden Packs immer der Kopf einer Zwei-Paar-Hauptprobe und die Audiodaten-Items sind in Packs gruppiert. Dies ermöglicht, dass die Zeitsteuerung für nur ein Pack vorgenommen wird, was die Verarbeitung leichter macht.
Da die Daten in Pakete segmentiert sind, ist das Authoring-System (Unterstützungssystem) vereinfacht, und auch die Software zur Datenverarbeitung ist vereinfacht.
Insbesondere bei der speziellen Wiedergabe (spezial playback) werden die Videodaten intermittierend ausgedünnt oder interpoliert. In diesem Fall wird die Wiedergabe-Zeitsteuerung relativ leicht gesteuert, da die Audiodaten in Paketen gehandhabt werden können. Die Dekoder-Software ist ebenfalls nicht kompliziert.
Während bei dem obigen System die 20 Bit Datenprobe in die höherrangigen 16 Bits und die niederrangigen 4 Bits aufgeteilt werden um eine Probe zu bilden, sind die Daten nicht notwendigerweise auf diese Form beschränkt. Solange sie durch Abtasten von linearen PCM-Audiodaten erhalten werden, können sie jede andere Form annehmen.
Beispielsweise, wenn die Datenlänge einer Extraprobe 0 ist, wird der Datenstring aus aufeinanderfolgenden Hauptproben zusammengesetzt sein, was eine allgemeine Datenform ist. In diesem Fall, da keine Extraprobe vorhanden ist, muss keine Zwei-Paar-Probe als eine Einheit verwendet werden, und es können Hauptproben paketiert werden.
6 zeigt die Größe der linearen PCM-Daten, wenn lineare PCM-Daten in einem Paket in Einheiten von Zwei-Paar-Proben angeordnet sind. Genauer gesagt, der Audiostream-Modus ist in Mono (Kanal 1), Stereo (Kanal 2) und Mehrkanal 3 bis 8 klassifiziert. Jede Klasse ist des Weiteren durch die Anzahl von Quantisierungs-Bits unterteilt. Jede Zahl zeigt die maximale Anzahl von Proben an, die in ein Paket passen.
Da eine Zwei-Paar-Probeneinheit verwendet wird, ist die Anzahl in jedem Paket gerade. Wenn die Anzahl der Kanäle ansteigt, steigt die Anzahl von Bytes entsprechend, wodurch die Zahl der Proben in einem Paket sinkt.
Wenn die Anzahl von Quantisierungs-Bits bei Mono 16 ist, ist die Anzahl der Proben in einem Paket gleich 1004, die Anzahl der Bytes ist 2008 und die Anzahl der Füllbytes ist 5, und die Zahl der Padding-Bytes ist 0, mit der Ausnahme, dass die Anzahl der Füllbytes in dem ersten Paket gleich 2 Bytes ist. Dies liegt daran, dass drei Bytes Attributinformation zu den Kopf des ersten Pakets hinzuaddiert werden können.
In dem Stereomodus, in dem 24 Quantisierungsbits verwendet werden, werden sechs Bytes in das erste Paket und neun Bytes in jedes der folgenden Pakete gefüllt.
7 zeigt die Umrisse des Pack-Kopfes eines Audiopacks. Ein Pack-Startcode (vier Bytes) wird zuerst geschrieben, gefolgt von einem Systemtaktbezug (SCR). Der Systemtaktbezug SCR zeigt die Zeit an, die benötigt wird, um das Pack zu nehmen. Wenn der Wert von SCR kleiner als der Wert der Bezugszeit in der Wiedergabevorrichtung ist, wird das Pack, zu dem das SCR gegeben wurde, in den Audiopuffer geladen.
In dem Pack-Kopf ist die programmmultiplexe Rate mit drei Bytes und eine Fülllänge mit einem Byte eingeschrieben. Unter Bezug auf die Fülllänge kann eine Steuerschaltung eine Steuerinformation-Leseadresse bestimmen.
8 listet den Inhalt des Paketkopfes in einem Audiopaket auf. Der Paketkopf enthält einen Paketstartcode-Prefix, um den Start des Pakets anzuzeigen, eine Stream-ID um anzuzeigen, welche Art von Daten das Paket enthält und Daten bezüglich der Länge des Paket-Grund-Stroms (packet elementary stream PES).
In dem Paket-Grund-Strom PES sind verschiedene Arten von Information eingeschrieben. Diese umfassen beispielsweise ein Flag zum Verbieten oder Erlauben des Kopierens, ein Flag zum Mitteilen, ob die Information original oder kopierte ist, und Information bezüglich der Länge des Paket-Kopfes.
Des Weiteren ist in dem Paketkopf ebenfalls eine Präsentationszeitmarke (presentation time stamp PTS) zum Synchronisieren des Paketes mit Video und unter Bildern bezüglich der Zeit der gesteuerten Ausgabe eingeschrieben. Außerdem ist in jedem Videoobjekt ein Flag zum Mitteilen, wo eine Beschreibung bezüglich eines Puffers und der Größe des Puffers gemacht wurden, in dem ersten Paket in dem ersten Feld eingeschrieben. Der Paketkopf hat ebenfalls 0 bis 7 Füllbytes.
Der Paketkopf hat des Weiteren eine Substream-ID, um einem Audiostream mitzuteilen, ob lineare PCM oder ein anderes Kompressionsverfahren verwendet wird, und die Audiostream-Nummer. In dem Paket ist die Zahl der Audioframes, in denen die Kopfbytedaten-Items angeordnet sind, eingeschrieben. Des Weiteren befindet sich dort ein Zeiger oder Pointer, um den ersten Audioframe in einem Paket, der zu der durch PTS spezifizierten Zeit wiederzugeben ist, oder das erste Byte einer Einheit, auf die zugegriffen werden muss, anzuzeigen.
Der Zeiger wird durch die Bytezahl geschrieben, die von dem letzten Byte in der Information gezählt wird, und zeigt die erste Byteadresse in dem Audioframe. Des Weiteren sind ein Audioverstärkungsflag, um mitzuteilen, ob die hohen Frequenzen betont werden oder nicht, ein Stummflag, um den Ton stumm zu schalten, wenn die Audioframedaten-Items gleich 0 sind, und eine Frame-Nummer, auf die zuerst in der Audio-Frame-Gruppe (GOF) in dem Paket zugegriffen wird, eingeschrieben.
Des Weiteren sind in dem Paket die Länge eines Quantisierungswortes oder die Zahl von Quantisierungsbits, die Abtastfrequenz, die Anzahl der Kanäle und die dynamische Bereichsteuerinformation geschrieben.
Die Kopfinformation wird bei dem Dekoder-Steuerabschnitt (nicht gezeigt) in dem Audiodekoder analysiert. Die Dekoder-Steuerstation schaltet die Signalverarbeitungsschaltung des Dekoders auf den Signalverarbeitungsmodus, der mit den Audiodaten-Items kompatibel ist, die gegenwärtig genommen werden.
Da Information ähnlich der Kopfinformation auch in einem Videomanager geschrieben wird, muss die Information, wenn sie einmal zu Beginn des Wiedergabevorgangs geschrieben wurde, nicht aufs Neue gelesen werden, so lange der gleiche Substream wiedergegeben wird.
Der Grund, warum Information bezüglich des notwendigen Modus zur Wiedergabe von Audio in dem Kopf eines jeden Pakets geschrieben ist, ist, dass ein Wiedergabeterminal in der Lage ist, den Audiomodus zu erkennen, wann immer es mit dem Empfang der Daten beginnt, in einem Fall, in dem eine Paketfolge dem Kommunikationssystem übertragen wird. Ein weiterer Grund ist, dass Audioinformation wiedergebbar gemacht wird, auch wenn der Audiodekoder nur Packs entgegennimmt.
Bei dem Audiodatenformat beruhend auf dem DVD-Videostandard ist die maximale Übertragungsrate für Audiodaten gleich 6,144 Mbps und die maximale Übertragungsrate der Summe der Audiodatenströme ist 9,8 Mbps. Die Attribute (einschließlich der Abtastfrequenz fs, die Anzahl von Quantisierungsbits Qb und der Anzahl von Kanälen N) für jeden Kanal sind in dem Strom gleich. Diese Beschränkungen wurden in dem DVD-Videostandard bestimmt.
Aufgrund dieser Beschränkungen können hohe Tonqualitäts-Spezifikationen bei Mehrkanal-Audio, wie etwa Surround (beispielsweise sechs Kanäle, R, L, C, SR, SL und SW, die in einem Strom enthalten sind) nicht erzielt werden.
Genauer gesagt, mit den Beschränkungen müssen die Abtastfrequenz fs und die Anzahl von Quantisierungsbits Qb für jeden Kanal die gleichen sein. Wenn daher versucht wird, hochqualitativen Sound (beispielsweise ein fs = 96 kHz) zu verwirklichen, müssen alle Kanäle auf die gleiche Art behandelt werden, was dazu führt, dass der Wert der Übertragungsrate ansteigt und eventuell einen vorgegebenen Wert übersteigt.
Beispielsweise, wenn die Übertragungsrate für jeden Kanal (ch) bei einer Abtastfrequenz von fs mit der Zahl der Quantisierungsbits gleich Qb wie folgt ist, wird nur ein Audiodatenabschnitt möglich:
2,304 Mbs/ch bei 96 kHz mit 24 Bits
1,92 Mbs/ch bei 96 kHz mit 20 Bits
1,536 Mbs/ch bei 96 kHz mit 16 Bits
1,152 Mbs/ch bei 48 kHz mit 24 Bits
0,96 Mbs/ch bei 48 kHz mit 20 Bits
0,76 Mbs/ch bei 48 kHz mit 16 Bits.
Somit erreichen Spezifikationen hoher Tonqualität, die unter den Beschränkungen des DVD-Videostandards erreichbar sind, sechs Kanäle mit 48 kHz und 20 Bits (in diesem Fall, beträgt die Audiorate bleich 0,96 × 6 = 5,76 Mbps < 6,144 Mbps). Aufgrund dieser Beschränkung können bessere Spezifikationen nicht verwirklicht werden.
Um diesen Nachteil zu überwinden, modifiziert die Erfindung die Datenstruktur gemäß dem DVD-Audiostandard und entsprechend einer qualitativ hochwertigen Audiosignalspezifikation, während sie die Art der Audiodatenstruktur in dem DVD-Standard so weit als möglich unverändert belässt.
Im folgenden wird das Grundkonzept der Erfindung auf der Basis des Vergleichs zwischen dem DVD-Videostandard und dem DVD-Audiostandard beschrieben. Genauer gesagt, es wird entschieden, dass die Größe des Audiopacks in dem DVD-Audio gleich 2048 Bytes wie bei dem DVD-Video ist. Es wird ebenfalls entschieden, dass die Zahl der Quantisierungsbits Qb = 16 Bits, 20 Bits oder 24 Bits wie in der Audiospezifikation in DVD-Video ist.
Bei DVD-Audio ist die Zahl der linearen PCM-Audiostreams, die gleichzeitig zu übertragen sind, auf einem Grenzpunkt. Genauer gesagt, bei DVD-Video, wenn der Inhalt von Filmen als Videoobjekt aufgezeichnet wird, werden die jeweiligen Sprachen in jeweilige Kanäle der Audiostreams zugeordnet, was es den Audiostreams ermöglicht, selektiv geändert zu werden.
Da DVD-Audio im wesentlichen mit Musikinhalten umgeht, ist es nicht nötig, selektiv für jeden Strom zu wechseln. Dies ermöglicht, dass alle Kanäle gleichzeitig wiedergegeben und ausgegeben werden. Bei der Erfindung sind die PCM-Audiostreams, die gleichzeitig zu übertragen sind, zusammen in einer Gruppe angeordnet, wie es vorangehend beschrieben wurde.
Die maximale Übertragungsrate bei DVD-Audio steigt von 6,144 Mbps auf 9,6 Mbps. Für alle Videodatenstreams in DVD-Video werden die jeweiligen Packs für Videodaten, Unterbilddaten, Audiodaten und Navigationsdaten zeitteilungsmultiplext und übertragen.
Die maximale Übertragungsrate, einschließlich aller Übertragungsdaten, ist auf 9,6 Mbps beschränkt. Daher ist es schwierig, die Audiodatenübertragungsrate höher als 6,14 Mbps zu machen.
Da alle Daten in DVD-Audio aus Audiodaten bestehen, mit Ausnahme der Steuerdaten, ist die Audiodatenmenge erhöht, was die Übertragungsrate erhöht.
Da die maximale Übertragungsrate bei DVD-Audio erhöht ist, wie es vorangehend beschrieben ist, ist die Anzahl der Proben in einem Audioframe, wie es in 2 gezeigt ist, halbiert. Somit wird entschieden, dass die Anzahl von Proben bei einer Abtastfrequenz von fs wie folgt ist:
40 Proben/Frame bei fs = 48 kHz oder 44,1 kHz
80 Proben/Frame bei fs = 96 kHz oder 88,2 kHz
160 Proben/Frame bei fs = 192 kHz oder 176,4 kHz.
Bei DVD-Video werden 44,1 kHz, 88,2 kHz, 176,4 kHz und 192 kHz nicht unterstützt. Der Zweck, diese nicht zu unterstützen, besteht darin, zumindest ein Audiopack in einem Audioframe zu haben und es einem Audioframe zu ermöglichen, zwangsweise Daten bei einer Präsentationszeitmarke (PTS) zu haben (Daten zum Synchronisieren der Daten mit der Systemzeitmarke während der Wiedergabe).
Des Weiteren verwendet ein DVD-Audio ein skalierbares Verfahren zum Verwirklichen der hochqualitativen Audiospezifikation, die DVD-Video überlegen ist. Genauer gesagt, bei dem Stand der Technik haben alle Kanäle in einem Strom die gleichen Attribute bezüglich der Abtastfrequenz fs und der Anzahl von Quantisierungs-Bits Qb. Im Gegensatz dazu, ermöglicht die Erfindung Kanäle mit unterschiedlichen Attributen in einem Strom zu existieren.
Dies beruht auf der Tatsache, dass beispielsweise von 6 Kanälen R (rechter Kanal), L (linker Kanal), C (Mittelkanal), SR (hinterer rechter Kanal), SL (hinterer linker Kanal) und SW (Niederfrequenzkanal) es nicht nötig ist, dass alle Kanäle auf "Ton hoher Qualität" (mit einer hohen Abtastfrequenz = fs) gesetzt werden, und dass, wenn die Hauptkanäle (beispielsweise R und L) auf Ton hoher Qualität (beispielsweise fs = 96 kHz) besetzt sind, und die anderen Unterkanäle (C, SR, SL und SW) auf die gegenwärtige Tonqualität (fs = 48 kHz) eingestellt sind, dies hinreichend hohe Tonqualität insgesamt liefert.
Das Konzept eines Audiosystems mit dem skalierbaren Verfahren wird im folgenden kurz erläutert. Das Ziel ist es, eine maximale Übertragungsrate der Signale in einer Kanalgruppe gleich 6,144 Mbps oder weniger und die maximale Übertragungsrate der Summen von Übertragungsraten von Signalen in einem Strom gleich 9,8 Mbps oder weniger zu machen.
Die Kanalgruppe bedeutet digitale Signale einschließlich Stereo R und L Kanäle (zwei Hauptkanäle). Ein Strom, in den C, SR, SL und SW zusammengesetzt sind, ist ebenfalls eine Kanalgruppe.
Im folgenden wird eine Erläuterung gegeben, wie beispielsweise sechs Kanal-Audiosignale auf einem Aufzeichnungsmedium aufzuzeichnen sind. Die sechs Kanäle enthalten hier R, L, C, SR, SL und SW in dem Surround-Verfahren. Die Signale entsprechen den jeweiligen Kanälen werden erzeugt.
R und L können als Hauptkanäle und die anderen als Unterkanäle verwendet werden. Wenn das Signal für jeden Kanal wieder gegeben und einem Lautsprecher zugeführt wird, erzeugt dies einen dreidimensionalen akustischen Effekt.
Mit dem Verfahren der Erfindung werden die sechs Kanäle in der Form einer ersten Kanalgruppe und einer zweiten Kanalgruppe erzeugt. In diesem Fall werden R und L mit hoher Wichtigkeit als Kanäle ausgewählt, die die erste Kanalgruppe bilden, und C, SR, SL und SW werden als Kanäle ausgewählt, die die zweite Kanalgruppe bilden.
In diesem Fall wird ein Audiosignal in der ersten Kanalgruppe mit einer hohen Abtastfrequenz fs abgetastet, und ein Audiosignal in der zweiten Kanalgruppe wird mit einer Abtastfrequenz von fs/2 abgetastet (eins größer als eine ganze Zahl).
9A ist ein Blockdiagramm eines Aufzeichnungssystems für das Audiosignal der ersten Kanalgruppe und eines Aufzeichnungssystems für das Audiosignal in der zweiten Signalgruppe. Eine analoge Signalquelle 10 hat die Signale in den R, L, C, SR, SL und SW Kanälen, die für das Surround-Verfahren verwendet werden und liefert sie an den Abtastabschnitt 11.
Der Abtastabschnitt 11 tastet alle eingegebenen Kanalsignale mit einer Abtastfrequenz von fs = 96 kHz ab. Jedes in dem Abtastabschnitt 11 abgetastetes Signal wird einem Quantisierungsabschnitt 12 eingegeben, welcher das Signal in 24 Bit-Datenprobe quantifiziert. Die 24 Bit-Datenprobe werden in ein PCM-Signal umgewandelt.
Als nächstes werden die C, SR, SL und SW Kanäle einem Frequenzwandlerabschnitt 13 eingegeben, der die Abtastfrequenz fs von 96 kHz auf die Hälfte von 96 kHz, nämlich 48 kHz umwandelt.
Andererseits wird jedes der R und L Kanalsignale, die mit 96 kHz abgetastet werden, dem Phasenanpassabschnitt 14 eingegeben, der die Phasen einer Abtastung mit der von anderen in Übereinstimmung bringt. Tatsächlich wird das gleiche Ausmaß an Verzögerung entsprechend dem Frequenzwandlerabschnitt 13 in der Phasenanpassschaltung 14 eingestellt. Die verzögerten 96 kHz R und L Kanalsignale werden in einen Framing-Abschnitt 15 eingegeben, der die Signale in Einheiten einer spezifischen Anzahl von Proben in Rahmen bzw. Frames anordnet.
Das Frequenz-gewandelte 48 kHz-Signal der C, SR, SL und SW Kanäle wird in einen Framing-Abschnitt 16 eingegeben, der das Signal in Einheiten mit einem spezifischen Anteil von Proben in Frames anordnet.
Die Signale, die in den Frame-Verarbeitungsabschnitten 15 und 16 in Frames angeordnet wurden, werden einem Paketier-Abschnitt 17 eingegeben, der sie in ein Paket eines vorgegebenen Formats umwandelt. Auf diese Art werden ein 96 kHz-Routenstrom (ein Strom mit einem ersten Attribut Atr1) und ein 48 kHz Routenstrom (ein Strom mit einem zweiten Attribut Atr2) erhalten.
Diese beiden Ströme werden durch die Identifizierer (ID) identifiziert, die in Paketköpfen gegeben sind. Die Pakete in den beiden Kanalgruppen werden weiter gepackt und multiplext und dann auf einer Platte 18 über einen Aufzeichnungsabschnitt (nicht gezeigt) aufgezeichnet.
Wenn das auf der Platte 18 aufgezeichnete Signal wiedergegeben wird, wird die folgende Verarbeitung durchgeführt. 9B zeigt ein Wiedergabesystem für das Audiosignal in der ersten Kanalgruppe und ein Wiedergabesystem für das Audiosignal in der zweiten Kanalgruppe.
Zunächst durchläuft das optisch von der Platte 18 gelegene Signal durch ein Demodulationsabschnitt (nicht gezeigt) und wird in einen Paketverarbeitungsabschnitt 21 eingegeben. Der Demodulierabschnitt führt einen Fehlerkorrekturprozess und einen Modulationsprozess durch. Der Paketverarbeitungsabschnitt 21 identifiziert eine Kanalgruppe unter Bezugnahme auf den Identifizierer im Paketkopf. Die Identifikation unterscheidet zwischen dem Paket in der ersten Kanalgruppe und dem Paket in der zweiten Kanalgruppe. Signale in den jeweiligen Kanalgruppen werden nämlich geteilt oder gemultiplext.
Dann wird das Signal in der ersten Kanalgruppe einem Frame-Verarbeitungsabschnitt 22 eingegeben, der den Frame auslöscht und ein R Kanalsignal und ein L Kanalsignal ausgibt. Das Signal in der zweiten Kanalgruppe wird dem Frame-Verarbeitungsabschnitt 23 eingegeben, der den Frame auslöscht und C, SR, SL und SW Kanalsignale ausgibt.
Die R und L Kanalsignale werden einem Phasenanpassabschnitt 24 eingegeben. Die C, SR, SL und SW Kanalsignale werden einem Frequenzwandlerabschnitt 25 eingegeben, der die Abtastfrequenz fs von 48 kHz auf 96 kHz hochwandelt.
Die R und L Kanalsignale und die C, Sr, SL und SW Kanalsignale, die in Phase zusammenpassen und gleiche Abtastfrequenz fs haben, werden in einen 96 kHz D/A-Wandlerabschnitt 26 (digital/analog converting section) eingegeben, sie in PCM-Signale umwandelt und dann in analoge Signale.
Bei der oben beschriebenen Verarbeitung werden die qualitativ hochwertigen R und L Kanalsignale und die normalen C, SR, SL und SW Kanalsignale wiedergegeben.
Erfindungsgemäß wird die Anzahl von Probendatenitems in einem Frame auf einen solchen Wert eingestellt, dass dieser 1/600 sec bei der Wiedergabe benötigt. Daher unterscheidet sich die Zahl von Probendatenitems in einem Frame zwischen dem 96 kHz Routenstrom (der ersten Kanalgruppe) und dem 48 kHz Routenstrom (der zweiten Kanalgruppe).
In 10 wird die Anzahl von Datenprobe-Items in einem Frame der ersten Kanalgruppe mit jeder in der zweiten Kanalgruppe verglichen. Der Phasenanpassabschnitt 14 passt die Phase der ersten Kanalgruppe und jene der zweiten Kanalgruppe an, um ein Frame zu erzeugen.
Dann werden die Framingabschnitte 15 und 16 die gleiche Wiedergabezeitmarke PTS zu den Köpfen der entsprechenden Frames (den Frames, die zur gleichen Zeit wiedergegeben werden sollen) in den ersten und zweiten Kanalgruppen hinzufügen. Im Ergebnis, wenn die Framverarbeitungsabschnitte 22, 23 die Frames bei der Wiedergabe löschen und die Ergebnisse an den D/A-Wandlerabschnitt 26 liefern, wird die Zeitsteuerung zum Löschen jedes Frames so sein, dass die Frames mit der gleichen Präsentationszeitmarke PTS gleichzeitig gelöscht werden.
Wie vorangehend beschrieben wurde, wird bei DVD-Audio eine Gruppe von Kanalgruppen, die normalerweise einen Audistrom bilden würde, in zwei Attributgruppen Atr1 und Atr2 aufgeteilt. Die Attribute enthalten die Abtastfrequenz fs, die Anzahl der Quantisierungsbits Qb und die Anzahl der Kanäle N. Wenn die Attribute aller Kanäle in einem Strom gleich sind, muss die Kanalgruppe nicht in zwei Attributgruppen aufgeteilt werden.
In dem Fall von sechs Surround-Kanälen werden die Attribute (Atr1) für die erste Kanalgruppe, die aus R und L gebildet ist, so sein, dass die Abtastfrequenz fs 96 kHz beträgt und die Quantisierungs-Bits Qb gleich 24 ist, und die Attribute (Atr2) für die zweite Kanalgruppe, die aus C, SR, SL und SW gebildet ist, werden so sein, dass die Abtastfrequenz fs gleich 48 kHz und die Anzahl der Quantisierungsbits Qb gleich 24 ist.
In diesem Fall ist die Übertragungsrate gleich 2,304 × 2 + 1,1152 × 4 = 9,216 Mbps, was die maximale Übertragungsrate von 9,8 Mbps erfüllt. Daher ermöglicht die Verwendung des skalierbaren Verfahrens die Erzeugung einer Audiodatenstruktur, die hochqualitative Audiospezifikationen (high-sound-quality audio specifications) erfüllt.
Bei der obigen Erläuterung wurden die Abtastfrequenz fs und die Anzahl der Quantisierungsbits Qb in den Attributen in den ersten und zweiten Kanalgruppen eingefügt.
Bei dem erfindungsgemäßen Verfahren können verschiedene Kombinationen von Abtastfrequenz fs und Anzahl von Quantisierungsbits Qb wie folgt betrachtet werden: Ein Fall, in dem die Abtastfrequenz fs sich unterscheidet und die Anzahl von Quantisierungsbits Qb die gleiche ist, ein Fall, in dem die Abtastfrequenz fs die gleiche ist, und die Anzahl von Quantisierungsbits Qb sich unterscheidet, ein Fall, in dem die Abtastfrequenz fs die gleiche ist und die Anzahl von Quantisierungsbits die gleiche ist, ein Fall, in dem die Abtastfrequenz fs sich unterscheidet und die Anzahl von Quantisierungsbits sich unterscheidet. Wesentlich ist, dass ein Strom gebildet wird, der die maximale Übertragungsrate von 9,8 Mbps erfüllt.
11 zeigt Fall 1. In Fall 1 ist Attribut Atr1 für die erste Kanalgruppe die Abtastfrequenz fs von 96 kHz und Attribut Atr2 für die zweite Kanalgruppe ist die Abtastfrequenz fs von 48 kHz.
12 zeigt Fall 2. In Fall 2 sind die Attribute Atr1 und Atr2 für die ersten und zweiten Kanalgruppen jeweils die Abtastfrequenz fs von 96 kHz.
13 zeigt Fall 3. In Fall 3 sind die Attribute Atr1 und Atr2 für die ersten und zweiten Kanalgruppen jeweils die Abtastfrequenz fs von 48 kHz.
Wenn mehrere Kanalgruppen mit unterschiedlichen Attributen in einem Strom existieren, verwendet das erfindungsgemäße Verfahren die folgende Datenstruktur.
Die Datenstruktur von 14 entspricht dem Fall 1 aus 11. In 14 ist die Abtastfrequenz fs gleich 96 kHz und die Anzahl von Quantisierungsbits Qb ist 16 für das Attribut Atrt1 in der ersten Kanalgruppe und die Abtastfrequenz fs ist 48 kHz und die Anzahl der Quantisierungsbits Qb ist 16 für das Attribut Atrt2 in der zweiten Kanalgruppe. Des Weiteren basiert die Datenstruktur auf dem skalierbaren Verfahren und spiegelt die DVD-Video-Probenanordnungsstruktur wieder.
Insbesondere sind vier Proben S4n; S4n + 1, S4n + 2 und S4n + 3 Hauptproben mit dem ersten Attribut und zwei Proben S2n und S2n + 1 sind Hauptproben mit dem zweiten Attribut. In diesem Fall, da die Anzahl von Quantisierungsbits Qb in dem ersten Attribut und jene in dem zweiten Attribut jeweils 16 sind, gibt es keine extra Proben.
In diesem Fall entsprechen vier Proben in der ersten Kanalgruppe zwei Proben in der zweiten Kanalgruppe, da die Abtastfrequenz fs ist. Vier Proben sind grundlegend bzw. fundamental in der ersten Kanalgruppe und dienen als Hauptgruppe. Wenn die zweite Kanalgruppe in Betracht gezogen wird, sind insgesamt sechs Proben fundamental.
Insbesondere ist die Datenstruktur aus 14 so, dass die Signale in der ersten Kanalgruppe, nämlich zumindest zwei Kanäle, mit einer ersten Frequenz abgetastet werden und die Signale in der zweiten Kanalgruppe, nämlich die anderen Kanäle, mit einer zweiten Frequenz abgetastet werden.
Zunächst werden S4n-te, S4n + 1-te, S4n + 2-te und S4n + 3-te Hauptproben in den jeweiligen Kanälen, die die erste Kanalgruppe bilden und mit der ersten Frequenz abgetastet sind, in Folge angeordnet und dann werden S2n-te und S2n + 1-te Hauptproben in den jeweiligen Kanälen, die die zweite Kanalgruppe bilden und mit der zweiten Frequenz abgetastet sind, in Folge angeordnet, wobei n = 0, 1, 2, ... ist.
Die Datenstruktur aus 15 entspricht dem Fall 2 aus 12. In 15 ist die Abtastfrequenz fs gleich 96 kHz und die Anzahl der Quantisierungsbits Qb ist 24 für das Attribut Atrt1 in der ersten Kanalgruppe, und die Abtastfrequenz fs ist 96 kHz und die Anzahl der Quantisierungsbits Qb ist 20 für das Attribut Atrt2 in der zweiten Kanalgruppe.
In diesem Fall enthalten Zwei-Paar-Proben S2n, S2n + 1, e2n und e2n + 1 vier Proben und Extraproben mit dem ersten Attribut und weitere Zwei-Paar-Proben S2n, S2n + 1, e2n und e2n + 1 sind Hauptproben mit dem zweiten Attribut. Insgesamt sind Vier-Paar-Proben fundamental. Extraproben e2n, e2n + 1 mit dem ersten Attribut sind Extraproben die mit dem zweiten Attribut.
Insbesondere ist die Struktur von 15 so, dass die Signale in der ersten Kanalgruppe, nämlich zumindest zwei Kanäle, mit der ersten Frequenz abgetastet sind, und die Signale in der zweiten Kanalgruppe, die anderen Kanäle, mit der zweiten Frequenz abgetastet sind. Des Weiteren werden die Daten in m1-Bit Hauptwort auf der MSB-Seite und in ein m2-Bit Extrawort auf der LSB-Seite aufgeteilt.
Dann werden die Hauptwörter in den 2n-te Datenprobe-Items der jeweiligen Kanäle in der ersten Kanalgruppe in Hauptprobe S2n zusammengebracht, die Hauptwörter in den 2n + 1-ten Datenprobe-Items der jeweiligen Kanäle der ersten Kanalgruppe werden in der Hauptprobe S2n + 1 zusammengebracht, die Extrawörter 2n-te Datenprobe-Items der jeweiligen Kanäle in der ersten Kanalgruppe werden in Extraprobe e2n zusammengebracht, und die Extrawörter in den 2n + 1-ten Datenprobe-Items der jeweiligen Kanäle in der ersten Kanalgruppe werden in der Extraprobe e2n + 1 zusammengebracht. Diese Proben werden in dieser Reihenfolge angeordnet.
Nach dieser Anordnung werden die Hauptwörter in den 2n-te Datenprobe-Items der jeweiligen Kanäle in der zweiten Kanalgruppe in der Hauptprobe S2n zusammengebracht, die Hauptwörter in der 2n + 1-ten Datenprobe-Items der jeweiligen Kanäle in der zweiten Kanalgruppe werden in der Hauptprobe S2n + 1 zusammengebracht, die Extrawörter in den 2n-ten Datenprobe-Items der jeweiligen Kanäle in der zweiten Kanalgruppe werden in der Extraprobe e2n zusammengebracht, und die Extrawörter in den 2n + 1-ten Datenprobe-Items der jeweiligen Kanäle in der zweiten Kanalgruppe werden in der Extraprobe e2n + 1 zusammengebracht, wobei n = 0, 1, 2, ... Diese Proben werden in dieser Reihenfolge angeordnet.
Die Datenstruktur aus 16 entspricht dem Fall 3 aus 13. In 16 beträgt die Abtastfrequenz fs 48 kHz und die Anzahl der Quantisierungsbits Qb ist 16 für das Attribut Atrt1 in der ersten Kanalgruppe, und die Abtastfrequenz fs ist 48 kHz und die Anzahl der Quantisierungsbits Qb ist 16 für das Attribut Atrt2 in der zweiten Kanalgruppe.
In diesem Fall sind S4n und S4n + 2 Hauptproben mit dem ersten Attribut, und e4n und e4n + 2 sind Extraproben mit dem ersten Attribut, S4n und S4n + 2 sind Hauptproben mit dem zweiten Attribut, und e4n und e4n + 2 sind Extraproben mit dem zweiten Attribut. In den ersten und zweiten Kanalgruppen sind Zwei-Paar-Proben fundamental. Insgesamt sind Vier-Paar-Proben fundamental.
Genauer gesagt, die Datenstruktur aus 16 ist so, dass die Signale der ersten Kanalgruppe, nämlich zumindest zwei Kanäle, die mit der ersten Frequenz abgetastet werden, und die Signale in der zweiten Kanalgruppe, die anderen Kanäle, mit der zweiten Frequenz abgetastet werden. Des Weiteren werden die Daten in ein m1-Bit Hauptwort auf der MSB-Seite und ein m2-Bit Extrawort auf der LSB-Seite aufgeteilt.
Dann werden die Hauptworte in den 4n-ten Datenprobe-Items der jeweiligen Kanäle in der ersten Kanalgruppe in der Hauptprobe S4n zusammengebracht, die Hauptwörter in den 4n + 2-ten Datenprobe-Items der jeweiligen Kanäle in der ersten Kanalgruppe werden in der Hauptprobe S4n + 2 zusammengebracht, die Extrawörter in dem 4n-ten Datenprobe-Items der jeweiligen Kanäle in der ersten Kanalgruppe werden in der Extraprobe e4n zusammengebracht, und die Extrawörter in den 4n + 2-ten Datenprobe-Items der jeweiligen Kanäle in der ersten Kanalgruppe werden der Extraprobe e4n + 2 zusammengebracht. Diese Proben werden in dieser Reihenfolge angeordnet.
Nach dieser Anordnung werden die Hauptworte in den 4n-ten Datenprobe-Items der jeweiligen Kanäle in der zweiten Kanalgruppe in der Hauptprobe S4n zusammengebracht, die Hauptwörter in den 4n + 2-ten Datenprobe-Items der jeweiligen Kanäle in der zweiten Kanalgruppe werden in der Hauptprobe S4n + 2 zusammengebracht, die Extrawörter in den 4n-ten Datenprobe-Items der jeweiligen Kanäle der zweiten Kanalgruppe werden in der Extraprobe e4n zusammengebracht, und die Extrawörter in den 4n + 2-ten Datenprobe-Items der jeweiligen Kanäle in der zweiten Kanalgruppe werden in der Extraprobe e4n + 2 zusammengebracht, wobei n = 0, 1, 2, ... Diese Proben werden in der Reihenfolge angeordnet.
Die Datenstruktur aus 17 entspricht Fall 1 aus 11. In diesem Fall ist jedoch die Zahl der Quantisierungsbits in der ersten Kanalgruppe unterschiedlich von jener der zweiten Kanalgruppe. Genauer gesagt, in 17 ist die Abtastfrequenz fs = 96 kHz und die Anzahl der Quantisierungsbits Qb ist 20 für das Attribut Atrt1 in der ersten Kanalgruppe, und die Abtastfrequenz fs ist 48 kHz und die Anzahl der Quantisierungsbits Qb ist 24 für das Attribut Atrt2 in der zweiten Kanalgruppe. Des Weiteren basiert die Datenstruktur auf dem skalierbaren Verfahren und gibt DVD-Video-Probenanordnungsstruktur wieder.
Insbesondere sind vier Proben S4n, S4n + 1, S4n + 2 und S4n + 3 Hauptproben mit dem ersten Attribut und Zweitproben S2n und S2n + 1 Hauptproben mit dem zweiten Attribut. In diesem Fall sind die Extraproben e4n, e4n + 1, e4n + 2 und e4n + 3 in der ersten Kanalgruppe vorhanden, und die Extraproben e2n und e2n + 1 sind in der zweiten Kanalgruppe vorhanden. In diesem Fall sind auch Vier-Paar-Proben fundamental in der ersten Kanalgruppe. In der entsprechenden zweiten Kanalgruppe sind Zwei-Paar-Proben fundamental. Insgesamt sind sechs Paar Proben fundamental.
Mit der oben beschriebenen Datenstruktur ist es möglich, eine DVD-Audiodatenstruktur zu erhalten, die mit High-Sound-Qualität-Audiosignalspezifikationen übereinstimmt und eine spezifische Datenübertragungsrate erfüllt, während die Art der DVD-Video-Audiodatenstruktur so weit wie möglich erhalten bleibt.
Die Erfindung liefert eine charakteristische Datenstruktur und ist insbesondere dadurch gekennzeichnet, dass die Abtastfrequenz fs in einem von zwei Attributen ein Vielfaches der Abtastfrequenz fs in dem anderen ist. Wenn nur entweder die Zahl der Kanäle N oder die Zahl der Quantisierungsbits Qb zwischen den Attributen sich unterscheidet, macht es das Konzept des DVD-Videostandards möglich, mit einer Datenstruktur umzugehen, die sich in der Zahl der Kanäle N unterscheidet, oder bei der sich die Zahl der Quantisierungsbits unterscheiden.
Beispielsweise bei der Datenstruktur, wie sie in den 4A und 4B gezeigt ist, wird die Zahl der Kanäle N oder die Zahl der Quantisierungsbits Qb in der Attributinformation in dem Daten-Item, das dem Hauptprobenabschnitt und dem Extraprobenabschnitt folgt, geändert und aufgezeichnet.
Die Erfindung weist weiterhin das folgende Konzept in der oben beschriebenen Datenstruktur auf. 11 zeigt die Übereinstimmung in der Synchronisationszeit zwischen jeder Probe der ersten Kanalgruppe mit dem Attribut Atrt1 und jeder Probe in der zweiten Kanalgruppe mit dem zweiten Attribut Atrt2, wobei Bezugssymbole 4n, 4n + 1, 4n + 2, 4n + 3 und 2n und 2n + 1 verwendet werden.
Wie aus den Figuren ersichtlich ist, werden vier Proben eingestellt. Somit werden vier Proben als ein Satz gehandhabt. Wie es in 18 gezeigt ist, können zwei Proben S4n und S4n + 1 mit dem ersten Attribut Art1 und zwei Proben S2n und S2n + 1 mit dem zweiten Attribut Atrt2 aufeinander folgend angeordnet sein, gefolgt von zwei Proben S4n + 2 und S4n + 3 mit dem ersten Attribut Atrt1. Diese Datenstruktur entspricht einer Modifikation der Datenstruktur aus 14.
19 zeigt ein weiteres Beispiel der Datenstruktur. Die Datenstruktur entspricht einer Modifikation der Datenstruktur aus 16. Genauer gesagt, vier Proben S4n, S4n + 1, S4n + 2 und S4n + 3 sind Hauptproben mit dem ersten Attribut, und zwei Proben S2n und S2n + 1 sind Hauptproben mit dem zweiten Attribut.
In diesem Fall sind Extraproben e4n, e4n + 1, e4n + 2 und e4n + 3 in der ersten Kanalgruppe vorhanden, und Extraproben e2n und e2n + 1 sind in der zweiten Kanalgruppe vorhanden. In diesem Fall sind Vier-Paar-Proben in der ersten Kanalgruppe fundamental. In der entsprechenden zweiten Kanalgruppe sind Zwei-Paar-Proben fundamental. Insgesamt sind Sechs-Paar-Proben fundamental.
In der Datenstruktur werden S4n, S4n + 1, e4n, e4n + 1 in der ersten Kanalgruppe und S2n, S2n + 1, e2n, e2n + 1 in der zweiten Kanalgruppe in eine Vier-Paar-Probe zusammengebracht. Anschließend werden Zwei-Paar-Proben S4n + 2, S4n + 3, e4n + 2 und e4n + 3 der ersten Kanalgruppe angeordnet.
Die Einheit von Proben kann auch wie folgt verstanden werden. Wenn die Abtastfrequenz fs des ersten Attributs Atri1 die gleiche wie bei dem zweiten Attribut Atri2 (beispielsweise im Fall von 12 und 13 sowie 15 und 16) ist, und wenn die Zahl der Proben nach Ablauf der gleichen Zeit zwischen der Seite der ersten Kanalgruppe mit dem Attribut Atri und der Seite der Kanalgruppe mit dem zweiten Attribut Atr2 die gleiche ist. In diesem Fall können die Daten in Einheiten von zwei Proben erhalten werden, wie bei dem DVD-Videostandard.
Des Weiteren kann die Datenstruktur der Erfindung auch wie folgt verstanden werden. Die Anzahl der Proben, die einen Satz oder eine Einheit bilden, ist grundsätzlich 2, 4 oder 6. Um Flexibilität zu erhalten, können zwölf Proben, das kleinste gemeinsame Vielfache von 2, 4 und 6, oder Zwölf-Paar-Proben als Einheit verwendet werden, und die Daten können in Einheiten von 12 Proben oder von Zwölf-Paar-Proben gehandhabt werden.
Wie vorangehend beschrieben wurde, kann die Zahl der Proben, die eine Einheit bilden, von Fall zu Fall unterschiedlich sein. In jedem dieser Fälle werden die Daten jedoch in dem Datengebiet eines Audiopacks in Einheiten von Proben gefüllt. Wenn der verbleibende Teil des Audiopacks zu kurz für eine Einheit ist, werden Stuffing- bzw. Füllbytes oder auch Padding-Pakete wie im Videostandard eingefügt.
20 zeigt einen Fall, in dem ein Padding-Paket eingefügt wird, da ein Gebiet (schattierter Abschnitt) kleiner als eine Einheit ist. Ein Gebiet kleiner als eine Einheit bedeutet ein Gebiet, in dem die Menge von Daten-Items gleich oder kleiner als eine bestimmte Anzahl von Proben oder eine bestimmte Anzahl von Probenpaaren ist. Eine bestimmte Anzahl von Proben oder eine bestimmte Anzahl von Probenpaaren ist 2, 4, 6 oder 12. Das Audiopack enthält 2048 Bytes und ist ausgestaltet, um notwendigerweise eine Präsentationszeitmarke PTS zu haben.
Die Datenanordnung des ersten Attributs Art1 und des zweiten Attributs Art2 sind nicht hierauf beschränkt. Beispielsweise können die Daten in umgekehrter Reihenfolge angeordnet sein. Die Anordnung kann nach Wahl geändert werden.
Während bei der Erläuterung 96 kHz und 48 kHz als Abtastfequenz fs verstanden wurden, ist die Erfindung nicht auf diese beschränkt. Beispielsweise können 88,2 kHz und 44,1 kHz verwendet werden. Die Erfindung kann auf ein Paar von Abtastfrequenzen angewendet werden, von denen die eine das Doppelte der anderen ist. Um Flexibilität bereitzustellen, kann das Paar von Abtastfrequenzen fs so sein, dass eine Abtastfrequenz ein ganzzahliges Vielfaches der anderen ist. Die Erfindung ist leicht auf ein solches Paar anwendbar.
Bei der Erläuterung werden zwei Arten von Kanalattributen in einem Strom verwendet. Die Erfindung kann auf einen Strom angewendet werden, indem drei oder mehr Arten von Kanalattributen verwendet werden.
Bei der Erläuterung wurde die Datenstruktur erklärt. Die Erfindung kann auf ein Aufzeichnungsmedium angewendet werden, das die obige Datenstruktur aufweist, auf ein Verfahren und eine Vorrichtung zum Aufzeichnen von Daten auf dem Aufzeichnungsmedium, auf ein Verfahren und eine Vorrichtung zum Wiedergeben der Daten auf dem Aufzeichnungsmedium und auf ein Datenübertragungsverfahren.
Als nächstes wird die Beziehung zwischen der Gesamtdatenstruktur einer optischen Platte, auf der DVD-Audioinformation aufgezeichnet ist, und den vorher genannten Audiopacks kurz erläutert.
21 zeigt ein Beispiel der Datenstruktur des Inhaltes (audio-only title audio object set AOTT_AOBS), der in einer DVD-Audiozone aufgezeichnet ist.
AOTT_AOBS legt einen Satz von einem oder mehreren Audioobjekten AOTT_AOB #n fest. Jedes AOTT_AOB legt einen Satz von einem oder mehreren Audiozellen ATS_C #n fest. Ein Satz von einer oder mehreren ATS_C #n bildet ein Programm. Ein Satz von einem oder mehreren Programmen bildet eine Programmkette PGC. Die PGC bildet eine logische Einheit zum Anzeigen eines ganzen oder Teile von einem Audiotitel.
Bei dem Beispiel ist jede Audiozelle ATS_C # aus einem Satz von 2048 Byte Audiopacks A_PCK zusammengesetzt. Diese Packs bilden die kleinste Einheit beim Durchführen des Datenübertragungsprozesses. Die kleinste Einheit bei der logischen Verarbeitung ist eine Zelle. Logische Verarbeitung wird in Zellen ausgeführt.
22 ist ein Diagramm, das helfen soll, einen Fall zu erläutern, in dem auf eine Zelle mittels einer Programmketteninformation ATS_PGCI in der DVD-Audiozone zugegriffen wird. Insbesondere werden auf der Basis der Zellenwiedergabeinformation bei Programm #1 in ATS_PGCI die Zellen ATS_C #1 und ATS_C #2 in AOB wiedergegeben.
Wenn eine PGC mit einer Oper verglichen wird, entsprechen Zellen, die die PGC bilden, verschiedenen Musikszenen oder Gesangszenen der Oper. Der Inhalt der PGC (oder der Inhalt der Zelle) wird durch einen Software-Provider festgelegt, der den auf der Platte aufgezeichneten Inhalt erzeugt. Insbesondere kann der Provider die Zellen wiedergeben, die AOTT_AOBS bilden, wie es geplant ist, wobei die Zellenwiedergabeinformation ATS_C_PBI verwendet wird, die in der Programmketteninformation ATS_PGCI in ATS geschrieben ist.
Das folgende ist eine Erläuterung, wie verschiedene Entscheidungen in der ersten und zweiten Kanalgruppe in den Managementdaten gemacht werden.
23 ist ein Diagramm, das helfen soll, den Inhalt zu verstehen, der in dem Audiotitelset ATS in einer DVD-Audiozone aufgezeichnet ist. Der Audiotitelset ATS besteht aus Audiotitelsetinformation ATSI, Audio-only title object set AOTT_AOBS und audio title set information backup ATSI_BUP.
Audio-titel-set-information ATSI enthält eine Audio-titel-set-information-Managementtabelle ASI_MAT und eine Audio-titel-set-Programm-Ketteninformationstabelle ATS_PGCIT.
Die Audio-titel-set-Programm-Ketteninformationstabelle ATS_PGCIT enthält Audio-titel-set-Programm-Ketteninformationstabellen ATS_PGCITI, einen Audio-titel-set-Programm-Ketteninformationssuchzeiger ATS_PGCI_SRP und einen oder mehrere Stücke Audio-title-set-Programmketteninformation ATS_PGCI.
24 listet den Inhalt auf, der in der Audio-titel-set-informations-Managementtabelle ATSI_MAT aus 23 aufgezeichnet ist. Genauer gesagt, ist in der Audio-titel-set-informations-Managementtabelle ATSI_MAT das folgende vorgesehen: ein Audio-titel-set-identifizierer ATSI_ID, die Endadresse ATS_EA des Audio-titel-sets, die Endadresse ATSI_EA des der Audio-titel-set-information, die Versionsnummer VERN des verwendeten Audiostandards, die Endadresse ATSI_MAT_EA der Audio-titel-set-informations-Managementtabelle, die Startadresse VTS_SA des Audio-only-title-AOTT-Video-titel-set VTS, die Startadresse AOTT_AOBS_SA des Audio-only-title-audio-object-sets oder die Startadresse AOTT_VOBS_SA des Audio-only-title-video-object-sets, die Startadresse ATS_PGCIT_SA der Audio-titele-set-programm-Ketteninformationstabelle, das Attribut AOTT_AOBS_ATR des Audio-only-title-audio-object-sets oder die Attribute AOTT_VOBS_ATR #0 bis #7 des Audio-only-title-video-object-sets, Audio-title-set-data-mixing-coefficients ATS_DM_COEFT #0 bis #15 und andere reservierte Bereiche.
In der Startadresse VTS SA des Audio-only-title-AOTT-video-title-sets VTS ist die Startadresse des Videotitelsets VTS, einschließlich VTSTT_VOBS, das für AOTT verwendet wird, geschrieben, wenn ATS keinen AOTT_AOBS hat. Wenn ATS AOTT_AOBS hat, dann ist "00000000h" in VTS SA geschrieben. Der Grund hierfür ist, dass Videoinformation ebenfalls aufgezeichnet sein kann.
Bei der AOTT_AOBS_SA wird die Startadresse von AOTT_AOBS in der Zahl relativer logischer Blocks geschrieben, die von dem ersten logischen Block in ATS gezählt werden, wenn ATS ein AOTT_AOBS hat. Andererseits, wenn ATS kein AOTT_AOBS hat, wird die Startadresse des Videotitelsets VTSTT_VOBS für jeden Videotitelset in AOTT_VOBS_SA bei der Zahl relativer logischer Blocks geschrieben, die von dem ersten logischen Block in VTS gezählt werden, einschließlich VTSTT_VOBS, die für ATS verwendet werden.
Bei ATS_PGCIT_SA wird die Startadresse ATS_PGCIT bei der Nummer von relativen logischen Blocks geschrieben, die von dem ersten logischen Block von ATSI aus gezählt werden.
Acht Attributinformationen für den Audiotitelset AOTT_AOB_ATR #0 bis #7 oder Attributinformation für den Videotitelset AOTT_VOB_ATR #1 bis #7 werden vorbereitet. Wenn ATS ein AOTT_AOBS hat, wird das Attribut für AOTT_AOB das in ATS aufgezeichnet ist, in AOTT_AOB_ATR geschrieben.
Wenn andererseits ATS kein AOTT_AOBS hat, wird das Attribut für einen Audiostream in VOB, das für AOTT_VOB in ATS verwendet wird, in AOTT_VOB-ATR geschrieben. In dem AOTT_AOB-ATR oder AOTT_VOB-ATR wird die verwendete Abtastfrequenz fs (44 bis 192 kHz) und die Anzahl der Quantisierungsbits Qb (16 oder bis 24) beschrieben.
Des Weiteren wird in dem Abschnitt eine Kanalzuordnung geschrieben. Bei der Kanalzuordnung wird Zuordnungsinformation an den jeweiligen Kanal in dem Audiostrom, der in dem durch das Attribut spezifizierten Videoinhalt enthalten ist, geschrieben. Der Inhalt der Zuordnungsinformation entspricht der Struktur der mehreren Kanäle. Die Kanalzuordnungsinformation wird später beschrieben. Die Zuordnungsinformation wird auch in einen später erläuterten Audiopaketkopf geschrieben.
ATS_DM_COEFT zeigt einen Koeffizienten an, der zum Heruntermischen der Audiodaten mit Mehrkanalausgabe verwendet wird, sowie etwa DTS (Decoding Time Stamp) oder AC-3, zu einer Zweikanalausgabe und wird nur verwendet, wenn ein oder mehr AOTT_AOB in ATS aufgezeichnet sind.
Wenn ATS kein AOTT_AOBS hat, wird "Oh" in alle Bits in 16 ATS_DM_COEFT (#0 bis #15) geschrieben. Das Gebiet der 16 ATS_DM_COEFT (#0 bis #15) wird konstant vorgesehen.
25 ist ein Diagramm, um bei der Erläuterung des Inhalts der Audio-titel-set-programm-Ketteninformationstabelle ATS_PGCIT zu helfen, die in der Audio-titel-set-information ATSI enthalten ist. Die Aufzeichnungsposition von ATS_PCGIT wird in ATS_PGCIT_SA von ATSI_MAT geschrieben.
Die ATS_PGCIT enthält eine Audio-titel-set-Programm-Ketteninformations-Tabelleninformation ATS_PGCITI, einen Audio-titel-set-Programm-Ketteninformationsuchzeiger ATS_PGCI_SRP und Audio-titel-set-Programm-Ketteninformation ATS_PGCI.
ATS_PGCI_SRP enthält einen oder mehrere Audio-titel-set-Programm-Ketteninformationsuchzeiger ATS_PGCI_SRP #1 bis ATS_PGCI_SRP #j. ATS_PGCI enthält ein Stück von Audio-titel-set-Programm-Ketteninformation ATS_PGCI #1 bis ATS_PGCI #j als ATS_PGCI_SRP #1 bis ATS_PGCI_SRP #j.
Jedes ATS_PGCI arbeitet als Navigationsdaten zur Steuerung der Wiedergabe der Audio-titel-set-Programmkette ATS_PGC.
ATS_PGC, das eine Einheit ist, die verwendet wird, um Audio-only-title AOTT festzulegen, besteht aus ATS_PGCI und einem oder mehreren Zellen (Zellen in AOTT_AOBS oder Zellen in ATOTT_VOBS, die als Objekt von AOTT verwendet werden).
Jede ATS_PGCI enthält im allgemeinen Information bezüglich der Audio-titel-set-Programmketten ATS_PGC_GI, eine Audio-titel-set-Programm-Informationstabelle ATS_PGIT, eine Audio-titel-set-Zellenwiedergabe-Informationstabelle ATS_C_PBIT und eine Audio-titel-set-audio-still-video-Playback-Informationstabelle ATS_ASV_PBIT.
Die ATS_PGIT enthält ein oder mehrere Stücke von Audio-titel-set-Programminformation ATS_PGI #1 bis ATS_PGI #k. Die ATS_C_PBIT enthält so viele Stücke von Audio-titel-set-Zellen-Playbackinformation ATS_C_PBI #1 bis ATS_C_PBI #k wie ATS_PGI #1 is ATS_PGI #k.
26 ist eine Tabelle, die die Kanalzuordnungsinformation und die Klassen der ersten Kanalgruppe und der zweiten Kanalgruppe auflistet, die auf der Grundlage der Kanalzuordnungsinformation klassifiziert sind. In ATSI_MAT aus 24 wird Attributinformation bezüglich des Audioobjekts geschrieben. In der Audioinformation ist eine Kanalzuordnung vorhanden. Die in 26 gezeigten Daten sind die Kanalzuordnung.
Wenn die Kanalzuordnungsinformation gleich 00000b ist, heißt dies Mono, wenn sie gleich 00001b ist, heißt dies, dass L und R (Stereo) Kanäle in der ersten Kanalgruppe vorhanden sind, und wenn sie gleich 00010b ist, heißt dies, dass Lf und Rf (links vorne und rechts hinten) Kanäle in der ersten Kanalgruppe vorhanden sind und dass S (Surround) in der zweiten Kanalgruppe vorhanden ist.
Wenn die Kanalzuordnungsinformation gleich 00011b ist, heißt dies, dass Lf und Rf Kanäle in der ersten Kanalgruppe vorhanden sind, dass Ls und Rs (left surround und right surround) in der zweiten Kanalgruppe vorhanden sind. Wenn sie gleich 00100b ist, heißt dies, dass Lf und Rf Kanäle der ersten Kanalgruppe und LFE (low-frequency-band effect) in der zweiten Kanalgruppe vorhanden sind.
Wenn die Kanalzuordnungsinformation 00101b ist, heißt dies, dass Lf und Rf Kanäle in der ersten Kanalgruppe vorhanden sind, und dass LEF und S in der zweiten Kanalgruppe vorhanden sind. Wenn sie gleich 00110b ist, heißt dies, dass Lf und Rf Kanäle in der ersten Kanalgruppe und LFE, Ls, Rs in der zweiten Kanalgruppe vorhanden sind.
Wenn die Kanalzuordnungsinformation gleich 00111b ist, heißt dies, dass Lf und Rf Kanäle in der ersten Kanalgruppe vorhanden sind, dass C (Mitte) in der zweiten Kanalgruppe vorhanden ist. Wenn sie gleich 01000b heißt dies, dass Lf und Rf Kanäle in der ersten Kanalgruppe und C und S in der zweiten Kanalgruppe vorhanden sind.
Wenn die Kanalzuordnungsinformation gleich 01001b ist, heißt dies, dass Lf und Rf Kanäle in der ersten Kanalgruppe vorhanden sind, und dass C, Ls und Rs in der zweiten Kanalgruppe vorhanden sind. Wenn sie gleich 01010b ist, heißt dies, dass Lf und Rf Kanäle in der ersten Kanalgruppe vorhanden sind, und dass C und LFE in der zweiten Kanalgruppe vorhanden sind.
Wenn die Kanalzuordnungsinformation gleich 01011b ist, heißt dies, dass Lf und Rf Kanäle in der ersten Kanalgruppe vorhanden sind, dass C, LFE und S in der zweiten Kanalgruppe vorhanden sind. Wenn sie gleich 01100b ist, heißt dies, dass Lf und Rf Kanäle in der ersten Kanalgruppe vorhanden sind, und dass C, LFE, Ls und Rs in der zweiten Kanalgruppe vorhanden sind.
Wenn die Kanalzuordnungsinformation gleich 01101b ist, heißt dies, dass Lf und Rf Kanäle und C in der ersten Kanalgruppe vorhanden sind, und dass S in der zweiten Kanalgruppe vorhanden ist. Wenn sie gleich 01110b ist, bedeutet dies, dass Lf und Rf Kanäle und C in der ersten Kanalgruppe vorhanden sind und Ls und Rs in der zweiten Kanalgruppe vorhanden sind.
Wenn die Kanalzuordnungsinformation gleich 01111b ist, heißt dies, dass Lf und Rf und C in der ersten Kanalgruppe vorhanden sind, und dass LFE der zweiten Kanalgruppe vorhanden ist. Wenn sie gleich 10000b ist, heißt dies, dass Lf und Rf Kanäle und C in der ersten Kanalgruppe vorhanden sind und dass LEF und S in der zweiten Kanalgruppe vorhanden ist.
Wenn die Kanalzuordnungsinformation gleich 10001b ist, heißt dies, dass Lf und Rf Kanäle und C in der ersten Kanalgruppe vorhanden sind und dass LFE, Ls und Rs in der zweiten Kanalgruppe vorhanden sind. Wenn sie gleich 10010b ist, heißt dies, dass Lf und Rf Kanäle, Ls und Rs in der ersten Kanalgruppe vorhanden sind und dass LFE in der zweiten Kanalgruppe vorhanden ist.
Wenn die Kanalzuordungsinformation gleich 10011b ist, heißt dies, dass Lf und Rf Kanäle, Ls und Rs in der ersten Kanalgruppe vorhanden sind, und dass C in der zweiten Kanalgruppe vorhanden ist. Wenn sie 10100b ist, heißt dies, dass Lf und Rf Kanäle, Ls und Rs in der ersten Kanalgruppe vorhanden sind, und dass C und LFE in der zweiten Kanalgruppe vorhanden sind.
Bei der Attributinformation aus 24 oder AOTT_AOB_ATR oder AOTT_VOB_ATR ist die Abtastfrequenz fs (44 bis 192 kHz) und die Anzahl der Quantisierungsbits Qb (16 bis 24 Bits) die verwendet werden, geschrieben.
Als nächstes wird ein Audiopack weiter detailliert erläutert. 27 zeigt die Grundstruktur eines Audiopacks A_PKT. Genauer gesagt, in A_PKT werden Gebiete wie folgt eingestellt: ein Packkopf, ein Paketkopf, eine Unterstrom-ID, ISRC (International Standard Recording Code), eine Privat-Kopflänge, ein erster Zugriffseinheitszeiger, Audiodateninformation, 0 bis 7 Füllbytes und lineare PCM Audiodaten.
Die folgende Regel wird auf die Größe des Paketkopfes angewendet. Genauer gesagt, wenn A_PKT das erste Paket in einem Audioobjekt ist, wird die Größe 17 Byte lang. Wenn es nicht das erste Daten-Item des Audioframes enthält, wird die Größe 9 Byte lang. Wenn es das erste Daten-Item enthält, wird die Größe 14 Byte lang.
Ein lineares PCM-Audiopaket besteht aus einem Paketkopf, einem Private-Kopf und Audiodaten. Der Inhalt des Paketkopfes und jeden des Private-Kopfes sind in den 28A, 28B und 29 gezeigt.
28A und 28B zeigen ein Paketkopf. Daten-Items werden in dieser Reihenfolge geschrieben: Paketstartcode, Strom-ID, PES-Paketlänge, "01", PES-Scramble-Steuerinformation, PES-Priorität, Datenanordnungsanzeiger, Copyright, Original oder Kopie, PTS_DTS-Flag, ESCR_Flag, ES Ratenflag, DSM-Trickmodusflag, zusätzliches Kopierflag, PES CRS-Flag, PES-Expanded-Flag und PES-Flaglänge.
Anschließend sind fünf Bytes für ein Gebiet bereitgestellt, in dem eine Präsentationszeitmarke PTS, die die Wiedergabezeit des Pakets angibt, einzuschreiben ist. Dann wird das Ffolgende in dieser Reihenfolge eingeschrieben: ein PES-Private-Datenflag, ein Pack-Kopffeld-Flag, ein Programmpaket-Sequenzzählerflag, ein P_STD-Pufferflag, ein zweites PES-Expanded-Flag, "01", eine P_STD-Pufferskalierung und P_STD-Puffergrößeninformation.
29 zeigt ein Privat-Paket. Daten-Items sind in dieser Reihenfolge eingeschrieben: eine Substream-ID, reserviert, eine ISRC-Nummer, ISRC-Daten, eine Private-Kopflänge, einen Kopfzugriffseinheitszeiger, ein Audioverstärkungsflag, reserviert, reserviert, einen Downmix-Code, eine erste Zahl von Quantisierungsbits, eine zweite Zahl von Quanitisierungsbits, eine erste Audioabtastfrequenz, eine zweite Audioabtastfrequenz, reserviert, eine Mehrkanalart, reserviert, eine Kanalzuordnung, dynamische Bereichssteuerungsinformation und Füllbytes.
Eine Erläuterung der jeweiligen Feldelemente wird gegeben. In der Substream-ID zeigt 10100000b an, dass lineare PCM-Audiodaten geschrieben sind. Bei der ISRC-Nummer, die für Standbildsteuerung verwendet wird, wird eine Zahl im Bereich von 1 bis 12 zum Anzeigen des Bereichs der aufgezeichneten ISRC-Daten geschrieben. Bei den ISRC-Daten werden die durch die ISRC-Nummer spezifizierten Daten geschrieben.
Die Private-Kopflänge wird durch die Nummer der logischen Blöcke ausgedrückt, die von dem letzten Byte in dem Feld gezählt werden. Bei dem Zugriffseinheitszeiger am Kopf des Feldes wird die Adresse: des Anfangsbytes einer Einheit, auf die zuerst zugegriffen wird, mit der Zahl der logischen Blöcke ausgedrückt, speziell von dem letzten Byte in dem Feld.
Bei dem Audio-Verstärkungsflag wird Emphasis-off geschrieben, wenn die Abtastfrequenz fs 96 kHz oder 88,2 kHz ist. Emphasis-off wird auch geschrieben, wenn die zweite Abtastfrequenz fs gleich 96 kHz oder 88,2 kHz ist. Eine 0 wird geschrieben für Emphasis-off, und eine 1 wird geschrieben für Emphasis-on. Bei dem Downmix-Code wird eine Koeffiziententabelle für das Heruntermischen der Audioproben spezifiziert. Die Tabellennummer ist im Bereich von 0000b bis 1111b.
Bei der ersten Nummer der Quantisierungsbits Qb wird die Nummer der Bits bei den quantifizierten Audioproben der ersten Kanalgruppe geschrieben. Wenn dies gleich 0000b ist, heißt dies, dass 16 Bits geschrieben sind, wenn sie 0001b ist, heißt dies 20 Bits, und wenn es 0010b ist, heißt dies 24 Bits.
Bei der zweiten Nummer der Quantisierungsbits Qb wird die Nummer der Bits in den quantifizierten Audioproben in der zweiten Kanalgruppe geschrieben. Wenn dies gleich 0000b ist, heißt dies 16 Bits, wenn dies 0001b ist, heißt dies 20 Bits und wenn dies 0010b ist, heißt dies 24 Bits. Wenn sie gleiche 1111b ist, heißt dies, dass die Zahl der Bits nicht bestimmt wurde. Dies passiert z.B. wenn die zweite Kanalgruppe nicht existiert.
Bei der ersten Audioabtastfrequenz wird die Abtastfrequenz fs eines Audiosignals der ersten Kanalgruppe geschrieben. Wenn dies gleich 0000b ist, heißt dies, 48 kHz, wenn dies 0001b ist, heißt dies 96 kHz, wenn dies 1000b ist, heißt dies 44,1 kHz und wenn dies gleich 1001b ist, heißt dies 88,2 kHz.
Bei der zweiten Audioabtastfrequenz wird die Abtastfrequenz fs eines Audiosignals in der zweiten Kanalgruppe geschrieben. Wenn dies gleich 0000b ist, heißt dies 48 kHz, wenn dies gleich 0001b ist, heißt dies 96 kHz, wenn dies gleich 1000b ist, heißt dies 44,1 kHz und wenn dies gleich 1001b ist, heißt dies 88,2 kHz. Wenn dies gleich 1111b ist, heißt dies, dass die Abtastfrequenz fs nicht bestimmt wurde. Dies tritt z.B. auf, wenn die zweite Kanalgruppe nicht existiert.
Bei dem Mehrkanaltyp wird der Typ oder die Art der Mehrkanalstruktur einer Audioprobe geschrieben. Wenn dies gleich 0000b ist, heißt dies Typ 1 und wenn dies nicht gleich 0000b ist, heißt dies reserviert. Bei der Kanalzuordnung wird der Kanalzuordnungszustand eingeschrieben, wie es in 26 gezeigt ist.
Die dynamische Bereichssteuerinformation wird verwendet, um den dynamischen Bereich zu unterdrücken. Die am weitesten links stehenden Bits in dem Acht-Bit-Wort zeigen eine ganze Zahl X an, und die verbleibenden fünf Bits zeigen eine ganze Zahl Y an.
Die lineare Verstärkung ist G = 2⁴ – [(X + Y)/30], wobei (0 ≤ X ≤ 7, 0 ≤ Y ≤ 29) ist. In dB bedeutet dies, G = 24,082 – 6,0206X – 0,2007Y, wobei 0 ≤ X ≤ 7, 0 ≤ Y ≤ 29 ist.
Bei der Plattenwiedergabe nimmt der Systemsteuerabschnitt die Attributinformation, die beispielsweise die Zuordnung der Kanalgruppen anzeigt, die erste Zahl der Quantisierungsbits und die zweite Zahl der Quantisierungsbits in den Audiodaten und die ersten und zweiten Audioabtastfrequenzen, wobei nicht nur ermöglicht wird, dass die Daten in den ersten und zweiten Kanalgruppen sequenziert werden, sondern auch die Wiedergabezeitsteuerung ermöglicht wird. Somit können diese Stücke von Kopfinformation als Synchronisationsinformation verwendet werden.
Das Wiedergabesystem für eine DVD-Audioplatte, auf der in oben beschriebenen Art und Weise Daten geschrieben sind, wird nun detailliert erläutert. 30 zeigt den Signalweg der Wiedergabevorrichtung bezüglich der Audioströme. Die auf einer optischen Platte 500 aufgezeichneten Daten werden durch einen Abschnitt 533 eines optischen Kopfs gelesen, der ein Hochfrequenzsignal ausgibt.
Das Hochfrequenzsignal (Auslesesignal), das einem Systemverarbeitungsabschnitt 504 eingegeben wird, wird einem Synchronisationssensor 601 eingegeben. Der Synchronisationssensor 601 erfasst das Synchronisationssignal, das den aufgezeichneten Daten zugefügt ist und erzeugt ein Zeitsteuerungssignal. Das Auslesesignal, von dem das Synchronisationssignal bei dem Synchronisationssensor 601 entfernt wurde, wird einem 8-16 Demodulator 602 eingegeben, der ein 16-Bit Signal in ein 8-Bit Signal demoduliert. Der 8-16 Demodulator 602 demoduliert das Auslesesignal in einen 8-Bit Datenstring.
Die demodulierten Daten werden einer Fehlerkorrekturschaltung 603 eingegeben, die eine Fehlerkorrekturverarbeitung durchführt. Die fehlerkorrigierten Daten werden einem Demultiplexer 605 über einen Track- oder Spur-Puffer 604 eingegeben. Der Demultiplexer 605 identifiziert einen Audiopack, einen Echtzeitpack und ähnliches beruhend auf der Strom-ID und gibt jeden Pack an den entsprechenden Dekoder.
Ein Audiopack wird in einen Audiopuffer 611 geladen. Der Packkopf und der Paketkopf in einem Audiopack werden durch eine Steuerschaltung 612 gelesen. Die Steuerschaltung 612 erkennt den Inhalt des Audiopacks. Genauer gesagt, die Steuerschaltung 612 erkennt den Startcode des Audiopacks, die Fülllänge, den Paketstartcode und die Strom-ID. Sie erkennt weiterhin die Paketlänge, die Unterstrom-ID, den ersten Zugriffspunkt, die Zahl der Audioquantisierungsbits, die Abtastfrequenz und die Kanalgruppen aus der Kanalzuordnung.
Beim Erkennen dieser Informationsstücke kann die Steuerschaltung 612 den Inhalt der linearen PCM-Datenpakete wiedergeben und ein Dekodierverfahren bestimmen. Des Weiteren kann die Steuerschaltung 612 die Segmentationsadresse für die wiederzugebenden Audiodaten in dem Paket, das in dem Audiopuffer 612 gespeichert ist, erfassen.
Im Ergebnis gibt unter der Steuerung der Steuerschaltung 612 der Audiopuffer 611 die vorgenannten Proben, beispielsweise S0, S1, e0, e1, S2, S3, ... an den Dekoder 613. Die Steuerschaltung 612 erkennt zumindest die Zahl der Quantisierungsbits, die Abtastfrequenz und die Kanalzuordnung. Beruhend auf den erkannten Informationsstücken können die Daten segmentiert und der Dekodiermodus in dem Dekoder 613 eingestellt werden. Die Proben werden an den Dekoder 613 geliefert, der einen Kanalprozess durchführt und die Daten dekodiert.
31 zeigt ein Beispiel der Konfiguration des Dekoders 613. Die einem Eingabeanschluß 710 gelieferte Probe wird Kanal für Kanal durch einen Schalter 712 unter der Steuerung der Steuerschaltung 612 zugeordnet. Genauer gesagt, wenn Signal L oder Lf (einschließlich einem Extrawort) angekommen ist, wird dies einem Pufferspeicher 713 zugeordnet, wenn Signal R oder Rf (einschließlich einem Extrawort) angekommen ist, wird dies einem Pufferspeicher 714 zugeordnet, wenn Signal C (einschließlich einem Extrawort), wenn dies ebenfalls angekommen ist, wird dies einem Pufferspeicher 715 zugeordnet, wenn Signal Ls (einschließlich einem Extrwort, wenn dies ebenfalls eingetroffen ist), wird dies einem Pufferspeicher 716 zugeordnet, wenn das Signal Rs (einschließlich einem Extrawort, wenn dies ebenfalls eingetroffen ist) eingetroffen ist, wird dies einem Pufferspeicher 717 zugeordnet. Wenn des Weiteren ein Signal S angekommen ist, wird dies einem Pufferspeicher 718 zugeordnet, und wenn ein Signal LEF angekommen ist, wird das einem Pufferspeicher 719 zugeordnet.
Die Ausgänge der jeweiligen Pufferspeicher 713 bis 716 werden jeweils Frame-Verarbeitungsabschnitten 813 bis 819 eingegeben, die eine Frameeinheit bilden. Die Ausgaben der Frameverarbeitungsabschnitte 813, 814, 815, 816 und 817 werden jeweils an die Phasenanpassabschnitte 723, 724, 725, 726 bzw. 727 geliefert.
Die Ausgaben der Phasenverarbeitungsabschnitte 815, 816 und 817 können ebenfalls an jeweilige Frquenzwandler 821, 822 bzw. 823 über einen Schalter 820 geliefert werden. Die Ausgaben der Frame-Verarbeitungsabschnitte 818 und 819 können ebenfalls an einen Frequenzwandler 824 bzw. 825 geliefert werden.
Die Phasenanpassabschnitte 723 bis 727 sind zur endgültigen Anpassung der Phase eines Signals der ersten Kanalgruppe mit einem Signal in der zweiten Kanalgruppe vorgesehen, während die zweite Kanalgruppe frequenzgewandelt wird. Die Ausgabe der Phasenanpassschaltungen 723 bis 727 und jene der Frequenzwandler 821 bis 825 werden an eine Auswahlschaltung bzw. einen Selektor 730 geliefert.
Wie es in 26 gezeigt ist, wählt der Selektor 730 die entsprechenden Kanalsignale entsprechend der Information in der Kanalzuordnung und liefert die ausgewählten Signale an die entsprechenden Digital/Analog-Wandler 731, 732, 733, 734, 735 bzw. 736.
Während bei der Ausführungsform eine Probe in der zweiten Kanalgruppe frequenzgewandelt und ausgegeben wurde, kann sie in ein Analogsignal ohne Frequenzwandlung umgewandelt werden. Auf diese Art kann der Phasenanpassabschnitt in der ersten Kanalgruppe eliminiert werden.
Als nächstes wird der Weg der oben beschriebenen Audioinformation, die auf einer optischen Platte aufgezeichnet wird, kurz erläutert. Wie es in den 32A bis 32D gezeigt ist, wenn ein Teil der Aufzeichnungsseite einer optischen Platte 100 vergrößert ist, kann gesehen werden, dass Pit-Folgen ausgebildet sind. Ein Satz von Pits bildet einen Sektor. Auf den Spuren oder Tracks auf der optischen Platte 100 sind Sektorfolgen (sector trains) ausgebildet. Die Sektoren werden durch einen optischen Kopf nacheinander gelesen, wodurch sie Audiopacks in Echtzeit wiedergeben. Im folgenden wird nun die Erläuterung eines Sektors gegeben, beispielsweise eines Sektors, in dem Audioinformation geschrieben wurde. Wie es in den 33A und 33B gezeigt ist, besteht ein Sektor aus 13 × 2 Frames. Ein Synchronisationscode wird zu jedem Frame hinzugefügt. In den Figuren sind die Frames zweidimensional angeordnet. Auf einer Spur sind Frames beginnend mit dem ersten Frame angeordnet. Wenn die Frames in der Reihenfolge angeordnet sind, in der die Synchronisationscodes in den Figuren angeordnet sind, sind sie in dieser Reihenfolge geordnet: SY0, SY6, SY1, SY5, SY2, SY5, ...
Die zahl der Bits in dem Synchronisationscode und jene in den Daten in einem Frame in der Figur sind 32 Bits bzw. 1456 Bits. Hier sind 32 Bits gleich 16 Bits × 2, und 1456 Bits sind 16 Bits × 91. Diese Gleichungen bedeuten, dass 16 Bit-Modulationscodes aufgezeichnet wurden. Dies liegt daran, dass 8 Bitdaten in 16 Bitdaten moduliert sind, und dass 16 Bitdaten aufgezeichnet sind, wenn die Daten auf der optischen Platte aufgezeichnet werden. Des Weiteren enthält die Sektorinformation einen Modulationsfehlerkorrekturcode.
34A zeigt einen Aufzeichnungssektor, nachdem 16 Bitdaten in dem physikalischen Sektor in 8-Bitdaten demoduliert wurden. Die Datenmenge in dem Aufzeichnungssektor ist (172 + 10) Bytes × (12 + 1) Zeilen. Ein 10-Byte-Fehlerkorrekturcode wird jeder Zeile hinzugefügt. Es gibt eine Zeile mit Fehlerkorrekturcodes. Die Fehlerkorrekturcodes arbeiten als Fehlerkorrekturcodes in Richtung von Spalten, wenn 12 Zeilen zusammengefasst sind. Dies wird später erläutert.
Wenn der Fehlerkorrekturcode von den Daten in einem Aufzeichnungssektor entfernt ist, ist das Ergebnis ein Datenblock, wie er in 34B gezeigt ist. Genauer gesagt, der Datenblock ist so, dass 2840 Byte Hauptdaten, 4 Byte Sektor-ID, 2 Byte IC-Fehlersensorcode IED und 4 Byte Copyright-Managementinformation CPR MAI zu Beginn der Daten hinzugefügt sind, und wobei ein 4-Byte-Error Sensorcode EDC am Ende der Daten hinzugefügt ist.
Dies sind 2048 Daten von einem Pack, wie es vorangehend beschrieben wurde. Ein Packkopf, ein Paketkopf und Audiodaten sind eingeschrieben, beginnend mit dem Kopf des Packs. In dem Packkopf und dem Paketkopf sind verschiedene Stücke von Führungsinformation zur Verarbeitung der Audiodaten eingeschrieben.
Wie vorangehend beschrieben wurde, wird ein Paket zu einem Sektor zugeordnet. In dem Paket sind Audioproben angeordnet. Der Audiodekoder kann die linearen PCM-Daten gut wiedergeben, auch nur mit der Information aus einem Sektor. Dies liegt daran, dass die Daten in einer solchen Art angeordnet sind, dass der Kopf der Audiodaten in einem Pack immer mit dem Kopf einer Hauptprobe beginnt. Dies liegt auch daran, dass hinreichend Steuerinformation für den Audiodekoder zum Bearbeiten der Audiodaten in dem Paketkopf geschrieben ist.
Als nächstes wird ein Fehlerkorrekturblock (ECC Block) erläutert. Wie es in den 35A und 35B gezeigt ist, besteht der ECC-Block aus 16 Einheiten des oben beschriebenen Aufzeichnungssektors. 35A zeigt einen Satz von 16 Einheiten eines 12 Zeilen × 127 Byte-Datensektors (34A).
Eine externe 16 Byte Codeparität (PO) wird zu jeder Zeile hinzugefügt. Eine interne 10 Byte Codeparität (PI) wird zu jeder Spalte hinzugefügt. Bevor die Daten aufgezeichnet werden, wird eine externe 16-Byte Codeparität (PO) über die Spalten verteilt, wobei ein Bit zu einer Spalte zugeordnet wird, wie es in 35B gezeigt ist. Im Ergebnis wird ein Aufzeichnungssektor aus 13 (12 + 1) Zeilen mit Daten gebildet.
In 35A zeigt B0, 0, B0, 1, ... Adressen in Bytes an. In 35B bezeichnen 0 bis 15 die jeweiligen Blöcke in einem Aufzeichnungssektor. Auf den Aufzeichnungsspuren der Platte sind Audiopacks, Managementinformation, Standbildinformation und wenn nötig Echtzeitinformation angeordnet.
Bei der obigen Erläuterung wurde die Datenstruktur der Erfindung auf einer Platte aufzeichnet und von dieser wiedergegeben. Es ist leicht die Datenstruktur bei der Übertragung der Daten über ein Kommunikationssystem zu verwenden. Es ist selbstverständlich, dass die Erfindung auf eine Datenstruktur selbst angewendet werden kann, auf eine Vorrichtung zum Übertragen der Datenstruktur, auf eine Vorrichtung zum Übermitteln der Datenstruktur und auf eine Vorrichtung zum Empfangen der Datenstruktur.
Während in der Ausführungsform ein Verfahren und eine Vorrichtung zum Abtasten von Audiosignalen und zum Handhaben der abgetasteten Signale erläutert wurde, kann die Erfindung auch auf andere Signale, außer Audiosignalen angewendet werden, vorausgesetzt, dass die Daten-Items gleichzeitige Wiedergabeausgaben erfordern, und in dem gleichen Übertragungs- oder Übermittlungssystem verwendet werden.

Claims

Aufzeichnungsmedium, das ermöglicht, dass ein digitaler Audiostrom mit mindestens zwei Kanalaudiosignalen auf einem Aufzeichnungsmedium aufgezeichnet werden kann, wobei das Aufzeichnungsmedium umfasst: einen ersten Abtastdatenstring, der durch Digitalisieren eines ersten Signals von Kanalaudiosignalen in einer ersten Zahl von Quantisierungsbits erzeugt wird; einen zweiten Abtastdatenstring, der durch Digitalisieren eines zweiten Signals der Kanalaudiosignale in einer zweiten Anzahl von Quantisierungsbits erzeugt wird; und Kopfdaten, die Daten umfassen, die Attribute der Kanalaudiosignale spezifizieren; wobei der erste Abtastdatenstring, der zweite Abtastdatenstring und die Kopfdaten auf dem Aufzeichnungsmedium aufgezeichnet werden, um den digitalisierten Audiostrom zu bilden; dadurch gekennzeichnet, dass der erste Abtastdatenstring durch Digitalisieren des ersten Signals von Kanalaudiosignalen bei einer ersten Abtastfrequenz erzeugt wird; der zweite Abtastdatenstring durch Digitalisieren des zweiten Signals von den Kanalaudiosignalen bei einer zweiten Abtastfrequenz erzeugt wird; wobei sich die zweite Abtastfrequenz von der ersten Abtastfrequenz unterscheidet; und die Kopfdaten die ersten und zweiten Audioabtastfrequenzen spezifizieren und nutzbar sind, um die Wiedergabe der ersten und zweiten Abtastdatenstrings zu synchronisieren.
Aufzeichnungsmedium gemäß Anspruch 1, dadurch gekennzeichnet, dass sich die erste Anzahl von Quantisierungsbits von der zweiten Anzahl von Quantisierungsbits unterscheidet.
Aufzeichnungsmedium gemäß Anspruch 1 oder 2, dadurch gekennzeichnet, dass der erste Abtastdatenstring, der bei der ersten Abtastfrequenz in der ersten Anzahl von Quantisierungsbits digitalisiert wurde, ein Audiosignaldatenstring ist, der als rechte und linke Kanaltöne in Stereo reproduziert wird, und der zweite Abtastdatenstring, der bei der zweiten Abtastfrequenz in der zweiten Anzahl von Quantisierungsbits digitalisiert ist, ein Audiosignaldatenstring ist, der synchron mit den rechten und linken Kanaltönen in Stereo reproduziert wird, um ein Surround-Tonbild zu erzeugen.
Aufzeichnungsmedium gemäß Anspruch 1, dadurch gekennzeichnet, dass die Datenmenge, die für den ersten Abtastdatenstring notwendig ist, größer als die Datenmenge ist, die für den zweiten Abtastdatenstring notwendig ist, und der erste Abtastdatenstring und der zweite Abtastdatenstring spezifische Größen des Aufzeichnungsbereichs gemäß der Datenmenge belegen.
Aufzeichnungsmedium gemäß Anspruch 1, dadurch gekennzeichnet, dass die erste Abtastfrequenz ein ganzzahliges Vielfaches der zweiten Abtastfrequenz oder umgekehrt ist.
Aufzeichnungsmedium gemäß Anspruch 1, dadurch gekennzeichnet, dass der erste Abtastdatenstring und der zweite Abtastdatenstring auf eine solche Art und Weise angeordnet und aufgezeichnet werden, dass sie mit den Kopfdaten kombiniert und transferiert werden können.
Aufzeichnungsmedium gemäß Anspruch 1, dadurch gekennzeichnet, dass jeweils der erste Abtastdatenstring und der zweite Abtastdatenstring aus Hauptabtastdatenstrings und zusätzlichen Abtastdatenstrings zusammengesetzt sind, wobei die Hauptabtastdatenstrings und zusätzlichen Abtastdatenstrings kombiniert werden, um Datenstrings zu erzeugen, die sich in der Anzahl von Kanälen, der Abtastfrequenz oder der Anzahl von Quantisierungsbits unterscheiden.
Reproduktionsvorrichtung, die zum Reproduzieren von Daten von einem Aufzeichnungsmedium gemäß einem der Ansprüche 1 bis 7 angepasst ist, umfassend: ein Mittel (612, 613) zum Reproduzieren des ersten Kanalaudiosignals und des zweiten Kanalaudiosignals auf der Grundlage der Daten, die durch Decodieren der Kopfdaten erhalten wurden, und zum selektiven Ausgeben der reproduzierten Daten an einem Audioausgangsanschluss.