-
Die
Erfindung betrifft ein digitales Aufzeichnungsmedium und eine Wiedergabevorrichtung
für dieses.
Insbesondere wird die Erfindung effektiv auf ein Aufzeichnungsformat
digitaler Audiosignale auf einem Aufzeichnungsmedium bzw. Datenträger mit hoher
Dichte angewandt, wie etwa einer optischen Platte, und auf eine
Wiedergabevorrichtung zum Wiedergeben des mit hoher Dichte aufgezeichneten Mediums.
-
In
den letzten Jahren wurden optische Platten zum Aufzeichnen mit hoher
Dichte entwickelt, auf denen das Hauptbildsignal, mehrere Arten
von Unterbildsignalen zusammen mit dem Hauptbildsignal und Audiosignalen
für mehrere
Kanäle
aufgezeichnet werden können.
Die optische Platte mit hoher Aufzeichnungsdichte wird DVD genannt.
Im folgenden wird auf diese Technik als DVD-Video Bezug genommen.
-
Auf
der Grundlage der DVD-Video-Technik wurde die DVD-Audio-Technik entwickelt.
Die Entwicklung von DVD-Audio war darauf gerichtet, eine spezielle
Audio-Technologie zum Erzielen hoher Tonqualität zu etablieren.
-
Bei
der Entwicklung von DVD-Audio gab es Forderungen, den Standard von
DVD-Audio hin zu dem Standard von DVD-Datenstrukturen in DVD-Video anzunähern. Ein
konventionelles Äquivalent
bezüglich
DVD-Audio wurde beispielsweise in der japanischen Patentanmeldung
KOKAI 9-312066 offenbart.
-
Ein
Aufzeichnungsmedium entsprechend dem Oberbegriff des Anspruchs 1
ist aus EP-A-0 797 198 bekannt. Dieses Dokument offenbart ein Verfahren
zum Anordnen von Daten, das es sowohl Maschinen niedriger Klassen
als auch hoher Klassen ermöglicht,
leicht den Wiedergabeprozess durchzuführen, und das mit mehreren
Kanälen
umgehen kann. Die Daten haben eine Struktur, bei der jede Datenprobe
von 20 Bit oder 24 Bit einzelner Kanäle in ein Hauptwort aus 16
Bit und ein Extrawort aus 4 bis 8 Bits getrennt wird, eine Sammlung
von 2n-ten Hauptwörtern
der jeweiligen Kanäle
angeordnet wird, eine Sammlung von (2n + 1)-ten Hauptwörtern der
jeweiligen Kanäle
dann angeordnet wird, eine Sammlung von 2n-ten Extrawörtern der
jeweiligen Kanäle
dann angeordnet wird, und eine Sammlung von (2n + 1)-ten Extrawörtern der
jeweiligen Kanäle
dann angeordnet wird, und die Daten werden auf einem Aufzeichnungsmedium
aufgezeichnet oder übertragen.
-
Es
ist dementsprechend eine Aufgabe der Erfindung, nicht nur ein digitales
Audio-Aufzeichnungsmedium bereitzustellen, das in der Lage ist,
einen DVD-Audiostandard mit einer Hochtonqualitäts-Spezifikation bereitzustellen,
indem die Audiodatenstruktur des DVD-Videos am besten ausgenutzt wird,
sondern auch eine Wiedergabevorrichtung für das digitale Audio-Aufzeichnungsmedium.
-
Erfindungsgemäß wird die
obige Aufgabe durch ein Aufzeichnungsmedium nach Anspruch 1 und
durch eine Wiedergabevorrichtung für ein solches Aufzeichnungsmedium
nach Anspruch 8 gelöst. Die
abhängigen
Ansprüche
beziehen sich auf weitere vorteilhafte Aspekte der Erfindung.
-
Das
Aufzeichnungsmedium enthält
des Weiteren Mittel zum Dekodieren von Daten, die von dem Aufzeichnungsmedium
in mehrere Kanal-Audiosignale gelesen werden. Darüber hinaus
enthält
das Aufzeichnungsmedium des Weiteren Mittel zum Übertragen eines Signals der
oben genannten Datenstruktur und um dieses auf einem Aufzeichnungsmedium
aufzuzeichnen. Zusätzlich
enthält
das Aufzeichnungsmedium des Weiteren Mittel zum Übertragen eines Signals der
oben genannten Datenstruktur.
-
Der
Einsatz dieser Mittel ermöglicht
es, alle Datenübertragungsraten
in einem bestimmten Datenübertragungs-Ratenbereich zu bringen,
da die Abtastfrequenz oder die Anzahl der Quantisierungsbits des
ersten Kanal-Audiosignals unterschiedlich gegenüber dem des zweiten Kanal-Audiosignals
gemacht wird. Dies ermöglicht
das Erhalten eines hochqualitativen Tons in dem Datenübertragungs-Ratenbereich entsprechend
dem gewünschten
Standard. Somit können
Daten, die einen hochqualitativen Ton sicherstellen, auf dem Aufzeichnungsmedium
aufgezeichnet werden.
-
Diese
Zusammenfassung der Erfindung enthält nicht notwendigerweise alle
wesentlichen Merkmale, so dass die Erfindung auch durch eine Unterkombination
dieser Merkmale gebildet werden kann.
-
Die
Erfindung kann besser aus der folgenden detaillierten Beschreibung
verstanden werden, wenn diese zusammen mit den beiliegenden Zeichnungen betrachtet
wird, in denen zeigen:
-
1A bis 1D DVD-Videodatenprobe-Strukturen
und Probeanordnungen bezüglich
der Erfindung;
-
2 ein
Diagramm zur Unterstützung
der Erläuterung
eines Beispiels der Anordnung von Paketen bezüglich des DVD-Videos und der
Struktur eines Audiopacks in der Anordnung;
-
3A und 3B Diagramme
zur Unterstützung
der Erläuterung
einer detaillierten Struktur des Audiopacks bezüglich DVD-Video;
-
4A und 4B Diagramme
zur Unterstützung
der Erläuterung
von Beispielen der Datengröße in einem
Paket bei linearen PCM-Daten;
-
5 ein
Diagramm zur Unterstützung
der Erläuterung
eines Beispiels der Erzeugung eines Audiopacks im Zusammenhang mit
DVD-Video;
-
6 eine
Tabelle zur Unterstützung
der Erläuterung
der Größen von
linearen PCM-Daten im Zusammenhang mit DVD-Video;
-
7 eine
Tabelle zur Unterstützung
der Erläuterung
des Pack-Kopfes eines Audiopacks;
-
8 eine
Tabelle zur Unterstützung
der Erläuterung
des Paket-Kopfes eines Audiopacks;
-
9A und 9B Blockdiagramme,
die die grundlegende Konfiguration einer Plattenaufzeichnungsvorrichtung
und diejenige einer Plattenwiedergabevorrichtung zeigen, die jeweils
Skalierung verwenden;
-
10 ein
Diagramm zur Unterstützung
der Erläuterung
des Prinzips der Skalierbarkeit, das bei der Erfindung verwendet
wird, wobei ein Beispiel von Proben verwendet wird;
-
11 ein
Diagramm zur Unterstützung
der Erläuterung
der Prinzipien der Skalierbarkeit, das bei der Erfindung verwendet
wird, wobei ein weiteres Beispiel von Proben verwendet wird;
-
12 ein
Diagramm zur Unterstützung
der Erläuterung
der Prinzipien der Skalierbarkeit, das bei der Erfindung verwendet
wird, wobei noch ein weiteres Beispiel von Proben verwendet wird;
-
13 ein
Diagramm zur Unterstützung
der Erläuterung
der Prinzipien der Skalierbarkeit, das bei der Erfindung verwendet
wird, wobei noch ein weiteres Beispiel von Proben verwendet wird;
-
14 ein
Diagramm zur Unterstützung
der Erläuterung
eines Beispiels der Datenprobenstruktur, die mit der Erfindung zusammenhängt;
-
15 ein
Diagramm zur Unterstützung
der Erläuterung
eines weiteren Beispiels der Datenprobenstruktur, die mit der Erfindung
zusammenhängt;
-
16 ein
Diagramm zur Unterstützung
der Erläuterung
eines weiteren Beispiels der Datenprobenstruktur, die mit der Erfindung
zusammenhängt;
-
17 ein
Diagramm zur Unterstützung
der Erläuterung
eines weiteren Beispiels der Datenprobenstruktur, die mit der Erfindung
zusammenhängt;
-
18 ein
Diagramm zur Unterstützung
der Erläuterung
eines weiteren Beispiels der Datenprobenstruktur, die mit der Erfindung
zusammenhängt;
-
19 ein
Diagramm zur Unterstützung
der Erläuterung
eines weiteren Beispiels der Datenprobenstruktur, die mit der Erfindung
zusammenhängt;
-
20 ein
vereinfachtes Diagramm zur Unterstützung der Erläuterung
der internen Struktur eines Audiopacks, das mit der Erfindung zusammenhängt;
-
21 ein
hierarchisches Diagramm zur Unterstützung der Erläuterung
der Beziehung zwischen dem Audio-Objekt-Set
und den Audiopacks im Zusammenhang mit der Erfindung;
-
22 ein
Diagramm zur Unterstützung
der Erläuterung
der Beziehung zwischen den Zellen in einem offenen Audio-Title-Set
und der Programmketten-Information im Zusammenhang mit der Erfindung;
-
23 ein
Diagramm zur Erläuterung
der Anordnung von logischen Daten-Items auf einer Platte, auf der
DVD-Audio bezüglich
der Erfindung aufgezeichnet wurde;
-
24 eine
Tabelle zur Unterstützung
der Erläuterung
einer Audio-Titel-Set-Informationsmanagement-Tabelle, die sich auf die Erfindung
bezieht;
-
25 ein
Diagramm zur Unterstützung
der Erläuterung
von Stücken
von Information, die einen Audio-Titel-Set-Programmketteninformation-Suchzeiger
bilden, der in 23 gezeigt ist;
-
26 eine
Tabelle zur Unterstützung
der Erläuterung
einer Kanalzuordnungstabelle, die mit der Erfindung zusammenhängt;
-
27 ein
Diagramm zur Unterstützung
der Erläuterung
der internen Struktur eines Audiopacks, das mit der Erfindung zusammenhängt;
-
28A und 28B Tabellen
zur Unterstützung
der Erläuterung
des Inhalts des Paket-Kopfes im Audiopack aus 27;
-
29 eine
Tabelle zur Unterstützung
der Erläuterung
des Inhalts des Privat-Paket-Kopfes in dem Audiopack aus 27;
-
30 ein
Blockdiagramm, das die Konfiguration einer Plattenwiedergabevorrichtung
entsprechend der Erfindung zeigt;
-
31 ein
Blockdiagramm, das die interne Konfiguration des Dekoders in der
Plattenwiedergabevorrichtung entsprechend 30 zeigt;
-
32A bis 32D jeweils
eine Platte, Bit-Folgen, Sektor-Folgen
und einen physikalischen Sektor;
-
33A und 33B Diagramme
zur Unterstützung
der Erläuterung
des Inhalts eines physikalischen Sektors;
-
34A und 34B Diagramme
zur Unterstützung
der Erläuterung
der Struktur eines Aufzeichnungssektors; und
-
35A und 35B Diagramme
zur Unterstützung
der Erläuterung
der Struktur eines Fehlerkorrekturblocks.
-
Im
folgenden wird unter Bezugnahme auf die Zeichnungen eine Ausführungsform
der Erfindung im Detail erläutert.
Als erstes wird das Audiosignal-Aufzeichnungsformat, das in dem
DVD-Videostandard festgelegt ist, erläutert.
-
Die
Erläuterung
wird hier vorgestellt, wobei die Datenanordnung mittels linearem
PCM (Pulse Code Modulation) als ein Beispiel verwendet wird. Bei
der linearen PCM, die weiter unten erläutert wird, sei angenommen,
dass in Abhängigkeit
der Situation die Anzahl der Quanisierungsbits beispielsweise gleich
16, 20 oder 24 ist.
-
Es
gibt acht Arten von Audio-Modi: Monoaural (Kanal 1), Stereo (Kanal
2), Kanal 3, Kanal 4, Kanal 5, Kanal 6, Kanal 7 und Kanal 8.
-
Audiosignale
der acht Kanäle
A bis H werden verwendet. Jedes Audiosignal wird mit einer Abtastfrequenz
von 48 kHz oder 96 kHz abgetastet und dann quantifiziert. Im folgenden
wird die Erläuterung mit
der Annahme gegeben, dass beispielsweise die Anzahl der Quanisierungsbits
gleich 20 ist.
-
1A zeigt,
dass Audiosignale von acht Kanälen
A bis H abgetastet wurden. Für
jedes Datenprobe-Item wird angenommen, dass es beispielsweise mit
20 Bits quantifiziert wurde. Jedes 20 Bit Datenprobe-Item wird in
ein Hauptwort und ein Extrawort aufgeteilt.
-
Die
Hauptwörter
der Kanäle
A bis H werden durch Großbuchstaben
aus dem Alphabet, An bis Hn, dargestellt und die Extraworte werden
durch Kleinbuchstaben, an bis hn, dargestellt. Im folgenden bedeutet
der Zusatz n (n = 0, 1, 2, 3, ...) die Reihenfolge der Proben. Jedes
Hauptwort enthält
16 Bit. Jedes Extrawort enthält
4 Bit.
-
Daher
wird jedes Datenprobe-Item wie folgt gebildet:
Ein Audiosignal
des Kanals A wird aufgebaut aus A0, a0, A1, a1, A2, a2, A3, a3,
A4, a4 ....
Ein Audiosignal des Kanals B wird aufgebaut aus
B0, b0, B1, b1, B2, b2, B3, b3, B4, b4 ...
Ein Audiosignal
des Kanals C wird aufgebaut aus C0, c0, C1, c1, C2, c2, C3, c3,
C4, c4 ...
Ein Audiosignal des Kanals H wird aufgebaut aus
H0, h0, H1, h1, H2, h2, H3, h3, H4, h4 ...
-
1B zeigt
das Anordnungsformat jedes Wortes in einer Probefolge (sample train)
wenn die vorgenannten Hauptwörter
und die Extrawörter
auf dem Aufzeichnungsmedium aufgezeichnet werden.
-
Genauer
gesagt, jedes Datenprobe-Item, das 20 (= M) Bits enthält, wird
in ein 16 (= ml) Bit-Hauptwort auf der MSB-Seite (Most Significnat Bit side; obere
oder hochwertigsten Bit-Seite) und ein 4 (= m2) Bit-Extrawort auf
der LSB-Seite (Least Significant Bit side; untere oder niederrangige
Bitseite) gebildet.
-
Als
erstes werden die 0-ten (= 2n-ten) Hauptwörter A0 bis H0 der Kanäle A bis
H zusammen angeordnet. Als nächstes
werden die ersten (= 2n + 1) Hauptwörter A1 bis H1 der Kanäle A bis
H zusammen angeordnet.
-
Dann
werden 0-ten (= 2n-ten) Extrawörter
a0 bis h0 der Kanäle
A bis H zusammen angeordnet. Als nächstes werden die ersten (=
2n + 1) Extrawörter
a1 bis h1 der Kanäle
A bis H zusammen angeordnet, wobei n = 0, 1, 2, .... ist.
-
Eine
Gruppe von Hauptwörtern
A0 bis H0 der Kanäle
A bis H wird als Hauptprobe S0 bezeichnet; eine Gruppe von Hauptwörtern A1
bis H1 der Kanäle A
bis H wird als Hauptprobe S1 bezeichnet, eine Gruppe von Hauptwörtern A2
bis H2 der Kanäle
A bis H wird als Hauptprobe 52 bezeichnet usw.
-
Eine
Gruppe von Extrawörtern
a0 bis h0 der Kanäle
A bis H wird als Extraprobe e0 bezeichnet; eine Gruppe von Extrawörtern a1
bis h1 der Kanäle A
bis H wird als Extraprobe e1 bezeichnet; eine Gruppe von Extrawörtern a2
bis h2 der Kanäle
a bis H wird als Extraprobe e2 bezeichnet usw.
-
1B zeigt
die jeweiligen Datenprobe-Items, die in dieser Reihenfolge angeordnet
sind: Hauptprobe SO der Hauptwörter
A0 bis H0, Hauptprobe S1 der Hauptwörter A1 bis H1, Extraprobe
e0 der Extrawörter
a0 bis h0, Extraprobe e1 der Extrawörter a1 bis h1, ...
-
Ein
solcher Satz von zwei Hauptproben und zwei Extraproben wird als
4er-Probe oder als Zwei-Paar-Probe bezeichnet.
-
In
diesem Format, wenn die Daten mit einer vereinfachten Maschine (beispielsweise
einer Maschine die mit 16 Bit-Modus arbeitet) wiedergegeben werden,
werden nur die Hauptwörter
in einem der Kanäle
zur Wiedergabe gehandhabt, oder bei Stereo, nur die Hauptwörter in
zwei der Kanäle
für die
Wiedergabe gehandhabt.
-
Wenn
Daten mit einer High-Level-Maschine (beispielsweise einer Maschine,
die im 20 Bit-Modus arbeitet) wiedergegeben werden, wird das Hauptwort und
das zugehörige
Extrawort für
die Wiedergabe gehandhabt.
-
1C zeigt
die Anordnung der Hauptproben und der Extraproben bei Verwendung
einer bestimmten Anzahl von Bits (16) in acht Hauptwörtern, die
eine Hauptprobe bilden und der spezifischen Anzahl von Bits (4)
in acht Extrawörtern,
die eine Extraprobe bilden.
-
Bei
Aufteilen eines 20-Bit Datenprobe-Items in einem quantifizierten
linearen PCM-Code in ein 16-Bit Hauptwort und ein 4-Bit Extrawort
wird folgendes möglich.
-
In
dem Fall einer vereinfachten Maschine, die in einem 16-Bit Modus
arbeitet, wenn eine Probenanordnung gehandhabt wird, kann der unnötige Teil
leicht verworfen werden, indem die Daten in Einheiten von 8 Bits
in den Extraprobegebieten gehandhabt werden. Dies liegt daran, dass
die Menge von Daten in zwei Extraproben, die eine Zwei-Paar-Probe bilden,
gleich 4 Bits × 8
Kanäle
+ 4 Bits × 8
Kanäle
ist. Diese Datenmenge kann verarbeitet (verworfen) in Einheiten
von 8 Bits acht mal in Folge werden.
-
Das
Merkmal einer solchen Probeanordnung ist nicht auf die beschriebene
Ausführungsform
beschränkt.
Beispielsweise kann, wenn die Anzahl der Kanäle ungerade ist, und wenn ein
Extrawort 8 Bits enthält,
die Gesamtzahl der Bits in zwei aufeinanderfolgenden Extraproben
ein ganzzahliges Vielfaches von 8 Bits sein.
-
Demzufolge
können
mit der vereinfachten Maschine, die nur Hauptwörter wiedergibt, Extraproben
leicht übersprungen
werden, indem ein 8 Bit Verwerfungsprozess n-Male hintereinander
entsprechend dem Modus durchgeführt
wird.
-
Bei
der Probeanordnung aus 1B können die Daten moduliert und
auf einem Aufzeichnungsmedium (auf den Spuren einer optischen Platte)
aufgezeichnet werden. Zusätzlich,
wenn die Daten zusammen mit weiterer Steuerinformation aufgezeichnet
sind, ist es wünschenswert,
dass die Daten in einer solchen Form aufgezeichnet werden, dass
sie Zeitmanagement erleichtern, um die Datenhandhabung und Synchronisation
zu erleichtern. Um dies zu erreichen, wird die folgende Rahmenbildung
(framing), Gruppierung von Frames und Paketierung ausgeführt.
-
1D zeigt
eine Audio-Frame-Folge. Insbesondere ist eine Einheit aus Daten
mit einer spezifischen Wiedergabezeit (1/600 sec) als ein Frame festgelegt.
In einem Frame werden 80 oder 160 Proben angeordnet.
-
Wenn
die Abtastfrequenz, mit der ein Audio-Signal abgetastet wird, 48
kHz beträgt,
entspricht eine Abtastung bzw. Probe 1/48000 sec und die für ein Frame
benötigte
Zeit beträgt
(1/48000 sec) × 80 Proben
= 1/600 sec.
-
Des
Weiteren, wenn die Abtastfrequenz 96 kHz ist, entspricht eine Probe
1/9600 sec und die für einen
Frame benötigt
Zeit = (1/96000 sec) × 160
Proben = 1/600 sec Somit werden entweder 80 oder 160 Proben einem
Frame zugeordnet.
-
2 zeigt
die Beziehung zwischen einem Frame und einer Framegruppe. Ein Frame
enthält
80 oder 160 Proben und ist 1/600 sec der Daten. Eine GOF enthält 20 Frames.
Damit entspricht eine GOF einer Zeitspanne von (1/600 sec) × 20 = 1/30
sec.
-
Dies
ist die Frame- bzw. Teilbild-Frequenz beim Fernsehen. Eine Reihe
von solchen GOFs bildet einen Audio-Strom (audio stream). Das Bestimmen
einer Einheit von einem GOF auf diese Art ist effektiv bei der Synchronisation
eines Audio-Stroms mit einem Videosignal.
-
Das
Frame wird weiter in Pakete unterteilt, um die Daten auf dem gleichen
Aufzeichnungsmedium aufzuzeichnen, auf dem andere Steuersignale und
Videosignale aufgezeichnet wurden. Die Beziehung zwischen dem Paket
und dem Frame wird im Anschluss erläutert.
-
3A zeigt
die Beziehung zwischen Paketen und Frames. NV zeigt ein Navigations-Pack.
In diesem Navigations-Pack NV ist ein Pack-Kopf, ein Paket-Kopf,
ein PCI_PKT (presentation control Paket) und ein DSI_PKT (Datensuchinformations-Ppaket)
geschrieben.
-
Die
Daten in dem DSI_PKT sind Datensuchinformation. V bedeutet ein Video-Objekt-Pack,
A bedeutet ein Audio-Objekt-Pack
und S bedeutet ein Unterbild-Objekt-Pack.
-
Ein
Pack ist festgelegt, so dass es 2048 Bytes enthält. Zusätzlich enthält ein Pack ein Paket und ist
aus einem Pack-Kopf,
einem Paket-Kopf und einem Paket zusammengesetzt. In DSI_PKT ist
Information zur Steuerung jedes Daten-Items bei der Wiedergabe,
einschließlich
der Startadresse und der Endadresse für jedes Pack, geschrieben.
-
In 3B sind
nur Audio-Packs gezeigt. Tatsächlich,
wie es in 3A gezeigt ist, sind DSI_PKTs,
Video-Packs V und Audio-Packs A in einer gemischten Art angeordnet.
In 3B sind jedoch nur Audio-Packs A entnommen und
gezeigt, um es leichter zu machen, die Beziehung zwischen den Frames
und den Packs zu verstehen.
-
In
dem Standard für
das System wird so viel Information, wie die Playbackzeit zwischen
einem DSI_PKT und dem nächsten
DSI_PKT ausmacht, mit 0,5 sec festgelegt. Da ein Frame etwa 1/600
sec entspricht, ist die Anzahl von Audio-Frames, die zwischen einem
DSI_PKT und dem nächsten
DSI_PKT bestehen, gleich 30 Frames.
-
Die
Datenmenge D in einem Frame unterscheidet sich in Abhängigkeit
von der Abtastfrequenz fs der Anzahl der Kanäle N und der Anzahl von Quantisierungsbits
Qb. Genauer gesagt, wenn fs = 48 kHz, dann ist D = 80 × N × Qb. Wenn
fs = 96 kHz dann ist D = 160 × N × Qb.
-
Dementsprechend
entspricht ein Frame nicht notwendigerweise einem Pack. Ein Pack
kann mehreren Frames oder weniger als einem Frame entsprechen. Im
Ergebnis ist der Kopf eines Frames in der Mitte eines Packs angeordnet,
wie es in 3B gezeigt ist.
-
Positionsinformation
bezüglich
des Frame-Kopfs sind in dem Pack-Kopf als die Anzahl von Daten-Items
(timing) geschrieben, die von dem Pack-Kopf oder DSI_PKT gezählt werden.
Somit kann mit der Wiedergabevorrichtung, wenn das Aufzeichnungsmedium
wiedergegeben wird, ein Frame aus dem Audiopaket entnommen werden,
und die Daten in dem Kanal, der wiederzugeben ist, werden extrahiert
und in einen Audiodekoder geladen, der dann einen Dekodierprozess
durchführt.
-
4B zeigt
wie ein 16-Bit Hauptwort und ein 4-Bit Extrawort angeordnet sind,
wenn 20 Quantisierungs-Bits verwendet werden. 4B zeigt
wie ein 16-Bit Hauptwort und ein 8-Bit Extrawort angeordnet sind,
wenn 24 Quantisierungs-Bits
verwendet werden.
-
Wie
es in 4A und 4B gezeigt
ist, sind die Datenprobe in einem Frame und einem Paket in Form
eines ganzzahligen Vielfaches einer Einheit angeordnet, die aus
zwei Paaren von Proben besteht, wobei jedes Paar aus einer Hauptprobe
und einer Extraprobe besteht.
-
Wie
es vorangehend beschrieben wurde, ist es möglich, ein Datenanordnungsverfahren
zum Aufzeichnen und Übertragen
von Mehrkanal-kompatiblen linearen PCM-Daten, die sowohl mit einer
vereinfachten Maschine als auch mit einer High-Level-Maschine wiedergegeben
werden können,
und zusätzlich
ein Aufzeichnungsmedium, auf dem die Daten mittels dieses Verfahrens
aufgezeichnet sind, als auch einer Wiedergabevorrichtung für das Aufzeichnungsmedium
bereitzustellen.
-
Wie
es vorangehend beschrieben wurde, werden als Informationsmenge,
die die Wiedergabezeit zwischen einem DSI_PKT und dem nächsten DSI_PKT
ausmacht, etwa 0,5 sec festgelegt, die in dem Standard für das System
bereitgestellt werden.
-
Ein
Pack ist aus einem Pack-Kopf, einem Paket-Kopf und einem Paketdatenabschnitt
aufgebaut. Sowohl im Pack-Kopf als auch im Paket-Kopf ist die zur
Wiedergabe eines Audiosignals nötige
Information geschrieben. Die Information enthält die Größe des Audio-Packs, die Präsentationszeitmarke
(presentation time stamp) PTS für
die Zeitsteuerung der Wiedergabeausgabe zum Video, den Kanalidentifikationscode
(channel or stream identification code), die Anzahl der Quantisierungsbits,
die Abtastfrequenz, die Datenstartadresse und die Datenendadresse.
-
Das
Audiosignal wird in ein Paket mit einer zwei Paar-Probe als Einheit
eingefügt.
Eine zwei Paar-Probe besteht aus zwei Hauptproben und zwei Extraproben,
wie es in den 1A bis 1C gezeigt
ist.
-
5 ist
eine vergrößerte Ansicht
eines Audio-Packs. In dem Datenabschnitt des Audio-Packs sind die
ersten Hauptproben S0, S1 (Hauptwörter A0 bis H0, A1 bis H1)
der Zwei-Paar-Probe am Kopf des Datenbereichs angeordnet. Anschließend sind
die Audiosignale in Einheiten von Zwei-Paar-Proben angeordnet.
-
Die
Anzahl der Bytes in einem Pack ist mit 2048 fest. Andererseits,
da die Datenproben Daten variabler Länge sind, sind 2048 Bytes nicht
notwendigerweise ein ganzzahliges Vielfaches einer Zwei-Paar-Probe.
-
Deshalb
kann die maximale Bytelänge
eines Packs von der Bytelänge
eines (Zwei-Paar-Probe × Ganzzahl)
abweichen. In diesem Fall wird eine Einstellung vorgenommen, um
die Gleichung zu erfüllen: Bytelänge eines
Packs ≥ (Zwei-Paar-Probe × ganze Zahl).
Wenn ein teil eines Packs weggelassen wird, wird die folgende Maßnahme getroffen.
-
Wenn
der verbleibende Teil des Packs 7 Byte oder weniger enthält, werden
Füllbytes
bzw. Stuffing-Bytes eingefügt.
Wenn der verbleibende Teil des Packs mehr als 7 Bytes oder 8 Byte
oder mehr enthält,
werden "Padding"-Pakete am Ende des
Packs eingefügt,
wie es in dem schraffierten Abschnitt in 5 gezeigt
ist.
-
Mit
Audioinformation in dieser Pack-Form ist die Handhabung beim Playback
einfach. Insbesondere, da die Audiodaten am Kopf jedes Packs immer der
Kopf einer Zwei-Paar-Probe
sind, d.h., Hauptproben S0, S1, wird die Playback-Zeitsteuerung leicht erzielt.
-
Dies
liegt daran, dass die Herstellungsvorrichtung Daten in Packs aufnimmt
und die Daten verarbeitet. Wenn eine Audiodatenprobe in einer solchen
Art angeordnet ist, dass sie sich über zwei Packs erstreckt, wird
die Wiedergabevorrichtung 2 Packs aufnehmen, die Audiodaten-Items
integrieren, und die verbleibenden Daten-Items dekodieren, was den
Prozess komplizieren würde.
-
Bei
dem Verfahren der Erfindung jedoch sind die Audiodaten am Kopf eines
jeden Packs immer der Kopf einer Zwei-Paar-Hauptprobe und die Audiodaten-Items
sind in Packs gruppiert. Dies ermöglicht, dass die Zeitsteuerung
für nur
ein Pack vorgenommen wird, was die Verarbeitung leichter macht.
-
Da
die Daten in Pakete segmentiert sind, ist das Authoring-System (Unterstützungssystem)
vereinfacht, und auch die Software zur Datenverarbeitung ist vereinfacht.
-
Insbesondere
bei der speziellen Wiedergabe (spezial playback) werden die Videodaten
intermittierend ausgedünnt
oder interpoliert. In diesem Fall wird die Wiedergabe-Zeitsteuerung relativ
leicht gesteuert, da die Audiodaten in Paketen gehandhabt werden
können.
Die Dekoder-Software ist ebenfalls nicht kompliziert.
-
Während bei
dem obigen System die 20 Bit Datenprobe in die höherrangigen 16 Bits und die
niederrangigen 4 Bits aufgeteilt werden um eine Probe zu bilden,
sind die Daten nicht notwendigerweise auf diese Form beschränkt. Solange
sie durch Abtasten von linearen PCM-Audiodaten erhalten werden,
können
sie jede andere Form annehmen.
-
Beispielsweise,
wenn die Datenlänge
einer Extraprobe 0 ist, wird der Datenstring aus aufeinanderfolgenden
Hauptproben zusammengesetzt sein, was eine allgemeine Datenform
ist. In diesem Fall, da keine Extraprobe vorhanden ist, muss keine Zwei-Paar-Probe
als eine Einheit verwendet werden, und es können Hauptproben paketiert
werden.
-
6 zeigt
die Größe der linearen
PCM-Daten, wenn lineare PCM-Daten in einem Paket in Einheiten von
Zwei-Paar-Proben
angeordnet sind. Genauer gesagt, der Audiostream-Modus ist in Mono (Kanal
1), Stereo (Kanal 2) und Mehrkanal 3 bis 8 klassifiziert. Jede Klasse
ist des Weiteren durch die Anzahl von Quantisierungs-Bits unterteilt.
Jede Zahl zeigt die maximale Anzahl von Proben an, die in ein Paket
passen.
-
Da
eine Zwei-Paar-Probeneinheit verwendet wird, ist die Anzahl in jedem
Paket gerade. Wenn die Anzahl der Kanäle ansteigt, steigt die Anzahl
von Bytes entsprechend, wodurch die Zahl der Proben in einem Paket
sinkt.
-
Wenn
die Anzahl von Quantisierungs-Bits bei Mono 16 ist, ist die Anzahl
der Proben in einem Paket gleich 1004, die Anzahl der Bytes ist
2008 und die Anzahl der Füllbytes
ist 5, und die Zahl der Padding-Bytes ist 0, mit der Ausnahme, dass
die Anzahl der Füllbytes
in dem ersten Paket gleich 2 Bytes ist. Dies liegt daran, dass drei
Bytes Attributinformation zu den Kopf des ersten Pakets hinzuaddiert
werden können.
-
In
dem Stereomodus, in dem 24 Quantisierungsbits verwendet werden,
werden sechs Bytes in das erste Paket und neun Bytes in jedes der
folgenden Pakete gefüllt.
-
7 zeigt
die Umrisse des Pack-Kopfes eines Audiopacks. Ein Pack-Startcode
(vier Bytes) wird zuerst geschrieben, gefolgt von einem Systemtaktbezug
(SCR). Der Systemtaktbezug SCR zeigt die Zeit an, die benötigt wird,
um das Pack zu nehmen. Wenn der Wert von SCR kleiner als der Wert
der Bezugszeit in der Wiedergabevorrichtung ist, wird das Pack,
zu dem das SCR gegeben wurde, in den Audiopuffer geladen.
-
In
dem Pack-Kopf ist die programmmultiplexe Rate mit drei Bytes und
eine Fülllänge mit
einem Byte eingeschrieben. Unter Bezug auf die Fülllänge kann eine Steuerschaltung
eine Steuerinformation-Leseadresse bestimmen.
-
8 listet
den Inhalt des Paketkopfes in einem Audiopaket auf. Der Paketkopf
enthält
einen Paketstartcode-Prefix,
um den Start des Pakets anzuzeigen, eine Stream-ID um anzuzeigen,
welche Art von Daten das Paket enthält und Daten bezüglich der Länge des
Paket-Grund-Stroms (packet elementary stream PES).
-
In
dem Paket-Grund-Strom PES sind verschiedene Arten von Information
eingeschrieben. Diese umfassen beispielsweise ein Flag zum Verbieten
oder Erlauben des Kopierens, ein Flag zum Mitteilen, ob die Information
original oder kopierte ist, und Information bezüglich der Länge des Paket-Kopfes.
-
Des
Weiteren ist in dem Paketkopf ebenfalls eine Präsentationszeitmarke (presentation
time stamp PTS) zum Synchronisieren des Paketes mit Video und unter
Bildern bezüglich
der Zeit der gesteuerten Ausgabe eingeschrieben. Außerdem ist
in jedem Videoobjekt ein Flag zum Mitteilen, wo eine Beschreibung
bezüglich
eines Puffers und der Größe des Puffers
gemacht wurden, in dem ersten Paket in dem ersten Feld eingeschrieben.
Der Paketkopf hat ebenfalls 0 bis 7 Füllbytes.
-
Der
Paketkopf hat des Weiteren eine Substream-ID, um einem Audiostream
mitzuteilen, ob lineare PCM oder ein anderes Kompressionsverfahren verwendet
wird, und die Audiostream-Nummer. In dem Paket ist die Zahl der
Audioframes, in denen die Kopfbytedaten-Items angeordnet sind, eingeschrieben.
Des Weiteren befindet sich dort ein Zeiger oder Pointer, um den
ersten Audioframe in einem Paket, der zu der durch PTS spezifizierten
Zeit wiederzugeben ist, oder das erste Byte einer Einheit, auf die
zugegriffen werden muss, anzuzeigen.
-
Der
Zeiger wird durch die Bytezahl geschrieben, die von dem letzten
Byte in der Information gezählt
wird, und zeigt die erste Byteadresse in dem Audioframe. Des Weiteren
sind ein Audioverstärkungsflag,
um mitzuteilen, ob die hohen Frequenzen betont werden oder nicht,
ein Stummflag, um den Ton stumm zu schalten, wenn die Audioframedaten-Items gleich
0 sind, und eine Frame-Nummer, auf die zuerst in der Audio-Frame-Gruppe (GOF)
in dem Paket zugegriffen wird, eingeschrieben.
-
Des
Weiteren sind in dem Paket die Länge eines
Quantisierungswortes oder die Zahl von Quantisierungsbits, die Abtastfrequenz,
die Anzahl der Kanäle
und die dynamische Bereichsteuerinformation geschrieben.
-
Die
Kopfinformation wird bei dem Dekoder-Steuerabschnitt (nicht gezeigt)
in dem Audiodekoder analysiert. Die Dekoder-Steuerstation schaltet die Signalverarbeitungsschaltung
des Dekoders auf den Signalverarbeitungsmodus, der mit den Audiodaten-Items
kompatibel ist, die gegenwärtig
genommen werden.
-
Da
Information ähnlich
der Kopfinformation auch in einem Videomanager geschrieben wird, muss
die Information, wenn sie einmal zu Beginn des Wiedergabevorgangs
geschrieben wurde, nicht aufs Neue gelesen werden, so lange der
gleiche Substream wiedergegeben wird.
-
Der
Grund, warum Information bezüglich
des notwendigen Modus zur Wiedergabe von Audio in dem Kopf eines
jeden Pakets geschrieben ist, ist, dass ein Wiedergabeterminal in
der Lage ist, den Audiomodus zu erkennen, wann immer es mit dem Empfang
der Daten beginnt, in einem Fall, in dem eine Paketfolge dem Kommunikationssystem übertragen
wird. Ein weiterer Grund ist, dass Audioinformation wiedergebbar
gemacht wird, auch wenn der Audiodekoder nur Packs entgegennimmt.
-
Bei
dem Audiodatenformat beruhend auf dem DVD-Videostandard ist die
maximale Übertragungsrate
für Audiodaten
gleich 6,144 Mbps und die maximale Übertragungsrate der Summe der
Audiodatenströme
ist 9,8 Mbps. Die Attribute (einschließlich der Abtastfrequenz fs,
die Anzahl von Quantisierungsbits Qb und der Anzahl von Kanälen N) für jeden
Kanal sind in dem Strom gleich. Diese Beschränkungen wurden in dem DVD-Videostandard
bestimmt.
-
Aufgrund
dieser Beschränkungen
können hohe
Tonqualitäts-Spezifikationen bei
Mehrkanal-Audio, wie etwa Surround (beispielsweise sechs Kanäle, R, L,
C, SR, SL und SW, die in einem Strom enthalten sind) nicht erzielt
werden.
-
Genauer
gesagt, mit den Beschränkungen müssen die
Abtastfrequenz fs und die Anzahl von Quantisierungsbits Qb für jeden
Kanal die gleichen sein. Wenn daher versucht wird, hochqualitativen Sound
(beispielsweise ein fs = 96 kHz) zu verwirklichen, müssen alle
Kanäle
auf die gleiche Art behandelt werden, was dazu führt, dass der Wert der Übertragungsrate
ansteigt und eventuell einen vorgegebenen Wert übersteigt.
-
Beispielsweise,
wenn die Übertragungsrate für jeden
Kanal (ch) bei einer Abtastfrequenz von fs mit der Zahl der Quantisierungsbits
gleich Qb wie folgt ist, wird nur ein Audiodatenabschnitt möglich:
2,304
Mbs/ch bei 96 kHz mit 24 Bits
1,92 Mbs/ch bei 96 kHz mit 20
Bits
1,536 Mbs/ch bei 96 kHz mit 16 Bits
1,152 Mbs/ch
bei 48 kHz mit 24 Bits
0,96 Mbs/ch bei 48 kHz mit 20 Bits
0,76
Mbs/ch bei 48 kHz mit 16 Bits.
-
Somit
erreichen Spezifikationen hoher Tonqualität, die unter den Beschränkungen
des DVD-Videostandards erreichbar sind, sechs Kanäle mit 48 kHz
und 20 Bits (in diesem Fall, beträgt die Audiorate bleich 0,96 × 6 = 5,76
Mbps < 6,144 Mbps).
Aufgrund dieser Beschränkung
können
bessere Spezifikationen nicht verwirklicht werden.
-
Um
diesen Nachteil zu überwinden,
modifiziert die Erfindung die Datenstruktur gemäß dem DVD-Audiostandard und
entsprechend einer qualitativ hochwertigen Audiosignalspezifikation,
während sie
die Art der Audiodatenstruktur in dem DVD-Standard so weit als möglich unverändert belässt.
-
Im
folgenden wird das Grundkonzept der Erfindung auf der Basis des
Vergleichs zwischen dem DVD-Videostandard und dem DVD-Audiostandard beschrieben.
Genauer gesagt, es wird entschieden, dass die Größe des Audiopacks in dem DVD-Audio gleich
2048 Bytes wie bei dem DVD-Video ist. Es wird ebenfalls entschieden,
dass die Zahl der Quantisierungsbits Qb = 16 Bits, 20 Bits oder
24 Bits wie in der Audiospezifikation in DVD-Video ist.
-
Bei
DVD-Audio ist die Zahl der linearen PCM-Audiostreams, die gleichzeitig
zu übertragen sind,
auf einem Grenzpunkt. Genauer gesagt, bei DVD-Video, wenn der Inhalt
von Filmen als Videoobjekt aufgezeichnet wird, werden die jeweiligen
Sprachen in jeweilige Kanäle
der Audiostreams zugeordnet, was es den Audiostreams ermöglicht,
selektiv geändert
zu werden.
-
Da
DVD-Audio im wesentlichen mit Musikinhalten umgeht, ist es nicht
nötig,
selektiv für
jeden Strom zu wechseln. Dies ermöglicht, dass alle Kanäle gleichzeitig
wiedergegeben und ausgegeben werden. Bei der Erfindung sind die
PCM-Audiostreams, die
gleichzeitig zu übertragen
sind, zusammen in einer Gruppe angeordnet, wie es vorangehend beschrieben
wurde.
-
Die
maximale Übertragungsrate
bei DVD-Audio steigt von 6,144 Mbps auf 9,6 Mbps. Für alle Videodatenstreams
in DVD-Video werden
die jeweiligen Packs für
Videodaten, Unterbilddaten, Audiodaten und Navigationsdaten zeitteilungsmultiplext und übertragen.
-
Die
maximale Übertragungsrate,
einschließlich
aller Übertragungsdaten,
ist auf 9,6 Mbps beschränkt.
Daher ist es schwierig, die Audiodatenübertragungsrate höher als
6,14 Mbps zu machen.
-
Da
alle Daten in DVD-Audio aus Audiodaten bestehen, mit Ausnahme der
Steuerdaten, ist die Audiodatenmenge erhöht, was die Übertragungsrate
erhöht.
-
Da
die maximale Übertragungsrate
bei DVD-Audio erhöht
ist, wie es vorangehend beschrieben ist, ist die Anzahl der Proben
in einem Audioframe, wie es in 2 gezeigt
ist, halbiert. Somit wird entschieden, dass die Anzahl von Proben
bei einer Abtastfrequenz von fs wie folgt ist:
40 Proben/Frame
bei fs = 48 kHz oder 44,1 kHz
80 Proben/Frame bei fs = 96 kHz
oder 88,2 kHz
160 Proben/Frame bei fs = 192 kHz oder 176,4
kHz.
-
Bei
DVD-Video werden 44,1 kHz, 88,2 kHz, 176,4 kHz und 192 kHz nicht
unterstützt.
Der Zweck, diese nicht zu unterstützen, besteht darin, zumindest ein
Audiopack in einem Audioframe zu haben und es einem Audioframe zu
ermöglichen,
zwangsweise Daten bei einer Präsentationszeitmarke
(PTS) zu haben (Daten zum Synchronisieren der Daten mit der Systemzeitmarke
während
der Wiedergabe).
-
Des
Weiteren verwendet ein DVD-Audio ein skalierbares Verfahren zum
Verwirklichen der hochqualitativen Audiospezifikation, die DVD-Video überlegen
ist. Genauer gesagt, bei dem Stand der Technik haben alle Kanäle in einem
Strom die gleichen Attribute bezüglich
der Abtastfrequenz fs und der Anzahl von Quantisierungs-Bits Qb.
Im Gegensatz dazu, ermöglicht
die Erfindung Kanäle
mit unterschiedlichen Attributen in einem Strom zu existieren.
-
Dies
beruht auf der Tatsache, dass beispielsweise von 6 Kanälen R (rechter
Kanal), L (linker Kanal), C (Mittelkanal), SR (hinterer rechter
Kanal), SL (hinterer linker Kanal) und SW (Niederfrequenzkanal) es
nicht nötig
ist, dass alle Kanäle
auf "Ton hoher Qualität" (mit einer hohen
Abtastfrequenz = fs) gesetzt werden, und dass, wenn die Hauptkanäle (beispielsweise
R und L) auf Ton hoher Qualität
(beispielsweise fs = 96 kHz) besetzt sind, und die anderen Unterkanäle (C, SR,
SL und SW) auf die gegenwärtige
Tonqualität
(fs = 48 kHz) eingestellt sind, dies hinreichend hohe Tonqualität insgesamt
liefert.
-
Das
Konzept eines Audiosystems mit dem skalierbaren Verfahren wird im
folgenden kurz erläutert.
Das Ziel ist es, eine maximale Übertragungsrate der
Signale in einer Kanalgruppe gleich 6,144 Mbps oder weniger und
die maximale Übertragungsrate der
Summen von Übertragungsraten
von Signalen in einem Strom gleich 9,8 Mbps oder weniger zu machen.
-
Die
Kanalgruppe bedeutet digitale Signale einschließlich Stereo R und L Kanäle (zwei
Hauptkanäle).
Ein Strom, in den C, SR, SL und SW zusammengesetzt sind, ist ebenfalls
eine Kanalgruppe.
-
Im
folgenden wird eine Erläuterung
gegeben, wie beispielsweise sechs Kanal-Audiosignale auf einem Aufzeichnungsmedium
aufzuzeichnen sind. Die sechs Kanäle enthalten hier R, L, C,
SR, SL und SW in dem Surround-Verfahren.
Die Signale entsprechen den jeweiligen Kanälen werden erzeugt.
-
R
und L können
als Hauptkanäle
und die anderen als Unterkanäle
verwendet werden. Wenn das Signal für jeden Kanal wieder gegeben
und einem Lautsprecher zugeführt
wird, erzeugt dies einen dreidimensionalen akustischen Effekt.
-
Mit
dem Verfahren der Erfindung werden die sechs Kanäle in der Form einer ersten
Kanalgruppe und einer zweiten Kanalgruppe erzeugt. In diesem Fall
werden R und L mit hoher Wichtigkeit als Kanäle ausgewählt, die die erste Kanalgruppe
bilden, und C, SR, SL und SW werden als Kanäle ausgewählt, die die zweite Kanalgruppe
bilden.
-
In
diesem Fall wird ein Audiosignal in der ersten Kanalgruppe mit einer
hohen Abtastfrequenz fs abgetastet, und ein Audiosignal in der zweiten
Kanalgruppe wird mit einer Abtastfrequenz von fs/2 abgetastet (eins
größer als
eine ganze Zahl).
-
9A ist
ein Blockdiagramm eines Aufzeichnungssystems für das Audiosignal der ersten Kanalgruppe
und eines Aufzeichnungssystems für das
Audiosignal in der zweiten Signalgruppe. Eine analoge Signalquelle 10 hat
die Signale in den R, L, C, SR, SL und SW Kanälen, die für das Surround-Verfahren verwendet
werden und liefert sie an den Abtastabschnitt 11.
-
Der
Abtastabschnitt 11 tastet alle eingegebenen Kanalsignale
mit einer Abtastfrequenz von fs = 96 kHz ab. Jedes in dem Abtastabschnitt 11 abgetastetes
Signal wird einem Quantisierungsabschnitt 12 eingegeben,
welcher das Signal in 24 Bit-Datenprobe quantifiziert. Die 24 Bit-Datenprobe werden
in ein PCM-Signal umgewandelt.
-
Als
nächstes
werden die C, SR, SL und SW Kanäle
einem Frequenzwandlerabschnitt 13 eingegeben, der die Abtastfrequenz
fs von 96 kHz auf die Hälfte
von 96 kHz, nämlich
48 kHz umwandelt.
-
Andererseits
wird jedes der R und L Kanalsignale, die mit 96 kHz abgetastet werden,
dem Phasenanpassabschnitt 14 eingegeben, der die Phasen einer
Abtastung mit der von anderen in Übereinstimmung bringt. Tatsächlich wird
das gleiche Ausmaß an Verzögerung entsprechend
dem Frequenzwandlerabschnitt 13 in der Phasenanpassschaltung 14 eingestellt.
Die verzögerten
96 kHz R und L Kanalsignale werden in einen Framing-Abschnitt 15 eingegeben,
der die Signale in Einheiten einer spezifischen Anzahl von Proben
in Rahmen bzw. Frames anordnet.
-
Das
Frequenz-gewandelte 48 kHz-Signal der C, SR, SL und SW
Kanäle
wird in einen Framing-Abschnitt 16 eingegeben, der das
Signal in Einheiten mit einem spezifischen Anteil von Proben in Frames
anordnet.
-
Die
Signale, die in den Frame-Verarbeitungsabschnitten 15 und 16 in
Frames angeordnet wurden, werden einem Paketier-Abschnitt 17 eingegeben, der
sie in ein Paket eines vorgegebenen Formats umwandelt. Auf diese
Art werden ein 96 kHz-Routenstrom (ein Strom mit einem ersten Attribut
Atr1) und ein 48 kHz Routenstrom (ein Strom mit einem zweiten Attribut
Atr2) erhalten.
-
Diese
beiden Ströme
werden durch die Identifizierer (ID) identifiziert, die in Paketköpfen gegeben sind.
Die Pakete in den beiden Kanalgruppen werden weiter gepackt und
multiplext und dann auf einer Platte 18 über einen
Aufzeichnungsabschnitt (nicht gezeigt) aufgezeichnet.
-
Wenn
das auf der Platte 18 aufgezeichnete Signal wiedergegeben
wird, wird die folgende Verarbeitung durchgeführt. 9B zeigt
ein Wiedergabesystem für
das Audiosignal in der ersten Kanalgruppe und ein Wiedergabesystem
für das
Audiosignal in der zweiten Kanalgruppe.
-
Zunächst durchläuft das
optisch von der Platte 18 gelegene Signal durch ein Demodulationsabschnitt
(nicht gezeigt) und wird in einen Paketverarbeitungsabschnitt 21 eingegeben.
Der Demodulierabschnitt führt
einen Fehlerkorrekturprozess und einen Modulationsprozess durch.
Der Paketverarbeitungsabschnitt 21 identifiziert eine Kanalgruppe
unter Bezugnahme auf den Identifizierer im Paketkopf. Die Identifikation
unterscheidet zwischen dem Paket in der ersten Kanalgruppe und dem
Paket in der zweiten Kanalgruppe. Signale in den jeweiligen Kanalgruppen
werden nämlich
geteilt oder gemultiplext.
-
Dann
wird das Signal in der ersten Kanalgruppe einem Frame-Verarbeitungsabschnitt 22 eingegeben,
der den Frame auslöscht
und ein R Kanalsignal und ein L Kanalsignal ausgibt. Das Signal
in der zweiten Kanalgruppe wird dem Frame-Verarbeitungsabschnitt 23 eingegeben,
der den Frame auslöscht
und C, SR, SL und SW Kanalsignale ausgibt.
-
Die
R und L Kanalsignale werden einem Phasenanpassabschnitt 24 eingegeben.
Die C, SR, SL und SW Kanalsignale werden einem Frequenzwandlerabschnitt 25 eingegeben,
der die Abtastfrequenz fs von 48 kHz auf 96 kHz hochwandelt.
-
Die
R und L Kanalsignale und die C, Sr, SL und SW Kanalsignale, die
in Phase zusammenpassen und gleiche Abtastfrequenz fs haben, werden
in einen 96 kHz D/A-Wandlerabschnitt 26 (digital/analog
converting section) eingegeben, sie in PCM-Signale umwandelt und
dann in analoge Signale.
-
Bei
der oben beschriebenen Verarbeitung werden die qualitativ hochwertigen
R und L Kanalsignale und die normalen C, SR, SL und SW Kanalsignale
wiedergegeben.
-
Erfindungsgemäß wird die
Anzahl von Probendatenitems in einem Frame auf einen solchen Wert
eingestellt, dass dieser 1/600 sec bei der Wiedergabe benötigt. Daher
unterscheidet sich die Zahl von Probendatenitems in einem Frame
zwischen dem 96 kHz Routenstrom (der ersten Kanalgruppe) und dem
48 kHz Routenstrom (der zweiten Kanalgruppe).
-
In 10 wird
die Anzahl von Datenprobe-Items in einem Frame der ersten Kanalgruppe
mit jeder in der zweiten Kanalgruppe verglichen. Der Phasenanpassabschnitt 14 passt die
Phase der ersten Kanalgruppe und jene der zweiten Kanalgruppe an,
um ein Frame zu erzeugen.
-
Dann
werden die Framingabschnitte 15 und 16 die gleiche
Wiedergabezeitmarke PTS zu den Köpfen
der entsprechenden Frames (den Frames, die zur gleichen Zeit wiedergegeben
werden sollen) in den ersten und zweiten Kanalgruppen hinzufügen. Im
Ergebnis, wenn die Framverarbeitungsabschnitte 22, 23 die
Frames bei der Wiedergabe löschen
und die Ergebnisse an den D/A-Wandlerabschnitt 26 liefern,
wird die Zeitsteuerung zum Löschen
jedes Frames so sein, dass die Frames mit der gleichen Präsentationszeitmarke
PTS gleichzeitig gelöscht
werden.
-
Wie
vorangehend beschrieben wurde, wird bei DVD-Audio eine Gruppe von
Kanalgruppen, die normalerweise einen Audistrom bilden würde, in
zwei Attributgruppen Atr1 und Atr2 aufgeteilt. Die Attribute enthalten
die Abtastfrequenz fs, die Anzahl der Quantisierungsbits Qb und
die Anzahl der Kanäle
N. Wenn die Attribute aller Kanäle
in einem Strom gleich sind, muss die Kanalgruppe nicht in zwei Attributgruppen
aufgeteilt werden.
-
In
dem Fall von sechs Surround-Kanälen werden
die Attribute (Atr1) für
die erste Kanalgruppe, die aus R und L gebildet ist, so sein, dass
die Abtastfrequenz fs 96 kHz beträgt und die Quantisierungs-Bits
Qb gleich 24 ist, und die Attribute (Atr2) für die zweite Kanalgruppe, die
aus C, SR, SL und SW gebildet ist, werden so sein, dass die Abtastfrequenz fs
gleich 48 kHz und die Anzahl der Quantisierungsbits Qb gleich 24
ist.
-
In
diesem Fall ist die Übertragungsrate
gleich 2,304 × 2
+ 1,1152 × 4
= 9,216 Mbps, was die maximale Übertragungsrate
von 9,8 Mbps erfüllt.
Daher ermöglicht
die Verwendung des skalierbaren Verfahrens die Erzeugung einer Audiodatenstruktur,
die hochqualitative Audiospezifikationen (high-sound-quality audio specifications)
erfüllt.
-
Bei
der obigen Erläuterung
wurden die Abtastfrequenz fs und die Anzahl der Quantisierungsbits
Qb in den Attributen in den ersten und zweiten Kanalgruppen eingefügt.
-
Bei
dem erfindungsgemäßen Verfahren
können
verschiedene Kombinationen von Abtastfrequenz fs und Anzahl von
Quantisierungsbits Qb wie folgt betrachtet werden: Ein Fall, in
dem die Abtastfrequenz fs sich unterscheidet und die Anzahl von Quantisierungsbits
Qb die gleiche ist, ein Fall, in dem die Abtastfrequenz fs die gleiche
ist, und die Anzahl von Quantisierungsbits Qb sich unterscheidet,
ein Fall, in dem die Abtastfrequenz fs die gleiche ist und die Anzahl
von Quantisierungsbits die gleiche ist, ein Fall, in dem die Abtastfrequenz
fs sich unterscheidet und die Anzahl von Quantisierungsbits sich
unterscheidet. Wesentlich ist, dass ein Strom gebildet wird, der
die maximale Übertragungsrate
von 9,8 Mbps erfüllt.
-
11 zeigt
Fall 1. In Fall 1 ist Attribut Atr1 für die erste Kanalgruppe die
Abtastfrequenz fs von 96 kHz und Attribut Atr2 für die zweite Kanalgruppe ist
die Abtastfrequenz fs von 48 kHz.
-
12 zeigt
Fall 2. In Fall 2 sind die Attribute Atr1 und Atr2 für die ersten
und zweiten Kanalgruppen jeweils die Abtastfrequenz fs von 96 kHz.
-
13 zeigt
Fall 3. In Fall 3 sind die Attribute Atr1 und Atr2 für die ersten
und zweiten Kanalgruppen jeweils die Abtastfrequenz fs von 48 kHz.
-
Wenn
mehrere Kanalgruppen mit unterschiedlichen Attributen in einem Strom
existieren, verwendet das erfindungsgemäße Verfahren die folgende Datenstruktur.
-
Die
Datenstruktur von 14 entspricht dem Fall 1 aus 11.
In 14 ist die Abtastfrequenz fs gleich 96 kHz und
die Anzahl von Quantisierungsbits Qb ist 16 für das Attribut Atrt1 in der
ersten Kanalgruppe und die Abtastfrequenz fs ist 48 kHz und die Anzahl
der Quantisierungsbits Qb ist 16 für das Attribut Atrt2 in der
zweiten Kanalgruppe. Des Weiteren basiert die Datenstruktur auf
dem skalierbaren Verfahren und spiegelt die DVD-Video-Probenanordnungsstruktur
wieder.
-
Insbesondere
sind vier Proben S4n; S4n + 1, S4n + 2 und S4n + 3 Hauptproben mit
dem ersten Attribut und zwei Proben S2n und S2n + 1 sind Hauptproben
mit dem zweiten Attribut. In diesem Fall, da die Anzahl von Quantisierungsbits
Qb in dem ersten Attribut und jene in dem zweiten Attribut jeweils
16 sind, gibt es keine extra Proben.
-
In
diesem Fall entsprechen vier Proben in der ersten Kanalgruppe zwei
Proben in der zweiten Kanalgruppe, da die Abtastfrequenz fs ist.
Vier Proben sind grundlegend bzw. fundamental in der ersten Kanalgruppe
und dienen als Hauptgruppe. Wenn die zweite Kanalgruppe in Betracht
gezogen wird, sind insgesamt sechs Proben fundamental.
-
Insbesondere
ist die Datenstruktur aus 14 so,
dass die Signale in der ersten Kanalgruppe, nämlich zumindest zwei Kanäle, mit
einer ersten Frequenz abgetastet werden und die Signale in der zweiten
Kanalgruppe, nämlich
die anderen Kanäle, mit
einer zweiten Frequenz abgetastet werden.
-
Zunächst werden
S4n-te, S4n + 1-te, S4n + 2-te und S4n + 3-te Hauptproben in den
jeweiligen Kanälen,
die die erste Kanalgruppe bilden und mit der ersten Frequenz abgetastet
sind, in Folge angeordnet und dann werden S2n-te und S2n + 1-te Hauptproben
in den jeweiligen Kanälen,
die die zweite Kanalgruppe bilden und mit der zweiten Frequenz abgetastet
sind, in Folge angeordnet, wobei n = 0, 1, 2, ... ist.
-
Die
Datenstruktur aus 15 entspricht dem Fall 2 aus 12.
In 15 ist die Abtastfrequenz fs gleich 96 kHz und
die Anzahl der Quantisierungsbits Qb ist 24 für das Attribut Atrt1 in der
ersten Kanalgruppe, und die Abtastfrequenz fs ist 96 kHz und die Anzahl
der Quantisierungsbits Qb ist 20 für das Attribut Atrt2 in der
zweiten Kanalgruppe.
-
In
diesem Fall enthalten Zwei-Paar-Proben S2n, S2n + 1, e2n und e2n
+ 1 vier Proben und Extraproben mit dem ersten Attribut und weitere Zwei-Paar-Proben
S2n, S2n + 1, e2n und e2n + 1 sind Hauptproben mit dem zweiten Attribut.
Insgesamt sind Vier-Paar-Proben fundamental. Extraproben e2n, e2n
+ 1 mit dem ersten Attribut sind Extraproben die mit dem zweiten
Attribut.
-
Insbesondere
ist die Struktur von 15 so, dass die Signale in der
ersten Kanalgruppe, nämlich zumindest
zwei Kanäle,
mit der ersten Frequenz abgetastet sind, und die Signale in der
zweiten Kanalgruppe, die anderen Kanäle, mit der zweiten Frequenz
abgetastet sind. Des Weiteren werden die Daten in m1-Bit Hauptwort
auf der MSB-Seite und in ein m2-Bit Extrawort auf der LSB-Seite
aufgeteilt.
-
Dann
werden die Hauptwörter
in den 2n-te Datenprobe-Items
der jeweiligen Kanäle
in der ersten Kanalgruppe in Hauptprobe S2n zusammengebracht, die
Hauptwörter
in den 2n + 1-ten
Datenprobe-Items der jeweiligen Kanäle der ersten Kanalgruppe werden
in der Hauptprobe S2n + 1 zusammengebracht, die Extrawörter 2n-te
Datenprobe-Items der jeweiligen Kanäle in der ersten Kanalgruppe
werden in Extraprobe e2n zusammengebracht, und die Extrawörter in
den 2n + 1-ten Datenprobe-Items der jeweiligen Kanäle in der
ersten Kanalgruppe werden in der Extraprobe e2n + 1 zusammengebracht.
Diese Proben werden in dieser Reihenfolge angeordnet.
-
Nach
dieser Anordnung werden die Hauptwörter in den 2n-te Datenprobe-Items
der jeweiligen Kanäle
in der zweiten Kanalgruppe in der Hauptprobe S2n zusammengebracht,
die Hauptwörter
in der 2n + 1-ten Datenprobe-Items der jeweiligen Kanäle in der
zweiten Kanalgruppe werden in der Hauptprobe S2n + 1 zusammengebracht,
die Extrawörter
in den 2n-ten Datenprobe-Items der jeweiligen Kanäle in der
zweiten Kanalgruppe werden in der Extraprobe e2n zusammengebracht,
und die Extrawörter
in den 2n + 1-ten Datenprobe-Items der jeweiligen Kanäle in der
zweiten Kanalgruppe werden in der Extraprobe e2n + 1 zusammengebracht,
wobei n = 0, 1, 2, ... Diese Proben werden in dieser Reihenfolge
angeordnet.
-
Die
Datenstruktur aus 16 entspricht dem Fall 3 aus 13.
In 16 beträgt
die Abtastfrequenz fs 48 kHz und die Anzahl der Quantisierungsbits
Qb ist 16 für
das Attribut Atrt1 in der ersten Kanalgruppe, und die Abtastfrequenz
fs ist 48 kHz und die Anzahl der Quantisierungsbits Qb ist 16 für das Attribut
Atrt2 in der zweiten Kanalgruppe.
-
In
diesem Fall sind S4n und S4n + 2 Hauptproben mit dem ersten Attribut,
und e4n und e4n + 2 sind Extraproben mit dem ersten Attribut, S4n
und S4n + 2 sind Hauptproben mit dem zweiten Attribut, und e4n und
e4n + 2 sind Extraproben mit dem zweiten Attribut. In den ersten
und zweiten Kanalgruppen sind Zwei-Paar-Proben fundamental. Insgesamt
sind Vier-Paar-Proben fundamental.
-
Genauer
gesagt, die Datenstruktur aus 16 ist
so, dass die Signale der ersten Kanalgruppe, nämlich zumindest zwei Kanäle, die
mit der ersten Frequenz abgetastet werden, und die Signale in der
zweiten Kanalgruppe, die anderen Kanäle, mit der zweiten Frequenz
abgetastet werden. Des Weiteren werden die Daten in ein m1-Bit Hauptwort
auf der MSB-Seite und ein m2-Bit Extrawort auf der LSB-Seite aufgeteilt.
-
Dann
werden die Hauptworte in den 4n-ten Datenprobe-Items der jeweiligen Kanäle in der
ersten Kanalgruppe in der Hauptprobe S4n zusammengebracht, die Hauptwörter in
den 4n + 2-ten Datenprobe-Items
der jeweiligen Kanäle
in der ersten Kanalgruppe werden in der Hauptprobe S4n + 2 zusammengebracht,
die Extrawörter
in dem 4n-ten Datenprobe-Items der jeweiligen Kanäle in der
ersten Kanalgruppe werden in der Extraprobe e4n zusammengebracht,
und die Extrawörter
in den 4n + 2-ten Datenprobe-Items der jeweiligen Kanäle in der
ersten Kanalgruppe werden der Extraprobe e4n + 2 zusammengebracht.
Diese Proben werden in dieser Reihenfolge angeordnet.
-
Nach
dieser Anordnung werden die Hauptworte in den 4n-ten Datenprobe-Items der jeweiligen Kanäle in der
zweiten Kanalgruppe in der Hauptprobe S4n zusammengebracht, die
Hauptwörter
in den 4n + 2-ten Datenprobe-Items der jeweiligen Kanäle in der
zweiten Kanalgruppe werden in der Hauptprobe S4n + 2 zusammengebracht,
die Extrawörter
in den 4n-ten Datenprobe-Items der jeweiligen Kanäle der zweiten
Kanalgruppe werden in der Extraprobe e4n zusammengebracht, und die
Extrawörter
in den 4n + 2-ten Datenprobe-Items der jeweiligen Kanäle in der zweiten
Kanalgruppe werden in der Extraprobe e4n + 2 zusammengebracht, wobei
n = 0, 1, 2, ... Diese Proben werden in der Reihenfolge angeordnet.
-
Die
Datenstruktur aus 17 entspricht Fall 1 aus 11.
In diesem Fall ist jedoch die Zahl der Quantisierungsbits in der
ersten Kanalgruppe unterschiedlich von jener der zweiten Kanalgruppe.
Genauer gesagt, in 17 ist die Abtastfrequenz fs
= 96 kHz und die Anzahl der Quantisierungsbits Qb ist 20 für das Attribut
Atrt1 in der ersten Kanalgruppe, und die Abtastfrequenz fs ist 48
kHz und die Anzahl der Quantisierungsbits Qb ist 24 für das Attribut
Atrt2 in der zweiten Kanalgruppe. Des Weiteren basiert die Datenstruktur
auf dem skalierbaren Verfahren und gibt DVD-Video-Probenanordnungsstruktur wieder.
-
Insbesondere
sind vier Proben S4n, S4n + 1, S4n + 2 und S4n + 3 Hauptproben mit
dem ersten Attribut und Zweitproben S2n und S2n + 1 Hauptproben mit
dem zweiten Attribut. In diesem Fall sind die Extraproben e4n, e4n
+ 1, e4n + 2 und e4n + 3 in der ersten Kanalgruppe vorhanden, und
die Extraproben e2n und e2n + 1 sind in der zweiten Kanalgruppe
vorhanden. In diesem Fall sind auch Vier-Paar-Proben fundamental
in der ersten Kanalgruppe. In der entsprechenden zweiten Kanalgruppe
sind Zwei-Paar-Proben fundamental. Insgesamt sind sechs Paar Proben
fundamental.
-
Mit
der oben beschriebenen Datenstruktur ist es möglich, eine DVD-Audiodatenstruktur
zu erhalten, die mit High-Sound-Qualität-Audiosignalspezifikationen übereinstimmt
und eine spezifische Datenübertragungsrate
erfüllt,
während
die Art der DVD-Video-Audiodatenstruktur so weit wie möglich erhalten bleibt.
-
Die
Erfindung liefert eine charakteristische Datenstruktur und ist insbesondere
dadurch gekennzeichnet, dass die Abtastfrequenz fs in einem von zwei
Attributen ein Vielfaches der Abtastfrequenz fs in dem anderen ist.
Wenn nur entweder die Zahl der Kanäle N oder die Zahl der Quantisierungsbits
Qb zwischen den Attributen sich unterscheidet, macht es das Konzept
des DVD-Videostandards möglich,
mit einer Datenstruktur umzugehen, die sich in der Zahl der Kanäle N unterscheidet,
oder bei der sich die Zahl der Quantisierungsbits unterscheiden.
-
Beispielsweise
bei der Datenstruktur, wie sie in den 4A und 4B gezeigt
ist, wird die Zahl der Kanäle
N oder die Zahl der Quantisierungsbits Qb in der Attributinformation
in dem Daten-Item, das dem Hauptprobenabschnitt und dem Extraprobenabschnitt
folgt, geändert
und aufgezeichnet.
-
Die
Erfindung weist weiterhin das folgende Konzept in der oben beschriebenen
Datenstruktur auf. 11 zeigt die Übereinstimmung
in der Synchronisationszeit zwischen jeder Probe der ersten Kanalgruppe
mit dem Attribut Atrt1 und jeder Probe in der zweiten Kanalgruppe
mit dem zweiten Attribut Atrt2, wobei Bezugssymbole 4n, 4n + 1,
4n + 2, 4n + 3 und 2n und 2n + 1 verwendet werden.
-
Wie
aus den Figuren ersichtlich ist, werden vier Proben eingestellt.
Somit werden vier Proben als ein Satz gehandhabt. Wie es in 18 gezeigt
ist, können
zwei Proben S4n und S4n + 1 mit dem ersten Attribut Art1 und zwei
Proben S2n und S2n + 1 mit dem zweiten Attribut Atrt2 aufeinander
folgend angeordnet sein, gefolgt von zwei Proben S4n + 2 und S4n +
3 mit dem ersten Attribut Atrt1. Diese Datenstruktur entspricht
einer Modifikation der Datenstruktur aus 14.
-
19 zeigt
ein weiteres Beispiel der Datenstruktur. Die Datenstruktur entspricht
einer Modifikation der Datenstruktur aus 16. Genauer
gesagt, vier Proben S4n, S4n + 1, S4n + 2 und S4n + 3 sind Hauptproben
mit dem ersten Attribut, und zwei Proben S2n und S2n + 1 sind Hauptproben
mit dem zweiten Attribut.
-
In
diesem Fall sind Extraproben e4n, e4n + 1, e4n + 2 und e4n + 3 in
der ersten Kanalgruppe vorhanden, und Extraproben e2n und e2n +
1 sind in der zweiten Kanalgruppe vorhanden. In diesem Fall sind Vier-Paar-Proben
in der ersten Kanalgruppe fundamental. In der entsprechenden zweiten
Kanalgruppe sind Zwei-Paar-Proben fundamental. Insgesamt sind Sechs-Paar-Proben fundamental.
-
In
der Datenstruktur werden S4n, S4n + 1, e4n, e4n + 1 in der ersten
Kanalgruppe und S2n, S2n + 1, e2n, e2n + 1 in der zweiten Kanalgruppe
in eine Vier-Paar-Probe zusammengebracht. Anschließend werden
Zwei-Paar-Proben S4n + 2, S4n + 3, e4n + 2 und e4n + 3 der ersten
Kanalgruppe angeordnet.
-
Die
Einheit von Proben kann auch wie folgt verstanden werden. Wenn die
Abtastfrequenz fs des ersten Attributs Atri1 die gleiche wie bei
dem zweiten Attribut Atri2 (beispielsweise im Fall von 12 und 13 sowie 15 und 16)
ist, und wenn die Zahl der Proben nach Ablauf der gleichen Zeit
zwischen der Seite der ersten Kanalgruppe mit dem Attribut Atri
und der Seite der Kanalgruppe mit dem zweiten Attribut Atr2 die
gleiche ist. In diesem Fall können
die Daten in Einheiten von zwei Proben erhalten werden, wie bei
dem DVD-Videostandard.
-
Des
Weiteren kann die Datenstruktur der Erfindung auch wie folgt verstanden
werden. Die Anzahl der Proben, die einen Satz oder eine Einheit
bilden, ist grundsätzlich
2, 4 oder 6. Um Flexibilität
zu erhalten, können
zwölf Proben,
das kleinste gemeinsame Vielfache von 2, 4 und 6, oder Zwölf-Paar-Proben als Einheit
verwendet werden, und die Daten können in Einheiten von 12 Proben
oder von Zwölf-Paar-Proben
gehandhabt werden.
-
Wie
vorangehend beschrieben wurde, kann die Zahl der Proben, die eine
Einheit bilden, von Fall zu Fall unterschiedlich sein. In jedem
dieser Fälle werden
die Daten jedoch in dem Datengebiet eines Audiopacks in Einheiten
von Proben gefüllt.
Wenn der verbleibende Teil des Audiopacks zu kurz für eine Einheit
ist, werden Stuffing- bzw. Füllbytes
oder auch Padding-Pakete wie im Videostandard eingefügt.
-
20 zeigt
einen Fall, in dem ein Padding-Paket eingefügt wird, da ein Gebiet (schattierter Abschnitt)
kleiner als eine Einheit ist. Ein Gebiet kleiner als eine Einheit
bedeutet ein Gebiet, in dem die Menge von Daten-Items gleich oder
kleiner als eine bestimmte Anzahl von Proben oder eine bestimmte Anzahl
von Probenpaaren ist. Eine bestimmte Anzahl von Proben oder eine
bestimmte Anzahl von Probenpaaren ist 2, 4, 6 oder 12. Das Audiopack
enthält 2048
Bytes und ist ausgestaltet, um notwendigerweise eine Präsentationszeitmarke
PTS zu haben.
-
Die
Datenanordnung des ersten Attributs Art1 und des zweiten Attributs
Art2 sind nicht hierauf beschränkt.
Beispielsweise können
die Daten in umgekehrter Reihenfolge angeordnet sein. Die Anordnung
kann nach Wahl geändert
werden.
-
Während bei
der Erläuterung
96 kHz und 48 kHz als Abtastfequenz fs verstanden wurden, ist die Erfindung
nicht auf diese beschränkt.
Beispielsweise können
88,2 kHz und 44,1 kHz verwendet werden. Die Erfindung kann auf ein
Paar von Abtastfrequenzen angewendet werden, von denen die eine
das Doppelte der anderen ist. Um Flexibilität bereitzustellen, kann das
Paar von Abtastfrequenzen fs so sein, dass eine Abtastfrequenz ein
ganzzahliges Vielfaches der anderen ist. Die Erfindung ist leicht
auf ein solches Paar anwendbar.
-
Bei
der Erläuterung
werden zwei Arten von Kanalattributen in einem Strom verwendet.
Die Erfindung kann auf einen Strom angewendet werden, indem drei
oder mehr Arten von Kanalattributen verwendet werden.
-
Bei
der Erläuterung
wurde die Datenstruktur erklärt.
Die Erfindung kann auf ein Aufzeichnungsmedium angewendet werden,
das die obige Datenstruktur aufweist, auf ein Verfahren und eine
Vorrichtung zum Aufzeichnen von Daten auf dem Aufzeichnungsmedium,
auf ein Verfahren und eine Vorrichtung zum Wiedergeben der Daten
auf dem Aufzeichnungsmedium und auf ein Datenübertragungsverfahren.
-
Als
nächstes
wird die Beziehung zwischen der Gesamtdatenstruktur einer optischen
Platte, auf der DVD-Audioinformation
aufgezeichnet ist, und den vorher genannten Audiopacks kurz erläutert.
-
21 zeigt
ein Beispiel der Datenstruktur des Inhaltes (audio-only title audio
object set AOTT_AOBS), der in einer DVD-Audiozone aufgezeichnet
ist.
-
AOTT_AOBS
legt einen Satz von einem oder mehreren Audioobjekten AOTT_AOB #n
fest. Jedes AOTT_AOB legt einen Satz von einem oder mehreren Audiozellen
ATS_C #n fest. Ein Satz von einer oder mehreren ATS_C #n bildet
ein Programm. Ein Satz von einem oder mehreren Programmen bildet eine
Programmkette PGC. Die PGC bildet eine logische Einheit zum Anzeigen
eines ganzen oder Teile von einem Audiotitel.
-
Bei
dem Beispiel ist jede Audiozelle ATS_C # aus einem Satz von 2048
Byte Audiopacks A_PCK zusammengesetzt. Diese Packs bilden die kleinste Einheit
beim Durchführen
des Datenübertragungsprozesses.
Die kleinste Einheit bei der logischen Verarbeitung ist eine Zelle.
Logische Verarbeitung wird in Zellen ausgeführt.
-
22 ist
ein Diagramm, das helfen soll, einen Fall zu erläutern, in dem auf eine Zelle
mittels einer Programmketteninformation ATS_PGCI in der DVD-Audiozone
zugegriffen wird. Insbesondere werden auf der Basis der Zellenwiedergabeinformation bei
Programm #1 in ATS_PGCI die Zellen ATS_C #1 und ATS_C #2 in AOB
wiedergegeben.
-
Wenn
eine PGC mit einer Oper verglichen wird, entsprechen Zellen, die
die PGC bilden, verschiedenen Musikszenen oder Gesangszenen der Oper.
Der Inhalt der PGC (oder der Inhalt der Zelle) wird durch einen
Software-Provider
festgelegt, der den auf der Platte aufgezeichneten Inhalt erzeugt. Insbesondere
kann der Provider die Zellen wiedergeben, die AOTT_AOBS bilden,
wie es geplant ist, wobei die Zellenwiedergabeinformation ATS_C_PBI verwendet
wird, die in der Programmketteninformation ATS_PGCI in ATS geschrieben
ist.
-
Das
folgende ist eine Erläuterung,
wie verschiedene Entscheidungen in der ersten und zweiten Kanalgruppe
in den Managementdaten gemacht werden.
-
23 ist
ein Diagramm, das helfen soll, den Inhalt zu verstehen, der in dem
Audiotitelset ATS in einer DVD-Audiozone
aufgezeichnet ist. Der Audiotitelset ATS besteht aus Audiotitelsetinformation
ATSI, Audio-only title object set AOTT_AOBS und audio title set
information backup ATSI_BUP.
-
Audio-titel-set-information
ATSI enthält
eine Audio-titel-set-information-Managementtabelle ASI_MAT
und eine Audio-titel-set-Programm-Ketteninformationstabelle ATS_PGCIT.
-
Die
Audio-titel-set-Programm-Ketteninformationstabelle ATS_PGCIT enthält Audio-titel-set-Programm-Ketteninformationstabellen ATS_PGCITI,
einen Audio-titel-set-Programm-Ketteninformationssuchzeiger
ATS_PGCI_SRP und einen oder mehrere Stücke Audio-title-set-Programmketteninformation
ATS_PGCI.
-
24 listet
den Inhalt auf, der in der Audio-titel-set-informations-Managementtabelle ATSI_MAT
aus 23 aufgezeichnet ist. Genauer gesagt, ist in der
Audio-titel-set-informations-Managementtabelle
ATSI_MAT das folgende vorgesehen: ein Audio-titel-set-identifizierer
ATSI_ID, die Endadresse ATS_EA des Audio-titel-sets, die Endadresse
ATSI_EA des der Audio-titel-set-information, die Versionsnummer
VERN des verwendeten Audiostandards, die Endadresse ATSI_MAT_EA
der Audio-titel-set-informations-Managementtabelle,
die Startadresse VTS_SA des Audio-only-title-AOTT-Video-titel-set VTS, die
Startadresse AOTT_AOBS_SA des Audio-only-title-audio-object-sets
oder die Startadresse AOTT_VOBS_SA des Audio-only-title-video-object-sets,
die Startadresse ATS_PGCIT_SA der Audio-titele-set-programm-Ketteninformationstabelle,
das Attribut AOTT_AOBS_ATR des Audio-only-title-audio-object-sets
oder die Attribute AOTT_VOBS_ATR #0 bis #7 des Audio-only-title-video-object-sets, Audio-title-set-data-mixing-coefficients
ATS_DM_COEFT #0 bis #15 und andere reservierte Bereiche.
-
In
der Startadresse VTS SA des Audio-only-title-AOTT-video-title-sets
VTS ist die Startadresse des Videotitelsets VTS, einschließlich VTSTT_VOBS,
das für
AOTT verwendet wird, geschrieben, wenn ATS keinen AOTT_AOBS hat. Wenn
ATS AOTT_AOBS hat, dann ist "00000000h" in VTS SA geschrieben.
Der Grund hierfür
ist, dass Videoinformation ebenfalls aufgezeichnet sein kann.
-
Bei
der AOTT_AOBS_SA wird die Startadresse von AOTT_AOBS in der Zahl
relativer logischer Blocks geschrieben, die von dem ersten logischen Block
in ATS gezählt
werden, wenn ATS ein AOTT_AOBS hat. Andererseits, wenn ATS kein AOTT_AOBS
hat, wird die Startadresse des Videotitelsets VTSTT_VOBS für jeden
Videotitelset in AOTT_VOBS_SA bei der Zahl relativer logischer Blocks
geschrieben, die von dem ersten logischen Block in VTS gezählt werden,
einschließlich VTSTT_VOBS,
die für
ATS verwendet werden.
-
Bei
ATS_PGCIT_SA wird die Startadresse ATS_PGCIT bei der Nummer von
relativen logischen Blocks geschrieben, die von dem ersten logischen Block
von ATSI aus gezählt
werden.
-
Acht
Attributinformationen für
den Audiotitelset AOTT_AOB_ATR #0 bis #7 oder Attributinformation
für den
Videotitelset AOTT_VOB_ATR #1 bis #7 werden vorbereitet. Wenn ATS
ein AOTT_AOBS hat, wird das Attribut für AOTT_AOB das in ATS aufgezeichnet
ist, in AOTT_AOB_ATR geschrieben.
-
Wenn
andererseits ATS kein AOTT_AOBS hat, wird das Attribut für einen
Audiostream in VOB, das für
AOTT_VOB in ATS verwendet wird, in AOTT_VOB-ATR geschrieben. In
dem AOTT_AOB-ATR oder AOTT_VOB-ATR wird die verwendete Abtastfrequenz
fs (44 bis 192 kHz) und die Anzahl der Quantisierungsbits Qb (16
oder bis 24) beschrieben.
-
Des
Weiteren wird in dem Abschnitt eine Kanalzuordnung geschrieben.
Bei der Kanalzuordnung wird Zuordnungsinformation an den jeweiligen
Kanal in dem Audiostrom, der in dem durch das Attribut spezifizierten
Videoinhalt enthalten ist, geschrieben. Der Inhalt der Zuordnungsinformation
entspricht der Struktur der mehreren Kanäle. Die Kanalzuordnungsinformation
wird später
beschrieben. Die Zuordnungsinformation wird auch in einen später erläuterten
Audiopaketkopf geschrieben.
-
ATS_DM_COEFT
zeigt einen Koeffizienten an, der zum Heruntermischen der Audiodaten
mit Mehrkanalausgabe verwendet wird, sowie etwa DTS (Decoding Time
Stamp) oder AC-3, zu einer Zweikanalausgabe und wird nur verwendet,
wenn ein oder mehr AOTT_AOB in ATS aufgezeichnet sind.
-
Wenn
ATS kein AOTT_AOBS hat, wird "Oh" in alle Bits in
16 ATS_DM_COEFT (#0 bis #15) geschrieben. Das Gebiet der 16 ATS_DM_COEFT
(#0 bis #15) wird konstant vorgesehen.
-
25 ist
ein Diagramm, um bei der Erläuterung
des Inhalts der Audio-titel-set-programm-Ketteninformationstabelle
ATS_PGCIT zu helfen, die in der Audio-titel-set-information ATSI enthalten ist. Die Aufzeichnungsposition
von ATS_PCGIT wird in ATS_PGCIT_SA von ATSI_MAT geschrieben.
-
Die
ATS_PGCIT enthält
eine Audio-titel-set-Programm-Ketteninformations-Tabelleninformation
ATS_PGCITI, einen Audio-titel-set-Programm-Ketteninformationsuchzeiger ATS_PGCI_SRP
und Audio-titel-set-Programm-Ketteninformation ATS_PGCI.
-
ATS_PGCI_SRP
enthält
einen oder mehrere Audio-titel-set-Programm-Ketteninformationsuchzeiger
ATS_PGCI_SRP #1 bis ATS_PGCI_SRP #j. ATS_PGCI enthält ein Stück von Audio-titel-set-Programm-Ketteninformation
ATS_PGCI #1 bis ATS_PGCI #j als ATS_PGCI_SRP #1 bis ATS_PGCI_SRP
#j.
-
Jedes
ATS_PGCI arbeitet als Navigationsdaten zur Steuerung der Wiedergabe
der Audio-titel-set-Programmkette ATS_PGC.
-
ATS_PGC,
das eine Einheit ist, die verwendet wird, um Audio-only-title AOTT
festzulegen, besteht aus ATS_PGCI und einem oder mehreren Zellen
(Zellen in AOTT_AOBS oder Zellen in ATOTT_VOBS, die als Objekt von
AOTT verwendet werden).
-
Jede
ATS_PGCI enthält
im allgemeinen Information bezüglich
der Audio-titel-set-Programmketten ATS_PGC_GI, eine Audio-titel-set-Programm-Informationstabelle
ATS_PGIT, eine Audio-titel-set-Zellenwiedergabe-Informationstabelle
ATS_C_PBIT und eine Audio-titel-set-audio-still-video-Playback-Informationstabelle
ATS_ASV_PBIT.
-
Die
ATS_PGIT enthält
ein oder mehrere Stücke
von Audio-titel-set-Programminformation ATS_PGI
#1 bis ATS_PGI #k. Die ATS_C_PBIT enthält so viele Stücke von
Audio-titel-set-Zellen-Playbackinformation
ATS_C_PBI #1 bis ATS_C_PBI #k wie ATS_PGI #1 is ATS_PGI #k.
-
26 ist
eine Tabelle, die die Kanalzuordnungsinformation und die Klassen
der ersten Kanalgruppe und der zweiten Kanalgruppe auflistet, die
auf der Grundlage der Kanalzuordnungsinformation klassifiziert sind.
In ATSI_MAT aus 24 wird Attributinformation
bezüglich
des Audioobjekts geschrieben. In der Audioinformation ist eine Kanalzuordnung
vorhanden. Die in 26 gezeigten Daten sind die
Kanalzuordnung.
-
Wenn
die Kanalzuordnungsinformation gleich 00000b ist, heißt dies
Mono, wenn sie gleich 00001b ist, heißt dies, dass L und R (Stereo)
Kanäle in
der ersten Kanalgruppe vorhanden sind, und wenn sie gleich 00010b
ist, heißt
dies, dass Lf und Rf (links vorne und rechts hinten) Kanäle in der
ersten Kanalgruppe vorhanden sind und dass S (Surround) in der zweiten
Kanalgruppe vorhanden ist.
-
Wenn
die Kanalzuordnungsinformation gleich 00011b ist, heißt dies,
dass Lf und Rf Kanäle
in der ersten Kanalgruppe vorhanden sind, dass Ls und Rs (left surround
und right surround) in der zweiten Kanalgruppe vorhanden sind. Wenn
sie gleich 00100b ist, heißt
dies, dass Lf und Rf Kanäle
der ersten Kanalgruppe und LFE (low-frequency-band effect) in der
zweiten Kanalgruppe vorhanden sind.
-
Wenn
die Kanalzuordnungsinformation 00101b ist, heißt dies, dass Lf und Rf Kanäle in der ersten
Kanalgruppe vorhanden sind, und dass LEF und S in der zweiten Kanalgruppe
vorhanden sind. Wenn sie gleich 00110b ist, heißt dies, dass Lf und Rf Kanäle in der
ersten Kanalgruppe und LFE, Ls, Rs in der zweiten Kanalgruppe vorhanden
sind.
-
Wenn
die Kanalzuordnungsinformation gleich 00111b ist, heißt dies,
dass Lf und Rf Kanäle
in der ersten Kanalgruppe vorhanden sind, dass C (Mitte) in der
zweiten Kanalgruppe vorhanden ist. Wenn sie gleich 01000b heißt dies,
dass Lf und Rf Kanäle in
der ersten Kanalgruppe und C und S in der zweiten Kanalgruppe vorhanden
sind.
-
Wenn
die Kanalzuordnungsinformation gleich 01001b ist, heißt dies,
dass Lf und Rf Kanäle in
der ersten Kanalgruppe vorhanden sind, und dass C, Ls und Rs in
der zweiten Kanalgruppe vorhanden sind. Wenn sie gleich 01010b ist,
heißt
dies, dass Lf und Rf Kanäle
in der ersten Kanalgruppe vorhanden sind, und dass C und LFE in
der zweiten Kanalgruppe vorhanden sind.
-
Wenn
die Kanalzuordnungsinformation gleich 01011b ist, heißt dies,
dass Lf und Rf Kanäle
in der ersten Kanalgruppe vorhanden sind, dass C, LFE und S in der
zweiten Kanalgruppe vorhanden sind. Wenn sie gleich 01100b ist,
heißt
dies, dass Lf und Rf Kanäle
in der ersten Kanalgruppe vorhanden sind, und dass C, LFE, Ls und
Rs in der zweiten Kanalgruppe vorhanden sind.
-
Wenn
die Kanalzuordnungsinformation gleich 01101b ist, heißt dies,
dass Lf und Rf Kanäle und
C in der ersten Kanalgruppe vorhanden sind, und dass S in der zweiten
Kanalgruppe vorhanden ist. Wenn sie gleich 01110b ist, bedeutet
dies, dass Lf und Rf Kanäle
und C in der ersten Kanalgruppe vorhanden sind und Ls und Rs in
der zweiten Kanalgruppe vorhanden sind.
-
Wenn
die Kanalzuordnungsinformation gleich 01111b ist, heißt dies,
dass Lf und Rf und C in der ersten Kanalgruppe vorhanden sind, und
dass LFE der zweiten Kanalgruppe vorhanden ist. Wenn sie gleich
10000b ist, heißt
dies, dass Lf und Rf Kanäle
und C in der ersten Kanalgruppe vorhanden sind und dass LEF und
S in der zweiten Kanalgruppe vorhanden ist.
-
Wenn
die Kanalzuordnungsinformation gleich 10001b ist, heißt dies,
dass Lf und Rf Kanäle und
C in der ersten Kanalgruppe vorhanden sind und dass LFE, Ls und
Rs in der zweiten Kanalgruppe vorhanden sind. Wenn sie gleich 10010b
ist, heißt
dies, dass Lf und Rf Kanäle,
Ls und Rs in der ersten Kanalgruppe vorhanden sind und dass LFE
in der zweiten Kanalgruppe vorhanden ist.
-
Wenn
die Kanalzuordungsinformation gleich 10011b ist, heißt dies,
dass Lf und Rf Kanäle,
Ls und Rs in der ersten Kanalgruppe vorhanden sind, und dass C in
der zweiten Kanalgruppe vorhanden ist. Wenn sie 10100b ist, heißt dies,
dass Lf und Rf Kanäle,
Ls und Rs in der ersten Kanalgruppe vorhanden sind, und dass C und
LFE in der zweiten Kanalgruppe vorhanden sind.
-
Bei
der Attributinformation aus 24 oder AOTT_AOB_ATR
oder AOTT_VOB_ATR ist die Abtastfrequenz fs (44 bis 192 kHz) und
die Anzahl der Quantisierungsbits Qb (16 bis 24 Bits) die verwendet werden,
geschrieben.
-
Als
nächstes
wird ein Audiopack weiter detailliert erläutert. 27 zeigt
die Grundstruktur eines Audiopacks A_PKT. Genauer gesagt, in A_PKT
werden Gebiete wie folgt eingestellt: ein Packkopf, ein Paketkopf,
eine Unterstrom-ID, ISRC (International Standard Recording Code),
eine Privat-Kopflänge, ein
erster Zugriffseinheitszeiger, Audiodateninformation, 0 bis 7 Füllbytes
und lineare PCM Audiodaten.
-
Die
folgende Regel wird auf die Größe des Paketkopfes
angewendet. Genauer gesagt, wenn A_PKT das erste Paket in einem
Audioobjekt ist, wird die Größe 17 Byte
lang. Wenn es nicht das erste Daten-Item des Audioframes enthält, wird
die Größe 9 Byte
lang. Wenn es das erste Daten-Item enthält, wird die Größe 14 Byte
lang.
-
Ein
lineares PCM-Audiopaket besteht aus einem Paketkopf, einem Private-Kopf
und Audiodaten. Der Inhalt des Paketkopfes und jeden des Private-Kopfes
sind in den 28A, 28B und 29 gezeigt.
-
28A und 28B zeigen
ein Paketkopf. Daten-Items werden in dieser Reihenfolge geschrieben:
Paketstartcode, Strom-ID, PES-Paketlänge, "01",
PES-Scramble-Steuerinformation,
PES-Priorität,
Datenanordnungsanzeiger, Copyright, Original oder Kopie, PTS_DTS-Flag,
ESCR_Flag, ES Ratenflag, DSM-Trickmodusflag, zusätzliches Kopierflag, PES CRS-Flag,
PES-Expanded-Flag und PES-Flaglänge.
-
Anschließend sind
fünf Bytes
für ein
Gebiet bereitgestellt, in dem eine Präsentationszeitmarke PTS, die
die Wiedergabezeit des Pakets angibt, einzuschreiben ist. Dann wird
das Ffolgende in dieser Reihenfolge eingeschrieben: ein PES-Private-Datenflag,
ein Pack-Kopffeld-Flag, ein Programmpaket-Sequenzzählerflag,
ein P_STD-Pufferflag, ein zweites PES-Expanded-Flag, "01", eine P_STD-Pufferskalierung
und P_STD-Puffergrößeninformation.
-
29 zeigt
ein Privat-Paket. Daten-Items sind in dieser Reihenfolge eingeschrieben:
eine Substream-ID, reserviert, eine ISRC-Nummer, ISRC-Daten, eine
Private-Kopflänge, einen
Kopfzugriffseinheitszeiger, ein Audioverstärkungsflag, reserviert, reserviert,
einen Downmix-Code,
eine erste Zahl von Quantisierungsbits, eine zweite Zahl von Quanitisierungsbits,
eine erste Audioabtastfrequenz, eine zweite Audioabtastfrequenz,
reserviert, eine Mehrkanalart, reserviert, eine Kanalzuordnung,
dynamische Bereichssteuerungsinformation und Füllbytes.
-
Eine
Erläuterung
der jeweiligen Feldelemente wird gegeben. In der Substream-ID zeigt 10100000b
an, dass lineare PCM-Audiodaten geschrieben sind. Bei der ISRC-Nummer,
die für
Standbildsteuerung verwendet wird, wird eine Zahl im Bereich von
1 bis 12 zum Anzeigen des Bereichs der aufgezeichneten ISRC-Daten
geschrieben. Bei den ISRC-Daten werden die durch die ISRC-Nummer spezifizierten
Daten geschrieben.
-
Die
Private-Kopflänge
wird durch die Nummer der logischen Blöcke ausgedrückt, die von dem letzten Byte
in dem Feld gezählt
werden. Bei dem Zugriffseinheitszeiger am Kopf des Feldes wird die Adresse:
des Anfangsbytes einer Einheit, auf die zuerst zugegriffen wird,
mit der Zahl der logischen Blöcke
ausgedrückt,
speziell von dem letzten Byte in dem Feld.
-
Bei
dem Audio-Verstärkungsflag
wird Emphasis-off geschrieben, wenn die Abtastfrequenz fs 96 kHz
oder 88,2 kHz ist. Emphasis-off wird auch geschrieben, wenn die
zweite Abtastfrequenz fs gleich 96 kHz oder 88,2 kHz ist. Eine 0
wird geschrieben für Emphasis-off,
und eine 1 wird geschrieben für
Emphasis-on. Bei dem Downmix-Code wird eine Koeffiziententabelle
für das
Heruntermischen der Audioproben spezifiziert. Die Tabellennummer
ist im Bereich von 0000b bis 1111b.
-
Bei
der ersten Nummer der Quantisierungsbits Qb wird die Nummer der
Bits bei den quantifizierten Audioproben der ersten Kanalgruppe
geschrieben. Wenn dies gleich 0000b ist, heißt dies, dass 16 Bits geschrieben
sind, wenn sie 0001b ist, heißt
dies 20 Bits, und wenn es 0010b ist, heißt dies 24 Bits.
-
Bei
der zweiten Nummer der Quantisierungsbits Qb wird die Nummer der
Bits in den quantifizierten Audioproben in der zweiten Kanalgruppe geschrieben.
Wenn dies gleich 0000b ist, heißt
dies 16 Bits, wenn dies 0001b ist, heißt dies 20 Bits und wenn dies
0010b ist, heißt
dies 24 Bits. Wenn sie gleiche 1111b ist, heißt dies, dass die Zahl der
Bits nicht bestimmt wurde. Dies passiert z.B. wenn die zweite Kanalgruppe
nicht existiert.
-
Bei
der ersten Audioabtastfrequenz wird die Abtastfrequenz fs eines
Audiosignals der ersten Kanalgruppe geschrieben. Wenn dies gleich
0000b ist, heißt
dies, 48 kHz, wenn dies 0001b ist, heißt dies 96 kHz, wenn dies 1000b
ist, heißt
dies 44,1 kHz und wenn dies gleich 1001b ist, heißt dies
88,2 kHz.
-
Bei
der zweiten Audioabtastfrequenz wird die Abtastfrequenz fs eines
Audiosignals in der zweiten Kanalgruppe geschrieben. Wenn dies gleich 0000b
ist, heißt
dies 48 kHz, wenn dies gleich 0001b ist, heißt dies 96 kHz, wenn dies gleich
1000b ist, heißt
dies 44,1 kHz und wenn dies gleich 1001b ist, heißt dies
88,2 kHz. Wenn dies gleich 1111b ist, heißt dies, dass die Abtastfrequenz
fs nicht bestimmt wurde. Dies tritt z.B. auf, wenn die zweite Kanalgruppe nicht
existiert.
-
Bei
dem Mehrkanaltyp wird der Typ oder die Art der Mehrkanalstruktur
einer Audioprobe geschrieben. Wenn dies gleich 0000b ist, heißt dies
Typ 1 und wenn dies nicht gleich 0000b ist, heißt dies reserviert. Bei der
Kanalzuordnung wird der Kanalzuordnungszustand eingeschrieben, wie
es in 26 gezeigt ist.
-
Die
dynamische Bereichssteuerinformation wird verwendet, um den dynamischen
Bereich zu unterdrücken.
Die am weitesten links stehenden Bits in dem Acht-Bit-Wort zeigen
eine ganze Zahl X an, und die verbleibenden fünf Bits zeigen eine ganze Zahl
Y an.
-
Die
lineare Verstärkung
ist G = 24 – [(X + Y)/30], wobei (0 ≤ X ≤ 7, 0 ≤ Y ≤ 29) ist.
In dB bedeutet dies, G = 24,082 – 6,0206X – 0,2007Y, wobei 0 ≤ X ≤ 7, 0 ≤ Y ≤ 29 ist.
-
Bei
der Plattenwiedergabe nimmt der Systemsteuerabschnitt die Attributinformation,
die beispielsweise die Zuordnung der Kanalgruppen anzeigt, die erste
Zahl der Quantisierungsbits und die zweite Zahl der Quantisierungsbits
in den Audiodaten und die ersten und zweiten Audioabtastfrequenzen,
wobei nicht nur ermöglicht
wird, dass die Daten in den ersten und zweiten Kanalgruppen sequenziert werden,
sondern auch die Wiedergabezeitsteuerung ermöglicht wird. Somit können diese
Stücke
von Kopfinformation als Synchronisationsinformation verwendet werden.
-
Das
Wiedergabesystem für
eine DVD-Audioplatte, auf der in oben beschriebenen Art und Weise Daten
geschrieben sind, wird nun detailliert erläutert. 30 zeigt
den Signalweg der Wiedergabevorrichtung bezüglich der Audioströme. Die
auf einer optischen Platte 500 aufgezeichneten Daten werden durch
einen Abschnitt 533 eines optischen Kopfs gelesen, der
ein Hochfrequenzsignal ausgibt.
-
Das
Hochfrequenzsignal (Auslesesignal), das einem Systemverarbeitungsabschnitt 504 eingegeben
wird, wird einem Synchronisationssensor 601 eingegeben.
Der Synchronisationssensor 601 erfasst das Synchronisationssignal,
das den aufgezeichneten Daten zugefügt ist und erzeugt ein Zeitsteuerungssignal.
Das Auslesesignal, von dem das Synchronisationssignal bei dem Synchronisationssensor 601 entfernt
wurde, wird einem 8-16 Demodulator 602 eingegeben, der
ein 16-Bit Signal in ein 8-Bit
Signal demoduliert. Der 8-16 Demodulator 602 demoduliert
das Auslesesignal in einen 8-Bit Datenstring.
-
Die
demodulierten Daten werden einer Fehlerkorrekturschaltung 603 eingegeben,
die eine Fehlerkorrekturverarbeitung durchführt. Die fehlerkorrigierten
Daten werden einem Demultiplexer 605 über einen Track- oder Spur-Puffer 604 eingegeben.
Der Demultiplexer 605 identifiziert einen Audiopack, einen
Echtzeitpack und ähnliches
beruhend auf der Strom-ID und gibt jeden Pack an den entsprechenden
Dekoder.
-
Ein
Audiopack wird in einen Audiopuffer 611 geladen. Der Packkopf
und der Paketkopf in einem Audiopack werden durch eine Steuerschaltung 612 gelesen.
Die Steuerschaltung 612 erkennt den Inhalt des Audiopacks.
Genauer gesagt, die Steuerschaltung 612 erkennt den Startcode
des Audiopacks, die Fülllänge, den
Paketstartcode und die Strom-ID. Sie erkennt weiterhin die Paketlänge, die
Unterstrom-ID, den ersten Zugriffspunkt, die Zahl der Audioquantisierungsbits,
die Abtastfrequenz und die Kanalgruppen aus der Kanalzuordnung.
-
Beim
Erkennen dieser Informationsstücke kann
die Steuerschaltung 612 den Inhalt der linearen PCM-Datenpakete
wiedergeben und ein Dekodierverfahren bestimmen. Des Weiteren kann
die Steuerschaltung 612 die Segmentationsadresse für die wiederzugebenden
Audiodaten in dem Paket, das in dem Audiopuffer 612 gespeichert
ist, erfassen.
-
Im
Ergebnis gibt unter der Steuerung der Steuerschaltung 612 der
Audiopuffer 611 die vorgenannten Proben, beispielsweise
S0, S1, e0, e1, S2, S3, ... an den Dekoder 613. Die Steuerschaltung 612 erkennt
zumindest die Zahl der Quantisierungsbits, die Abtastfrequenz und
die Kanalzuordnung. Beruhend auf den erkannten Informationsstücken können die
Daten segmentiert und der Dekodiermodus in dem Dekoder 613 eingestellt
werden. Die Proben werden an den Dekoder 613 geliefert,
der einen Kanalprozess durchführt
und die Daten dekodiert.
-
31 zeigt
ein Beispiel der Konfiguration des Dekoders 613. Die einem
Eingabeanschluß 710 gelieferte
Probe wird Kanal für
Kanal durch einen Schalter 712 unter der Steuerung der
Steuerschaltung 612 zugeordnet. Genauer gesagt, wenn Signal L
oder Lf (einschließlich
einem Extrawort) angekommen ist, wird dies einem Pufferspeicher 713 zugeordnet,
wenn Signal R oder Rf (einschließlich einem Extrawort) angekommen
ist, wird dies einem Pufferspeicher 714 zugeordnet, wenn
Signal C (einschließlich einem
Extrawort), wenn dies ebenfalls angekommen ist, wird dies einem
Pufferspeicher 715 zugeordnet, wenn Signal Ls (einschließlich einem
Extrwort, wenn dies ebenfalls eingetroffen ist), wird dies einem
Pufferspeicher 716 zugeordnet, wenn das Signal Rs (einschließlich einem
Extrawort, wenn dies ebenfalls eingetroffen ist) eingetroffen ist,
wird dies einem Pufferspeicher 717 zugeordnet. Wenn des
Weiteren ein Signal S angekommen ist, wird dies einem Pufferspeicher 718 zugeordnet,
und wenn ein Signal LEF angekommen ist, wird das einem Pufferspeicher 719 zugeordnet.
-
Die
Ausgänge
der jeweiligen Pufferspeicher 713 bis 716 werden
jeweils Frame-Verarbeitungsabschnitten 813 bis 819 eingegeben,
die eine Frameeinheit bilden. Die Ausgaben der Frameverarbeitungsabschnitte 813, 814, 815, 816 und 817 werden jeweils
an die Phasenanpassabschnitte 723, 724, 725, 726 bzw. 727 geliefert.
-
Die
Ausgaben der Phasenverarbeitungsabschnitte 815, 816 und 817 können ebenfalls
an jeweilige Frquenzwandler 821, 822 bzw. 823 über einen Schalter 820 geliefert
werden. Die Ausgaben der Frame-Verarbeitungsabschnitte 818 und 819 können ebenfalls
an einen Frequenzwandler 824 bzw. 825 geliefert
werden.
-
Die
Phasenanpassabschnitte 723 bis 727 sind zur endgültigen Anpassung
der Phase eines Signals der ersten Kanalgruppe mit einem Signal
in der zweiten Kanalgruppe vorgesehen, während die zweite Kanalgruppe
frequenzgewandelt wird. Die Ausgabe der Phasenanpassschaltungen 723 bis 727 und jene
der Frequenzwandler 821 bis 825 werden an eine
Auswahlschaltung bzw. einen Selektor 730 geliefert.
-
Wie
es in 26 gezeigt ist, wählt der
Selektor 730 die entsprechenden Kanalsignale entsprechend
der Information in der Kanalzuordnung und liefert die ausgewählten Signale
an die entsprechenden Digital/Analog-Wandler 731, 732, 733, 734, 735 bzw. 736.
-
Während bei
der Ausführungsform
eine Probe in der zweiten Kanalgruppe frequenzgewandelt und ausgegeben
wurde, kann sie in ein Analogsignal ohne Frequenzwandlung umgewandelt
werden. Auf diese Art kann der Phasenanpassabschnitt in der ersten
Kanalgruppe eliminiert werden.
-
Als
nächstes
wird der Weg der oben beschriebenen Audioinformation, die auf einer
optischen Platte aufgezeichnet wird, kurz erläutert. Wie es in den 32A bis 32D gezeigt
ist, wenn ein Teil der Aufzeichnungsseite einer optischen Platte 100 vergrößert ist,
kann gesehen werden, dass Pit-Folgen ausgebildet sind. Ein Satz
von Pits bildet einen Sektor. Auf den Spuren oder Tracks auf der
optischen Platte 100 sind Sektorfolgen (sector trains) ausgebildet.
Die Sektoren werden durch einen optischen Kopf nacheinander gelesen,
wodurch sie Audiopacks in Echtzeit wiedergeben. Im folgenden wird nun
die Erläuterung
eines Sektors gegeben, beispielsweise eines Sektors, in dem Audioinformation geschrieben
wurde. Wie es in den 33A und 33B gezeigt
ist, besteht ein Sektor aus 13 × 2 Frames.
Ein Synchronisationscode wird zu jedem Frame hinzugefügt. In den
Figuren sind die Frames zweidimensional angeordnet. Auf einer Spur
sind Frames beginnend mit dem ersten Frame angeordnet. Wenn die
Frames in der Reihenfolge angeordnet sind, in der die Synchronisationscodes
in den Figuren angeordnet sind, sind sie in dieser Reihenfolge geordnet:
SY0, SY6, SY1, SY5, SY2, SY5, ...
-
Die
zahl der Bits in dem Synchronisationscode und jene in den Daten
in einem Frame in der Figur sind 32 Bits bzw. 1456 Bits. Hier sind
32 Bits gleich 16 Bits × 2,
und 1456 Bits sind 16 Bits × 91. Diese
Gleichungen bedeuten, dass 16 Bit-Modulationscodes aufgezeichnet
wurden. Dies liegt daran, dass 8 Bitdaten in 16 Bitdaten moduliert
sind, und dass 16 Bitdaten aufgezeichnet sind, wenn die Daten auf
der optischen Platte aufgezeichnet werden. Des Weiteren enthält die Sektorinformation
einen Modulationsfehlerkorrekturcode.
-
34A zeigt einen Aufzeichnungssektor, nachdem 16
Bitdaten in dem physikalischen Sektor in 8-Bitdaten demoduliert
wurden. Die Datenmenge in dem Aufzeichnungssektor ist (172 + 10)
Bytes × (12 +
1) Zeilen. Ein 10-Byte-Fehlerkorrekturcode
wird jeder Zeile hinzugefügt.
Es gibt eine Zeile mit Fehlerkorrekturcodes. Die Fehlerkorrekturcodes
arbeiten als Fehlerkorrekturcodes in Richtung von Spalten, wenn
12 Zeilen zusammengefasst sind. Dies wird später erläutert.
-
Wenn
der Fehlerkorrekturcode von den Daten in einem Aufzeichnungssektor
entfernt ist, ist das Ergebnis ein Datenblock, wie er in 34B gezeigt ist. Genauer gesagt, der Datenblock
ist so, dass 2840 Byte Hauptdaten, 4 Byte Sektor-ID, 2 Byte IC-Fehlersensorcode
IED und 4 Byte Copyright-Managementinformation CPR MAI zu Beginn
der Daten hinzugefügt
sind, und wobei ein 4-Byte-Error Sensorcode EDC am Ende der Daten
hinzugefügt
ist.
-
Dies
sind 2048 Daten von einem Pack, wie es vorangehend beschrieben wurde.
Ein Packkopf, ein Paketkopf und Audiodaten sind eingeschrieben, beginnend
mit dem Kopf des Packs. In dem Packkopf und dem Paketkopf sind verschiedene
Stücke
von Führungsinformation
zur Verarbeitung der Audiodaten eingeschrieben.
-
Wie
vorangehend beschrieben wurde, wird ein Paket zu einem Sektor zugeordnet.
In dem Paket sind Audioproben angeordnet. Der Audiodekoder kann
die linearen PCM-Daten gut wiedergeben, auch nur mit der Information
aus einem Sektor. Dies liegt daran, dass die Daten in einer solchen
Art angeordnet sind, dass der Kopf der Audiodaten in einem Pack immer
mit dem Kopf einer Hauptprobe beginnt. Dies liegt auch daran, dass
hinreichend Steuerinformation für
den Audiodekoder zum Bearbeiten der Audiodaten in dem Paketkopf
geschrieben ist.
-
Als
nächstes
wird ein Fehlerkorrekturblock (ECC Block) erläutert. Wie es in den 35A und 35B gezeigt
ist, besteht der ECC-Block aus 16 Einheiten des oben beschriebenen
Aufzeichnungssektors. 35A zeigt
einen Satz von 16 Einheiten eines 12 Zeilen × 127 Byte-Datensektors (34A).
-
Eine
externe 16 Byte Codeparität
(PO) wird zu jeder Zeile hinzugefügt. Eine interne 10 Byte Codeparität (PI) wird
zu jeder Spalte hinzugefügt.
Bevor die Daten aufgezeichnet werden, wird eine externe 16-Byte
Codeparität
(PO) über
die Spalten verteilt, wobei ein Bit zu einer Spalte zugeordnet wird,
wie es in 35B gezeigt ist. Im Ergebnis
wird ein Aufzeichnungssektor aus 13 (12 + 1) Zeilen mit Daten gebildet.
-
In 35A zeigt B0, 0, B0, 1, ... Adressen in Bytes
an. In 35B bezeichnen 0 bis 15 die
jeweiligen Blöcke
in einem Aufzeichnungssektor. Auf den Aufzeichnungsspuren der Platte
sind Audiopacks, Managementinformation, Standbildinformation und wenn
nötig Echtzeitinformation
angeordnet.
-
Bei
der obigen Erläuterung
wurde die Datenstruktur der Erfindung auf einer Platte aufzeichnet und
von dieser wiedergegeben. Es ist leicht die Datenstruktur bei der Übertragung
der Daten über
ein Kommunikationssystem zu verwenden. Es ist selbstverständlich,
dass die Erfindung auf eine Datenstruktur selbst angewendet werden
kann, auf eine Vorrichtung zum Übertragen
der Datenstruktur, auf eine Vorrichtung zum Übermitteln der Datenstruktur
und auf eine Vorrichtung zum Empfangen der Datenstruktur.
-
Während in
der Ausführungsform
ein Verfahren und eine Vorrichtung zum Abtasten von Audiosignalen
und zum Handhaben der abgetasteten Signale erläutert wurde, kann die Erfindung
auch auf andere Signale, außer
Audiosignalen angewendet werden, vorausgesetzt, dass die Daten-Items
gleichzeitige Wiedergabeausgaben erfordern, und in dem gleichen Übertragungs-
oder Übermittlungssystem
verwendet werden.