JP2004139100A - Optical recording medium and voice decoding device - Google Patents

Optical recording medium and voice decoding device Download PDF

Info

Publication number
JP2004139100A
JP2004139100A JP2003371820A JP2003371820A JP2004139100A JP 2004139100 A JP2004139100 A JP 2004139100A JP 2003371820 A JP2003371820 A JP 2003371820A JP 2003371820 A JP2003371820 A JP 2003371820A JP 2004139100 A JP2004139100 A JP 2004139100A
Authority
JP
Japan
Prior art keywords
channels
data
group
audio signal
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003371820A
Other languages
Japanese (ja)
Other versions
JP3791800B2 (en
Inventor
Yoshiaki Tanaka
田中 美昭
Shoji Ueno
植野 昭治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2003371820A priority Critical patent/JP3791800B2/en
Publication of JP2004139100A publication Critical patent/JP2004139100A/en
Application granted granted Critical
Publication of JP3791800B2 publication Critical patent/JP3791800B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To manage a reproduction-side processing time when a multichannel voice signal is encoded with variable compression ratio. <P>SOLUTION: Predicting circuits 13D1, 13D2, and 15D1 to 15D4 and buffer selectors 14D1, 14D2, and 16D1 to 16D4 perform predictive encoding of a 6-channel voice signal. A DTS generator 17 generates decoding time stamp information showing the read timing of compressed data from a decoding-side input buffer 22a according to the amounts of predictively encoded data by channels and a formatting circuit 19 formats the data into a packet having a packet header including the decoding time stamp information and user data including the compressed data. <P>COPYRIGHT: (C)2004,JPO

Description

 本発明は、マルチチャネルの音声信号を可変長で圧縮するための光記録媒体及び音声復号装置に関する。 The present invention relates to an optical recording medium and an audio decoding device for compressing a multi-channel audio signal with a variable length.

 音声信号を可変長で圧縮する方法として、本発明者は先の出願(特願平9−2
89159号)において1チャネルの原デジタル音声信号に対して、特性が異な
る複数の予測器により時間領域における過去の信号から現在の信号の複数の線形
予測値を算出し、原デジタル音声信号と、この複数の線形予測値から予測器毎の
予測残差を算出し、予測残差の最小値を選択する予測符号化方法を提案している
As a method of compressing an audio signal with a variable length, the present inventor has disclosed a prior application (Japanese Patent Application No. 9-2980).
No. 89159), a plurality of predictors having different characteristics are used to calculate a plurality of linear prediction values of a current signal from a past signal in a time domain with respect to a one-channel original digital audio signal. A prediction coding method for calculating a prediction residual for each predictor from a plurality of linear prediction values and selecting a minimum value of the prediction residual has been proposed.

 なお、上記方法では原デジタル音声信号がサンプリング周波数=96kHz、
量子化ビット数=20ビット程度の場合にある程度の圧縮効果を得ることができ
るが、近年のDVDオーディオディスクではこの2倍のサンプリング周波数(=
192kHz)が使用され、また、量子化ビット数も24ビットが使用される傾
向があるので、圧縮率を改善する必要がある。また、マルチチャネルにおけるサ
ンプリング周波数と量子化ビット数はチャネル毎に異なることもある。
In the above method, the sampling frequency of the original digital audio signal is 96 kHz,
Although a certain degree of compression effect can be obtained when the quantization bit number is about 20 bits, a recent DVD audio disc has a sampling frequency (= 2 times) which is twice this.
192 kHz) and the number of quantization bits tends to be 24 bits. Therefore, it is necessary to improve the compression ratio. Further, the sampling frequency and the number of quantization bits in the multi-channel may be different for each channel.

 ところで、予測符号化方式のような圧縮方式は圧縮率が可変(VBR:バリア
ブル・ビット・レート)であるので、マルチチャネルの音声信号を予測符号化す
るとチャネル毎のデータ量が時間的に大きく変化する。また、このようなデータ
を伝送する場合には、チャネル毎にパラレルではなくデータストリームとして伝
送される。
By the way, the compression rate such as the predictive coding method has a variable compression rate (VBR: variable bit rate), and therefore, when predictive coding is performed on a multi-channel audio signal, the data amount of each channel greatly changes over time. I do. When transmitting such data, the data is transmitted as a data stream instead of parallel for each channel.

 したがって、再生側(デコード側)においてこのような可変長のデータストリ
ームをチャネル毎に同期して再生(プレゼンテーション)可能にするためには、
入力バッファに蓄積されたデータストリームを読み出してデコーダに出力するた
めのタイミングを示すデコード時間と、出力バッファに蓄積されたデコード後の
データを読み出してスピーカなどに出力(プレゼンテーション)するためのタイ
ミングを示す再生時間を管理しなければならない。また、再生側でこのような可
変長のデータストリームをサーチ再生するための時間を管理しなければならない
Therefore, in order to enable reproduction (presentation) of such a variable-length data stream on the reproduction side (decoding side) in synchronization with each channel,
A decoding time indicating the timing for reading the data stream stored in the input buffer and outputting the data to the decoder, and a timing for reading the decoded data stored in the output buffer and outputting (presenting) the data to a speaker or the like. Play time must be managed. In addition, the playback side must manage the time for searching and playing back such a variable-length data stream.

 そこで本発明は、マルチチャネルの音声信号を可変の圧縮率で符号化する場合
に再生側の処理時間を管理することができる光記録媒体及び音声復号装置を提供することを目的とする。
Therefore, an object of the present invention is to provide an optical recording medium and an audio decoding device that can manage the processing time on the reproduction side when encoding a multi-channel audio signal at a variable compression rate.

 本発明は上記目的を達成するために、以下の1)及び2)に記載の手段よりなる。 The present invention comprises means described in 1) and 2) below to achieve the above object.

 すなわち、
 1)元のマルチチャネルの音声信号をダウンミクスしてステレオ2チャネルの音声信号に変換するステップと、
 前記ステップにより得られたステレオ2チャネルを含む第1のグループと、前記元のマルチチャネルの相関あるチャネルを含む第2のグループにグループ分けして、少なくとも前記第2のグループのチャネルは元のチャネルを所定のマトリクス演算により、相関あるチャネルであってそのチャネル数が前記2チャンネル分少ない数の相関チャネルに変換するステップと、
 前記ステレオ2チャネルと前記第2のグループの相関あるチャネルの音声信号を、チャネル毎に、入力される音声信号に応答して、先頭サンプル値を所定時間のフレーム単位で得ると共に、特性が異なる複数の線形予測方法により時間領域の過去から現在の信号の線形予測値がそれぞれ予測され、その予測される線形予測値と前記音声信号とから得られる予測残差が最小となるような線形予測方法を前記フレームを更に分割したサブフレーム単位に選択して予測符号化するステップと、
 前記ステップによって選択された線形予測方法と予測残差と所定の先頭サンプル値とを含む予測符号化データを前記ステレオ2チャネルの第1のグループと前記相関あるチャネルの第2のグループにグループにグループ分けしたビットストリームに格納するステップと、
 前記圧縮されたデータの量に応じて、デコーディング・タイム・スタンプ情報を生成するステップと、
 前記デコーディング・タイム・スタンプ情報を含むパケットヘッダと、圧縮データと、を含むユーザデータを有するパケットにフォーマット化するステップとにより、前記フォーマット化されたパケットが記録され、前記デコーディング・タイム・スタンプ情報は、復号側において前記ユーザデータから分離されて一旦蓄積される圧縮データを読み出し伸長するためのタイミング情報として記録されることを特徴とする光記録媒体。
 2)元のマルチチャネルの音声信号をダウンミクスしてステレオ2チャネルの音声信号に変換するステップと、
 前記ステップにより得られたステレオ2チャネルを含む第1のグループと、前記元のマルチチャネルの相関あるチャネルを含む第2のグループにグループ分けして、少なくとも前記第2のグループのチャネルは元のチャネルを所定のマトリクス演算により、相関あるチャネルであってそのチャネル数が前記2チャンネル分少ない数の相関チャネルに変換するステップと、
 前記ステレオ2チャネルと前記第2のグループの相関あるチャネルの音声信号を、チャネル毎に、入力される音声信号に応答して、先頭サンプル値を所定時間のフレーム単位で得ると共に、特性が異なる複数の線形予測方法により時間領域の過去から現在の信号の線形予測値がそれぞれ予測され、その予測される線形予測値と前記音声信号とから得られる予測残差が最小となるような線形予測方法を前記フレームを更に分割したサブフレーム単位に選択して予測符号化するステップと、
 前記ステップによって選択された線形予測方法と予測残差と所定の先頭サンプル値とを含む予測符号化データを前記ステレオ2チャネルの第1のグループと前記相関あるチャネルの第2のグループにグループにグループ分けしたビットストリームに格納するステップと、
 前記圧縮されたデータの量に応じて、デコーディング・タイム・スタンプ情報を生成するステップと、
 前記デコーディング・タイム・スタンプ情報を含むパケットヘッダと、圧縮データと、を含むユーザデータを有するパケットにフォーマット化するステップとにより、記録されたデータから元の音声信号を復号する音声復号装置であって、
 前記パケット内のユーザデータをパケットヘッダと圧縮データとに分離する手段と、
 前記分離された圧縮データを蓄積する入力バッファと、
 前記入力バッファ内に蓄積された圧縮データを前記パケットヘッダ内のデコーディング・タイム・スタンプ情報に基づいて読み出しステレオ2チャネルの音声信号と元のマルチチャネルの音声信号を復元するデコード手段とを、
有する音声復号装置。
That is,
1) down-mixing the original multi-channel audio signal and converting it into a stereo 2-channel audio signal;
Dividing into a first group including two stereo channels obtained by the step and a second group including correlated channels of the original multi-channel, at least the channels of the second group are the original channels By a predetermined matrix operation to convert the number of correlated channels into correlated channels whose number of channels is smaller by the two channels,
The audio signals of the stereo two channels and the correlated channels of the second group are obtained for each channel in response to an input audio signal, and a first sample value is obtained in a frame unit of a predetermined time, and a plurality of audio signals having different characteristics are obtained. A linear prediction method of predicting a linear prediction value of a current signal from the past in the time domain by the linear prediction method of the present invention, and minimizing a prediction residual obtained from the predicted linear prediction value and the audio signal. Selecting and predictively coding the frame in units of subframes further divided;
Grouping the prediction coded data including the linear prediction method selected in the step, the prediction residual, and a predetermined first sample value into a first group of the stereo two channels and a second group of the correlated channels. Storing in a divided bit stream;
Generating decoding time stamp information according to the amount of the compressed data;
Formatting the packet into packets having user data including the packet header including the decoding time stamp information and compressed data, wherein the formatted packet is recorded and the decoding time stamp An optical recording medium characterized in that information is recorded as timing information for reading and expanding compressed data separated from the user data and temporarily stored on the decoding side.
2) down-mixing the original multi-channel audio signal to convert it into a stereo 2-channel audio signal;
Dividing into a first group including two stereo channels obtained by the step and a second group including correlated channels of the original multi-channel, at least the channels of the second group are the original channels By a predetermined matrix operation to convert the number of correlated channels into correlated channels whose number of channels is smaller by the two channels,
The audio signals of the stereo two channels and the correlated channels of the second group are obtained for each channel in response to an input audio signal, and a first sample value is obtained in a frame unit of a predetermined time, and a plurality of audio signals having different characteristics are obtained. A linear prediction method of predicting a linear prediction value of a current signal from the past in the time domain by the linear prediction method of the present invention, and minimizing a prediction residual obtained from the predicted linear prediction value and the audio signal. Selecting and predictively coding the frame in units of subframes further divided;
Grouping the prediction coded data including the linear prediction method selected in the step, the prediction residual, and a predetermined first sample value into a first group of the stereo two channels and a second group of the correlated channels. Storing in a divided bit stream;
Generating decoding time stamp information according to the amount of the compressed data;
An audio decoding device for decoding an original audio signal from recorded data by formatting the packet into a packet having user data including the packet header including the decoding time stamp information and compressed data. hand,
Means for separating user data in the packet into a packet header and compressed data,
An input buffer for storing the separated compressed data;
Decoding means for reading out the compressed data accumulated in the input buffer based on the decoding time stamp information in the packet header and restoring the stereo two-channel audio signal and the original multi-channel audio signal;
Audio decoding device having the same.

 以上説明したように本発明によれば、アクセスユニットサーチポインタをパケットヘッダにセットしたので、マルチチャネルの音声信号を可変の圧縮率で符号化する場合に再生側がサーチ再生することができる。 As described above, according to the present invention, since the access unit search pointer is set in the packet header, the reproduction side can search and reproduce when encoding a multi-channel audio signal at a variable compression rate.

 以下、図面を参照して本発明の実施の形態を説明する。図1は本発明が適用される声符号化装置とそれに対応する音声復号装置の第1の実施形態を示すブロック図、図2は図1の符号化部を詳しく示すブロック図、図3は図1、図2の符号化部により符号化されたビットストリームを示す説明図、図4はDVDのパックのフォーマットを示す説明図、図5はDVDのオーディオパックのフォーマットを示す説明図、図6は図1の復号化部を詳しく示すブロック図、図7は図6の入力バッファの書き込み/読み出しタイミングを示すタイミングチャート、図8はアクセスユニット毎の圧縮データ量を示す説明図、図9はアクセスユニットとプレゼンテーションユニットを示す説明図である。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a first embodiment of a voice encoding apparatus to which the present invention is applied and a speech decoding apparatus corresponding thereto, FIG. 2 is a block diagram showing the encoding unit of FIG. 1 in detail, and FIG. 1, 2 and 3. FIG. 4 is an explanatory diagram showing a DVD pack format, FIG. 5 is an explanatory diagram showing a DVD audio pack format, and FIG. 6 is an explanatory diagram showing a DVD audio pack format. FIG. 7 is a block diagram showing the decoding unit in detail in FIG. 1, FIG. 7 is a timing chart showing write / read timing of the input buffer in FIG. 6, FIG. 8 is an explanatory diagram showing the amount of compressed data for each access unit, FIG. 4 is an explanatory diagram showing a presentation unit.

 ここで、マルチチャネル方式としては、例えば次の4つの方式が知られている

(1)4チャネル方式   ドルビーサラウンド方式のように、前方L、C、R
の3チャネル+後方Sの1チャネルの合計4チャネル
(2)5チャネル方式   ドルビーAC−3方式のSWチャネルなしのように
、前方L、C、Rの3チャネル+後方SL、SRの2チャネルの合計5チャネル
(3)6チャネル方式   DTS(Digital Theater System)方式や、ドルビ
ーAC−3方式のように6チャネル(L、C、R、SW(Lfe)、SL、SR

(4)8チャネル方式   SDDS(Sony Dynamic Digital Sound)方式のよ
うに、前方L、LC、C、RC、R、SWの6チャネル+後方SL、SRの2チ
ャネルの合計8チャネル
 図1に示す符号化側の6チャネル(ch)ミクス&マトリクス回路1’は、マル
チチャネル信号の一例としてフロントレフト(Lf)、センタ(C)、フロント
ライト(Rf)、サラウンドレフト(Ls)、サラウンドライト(Rs)及びL
fe(Low Frequency Effect)の6chのPCMデータを次式(1)により前方グ
ループに関する2ch「1」、「2」と他のグループに関する4ch「3」〜「6」
に分類して変換し、2ch「1」、「2」を第1符号化部2’−1に、また、4ch
「3」〜「6」を第2符号化部2’−2に出力する。
Here, for example, the following four systems are known as the multi-channel system.
(1) 4 channel system L, C, R forward like Dolby surround system
3 channels + 1 channel of rear S, 4 channels in total (2) 5 channels system Like 3 channels of front L, C, R + 2 channels of rear SL, SR like the Dolby AC-3 system without SW channel 6 channels (L, C, R, SW (Lfe), SL, SR) such as DTS (Digital Theater System) and Dolby AC-3
)
(4) 8-channel system As in the case of the Sony Dynamic Digital Sound (SDDS) system, a total of 8 channels including 6 channels of front L, LC, C, RC, R, and SW + 2 channels of rear SL and SR are shown in FIG. The 6-channel (ch) mixing and matrix circuit 1 'on the conversion side includes front left (Lf), center (C), front right (Rf), surround left (Ls), and surround right (Rs) as examples of multi-channel signals. And L
The 6-ch PCM data of fe (Low Frequency Effect) is divided into 2ch “1” and “2” for the front group and 4ch “3” to “6” for the other groups by the following equation (1).
2ch “1” and “2” are assigned to the first encoding unit 2′-1 and 4ch
"3" to "6" are output to second encoding section 2'-2.

 「1」=Lf+Rf
 「2」=Lf−Rf
 「3」=C−(Ls+Rs)/2
 「4」=Ls+Rs
 「5」=Ls−Rs
 「6」=Lfe−a×C
 ただし、0≦a≦1          …(1)
 符号化部2’を構成する第1及び第2符号化部2’−1、2’−2はそれぞれ
、図2に詳しく示すように2ch「1」、「2」と4ch「3」〜「6」のPCMデ
ータを予測符号化し、予測符号化データを図3に示すようなビットストリームで
記録媒体5や通信媒体6を介して復号側に伝送する。復号側では復号化部3’を
構成する第1及び第2復号化部3’−1、3’−2により、図6に詳しく示すよ
うにそれぞれ前方グループに関する2ch「1」、「2」と他のグループに関する
4ch「3」〜「6」の予測符号化データをPCMデータに復号する。
“1” = Lf + Rf
“2” = Lf−Rf
“3” = C− (Ls + Rs) / 2
"4" = Ls + Rs
“5” = Ls−Rs
“6” = Lfe−a × C
However, 0 ≦ a ≦ 1 (1)
As shown in detail in FIG. 2, the first and second encoding units 2'-1 and 2'-2 that constitute the encoding unit 2 'respectively have 2ch "1", "2" and 4ch "3" to "4ch". The PCM data of "6" is predictively coded, and the predicted coded data is transmitted to the decoding side via the recording medium 5 and the communication medium 6 as a bit stream as shown in FIG. On the decoding side, the first and second decoding units 3′-1 and 3′-2 that constitute the decoding unit 3 ′ generate 2ch “1” and “2” for the front group as shown in detail in FIG. The predictive coded data of 4ch “3” to “6” relating to another group is decoded into PCM data.

 次いでミクス&マトリクス回路4’により式(1)に基づいて元の6ch(Lf
、C、Rf、Ls、Rs、Lfe)を復元するとともに、この元の6chと係数m
ij(i=1,2,j=1,2〜6)により次式(2)のようにステレオ2chデー
タ(L、R)を生成する。
Next, the original 6ch (Lf) is calculated by the mix & matrix circuit 4 ′ based on the equation (1).
, C, Rf, Ls, Rs, Lfe) and restore the original 6 ch and coefficient m
Stereo two-channel data (L, R) is generated by ij (i = 1, 2, j = 1, 2 to 6) as in the following equation (2).

 L=m11・Lf+m12・Rf+m13・C
   +m14・Ls+m15・Rs+m16・Lfe
 R=m21・Lf+m22・Rf+m23・C
   +m24・Ls+m25・Rs+m26・Lfe        …(2)
 図2を参照して符号化部2’−1、2’−2について詳しく説明する。各ch「
1」〜「6」のPCMデータは1フレーム毎に1フレームバッファ10に格納さ
れる。そして、1フレームの各ch「1」〜「6」のサンプルデータがそれぞれ予
測回路13D1、13D2、15D1〜15D4に印加されるとともに、各ch「
1」〜「6」の各フレームの先頭サンプルデータがフォーマット化回路19に印
加される。予測回路13D1、13D2、15D1〜15D4はそれぞれ、各ch
「1」〜「6」のPCMデータに対して、特性が異なる複数の予測器(不図示)
により時間領域における過去の信号から現在の信号の複数の線形予測値を算出し
、次いで原PCMデータと、この複数の線形予測値から予測器毎の予測残差を算
出する。続くバッファ・選択器14D1、14D2、16D1〜16D4はそれ
ぞれ、予測回路13D1、13D2、15D1〜15D4により算出された各予
測残差を一時記憶して、選択信号/DTS(デコーディング・タイム・スタンプ
)生成器17により指定されたサブフレーム毎に予測残差の最小値を選択する。
L = m11 · Lf + m12 · Rf + m13 · C
+ M14 · Ls + m15 · Rs + m16 · Lfe
R = m21 · Lf + m22 · Rf + m23 · C
+ M24 · Ls + m25 · Rs + m26 · Lfe (2)
The encoding units 2'-1 and 2'-2 will be described in detail with reference to FIG. Each ch
The PCM data “1” to “6” are stored in the one-frame buffer 10 for each frame. Then, the sample data of each channel “1” to “6” of one frame is applied to the prediction circuits 13D1, 13D2, 15D1 to 15D4, respectively, and each channel “
The first sample data of each frame of “1” to “6” is applied to the formatting circuit 19. The prediction circuits 13D1, 13D2, 15D1 to 15D4 respectively
A plurality of predictors (not shown) having different characteristics for PCM data of “1” to “6”
Calculates a plurality of linear prediction values of the current signal from the past signal in the time domain, and then calculates prediction residuals for each predictor from the original PCM data and the plurality of linear prediction values. The following buffer / selectors 14D1, 14D2, 16D1 to 16D4 temporarily store the prediction residuals calculated by the prediction circuits 13D1, 13D2, 15D1 to 15D4, respectively, and provide a selection signal / DTS (decoding time stamp). The minimum value of the prediction residual is selected for each subframe specified by the generator 17.

 選択信号/DTS生成器17は予測残差のビット数フラグをパッキング回路1
8とフォーマット化回路19に対して印加し、また、予測残差が最小の予測器を
示す予測器選択フラグと、式(1)における相関係数aと、復号化側が入力バッ
ファ22a(図6)からストリームデータを取り出す時間を示すDTSをフォー
マット化回路19に対して印加する。パッキング回路18はバッファ・選択器1
4D1、14D2、16D1〜16D4により選択された6ch分の予測残差を、
選択信号/DTS生成器17により指定されたビット数フラグに基づいて指定ビ
ット数でパッキングする。またPTS生成器17cは、復号化側が出力バッファ
110(図6)からPCMデータを取り出す時間を示すPTS(プレゼンテーシ
ョン・タイム・スタンプ)を生成してフォーマット化回路19に出力する。
The selection signal / DTS generator 17 stores the bit number flag of the prediction residual in the packing circuit 1.
8 to the formatting circuit 19, a predictor selection flag indicating the predictor with the smallest prediction residual, the correlation coefficient a in the equation (1), and the decoding side input buffer 22a (FIG. 6). ) Is applied to the formatting circuit 19, which indicates the time for extracting the stream data from the format circuit 19. The packing circuit 18 is a buffer / selector 1
The prediction residuals for 6 ch selected by 4D1, 14D2, 16D1 to 16D4 are
Packing is performed with the specified number of bits based on the bit number flag specified by the selection signal / DTS generator 17. Further, the PTS generator 17c generates a PTS (presentation time stamp) indicating a time at which the decoding side takes out the PCM data from the output buffer 110 (FIG. 6) and outputs the PTS to the formatting circuit 19.

 続くフォーマット化回路19は図3〜図5に示すようなユーザデータにフォー
マット化する。図3に示すユーザデータ(サブパケット)は、前方グループに関
する2ch「1」、「2」の予測符号化データを含む可変レートビットストリーム
(サブストリーム)BS0と、他のグループに関する4ch「3」〜「6」の予測
符号化データを含む可変レートビットストリーム(サブストリーム)BS1と、
サブストリームBS0、BS1の前に設けられたビットストリームヘッダ(リス
タートヘッダ)により構成されている。また、サブストリームBS0、BS1の
1フレーム分は
・フレームヘッダと、
・各ch「1」〜「6」の1フレームの先頭サンプルデータと、
・各ch「1」〜「6」のサブフレーム毎の予測器選択フラグと、
・各ch「1」〜「6」のサブフレーム毎のビット数フラグと、
・各ch「1」〜「6」の予測残差データ列(可変ビット数)と、
・ch「6」の係数a
が多重化されている。このような予測符号化によれば、原信号が例えばサンプリ
ング周波数=96kHz、量子化ビット数=24ビット、6チャネルの場合、7
1%の圧縮率を実現することができる。
The following formatting circuit 19 formats the user data as shown in FIGS. The user data (sub-packet) shown in FIG. 3 includes a variable-rate bit stream (sub-stream) BS0 including 2ch “1” and “2” prediction coded data for the front group, and 4ch “3” to 4ch for the other groups. A variable-rate bit stream (sub-stream) BS1 including the prediction encoded data of “6”;
It is composed of a bit stream header (restart header) provided before the substreams BS0 and BS1. Also, one frame of the substreams BS0 and BS1 has a frame header,
-First sample data of one frame of each channel "1" to "6";
A predictor selection flag for each subframe of each of the channels “1” to “6”;
A bit number flag for each subframe of each channel “1” to “6”;
A prediction residual data string (variable number of bits) for each channel “1” to “6”;
・ Coefficient a of ch “6”
Are multiplexed. According to such predictive coding, when the original signal has, for example, a sampling frequency = 96 kHz, the number of quantization bits = 24 bits, and 6 channels, 7
A compression ratio of 1% can be realized.

 図2に示す符号化部2’−1、2’−2により予測符号化された可変レートビ
ットストリームデータを、記録媒体の一例としてDVDオーディオディスクに記
録する場合には、図4に示すオーディオ(A)パックにパッキングされる。この
パックは2034バイトのユーザデータ(Aパケット、Vパケット)に対して4
バイトのパックスタート情報と、6バイトのSCR(System Clock Reference:
システム時刻基準参照値)情報と、3バイトのMux レート(rate)情報と1バイ
トのスタッフィングの合計14バイトのパックヘッダが付加されて構成されてい
る(1パック=合計2048バイト)。この場合、タイムスタンプであるSCR
情報を、先頭パックでは「1」として同一タイトル内で連続とすることにより同
一タイトル内のAパックの時間を管理することができる。
When the variable-rate bit stream data predictively encoded by the encoding units 2′-1 and 2′-2 shown in FIG. 2 is recorded on a DVD audio disc as an example of a recording medium, the audio data shown in FIG. A) Packed in a pack. This pack is 4 packs for 2034 bytes of user data (A packet, V packet).
Byte pack start information and 6-byte SCR (System Clock Reference:
It is configured by adding a 14-byte pack header of system byte reference value information, 3-byte Mux rate information, and 1-byte stuffing (1 pack = 2048 bytes in total). In this case, the time stamp SCR
By setting the information to be “1” in the first pack and being continuous within the same title, the time of the A pack within the same title can be managed.

 圧縮PCMのAパケットは図5に詳しく示すように、19又は14バイトのパ
ケットヘッダと、圧縮PCMのプライベートヘッダと、図3に示すフォーマット
の1ないし2011バイトのオーディオデータ(圧縮PCM)により構成されて
いる。そして、DTSとPTSは図5のパケットヘッダ内に(具体的にはパケッ
トヘッダの10〜14バイト目にPTSが、15〜19バイト目にDTSが)セ
ットされる。圧縮PCMのプライベートヘッダは、
・1バイトのサブストリームIDと、
・2バイトのUPC/EAN−ISRC(Universal Product Code/European Ar
ticle Number-International Standard Recording Code)番号、及びUPC/EAN−ISRCデータと、
・1バイトのプライベートヘッダ長と、
・2バイトの第1アクセスユニットポインタと、
・8バイトのオーディオデータ情報(ADI)と、
・0〜7バイトのスタッフィングバイトとに、
 より構成されている。そして、ADI内に1秒後のアクセスユニットをサーチ
するための前方アクセスユニット・サーチポインタと、1秒前のアクセスユニッ
トをサーチするための後方アクセスユニット・サーチポインタがともに1バイト
で(具体的にはADIの7バイト目に前方アクセスユニット・サーチポインタが
、8バイト目に後方アクセスユニット・サーチポインタが)セットされる。
As shown in detail in FIG. 5, the A packet of the compressed PCM is composed of a packet header of 19 or 14 bytes, a private header of the compressed PCM, and 1 to 2011 bytes of audio data (compressed PCM) in the format shown in FIG. ing. Then, the DTS and the PTS are set in the packet header of FIG. 5 (specifically, the PTS is set at the 10th to 14th bytes and the DTS is set at the 15th to 19th bytes). The compressed PCM private header is
A 1-byte substream ID,
-2-byte UPC / EAN-ISRC (Universal Product Code / European Ar
ticle Number-International Standard Recording Code) number and UPC / EAN-ISRC data,
A 1-byte private header length,
A 2 byte first access unit pointer;
8 bytes of audio data information (ADI);
・ With stuffing byte of 0-7 bytes,
It is composed of Both the forward access unit search pointer for searching for the access unit one second later and the backward access unit search pointer for searching for the access unit one second earlier in the ADI are both 1 byte (specifically, In the ADI, the forward access unit search pointer is set at the seventh byte and the backward access unit search pointer is set at the eighth byte.

 次に図6を参照して復号化部3’−1、3’−2について説明する。上記フォ
ーマットの可変レートビットストリームデータBS0、BS1は、デフォーマッ
ト化回路21により分離される。そして、各ch「1」〜「6」の1フレームの
先頭サンプルデータと予測器選択フラグはそれぞれ予測回路24D1、24D2
、23D1〜23D4に印加され、各ch「1」〜「6」のビット数フラグはア
ンパッキング回路22に印加される。また、SCRと、DTSと予測残差データ
列は入力バッファ22aに印加され、PTSは出力バッファ110に印加される
。ここで、予測回路24D1、24D2、23D1〜23D4内の複数の予測器
(不図示)はそれぞれ、符号化側の予測回路13D1、13D2、15D1〜1
5D4内の複数の予測器と同一の特性であり、予測器選択フラグにより同一特性
のものが選択される。
Next, the decoding units 3'-1 and 3'-2 will be described with reference to FIG. The variable rate bit stream data BS0 and BS1 in the above format are separated by the deformatting circuit 21. The head sample data of one frame of each of the channels “1” to “6” and the predictor selection flag are respectively stored in the prediction circuits 24D1 and 24D2.
, 23D1 to 23D4, and the bit number flags of the respective channels “1” to “6” are applied to the unpacking circuit 22. The SCR, the DTS, and the prediction residual data string are applied to the input buffer 22a, and the PTS is applied to the output buffer 110. Here, a plurality of predictors (not shown) in the prediction circuits 24D1, 24D2, 23D1 to 23D4 are respectively prediction circuits 13D1, 13D2, 15D1 to 1 on the encoding side.
The same characteristics as those of the plurality of predictors in 5D4, and those having the same characteristics are selected by the predictor selection flag.

 デフォーマット化回路21により分離されたストリームデータ(予測残差デー
タ列)は、図7に示すようにSCRによりアクセスユニット毎に入力バッファ2
2aに取り込まれて蓄積される。ここで、1つのアクセスユニットのデータ量は
、例えばfs=96kHzの場合には(1/96kHz)秒分であるが、図8、
図9(a)に詳しく示すように可変長である。そして、入力バッファ22aに蓄
積されたストリームデータはDTSに基づいてFIFOで読み出されてアンパッ
キング回路22に印加される。
The stream data (prediction residual data string) separated by the deformatting circuit 21 is input to the input buffer 2 for each access unit by the SCR as shown in FIG.
2a and is stored. Here, the data amount of one access unit is (1/96 kHz) seconds when fs = 96 kHz, for example.
The variable length is variable as shown in detail in FIG. Then, the stream data stored in the input buffer 22a is read out by the FIFO based on the DTS and applied to the unpacking circuit 22.

 アンパッキング回路22は各ch「1」〜「6」の予測残差データ列をビット
数フラグ毎に基づいて分離してそれぞれ予測回路24D1、24D2、23D1
〜23D4に出力する。予測回路24D1、24D2、23D1〜23D4では
それぞれ、アンパッキング回路22からの各ch「1」〜「6」の今回の予測残
差データと、内部の複数の予測器の内、予測器選択フラグにより選択された各1
つにより予測された前回の予測値が加算されて今回の予測値が算出され、次いで
1フレームの先頭サンプルデータを基準として各サンプルのPCMデータが算出
されて出力バッファ110に蓄積される。出力バッファ110に蓄積されたPC
MデータはPTSに基づいて読み出されて出力される。したがって、図9(a)
に示す可変長のアクセスユニットが伸長されて、図9(b)に示す一定長のプレ
ゼンテーションユニットが出力される。
The unpacking circuit 22 separates the prediction residual data strings of each of the channels “1” to “6” based on each bit number flag, and separates the respective prediction circuits 24D1, 24D2, and 23D1.
To 23D4. The prediction circuits 24D1, 24D2, and 23D1 to 23D4 respectively use the current prediction residual data of each of the channels “1” to “6” from the unpacking circuit 22 and a predictor selection flag among a plurality of internal predictors. Each one selected
The current predicted value is calculated by adding the previous predicted value calculated by the first method, and then the PCM data of each sample is calculated based on the first sample data of one frame and stored in the output buffer 110. PC stored in output buffer 110
The M data is read and output based on the PTS. Therefore, FIG.
The variable length access unit shown in FIG. 9 is decompressed and a fixed length presentation unit shown in FIG. 9B is output.

 ここで、操作部101を介してサーチ再生が指示された場合には、制御部10
0により図5に示すADI内に置かれる1秒先を示す前方アクセスユニット・サ
ーチポインタと1秒後を示す後方アクセスユニット・サーチポインタに基づいて
アクセスユニットを再生する。このサーチポインタとしては、1秒先、1秒前の
代わりに2秒先、2秒前のものでよい。
Here, when search reproduction is instructed via the operation unit 101, the control unit 10
0 reproduces the access unit based on the forward access unit search pointer indicating one second ahead and the backward access unit search pointer indicating one second later in the ADI shown in FIG. The search pointer may be one second ahead, two seconds ahead, two seconds ahead instead of one second ahead.

 図2に示す符号化部2’−1、2’−2により予測符号化された可変レートビ
ットストリームデータをネットワークを介して伝送する場合には、符号化側では
図10に示すように伝送用にパケット化し(ステップS41)、次いでパケット
ヘッダを付与し(ステップS42)、次いでこのパケットをネットワーク上に送
り出す(ステップS43)。
When variable-rate bit stream data predictively coded by the coding units 2′-1 and 2′-2 shown in FIG. 2 is transmitted via a network, the coding side performs transmission as shown in FIG. (Step S41), a packet header is added (step S42), and the packet is sent out to the network (step S43).

 復号側では図11(A)に示すようにヘッダを除去し(ステップS51)、次
いでデータを復元し(ステップS52)、次いでこのデータをメモリに格納して
復号を待つ(ステップS53)。そして、復号を行う場合には図11(B)に示
すように、デフォーマット化を行い(ステップS61)、次いで入力バッファ2
2aの入出力制御を行い(ステップS62)、次いでアンパッキングを行う(ス
テップS63)。なお、このとき、サーチ再生指示がある場合にはサーチポイン
タをデコードする。次いで予測器をフラグに基づいて選択してデコードを行い(
ステップS64)、次いで出力バッファ110の入出力制御を行い(ステップS
65)、次いで元のマルチチャネルを復元し(ステップS66)、次いでこれを
出力し(ステップS67)、以下、これを繰り返す。
On the decoding side, as shown in FIG. 11A, the header is removed (step S51), the data is restored (step S52), and the data is stored in the memory and decoding is waited (step S53). Then, when decoding is performed, as shown in FIG. 11B, deformatting is performed (step S61).
Input / output control of 2a is performed (step S62), and then unpacking is performed (step S63). At this time, if there is a search reproduction instruction, the search pointer is decoded. Next, a predictor is selected and decoded based on the flag (
(Step S64) Then, input / output control of the output buffer 110 is performed (Step S64).
65), and then restore the original multi-channel (step S66), and then output this (step S67).

 なお、上記実施形態では、前方グループに関する2ch「1」、「2」を
 「1」=Lf+Rf
 「2」=Lf−Rf
により変換して予測符号化したが、代わりに式(2)によりマルチチャネルをダ
ウンミクスしてステレオ2chデータ(L、R)を生成し、次いで次式(1)’
 「1」=L+R
 「2」=L−R
 「3」〜「5」は同じ
 「6」=Lfe−C     …(1)’
により変換して予測符号化するようにしてもよい(第2の実施形態)。この場合
には、復号化側のミクス&マトリクス回路4’はチャネル「1」、「2」を加算
することによりチャネルLを、減算することによりチャネルRを生成することが
できる。
In the above embodiment, 2ch “1” and “2” for the front group are represented by “1” = Lf + Rf
“2” = Lf−Rf
, And performs predictive encoding. Instead, the multi-channel is downmixed by equation (2) to generate stereo 2-ch data (L, R), and then the following equation (1) ′
"1" = L + R
"2" = LR
“3” to “5” are the same “6” = Lfe−C (1) ′
May be used to perform predictive coding (second embodiment). In this case, the mix & matrix circuit 4 'on the decoding side can generate the channel L by adding the channels "1" and "2", and generate the channel R by subtracting the channel L.

 また、第3の実施形態として図12に示すように、2ch「1」、「2」の代わ
りに式(2)によりマルチチャネルをダウンミクスしてステレオ2chデータ(L
、R)を生成して、このステレオ2ch(L、R)と4ch「3」〜「6」を予測符
号化するようにしてもよい。なお、第2、第3の実施形態では、フロントレフト
(Lf)とフロントライト(Rf)が復号化側に伝送されないので、復号化側で
はこれを式(1)、(2)により生成する。
As a third embodiment, as shown in FIG. 12, instead of 2ch "1" and "2", multi-channel is downmixed by equation (2) and stereo 2ch data (L
, R), and the stereo 2ch (L, R) and 4ch “3” to “6” may be predictively coded. In the second and third embodiments, since the front left (Lf) and the front right (Rf) are not transmitted to the decoding side, the decoding side generates them according to equations (1) and (2).

 次に図13、図14を参照して第4の実施形態について説明する。上記の実施
形態では、1グループの相関性の信号「1」〜「6」を予測符号化するように構
成されているが、この第4の実施形態では複数グループの相関性のある信号を生
成して予測符号化し、圧縮率が最も高いグループの予測符号化データを選択する
ように構成されている。このため図13に示す符号化部では、第1〜第nの相関
回路1−1〜1−nが設けられ、このn個の相関回路1−1〜1−nは例えば6
ch(Lf、C、Rf、Ls、Rs、Lfe)のPCMデータを、相関性が異なる
n種類の6ch信号「1」〜「6」に変換する。
Next, a fourth embodiment will be described with reference to FIGS. In the above embodiment, one group of correlated signals "1" to "6" are configured to be predictively coded. In the fourth embodiment, a plurality of groups of correlated signals are generated. Then, it is configured to perform predictive coding and select predictive coded data of a group having the highest compression ratio. For this reason, the encoding unit shown in FIG. 13 is provided with first to n-th correlation circuits 1-1 to 1-n.
The PCM data of ch (Lf, C, Rf, Ls, Rs, Lfe) is converted into n types of 6ch signals “1” to “6” having different correlations.

 例えば第1の相関回路1−1は以下のように変換し、
 「1」=Lf
 「2」=C−(Ls+Rs)/2
 「3」=Rf−Lf
 「4」=Ls−a×Lfe
 「5」=Rs−b×Rf
 「6」=Lfe
また、第nの相関回路1−nは以下のように変換する。
For example, the first correlation circuit 1-1 converts as follows,
"1" = Lf
“2” = C− (Ls + Rs) / 2
“3” = Rf−Lf
“4” = Ls−a × Lfe
“5” = Rs−b × Rf
"6" = Lfe
The n-th correlation circuit 1-n performs conversion as follows.

 「1」=Lf+Rf
 「2」=C−Lf
 「3」=Rf−Lf
 「4」=Ls−Lf
 「5」=Rs−Lf
 「6」=Lfe−C
 また、相関回路1−1〜1−n毎に予測回路15とバッファ・選択器16が設
けられ、グループ毎の予測残差の最小値のデータ量に基づいて圧縮率が最も高い
グループが相関選択信号生成器17bにより選択される。このとき、フォーマッ
ト化回路19はその選択フラグ(相関回路選択フラグ、その相関回路の相関係数
a、b)を追加して多重化する。
“1” = Lf + Rf
"2" = C-Lf
“3” = Rf−Lf
“4” = Ls−Lf
“5” = Rs−Lf
"6" = Lfe-C
A prediction circuit 15 and a buffer / selector 16 are provided for each of the correlation circuits 1-1 to 1-n, and a group having the highest compression rate is selected for correlation based on the data amount of the minimum value of the prediction residual for each group. Selected by the signal generator 17b. At this time, the formatting circuit 19 adds and multiplexes the selection flag (correlation circuit selection flag, correlation coefficients a and b of the correlation circuit).

 また、図14に示す復号化側では、符号化側の相関回路1−1〜1−nに対し
てn個の相関回路4−1〜4−n(又は係数a、bが変更可能な図示省略の1つ
の相関回路)が設けられる。なお、図13に示すnグループの予測回路が同一の
構成である場合、復号装置では図14に示すようにnグループ分の予測回路を設
ける必要はなく、1つのグループ分の予測回路でよい。そして、符号化装置から
伝送された選択フラグに基づいて相関回路4−1〜4−nの1つを選択、又は係
数a、bを設定して元の6ch(Lf、C、Rf、Ls、Rs、Lfe)を復元し
、また、式(2)によりマルチチャネルをダウンミクスしてステレオ2chデータ
(L、R)を生成する。
Also, on the decoding side shown in FIG. 14, n correlation circuits 4-1 to 4-n (or coefficients a and b can be changed) with respect to the correlation circuits 1-1 to 1-n on the encoding side. (One correlated circuit omitted). When the prediction circuits of n groups shown in FIG. 13 have the same configuration, the decoding device does not need to provide the prediction circuits of n groups as shown in FIG. Then, one of the correlation circuits 4-1 to 4-n is selected based on the selection flag transmitted from the encoding device, or the coefficients a and b are set and the original 6 ch (Lf, C, Rf, Ls, Rs, Lfe) are restored, and multi-channels are downmixed according to equation (2) to generate stereo 2-ch data (L, R).

 また、上記の第1の実施形態では、1種類の相関性の信号「1」〜「6」を予
測符号化するように構成されているが、この信号「1」〜「6」のグループと原
信号(Lf、C、Rf、Ls、Rs、Lfe)のグループを予測符号化し、圧縮
率が高い方のグループを選択するようにしてもよい。
In the first embodiment, one kind of correlated signals “1” to “6” is configured to be predictively coded. A group of original signals (Lf, C, Rf, Ls, Rs, Lfe) may be predictively coded and a group having a higher compression rate may be selected.

本発明が適用される音声符号化装置とそれに対応した音声復号装置の第1の実施形態を示すブロック図である。FIG. 1 is a block diagram illustrating a first embodiment of a speech encoding device to which the present invention is applied and a speech decoding device corresponding thereto. 図1の符号化部を詳しく示すブロック図である。FIG. 2 is a block diagram illustrating an encoding unit of FIG. 1 in detail. 図1、図2の符号化部により符号化されたビットストリームを示す説明図である。FIG. 3 is an explanatory diagram illustrating a bit stream encoded by the encoding unit in FIGS. 1 and 2. DVDのパックのフォーマットを示す説明図である。FIG. 4 is an explanatory diagram showing a format of a DVD pack. DVDのオーディオパックのフォーマットを示す説明図である。FIG. 3 is an explanatory diagram showing a format of a DVD audio pack. 図1の復号化部を詳しく示すブロック図である。FIG. 2 is a block diagram illustrating a decoding unit of FIG. 1 in detail. 図6の入力バッファの書き込み/読み出しタイミングを示すタイミングチャートである。7 is a timing chart showing write / read timings of the input buffer of FIG. アクセスユニット毎の圧縮データ量を示す説明図である。FIG. 4 is an explanatory diagram showing a compressed data amount for each access unit. アクセスユニットとプレゼンテーションユニットを示す説明図である。FIG. 3 is an explanatory diagram showing an access unit and a presentation unit. 音声伝送方法を示すフローチャートである。5 is a flowchart illustrating a voice transmission method. 音声伝送方法を示すフローチャートである。5 is a flowchart illustrating a voice transmission method. 本発明が適用される音声符号化装置とそれに対応した音声復号装置の第3の実施形態を示すブロック図である。FIG. 11 is a block diagram showing a third embodiment of a speech encoding device to which the present invention is applied and a speech decoding device corresponding thereto. 第4の実施形態の音声符号化装置を示すブロック図である。It is a block diagram showing a speech coding device of a fourth embodiment. 第4の実施形態の音声復号装置を示すブロック図である。It is a block diagram showing a speech decoding device of a fourth embodiment.

符号の説明Explanation of reference numerals

 1’ 6chミクス&マトリクス回路
 13D1,13D2,15D1〜15D4 予測回路(バッファ・選択器14
D1,14D2,16D1〜16D4と共に圧縮手段を構成する。)
 14D1,14D2,16D1〜16D4 バッファ・選択器
 17 選択信号/DTS生成器(タイミング生成手段)
 17c PTS生成器(タイミング生成手段)
 19 フォーマット化回路(フォーマット化手段)
 21 デフォーマット化回路(分離手段)
 22 アンパッキング回路
 22a 入力バッファ
 24D1,24D2,23D1〜23D4 予測回路(伸長手段)
 100 制御部(読み出し手段)
 110 出力バッファ
1 '6ch Mix & Matrix Circuit 13D1, 13D2, 15D1-15D4 Prediction circuit (buffer / selector 14
D1, 14D2, 16D1 to 16D4 constitute compression means. )
14D1, 14D2, 16D1 to 16D4 Buffer / Selector 17 Selection Signal / DTS Generator (Timing Generation Means)
17c PTS generator (timing generation means)
19 Formatting circuit (formatting means)
21 Deformatting circuit (separation means)
22 Unpacking circuit 22a Input buffer 24D1, 24D2, 23D1 to 23D4 Prediction circuit (expansion means)
100 control unit (reading means)
110 output buffer

Claims (2)

 元のマルチチャネルの音声信号をダウンミクスしてステレオ2チャネルの音声信号に変換するステップと、
 前記ステップにより得られたステレオ2チャネルを含む第1のグループと、前記元のマルチチャネルの相関あるチャネルを含む第2のグループにグループ分けして、少なくとも前記第2のグループのチャネルは元のチャネルを所定のマトリクス演算により、相関あるチャネルであってそのチャネル数が前記2チャンネル分少ない数の相関チャネルに変換するステップと、
 前記ステレオ2チャネルと前記第2のグループの相関あるチャネルの音声信号を、チャネル毎に、入力される音声信号に応答して、先頭サンプル値を所定時間のフレーム単位で得ると共に、特性が異なる複数の線形予測方法により時間領域の過去から現在の信号の線形予測値がそれぞれ予測され、その予測される線形予測値と前記音声信号とから得られる予測残差が最小となるような線形予測方法を前記フレームを更に分割したサブフレーム単位に選択して予測符号化するステップと、
 前記ステップによって選択された線形予測方法と予測残差と所定の先頭サンプル値とを含む予測符号化データを前記ステレオ2チャネルの第1のグループと前記相関あるチャネルの第2のグループにグループにグループ分けしたビットストリームに格納するステップと、
 前記圧縮されたデータの量に応じて、デコーディング・タイム・スタンプ情報を生成するステップと、
 前記デコーディング・タイム・スタンプ情報を含むパケットヘッダと、圧縮データと、を含むユーザデータを有するパケットにフォーマット化するステップとにより、前記フォーマット化されたパケットが記録され、前記デコーディング・タイム・スタンプ情報は、復号側において前記ユーザデータから分離されて一旦蓄積される圧縮データを読み出し伸長するためのタイミング情報として記録されることを特徴とする光記録媒体。
Downmixing the original multi-channel audio signal into a stereo 2-channel audio signal;
Dividing into a first group including two stereo channels obtained by the step and a second group including correlated channels of the original multi-channel, at least the channels of the second group are the original channels By a predetermined matrix operation to convert the number of correlated channels into correlated channels whose number of channels is smaller by the two channels,
The audio signals of the stereo two channels and the correlated channels of the second group are obtained for each channel in response to an input audio signal, and a first sample value is obtained in a frame unit of a predetermined time, and a plurality of audio signals having different characteristics are obtained. A linear prediction method of predicting a linear prediction value of a current signal from the past in the time domain by the linear prediction method of the present invention, and minimizing a prediction residual obtained from the predicted linear prediction value and the audio signal. Selecting and predictively coding the frame in units of subframes further divided;
Grouping the prediction coded data including the linear prediction method selected in the step, the prediction residual, and a predetermined first sample value into a first group of the stereo two channels and a second group of the correlated channels. Storing in a divided bit stream;
Generating decoding time stamp information according to the amount of the compressed data;
Formatting the packet into packets having user data including the packet header including the decoding time stamp information and compressed data, wherein the formatted packet is recorded and the decoding time stamp An optical recording medium characterized in that information is recorded as timing information for reading and expanding compressed data separated from the user data and temporarily stored on the decoding side.
 元のマルチチャネルの音声信号をダウンミクスしてステレオ2チャネルの音声信号に変換するステップと、
 前記ステップにより得られたステレオ2チャネルを含む第1のグループと、前記元のマルチチャネルの相関あるチャネルを含む第2のグループにグループ分けして、少なくとも前記第2のグループのチャネルは元のチャネルを所定のマトリクス演算により、相関あるチャネルであってそのチャネル数が前記2チャンネル分少ない数の相関チャネルに変換するステップと、
 前記ステレオ2チャネルと前記第2のグループの相関あるチャネルの音声信号を、チャネル毎に、入力される音声信号に応答して、先頭サンプル値を所定時間のフレーム単位で得ると共に、特性が異なる複数の線形予測方法により時間領域の過去から現在の信号の線形予測値がそれぞれ予測され、その予測される線形予測値と前記音声信号とから得られる予測残差が最小となるような線形予測方法を前記フレームを更に分割したサブフレーム単位に選択して予測符号化するステップと、
 前記ステップによって選択された線形予測方法と予測残差と所定の先頭サンプル値とを含む予測符号化データを前記ステレオ2チャネルの第1のグループと前記相関あるチャネルの第2のグループにグループにグループ分けしたビットストリームに格納するステップと、
 前記圧縮されたデータの量に応じて、デコーディング・タイム・スタンプ情報を生成するステップと、
 前記デコーディング・タイム・スタンプ情報を含むパケットヘッダと、圧縮データと、を含むユーザデータを有するパケットにフォーマット化するステップとにより、記録されたデータから元の音声信号を復号する音声復号装置であって、
 前記パケット内のユーザデータをパケットヘッダと圧縮データとに分離する手段と、
 前記分離された圧縮データを蓄積する入力バッファと、
 前記入力バッファ内に蓄積された圧縮データを前記パケットヘッダ内のデコーディング・タイム・スタンプ情報に基づいて読み出しステレオ2チャネルの音声信号と元のマルチチャネルの音声信号を復元するデコード手段とを、
有する音声復号装置。








Downmixing the original multi-channel audio signal into a stereo 2-channel audio signal;
Dividing into a first group including two stereo channels obtained by the step and a second group including correlated channels of the original multi-channel, at least the channels of the second group are the original channels By a predetermined matrix operation to convert the number of correlated channels into correlated channels whose number of channels is smaller by the two channels,
The audio signals of the stereo two channels and the correlated channels of the second group are obtained for each channel in response to an input audio signal, and a first sample value is obtained in a frame unit of a predetermined time, and a plurality of audio signals having different characteristics are obtained. A linear prediction method of predicting a linear prediction value of a current signal from the past in the time domain by the linear prediction method of the present invention, and minimizing a prediction residual obtained from the predicted linear prediction value and the audio signal. Selecting and predictively coding the frame in units of subframes further divided;
Grouping the prediction coded data including the linear prediction method selected in the step, the prediction residual, and a predetermined first sample value into a first group of the stereo two channels and a second group of the correlated channels. Storing in a divided bit stream;
Generating decoding time stamp information according to the amount of the compressed data;
An audio decoding device for decoding an original audio signal from recorded data by formatting the packet into a packet having user data including the packet header including the decoding time stamp information and compressed data. hand,
Means for separating user data in the packet into a packet header and compressed data,
An input buffer for storing the separated compressed data;
Decoding means for reading out the compressed data accumulated in the input buffer based on the decoding time stamp information in the packet header and restoring the stereo two-channel audio signal and the original multi-channel audio signal;
Audio decoding device having the same.








JP2003371820A 2003-10-31 2003-10-31 Optical recording medium and audio decoding device Expired - Fee Related JP3791800B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003371820A JP3791800B2 (en) 2003-10-31 2003-10-31 Optical recording medium and audio decoding device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003371820A JP3791800B2 (en) 2003-10-31 2003-10-31 Optical recording medium and audio decoding device

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001098938A Division JP3606455B2 (en) 2001-03-30 2001-03-30 Audio signal transmission method and audio decoding method

Publications (2)

Publication Number Publication Date
JP2004139100A true JP2004139100A (en) 2004-05-13
JP3791800B2 JP3791800B2 (en) 2006-06-28

Family

ID=32463839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003371820A Expired - Fee Related JP3791800B2 (en) 2003-10-31 2003-10-31 Optical recording medium and audio decoding device

Country Status (1)

Country Link
JP (1) JP3791800B2 (en)

Also Published As

Publication number Publication date
JP3791800B2 (en) 2006-06-28

Similar Documents

Publication Publication Date Title
JP3791801B2 (en) Optical recording medium and audio decoding device
JP4164826B2 (en) Audio signal transmission method and audio decoding method
JP4305868B2 (en) Speech encoding method and speech decoding method
JP3606455B2 (en) Audio signal transmission method and audio decoding method
JP3821384B2 (en) Optical recording medium and audio decoding device
JP3821385B2 (en) Optical recording medium and audio decoding device
JP3821381B2 (en) Speech encoding method and speech decoding method
JP3791798B2 (en) Speech encoding method and speech decoding method
JP3821382B2 (en) Optical recording medium and audio decoding device
JP3821386B2 (en) Optical recording medium and audio decoding device
JP3791800B2 (en) Optical recording medium and audio decoding device
JP3791799B2 (en) Optical recording medium and audio decoding device
JP4196353B2 (en) Speech encoding method and speech decoding method
JP4305866B2 (en) Speech encoding method and speech decoding method
JP4164832B2 (en) Speech encoding method and speech decoding method
JP4164830B2 (en) Speech encoding method and speech decoding method
JP3821383B2 (en) Optical recording medium and audio decoding device
JP2005189884A (en) Voice coding method and voice decoding method
JP2006023770A (en) Sound encoding method and sound decoding method
JP2006031036A (en) Sound encoding method and sound decoding method
JP2005189885A (en) Voice coding method and voice decoding method
JP2006003918A (en) Method for encoding and decoding speech
JP2006011481A (en) Sound coding method and sound decoding method
JP2006031037A (en) Sound encoding method and sound decoding method
JP2005208666A (en) Speech encoding method and speech decoding method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050329

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20051228

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20060222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060317

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060330

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090414

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100414

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110414

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120414

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120414

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120414

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130414

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140414

Year of fee payment: 8

LAPS Cancellation because of no payment of annual fees