JP3387091B2 - Optical recording medium, audio transmission method and audio decoding method - Google Patents

Optical recording medium, audio transmission method and audio decoding method

Info

Publication number
JP3387091B2
JP3387091B2 JP2000321504A JP2000321504A JP3387091B2 JP 3387091 B2 JP3387091 B2 JP 3387091B2 JP 2000321504 A JP2000321504 A JP 2000321504A JP 2000321504 A JP2000321504 A JP 2000321504A JP 3387091 B2 JP3387091 B2 JP 3387091B2
Authority
JP
Japan
Prior art keywords
prediction
channels
linear prediction
signal
predicted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000321504A
Other languages
Japanese (ja)
Other versions
JP2001195098A (en
Inventor
美昭 田中
昭治 植野
徳彦 渕上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2000321504A priority Critical patent/JP3387091B2/en
Publication of JP2001195098A publication Critical patent/JP2001195098A/en
Application granted granted Critical
Publication of JP3387091B2 publication Critical patent/JP3387091B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、音声信号を予測符
号化したデータの光記録媒体、音声伝送方法及び音声復
号方法に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to an optical recording medium of data obtained by predictively encoding a voice signal, a voice transmission method and a voice decoding method.

【0002】[0002]

【従来の技術】音声信号を予測符号化する方法として、
本発明者は先の出願(特願平9−289159号)にお
いて1チャネル(チャンネル)の原デジタル音声信号に
対して、特性が異なる複数の予測器により時間領域にお
ける過去の信号から現在の信号の複数の線形予測値を算
出し、原デジタル音声信号とこの複数の線形予測値から
予測器毎の予測残差を算出し、予測残差の最小値を選択
する方法を提案している。
2. Description of the Related Art As a method of predictively encoding a voice signal,
The inventor of the present application (Japanese Patent Application No. 9-289159) uses a plurality of predictors having different characteristics for the original digital audio signal of one channel to convert the past signal from the past signal in the time domain to the present signal. A method is proposed in which a plurality of linear prediction values are calculated, a prediction residual for each predictor is calculated from the original digital audio signal and the plurality of linear prediction values, and the minimum value of the prediction residuals is selected.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上記方
法では原デジタル音声信号がサンプリング周波数=96
kHz、量子化ビット数=20ビット程度の場合にある
程度の圧縮効果を得ることができるが、近年のDVDオ
ーディオディスクではこの2倍のサンプリング周波数
(=192kHz)が使用され、また、量子化ビット数
も24ビットが使用される傾向があるので、圧縮率を改
善する必要がある。
However, in the above method, the original digital audio signal has a sampling frequency = 96.
A compression effect can be obtained to some extent when the frequency is about 20 kHz and the number of quantization bits is about 20 bits. However, in recent years, the DVD audio disc uses a sampling frequency (= 192 kHz) that is twice as high as this, and the number of quantization bits is also increased. Also, since 24 bits tend to be used, it is necessary to improve the compression rate.

【0004】そこで本発明は、音声信号を予測符号化す
る場合に圧縮率を改善することができるデータを記録し
た光記録媒体、音声伝送方法及び音声復号方法を提供す
ることを目的とする。
SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide an optical recording medium having data recorded therein, which can improve the compression rate when predictively encoding a voice signal, a voice transmission method and a voice decoding method.

【0005】[0005]

【課題を解決するための手段】本発明は上記目的を達成
するために、以下の1)〜3)手段よりなる。すなわ
ち、
In order to achieve the above object, the present invention comprises the following 1) to 3) means. That is,

【0006】1)少なくともレフト、センタ、ライト、
サラウンドレフト及びサラウンドライトの5チャネルを
含む第1の複数チャネルのデジタル音声信号を所定のマ
トリクス演算により互いに同一のサンプリング周波数を
有して相関性のある第2の複数チャネルの音声信号に変
換するステップと、前記第2の複数チャネルの音声信号
をチャネル毎に、入力される音声信号に応答して、先頭
サンプル値を所定時間のフレーム単位で得ると共に、時
間領域の過去の信号から予測される現在の信号の複数の
予測値の中でその予測残差が最小値となる線形予測方法
を特性が異なる複数の線形予測方法により時間領域の過
去から現在の信号の線形予測値がそれぞれ予測され、そ
の予測される線形予測値と前記音声信号とから得られる
予測残差が最小となるような線形予測方法を前記フレー
ムを更に分割したサブフレーム単位に選択して予測符号
化するステップと、前記選択された先頭サンプル値と予
測残差と線形予測方法とを含む予測符号化データをパッ
キングする場合、前記予測残差をビット情報に基づいた
ビット数でパッキングすると共に前記予測符号化デー
タを、パケットヘッダと圧縮PCMプライベートヘッダ
とオーディオ圧縮PCMデータ部とでパケット化された
ユザーデータ内の前記オーディオ圧縮PCMデータ部に
パッキングするステップと、からなる音声符号化方法に
より符号化されたデータから元の音声信号を復号する音
声復号方法であって、前記選択された各チャネルの先頭
サンプル値と予測残差と線形予測方法を含む予測符号化
データから予測値を算出するステップと、この算出され
た予測値から前記第1の複数チャンネルのデジタル音声
信号を復元するステップと、からなる音声復号方法。 2)少なくともレフト、センタ、ライト、サラウンドレ
フト及びサラウンドライトの5チャネルを含む第1の複
数チャネルのデジタル音声信号を所定のマトリクス演算
により互いに同一のサンプリング周波数を有して相関性
のある第2の複数チャネルの音声信号に変換するステッ
プと、前記第2の複数チャネルの音声信号をチャネル毎
に、入力される音声信号に応答して、先頭サンプル値を
所定時間のフレーム単位で得ると共に、時間領域の過去
の信号から予測される現在の信号の複数の予測値の中で
その予測残差が最小値となる線形予測方法を特性が異な
る複数の線形予測方法により時間領域の過去から現在の
信号の線形予測値がそれぞれ予測され、その予測される
線形予測値と前記音声信号とから得られる予測残差が最
小となるような線形予測方法を前記フレームを更に分割
したサブフレーム単位に選択して予測符号化するステッ
プと、前記選択された先頭サンプル値と予測残差と線形
予測方法とを含む予測符号化データをパッキングする場
合、前記予測残差をビット情報に基づいたビット数でパ
ッキングすると共に前記予測符号化データを、パケッ
トヘッダと圧縮PCMプライベートヘッダとオーディオ
圧縮PCMデータ部とでパケット化されたユザーデータ
内の前記オーディオ圧縮PCMデータ部にパッキングす
るステップと、からなる音声符号化方法により符号化さ
れた音声信号を伝送する音声信号伝送方法であって、前
記選択された先頭サンプル値と予測残差と線形予測方法
とを含む予測符号化データをパケット化して通信回線を
介して伝送することを特徴とする音声信号伝送方法。 3)少なくともレフト、センタ、ライト、サラウンドレ
フト及びサラウンドライトの5チャネルを含む第1の複
数チャネルのデジタル音声信号を所定のマトリクス演算
により互いに同一のサンプリング周波数を有して相関性
のある第2の複数チャネルの音声信号に変換するステッ
プと、前記第2の複数チャネルの音声信号をチャネル毎
に、入力される音声信号に応答して、先頭サンプル値を
所定時間のフレーム単位で得ると共に、特性が異なる複
数の線形予測方法により時間領域の過去から現在の信号
の線形予測値がそれぞれ予測され、その予測される線形
予測値と前記音声信号とから得られる予測残差が最小と
なるような線形予測方法を前記フレームを更に分割した
サブフレーム単位に選択して予測符号化するステップ
と、前記選択された先頭サンプル値と予測残差と線形予
測方法とを含む予測符号化データを所定のフォーマット
で多重化すると共に、前記予測残差に応じたビット数情
報に基づいて前記予測残差をパッキングするステップと
により、前記選択された先頭サンプル値と予測残差と線
形予測方法と予測残差のビット数フラグを含む予測符号
化データをパッキングする場合、前記予測残差をビット
情報に基づいたビット数でパッキングすると共に、 前記
予測符号化データが、パケットヘッダと圧縮PCMプラ
イベートヘッダとオーディオ圧縮PCMデータ部とでパ
ケット化されたユザーデータ内の前記オーディオ圧縮P
CMデータ部にパッキングされて記録され、前記予測符
号化データは、前記予測符号化データは前記第1の複数
チャネルのデジタル音声信号を復元するために用いられ
る予測値を算出するためのデータとして記録されている
ことを特徴とする光記録媒体。
1) At least left, center, right,
A step of converting digital audio signals of a first plurality of channels including surround left and surround right 5 channels into a second plurality of channels of audio signals having the same sampling frequency and having a correlation by a predetermined matrix operation. A second multiple channel audio signal for each channel, in response to the input audio signal, to obtain a leading sample value in a frame unit of a predetermined time, and the current predicted from past signals in the time domain. Of the multiple prediction values of the signal of, the linear prediction method of which the prediction residual is the minimum value is the linear prediction value of the signal from the past in the time domain is predicted by multiple linear prediction methods with different characteristics, respectively. wherein the linear prediction method as the prediction residuals obtained from the expected linear prediction value and the audio signal and is the smallest frame
The sub-frame is further divided into sub-frame units for predictive coding, and predictive-coded data including the selected leading sample value, prediction residual and linear prediction method is packed.
In case of King, the prediction residual is based on bit information.
The predictive coding data is packed together with the number of bits.
Packet header and compressed PCM private header
Packetized with the audio compression PCM data section
In the audio compression PCM data section in the user data
A speech decoding method for decoding an original speech signal from data coded by a speech coding method, which comprises a packing step , wherein a leading sample value of each selected channel, a prediction residual and a linear prediction method. A speech decoding method comprising: a step of calculating a predicted value from predictive coded data including the following; and a step of restoring the digital audio signals of the first plurality of channels from the calculated predicted value. 2) Digital audio signals of a first plurality of channels including at least 5 channels of left, center, right, surround left and surround right are correlated to each other by a predetermined matrix operation and having the same sampling frequency. Converting the audio signals of the second plurality of channels into audio signals of a plurality of channels;
A linear prediction method that minimizes the prediction residual among multiple predicted values of the current signal that is obtained from past signals in the time domain while obtaining it in frame units for a predetermined time. A linear prediction method of predicting a linear prediction value of a current signal from the past in the time domain by the method, and a prediction residual obtained from the predicted linear prediction value and the speech signal is minimized by the frame prediction method. Further division
A step of selecting and performing predictive coding for each subframe, and a case of packing predictive coded data including the selected leading sample value, prediction residual, and linear prediction method.
The prediction residual with the number of bits based on the bit information.
And the predicted coded data
Header and compressed PCM private header and audio
User data packetized with the compressed PCM data part
In the audio compression PCM data part in
That a step and, audio signal transmission method for transmitting an audio signal encoded by the speech encoding method comprising, predictive coded data including said selected first sample value and the prediction residual and the linear prediction method A method for transmitting an audio signal, which comprises packetizing and transmitting the data via a communication line. 3) Digital audio signals of a first plurality of channels including at least 5 channels of left, center, right, surround left and surround right are subjected to a predetermined matrix operation and have the same sampling frequency, and are correlated to each other. Converting into a plurality of channels of audio signals, the second plurality of channels of audio signals are obtained for each channel in response to an input audio signal, and a leading sample value is obtained in frame units of a predetermined time, and characteristics are A linear prediction that predicts a linear prediction value of a current signal from the past in the time domain by a plurality of different linear prediction methods and minimizes a prediction residual obtained from the predicted linear prediction value and the speech signal. Selecting a method in units of subframes obtained by further dividing the frame, and performing predictive coding; A prediction coded data including a sample value, a prediction residual and a linear prediction method is multiplexed in a predetermined format, and the prediction residual is packed based on bit number information according to the prediction residual. , When packing the prediction coded data including the selected leading sample value, the prediction residual, the linear prediction method, and the bit number flag of the prediction residual, the prediction residual is converted into bits.
With packing the number of bits based on the information, the
The predictive coded data contains packet header and compressed PCM
The header and audio compression PCM data section
The audio compression P in the packetized user data
The predictive coded data is recorded as packed in a CM data part, and the predictive coded data is recorded as data for calculating a predictive value used to restore the digital audio signals of the first plurality of channels. An optical recording medium characterized by being provided.

【0007】[0007]

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1は本発明に適用される音声符
号化装置とそれに対応する音声復号装置の第1の実施形
態を示すブロック図、図2は図1の符号化部を詳しく示
すブロック図、図3は図1の復号化部を詳しく示すブロ
ック図、図4はDVDのパックのフォーマットを示す説
明図、図5はDVDのオーディオパックのフォーマット
を示す説明図、図6、図7は音声伝送方法を示すフロー
チャートである。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings. 1 is a block diagram showing a first embodiment of a speech coding apparatus and a speech decoding apparatus corresponding thereto applied to the present invention, FIG. 2 is a block diagram showing a coding unit of FIG. 1 in detail, and FIG. 1 is a block diagram showing in detail the decoding unit of FIG. 1, FIG. 4 is an explanatory diagram showing a format of a DVD pack, FIG. 5 is an explanatory diagram showing a format of an audio pack of a DVD, and FIGS. 6 and 7 are flowcharts showing an audio transmission method. Is.

【0008】ここで、マルチチャネル方式としては次の
4つの方式が知られている。 (1)ドルビーサラウンド方式 前方L、C、Rの3チャネル+後方Sの1チャネルの合
計4チャネル (2)ドルビーAC−3方式 前方L、C、R、SWの4チャネル+後方SL、SRの
2チャネルの合計6チャネル (3)DTS(Digital Theater System)方式 ドルビーAC−3方式と同様に6チャネル(L、C、
R、SW、SL、SR) (4)SDDS(Sony Dynamic Digital Sound)方式 前方L、LC、C、RC、R、SWの6チャネル+後方
SL、SRの2チャネルの合計8チャネル
The following four systems are known as the multi-channel system. (1) Dolby Surround system front L, C, R 3 channels + rear S 1 channel 4 channels in total (2) Dolby AC-3 system front L, C, R, SW 4 channels + rear SL, SR 2 channels in total 6 channels (3) DTS (Digital Theater System) system 6 channels (L, C,
(R, SW, SL, SR) (4) SDDS (Sony Dynamic Digital Sound) system 6 channels of front L, LC, C, RC, R, SW + 2 channels of rear SL, SR, total 8 channels

【0009】図1に示す符号化側の5チャネル(ch)相
関回路1は、マルチチャネル信号の一例としてレフト
(L)、センタ(C)、ライト(R)、サラウンドレフ
ト(SL)及びサラウンドライト(SR)の5chのPC
Mデータを、Lchを基準として次の5ch(L)、(D
1)〜(D4)に変換して図2に詳しく示す符号化部2
に出力する。 L =L(基準チャネル) D1=C−(L+R)/2 D2=R−L D3=SL−a×L D4=SR−b×R ただし、0≦a,b≦1
The 5-channel (ch) correlation circuit 1 on the encoding side shown in FIG. 1 is a left (L), center (C), right (R), surround left (SL), and surround right as an example of a multi-channel signal. (SR) 5ch PC
For M data, the next 5 ch (L), (D
1) to (D4) and shown in detail in FIG.
Output to. L = L (reference channel) D1 = C− (L + R) / 2 D2 = R−L D3 = SL−a × L D4 = SR−b × R where 0 ≦ a, b ≦ 1

【0010】符号化部2は図2に詳しく示すように各ch
(L)、(D1)〜(D4)のPCMデータを予測符号
化し、これを記録媒体や通信媒体を介して復号側に伝送
する。復号側では図3に詳しく示す復号化部3により各
ch(L)、(D1)〜(D4)の予測符号化データを復
号し、次いで5チャネル相関回路4により次のように元
の5chを復元する。 R=(R−L)+L C=C−(L+R)/2+L/2+R/2 SL=SL−a×L+a×L SR=SR−b×R+b×R
The encoding section 2 is provided for each channel as shown in detail in FIG.
The PCM data of (L) and (D1) to (D4) is predictively encoded, and this is transmitted to the decoding side via a recording medium or a communication medium. On the decoding side, the decoding unit 3 shown in detail in FIG.
The prediction coded data of ch (L), (D1) to (D4) are decoded, and then the original 5 ch is restored by the 5-channel correlation circuit 4 as follows. R = (R-L) + L C = C- (L + R) / 2 + L / 2 + R / 2 SL = SL-a * L + a * L SR = SR-b * R + b * R

【0011】図2を参照して符号化部2について詳しく
説明する。各ch(L)、(D1)〜(D4)のPCMデ
ータは1フレーム毎に1フレームバッファ10に格納さ
れる。そして、1フレームの各chのサンプルデータがそ
れぞれ予測回路15L、15D1〜15D4に印加され
るとともに、各chの1フレームの先頭サンプルデータが
フォーマット化回路19に印加される。予測回路15
L、15D1〜15D4はそれぞれ、各ch(L)、(D
1)〜(D4)のPCMデータに対して、特性が異なる
複数の予測器(不図示)により時間領域における過去の
信号から現在の信号の複数の線形予測値を算出し、原P
CMデータとこの複数の線形予測値から予測器毎の予測
残差を算出する。続くバッファ・選択器16L、16D
1〜16D4はそれぞれ、予測回路15L、15D1〜
15D4により算出された各予測残差を一時記憶して、
選択信号生成器17により指定されたサブフレーム毎に
予測残差の最小値を選択する。
The encoding unit 2 will be described in detail with reference to FIG. The PCM data of each ch (L), (D1) to (D4) is stored in the one frame buffer 10 for each frame. Then, the sample data of each ch of one frame is applied to the prediction circuits 15L and 15D1 to 15D4, respectively, and the leading sample data of one frame of each ch is applied to the formatting circuit 19. Prediction circuit 15
L, 15D1 to 15D4 are each ch (L), (D
For the PCM data of 1) to (D4), a plurality of predictors (not shown) having different characteristics are used to calculate a plurality of linear prediction values of the current signal from past signals in the time domain, and the original P
A prediction residual for each predictor is calculated from the CM data and the plurality of linear prediction values. Subsequent buffer / selector 16L, 16D
1 to 16D4 are prediction circuits 15L and 15D1 to 15D1, respectively.
Temporarily store each prediction residual calculated by 15D4,
The minimum value of the prediction residual is selected for each subframe designated by the selection signal generator 17.

【0012】選択信号生成器17は予測残差のビット数
フラグをパッキング回路18とフォーマット化回路19
に対して印加し、また、予測残差が最小の予測器を示す
予測器選択フラグをフォーマット化回路19に対して印
加する。パッキング回路18はバッファ・選択器16
L、16D1〜16D4により選択された5ch分の予測
誤差を、選択信号生成器17により指定されたビット数
フラグに基づいて指定ビット数でパッキングする。
The selection signal generator 17 packs the bit number flag of the prediction residual into a packing circuit 18 and a formatting circuit 19.
, And a predictor selection flag indicating a predictor with the smallest prediction residual to the formatting circuit 19. The packing circuit 18 is the buffer / selector 16
The prediction error for 5 channels selected by L and 16D1 to 16D4 is packed with the specified number of bits based on the bit number flag specified by the selection signal generator 17.

【0013】続くフォーマット化回路19は1フレーム
分に対して ・フレームヘッダと、 ・各ch(L)、(D1)〜(D4)の1フレームの先頭
サンプル値と、 ・各ch(L)、(D1)〜(D4)のサブフレーム毎の
予測器選択フラグと、 ・各ch(L)、(D1)〜(D4)のサブフレーム毎の
ビット数フラグと、 ・各ch(L)、(D1)〜(D4)の予測残差データ列
(可変ビット数)とを、多重化し、可変レートビットス
トリームとして出力する。このような予測符号化によれ
ば、原信号が例えばサンプリング周波数=96kHz、
量子化ビット数=24ビット、5チャネルの場合、71
%の圧縮率を実現することができる。
The following formatting circuit 19 is for one frame: a frame header, each channel (L), the head sample value of one frame of (D1) to (D4), each channel (L), Predictor selection flag for each subframe of (D1) to (D4), each channel (L), bit number flag for each subframe of (D1) to (D4), each channel (L), ( The prediction residual data string (variable number of bits) of D1) to (D4) is multiplexed and output as a variable rate bit stream. According to such predictive coding, the original signal is, for example, sampling frequency = 96 kHz,
Number of quantization bits = 24 bits, 71 for 5 channels
A compression rate of% can be realized.

【0014】次に図3を参照して復号化部3について説
明する。上記フォーマットの可変レートビットストリー
ムデータは、デフォーマット化回路21によりフレーム
ヘッダに基づいて分離される。そして、各ch(L)、
(D1)〜(D4)の1フレームの先頭サンプルデータ
と予測器選択フラグはそれぞれ予測回路23L、23D
1〜23D4に印加され、各ch(L)、(D1)〜
(D4)のビット数フラグと予測残差データ列はアンパ
ッキング回路22に印加される。ここで、予測回路23
L、23D1〜23D4内の複数の予測器(不図示)は
それぞれ、符号化側の予測回路15L、15D1〜15
D4内の複数の予測器と同一の特性であり、予測器選択
フラグにより同一特性のものが選択される。
Next, the decoding unit 3 will be described with reference to FIG. The variable rate bit stream data in the above format is separated by the deformatting circuit 21 based on the frame header. And each channel (L),
The head sample data of one frame of (D1) to (D4) and the predictor selection flag are prediction circuits 23L and 23D, respectively.
1 to 23D4, each channel (L), (D1) to
The bit number flag (D4) and the prediction residual data string are applied to the unpacking circuit 22. Here, the prediction circuit 23
A plurality of predictors (not shown) in L and 23D1 to 23D4 are prediction circuits 15L and 15D1 to 15D on the encoding side, respectively.
The characteristics are the same as those of the plurality of predictors in D4, and those having the same characteristics are selected by the predictor selection flag.

【0015】アンパッキング回路22は各ch(L)、
(D1)〜(D4)の予測残差データ列をビット数フラ
グ毎に基づいて分離してそれぞれ予測回路23L、23
D1〜23D4に出力する。予測回路23L、23D1
〜23D4ではそれぞれ、アンパッキング回路22から
の各ch(L)、(D1)〜(D4)の今回の予測残差
データと、内部の複数の予測器の内、予測器選択フラグ
により選択された各1つにより予測された前回の予測値
が加算されて今回の予測値が算出され、次いで1フレー
ムの先頭サンプル値を基準として各サンプル値のPCM
データが算出される。
The unpacking circuit 22 is for each channel (L),
The prediction residual data strings (D1) to (D4) are separated on the basis of each bit number flag, and the prediction circuits 23L and 23 are respectively separated.
Output to D1 to D4. Prediction circuits 23L and 23D1
23D4, the current prediction residual data of each channel (L), (D1) to (D4) from the unpacking circuit 22 and a plurality of internal predictors are selected by the predictor selection flag. The previous predicted value predicted by each one is added to calculate the current predicted value, and then the PCM of each sample value is based on the leading sample value of one frame.
Data is calculated.

【0016】ここで、図2に示す符号化部2により予測
符号化された可変レートビットストリームデータを、記
録媒体の一例としてDVDオーディオディスクに記録す
る場合には、図4に示す圧縮PCMのオーディオ(A)
パックにパッキングされる。このパックは2034バイ
トのユーザデータ(Aパケット、Vパケット)に対して
4バイトのパックスタート情報と、6バイトのSCR
(System Clock Reference:システム時刻基準参照値)
情報と、3バイトのMux レート(rate)情報と1バイト
のスタッフィングの合計14バイトのパックヘッダが付
加されて構成されている(1パック=合計2048バイ
ト)。この場合、タイムスタンプであるSCR情報を、
ACBユニット内の先頭パックでは「1」として同一タ
イトル内で連続とすることにより同一タイトル内のAパ
ックの時間を管理することができる。
Here, when the variable rate bit stream data predictively coded by the coding unit 2 shown in FIG. 2 is recorded on a DVD audio disc as an example of a recording medium, the audio of the compressed PCM shown in FIG. 4 is used. (A)
Packed in a pack. This pack includes 4 bytes of pack start information and 6 bytes of SCR for 2034 bytes of user data (A packet, V packet).
(System Clock Reference: System clock reference value)
Information, 3 bytes of Mux rate information, and 1 byte of stuffing, a total of 14 bytes of pack header are added (1 pack = 2048 bytes in total). In this case, the SCR information, which is the time stamp,
The time of pack A in the same title can be managed by setting "1" in the first pack in the ACB unit and making it consecutive in the same title.

【0017】圧縮PCMのAパケットは図5に詳しく示
すように、17、9又は14バイトのパケットヘッダ
と、圧縮PCMのプライベートヘッダと、図3に示すフ
ォーマットの1ないし2011バイトのオーディオ圧縮
PCMデータにより構成されている。圧縮PCMのプラ
イベートヘッダは、 ・1バイトのサブストリームIDと、 ・2バイトのUPC/EAN−ISRC(Universal Pr
oduct Code/European Article Number-International S
tandard Recording Code)番号、及びUPC/EAN−
ISRCデータと、 ・1バイトのプライベートヘッダ長と、 ・2バイトの第1アクセスユニットポインタと、 ・8バイトのオーディオデータ情報(ADI)と ・0〜7バイトのスタッフィングバイトとに、より構成
されている。
As shown in detail in FIG. 5, the compressed PCM A packet includes a packet header of 17, 9 or 14 bytes, a compressed PCM private header, and audio compressed PCM data of 1 to 2011 bytes in the format shown in FIG. It is composed by. The private header of the compressed PCM includes: 1-byte substream ID, 2-byte UPC / EAN-ISRC (Universal Pr
oduct Code / European Article Number-International S
tandard Recording Code) number and UPC / EAN-
ISRC data, 1-byte private header length, 2-byte first access unit pointer, 8-byte audio data information (ADI), and 0-7 bytes of stuffing bytes. There is.

【0018】また、図2に示す符号化部2により予測符
号化された可変レートビットストリームデータをネット
ワークを介して伝送する場合には、符号化側では図6に
示すように伝送用にパケット化し(ステップS41)、
次いでパケットヘッダを付与し(ステップS42)、次
いでこのパケットをネットワーク上に送り出す(ステッ
プS43)。復号側では図7に示すようにヘッダを除去
し(ステップS51)、次いでデータを復元し(ステッ
プS52)、次いでこのデータをメモリに格納して復号
を待つ(ステップS53)。
When the variable rate bit stream data predictively coded by the coding unit 2 shown in FIG. 2 is transmitted through the network, the coding side packetizes it for transmission as shown in FIG. (Step S41),
Next, a packet header is added (step S42), and then this packet is sent out on the network (step S43). The decoding side removes the header as shown in FIG. 7 (step S51), restores the data (step S52), stores the data in the memory, and waits for the decoding (step S53).

【0019】次に図8、図9を参照して第2の実施形態
について説明する。上記の実施形態では、1種類の相関
性の信号(L)、(D1)〜(D4)を予測符号化する
ように構成されているが、この第2の実施形態では複数
種類の相関性の信号の1種類を選択的に予測符号化する
ように構成されている。このため図8に示す符号化部で
は、第1〜第nの相関回路1−1〜1−nが設けられ、
このn個の相関回路1−1〜1−nは例えば5ch(L、
C、R、SL、SR)のPCMデータを相関性が異なる
n種類の5ch信号に変換する。第nの相関回路1−nは
例えば以下のように変換する。 L =L(基準チャネル) D1=C−L D2=R−L D3=SL−L D4=SR−R
Next, a second embodiment will be described with reference to FIGS. In the above-described embodiment, the signals (L) and (D1) to (D4) having one type of correlation are configured to be predictively coded, but in the second embodiment, a plurality of types of correlation (L), It is configured to selectively predictively code one type of signal. Therefore, in the encoding unit shown in FIG. 8, first to nth correlation circuits 1-1 to 1-n are provided,
The n correlation circuits 1-1 to 1-n are, for example, 5 ch (L,
C, R, SL, SR) PCM data is converted into n types of 5ch signals having different correlations. The nth correlation circuit 1-n performs conversion as follows, for example. L = L (reference channel) D1 = C-L D2 = R-L D3 = SL-L D4 = SR-R

【0020】また、相関回路1−1〜1−n毎に予測回
路15L、15D1〜15D4とバッファ・選択器16
L、16D1〜16D4が設けられ、グループ毎の予測
誤差の最小値のデータ量に基づいて圧縮率が最も高いグ
ループが相関選択信号生成器17bにより選択される。
このとき、その選択フラグ(相関回路選択フラグ、その
相関回路の相関係数a、b)を追加して多重化する。
The prediction circuits 15L and 15D1 to 15D4 and the buffer / selector 16 are provided for each of the correlation circuits 1-1 to 1-n.
L, 16D1 to 16D4 are provided, and the group having the highest compression rate is selected by the correlation selection signal generator 17b based on the data amount of the minimum value of the prediction error for each group.
At this time, the selection flag (correlation circuit selection flag, correlation coefficients a and b of the correlation circuit) is added and multiplexed.

【0021】また、図9に示す復号化側では、符号化側
の相関回路1−1〜1−nに対してn個の相関回路4−
1〜4−n(又は係数a、bが変更可能な1つの相関回
路4)が設けられる。なお、図8に示すnグループの予
測回路が同一の構成である場合、復号装置では図9に示
すようにnグループ分の予測回路を設ける必要はなく、
1つのグループ分の予測回路でよい。そして、符号化装
置から伝送された選択フラグに基づいて相関回路4−1
〜4−nの1つを選択、又は係数a、bを設定して元の
5ch(L、C、R、SL、SR)を復元する。
On the decoding side shown in FIG. 9, there are n correlation circuits 4-for the correlation circuits 1-1 to 1-n on the encoding side.
1 to 4-n (or one correlation circuit 4 whose coefficients a and b can be changed) are provided. When the n groups of prediction circuits shown in FIG. 8 have the same configuration, the decoding device need not be provided with n groups of prediction circuits as shown in FIG.
A prediction circuit for one group is sufficient. Then, based on the selection flag transmitted from the encoding device, the correlation circuit 4-1
~ 4-n is selected, or the coefficients a and b are set to restore the original 5ch (L, C, R, SL, SR).

【0022】また、上記の第1の実施形態では、1種類
の相関性の信号L、D1〜D4を予測符号化するように
構成されているが、この信号L、D1〜D4のグループ
と原信号L、C、R、SL及びSRのグループを予測符
号化し、圧縮率が高い方のグループを選択するようにし
てもよい。
In the first embodiment, the signals L, D1 to D4 having one type of correlation are configured to be predictively coded, but the groups of the signals L and D1 to D4 and the original signals are used. The groups of the signals L, C, R, SL and SR may be predictively coded and the group having the higher compression rate may be selected.

【0023】[0023]

【発明の効果】以上説明したように本発明によれば、複
数チャネルの音声信号を相関性のある第2の複数チャネ
ルの音声信号に変換して予測符号化するようにしたの
で、音声信号を予測符号化する場合に圧縮率を改善する
ことができる。
As described above, according to the present invention, the voice signals of a plurality of channels are converted into the voice signals of the second plurality of channels having the correlation and are predictively coded. The compression ratio can be improved in the case of predictive coding.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明を適用した音声符号化装置とそれに対応
する音声復号装置の第1の実施形態を示すブロック図で
ある。
FIG. 1 is a block diagram showing a first embodiment of a speech coding apparatus to which the present invention is applied and a speech decoding apparatus corresponding thereto.

【図2】図1の符号化部を詳しく示すブロック図であ
る。
FIG. 2 is a block diagram showing in detail a coding unit of FIG.

【図3】図1の復号化部を詳しく示すブロック図であ
る。
FIG. 3 is a block diagram showing the decoding unit of FIG. 1 in detail.

【図4】DVDのパックのフォーマットを示す説明図で
ある。
FIG. 4 is an explanatory diagram showing a format of a DVD pack.

【図5】DVDのオーディオパックのフォーマットを示
す説明図である。
FIG. 5 is an explanatory diagram showing a format of a DVD audio pack.

【図6】音声伝送方法を示すフローチャートである。FIG. 6 is a flowchart showing a voice transmission method.

【図7】音声伝送方法を示すフローチャートである。FIG. 7 is a flowchart showing a voice transmission method.

【図8】他の音声符号化装置を示すブロック図である。FIG. 8 is a block diagram showing another audio encoding device.

【図9】図8に対応した音声復号装置を示すブロック図
である。
FIG. 9 is a block diagram showing a speech decoding apparatus corresponding to FIG.

【符号の説明】[Explanation of symbols]

1,1−1〜1−n,4,4−1〜4−n 相関回路
(相関手段) 15L、15D1〜15D4 予測回路(バッファ・選
択器16L、16D1〜16D4と共に予測符号化手段
を構成する。) 16L、16D1〜16D4 バッファ・選択器
1, 1-1 to 1-n, 4, 4-1 to 4-n Correlation circuit (correlation means) 15L, 15D1 to 15D4 Prediction circuit (buffer / selectors 16L, 16D1 to 16D4 and prediction coding means) .) 16L, 16D1 to 16D4 Buffer / Selector

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI H04B 14/04 G10L 9/18 D H04S 3/00 M (56)参考文献 特開 昭64−44499(JP,A) 特開 平3−108824(JP,A) 特開 平8−65169(JP,A) 特開 平10−233058(JP,A) 特開 平10−320928(JP,A) (58)調査した分野(Int.Cl.7,DB名) G10L 19/00 ─────────────────────────────────────────────────── ─── Continuation of the front page (51) Int.Cl. 7 identification code FI H04B 14/04 G10L 9/18 D H04S 3/00 M (56) Reference JP-A 64-44499 (JP, A) JP 3-108824 (JP, A) JP 8-65169 (JP, A) JP 10-233058 (JP, A) JP 10-320928 (JP, A) (58) Fields investigated (Int .Cl. 7 , DB name) G10L 19/00

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】少なくともレフト、センタ、ライト、サラ
ウンドレフト及びサラウンドライトの5チャネルを含む
第1の複数チャネルのデジタル音声信号を所定のマトリ
クス演算により互いに同一のサンプリング周波数を有し
て相関性のある第2の複数チャネルの音声信号に変換す
るステップと、 前記第2の複数チャネルの音声信号をチャネル毎に、入
力される音声信号に応答して、先頭サンプル値を所定時
間のフレーム単位で得ると共に、時間領域の過去の信号
から予測される現在の信号の複数の予測値の中でその予
測残差が最小値となる線形予測方法を特性が異なる複数
の線形予測方法により時間領域の過去から現在の信号の
線形予測値がそれぞれ予測され、その予測される線形予
測値と前記音声信号とから得られる予測残差が最小とな
るような線形予測方法を前記フレームを更に分割したサ
ブフレーム単位に選択して予測符号化するステップと、 前記選択された先頭サンプル値と予測残差と線形予測方
法とを含む予測符号化データをパッキングする場合、前
記予測残差をビット情報に基づいたビット数でパッキン
グすると共に前記予測符号化データを、パケットヘッダと圧縮PCM
プライベートヘッダとオーディオ圧縮PCMデータ部と
でパケット化されたユザーデータ内の前記オーディオ圧
縮PCMデータ部にパッキングするステップと、 からな
る音声符号化方法により符号化されたデータから元の音
声信号を復号する音声復号方法であって、 前記選択された各チャネルの先頭サンプル値と予測残差
と線形予測方法を含む予測符号化データから予測値を算
出するステップと、 この算出された予測値から前記第1の複数チャンネルの
デジタル音声信号を復元するステップと、 からなる音声復号方法。
1. Digital audio signals of a first plurality of channels including at least 5 channels of left, center, right, surround left and surround right are correlated by having a same sampling frequency by a predetermined matrix operation. A step of converting the audio signal of the second plurality of channels, for each channel of the audio signal of the second plurality of channels, in response to the input audio signal, the first sample value at a predetermined time
A plurality of linear prediction methods with different characteristics, which are obtained in units of frames between frames, and which have the smallest prediction residual among the predicted values of the current signal predicted from the past signal in the time domain According to the above, the linear prediction value of the current signal is predicted from the past in the time domain, and a linear prediction method that minimizes the prediction residual obtained from the predicted linear prediction value and the speech signal is further added to the frame. Divided service
Selecting in units of subframes and performing predictive coding, and packing the predictive coded data including the selected leading sample value, prediction residual, and linear prediction method ,
Packing the prediction residual with the number of bits based on the bit information.
And the predicted coded data is transferred to the packet header and compressed PCM.
Private header and audio compression PCM data section
Audio pressure in user data packetized by
A voice decoding method for decoding an original voice signal from data encoded by a voice encoding method, which comprises a step of packing in a reduced PCM data part , wherein a leading sample value and a prediction residual of each selected channel are included. A speech decoding method comprising: a step of calculating a prediction value from predictive coded data including a difference and a linear prediction method; and a step of restoring the digital audio signals of the first plurality of channels from the calculated prediction value.
【請求項2】少なくともレフト、センタ、ライト、サラ
ウンドレフト及びサラウンドライトの5チャネルを含む
第1の複数チャネルのデジタル音声信号を所定のマトリ
クス演算により互いに同一のサンプリング周波数を有し
て相関性のある第2の複数チャネルの音声信号に変換す
るステップと、 前記第2の複数チャネルの音声信号をチャネル毎に、入
力される音声信号に応答して、先頭サンプル値を所定時
間のフレーム単位で得ると共に、時間領域の過去の信号
から予測される現在の信号の複数の予測値の中でその予
測残差が最小値となる線形予測方法を特性が異なる複数
の線形予測方法により時間領域の過去から現在の信号の
線形予測値がそれぞれ予測され、その予測される線形予
測値と前記音声信号とから得られる予測残差が最小とな
るような線形予測方法を前記フレームを更に分割したサ
ブフレーム単位に選択して予測符号化するステップと、 前記選択された先頭サンプル値と予測残差と線形予測方
法とを含む予測符号化データをパッキングする場合、前
記予測残差をビット情報に基づいたビット数でパッキン
グすると共に前記予測符号化データを、パケットヘッダと圧縮PCM
プライベートヘッダとオーディオ圧縮PCMデータ部と
でパケット化されたユザーデータ内の前記オーディオ圧
縮PCMデータ部にパッキングするステップと、 からな
る音声符号化方法により符号化された音声信号を伝送す
る音声信号伝送方法であって、 前記選択された先頭サンプル値と予測残差と線形予測方
法とを含む予測符号化データをパケット化して通信回線
を介して伝送することを特徴とする音声信号伝送方法。
2. Digital audio signals of a first plurality of channels including at least 5 channels of left, center, right, surround left and surround right are correlated by having a same sampling frequency by a predetermined matrix operation. A step of converting the audio signal of the second plurality of channels, for each channel of the audio signal of the second plurality of channels, in response to the input audio signal, the first sample value at a predetermined time
A plurality of linear prediction methods with different characteristics, which are obtained in units of frames between frames, and which have the smallest prediction residual among the predicted values of the current signal predicted from the past signal in the time domain According to the above, the linear prediction value of the current signal is predicted from the past in the time domain, and a linear prediction method that minimizes the prediction residual obtained from the predicted linear prediction value and the speech signal is further added to the frame. Divided service
Selecting in units of subframes and performing predictive coding, and packing the predictive coded data including the selected leading sample value, prediction residual, and linear prediction method ,
Packing the prediction residual with the number of bits based on the bit information.
And the predicted coded data is transferred to the packet header and compressed PCM.
Private header and audio compression PCM data section
Audio pressure in user data packetized by
A voice signal transmission method for transmitting a voice signal encoded by a voice encoding method, comprising the step of packing in a reduced PCM data part , wherein the selected leading sample value, prediction residual, and linear prediction method. A method of transmitting a voice signal, characterized in that the predictive coded data including the above is packetized and transmitted via a communication line.
【請求項3】少なくともレフト、センタ、ライト、サラ
ウンドレフト及びサラウンドライトの5チャネルを含む
第1の複数チャネルのデジタル音声信号を所定のマトリ
クス演算により互いに同一のサンプリング周波数を有し
て相関性のある第2の複数チャネルの音声信号に変換す
るステップと、 前記第2の複数チャネルの音声信号をチャネル毎に、入
力される音声信号に応答して、先頭サンプル値を所定時
間のフレーム単位で得ると共に、特性が異なる複数の線
形予測方法により時間領域の過去から現在の信号の線形
予測値がそれぞれ予測され、その予測される線形予測値
と前記音声信号とから得られる予測残差が最小となるよ
うな線形予測方法を前記フレームを更に分割したサブフ
レーム単位に選択して予測符号化するステップと、 前記選択された先頭サンプル値と予測残差と線形予測方
法とを含む予測符号化データを所定のフォーマットで多
重化すると共に、前記予測残差に応じたビット数情報に
基づいて前記予測残差をパッキングするステップとによ
り、 前記選択された先頭サンプル値と予測残差と線形予測方
と予測残差のビット数フラグを含む予測符号化データ
パッキングする場合、前記予測残差をビット情報に基
づいたビット数でパッキングすると共に、 前記予測符号化データが、パケットヘッダと圧縮PCM
プライベートヘッダとオーディオ圧縮PCMデータ部と
でパケット化されたユザーデータ内の前記オーディオ圧
縮PCMデータ部にパッキングされて記録され、 前記予測符号化データは、前記予測符号化データは前記
第1の複数チャネルのデジタル音声信号を復元するため
に用いられる予測値を算出するためのデータとして記録
されていることを特徴とする光記録媒体。
3. Digital audio signals of a first plurality of channels including at least 5 channels of left, center, right, surround left and surround right are mutually correlated by having a same sampling frequency by a predetermined matrix operation. Converting into a second plurality of channels of audio signals, for each channel of the second plurality of channels of audio signals, in response to the input audio signal, to obtain a leading sample value in frame units of a predetermined time , The linear prediction values of the current signal are predicted from the past in the time domain by a plurality of linear prediction methods having different characteristics, and the prediction residual obtained from the predicted linear prediction value and the speech signal is minimized. A linear prediction method in units of subframes obtained by further dividing the frame to perform predictive coding, and The prediction coded data including the leading sample value, the prediction residual, and the linear prediction method are multiplexed in a predetermined format, and the prediction residual is packed based on the bit number information according to the prediction residual. When packing the prediction coded data including the selected leading sample value, the prediction residual, the linear prediction method, and the bit number flag of the prediction residual by the step, the prediction residual is based on the bit information.
The predicted coded data is packed in a packet header and a compressed PCM.
Private header and audio compression PCM data section
Audio pressure in user data packetized by
The predictive coded data is packed and recorded in a reduced PCM data part, and the predictive coded data is data for calculating a predictive value used to restore the digital audio signals of the first plurality of channels. An optical recording medium characterized by being recorded.
JP2000321504A 2000-10-20 2000-10-20 Optical recording medium, audio transmission method and audio decoding method Expired - Lifetime JP3387091B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000321504A JP3387091B2 (en) 2000-10-20 2000-10-20 Optical recording medium, audio transmission method and audio decoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000321504A JP3387091B2 (en) 2000-10-20 2000-10-20 Optical recording medium, audio transmission method and audio decoding method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP10306322A Division JP2000122697A (en) 1998-10-13 1998-10-13 Sound encoder, optical recording medium and sound decorder, and sound transmitting method

Publications (2)

Publication Number Publication Date
JP2001195098A JP2001195098A (en) 2001-07-19
JP3387091B2 true JP3387091B2 (en) 2003-03-17

Family

ID=18799620

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000321504A Expired - Lifetime JP3387091B2 (en) 2000-10-20 2000-10-20 Optical recording medium, audio transmission method and audio decoding method

Country Status (1)

Country Link
JP (1) JP3387091B2 (en)

Also Published As

Publication number Publication date
JP2001195098A (en) 2001-07-19

Similar Documents

Publication Publication Date Title
JP5035459B2 (en) Audio signal transmission device, audio signal reception device, and audio signal transmission system
JP3387091B2 (en) Optical recording medium, audio transmission method and audio decoding method
JP3387089B2 (en) Audio coding device
JP3606454B2 (en) Audio signal transmission method and audio decoding method
JP3354136B2 (en) Audio encoding method, audio signal receiving method, and audio decoding method
JP3387090B2 (en) Audio coding method
JP4164824B2 (en) Audio signal transmission method and audio decoding method
JP3387096B2 (en) Audio coding device
JP4244223B2 (en) Speech encoding method and speech decoding method
JP3606457B2 (en) Audio signal transmission method and audio decoding method
JP3387088B2 (en) Optical recording medium, audio signal transmission method and audio decoding method
JP3387086B2 (en) Audio coding device
JP4164825B2 (en) Audio signal transmission method and audio decoding method
JP3387095B2 (en) Audio coding device
JP3606453B2 (en) Audio signal transmission method and audio decoding method
JP2000122697A (en) Sound encoder, optical recording medium and sound decorder, and sound transmitting method
JP3356165B2 (en) Audio coding device
JP3387097B2 (en) Audio encoding method and audio decoding method
JP3387087B2 (en) Audio coding method
JP3344568B2 (en) Audio signal transmission method, audio decoding method
JP2004326136A (en) Voice signal transmitting method and voice decoding method
JP2001188573A (en) Voice coding method
JP2004139099A (en) Optical recording medium and voice decoding device
JP2004139100A (en) Optical recording medium and voice decoding device
JP2004126611A (en) Optical recording medium and sound decoding device

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100110

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110110

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120110

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120110

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20190110

Year of fee payment: 16

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20190110

Year of fee payment: 16

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20190110

Year of fee payment: 16

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term