JP2003216192A - Audio encoding method and audio decoding method - Google Patents

Audio encoding method and audio decoding method

Info

Publication number
JP2003216192A
JP2003216192A JP2002344092A JP2002344092A JP2003216192A JP 2003216192 A JP2003216192 A JP 2003216192A JP 2002344092 A JP2002344092 A JP 2002344092A JP 2002344092 A JP2002344092 A JP 2002344092A JP 2003216192 A JP2003216192 A JP 2003216192A
Authority
JP
Japan
Prior art keywords
data
channel
audio
identifier
access unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002344092A
Other languages
Japanese (ja)
Other versions
JP3846720B2 (en
Inventor
Yoshiaki Tanaka
美昭 田中
Shoji Ueno
昭治 植野
Norihiko Fuchigami
徳彦 渕上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2002344092A priority Critical patent/JP3846720B2/en
Publication of JP2003216192A publication Critical patent/JP2003216192A/en
Application granted granted Critical
Publication of JP3846720B2 publication Critical patent/JP3846720B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

<P>PROBLEM TO BE SOLVED: To make normal reproduction possible on a reproduction side even if multichannels are selectively transmitted by compression or non-compression or even if downmixing on the reproduction side is selectively permitted or prohibited. <P>SOLUTION: An ATSI includes a first identifier to indicate whether multichannel data within an audio packet is compressed or not and a second identifier to permit or prohibit downmixing of the multichannel data into stereo two channels. <P>COPYRIGHT: (C)2003,JPO

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【発明の属する技術分野】本発明は、マルチチャネル音
声信号の音声符号化方法及び音声復号化方法に関する。
TECHNICAL FIELD The present invention relates to a speech coding method and a speech decoding method for a multi-channel speech signal.

【0002】[0002]

【従来の技術】音声信号を可変長で圧縮する方法とし
て、本発明者は先の出願(特願平9−289159号)
において1チャネルの原デジタル音声信号に対して、特
性が異なる複数の予測器により時間領域における過去の
信号から現在の信号の複数の線形予測値を算出し、原デ
ジタル音声信号と、この複数の線形予測値から予測器毎
の予測残差を算出し、予測残差の最小値を選択する予測
符号化方法を提案している。
2. Description of the Related Art As a method for compressing a voice signal in a variable length, the present inventor has filed a prior application (Japanese Patent Application No. 9-289159).
In the original digital audio signal of 1 channel, a plurality of predictors having different characteristics are used to calculate a plurality of linear prediction values of the current signal from past signals in the time domain, and the original digital audio signal and the plurality of linear We have proposed a predictive coding method that calculates the prediction residual for each predictor from the prediction value and selects the minimum value of the prediction residual.

【0003】なお、上記方法では原デジタル音声信号が
サンプリング周波数=96kHz、量子化ビット数=2
0ビット程度の場合にある程度の圧縮効果を得ることが
できるが、近年のDVDオーディオディスクではこの2
倍のサンプリング周波数(=192kHz)が使用さ
れ、また、量子化ビット数も24ビットが使用される傾
向がある。また、マルチチャネルにおけるサンプリング
周波数と量子化ビット数はチャネル毎に異なることもあ
る。
In the above method, the original digital audio signal has a sampling frequency = 96 kHz and a quantization bit number = 2.
Although it is possible to obtain a certain degree of compression effect when the number of bits is about 0, in recent DVD audio discs, this 2
The double sampling frequency (= 192 kHz) is used, and the number of quantization bits tends to be 24 bits. Further, the sampling frequency and the number of quantization bits in the multi-channel may be different for each channel.

【0004】[0004]

【発明が解決しようとする課題】ところで、マルチチャ
ネルの音声信号を伝送する場合、著作権者がオーディオ
ソースに依っては圧縮を希望するものとそうでないもの
があり、また、ユーザがマルチチャネルをステレオ2チ
ャネルにダウンミクスして再生することを望まないもの
とそうでないものとの2通りがある。したがって、この
ように圧縮又は非圧縮で選択的に伝送する2通りと、再
生側のダウンミクスを選択的に許可、禁止する2通りの
合計4通りで伝送した場合には、再生側でこれを識別し
て選択的に再生する必要がある。
By the way, when transmitting multi-channel audio signals, the copyright holder may or may not desire compression depending on the audio source, and the user may use multi-channel audio signals. There are two types, one that does not want to down-mix and reproduce to stereo 2 channels and the other that does not want to reproduce. Therefore, in the case of transmitting in two ways, that is, the selective transmission of compressed or non-compressed and the two ways of selectively permitting or prohibiting the downmix of the reproducing side, the transmitting side transmits the four kinds of downmixes. It is necessary to identify and selectively reproduce.

【0005】そこで本発明は、再生側のダウンミクスを
選択的に許可又は禁止しても再生側が正常に再生するこ
とができる音声符号化方法及び音声復号化方法を提供す
ることを目的とする。
Therefore, an object of the present invention is to provide a voice encoding method and a voice decoding method which allow the reproducing side to normally reproduce even if the downmix on the reproducing side is selectively permitted or prohibited.

【0006】[0006]

【課題を解決するための手段】本発明は上記目的を達成
するために、以下の1)及び2)の手段より成る。すな
わち、 1)マルチチャネルの音声信号を、そのままのチャネル
又は互いに相関あるチャネル毎に、 入力される音声信
号に応答して先頭サンプル値を得ると共に、時間領域の
過去の信号から予測される現在の信号の複数の予測値の
中でその予測残差が最小となるような線形予測方法を選
択して圧縮するステップと、前記ステップにより選択さ
れた先頭サンプル値と予測残差と線形予測方法とを含む
圧縮データの所定時間前又は所定時間後のアクセスユニ
ットをサーチ再生するためのアクセスユニット・サーチ
情報を生成するステップと、前記アクセスユニット・サ
ーチ情報を含むプライベートヘッダと、前記アクセスユ
ニットを含む前期圧縮データと、を含むユーザデータを
有するオーディオパケットと、前記オーディオパケット
内のデータが前記圧縮方法により圧縮されていることを
示す第1の識別子と、前記オーディオパケットに格納さ
れているマルチチャネルデータをステレオ2チャネルに
ダウンミクスすることを許可するか又は禁止するかを示
す第2の識別子が配置された管理情報とを、有するデー
タ構造にフォーマット化するステップと、からなる音声
符号化方法。 2)請求項1記載の音声符号化方法によりフォーマット
化されたデータ構造のデータを復号する音声復号化方法
であって、前記データをオーディオパケットと管理情報
に分離するステップと、前記管理情報から第1の識別子
と第2の識別子を抽出するステップと、前記オーディオ
パケット内のユーザデータに含まれる圧縮データのアク
セスユニットを前記アクセスユニット・サーチポインタ
に基づいてサーチするステップと、前記抽出された第2
の識別子がダウンミクスすることを許可する場合に前記
サーチした圧縮データのアクセスユニットを前記抽出さ
れた第1の識別子に基づいて選択的に伸長するか又は伸
長しないで復号しマルチチャネルとステレオ2チャネル
の少なくともいずれかで取り出し、前記第2の識別子が
ダウンミクスすることを禁止する場合には前記サーチし
た圧縮データのアクセスユニットを前記第1の識別子に
基づいて選択的に伸長するか又は伸長しないで復号しマ
ルチチャネルのみで取り出すステップと、からなる音声
復号化方法。
In order to achieve the above object, the present invention comprises the following means 1) and 2). That is, 1) a multi-channel audio signal is obtained for each of the channels as they are or for each channel that is correlated with each other, in addition to obtaining the leading sample value in response to the input audio signal, and also for predicting the current signal predicted from past signals in the time domain. The step of selecting and compressing a linear prediction method that minimizes the prediction residual among a plurality of predicted values of the signal, and the leading sample value, the prediction residual and the linear prediction method selected in the step Generating access unit search information for searching and reproducing an access unit a predetermined time before or after a predetermined time of the compressed data including; a private header including the access unit search information; and a pre-compression including the access unit An audio packet having user data including data and a data in the audio packet. A first identifier indicating that the audio data has been compressed by the compression method, and a first identifier indicating whether to downmix the multi-channel data stored in the audio packet into two stereo channels. And a management information in which the identifier of 2 is arranged, is formatted into a data structure having the voice encoding method. 2) A voice decoding method for decoding data having a data structure formatted by the voice encoding method according to claim 1, wherein the data is separated into audio packets and management information; Extracting the first identifier and the second identifier, searching the access unit of the compressed data included in the user data in the audio packet based on the access unit search pointer, and the extracted second
Of the searched compressed data are selectively decompressed or decoded without decompression based on the extracted first identifier to permit down-mixing of multi-channel and stereo 2-channel. And prohibiting the second identifier from being downmixed by selectively expanding the access unit of the searched compressed data based on the first identifier, or not expanding the access unit of the searched compressed data. A voice decoding method comprising the steps of decoding and extracting only with multi-channel.

【0007】[0007]

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。図1〜図4は本発明が適用される
マルチチャネル伝送形態を実現する音声符号化装置の処
理を示す説明図である。
BEST MODE FOR CARRYING OUT THE INVENTION Embodiments of the present invention will be described below with reference to the drawings. 1 to 4 are explanatory views showing the processing of the speech coding apparatus which realizes the multi-channel transmission mode to which the present invention is applied.

【0008】ここで、マルチチャネル方式としては、例
えば次の4つの方式が知られている。 (1)4チャネル方式 ドルビーサラウンド方式のように、前方L、C、Rの3
チャネル+後方Sの1チャネルの合計4チャネル (2)5チャネル方式 ドルビーAC−3方式のSWチャネルなしのように、前
方L、C、Rの3チャネル+後方SL、SRの2チャネ
ルの合計5チャネル (3)6チャネル方式 DTS(Digital Theater System)方式や、ドルビーA
C−3方式のように6チャネル(L、C、R、SW(L
fe)、SL、SR) (4)8チャネル方式 SDDS(Sony Dynamic Digital Sound)方式のよう
に、前方L、LC、C、RC、R、SWの6チャネル+
後方SL、SRの2チャネルの合計8チャネル
Here, as the multi-channel system, for example, the following four systems are known. (1) Four-channel system As in the Dolby Surround system, there are three front L, C, and R
Channel + 1 channel of rear S, total 4 channels (2) 5 channel system 3 channels of front L, C, R + 2 channels of rear SL, SR, 5 channels like Dolby AC-3 system without SW channel Channel (3) 6-channel system DTS (Digital Theater System) system, Dolby A
6 channels (L, C, R, SW (L
(fe), SL, SR) (4) 8 channel system 6 channels of forward L, LC, C, RC, R, and SW like SDDS (Sony Dynamic Digital Sound) system +
Rear SL, SR 2 channels total 8 channels

【0009】図1は第1の例の伝送形態として、マルチ
チャネルを圧縮するとともに再生側のダウンミクスを禁
止する場合を示している。符号化側の6チャネル(ch)
ミクス&マトリクス回路1’は、マルチチャネル信号の
一例としてフロントレフト(Lf)、センタ(C)、フ
ロントライト(Rf)、サラウンドレフト(Ls)、サ
ラウンドライト(Rs)及びLfe(Low Frequency Ef
fect)の6chのPCMデータを次式(1−1)により6
ch「1」〜「6」分の相関信号に変換し、符号化部2’
に出力する。 「1」=Lf+Rf−C 「2」=Lf−Rf−C 「3」=C−(Ls+Rs)/2 「4」=Ls+Rs 「5」=Ls−Rs 「6」=Lfe−a×C ただし、0≦a≦1 …(1−1) このような6チャネル(ch)ミクス&マトリクス回路
1’による相関式と符号化部2’の符号化方式は選択手
段7’で選択される。以下説明する図2、図3、図4、
図5及び図6でも同様であるので、これらの図では選択
手段7’を略すことにする。
FIG. 1 shows, as a transmission form of the first example, a case where a multi-channel is compressed and a downmix on the reproducing side is prohibited. 6 channels on the encoding side (ch)
The mix & matrix circuit 1'includes front left (Lf), center (C), front right (Rf), surround left (Ls), surround right (Rs), and Lfe (Low Frequency Ef) as an example of a multi-channel signal.
fect) 6ch PCM data by the following equation (1-1)
Converted into correlation signals for ch "1" to "6", and encoded section 2 '
Output to. “1” = Lf + Rf−C “2” = Lf−Rf−C “3” = C− (Ls + Rs) / 2 “4” = Ls + Rs “5” = Ls−Rs “6” = Lfe−a × C 0 ≦ a ≦ 1 (1-1) The selecting means 7 ′ selects the correlation equation by the 6-channel (ch) mix & matrix circuit 1 ′ and the encoding method of the encoding unit 2 ′. 2, 3, and 4 described below
Since the same applies to FIGS. 5 and 6, the selecting means 7'is omitted in these figures.

【0010】第1と第2の符号化部2’−1、2’−2
を有する符号化部2’は図7に詳しく示すようにこの6
ch「1」〜「6」のPCMデータを予測符号化し、予測
符号化データを図8に示すようなビットストリームで記
録媒体5や通信媒体6を介して復号側に伝送する。復号
側では第1と第2の復号化部3’−1、3’−2を有す
る復号化部3’により、図14に詳しく示すように6ch
「1」〜「6」の予測符号化データをPCMデータに復
号し、次いでミクス&マトリクス回路4’により式(1
−1)に基づいて元の6ch(Lf、C、Rf、Ls、R
s、Lfe)のみを復元する。
First and second encoding units 2'-1, 2'-2
The encoding unit 2'having
The PCM data of ch “1” to “6” is predictively encoded, and the predictive encoded data is transmitted to the decoding side via the recording medium 5 and the communication medium 6 in a bit stream as shown in FIG. On the decoding side, the decoding unit 3'having the first and second decoding units 3'-1 and 3'-2 causes 6ch as shown in detail in FIG.
The predictive coded data of “1” to “6” is decoded into PCM data, and then the mix & matrix circuit 4 ′ decodes the equation (1
-1) based on the original 6ch (Lf, C, Rf, Ls, R
s, Lfe) only.

【0011】図2は第2の例の伝送形態として、マルチ
チャネルを圧縮するとともに再生側のダウンミクスを許
可する場合を示している。符号化側の6chミクス&マト
リクス回路1’は、元の6ch(Lf、C、Rf、Ls、
Rs、Lfe)と係数mij(i=1,2,j=1,2〜
6)により次式(2)のようにステレオ2chデータ
(L、R)を生成(ダウンミクス)する。 L=m11・Lf+m12・Rf+m13・C +m14・Ls+m15・Rs+m16・Lfe R=m21・Lf+m22・Rf+m23・C +m24・Ls+m25・Rs+m26・Lfe …(2)
FIG. 2 shows, as a transmission form of the second example, a case where multi-channels are compressed and downmix on the reproducing side is permitted. The 6ch mix & matrix circuit 1'on the encoding side has the original 6ch (Lf, C, Rf, Ls,
Rs, Lfe) and coefficients mij (i = 1, 2, j = 1, 2 ...
According to 6), stereo 2ch data (L, R) is generated (downmix) as in the following equation (2). L = m11 ・ Lf + m12 ・ Rf + m13 ・ C + m14 ・ Ls + m15 ・ Rs + m16 ・ Lfe R = m21 ・ Lf + m22 ・ Rf + m23 ・ C + m24 ・ Ls + m25 ・ Rs + m26 ・ Lfe (2)

【0012】そして、式(2)と次式(1−2)により
次のような第1グループの2チャネル分の相関信号
「1」、「2」と第2グループの4チャネル分の相関信
号「3」〜「6」に変換し、それぞれ第1符号化部2’
−1、第2符号化部2’−2に出力する。 「1」=L+R 「2」=L−R 「3」〜「6」は式(1−1)と同じ …(1−2)
Then, according to the equation (2) and the following equation (1-2), the correlation signals “1” and “2” for the two channels of the first group and the correlation signals for the four channels of the second group are as follows. Converted to “3” to “6”, respectively, the first encoding unit 2 ′
-1, and outputs to the second encoding unit 2'-2. “1” = L + R “2” = L−R “3” to “6” are the same as in formula (1-1) (1-2)

【0013】第1、第2符号化部2’−1、2’−2は
それぞれ第1グループチャネル「1」、「2」と第2グ
ループチャネル「3」〜「6」のPCMデータを予測符
号化し、各チャネルの予測符号化データを記録媒体5や
通信媒体6を介して復号側に伝送する。復号側では第
1、第2復号化部3’−1、3’−2により、それぞれ
第1グループチャネル「1」、「2」と第2グループチ
ャネル「3」〜「6」の予測符号化データをPCMデー
タに復号し、次いでミクス&マトリクス回路4’により
式(1−2)、(2)に基づいて元の6ch(Lf、C、
Rf、Ls、Rs、Lfe)を復元するとともに、第1
グループチャネル「1」、「2」を加算、減算すること
によりそれぞれステレオ2chデータ(L、R)を生成す
る。
The first and second encoding units 2'-1, 2'-2 predict the PCM data of the first group channels "1", "2" and the second group channels "3"-"6", respectively. The data is encoded and the predictive encoded data of each channel is transmitted to the decoding side via the recording medium 5 and the communication medium 6. On the decoding side, the first and second decoding units 3′-1 and 3′-2 perform predictive coding of the first group channels “1” and “2” and the second group channels “3” to “6”, respectively. The data is decoded into PCM data, and then the original 6ch (Lf, C,
Rf, Ls, Rs, Lfe) is restored and the first
Stereo 2ch data (L, R) is generated by adding and subtracting the group channels "1" and "2", respectively.

【0014】図3は第3の例の伝送形態として、マルチ
チャネルを圧縮しないで伝送するとともに再生側のダウ
ンミクスを禁止する場合を示している。この場合には、
非圧縮であるので、符号化側では相関信号も生成するこ
となく元の6ch(Lf、C、Rf、Ls、Rs、Lf
e)のPCMデータをそのまま伝送し(ただし、フォー
マット化する)、復号化側ではデフォーマット化した
後、元の6ch(Lf、C、Rf、Ls、Rs、Lfe)
のみを復元する。
FIG. 3 shows, as a transmission form of the third example, a case where the multi-channel is transmitted without being compressed and the downmix on the reproducing side is prohibited. In this case,
Since it is uncompressed, the encoding side does not generate a correlation signal either, and the original 6ch (Lf, C, Rf, Ls, Rs, Lf
e) PCM data is transmitted as it is (however, it is formatted), and after being reformatted on the decoding side, the original 6ch (Lf, C, Rf, Ls, Rs, Lfe)
Restore only.

【0015】図4は第4の例の伝送形態として、マルチ
チャネルを圧縮しないで伝送するとともに再生側のダウ
ンミクスを許可する場合を示している。この場合にも、
非圧縮であるので、符号化側では圧縮率を高めるための
相関信号も生成することなく元の6ch(Lf、C、R
f、Ls、Rs、Lfe)のPCMデータをそのまま伝
送する(ただし、フォーマット化する)。復号化側では
デフォーマット化した後、元の6ch(Lf、C、Rf、
Ls、Rs、Lfe)を復元するとともに、式(2)に
よりステレオ2chデータ(L、R)を生成(ダウンミク
ス)する。
FIG. 4 shows, as a transmission form of the fourth example, a case where the multi-channel is transmitted without being compressed and the downmix on the reproducing side is permitted. Also in this case,
Since it is uncompressed, the encoding side does not generate a correlation signal for increasing the compression rate, and the original 6ch (Lf, C, R
The PCM data of f, Ls, Rs, Lfe) is transmitted as it is (however, it is formatted). After being reformatted on the decoding side, the original 6ch (Lf, C, Rf,
Ls, Rs, Lfe) is restored, and stereo 2ch data (L, R) is generated (downmixed) by the equation (2).

【0016】図5は図1においてマルチチャネルを圧縮
するとともに再生側のダウンミクスを禁止する場合の変
形例を示している。この場合には、符号化側では次式
(1−3)により6ch(1)〜(6)分の相関信号に変
換し、符号化部2’はこれを予測符号化する。そして、
復号化側では式(1−2)により元の6ch(Lf、C、
Rf、Ls、Rs、Lfe)のみを復元する。 「1」=Lf−C 「2」=Rf−C 「3」〜「6」は式(1−1)と同じ …(1−3) このように再生側のダウンミクスを禁止する場合は、こ
れに対応して式(2)のダウンミクス係数を符号化に加
えないとともに、符号化側で式(2)によりステレオ2
chデータ(L、R)を生成(ダウンミクス)すること
が禁じられる。
FIG. 5 shows a modified example in which the multi-channel is compressed and the downmix on the reproducing side is prohibited in FIG. In this case, the encoding side converts the correlation signals of 6ch (1) to (6) by the following equation (1-3), and the encoding unit 2 ′ predictively encodes this. And
On the decoding side, the original 6ch (Lf, C,
Only Rf, Ls, Rs, Lfe) are restored. “1” = Lf−C “2” = Rf−C “3” to “6” are the same as in Expression (1-1) (1-3) In this way, when the downmix on the reproduction side is prohibited, Correspondingly, the downmix coefficient of the equation (2) is not added to the encoding, and the stereo side is calculated by the equation (2) on the encoding side.
It is prohibited to generate (downmix) ch data (L, R).

【0017】図6は図2においてマルチチャネルを圧縮
するとともに再生側のダウンミクスを許可する場合の変
形例を示している。この場合には、符号化側では式
(2)によりステレオ2chデータ(L、R)を生成(ダ
ウンミクス)し、次いで次式(1−4)により次のよう
な第1グループの2チャネル「1」、「2」と第2グル
ープの4チャネル分の相関信号「3」〜「6」に変換
し、第1、第2符号化部2’−1、2’−2はこの各グ
ループチャネルを予測符号化する。そして、復号化側で
は式(1−4)、(2)により元の6ch(Lf、C、R
f、Ls、Rs、Lfe)を復元するとともにステレオ
2chデータ(L、R)をそのまま出力する。 「1」=L 「2」=R 「3」〜「6」は式(1−1)と同じ …(1−4)
FIG. 6 shows a modified example in which the multi-channel is compressed and the downmix on the reproducing side is permitted in FIG. In this case, on the encoding side, stereo 2ch data (L, R) is generated (downmixed) by the equation (2), and then the following two channels of the first group “channel 1” are obtained by the following equation (1-4). 1 ”,“ 2 ”and the correlation signals“ 3 ”to“ 6 ”for four channels of the second group, and the first and second encoding units 2′-1, 2′-2 are used for each group channel. Is predictively coded. Then, on the decoding side, the original 6ch (Lf, C, R is calculated by the equations (1-4) and (2).
f, Ls, Rs, Lfe) is restored and stereo 2ch data (L, R) is output as it is. “1” = L “2” = R “3” to “6” are the same as in formula (1-1) ... (1-4)

【0018】図7を参照して符号化部2’−1、2’−
2について詳しく説明する。各ch「1」〜「6」のPC
Mデータは1フレーム毎に1フレームバッファ10に格
納される。そして、1フレームの各ch「1」〜「6」の
サンプルデータがそれぞれ予測回路13D1、13D
2、15D1〜15D4に印加されるとともに、各ch
「1」〜「6」の各フレームの先頭サンプルデータがフ
ォーマット化回路19に印加される。予測回路13D
1、13D2、15D1〜15D4はそれぞれ、各ch
「1」〜「6」のPCMデータに対して、特性が異なる
複数の予測器(不図示)により時間領域における過去の
信号から現在の信号の複数の線形予測値を算出し、次い
で原PCMデータと、この複数の線形予測値から予測器
毎の予測残差を算出する。続くバッファ・選択器14D
1、14D2、16D1〜16D4はそれぞれ、予測回
路13D1、13D2、15D1〜15D4により算出
された各予測残差を一時記憶して、選択信号/DTS
(デコーディング・タイム・スタンプ)生成器17によ
り指定されたサブフレーム毎に予測残差の最小値を選択
する。
Referring to FIG. 7, coding units 2'-1, 2'-
2 will be described in detail. PC of each channel "1" to "6"
The M data is stored in the frame buffer 10 for each frame. Then, the sample data of each channel “1” to “6” of one frame is input to the prediction circuits 13D1 and 13D, respectively.
2, 15D1 to 15D4 applied to each channel
The leading sample data of each frame of “1” to “6” is applied to the formatting circuit 19. Prediction circuit 13D
1, 13D2, 15D1 to 15D4 are each channel
For the PCM data of "1" to "6", a plurality of predictors (not shown) having different characteristics are used to calculate a plurality of linear prediction values of the current signal from the past signal in the time domain, and then the original PCM data. Then, a prediction residual for each predictor is calculated from the plurality of linear prediction values. Continued buffer / selector 14D
1, 14D2, 16D1 to 16D4 temporarily store the prediction residuals calculated by the prediction circuits 13D1, 13D2, and 15D1 to 15D4, respectively, and select signal / DTS.
(Decoding Time Stamp) The minimum value of the prediction residual is selected for each subframe designated by the generator 17.

【0019】選択信号/DTS生成器17は予測残差の
ビット数フラグをパッキング回路18とフォーマット化
回路19に対して印加し、また、予測残差が最小の予測
器を示す予測器選択フラグと、相関係数aと、復号化側
が入力バッファ22a(図14)からストリームデータ
を取り出す時間を示すDTSをフォーマット化回路19
に対して印加する。パッキング回路18はバッファ・選
択器14D1、14D2、16D1〜16D4により選
択された6ch分の予測残差を、選択信号/DTS生成器
17により指定されたビット数フラグに基づいて指定ビ
ット数でパッキングする。またPTS生成器17cは、
復号化側が出力バッファ110(図14)からPCMデ
ータを取り出す時間を示すPTS(プレゼンテーション
・タイム・スタンプ)を生成してフォーマット化回路1
9に出力する。フォーマット化回路19にはまた、圧縮
/非圧縮などを示す符号化モードと、ダウンミクス許可
/禁止を示す識別子が印加される。
The selection signal / DTS generator 17 applies a bit number flag of the prediction residual to the packing circuit 18 and the formatting circuit 19, and a predictor selection flag indicating a predictor with the minimum prediction residual. , The correlation coefficient a and the DTS indicating the time at which the decoding side fetches the stream data from the input buffer 22a (FIG. 14).
Applied to. The packing circuit 18 packs the prediction residuals of 6 channels selected by the buffer / selectors 14D1, 14D2, 16D1 to 16D4 in the designated bit number based on the bit number flag designated by the selection signal / DTS generator 17. . Also, the PTS generator 17c
Formatting circuit 1 generates PTS (Presentation Time Stamp) indicating the time at which the decoding side takes PCM data from output buffer 110 (FIG. 14).
Output to 9. A coding mode indicating compression / non-compression and an identifier indicating downmix permission / prohibition are also applied to the formatting circuit 19.

【0020】続くフォーマット化回路19は図8〜図1
3に示すようなユーザデータにフォーマット化する。図
8に示すユーザデータ(サブパケット)は、前方グルー
プに関する2ch「1」、「2」の予測符号化データを含
む可変レートビットストリーム(サブストリーム)BS
0と、他のグループに関する4ch「3」〜「6」の予測
符号化データを含む可変レートビットストリーム(サブ
ストリーム)BS1と、サブストリームBS0、BS1
の前に設けられたビットストリームヘッダ(リスタート
ヘッダ)により構成されている。
The following formatting circuit 19 is shown in FIGS.
Format user data as shown in FIG. The user data (sub-packet) shown in FIG. 8 is a variable rate bit stream (sub-stream) BS including predictive coded data of 2ch “1” and “2” for the front group.
0, a variable rate bitstream (substream) BS1 including predictive encoded data of 4ch “3” to “6” related to other groups, and substreams BS0 and BS1.
It is composed of a bitstream header (restart header) provided in front of.

【0021】また、サブストリームBS0、BS1の1
フレーム分は ・フレームヘッダと、 ・各ch「1」〜「6」の1フレームの先頭サンプルデー
タと、 ・各ch「1」〜「6」のサブフレーム毎の予測器選択フ
ラグと、 ・各ch「1」〜「6」のサブフレーム毎のビット数フラ
グと、 ・各ch「1」〜「6」の予測残差データ列(可変ビット
数)と、 ・ch「6」の係数aとが、 多重化されている。このような予測符号化によれば、原
信号が例えばサンプリング周波数=96kHz、量子化
ビット数=24ビット、6チャネルの場合、71%の圧
縮率を実現することができる。
Further, 1 of substreams BS0 and BS1
For each frame, a frame header, head sample data of one frame of each ch "1" to "6", a predictor selection flag for each subframe of each ch "1" to "6", each A bit number flag for each subframe of ch “1” to “6”, a prediction residual data string (variable bit number) of each ch “1” to “6”, and a coefficient a of ch “6” However, it is multiplexed. According to such predictive coding, when the original signal has, for example, a sampling frequency of 96 kHz, a quantization bit number of 24 bits, and 6 channels, a compression rate of 71% can be realized.

【0022】図7に示す符号化部2’−1、2’−2に
より予測符号化された可変レートビットストリームデー
タを、記録媒体の一例としてDVDオーディオディスク
に記録する場合には、図9に示すオーディオ(A)パッ
クにパッキングされる。このパックは2034バイトの
ユーザデータ(Aパケット、Vパケット)に対して4バ
イトのパックスタート情報と、6バイトのSCR(Syst
em Clock Reference:システム時刻基準参照値)情報
と、3バイトのMux レート(rate)情報と1バイトのス
タッフィングの合計14バイトのパックヘッダが付加さ
れて構成されている(1パック=合計2048バイ
ト)。この場合、タイムスタンプであるSCR情報を、
先頭パックでは「1」として同一タイトル内で連続とす
ることにより同一タイトル内のAパックの時間を管理す
ることができる。
When variable rate bit stream data predictively coded by the coding units 2'-1 and 2'-2 shown in FIG. 7 is recorded on a DVD audio disc as an example of a recording medium, FIG. The audio (A) pack shown is packed. This pack includes pack start information of 4 bytes for user data (A packet and V packet) of 2034 bytes, and SCR (Syst of 6 bytes).
em Clock Reference: System time reference reference value information, 3-byte Mux rate information, and 1-byte stuffing, a total of 14-byte pack header is added (1 pack = 2048 bytes in total). . In this case, the SCR information, which is the time stamp,
In the first pack, "1" is set to be consecutive within the same title, so that the time of the A pack in the same title can be managed.

【0023】圧縮PCMのAパケットは図10に詳しく
示すように、19又は14バイトのパケットヘッダと、
圧縮PCMのプライベートヘッダと、図11に示すフォ
ーマットの1ないし2011バイトのオーディオデータ
(圧縮PCM)により構成されている。そして、DTS
とPTSは図5のパケットヘッダ内に(具体的にはパケ
ットヘッダの10〜14バイト目にPTSが、15〜1
9バイト目にDTSが)セットされる。圧縮PCMのプ
ライベートヘッダは、 ・1バイトのサブストリームIDと、 ・2バイトのUPC/EAN−ISRC(Universal Pr
oduct Code/European Article Number-International S
tandard Recording Code)番号、及びUPC/EAN−
ISRCデータと、 ・1バイトのプライベートヘッダ長と、 ・2バイトの第1アクセスユニットポインタと、 ・8バイトのオーディオデータ情報(ADI)と、 ・0〜7バイトのスタッフィングバイトとに、 より構成されている。
A packet of compressed PCM has a packet header of 19 or 14 bytes, as shown in detail in FIG.
It is composed of a private header of compressed PCM and 1 to 2011 bytes of audio data (compressed PCM) in the format shown in FIG. And DTS
And PTS in the packet header of FIG. 5 (specifically, PTS is 15 to 1 at the 10th to 14th bytes of the packet header).
DTS is set at the 9th byte. The private header of the compressed PCM includes: 1-byte substream ID, 2-byte UPC / EAN-ISRC (Universal Pr
oduct Code / European Article Number-International S
tandard Recording Code) number and UPC / EAN-
ISRC data, 1 byte private header length, 2 bytes first access unit pointer, 8 bytes audio data information (ADI), 0 to 7 stuffing bytes ing.

【0024】また、ADI内に1秒後のアクセスユニッ
トをサーチするための前方アクセスユニット・サーチポ
インタと、1秒前のアクセスユニットをサーチするため
の後方アクセスユニット・サーチポインタがともに1バ
イトでセットされる。具体的にはADIの7バイト目に
前方アクセスユニット・サーチポインタが、8バイト目
に後方アクセスユニット・サーチポインタがセットされ
る。
Further, the front access unit search pointer for searching the access unit one second later and the rear access unit search pointer for searching the access unit one second before are both set in the ADI in 1 byte. To be done. Specifically, the forward access unit search pointer is set at the 7th byte of the ADI and the backward access unit search pointer is set at the 8th byte.

【0025】図10に示す圧縮PCM(PPCMともい
う)のオーディオパケットにおけるオーディオデータエ
リアは、図11に示すようにサブパケットと複数のPP
CMアクセスユニットにより構成され、PPCMアクセ
スユニットはPPCMシンク情報とサブパケットにより
構成されている。最初のPPCMアクセスユニット内の
サブパケットは、ディレクトリと、サブストリーム
「0」と、CRCと、サブストリーム「1」と、CRC
とエクストラ情報により構成され、サブストリーム
「0」、「1」はPPCMブロックのみにより構成され
ている。2番目以降のPPCMアクセスユニット内のサ
ブパケットは、ディレクトリを除いてサブストリーム
「0」と、CRCと、サブストリーム「1」と、CRC
とエクストラ情報により構成され、サブストリーム
「0」、「1」はリスタートヘッダとPPCMブロック
により構成されている。
The audio data area in the audio packet of the compressed PCM (also called PPCM) shown in FIG. 10 has a sub-packet and a plurality of PPs as shown in FIG.
It is composed of a CM access unit, and the PPCM access unit is composed of PPCM sync information and subpackets. The subpacket in the first PPCM access unit includes a directory, a substream "0", a CRC, a substream "1", and a CRC.
And the extra information, and the substreams "0" and "1" are composed only of PPCM blocks. Sub-packets in the second and subsequent PPCM access units are sub-stream “0”, CRC, sub-stream “1”, CRC except the directory.
And the extra information, and the substreams "0" and "1" are composed of a restart header and a PPCM block.

【0026】PPCMシンク情報(以下、同期情報とも
いう)は次の情報を含む。 ・1パケット当たりのサンプル数:サンプリング周波数
fsに応じて40、80又は160が選択される。 ・データレート:VBRの場合には「0」(サブパケッ
ト内のデータが圧縮データであることを示す識別子) ・サンプリング周波数fs及び量子化ビット数Qb ・チャネル割り当て情報
The PPCM sync information (hereinafter also referred to as synchronization information) includes the following information. Number of samples per packet: 40, 80 or 160 is selected according to the sampling frequency fs. -Data rate: "0" in the case of VBR (identifier indicating that the data in the subpacket is compressed data) -Sampling frequency fs and quantization bit number Qb-Channel allocation information

【0027】フォーマット化回路19はまた、図8〜図
11に示すオーディオパックを管理するために図12、
図13に示すような管理情報を含むATSI(オーディ
オ・タイトル・セット・インフォーメーション)をフォ
ーマット化する。図12はAOTT−AOB−ATR
(オーディオオンリタイトル・オーディオオブジェクト
セット・アトリビュート)を示し、このAOTT−AO
B−ATR(b127〜b0)は、MSB側から順に ・8ビット(b127〜b120)のオーディオ符号化
モードと、 ・8ビット(b119〜b112)の保留領域と、 ・4ビット(b111〜b108)のチャネルグループ
「1」の量子化ビット数Q1と、 ・4ビット(b107〜b104)のチャネルグループ
「2」の量子化ビット数Q2と、 ・4ビット(b103〜b100)のチャネルグループ
「1」のサンプリング周波数fs1と、 ・4ビット(b99〜b96)のチャネルグループ
「2」のサンプリング周波数fs2と、 ・3ビット(b95〜b93)のマルチチャネル構造の
タイプと、 ・5ビット(b92〜b88)のチャネル割り当てと、 ・8ビット×11(b87〜b0)の保留領域により構
成されている。
The formatting circuit 19 is also shown in FIG. 12 for managing the audio packs shown in FIGS.
ATSI (Audio Title Set Information) including management information as shown in FIG. 13 is formatted. Figure 12 shows AOTT-AOB-ATR
(Audio-only title, audio object set, attribute)
The B-ATR (b127 to b0) is, in order from the MSB side, an 8-bit (b127 to b120) audio encoding mode, an 8-bit (b119 to b112) reserved area, and a 4-bit (b111 to b108). The number of quantization bits Q1 of the channel group "1" of 4 channels, the number of quantization bits Q2 of the channel group "2" of 4 bits (b107 to b104), and the channel group "1" of 4 bits (b103 to b100) Sampling frequency fs1 of 4 bits (b99 to b96) of channel group “2” sampling frequency fs2 of 3 bits (b95 to b93) of multi-channel structure type and 5 bits of (b92 to b88) The channel allocation is as follows: 8 bits × 11 (b87 to b0) reserved area.

【0028】上記データを以下に詳しく示す。 (1)オーディオ符号化モード(b127〜b120) 00000000b:リニアPCMモード 00000001b:圧縮PCMモード その他 :その他の符号化モード用に保留The above data are detailed below. (1) Audio coding mode (b127 to b120) 00000000b: Linear PCM mode 00000001b: Compressed PCM mode Other: Reserved for other encoding modes

【0029】(2)チャネルグループ1の量子化ビット
数Q1(b111〜b108) 0000b:16ビット 0001b:20ビット 0010b:24ビット その他 :保留 (3)チャネルグループ2の量子化ビット数Q2(b1
07〜b104) ・チャネルグループ1の量子化ビット数Q1が「000
0b」の場合には「0000b」 ・チャネルグループ1の量子化ビット数Q1が「000
1b」の場合には「0000b」又は「0001b」 ・チャネルグループ1の量子化ビット数Q1が「001
0b」の場合には「0000b」、「0001b」又は
「0010b」 ただし、0000b:16ビット 0001b:20ビット 0010b:24ビット その他 :保留
(2) Number of quantized bits of channel group 1 Q1 (b111 to b108) 0000b: 16 bits 0001b: 20 bits 0010b: 24 bits Others: Reserved (3) Number of quantized bits of channel group 2 Q2 (b1
07-b104) -The number of quantization bits Q1 of channel group 1 is "000.
In the case of "0b", the number of quantization bits Q1 of channel group 1 is "000b".
1b ”is“ 0000b ”or“ 0001b ”. The number of quantization bits Q1 of channel group 1 is“ 001.
In the case of "0b", "0000b", "0001b" or "0010b" However, 0000b: 16 bits 0001b: 20 bits 0010b: 24 bits Others: Reserved

【0030】(4)チャネルグループ1のサンプリング
周波数fs1(b103〜b100) 0000b:48kHz 0001b:96kHz 0010b:192kHz 1000b:44.1kHz 1001b:88.2kHz 1010b:176.4kHz その他 :保留
(4) Sampling frequency fs1 of channel group 1 (b103 to b100) 0000b: 48 kHz 0001b: 96 kHz 0010b: 192 kHz 1000b: 44.1 kHz 1001b: 88.2 kHz 1010b: 176.4 kHz Others: Reserved

【0031】(5)チャネルグループ2のサンプリング
周波数fs2(b99〜b96) ・チャネルグループ1のサンプリング周波数fs1が
「0000b」の場合には「0000b」 ・チャネルグループ1のサンプリング周波数fs1が
「0001b」の場合には「0000b」又は「000
1b」 ・チャネルグループ1のサンプリング周波数fs1が
「0010b」の場合には「0000b」、「0001
b」又は「0010b」 ・チャネルグループ1のサンプリング周波数fs1が
「1000b」の場合には「1000b」 ・チャネルグループ1のサンプリング周波数fs1が
「1001b」の場合には「1000b」又は「100
1b」 ・チャネルグループ1のサンプリング周波数fs1が
「1010b」の場合には「1000b」、「1001
b」又は「1010b」
(5) Sampling frequency fs2 of channel group 2 (b99 to b96)-"0000b" when sampling frequency fs1 of channel group 1 is "0000b" -Sampling frequency fs1 of channel group 1 is "0001b" In the case, "0000b" or "000
1b "-" 0000b "," 0001 "when the sampling frequency fs1 of the channel group 1 is" 0010b "
b "or" 0010b "-" 1000b "when the sampling frequency fs1 of the channel group 1 is" 1000b "-" 1000b "or" 100 "when the sampling frequency fs1 of the channel group 1 is" 1001b "
1b "-" 1000b "," 1001 "when the sampling frequency fs1 of the channel group 1 is" 1010b "
b ”or“ 1010b ”

【0032】(6)マルチチャネル構造のタイプ(b9
5〜b93) 000b:タイプ1 その他 :保留 (7)チャネル割り当て(b92〜b88) 1チャネル(モノラル)から6チャネルまでのグループ
「1」、「2」のチャネル割り当て情報
(6) Type of multi-channel structure (b9
5 to b93) 000b: Type 1 other: Reserved (7) Channel assignment (b92 to b88) Channel assignment information for groups "1" and "2" from 1 channel (monaural) to 6 channels

【0033】図13はATS−PG−CNT(オーディ
オタイトルセット・プログラム・コンテンツ)を示し、
これは先頭から順に ・1ビット(b31)の、前回と今回のPGの関係(R
/A)と、 ・1ビット(b30)のSTC不連続性フラグ(STC
−F)と、 ・3ビット(b29〜b27)のアトリビュート数(A
TRN)と、 ・3ビット(b26〜b24)のチャネルグループ(C
hGr)「2」のビットシフトデータと、 ・2ビット(b23、b22)の保留領域と、 ・1ビット(b21)のダウンミックスモード(D−
M)と、 ・1ビット(b20)のダウンミックス係数の有効性
(図示※)と、 ・4ビット(b19〜b16)のダウンミックス係数テ
ーブル番号(DM−COEFTN)と、 ・各々が1ビット、合計16ビット(b15〜b0)の
RTIフラグF15〜F0により構成されている。そし
て、ビット(b21)のダウンミクスモード(D−M)
が「1」の場合に「ダウンミクス禁止」、「0」の場合
に「ダウンミクス許可」を表す。
FIG. 13 shows ATS-PG-CNT (audio title set program contents),
This is, in order from the beginning: 1-bit (b31) relationship between the previous and current PG (R
/ A), 1-bit (b30) STC discontinuity flag (STC)
-F), and the number of attributes of 3 bits (b29 to b27) (A
TRN), and a 3-bit (b26 to b24) channel group (C
hGr) "2" bit shift data, 2-bit (b23, b22) reserved area, 1-bit (b21) downmix mode (D-
M), 1-bit (b20) downmix coefficient validity (illustration *), 4-bit (b19 to b16) downmix coefficient table number (DM-COEFTN), 1-bit each, The RTI flags F15 to F0 each have a total of 16 bits (b15 to b0). Then, the downmix mode (DM) of the bit (b21)
"1" indicates "prohibit downmix", and "0" indicates "permit downmix".

【0034】次に図14を参照して復号化部3’(3’
−1、3’−2)について説明する。なお、この復号化
部3’(3’−1、3’−2)とミクス&マトリクス回
路4’は、ハードウエアの他にコンピュータプログラム
よっても実現することができる。上記フォーマットの可
変レートビットストリームデータBS0、BS1は、デ
フォーマット化回路21により分離される。そして、各
ch「1」〜「6」の1フレームの先頭サンプルデータ
と予測器選択フラグはそれぞれ予測回路24D1、24
D2、23D1〜23D4に印加され、各ch「1」〜
「6」のビット数フラグはアンパッキング回路22に印
加される。また、SCRと、DTSと予測残差データ列
は入力バッファ22aに印加され、PTSは出力バッフ
ァ110に印加される。また、圧縮/非圧縮などを示す
符号化モードと、ダウンミクス許可/禁止を示す識別子
は制御部100に印加され、サンプリング周波数fs及
び量子化ビット数QbはD/A変換器102に印加され
る。ここで、予測回路24D1、24D2、23D1〜
23D4内の複数の予測器(不図示)はそれぞれ、符号
化側の予測回路13D1、13D2、15D1〜15D
4内の複数の予測器と同一の特性であり、予測器選択フ
ラグにより同一特性のものが選択される。
Next, referring to FIG. 14, the decoding unit 3 '(3'
-1, 3'-2) will be described. The decoding unit 3 '(3'-1, 3'-2) and the mix & matrix circuit 4'can be realized not only by hardware but also by a computer program. The variable rate bit stream data BS0 and BS1 in the above format are separated by the deformatting circuit 21. Then, the head sample data of one frame of each of the channels “1” to “6” and the predictor selection flag are the prediction circuits 24D1 and 24D, respectively.
D2, 23D1 to 23D4 are applied to each channel “1” to
The bit number flag of “6” is applied to the unpacking circuit 22. The SCR, DTS, and prediction residual data string are applied to the input buffer 22 a, and PTS is applied to the output buffer 110. The coding mode indicating compression / non-compression and the identifier indicating downmix permission / prohibition are applied to the control unit 100, and the sampling frequency fs and the quantization bit number Qb are applied to the D / A converter 102. . Here, the prediction circuits 24D1, 24D2, and 23D1
The plurality of predictors (not shown) in 23D4 are respectively prediction circuits 13D1, 13D2, 15D1 to 15D on the encoding side.
4 have the same characteristics as those of the plurality of predictors, and those having the same characteristics are selected by the predictor selection flag.

【0035】デフォーマット化回路21により分離され
たストリームデータ(予測残差データ列)は、図15に
示すようにSCRによりアクセスユニット毎に入力バッ
ファ22aに取り込まれて蓄積される。ここで、1つの
アクセスユニットのデータ量は、例えばfs=96kH
zの場合には(1/96kHz)秒分であるが、図1
6、図17(a)に詳しく示すように可変長である。そ
して、入力バッファ22aに蓄積されたストリームデー
タはDTSに基づいてFIFOで読み出されてアンパッ
キング回路22に印加される。
The stream data (prediction residual data string) separated by the reformatting circuit 21 is fetched and stored in the input buffer 22a for each access unit by SCR as shown in FIG. Here, the data amount of one access unit is, for example, fs = 96 kH
In the case of z, it is (1/96 kHz) seconds,
6 and has a variable length as shown in detail in FIG. Then, the stream data accumulated in the input buffer 22 a is read by the FIFO based on the DTS and applied to the unpacking circuit 22.

【0036】アンパッキング回路22は各ch「1」〜
「6」の予測残差データ列をビット数フラグ毎に基づい
て分離してそれぞれ予測回路24D1、24D2、23
D1〜23D4に出力する。予測回路24D1、24D
2、23D1〜23D4ではそれぞれ、アンパッキング
回路22からの各ch「1」〜「6」の今回の予測残差
データと、内部の複数の予測器の内、予測器選択フラグ
により選択された各1つにより予測された前回の予測値
が加算されて今回の予測値が算出され、次いで1フレー
ムの先頭サンプルデータを基準として各サンプルのPC
Mデータが算出されて出力バッファ110に蓄積され
る。出力バッファ110に蓄積されたPCMデータはP
TSに基づいて読み出されて出力され、したがって、図
17(a)に示す可変長のアクセスユニットが伸長され
て、図17(b)に示す一定長のプレゼンテーションユ
ニットが出力される。
The unpacking circuit 22 has channels "1" to
The prediction residual data string of "6" is separated based on each bit number flag, and the prediction circuits 24D1, 24D2, and 23 are respectively separated.
Output to D1 to D4. Prediction circuits 24D1 and 24D
2, 23D1 to 23D4, the current prediction residual data of each channel “1” to “6” from the unpacking circuit 22 and each of the plurality of internal predictors selected by the predictor selection flag. The previous predicted value predicted by one is added to calculate the current predicted value, and then the PC of each sample is based on the first sample data of one frame as a reference.
M data is calculated and stored in the output buffer 110. The PCM data stored in the output buffer 110 is P
The TS is read and output based on the TS, and thus the variable-length access unit shown in FIG. 17A is expanded and the constant-length presentation unit shown in FIG. 17B is output.

【0037】また、PPCMシンク情報内のサンプリン
グ周波数fs及び量子化ビット数Qbに基づいて、PC
MデータがD/A変換器102によりアナログ信号に変
換される。ここで、操作部101を介してサーチ再生が
指示された場合には、制御部100により図5に示す前
方アクセスユニット・サーチポインタ(1秒先)と後方
アクセスユニット・サーチポインタ(1秒前)に基づい
てアクセスユニットを再生する。このサーチポインタと
しては、1秒先、1秒前の代わりに2秒先、2秒前のも
のでよい。
Further, based on the sampling frequency fs and the quantization bit number Qb in the PPCM sync information, the PC
The M data is converted into an analog signal by the D / A converter 102. Here, when the search reproduction is instructed through the operation unit 101, the control unit 100 causes the front access unit search pointer (1 second ahead) and the rear access unit search pointer (1 second before) shown in FIG. Play the access unit based on. The search pointer may be two seconds ahead or two seconds ahead instead of one second ahead or one second ahead.

【0038】符号化部2’(2’−1、2’−2)によ
り予測符号化された可変レートビットストリームデータ
をネットワークを介して伝送する場合には、符号化側で
は図18に示すように伝送用にパケット化し(ステップ
S41)、次いでパケットヘッダを付与し(ステップS
42)、次いでこのパケットをネットワーク上に送り出
す(ステップS43)。
When variable rate bit stream data predictively coded by the coding unit 2 '(2'-1, 2'-2) is transmitted through the network, the coding side is as shown in FIG. Packetize for transmission (step S41), and then add a packet header (step S41).
42) and then sends this packet out over the network (step S43).

【0039】復号側では図19(A)に示すようにヘッ
ダを除去し(ステップS51)、次いでデータを復元し
(ステップS52)、次いでこのデータをメモリに格納
して復号を待つ(ステップS53)。そして、復号を行
う場合には図19(B)に示すように、デフォーマット
化を行い(ステップS61)、次いで入力バッファ22
aの入出力制御を行い(ステップS62)、次いでアン
パッキングを行う(ステップS63)。なお、このと
き、サーチ再生指示がある場合にはサーチポインタをデ
コードする。次いで予測器をフラグに基づいて選択して
デコードを行い(ステップS64)、次いで出力バッフ
ァ110の入出力制御を行い(ステップS65)、次い
で元のマルチチャネルを復元し(ステップS66)、次
いでこれを出力し(ステップS67)、以下、これを繰
り返す。
On the decoding side, as shown in FIG. 19A, the header is removed (step S51), the data is restored (step S52), this data is then stored in the memory and awaiting decoding (step S53). . Then, in the case of decoding, as shown in FIG. 19B, reformatting is performed (step S61), and then the input buffer 22
Input / output control of a is performed (step S62), and then unpacking is performed (step S63). At this time, if there is a search reproduction instruction, the search pointer is decoded. Next, a predictor is selected based on the flag to perform decoding (step S64), then input / output control of the output buffer 110 is performed (step S65), then the original multi-channel is restored (step S66), and then this is restored. It is output (step S67), and this is repeated thereafter.

【0040】次に図20、図21を参照して別の例につ
いて説明する。上述の例では、1グループの相関性の信
号「1」〜「6」を予測符号化するように構成されてい
るが、この例では複数グループの相関性のある信号を生
成して予測符号化し、圧縮率が最も高いグループの予測
符号化データを選択するように構成されている。このた
め図20に示す符号化部では、第1〜第nの相関回路1
−1〜1−nが設けられ、このn個の相関回路1−1〜
1−nは例えば6ch(Lf、C、Rf、Ls、Rs、L
fe)のPCMデータを、相関性が異なるn種類の6ch
信号「1」〜「6」に変換する。
Next, another example will be described with reference to FIGS. In the above-mentioned example, one group of correlated signals "1" to "6" is configured to be predictively encoded, but in this example, a plurality of groups of correlated signals are generated and predictively encoded. , The prediction coded data of the group having the highest compression rate is selected. Therefore, in the encoding unit shown in FIG. 20, the first to nth correlation circuits 1
-1 to 1-n are provided, and the n correlation circuits 1-1 to 1-1 are provided.
1-n is, for example, 6ch (Lf, C, Rf, Ls, Rs, L
fe) PCM data, n types of 6ch with different correlation
It is converted into signals "1" to "6".

【0041】例えば第1の相関回路1−1は以下のよう
に変換し、 (1)=Lf (2)=C−(Ls+Rs)/2 (3)=Rf−Lf (4)=Ls−a×Lfe (5)=Rs−b×Rf (6)=Lfe また、第nの相関回路1−nは以下のように変換する。 (1)=Lf+Rf (2)=C−Lf (3)=Rf−Lf (4)=Ls−Lf (5)=Rs−Lf (6)=Lfe−C
For example, the first correlation circuit 1-1 performs conversion as follows, (1) = Lf (2) = C- (Ls + Rs) / 2 (3) = Rf-Lf (4) = Ls-a × Lfe (5) = Rs−b × Rf (6) = Lfe Further, the nth correlation circuit 1-n performs conversion as follows. (1) = Lf + Rf (2) = C−Lf (3) = Rf−Lf (4) = Ls−Lf (5) = Rs−Lf (6) = Lfe−C

【0042】また、相関回路1−1〜1−n毎に予測回
路15とバッファ・選択器16が設けられ、グループ毎
の予測残差の最小値のデータ量に基づいて圧縮率が最も
高いグループが相関選択信号生成器17bにより選択さ
れる。このとき、フォーマット化回路19はその選択フ
ラグ(相関回路選択フラグ、その相関回路の相関係数
a、b)を追加して多重化する。
A prediction circuit 15 and a buffer / selector 16 are provided for each of the correlation circuits 1-1 to 1-n, and the group having the highest compression ratio is based on the data amount of the minimum value of the prediction residual for each group. Are selected by the correlation selection signal generator 17b. At this time, the formatting circuit 19 adds the selection flag (correlation circuit selection flag, correlation coefficients a and b of the correlation circuit) and multiplexes them.

【0043】また、図21に示す復号化側では、符号化
側の相関回路1−1〜1−nに対してn個の相関回路4
−1〜4−n(又は係数a、bが変更可能な1つの相関
回路4)が設けられる。なお、図20に示すnグループ
の予測回路が同一の構成である場合、復号装置では図2
1に示すようにnグループ分の予測回路を設ける必要は
なく、1つのグループ分の予測回路でよい。そして、符
号化装置から伝送された選択フラグに基づいて相関回路
4−1〜4−nの1つを選択、又は係数a、bを設定し
て元の6ch(Lf、C、Rf、Ls、Rs、Lfe)を
復元し、また、式(2)によりマルチチャネルをダウン
ミクスしてステレオ2chデータ(L、R)を生成する。
Further, on the decoding side shown in FIG. 21, n correlation circuits 4 are provided for the correlation circuits 1-1 to 1-n on the encoding side.
-1 to 4-n (or one correlation circuit 4 whose coefficients a and b can be changed) are provided. Note that if the n groups of prediction circuits shown in FIG. 20 have the same configuration, the decoding apparatus shown in FIG.
As shown in FIG. 1, it is not necessary to provide n groups of prediction circuits, and one group of prediction circuits may be used. Then, one of the correlation circuits 4-1 to 4-n is selected based on the selection flag transmitted from the encoding device, or the coefficients a and b are set and the original 6ch (Lf, C, Rf, Ls, Rs, Lfe) is restored, and the multi-channel is downmixed by the equation (2) to generate stereo 2ch data (L, R).

【0044】また、先の第1の例では、1種類の相関性
の信号「1」〜「6」を予測符号化するように構成され
ているが、この信号「1」〜「6」のグループと原信号
(Lf、C、Rf、Ls、Rs、Lfe)のグループを
予測符号化し、圧縮率が高い方のグループを選択するよ
うにしてもよい。本発明によれば、特許請求の範囲に記
載した発明の他に、次のような発明が提供される。マル
チチャネルの音声信号が圧縮されたデータ又は圧縮され
ないデータを選択的にオーディオパケットに配置するフ
ォーマット化手段と、前記オーディオパケット内のマル
チチャネルデータが圧縮されているか否か、あるいは、
前記オーディオパケット内のマルチチャネルデータをス
テレオ2チャネルにダウンミクスすることを許可するか
又は禁止するかによってあらかじめダウンミクスして符
号化するか否か、あるいはダウンミクス係数を符号化す
るか否かを選択する手段とを、有する音声符号化装置。
In the first example, the signals "1" to "6" having one type of correlation are configured to be predictively encoded. However, the signals "1" to "6" are correlated with each other. The group and the group of the original signals (Lf, C, Rf, Ls, Rs, Lfe) may be predictively coded and the group having the higher compression rate may be selected. According to the present invention, the following inventions are provided in addition to the inventions described in the claims. Formatting means for selectively arranging compressed or uncompressed data of a multi-channel audio signal in an audio packet, and whether or not the multi-channel data in the audio packet is compressed, or
Whether down-mixing is encoded in advance or whether down-mixing coefficients are encoded depending on whether to permit or prohibit down-mixing of the multi-channel data in the audio packet into two stereo channels is performed. A speech coding apparatus having a selecting means.

【0045】[0045]

【発明の効果】以上説明したように本発明によれば、例
えば、マルチチャネルデータが圧縮されているか否かを
示す識別子と、マルチチャネルデータをステレオ2チャ
ネルにダウンミクスすることを許可するか又は禁止する
かを示す識別子とを含むデータ構造に符号化するように
したので、正常に復号化して再生することができる。
As described above, according to the present invention, for example, an identifier indicating whether or not multi-channel data is compressed, and permitting down-mixing of multi-channel data into two stereo channels, or Since it is encoded into a data structure including an identifier indicating whether to prohibit, it can be normally decoded and reproduced.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明が適用されるマルチチャネルの伝送形態
の第1の例を示す説明図である。
FIG. 1 is an explanatory diagram showing a first example of a multi-channel transmission mode to which the present invention is applied.

【図2】本発明が適用されるマルチチャネルの伝送形態
の第2の例を示す説明図である。
FIG. 2 is an explanatory diagram showing a second example of a multi-channel transmission mode to which the present invention is applied.

【図3】本発明が適用されるマルチチャネルの伝送形態
の第3の例を示す説明図である。
FIG. 3 is an explanatory diagram showing a third example of a multi-channel transmission mode to which the present invention is applied.

【図4】本発明が適用されるマルチチャネルの伝送形態
の第4の例を示す説明図である。
FIG. 4 is an explanatory diagram showing a fourth example of a multi-channel transmission mode to which the present invention is applied.

【図5】図1の変形例を示す説明図である。FIG. 5 is an explanatory diagram showing a modified example of FIG.

【図6】図2の変形例を示す説明図である。FIG. 6 is an explanatory diagram showing a modified example of FIG.

【図7】図1の符号化部を詳しく示すブロック図であ
る。
FIG. 7 is a block diagram showing the encoding unit of FIG. 1 in detail.

【図8】図1、図7の符号化部により符号化されたビッ
トストリームを示す説明図である。
FIG. 8 is an explanatory diagram showing a bitstream encoded by the encoding unit in FIGS. 1 and 7.

【図9】DVDのパックのフォーマットを示す説明図で
ある。
FIG. 9 is an explanatory diagram showing a format of a DVD pack.

【図10】DVDのオーディオパックのフォーマットを
示す説明図である。
FIG. 10 is an explanatory diagram showing a format of a DVD audio pack.

【図11】図10のオーディオデータエリアのフォーマ
ットを詳しく示す説明図である。
11 is an explanatory diagram showing in detail the format of the audio data area of FIG.

【図12】DVDオーディオのAOTT−AOB−AT
R(オーディオオンリタイトル・オーディオオブジェク
トセット・アトリビュート)を示す説明図である。
FIG. 12: AOTT-AOB-AT of DVD audio
It is explanatory drawing which shows R (audio only title audio object set attribute).

【図13】DVDオーディオのATS−PG−CNT
(オーディオタイトルセット・プログラム・コンテン
ツ)を示す説明図である。
FIG. 13 ATS-PG-CNT of DVD audio
It is explanatory drawing which shows (audio title set program content).

【図14】図1の復号化部を詳しく示すブロック図であ
る。
FIG. 14 is a block diagram showing the decoding unit of FIG. 1 in detail.

【図15】図14の入力バッファの書き込み/読み出し
タイミングを示すタイミングチャートである。
15 is a timing chart showing the write / read timing of the input buffer of FIG.

【図16】アクセスユニット毎の圧縮データ量を示す説
明図である。
FIG. 16 is an explanatory diagram showing a compressed data amount for each access unit.

【図17】アクセスユニットとプレゼンテーションユニ
ットを示す説明図である。
FIG. 17 is an explanatory diagram showing an access unit and a presentation unit.

【図18】音声伝送方法を示すフローチャートである。FIG. 18 is a flowchart showing a voice transmission method.

【図19】音声伝送方法を示すフローチャートである。FIG. 19 is a flowchart showing a voice transmission method.

【図20】第2の例の音声符号化装置を示すブロック図
である。
FIG. 20 is a block diagram showing a second example speech encoding apparatus.

【図21】第2の例の音声復号装置を示すブロック図で
ある。
FIG. 21 is a block diagram showing a speech decoding apparatus of a second example.

【符号の説明】 1’ 6chミクス&マトリクス回路 13D1,13D2,15D1〜15D4 予測回路
(バッファ・選択器14D1,14D2,16D1〜1
6D4と共に圧縮手段を構成する。) 14D1,14D2,16D1〜16D4 バッファ・
選択器 17 選択信号/DTS生成器 17c PTS生成器 19 フォーマット化回路 21 デフォーマット化回路(分離手段) 22 アンパッキング回路 22a 入力バッファ 24D1,24D2,23D1〜23D4 予測回路
(伸長手段) 100 制御部(再生手段) 102 D/A変換器 110 出力バッファ
[Description of Reference Signs] 1'6ch Mix & Matrix Circuit 13D1, 13D2, 15D1 to 15D4 Prediction Circuit (Buffer / Selector 14D1, 14D2, 16D1 to 1)
A compression means is configured with 6D4. ) 14D1, 14D2, 16D1 to 16D4 buffers
Selector 17 Select signal / DTS generator 17c PTS generator 19 Formatting circuit 21 Deformatting circuit (separation means) 22 Unpacking circuit 22a Input buffers 24D1, 24D2, 23D1 to 23D4 Prediction circuit (expansion means) 100 Control unit ( Reproducing means 102 D / A converter 110 Output buffer

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04S 3/00 G10L 9/14 J (72)発明者 渕上 徳彦 神奈川県横浜市神奈川区守屋町3丁目12番 地 日本ビクター株式会社内 Fターム(参考) 5D044 AB05 BC02 CC06 DE19 DE49 DE53 EF05 FG18 GK08 GK12 GK14 5D045 CC10 DA20 5J064 BA04 BB03 BC01 BC07 BC08 BC15 BC25 BC27 BD03 ─────────────────────────────────────────────────── ─── Continuation of front page (51) Int.Cl. 7 Identification code FI theme code (reference) H04S 3/00 G10L 9/14 J (72) Inventor Tokuhiko Fuchigami 3-12 Moriya-cho, Kanagawa-ku, Yokohama-shi, Kanagawa Address F-term within Victor Company of Japan (reference) 5D044 AB05 BC02 CC06 DE19 DE49 DE53 EF05 FG18 GK08 GK12 GK14 5D045 CC10 DA20 5J064 BA04 BB03 BC01 BC07 BC08 BC15 BC25 BC27 BD03

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】マルチチャネルの音声信号を、そのままの
チャネル又は互いに相関あるチャネル毎に、 入力され
る音声信号に応答して先頭サンプル値を得ると共に、時
間領域の過去の信号から予測される現在の信号の複数の
予測値の中でその予測残差が最小となるような線形予測
方法を選択して圧縮するステップと、 前記ステップにより選択された先頭サンプル値と予測残
差と線形予測方法とを含む圧縮データの所定時間前又は
所定時間後のアクセスユニットをサーチ再生するための
アクセスユニット・サーチ情報を生成するステップと、 前記アクセスユニット・サーチ情報を含むプライベート
ヘッダと、前記アクセスユニットを含む前期圧縮データ
と、を含むユーザデータを有するオーディオパケット
と、 前記オーディオパケット内のデータが前記圧縮方法によ
り圧縮されていることを示す第1の識別子と、前記オー
ディオパケットに格納されているマルチチャネルデータ
をステレオ2チャネルにダウンミクスすることを許可す
るか又は禁止するかを示す第2の識別子が配置された管
理情報とを、有するデータ構造にフォーマット化するス
テップと、からなる音声符号化方法。
1. A multi-channel audio signal is obtained in response to an input audio signal for a channel as it is or for each channel having a correlation with each other, and a leading sample value is obtained, and a current predicted from a past signal in a time domain. A step of selecting and compressing a linear prediction method that minimizes the prediction residual among a plurality of prediction values of the signal, and the leading sample value, the prediction residual, and the linear prediction method selected in the step Generating access unit search information for searching and reproducing an access unit before or after a predetermined time of compressed data including: a private header including the access unit search information; An audio packet having user data including compressed data, and a data packet in the audio packet. A first identifier indicating that the audio data has been compressed by the compression method, and a first identifier indicating whether to downmix the multi-channel data stored in the audio packet into two stereo channels. And a management information in which the identifier of 2 is arranged, is formatted into a data structure having the voice encoding method.
【請求項2】請求項1記載の音声符号化方法によりフォ
ーマット化されたデータ構造のデータを復号する音声復
号化方法であって、 前記データをオーディオパケットと管理情報に分離する
ステップと、 前記管理情報から第1の識別子と第2の識別子を抽出す
るステップと、 前記オーディオパケット内のユーザデータに含まれる圧
縮データのアクセスユニットを前記アクセスユニット・
サーチポインタに基づいてサーチするステップと、 前記抽出された第2の識別子がダウンミクスすることを
許可する場合に前記サーチした圧縮データのアクセスユ
ニットを前記抽出された第1の識別子に基づいて選択的
に伸長するか又は伸長しないで復号しマルチチャネルと
ステレオ2チャネルの少なくともいずれかで取り出し、
前記第2の識別子がダウンミクスすることを禁止する場
合には前記サーチした圧縮データのアクセスユニットを
前記第1の識別子に基づいて選択的に伸長するか又は伸
長しないで復号しマルチチャネルのみで取り出すステッ
プと、からなる音声復号化方法。
2. A voice decoding method for decoding data having a data structure formatted by the voice encoding method according to claim 1, wherein said data is separated into audio packets and management information. Extracting a first identifier and a second identifier from the information, the access unit of the compressed data included in the user data in the audio packet being the access unit
Searching based on a search pointer, and selectively selecting the access unit of the searched compressed data based on the extracted first identifier if the extracted second identifier permits downmixing. Decompress with or without decompression into multiple channels and / or stereo 2 channels,
In the case where the second identifier is prohibited from downmixing, the access unit of the searched compressed data is selectively expanded based on the first identifier or is decoded without being expanded and is extracted only by multi-channel. A speech decoding method comprising the steps of:
JP2002344092A 2002-11-27 2002-11-27 Speech encoding method and speech decoding method Expired - Fee Related JP3846720B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002344092A JP3846720B2 (en) 2002-11-27 2002-11-27 Speech encoding method and speech decoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002344092A JP3846720B2 (en) 2002-11-27 2002-11-27 Speech encoding method and speech decoding method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2001010408A Division JP3846194B2 (en) 2001-01-18 2001-01-18 Speech coding method, speech decoding method, speech receiving apparatus, and speech signal transmission method

Publications (2)

Publication Number Publication Date
JP2003216192A true JP2003216192A (en) 2003-07-30
JP3846720B2 JP3846720B2 (en) 2006-11-15

Family

ID=27655863

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002344092A Expired - Fee Related JP3846720B2 (en) 2002-11-27 2002-11-27 Speech encoding method and speech decoding method

Country Status (1)

Country Link
JP (1) JP3846720B2 (en)

Also Published As

Publication number Publication date
JP3846720B2 (en) 2006-11-15

Similar Documents

Publication Publication Date Title
JP2000156038A (en) Voice encoding device, recording medium, voice decoding device, voice transmitting method, and computer recording medium
JP3196776B1 (en) Audio encoding device, audio transmission method, and computer program recording medium
JP3228474B2 (en) Audio encoding device and audio decoding method
JP3196775B1 (en) Audio encoding method and audio decoding method
JP3173608B1 (en) Audio encoding device and audio decoding device
JP3196778B1 (en) Audio encoding method and audio decoding method
JP3876819B2 (en) Speech encoding method and speech decoding method
JP3228475B2 (en) Audio transmission method and computer program recording medium
JP3173609B1 (en) Audio encoding method and audio decoding method
JP2001255899A (en) Audio receiving method and audio receiver
JP3228473B2 (en) Recording medium and audio decoding device for audio data recorded on recording medium
JP3196777B1 (en) Recording medium and audio decoding device for audio data recorded on recording medium
JP3196779B1 (en) Audio transmission method and computer program recording medium
JP3846722B2 (en) Speech encoding method and speech decoding method
JP3846414B2 (en) Speech encoding method and speech decoding method
JP3846719B2 (en) Speech encoding method and speech decoding method
JP4151018B2 (en) Audio signal transmission method and audio signal decoding apparatus
JP4378713B2 (en) Speech encoding method and speech decoding method
JP4399825B2 (en) Speech encoding method and speech decoding method
JP4378719B2 (en) Speech encoding method and speech decoding method
JP2003249019A (en) Voice encoder and voice decoder
JP2003263198A (en) Audio encoder and audio decoder
JP2003216192A (en) Audio encoding method and audio decoding method
JP2003223195A (en) Audio encoding method and audio decoding method
JP2003177793A (en) Voice encoding method and voice decoding method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050329

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20060315

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20060418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060612

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060804

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060817

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090901

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100901

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110901

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120901

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120901

Year of fee payment: 6

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120901

Year of fee payment: 6

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120901

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130901

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees