JP2001195096A - Voice coder - Google Patents

Voice coder

Info

Publication number
JP2001195096A
JP2001195096A JP2000325670A JP2000325670A JP2001195096A JP 2001195096 A JP2001195096 A JP 2001195096A JP 2000325670 A JP2000325670 A JP 2000325670A JP 2000325670 A JP2000325670 A JP 2000325670A JP 2001195096 A JP2001195096 A JP 2001195096A
Authority
JP
Japan
Prior art keywords
channel
data
circuit
prediction
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000325670A
Other languages
Japanese (ja)
Other versions
JP3387096B2 (en
Inventor
Yoshiaki Tanaka
美昭 田中
Shoji Ueno
昭治 植野
Norihiko Fuchigami
徳彦 渕上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2000325670A priority Critical patent/JP3387096B2/en
Publication of JP2001195096A publication Critical patent/JP2001195096A/en
Application granted granted Critical
Publication of JP3387096B2 publication Critical patent/JP3387096B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PROBLEM TO BE SOLVED: To improve the compression rate of multi-channel voice signals. SOLUTION: A mix and matrix circuit 1' adds, subtracts and mixes individual six ch PCM data and computes the correlation of each channel by a prescribed equation for every one of correlation circuits 1-1 to 1-n. On the basis of these correlation data, the predictive residual of every channel is computed by each predicting circuit 15. A predictor selection signal generator 17a selects the minimum data among these predictive residuals. The data are supplied to a formatting circuit 19 through a packing circuit 18 and a prescribed bit stream is formatted.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、マルチチャネルの
音声信号を予測符号化するための音声符号化方法に関す
る。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech coding method for predictively coding a multi-channel speech signal.

【0002】[0002]

【従来の技術】音声信号を予測符号化する方法として、
本発明者は先の出願(特願平9−289159号)にお
いて1チャネルの原デジタル音声信号に対して、特性が
異なる複数の予測器により時間領域における過去の信号
から現在の信号の複数の線形予測値を算出し、原デジタ
ル音声信号と、この複数の線形予測値から予測器毎の予
測残差を算出し、予測残差の最小値を選択する方法を提
案している。
2. Description of the Related Art As a method of predictive encoding of a speech signal,
In the prior application (Japanese Patent Application No. 9-289159), the inventor of the present invention applied a plurality of linearizers of a current signal from a past signal in the time domain to a one-channel original digital audio signal using a plurality of predictors having different characteristics. A method is proposed in which a prediction value is calculated, a prediction residual for each predictor is calculated from the original digital audio signal and the plurality of linear prediction values, and a minimum value of the prediction residual is selected.

【0003】[0003]

【発明が解決しようとする課題】しかしながら、上記方
法では原デジタル音声信号がサンプリング周波数=96
kHz、量子化ビット数=20ビット程度の場合にある
程度の圧縮効果を得ることができるが、近年のDVDオ
ーディオディスクではこの2倍のサンプリング周波数
(=192kHz)が使用され、また、量子化ビット数
も24ビットが使用される傾向があるので、圧縮率を改
善する必要がある。
However, in the above method, the original digital audio signal has a sampling frequency = 96.
Although a certain compression effect can be obtained when the kHz and the quantization bit number are about 20 bits, recent DVD audio discs use twice the sampling frequency (= 192 kHz). Since 24 bits also tend to be used, the compression ratio needs to be improved.

【0004】そこで本発明は、マルチチャネルの音声信
号を予測符号化する場合に、圧縮率を改善することがで
きる音声符号化方法を提供することを目的とする。
Accordingly, an object of the present invention is to provide a speech encoding method capable of improving a compression ratio when predictive encoding of a multi-channel audio signal is performed.

【0005】[0005]

【課題を解決するための手段】本発明は上記目的を達成
するために、以下に記載の手段よりなる。すなわち、
The present invention, in order to achieve the above object, comprises the following means. That is,

【0006】元のマルチチャネルの音声信号をダウンミ
クスしてステレオ2チャネルの音声信号に変換するステ
ップと、前記ダウンミクスされない元のチャネルの複数
チャネルの各音声信号を所定のマトリクス演算により相
関性のある音声信号に変換するステップと、前記ステレ
オ2チャネルと前記相関性のある音声信号のチャネル毎
に入力される音声信号に応答して先頭サンプル値を得る
と共に、時間領域の過去の信号から予測される現在の信
号の複数の予測値の中でその予測残差が最小値となる線
形予測方法を選択するステップと、前記ステップによっ
て選択された線形予測方法と予測残差と所定の先頭サン
プル値とを含む予測符号化データを所定のビットストリ
ームにフォーマット化するステップと、からなる音声符
号化方法。
Down-mixing the original multi-channel audio signal into a stereo two-channel audio signal; and correlating each of the plurality of un-downmixed original audio signals by a predetermined matrix operation. Converting to a certain audio signal, obtaining a first sample value in response to the audio signal input for each channel of the stereo two channels and the correlated audio signal, and predicting from the past signal in the time domain. Selecting a linear prediction method whose prediction residual is a minimum value among a plurality of prediction values of the current signal, and a linear prediction method selected by the step, the prediction residual, a predetermined leading sample value, And formatting the prediction encoded data into a predetermined bit stream.

【0007】[0007]

【発明の実施の形態】以下、図面を参照して本発明を説
明する。図1は本発明が適用される音声符号化装置とそ
れに対応する音声復号装置の第1の実施形態を示すブロ
ック図、図2は図1の符号化部を詳しく示すブロック
図、図3は図1、図2の符号化部により符号化されたビ
ットストリームを示す説明図、図4は図1の復号化部を
詳しく示すブロック図、図5はDVDのパックのフォー
マットを示す説明図、図6はDVDのオーディオパック
のフォーマットを示す説明図、図7、図8は音声伝送方
法を示すフローチャートである。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing a first embodiment of a speech encoding apparatus to which the present invention is applied and a speech decoding apparatus corresponding to the speech encoding apparatus. FIG. 2 is a block diagram showing the encoding unit of FIG. 1 in detail. 1, an explanatory diagram showing a bit stream encoded by the encoding unit in FIG. 2, FIG. 4 is a block diagram showing the decoding unit in FIG. 1 in detail, FIG. 5 is an explanatory diagram showing a format of a DVD pack, and FIG. Is an explanatory diagram showing the format of a DVD audio pack, and FIGS. 7 and 8 are flowcharts showing an audio transmission method.

【0008】ここで、マルチチャネル方式としては、例
えば次の4つの方式が知られている。 (1)4チャネル方式 ドルビーサラウンド方式の
ように、前方L、C、Rの3チャネル+後方Sの1チャ
ネルの合計4チャネル (2)5チャネル方式 ドルビーAC−3方式のS
Wチャネルなしのように、前方L、C、Rの3チャネル
+後方SL、SRの2チャネルの合計5チャネル (3)6チャネル方式 DTS(Digital Theater
System)方式や、ドルビーAC−3方式のように6チャ
ネル(L、C、R、SW(Lfe)、SL、SR) (4)8チャネル方式 SDDS(Sony Dynamic D
igital Sound)方式のように、前方L、LC、C、R
C、R、SWの6チャネル+後方SL、SRの2チャネ
ルの合計8チャネル
Here, for example, the following four systems are known as multi-channel systems. (1) Four-channel system As in the Dolby surround system, a total of four channels including three channels of front L, C, and R + one channel of rear S (2) Five-channel system S in the Dolby AC-3 system
Like without W channel, 3 channels of front L, C and R + 2 channels of rear SL and SR, total 5 channels (3) 6 channel system DTS (Digital Theater)
6) (L, C, R, SW (Lfe), SL, SR) like the Dolby AC-3 system (4) 8-channel system SDDS (Sony Dynamic D
digital sound), forward L, LC, C, R
6 channels of C, R, SW + 2 channels of rear SL, SR, total 8 channels

【0009】図1に示す符号化側の6チャネル(ch)ミ
クス&マトリクス回路1’は、マルチチャネル信号の一
例としてフロントレフト(Lf)、センタ(C)、フロ
ントライト(Rf)、サラウンドレフト(Ls)、サラ
ウンドライト(Rs)及びLfe(Low Frequency Effe
ct)の6chのPCMデータを係数mij(i=1,2,j
=1,2〜6)を用いて次式(1)によりステレオ2チ
ャネル(L、R)にダウンミクスする。 L=m11・Lf+m12・Rf+m13・C +m14・Ls+m15・Rs+m16・Lfe R=m21・Lf+m22・Rf+m23・C +m24・Ls+m25・Rs+m26・Lfe …(1)
The 6-channel (ch) mix and matrix circuit 1 'on the encoding side shown in FIG. 1 includes a front left (Lf), a center (C), a front right (Rf), a surround left ( Ls), surround light (Rs) and Lfe (Low Frequency Effe)
ct) of the 6-channel PCM data by coefficients mij (i = 1, 2, j)
= 1, 2 to 6), and downmixes to two stereo channels (L, R) by the following equation (1). L = m11 · Lf + m12 · Rf + m13 · C + m14 · Ls + m15 · Rs + m16 · Lfe R = m21 · Lf + m22 · Rf + m23 · C + m24 · Ls + m25 · Rs + m26 · Lfe (1)

【0010】またミクス&マトリクス回路1’は、元の
6ch(Lf、C、Rf、Ls、Rs、Lfe)を前方グ
ループに関する2chと他のグループに関する4chに分類
して4chを次式(2)のように、相関性のある信号
「3」〜「6」に変換し、2ch(L、R)を第1符号化
部2’−1に、また、4ch「3」〜「6」を第2符号化
部2’−2に出力する。 「1」=L 「2」=R 「3」=C−(Ls+Rs)/2 「4」=Ls+Rs 「5」=Ls−Rs 「6」=Lfe−C …(2)
The mixer & matrix circuit 1 'classifies the original 6 channels (Lf, C, Rf, Ls, Rs, Lfe) into 2 channels for the front group and 4 channels for the other groups, and divides the 4 channels into the following equation (2). , And 2ch (L, R) to the first encoder 2′-1, and 4ch “3” to “6” to the third signal “3” to “6”. And outputs the result to the 2 coding unit 2′-2. “1” = L “2” = R “3” = C− (Ls + Rs) / 2 “4” = Ls + Rs “5” = Ls−Rs “6” = Lfe−C (2)

【0011】符号化部2’を構成する第1及び第2符号
化部2’−1、2’−2はそれぞれ、図2に詳しく示す
ように2ch「1」、「2」と4ch「3」〜「6」のPC
Mデータをチャネル毎に予測符号化し、予測符号化デー
タを図3に示すようなビットストリームで記録媒体5や
衛星回線や電話回線等の通信媒体6を介して復号側に伝
送する。復号側では復号化部3’を構成する第1及び第
2復号化部3’−1、3’−2により、図4に詳しく示
すようにそれぞれ前方グループに関する2ch「1」、
「2」と他のグループに関する4ch「3」〜「6」の予
測符号化データをチャネル毎にPCMデータに復号す
る。次いでミクス&マトリクス回路4’により式
(1)、(2)に基づいて元の6ch(Lf、C、Rf、
Ls、Rs、Lfe)を復元するとともに、ステレオ2
chデータ(L、R)をそのまま出力する。
As shown in detail in FIG. 2, the first and second encoders 2'-1 and 2'-2 which constitute the encoder 2 'respectively have 2ch "1", "2" and 4ch "3". "~" 6 "PC
The M data is predictively encoded for each channel, and the encoded prediction data is transmitted as a bit stream as shown in FIG. 3 to the decoding side via a recording medium 5 or a communication medium 6 such as a satellite line or a telephone line. On the decoding side, the first and second decoding units 3'-1 and 3'-2 constituting the decoding unit 3 'respectively perform 2ch "1" for the forward group, as shown in detail in FIG.
The prediction coded data of "2" and 4ch "3" to "6" relating to the other groups are decoded into PCM data for each channel. Next, the original 6 ch (Lf, C, Rf,
Ls, Rs, Lfe) and restore stereo 2
The ch data (L, R) is output as it is.

【0012】図2を参照して符号化部2’−1、2’−
2について詳しく説明する。各ch「1」〜「6」のPC
Mデータは1フレーム毎に1フレームバッファ10に格
納される。そして、1フレームの各ch「1」〜「6」の
サンプルデータがそれぞれ予測回路13D1、13D
2、15D1〜15D4に印加されるとともに、各ch
「1」〜「6」の各フレームの先頭サンプルデータ(後
述のリスタートヘッダ内に格納される)がアンパッキン
グ回路8及びフォーマット化回路19に印加される。ま
た、PCMデータがA/D変換されたときのサンプリン
グ周波数(fs)と量子化ビット数(Qb)がパッキン
グ回路18及びフォーマット化回路19に印加される。
予測回路13D1、13D2、15D1〜15D4はそ
れぞれ、各ch「1」〜「6」のPCMデータに対して、
特性が異なる複数の予測器(不図示)により時間領域に
おける過去の信号から現在の信号の複数の線形予測値を
算出し、次いで原PCMデータと、この複数の線形予測
値から予測器毎の予測残差を算出する。続くバッファ・
選択器14D1、14D2、16D1〜16D4はそれ
ぞれ、予測回路13D1、13D2、15D1〜15D
4により算出された各予測残差を一時記憶して、選択信
号/DTS(デコーディング・タイム・スタンプ)生成
器17により指定されたサブフレーム毎に予測残差の最
小値を選択する。
Referring to FIG. 2, encoding sections 2'-1, 2'-
2 will be described in detail. PC for each channel "1" to "6"
The M data is stored in one frame buffer 10 for each frame. Then, the sample data of each of the channels “1” to “6” of one frame are respectively supplied to the prediction circuits 13D1 and 13D
2, 15D1 to 15D4 and each channel
First sample data (stored in a restart header described later) of each frame of “1” to “6” is applied to the unpacking circuit 8 and the formatting circuit 19. The sampling frequency (fs) and the number of quantization bits (Qb) when the PCM data is A / D converted are applied to the packing circuit 18 and the formatting circuit 19.
The prediction circuits 13D1, 13D2, and 15D1 to 15D4 respectively calculate the PCM data of each channel “1” to “6”.
A plurality of predictors (not shown) having different characteristics calculate a plurality of linear prediction values of the current signal from a past signal in the time domain, and then perform prediction for each predictor from the original PCM data and the plurality of linear prediction values. Calculate the residual. The following buffer
The selectors 14D1, 14D2, 16D1 to 16D4 are prediction circuits 13D1, 13D2, 15D1 to 15D, respectively.
4 is temporarily stored, and the minimum value of the prediction residual is selected for each subframe specified by the selection signal / DTS (decoding time stamp) generator 17.

【0013】選択信号生成器17は予測残差のビット数
フラグをパッキング回路18とフォーマット化回路19
に対して印加し、また、予測残差が最小の予測器を示す
予測器選択フラグと、後述するような相関係数をフォー
マット化回路19に対して印加する。パッキング回路1
8はバッファ・選択器14D1、14D2、16D1〜
16D4により選択された6ch分の予測残差を、選択信
号生成器17により指定されたビット数フラグに基づい
て指定ビット数でパッキングする。
The selection signal generator 17 outputs a bit number flag of the prediction residual to a packing circuit 18 and a formatting circuit 19.
, And a predictor selection flag indicating the predictor with the smallest prediction residual and a correlation coefficient as described later are applied to the formatting circuit 19. Packing circuit 1
8 is a buffer / selector 14D1, 14D2, 16D1.
The prediction residual for 6 ch selected by 16D4 is packed with the specified number of bits based on the bit number flag specified by the selection signal generator 17.

【0014】続くフォーマット化回路19は図3に示す
ようなユーザデータにフォーマット化する。このユーザ
データは前方グループに関する2ch(1)、(2)の予
測符号化データを含む可変レートビットストリームBS
0と、他のグループに関する4ch(3)〜(6)の予測
符号化データを含む可変レートビットストリームBS1
と、ストリームBS0、BS1の前に設けられたビット
ストリームヘッダにより構成されている。また、1フレ
ーム分のストリームBS0、BS1は ・フレームヘッダと、 ・各ch(1)〜(6)の1フレームの先頭サンプルデー
タと、 ・各ch(1)〜(6)のサブフレーム毎の予測器選択フ
ラグと、 ・各ch(1)〜(6)のサブフレーム毎のビット数フラ
グと、 ・各ch(1)〜(6)の予測残差データ列(可変ビット
数)と、 ・後述する相関係数が多重化されている。このような予
測符号化によれば、原信号が例えばサンプリング周波数
=96kHz、量子化ビット数=24ビット、6チャネ
ルの場合、71%の圧縮率を実現することができる。
The following formatting circuit 19 formats the data into user data as shown in FIG. This user data is a variable rate bit stream BS including 2ch (1) and (2) prediction coded data for the front group.
0 and the variable rate bit stream BS1 including the prediction coded data of 4ch (3) to (6) regarding other groups.
And a bit stream header provided before the streams BS0 and BS1. The streams BS0 and BS1 for one frame include: a frame header; first sample data of one frame of each channel (1) to (6); and each subframe of each channel (1) to (6). A predictor selection flag; a bit number flag for each subframe of each channel (1) to (6); a prediction residual data sequence (variable number of bits) for each channel (1) to (6); A correlation coefficient described later is multiplexed. According to such predictive coding, when the original signal has, for example, a sampling frequency of 96 kHz, the number of quantization bits = 24 bits, and 6 channels, a compression ratio of 71% can be realized.

【0015】次に図4を参照して復号化部3’−1、
3’−2について説明する。上記フォーマットの可変レ
ートビットストリームデータBS0、BS1は、デフォ
ーマット化回路21によりストリームデータとフレーム
ヘッダに基づいて分離される。そして、各ch「1」〜
「6」の1フレームの先頭サンプルデータと予測器選択
フラグはそれぞれ予測回路24D1、24D2、23D
1〜23D4に印加され、各ch「1」〜「6」のビッ
ト数フラグと予測残差データ列はアンパッキング回路2
2に印加される。ここで、予測回路24D1、24D
2、23D1〜23D4内の複数の予測器(不図示)は
それぞれ、符号化側の予測回路13D1、13D2、1
5D1〜15D4内の複数の予測器と同一の特性であ
り、予測器選択フラグにより同一特性のものが選択され
る。
Next, referring to FIG. 4, the decoding units 3'-1,
3′-2 will be described. The variable-rate bit stream data BS0 and BS1 in the above format are separated by the deformatting circuit 21 based on the stream data and the frame header. And each channel "1" ~
The head sample data of one frame of “6” and the predictor selection flag are stored in the prediction circuits 24D1, 24D2, and 23D, respectively.
1 to 23D4, and the bit number flags of each channel “1” to “6” and the prediction residual data sequence are stored in the unpacking circuit 2
2 is applied. Here, the prediction circuits 24D1, 24D
2, a plurality of predictors (not shown) in 23D1 to 23D4 are prediction circuits 13D1, 13D2, and 1 on the encoding side, respectively.
The characteristics are the same as those of the plurality of predictors in 5D1 to 15D4, and those having the same characteristics are selected by the predictor selection flag.

【0016】アンパッキング回路22は各ch「1」〜
「6」の予測残差データ列をビット数フラグ毎に基づい
て分離してそれぞれ予測回路24D1、24D2、23
D1〜23D4に出力する。予測回路24D1、24D
2、23D1〜23D4ではそれぞれ、アンパッキング
回路22からの各ch「1」〜「6」の今回の予測残差
データと、内部の複数の予測器の内、予測器選択フラグ
により選択された各1つにより予測された前回の予測値
が加算されて今回の予測値が算出され、次いで1フレー
ムの先頭サンプルデータを基準として各サンプルのPC
Mデータが算出される。
The unpacking circuit 22 is provided for each channel "1" to
The prediction residual data string of “6” is separated based on each bit number flag, and is divided into prediction circuits 24D1, 24D2, and 23, respectively.
It outputs to D1-23D4. Prediction circuits 24D1, 24D
2, 23D1 to 23D4, the current prediction residual data of each of the channels “1” to “6” from the unpacking circuit 22 and each of the plurality of internal predictors selected by the predictor selection flag. The previous predicted value predicted by one frame is added to calculate the current predicted value, and then the PC of each sample is determined based on the first sample data of one frame.
M data is calculated.

【0017】ここで、図2に示す符号化部2’−1、
2’−2により予測符号化された可変レートビットスト
リームデータを、記録媒体の一例としてDVDオーディ
オディスクに記録する場合には、図5に示すオーディオ
(A)パックにパッキングされる。このパックは203
4バイトのユーザデータ(Aパケット、Vパケット)に
対して4バイトのパックスタート情報と、6バイトのS
CR(System Clock Reference:システム時刻基準参照
値)情報と、3バイトのMux レート(rate)情報と1バ
イトのスタッフィングの合計14バイトのパックヘッダ
が付加されて構成されている(1パック=合計2048
バイト)。この場合、タイムスタンプであるSCR情報
を、ACBユニット内の先頭パックでは「1」として同
一タイトル内で連続とすることにより同一タイトル内の
Aパックの時間を管理することができる。
Here, the coding units 2'-1 shown in FIG.
When the variable-rate bit stream data that has been predictively encoded by 2′-2 is recorded on a DVD audio disc as an example of a recording medium, it is packed in an audio (A) pack shown in FIG. This pack is 203
For 4 bytes of user data (A packet, V packet), 4 bytes of pack start information and 6 bytes of S
It is configured by adding a 14-byte pack header of CR (System Clock Reference: system time reference value) information, 3-byte Mux rate (rate) information, and 1-byte stuffing (1 pack = 2048 total).
Part-Time Job). In this case, the time of the A pack in the same title can be managed by setting the SCR information as the time stamp to be “1” in the first pack in the ACB unit so as to be continuous in the same title.

【0018】圧縮PCMのAパケットは図6に詳しく示
すように、9〜22バイトのパケットヘッダと、圧縮P
CMのプライベートヘッダと、図3に示すフォーマット
の1ないし2015バイトのオーディオデータ(圧縮P
CM)により構成されている。圧縮PCMのプライベー
トヘッダは、 ・1バイトのサブストリームIDと、 ・2バイトのUPC/EAN−ISRC(Universal Pr
oduct Code/European Article Number-International S
tandard Recording Code)番号、及びUPC/EAN−
ISRCデータと、 ・1バイトのプライベートヘッダ長と、 ・2バイトの第1アクセスユニットポインタと、 ・4バイトのオーディオデータ情報(ADI)と、 ・0〜7バイトのスタッフィングバイトとに、より構成
されている。
The A packet of the compressed PCM has a packet header of 9 to 22 bytes and a compressed P
The CM private header and 1 to 2015 bytes of audio data (compressed P
CM). The private header of the compressed PCM is: 1-byte substream ID, 2 bytes of UPC / EAN-ISRC (Universal Prism).
oduct Code / European Article Number-International S
tandard Recording Code) number and UPC / EAN-
ISRC data, 1-byte private header length, 2-byte first access unit pointer, 4 bytes of audio data information (ADI), and 0 to 7 bytes of stuffing bytes. ing.

【0019】そして、ADI内に1秒後のアクセスユニ
ットをサーチするための前方アクセスユニット・サーチ
ポインタと、1秒前のアクセスユニットをサーチするた
めの後方アクセスユニット・サーチポインタがともに1
バイトでセットされる。具体的には、ADIの1バイト
目に前方アクセスユニット・サーチポインタが、8バイ
ト目に後方アクセスユニット・サーチポインタがセット
される。このようにADIは、圧縮PCMでは4バイト
に減少させるためオーディオデータを2015バイトま
で収納できる。
The forward access unit search pointer for searching for the access unit one second later and the backward access unit search pointer for searching for the access unit one second earlier in the ADI are both 1
Set in bytes. Specifically, the forward access unit search pointer is set in the first byte of the ADI, and the backward access unit search pointer is set in the eighth byte. Thus, ADI can store up to 2015 bytes of audio data in order to reduce it to 4 bytes in compressed PCM.

【0020】図6に示す圧縮PCM(PPCM)のオー
ディオパケットにおけるオーディオデータエリアは、図
7に示すように複数のPPCMアクセスユニットにより
構成され、PPCMアクセスユニットはPPCMシンク
情報とサブパケットにより構成されている。最初のPP
CMアクセスユニット内のサブパケットは、ディレクト
リと、サブストリーム「BS0」と、CRC(1バイト
又は2バイト)と、サブストリーム「BS1」と、CR
Cとエクストラ情報により構成され、サブストリーム
「BS0」、「BS1」はPPCMブロックのみにより
構成されている。2番目以降のPPCMアクセスユニッ
ト内のサブパケットも、ディレクトリと、サブストリー
ム「BS0」と、CRCと、サブストリーム「BS1」
と、CRCとエクストラ情報により構成され、サブスト
リーム「BS0」、「BS1」はリスタートヘッダとP
PCMブロックにより構成されている。
The audio data area in the compressed PCM (PPCM) audio packet shown in FIG. 6 is composed of a plurality of PPCM access units as shown in FIG. 7, and the PPCM access unit is composed of PPCM sync information and sub-packets. I have. First PP
The subpacket in the CM access unit includes a directory, a substream “BS0”, a CRC (1 byte or 2 bytes), a substream “BS1”,
C and extra information, and the sub-streams “BS0” and “BS1” are composed of only PPCM blocks. Sub-packets in the second and subsequent PPCM access units also include a directory, a sub-stream “BS0”, a CRC, and a sub-stream “BS1”.
, CRC and extra information, and the sub-streams “BS0” and “BS1” have a restart header and P
It is composed of PCM blocks.

【0021】また、図2に示す符号化部2’−1、2’
−2により予測符号化された可変レートビットストリー
ムデータをネットワークを介して伝送する場合には、符
号化側では図8示すように伝送用にパケット化し(ステ
ップS41)、次いでパケットヘッダを付与し(ステッ
プS42)、次いでこのパケットをネットワーク上に送
り出す(ステップS43)。復号側では図9に示すよう
にヘッダを除去し(ステップS51)、次いでデータを
復元し(ステップS52)、次いでこのデータをメモリ
に格納して復号を待つ(ステップS53)。
The encoding units 2'-1, 2 'shown in FIG.
When the variable rate bit stream data predicted and coded according to -2 is transmitted through a network, the coding side packetizes the data for transmission as shown in FIG. 8 (step S41), and then attaches a packet header (step S41). (Step S42) Then, the packet is sent out onto the network (Step S43). On the decoding side, the header is removed as shown in FIG. 9 (step S51), the data is restored (step S52), and the data is stored in a memory and decoding is waited (step S53).

【0022】なお、上記実施形態では、ステレオ2chデ
ータ(L、R)をそのまま伝送したが、 「1」=L+R 「2」=L−R 「3」〜「5」は同じ 「6」=Lfe−a×C ただし、0≦a≦1 …(2)’ により6チャネル「1」〜「6」と共に、相関のある信
号に変換して予測符号化するようにしてもよい(第2の
実施形態)。この場合には、復号化側のミクス&マトリ
クス回路4’はチャネル「1」、「2」を加算すること
によりチャネルLを、減算することによりチャネルRを
生成することができる。なお、上記実施例では、マルチ
チャンネル(6ch)とステレオ(2ch)と復元する
ようにしているが、いずれか一方でもよいことは言うま
でもない。
In the above embodiment, the stereo 2ch data (L, R) is transmitted as it is, but “1” = L + R “2” = LR “3” to “5” are the same “6” = Lfe −a × C However, 0 ≦ a ≦ 1... (2) ′ may be converted into a correlated signal together with the six channels “1” to “6” for predictive coding (second embodiment). Form). In this case, the mix & matrix circuit 4 ′ on the decoding side can generate the channel L by adding the channels “1” and “2”, and generate the channel R by subtracting the channel L. In the above embodiment, the multi-channel (6ch) and the stereo (2ch) are restored, but it goes without saying that either one may be restored.

【0023】また、図10は第3の実施の形態を示す図
で、この場合にはダウンミックスすることなく、前方グ
ループに関する2ch「1」、「2」を 「1」=Lf+Rf 「2」=Lf−Rf として伝送する。そして、再生側では、所望に応じて後
段側のミックス&マトリクス回路4’から出力されたダ
ウンミックスされないステレオ2チャンネル信号Lf,
Rfを使用したり、この回路4’内でダウンミックスさ
れて取り出されたステレオ2チャンネル信号L,Rを使
用することもできる。
FIG. 10 is a diagram showing the third embodiment. In this case, without downmixing, 2ch “1” and “2” for the front group are changed to “1” = Lf + Rf “2” = It is transmitted as Lf-Rf. Then, on the reproduction side, the stereo two-channel signal Lf, which is not downmixed and output from the subsequent mix & matrix circuit 4 ′, as desired.
It is also possible to use Rf, or to use the stereo two-channel signals L and R that are downmixed and extracted in the circuit 4 '.

【0024】次に、図11、図12、図13を参照して
第4の実施形態について説明する。上記の実施形態で
は、1グループの相関性の信号「1」〜「6」を予測符
号化するように構成されているが、この第4の実施形態
では複数グループの相関性のある信号を生成して予測符
号化し、圧縮率が最も高いグループの予測符号化データ
を選択するように構成されている。また、このこの実施
例ではその1グループ内における符号化は、前述の各実
施例の場合のように前方グループに関する2chと他の
グループに関する4chに分類して変換するようなこと
はせずに、一つにまとめた符号化処理が行われる構成
で、図11は前述の図1に対応した図として示してあ
る。このため図12に示す符号化部では、第1〜第nの
相関回路1−1〜1−nが設けられ、このn個の相関回
路1−1〜1−nは例えば6ch(Lf、C、Rf、L
s、Rs、Lfe)のPCMデータを、相関性が異なる
n種類の6ch信号「1」〜「6」に変換する。
Next, a fourth embodiment will be described with reference to FIG. 11, FIG. 12, and FIG. In the above embodiment, one group of correlated signals "1" to "6" are configured to be predictively coded. In the fourth embodiment, a plurality of groups of correlated signals are generated. Then, it is configured to perform predictive encoding and select predictive encoded data of a group having the highest compression ratio. Further, in this embodiment, the encoding in the one group is not performed by classifying and converting into 2ch for the front group and 4ch for the other group as in the above-described embodiments. FIG. 11 is a diagram corresponding to the above-described FIG. 1 in a configuration in which the encoding process is integrated into one. For this reason, in the encoding unit shown in FIG. 12, first to n-th correlation circuits 1-1 to 1-n are provided, and the n correlation circuits 1-1 to 1-n have, for example, 6 channels (Lf, Cf). , Rf, L
s, Rs, and Lfe) are converted into n types of 6-channel signals “1” to “6” having different correlations.

【0025】例えば第1の相関回路1−1は以下のよう
に変換し、 「1」=Lf 「2」=C−(Ls+Rs)/2 「3」=Rf−Lf 「4」=Ls−a×Lfe 「5」=Rs−b×Rf 「6」=Lfe また、第nの相関回路1−nは以下のように変換し、 「1」=Lf+Rf 「2」=C−Lf 「3」=Rf−Lf 「4」=Ls−Lf 「5」=Rs−Lf 「6」=Lfe−C また、他の相関回路は第1の実施形態のように変換す
る。
For example, the first correlation circuit 1-1 converts as follows: "1" = Lf "2" = C- (Ls + Rs) / 2 "3" = Rf-Lf "4" = Ls-a × Lfe “5” = Rs−b × Rf “6” = Lfe Further, the n-th correlation circuit 1-n converts as follows: “1” = Lf + Rf “2” = C−Lf “3” = Rf−Lf “4” = Ls−Lf “5” = Rs−Lf “6” = Lfe−C Further, other correlation circuits perform conversion as in the first embodiment.

【0026】また、相関回路1−1〜1−n毎に予測回
路15とバッファ・選択器16が設けられ、グループ毎
の予測残差の最小値のデータ量に基づいて圧縮率が最も
高いグループが相関選択信号生成器17bにより選択さ
れる。このとき、フォーマット化回路19はその選択フ
ラグ(相関回路選択フラグ、その相関回路の相関係数
a、b)を追加して多重化する。
Further, a prediction circuit 15 and a buffer / selector 16 are provided for each of the correlation circuits 1-1 to 1-n, and the group having the highest compression ratio is determined based on the data amount of the minimum value of the prediction residual for each group. Are selected by the correlation selection signal generator 17b. At this time, the formatting circuit 19 adds and multiplexes the selection flag (correlation circuit selection flag, correlation coefficients a and b of the correlation circuit).

【0027】そして、図13は前述の図6に対応したデ
ータエリアを示し、この実施例ではサブストリーム「B
S1」を用いず、サブストリーム「BS0」のみで構成
することになる。
FIG. 13 shows a data area corresponding to FIG. 6 described above.
Instead of using “S1”, the sub-stream “BS0” alone is used.

【0028】また、図14に示す復号化側では、符号化
側の相関回路1−1〜1−nに対してn個の相関回路4
−1〜4−n(又は係数a、bが変更可能な1つの相関
回路4)が設けられる。なお、図12に示すnグループ
の予測回路が同一の構成である場合、復号装置では図1
4に示すようにnグループ分の予測回路を設ける必要は
なく、1つのグループ分の予測回路でよい。そして、符
号化装置から伝送された選択フラグに基づいて相関回路
4−1〜4−nの1つを選択、又は係数a、bを設定し
て元の6ch(Lf、C、Rf、Ls、Rs、Lfe)を
復元し、また、式(1)によりマルチチャネルをダウン
ミクスしてステレオ2chデータ(L、R)を生成する。
また、チャンネル数が「1」〜「6」の6チャンネル方
式のものは、一例であって5チャンネル方式等他の方式
のものであってもよい。
Further, on the decoding side shown in FIG. 14, n correlation circuits 4 are provided for the correlation circuits 1-1 to 1-n on the encoding side.
−1 to 4-n (or one correlation circuit 4 whose coefficients a and b can be changed) are provided. Note that when the prediction circuits of the n groups shown in FIG. 12 have the same configuration,
As shown in FIG. 4, there is no need to provide prediction circuits for n groups, and prediction circuits for one group are sufficient. Then, one of the correlation circuits 4-1 to 4-n is selected based on the selection flag transmitted from the encoding device, or coefficients a and b are set and the original 6 ch (Lf, C, Rf, Ls, Rs, Lfe) are restored, and the multi-channel is downmixed according to equation (1) to generate stereo 2-ch data (L, R).
Further, the 6-channel system having the number of channels “1” to “6” is an example, and another system such as a 5-channel system may be used.

【0029】また、上記の第1の実施形態では、1種類
の相関性の信号「1」〜「6」を予測符号化するように
構成されているが、この信号「1」〜「6」のグループ
と原信号(Lf、C、Rf、Ls、Rs、Lfe)のグ
ループを予測符号化し、圧縮率が高い方のグループを選
択するようにしてもよい。
In the first embodiment, one kind of correlation signal "1" to "6" is configured to be predictively coded. However, the signals "1" to "6" are encoded. And the group of the original signals (Lf, C, Rf, Ls, Rs, Lfe) may be predictively coded and the group with the higher compression ratio may be selected.

【0030】[0030]

【発明の効果】以上説明したように本願各本発明によれ
ば、特に、マルチチャネルの音声信号を予測符号化する
場合に圧縮率を改善することができる音声符号化方法を
提供することができる。
As described above, according to the present invention, it is possible to provide a speech coding method capable of improving the compression ratio particularly when predictive coding of a multi-channel speech signal is performed. .

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明が適用される音声符号化装置とそれに対
応する音声復号装置の第1の実施形態を示すブロック図
である。
FIG. 1 is a block diagram showing a first embodiment of a speech encoding device to which the present invention is applied and a speech decoding device corresponding thereto.

【図2】図1の符号化部を詳しく示すブロック図であ
る。
FIG. 2 is a block diagram illustrating an encoding unit of FIG. 1 in detail.

【図3】図1、図2の符号化部により符号化されたビッ
トストリームを示す説明図である。
FIG. 3 is an explanatory diagram showing a bit stream encoded by an encoding unit shown in FIGS. 1 and 2;

【図4】図1の復号化部を詳しく示すブロック図であ
る。
FIG. 4 is a block diagram illustrating a decoding unit of FIG. 1 in detail;

【図5】DVDのパックのフォーマットを示す説明図で
ある。
FIG. 5 is an explanatory diagram showing a format of a DVD pack.

【図6】DVDのオーディオパックのフォーマットを示
す説明図である。
FIG. 6 is an explanatory diagram showing a format of a DVD audio pack.

【図7】図6のオーディオデータエリアのフォーマット
を詳しく示す説明図である。
FIG. 7 is an explanatory diagram showing a format of an audio data area in FIG. 6 in detail;

【図8】音声伝送方法を示すフローチャートである。FIG. 8 is a flowchart showing a voice transmission method.

【図9】音声伝送方法を示すフローチャートである。FIG. 9 is a flowchart showing a voice transmission method.

【図10】本発明が適用される音声符号化装置とそれに
対応する音声復号装置の第3の実施形態を示すブロック
図である。
FIG. 10 is a block diagram showing a third embodiment of a speech encoding apparatus to which the present invention is applied and a speech decoding apparatus corresponding thereto.

【図11】本発明が適用される音声符号化装置とそれに
対応する音声復号装置の第4の実施形態を示すブロック
図である。
FIG. 11 is a block diagram showing a fourth embodiment of a speech encoding device to which the present invention is applied and a speech decoding device corresponding thereto.

【図12】本発明が適用される音声符号化装置の第4の
実施形態を示すブロック図である。
FIG. 12 is a block diagram showing a fourth embodiment of the speech coding apparatus to which the present invention is applied.

【図13】図7に対応した別の実施例の説明図である。FIG. 13 is an explanatory diagram of another embodiment corresponding to FIG. 7;

【図14】本発明が適用される音声復号装置の第4の実
施形態を示すブロック図である。
FIG. 14 is a block diagram showing a fourth embodiment of the speech decoding device to which the present invention is applied.

【符号の説明】[Explanation of symbols]

1’ 6chミクス&マトリクス回路(相関手段、ダウン
ミクス手段) 13D1、13D2、15D1〜15D4 予測回路
(バッファ・選択器14D1、14D2、16D1〜1
6D4と共に予測符号化手段を構成する。) 14D1、14D2、16D1〜16D4 バッファ・
選択器 19 フォーマット化回路(フォーマット化手段)
1 '6ch mix & matrix circuit (correlation means, downmix means) 13D1, 13D2, 15D1-15D4 Prediction circuit (buffer / selector 14D1, 14D2, 16D1-1)
Together with 6D4, it constitutes a predictive coding means. 14D1, 14D2, 16D1-16D4 buffer
Selector 19 Formatting circuit (Formatting means)

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04S 3/02 G10L 9/14 J ──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 7 Identification symbol FI Theme coat ゛ (Reference) H04S 3/02 G10L 9/14 J

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】元のマルチチャネルの音声信号をダウンミ
クスしてステレオ2チャネルの音声信号に変換するステ
ップと、 前記ダウンミクスされない元のチャネルの複数チャネル
の各音声信号を所定のマトリクス演算により相関性のあ
る音声信号に変換するステップと、 前記ステレオ2チャネルと前記相関性のある音声信号の
チャネル毎に入力される音声信号に応答して先頭サンプ
ル値を得ると共に、時間領域の過去の信号から予測され
る現在の信号の複数の予測値の中でその予測残差が最小
値となる線形予測方法を選択するステップと、 前記ステップによって選択された線形予測方法と予測残
差と所定の先頭サンプル値とを含む予測符号化データを
所定のビットストリームにフォーマット化するステップ
と、からなる音声符号化方法。
1. Downmixing an original multi-channel audio signal to convert it into a stereo 2-channel audio signal; and correlating each of the plurality of original audio signals which are not down-mixed by a predetermined matrix operation. Converting to a stereophonic audio signal; and obtaining a first sample value in response to the audio signal input for each channel of the stereo two channels and the correlated audio signal, and from a past signal in the time domain. Selecting a linear prediction method whose prediction residual is a minimum value among a plurality of prediction values of the current signal to be predicted; and a linear prediction method selected by the step, the prediction residual, and a predetermined first sample. And a step of formatting predicted encoded data including a value into a predetermined bit stream.
JP2000325670A 1998-11-16 2000-10-25 Audio coding device Expired - Lifetime JP3387096B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000325670A JP3387096B2 (en) 1998-11-16 2000-10-25 Audio coding device

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP34239698 1998-11-16
JP10-342352 1998-11-16
JP34235298 1998-11-16
JP10-342396 1998-11-16
JP2000325670A JP3387096B2 (en) 1998-11-16 2000-10-25 Audio coding device

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP11325947A Division JP2000214887A (en) 1998-11-16 1999-11-16 Sound coding device, optical record medium sound decoding device, sound transmitting method and transmission medium

Publications (2)

Publication Number Publication Date
JP2001195096A true JP2001195096A (en) 2001-07-19
JP3387096B2 JP3387096B2 (en) 2003-03-17

Family

ID=27341042

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000325670A Expired - Lifetime JP3387096B2 (en) 1998-11-16 2000-10-25 Audio coding device

Country Status (1)

Country Link
JP (1) JP3387096B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352396A (en) * 2004-06-14 2005-12-22 Matsushita Electric Ind Co Ltd Sound signal encoding device and sound signal decoding device
WO2011122731A1 (en) * 2010-03-29 2011-10-06 삼성전자 주식회사 Method and apparatus for down-mixing multi-channel audio

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005352396A (en) * 2004-06-14 2005-12-22 Matsushita Electric Ind Co Ltd Sound signal encoding device and sound signal decoding device
WO2005122639A1 (en) * 2004-06-14 2005-12-22 Matsushita Electric Industrial Co., Ltd. Acoustic signal encoding device and acoustic signal decoding device
WO2011122731A1 (en) * 2010-03-29 2011-10-06 삼성전자 주식회사 Method and apparatus for down-mixing multi-channel audio
US9478223B2 (en) 2010-03-29 2016-10-25 Samsung Electronics Co., Ltd. Method and apparatus for down-mixing multi-channel audio

Also Published As

Publication number Publication date
JP3387096B2 (en) 2003-03-17

Similar Documents

Publication Publication Date Title
JP2000148193A (en) Voice encoding device, optical recording medium, voice decoding device and voice transmitting method
JP3387096B2 (en) Audio coding device
JP3356165B2 (en) Audio coding device
JP3387095B2 (en) Audio coding device
JP3356166B2 (en) Audio coding method
JP2000214887A (en) Sound coding device, optical record medium sound decoding device, sound transmitting method and transmission medium
JP3344567B2 (en) Optical recording medium, audio decoding device
JP3344568B2 (en) Audio signal transmission method, audio decoding method
JP3387097B2 (en) Audio encoding method and audio decoding method
JP3606457B2 (en) Audio signal transmission method and audio decoding method
JP4164825B2 (en) Audio signal transmission method and audio decoding method
JP3344574B2 (en) Recording medium, audio decoding device
JP3387089B2 (en) Audio coding device
JP3346387B2 (en) Audio coding method
JP3346390B2 (en) Audio coding method
JP3346545B2 (en) Audio coding device
JP3346388B2 (en) Audio encoding method and audio decoding method
JP3387090B2 (en) Audio coding method
JP2001343999A (en) Sound signal transmission method
JP2000214894A (en) Sound coding device, record medium, sound decoding device, sound transmitting method and transmission medium
JP2000214899A (en) Sound coding device, record medium, sound decoding device, sound transmitting method and transmission medium
JP2000214892A (en) Sound coding device, record medium, sound decoding device, sound transmitting method, and transmission medium
JP2000214893A (en) Sound coding device, record medium, sound decoding device, sound transmitting method and transmission medium
JP2001188596A (en) Voice coding device
JP2001166798A (en) Voice encoding method and voice decoding method

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
R151 Written notification of patent or utility model registration

Ref document number: 3387096

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090110

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100110

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110110

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120110

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120110

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20200110

Year of fee payment: 17

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20200110

Year of fee payment: 17

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20200110

Year of fee payment: 17

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term