JP3606454B2 - Audio signal transmission method and audio decoding method - Google Patents

Audio signal transmission method and audio decoding method Download PDF

Info

Publication number
JP3606454B2
JP3606454B2 JP2001078123A JP2001078123A JP3606454B2 JP 3606454 B2 JP3606454 B2 JP 3606454B2 JP 2001078123 A JP2001078123 A JP 2001078123A JP 2001078123 A JP2001078123 A JP 2001078123A JP 3606454 B2 JP3606454 B2 JP 3606454B2
Authority
JP
Japan
Prior art keywords
audio signal
audio
data
prediction
linear prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001078123A
Other languages
Japanese (ja)
Other versions
JP2001324999A (en
Inventor
美昭 田中
昭治 植野
徳彦 渕上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2001078123A priority Critical patent/JP3606454B2/en
Publication of JP2001324999A publication Critical patent/JP2001324999A/en
Application granted granted Critical
Publication of JP3606454B2 publication Critical patent/JP3606454B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声信号を予測符号化して圧縮した音声信号を伝送する音声信号伝送方法及びその音声信号を復号する音声復号方法に関する。
【0002】
【従来の技術】
音声信号を予測符号化する方法として、本発明者は先の出願(特願平9−289159号)において1チャネル(チャンネル)の原デジタル音声信号に対して、特性が異なる複数の予測器により時間領域における過去の信号から現在の信号の複数の線形予測値を算出し、原デジタル音声信号とこの複数の線形予測値から予測器毎の予測残差を算出し、予測残差の最小値を選択する方法を提案している。
【0003】
【発明が解決しようとする課題】
しかしながら、上記方法では原デジタル音声信号がサンプリング周波数=96kHz、量子化ビット数=20ビット程度の場合にある程度の圧縮効果を得ることができるが、近年のDVDオーディオディスクではこの2倍のサンプリング周波数(=192kHz)が使用され、また、量子化ビット数も24ビットが使用される傾向があるので、圧縮率を改善する必要がある。
【0004】
そこで本発明は、音声信号を予測符号化する場合に圧縮率を改善した音声信号の伝送方法及びその音声信号を復号する音声復号方法を提供することを目的とする。
【0005】
【課題を解決するための手段】
本発明は上記目的を達成するために、以下の1)及び2)記載の手段よりなる。
すなわち、
【0006】
1)少なくともレフト、センタ、ライト、サラウンドレフト及びサラウンドライトの5チャネルを含む第1の複数チャネルのデジタル音声信号を所定のマトリクス演算により互いに同一のサンプリング周波数を有して相関性のある第2の複数チャネルの音声信号に変換するステップと、
前記第2の複数チャネルの音声信号をチャネル毎に、入力される音声信号に応答して、先頭サンプル値を得ると共に、特性が異なる複数の線形予測方法により時間領域の過去から現在の信号の線形予測値がそれぞれ予測され、その予測される線形予測値と前記音声信号とから得られる予測残差が最小となるような線形予測方法を選択するステップと、
ヘッダ情報と、圧縮PCMプライベートヘッダ及びオーディオ圧縮PCMデータ部を含むユーザデータと、を含んだデータ構造にすると共に、前記ステップにより選択された各チャネルの先頭サンプル値と予測残差と線形予測方法を含む予測符号化データを、前記オーディオ圧縮PCMデータ部内に記録し、前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータを前記圧縮PCMプライベートヘッダ内に配置するステップと、からなる音声符号化方法により符号化された音声信号を伝送する音声信号伝送方法であって、
前記選択された先頭サンプル値と予測残差と線形予測方法とを含む予測符号化データと前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータとをパケット化して通信回線を介して伝送することを特徴とする音声信号伝送方法。
2)少なくともレフト、センタ、ライト、サラウンドレフト及びサラウンドライトの5チャネルを含む第1の複数チャネルのデジタル音声信号を所定のマトリクス演算により互いに同一のサンプリング周波数を有して相関性のある第2の複数チャネルの音声信号に変換するステップと、
前記第2の複数チャネルの音声信号をチャネル毎に、入力される音声信号に応答して、先頭サンプル値を得ると共に、特性が異なる複数の線形予測方法により時間領域の過去から現在の信号の線形予測値がそれぞれ予測され、その予測される線形予測値と前記音声信号とから得られる予測残差が最小となるような線形予測方法を選択するステップと、
ヘッダ情報と、圧縮PCMプライベートヘッダ及びオーディオ圧縮PCMデータ部を含むユーザデータと、を含んだデータ構造にすると共に、前記ステップにより選択された各チャネルの先頭サンプル値と予測残差と線形予測方法を含む予測符号化データを、前記オーディオ圧縮PCMデータ部内に記録し、前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータを前記圧縮PCMプライベートヘッダ内に配置するステップと、からなる音声符号化方法により符号化されたデータから元の音声信号を復号する音声復号方法であって、
前記選択された先頭サンプル値と予測残差と線形予測方法を含む予測符号化データから予測値を算出するステップと、
この算出された予測値から前記第1の複数チャネルのデジタル音声信号を復元するステップと、
からなる音声復号方法。
【0007】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。図1は本発明を適用した音声符号化装置とそれに対応する音声復号装置の第1の実施形態を示すブロック図、図2は図1の符号化部を詳しく示すブロック図、図3は図1の復号化部を詳しく示すブロック図、図4はDVDのパックのフォーマットを示す説明図、図5はDVDのオーディオパックのフォーマットを示す説明図、図6、図7は音声伝送方法を示すフローチャートである。
【0008】
ここで、マルチチャネル方式としては次の4つの方式が知られている。
(1)ドルビーサラウンド方式
前方L、C、Rの3チャネル+後方Sの1チャネルの合計4チャネル
(2)ドルビーAC−3方式
前方L、C、R、SWの4チャネル+後方SL、SRの2チャネルの合計6チャネル
(3)DTS(Digital Theater System)方式
ドルビーAC−3方式と同様に6チャネル(L、C、R、SW、SL、SR)
(4)SDDS(Sony Dynamic Digital Sound)方式
前方L、LC、C、RC、R、SWの6チャネル+後方SL、SRの2チャネルの合計8チャネル
【0009】
図1に示す符号化側の5チャネル(ch)相関回路1は、マルチチャネル信号の一例としてレフト(L)、センタ(C)、ライト(R)、サラウンドレフト(SL)及びサラウンドライト(SR)の5chのPCMデータを、Lchを基準として次の5ch(L)、(D1)〜(D4)に変換して図2に詳しく示す符号化部2に出力する。
L =L(基準チャネル)
D1=C−(L+R)/2
D2=R−L
D3=SL−a×L
D4=SR−b×R
ただし、0≦a,b≦1
【0010】
符号化部2は図2に詳しく示すように各ch(L)、(D1)〜(D4)のPCMデータを予測符号化し、これを記録媒体や通信媒体を介して復号側に伝送する。復号側では図3に詳しく示す復号化部3により各ch(L)、(D1)〜(D4)の予測符号化データを復号し、次いで5チャネル相関回路4により次のように元の5chを復元する。
R=(R−L)+L
C=C−(L+R)/2+L/2+R/2
SL=SL−a×L+a×L
SR=SR−b×R+b×R
【0011】
図2を参照して符号化部2について詳しく説明する。各ch(L)、(D1)〜(D4)のPCMデータは1フレーム毎に1フレームバッファ10に格納される。そして、1フレームの各chのサンプルデータがそれぞれ予測回路15L、15D1〜15D4に印加されるとともに、各chの1フレームの先頭サンプルデータがフォーマット化回路19に印加される。予測回路15L、15D1〜15D4はそれぞれ、各ch(L)、(D1)〜(D4)のPCMデータに対して、特性が異なる複数の予測器(不図示)により時間領域における過去の信号から現在の信号の複数の線形予測値を算出し、原PCMデータとこの複数の線形予測値から予測器毎の予測残差を算出する。続くバッファ・選択器16L、16D1〜16D4はそれぞれ、予測回路15L、15D1〜15D4により算出された各予測残差を一時記憶して、選択信号生成器17により指定されたサブフレーム毎に予測残差の最小値を選択する。
【0012】
選択信号生成器17は予測残差のビット数フラグをパッキング回路18とフォーマット化回路19に対して印加し、また、予測残差が最小の予測器を示す予測器選択フラグをフォーマット化回路19に対して印加する。パッキング回路18はバッファ・選択器16L、16D1〜16D4により選択された5ch分の予測誤差を、選択信号生成器17により指定されたビット数フラグに基づいて指定ビット数でパッキングする。
【0013】
続くフォーマット化回路19は1フレーム分に対して
・フレームヘッダと、
・各ch(L)、(D1)〜(D4)の1フレームの先頭サンプル値と、
・各ch(L)、(D1)〜(D4)のサブフレーム毎の予測器選択フラグと、
・各ch(L)、(D1)〜(D4)のサブフレーム毎のビット数フラグと、
・各ch(L)、(D1)〜(D4)の予測残差データ列(可変ビット数)とを、
多重化し、可変レートビットストリームとして出力する。このような予測符号化によれば、原信号が例えばサンプリング周波数=96kHz、量子化ビット数=24ビット、5チャネルの場合、71%の圧縮率を実現することができる。
【0014】
次に図3を参照して復号化部3について説明する。上記フォーマットの可変レートビットストリームデータは、デフォーマット化回路21によりフレームヘッダに基づいて分離される。そして、各ch(L)、(D1)〜(D4)の1フレームの先頭サンプルデータと予測器選択フラグはそれぞれ予測回路23L、23D1〜23D4に印加され、各ch(L)、(D1)〜(D4)のビット数フラグと予測残差データ列はアンパッキング回路22に印加される。ここで、予測回路23L、23D1〜23D4内の複数の予測器(不図示)はそれぞれ、符号化側の予測回路15L、15D1〜15D4内の複数の予測器と同一の特性であり、予測器選択フラグにより同一特性のものが選択される。
【0015】
アンパッキング回路22は各ch(L)、(D1)〜(D4)の予測残差データ列をビット数フラグ毎に基づいて分離してそれぞれ予測回路23L、23D1〜23D4に出力する。予測回路23L、23D1〜23D4ではそれぞれ、アンパッキング回路22からの各ch(L)、(D1)〜(D4)の今回の予測残差データと、内部の複数の予測器の内、予測器選択フラグにより選択された各1つにより予測された前回の予測値が加算されて今回の予測値が算出され、次いで1フレームの先頭サンプル値を基準として各サンプル値のPCMデータが算出される。
【0016】
ここで、図2に示す符号化部2により予測符号化された可変レートビットストリームデータを、記録媒体の一例としてDVDオーディオディスクに記録する場合には、図4に示す圧縮PCMのオーディオ(A)パックにパッキングされる。このパックは2034バイトのユーザデータ(Aパケット、Vパケット)に対して4バイトのパックスタート情報と、6バイトのSCR(System Clock Reference:システム時刻基準参照値)情報と、3バイトのMux レート(rate)情報と1バイトのスタッフィングの合計14バイトのパックヘッダが付加されて構成されている(1パック=合計2048バイト)。この場合、タイムスタンプであるSCR情報を、ACBユニット内の先頭パックでは「1」として同一タイトル内で連続とすることにより同一タイトル内のAパックの時間を管理することができる。
【0017】
圧縮PCMのAパケットは図5に詳しく示すように、17、9又は14バイトのパケットヘッダと、圧縮PCMのプライベートヘッダと、図3に示すフォーマットの1ないし2011バイトのオーディオ圧縮PCMデータにより構成されている。圧縮PCMのプライベートヘッダは、
・1バイトのサブストリームIDと、
・2バイトのUPC/EAN−ISRC(Universal Product Code/European Article Number−International Standard Recording Code)番号、及びUPC/EAN−ISRCデータと、
・1バイトのプライベートヘッダ長と、
・2バイトの第1アクセスユニットポインタと、
・8バイトのオーディオデータ情報(ADI)と
・0〜7バイトのスタッフィングバイトとに、
より構成されている。
【0018】
また、図2に示す符号化部2により予測符号化された可変レートビットストリームデータをネットワークを介して伝送する場合には、符号化側では図6に示すように伝送用にパケット化し(ステップS41)、次いでパケットヘッダを付与し(ステップS42)、次いでこのパケットをネットワーク上に送り出す(ステップS43)。復号側では図7に示すようにヘッダを除去し(ステップS51)、次いでデータを復元し(ステップS52)、次いでこのデータをメモリに格納して復号を待つ(ステップS53)。
【0019】
次に図8、図9を参照して第2の実施形態について説明する。上記の実施形態では、1種類の相関性の信号(L)、(D1)〜(D4)を予測符号化するように構成されているが、この第2の実施形態では複数種類の相関性の信号の1種類を選択的に予測符号化するように構成されている。このため図8に示す符号化部では、第1〜第nの相関回路1−1〜1−nが設けられ、このn個の相関回路1−1〜1−nは例えば5ch(L、C、R、SL、SR)のPCMデータを相関性が異なるn種類の5ch信号に変換する。第nの相関回路1−nは例えば以下のように変換する。
L =L(基準チャネル)
D1=C−L
D2=R−L
D3=SL−L
D4=SR−R
【0020】
また、相関回路1−1〜1−n毎に予測回路15L、15D1〜15D4とバッファ・選択器16L、16D1〜16D4が設けられ、グループ毎の予測誤差の最小値のデータ量に基づいて圧縮率が最も高いグループが相関選択信号生成器17bにより選択される。このとき、その選択フラグ(相関回路選択フラグ、その相関回路の相関係数a、b)を追加して多重化する。
【0021】
また、図9に示す復号化側では、符号化側の相関回路1−1〜1−nに対してn個の相関回路4−1〜4−n(又は係数a、bが変更可能な1つの相関回路4)が設けられる。なお、図8に示すnグループの予測回路が同一の構成である場合、復号装置では図9に示すようにnグループ分の予測回路を設ける必要はなく、1つのグループ分の予測回路でよい。そして、符号化装置から伝送された選択フラグに基づいて相関回路4−1〜4−nの1つを選択、又は係数a、bを設定して元の5ch(L、C、R、SL、SR)を復元する。
【0022】
また、上記の第1の実施形態では、1種類の相関性の信号L、D1〜D4を予測符号化するように構成されているが、この信号L、D1〜D4のグループと原信号L、C、R、SL及びSRのグループを予測符号化し、圧縮率が高い方のグループを選択するようにしてもよい。
【0023】
【発明の効果】
以上説明したように本発明によれば、複数チャネルの音声信号を相関性のある第2の複数チャネルの音声信号に変換して予測符号化するようにしたので、音声信号を予測符号化する場合に圧縮率を改善し、その改善した音声信号を伝送し、復号することができる。
【図面の簡単な説明】
【図1】本発明を適用した音声符号化装置とそれに対応する音声復号装置の第1の実施形態を示すブロック図である。
【図2】図1の符号化部を詳しく示すブロック図である。
【図3】図1の復号化部を詳しく示すブロック図である。
【図4】DVDのパックのフォーマットを示す説明図である。
【図5】DVDのオーディオパックのフォーマットを示す説明図である。
【図6】音声伝送方法を示すフローチャートである。
【図7】音声伝送方法を示すフローチャートである。
【図8】第2の実施形態の音声符号化装置を示すブロック図である。
【図9】図8に対応した音声復号装置を示すブロック図である。
【符号の説明】
1,1−1〜1−n,4,4−1〜4−n 相関回路(相関手段)
15L、15D1〜15D4 予測回路(バッファ・選択器16L、16D1〜16D4と共に予測符号化手段を構成する。)
16L、16D1〜16D4 バッファ・選択器
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to an audio signal transmission method for transmitting an audio signal obtained by predictive encoding and compressing an audio signal , and an audio decoding method for decoding the audio signal .
[0002]
[Prior art]
As a method for predictively encoding a speech signal, the present inventor has used a plurality of predictors having different characteristics for the original digital speech signal of one channel (channel) in the previous application (Japanese Patent Application No. 9-289159). Calculate multiple linear prediction values of the current signal from past signals in the region, calculate the prediction residual for each predictor from the original digital speech signal and the multiple linear prediction values, and select the minimum value of the prediction residual Proposed method to do.
[0003]
[Problems to be solved by the invention]
However, in the above method, a certain degree of compression effect can be obtained when the original digital audio signal has a sampling frequency = 96 kHz and the number of quantization bits = 20 bits. = 192 kHz) is used, and the number of quantization bits tends to be 24. Therefore, it is necessary to improve the compression rate.
[0004]
Accordingly, an object of the present invention is to provide an audio signal transmission method with an improved compression rate when an audio signal is predictively encoded, and an audio decoding method for decoding the audio signal .
[0005]
[Means for Solving the Problems]
In order to achieve the above object, the present invention comprises the following means 1) and 2) .
That is,
[0006]
1) A second multi-channel digital audio signal including at least five channels of left, center, right, surround left, and surround right having the same sampling frequency by a predetermined matrix operation and having a correlation with each other. Converting to a multi-channel audio signal;
The second multi-channel audio signal is obtained for each channel in response to the input audio signal, and a head sample value is obtained, and the linearity of the current signal from the past in the time domain is obtained by a plurality of linear prediction methods having different characteristics. Selecting a linear prediction method so that each prediction value is predicted, and a prediction residual obtained from the predicted linear prediction value and the speech signal is minimized;
A data structure including header information, user data including a compressed PCM private header and an audio compressed PCM data portion, and a head sample value, a prediction residual, and a linear prediction method of each channel selected in the above step. Including predictive coded data including the audio compressed PCM data portion, and placing the UPC / EAN-ISRC number and UPC / EAN-ISRC data of the audio signal in the compressed PCM private header. An audio signal transmission method for transmitting an audio signal encoded by an encoding method,
Predictive encoded data including the selected head sample value, prediction residual, and linear prediction method, and the UPC / EAN-ISRC number and UPC / EAN-ISRC data of the speech signal are packetized and transmitted via a communication line. An audio signal transmission method characterized by transmitting.
2) A second multi-channel digital audio signal including at least five channels of left, center, right, surround left, and surround right is correlated with the same sampling frequency by a predetermined matrix operation. Converting to a multi-channel audio signal;
The second multi-channel audio signal is obtained for each channel in response to the input audio signal, and a head sample value is obtained, and the linearity of the current signal from the past in the time domain is obtained by a plurality of linear prediction methods having different characteristics. Selecting a linear prediction method so that each prediction value is predicted, and a prediction residual obtained from the predicted linear prediction value and the speech signal is minimized;
A data structure including header information, user data including a compressed PCM private header and an audio compressed PCM data portion, and a head sample value, a prediction residual, and a linear prediction method of each channel selected in the above step. Including predictive coded data including the audio compressed PCM data portion, and placing the UPC / EAN-ISRC number and UPC / EAN-ISRC data of the audio signal in the compressed PCM private header. An audio decoding method for decoding an original audio signal from data encoded by an encoding method,
Calculating a prediction value from predictive encoded data including the selected first sample value, prediction residual, and linear prediction method;
Restoring the first plurality of channels of digital audio signals from the calculated predicted value;
A speech decoding method comprising:
[0007]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing a first embodiment of a speech encoding apparatus to which the present invention is applied and a speech decoding apparatus corresponding thereto, FIG. 2 is a block diagram showing in detail the encoding unit of FIG. 1, and FIG. FIG. 4 is an explanatory diagram showing a DVD pack format, FIG. 5 is an explanatory diagram showing a DVD audio pack format, and FIGS. 6 and 7 are flowcharts showing an audio transmission method. is there.
[0008]
Here, the following four systems are known as multi-channel systems.
(1) Dolby surround system, 3 channels for forward L, C, R + 1 channel for rear S, 4 channels in total (2) 4 channels of Dolby AC-3 system, forward L, C, R, SW + rear SL, SR 2 channels in total 6 channels (3) 6 channels (L, C, R, SW, SL, SR) in the same way as Dolby AC-3 method (3) DTS (Digital Theater System) method
(4) SDDS (Sony Dynamic Digital Sound) system 6 channels of forward L, LC, C, RC, R, SW + 2 channels of backward SL, SR in total 8 channels
The encoding-side five-channel (ch) correlation circuit 1 shown in FIG. 1 includes, as an example of a multi-channel signal, left (L), center (C), right (R), surround left (SL), and surround right (SR). The 5ch PCM data is converted into the following 5ch (L) and (D1) to (D4) based on the Lch and output to the encoding unit 2 shown in detail in FIG.
L = L (reference channel)
D1 = C- (L + R) / 2
D2 = RL
D3 = SL-a × L
D4 = SR−b × R
However, 0 ≦ a, b ≦ 1
[0010]
As shown in detail in FIG. 2, the encoding unit 2 predictively encodes the PCM data of each channel (L), (D1) to (D4), and transmits this to the decoding side via a recording medium or a communication medium. On the decoding side, the prediction encoded data of each channel (L), (D1) to (D4) is decoded by the decoding unit 3 shown in detail in FIG. 3, and then the original 5 channels are converted by the 5-channel correlation circuit 4 as follows. Restore.
R = (R−L) + L
C = C- (L + R) / 2 + L / 2 + R / 2
SL = SL-a * L + a * L
SR = SR-b * R + b * R
[0011]
The encoding unit 2 will be described in detail with reference to FIG. The PCM data of each channel (L), (D1) to (D4) is stored in one frame buffer 10 for each frame. Then, the sample data of each channel of one frame is applied to the prediction circuits 15L and 15D1 to 15D4, respectively, and the head sample data of one frame of each channel is applied to the formatting circuit 19. Each of the prediction circuits 15L and 15D1 to 15D4 uses a plurality of predictors (not shown) having different characteristics for the PCM data of each channel (L) and (D1) to (D4) from the past signal in the time domain to the present. A plurality of linear prediction values of the signal are calculated, and a prediction residual for each predictor is calculated from the original PCM data and the plurality of linear prediction values. The subsequent buffers / selectors 16L and 16D1 to 16D4 temporarily store the prediction residuals calculated by the prediction circuits 15L and 15D1 to 15D4, respectively, and predict prediction residuals for each subframe specified by the selection signal generator 17. Select the minimum value of.
[0012]
The selection signal generator 17 applies a bit number flag of the prediction residual to the packing circuit 18 and the formatting circuit 19, and also outputs a predictor selection flag indicating the predictor having the smallest prediction residual to the formatting circuit 19. Apply to. The packing circuit 18 packs the prediction errors for 5ch selected by the buffers / selectors 16L and 16D1 to 16D4 with the designated number of bits based on the bit number flag designated by the selection signal generator 17.
[0013]
The formatting circuit 19 that follows is for one frame, a frame header,
The first sample value of one frame of each ch (L), (D1) to (D4),
A predictor selection flag for each subframe of each channel (L), (D1) to (D4);
A bit number flag for each subframe of each channel (L), (D1) to (D4),
A prediction residual data string (number of variable bits) of each ch (L), (D1) to (D4),
Multiplex and output as a variable rate bitstream. According to such predictive coding, when the original signal is, for example, sampling frequency = 96 kHz, the number of quantization bits = 24 bits, and 5 channels, a compression rate of 71% can be realized.
[0014]
Next, the decoding unit 3 will be described with reference to FIG. The variable rate bit stream data in the above format is separated by the deformatting circuit 21 based on the frame header. Then, the head sample data and predictor selection flag of one frame of each ch (L), (D1) to (D4) are applied to the prediction circuits 23L and 23D1 to 23D4, respectively, and each ch (L), (D1) to The bit number flag (D4) and the prediction residual data string are applied to the unpacking circuit 22. Here, the plurality of predictors (not shown) in the prediction circuits 23L and 23D1 to 23D4 have the same characteristics as the plurality of predictors in the prediction circuits 15L and 15D1 to 15D4 on the encoding side, respectively, and are selected by the predictors. The same characteristic is selected by the flag.
[0015]
The unpacking circuit 22 separates the prediction residual data strings of the respective channels (L) and (D1) to (D4) based on the bit number flags and outputs them to the prediction circuits 23L and 23D1 to 23D4, respectively. In the prediction circuits 23L and 23D1 to 23D4, the prediction residual data of each of the channels (L) and (D1) to (D4) from the unpacking circuit 22 and a predictor selected from the plurality of internal predictors are respectively selected. The previous predicted value predicted by each one selected by the flag is added to calculate the current predicted value, and then the PCM data of each sample value is calculated based on the first sample value of one frame.
[0016]
Here, when the variable rate bit stream data predictively encoded by the encoding unit 2 shown in FIG. 2 is recorded on a DVD audio disk as an example of a recording medium, the audio (A) of the compressed PCM shown in FIG. Packed in a pack. This pack has 20 bytes of user data (A packet, V packet), 4 bytes of pack start information, 6 bytes of SCR (System Clock Reference) information, and 3 bytes of Mux rate ( rate) information and a 1-byte stuffing total 14-byte pack header are added (1 pack = total 2048 bytes). In this case, the time of the A pack in the same title can be managed by setting the SCR information as a time stamp as “1” in the first pack in the ACB unit and continuing in the same title.
[0017]
As shown in detail in FIG. 5, the compressed PCM A packet is composed of a 17, 9 or 14 byte packet header, a compressed PCM private header, and audio compressed PCM data of 1 to 2011 bytes in the format shown in FIG. ing. The compressed PCM private header is
A 1-byte substream ID,
2-byte UPC / EAN-ISRC (Universal Product Code / European Articial Number-International Standard Recording Code) number and UPC / EAN-ISRC data;
-1 byte private header length,
A 2-byte first access unit pointer;
・ 8 bytes of audio data information (ADI) ・ 0 to 7 bytes of stuffing bytes
It is made up of.
[0018]
Also, when the variable rate bit stream data predictively encoded by the encoding unit 2 shown in FIG. 2 is transmitted via a network, the encoding side packetizes it for transmission as shown in FIG. 6 (step S41). Then, a packet header is added (step S42), and then the packet is sent out on the network (step S43). As shown in FIG. 7, the decoding side removes the header (step S51), then restores the data (step S52), then stores this data in the memory and waits for decoding (step S53).
[0019]
Next, a second embodiment will be described with reference to FIGS. In the above-described embodiment, one type of correlation signal (L), (D1) to (D4) is configured to be predictively encoded. In the second embodiment, a plurality of types of correlation signals are used. It is configured to selectively predict and encode one type of signal. For this reason, the encoding unit shown in FIG. 8 includes first to n-th correlation circuits 1-1 to 1-n, and these n correlation circuits 1-1 to 1-n are, for example, 5ch (L, C , R, SL, SR) PCM data is converted into n types of 5ch signals having different correlations. The n-th correlation circuit 1-n performs conversion as follows, for example.
L = L (reference channel)
D1 = CL
D2 = RL
D3 = SL-L
D4 = SR-R
[0020]
Also, prediction circuits 15L and 15D1 to 15D4 and buffer / selectors 16L and 16D1 to 16D4 are provided for each of the correlation circuits 1-1 to 1-n, and the compression rate is based on the data amount of the minimum value of the prediction error for each group. Is selected by the correlation selection signal generator 17b. At this time, the selection flag (correlation circuit selection flag, correlation coefficients a and b of the correlation circuit) is added and multiplexed.
[0021]
Further, on the decoding side shown in FIG. 9, n correlation circuits 4-1 to 4-n (or coefficients a and b with which the coefficients a and b can be changed are different from the correlation circuits 1-1 to 1-n on the encoding side. Two correlation circuits 4) are provided. When the n groups of prediction circuits shown in FIG. 8 have the same configuration, the decoding device does not need to have n groups of prediction circuits as shown in FIG. Then, one of the correlation circuits 4-1 to 4-n is selected based on the selection flag transmitted from the encoding device, or the coefficients a and b are set and the original 5ch (L, C, R, SL, SR) is restored.
[0022]
In the first embodiment, the signals L and D1 to D4 having one type of correlation are configured to be predictively encoded. The group of the signals L and D1 to D4 and the original signal L, The group of C, R, SL, and SR may be predictively encoded, and the group with the higher compression rate may be selected.
[0023]
【The invention's effect】
As described above, according to the present invention, since a multi-channel audio signal is converted into a correlated second multi-channel audio signal and subjected to predictive encoding, the predictive encoding of the audio signal is performed. In addition, the compression rate can be improved, and the improved audio signal can be transmitted and decoded .
[Brief description of the drawings]
FIG. 1 is a block diagram showing a first embodiment of a speech encoding apparatus to which the present invention is applied and a speech decoding apparatus corresponding to the speech encoding apparatus.
FIG. 2 is a block diagram illustrating in detail an encoding unit in FIG. 1;
FIG. 3 is a block diagram illustrating in detail a decoding unit in FIG. 1;
FIG. 4 is an explanatory diagram showing a DVD pack format;
FIG. 5 is an explanatory diagram showing a format of a DVD audio pack;
FIG. 6 is a flowchart showing an audio transmission method.
FIG. 7 is a flowchart showing an audio transmission method.
FIG. 8 is a block diagram showing a speech encoding apparatus according to a second embodiment.
9 is a block diagram showing a speech decoding apparatus corresponding to FIG.
[Explanation of symbols]
1,1-1 to 1-n, 4,4-1 to 4-n correlation circuit (correlation means)
15L, 15D1 to 15D4 Prediction circuit (composed with the buffer / selectors 16L and 16D1 to 16D4 to form a predictive coding means)
16L, 16D1-16D4 Buffer / Selector

Claims (2)

少なくともレフト、センタ、ライト、サラウンドレフト及びサラウンドライトの5チャネルを含む第1の複数チャネルのデジタル音声信号を所定のマトリクス演算により互いに同一のサンプリング周波数を有して相関性のある第2の複数チャネルの音声信号に変換するステップと、
前記第2の複数チャネルの音声信号をチャネル毎に、入力される音声信号に応答して、先頭サンプル値を得ると共に、特性が異なる複数の線形予測方法により時間領域の過去から現在の信号の線形予測値がそれぞれ予測され、その予測される線形予測値と前記音声信号とから得られる予測残差が最小となるような線形予測方法を選択するステップと、
ヘッダ情報と、圧縮PCMプライベートヘッダ及びオーディオ圧縮PCMデータ部を含むユーザデータと、を含んだデータ構造にすると共に、前記ステップにより選択された各チャネルの先頭サンプル値と予測残差と線形予測方法を含む予測符号化データを、前記オーディオ圧縮PCMデータ部内に記録し、前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータを前記圧縮PCMプライベートヘッダ内に配置するステップと、からなる音声符号化方法により符号化された音声信号を伝送する音声信号伝送方法であって、
前記選択された先頭サンプル値と予測残差と線形予測方法とを含む予測符号化データと前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータとをパケット化して通信回線を介して伝送することを特徴とする音声信号伝送方法。
A second plurality of channels having the same sampling frequency and having a correlation with a plurality of digital audio signals of the first plurality of channels including at least five channels of left, center, right, surround left and surround right by a predetermined matrix operation Converting to an audio signal of
The second multi-channel audio signal is obtained for each channel in response to the input audio signal, and a head sample value is obtained, and the linearity of the current signal from the past in the time domain is obtained by a plurality of linear prediction methods having different characteristics. Selecting a linear prediction method so that each prediction value is predicted, and a prediction residual obtained from the predicted linear prediction value and the speech signal is minimized;
A data structure including header information, user data including a compressed PCM private header and an audio compressed PCM data portion, and a head sample value, a prediction residual, and a linear prediction method of each channel selected in the above step. Including predictive coded data including the audio compressed PCM data portion, and placing the UPC / EAN-ISRC number and UPC / EAN-ISRC data of the audio signal in the compressed PCM private header. An audio signal transmission method for transmitting an audio signal encoded by an encoding method,
Predictive encoded data including the selected head sample value, prediction residual, and linear prediction method, and the UPC / EAN-ISRC number and UPC / EAN-ISRC data of the speech signal are packetized and transmitted via a communication line. An audio signal transmission method characterized by transmitting.
少なくともレフト、センタ、ライト、サラウンドレフト及びサラウンドライトの5チャネルを含む第1の複数チャネルのデジタル音声信号を所定のマトリクス演算により互いに同一のサンプリング周波数を有して相関性のある第2の複数チャネルの音声信号に変換するステップと、A first plurality of channels of digital audio signals including at least five channels of left, center, right, surround left and surround right, and a plurality of correlated second channels having the same sampling frequency by a predetermined matrix operation Converting to an audio signal of
前記第2の複数チャネルの音声信号をチャネル毎に、入力される音声信号に応答して、先頭サンプル値を得ると共に、特性が異なる複数の線形予測方法により時間領域の過去から現在の信号の線形予測値がそれぞれ予測され、その予測される線形予測値と前記音声信号とから得られる予測残差が最小となるような線形予測方法を選択するステップと、The second multi-channel audio signal is obtained for each channel in response to the input audio signal, and a leading sample value is obtained, and the linearity of the current signal from the past in the time domain is obtained by a plurality of linear prediction methods having different characteristics. Selecting a linear prediction method so that each prediction value is predicted, and a prediction residual obtained from the predicted linear prediction value and the speech signal is minimized;
ヘッダ情報と、圧縮PCMプライベートヘッダ及びオーディオ圧縮PCMデータ部を含むユーザデータと、を含んだデータ構造にすると共に、前記ステップにより選択された各チャネルの先頭サンプル値と予測残差と線形予測方法を含む予測符号化データを、前記オーディオ圧縮PCMデータ部内に記録し、前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータを前記圧縮PCMプライベートヘッダ内に配置するステップと、からなる音声符号化方法により符号化されたデータから元の音声信号を復号する音声復号方法であって、A data structure including header information, user data including a compressed PCM private header and an audio compressed PCM data portion, and a head sample value, a prediction residual, and a linear prediction method of each channel selected in the above step. Including predictive coded data including the audio compressed PCM data portion, and placing the UPC / EAN-ISRC number and UPC / EAN-ISRC data of the audio signal in the compressed PCM private header. An audio decoding method for decoding an original audio signal from data encoded by an encoding method,
前記選択された先頭サンプル値と予測残差と線形予測方法を含む予測符号化データから予測値を算出するステップと、Calculating a prediction value from predictive encoded data including the selected first sample value, prediction residual, and linear prediction method;
この算出された予測値から前記第1の複数チャネルのデジタル音声信号を復元するステップと、Restoring the first plurality of channels of digital audio signals from the calculated predicted value;
からなる音声復号方法。A speech decoding method comprising:
JP2001078123A 2001-03-19 2001-03-19 Audio signal transmission method and audio decoding method Expired - Lifetime JP3606454B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001078123A JP3606454B2 (en) 2001-03-19 2001-03-19 Audio signal transmission method and audio decoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001078123A JP3606454B2 (en) 2001-03-19 2001-03-19 Audio signal transmission method and audio decoding method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP10306322A Division JP2000122697A (en) 1998-10-13 1998-10-13 Sound encoder, optical recording medium and sound decorder, and sound transmitting method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2004242809A Division JP4164824B2 (en) 2004-08-23 2004-08-23 Audio signal transmission method and audio decoding method

Publications (2)

Publication Number Publication Date
JP2001324999A JP2001324999A (en) 2001-11-22
JP3606454B2 true JP3606454B2 (en) 2005-01-05

Family

ID=18934778

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001078123A Expired - Lifetime JP3606454B2 (en) 2001-03-19 2001-03-19 Audio signal transmission method and audio decoding method

Country Status (1)

Country Link
JP (1) JP3606454B2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100745688B1 (en) 2004-07-09 2007-08-03 한국전자통신연구원 Apparatus for encoding and decoding multichannel audio signal and method thereof

Also Published As

Publication number Publication date
JP2001324999A (en) 2001-11-22

Similar Documents

Publication Publication Date Title
JP4835642B2 (en) Speech encoding method and speech decoding method
JP3606454B2 (en) Audio signal transmission method and audio decoding method
JP3387089B2 (en) Audio coding device
JP3387091B2 (en) Optical recording medium, audio transmission method and audio decoding method
JP4164824B2 (en) Audio signal transmission method and audio decoding method
JP4244223B2 (en) Speech encoding method and speech decoding method
JP3606455B2 (en) Audio signal transmission method and audio decoding method
JP3387090B2 (en) Audio coding method
JP3354136B2 (en) Audio encoding method, audio signal receiving method, and audio decoding method
JP3606453B2 (en) Audio signal transmission method and audio decoding method
JP3606457B2 (en) Audio signal transmission method and audio decoding method
JP3606456B2 (en) Audio signal transmission method and audio decoding method
JP4244222B2 (en) Speech encoding method and speech decoding method
JP4164825B2 (en) Audio signal transmission method and audio decoding method
JP4244225B2 (en) Speech encoding method and speech decoding method
JP4591611B2 (en) Speech coding method, speech decoding method, and speech signal transmission method
JP4151031B2 (en) Speech encoding method and speech decoding method
JP4148259B2 (en) Speech encoding method and speech decoding method
JP4244224B2 (en) Speech encoding method and speech decoding method
JP4151033B2 (en) Speech encoding method and speech decoding method
JP4151030B2 (en) Speech encoding method and speech decoding method
JP4148260B2 (en) Speech encoding method and speech decoding method
JP2004326136A (en) Voice signal transmitting method and voice decoding method
JP2000122697A (en) Sound encoder, optical recording medium and sound decorder, and sound transmitting method
JP2001188573A (en) Voice coding method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A132

Effective date: 20040622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040930

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071015

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091015

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111015

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121015

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121015

Year of fee payment: 8

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121015

Year of fee payment: 8

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 9

EXPY Cancellation because of completion of term