JP3606456B2 - Audio signal transmission method and audio decoding method - Google Patents

Audio signal transmission method and audio decoding method Download PDF

Info

Publication number
JP3606456B2
JP3606456B2 JP2001131800A JP2001131800A JP3606456B2 JP 3606456 B2 JP3606456 B2 JP 3606456B2 JP 2001131800 A JP2001131800 A JP 2001131800A JP 2001131800 A JP2001131800 A JP 2001131800A JP 3606456 B2 JP3606456 B2 JP 3606456B2
Authority
JP
Japan
Prior art keywords
audio
data
signal
channel
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001131800A
Other languages
Japanese (ja)
Other versions
JP2002006894A (en
Inventor
徳彦 渕上
昭治 植野
美昭 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Victor Company of Japan Ltd
Original Assignee
Victor Company of Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Victor Company of Japan Ltd filed Critical Victor Company of Japan Ltd
Priority to JP2001131800A priority Critical patent/JP3606456B2/en
Publication of JP2002006894A publication Critical patent/JP2002006894A/en
Application granted granted Critical
Publication of JP3606456B2 publication Critical patent/JP3606456B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、音声信号を予測符号化して圧縮するための音声符号化方法により符号化された音声信号を伝送する音声信号伝送方法及びその音声信号を復号する音声復号方法に関する。
【0002】
【従来の技術】
音声信号を予測符号化する方法として、本発明者は先の出願(特願平9−289159号)において1チャネル(チャンネル)の原デジタル音声信号に対して、特性が異なる複数の予測器により時間領域における過去の信号から現在の信号の複数の線形予測値を算出し、原デジタル音声信号と、この複数の線形予測値から予測器毎の予測残差を算出し、この複数の予測残差の最小値を選択する方法を提案している。
【0003】
【発明が解決しようとする課題】
しかしながら、上記方法では原デジタル音声信号がサンプリング周波数=96kHz、量子化ビット数=20ビット程度の場合に、ある程度の圧縮効果を得ることができるが、近年のDVDオーディオディスクではこの2倍のサンプリング周波数(=192kHz)が使用され、また、量子化ビット数も24ビットが使用される傾向があるので、圧縮率を改善する必要がある。また、近年のDVDオーディオディスクでは、マルチチャネルが利用され、チャネル数が最大6となるので圧縮率を改善する必要がある。
【0004】
そこで本発明は、音声信号を予測符号化する場合に圧縮率を改善することができる音声符号化方法により符号化されたデータの伝送方法及び復号方法を提供することを目的とする。
【0005】
【課題を解決するための手段】
本発明は上記目的を達成するために、以下の1)及び2)の手段よりなる。
すなわち、
【0006】
1)3以上のマルチチャネルの音声信号中の少なくとも選択された第1及び第2の2つのチャネルの音声信号をマトリクス演算して互いに相関ある2つの相関チャネルに変換するステップと、
前記ステップにより変換された2つの相関チャネルを含む音声信号を、チャネル毎に、入力される音声信号に応答して先頭サンプル値を得ると共に、特性が異なる複数の線形予測方法により時間領域の過去から現在の信号の線形予測値がそれぞれ予測され、その予測される線形予測値と前記音声信号とから得られる予測残差が最小となるような線形予測方法を選択するステップと、
ヘッダ情報と、圧縮PCMプライベートヘッダ及びオーディオ圧縮PCMデータ部を含むユーザデータと、を含んだデータ構造にすると共に、前記ステップにより選択された各チャネルの先頭サンプル値と予測残差と線形予測方法を含む予測符号化データを、前記オーディオ圧縮PCMデータ部内に記録し、前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータを前記圧縮PCMプライベートヘッダ内に配置するステップからなる音声符号化方法により符号化された音声信号を伝送する音声信号伝送方法であって、
前記選択された先頭サンプル値と予測残差と線形予測方法とを含む予測符号化データと前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータとをパケット化して伝送することを特徴とする音声信号伝送方法。
2)3以上のマルチチャネルの音声信号中の少なくとも選択された第1及び第2の2つのチャネルの音声信号をマトリクス演算して互いに相関ある2つの相関チャネルに変換するステップと、
前記ステップにより変換された2つの相関チャネルを含む音声信号を、チャネル毎に、入力される音声信号に応答して先頭サンプル値を得ると共に、特性が異なる複数の線形予測方法により時間領域の過去から現在の信号の線形予測値がそれぞれ予測され、その予測される線形予測値と前記音声信号とから得られる予測残差が最小となるような線形予測方法を選択するステップと、
ヘッダ情報と、圧縮PCMプライベートヘッダ及びオーディオ圧縮PCMデータ部を含むユーザデータと、を含んだデータ構造にすると共に、前記ステップにより選択された各チャネルの先頭サンプル値と予測残差と線形予測方法を含む予測符号化データを、前記オーディオ圧縮PCMデータ部内に記録し、前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータを前記圧縮PCMプライベートヘッダ内に配置するステップからなる音声符号化方法により符号化されたデータから元の音声信号を復号する音声復号方法であって、
前記選択された先頭サンプル値と予測残差と線形予測方法を含む予測符号化データから予測値を算出するステップと、
この算出された予測値から前記第1の複数チャネルのデジタル音声信号を復元するステップと、
からなる音声復号方法。
【0007】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態を説明する。図1は本発明が適用される音声符号化装置とそれに対応した音声復号装置の第1の実施形態を示すブロック図、図2は図1のエンコーダを詳しく示すブロック図、図3は図2のマルチプレクサにより多重化される1フレームのフォーマットを示す説明図、図4はDVDのパックのフォーマットを示す説明図、図5はDVDのオーディオパックのフォーマットを示す説明図、図6は図1のデコーダを詳しく示すブロック図である。
【0008】
図1に示すチャネル相関回路Aは加算回路1aと減算回路1bを有する。加算回路1aは各チャネル(以下、ch)が例えばサンプリング周波数=192kHz、量子化ビット数=24ビットのステレオ2ch信号L、Rの和信号(L+R)を算出して和ch用1chロスレス・エンコーダ2D1に出力し、減算回路1bは差信号(L−R)を算出して差ch用1chロスレス・エンコーダ2D2に出力する。エンコーダ2D1、2D2は図2に詳しく示すように、それぞれ和信号(L+R)、差信号(L−R)の差分Δ(L+R)、Δ(L−R)を予測符号化して記録媒体や通信媒体を介して伝送する。
【0009】
そして、復号側では、図6に詳しく示すようにデコーダ3D1、3D2がそれぞれ各chの予測符号化データを和信号(L+R)、差信号(L−R)に復号し、次いでチャネル相関回路Bがこの和信号(L+R)、差信号(L−R)をステレオ2ch信号L、Rに復元する。
【0010】
図2を参照してエンコーダ2D1、2D2について詳しく説明する。和信号(L+R)と差信号(L−R)は1フレーム毎に1フレームバッファ10に格納される。そして、1フレームの各サンプル値(L+R)、(L−R)がそれぞれ差分演算回路11D1、11D2に印加され、今回と前回の差分Δ(L+R)、Δ(L−R)、すなわち差分PCM(DPCM)データが算出される。また、各フレームの先頭サンプル値(L+R)、(L−R)がマルチプレクサ19に印加される。
【0011】
差分演算回路11D1により算出された差分Δ(L+R)は、予測係数が異なる複数の予測器12a−1〜12a−nと減算器13a−1〜13a−nに印加される。そして、予測器12a−1〜12a−nではそれぞれ各予測係数に基づいて差分Δ(L+R)の各予測値が算出され、減算器13a−1〜13b−nではそれぞれこの各予測値と差分Δ(L+R)の各予測残差が算出される。バッファ・選択器16D1はこの複数の予測残差を一時記憶して、選択信号生成器17により指定されたサブフレーム毎に最小の予測残差を選択し、パッキング回路18に出力する。なお、このサブフレームはフレームの数十分の1程度のサンプル長であり、一例として1フレームを80サブフレームとする。ここで、予測器12a−1〜12a−nと減算器13a−1〜13a−nは和信号chの予測回路15D1を構成し、また、この予測回路15D1とバッファ・選択器16D1は和信号chの予測符号化回路を構成している。
【0012】
同様に、差分演算回路11D2により算出された差分Δ(L−R)は、予測係数が異なる複数の予測器12b−1〜12b−nと減算器13b−1〜13b−nに印加される。そして、予測器12b−1〜12b−nではそれぞれ各予測係数に基づいて差分Δ(L−R)の各予測値が算出され、減算器13b−1〜13b−nではそれぞれこの各予測値と差分Δ(L−R)の各予測残差が算出される。バッファ・選択器16D2はこの複数の予測残差を一時記憶して、選択信号生成器17により指定されたサブフレーム毎に最小の予測残差を選択し、パッキング回路18に出力する。予測器12b−1〜12b−nと減算器13b−1〜13b−nは差信号chの予測回路15D2を構成し、また、この予測回路15D2とバッファ・選択器16D2は差信号chの予測符号化回路を構成している。
【0013】
選択信号生成器17は予測残差のビット数フラグ(5ビット)をパッキング回路18とマルチプレクサ19に対して印加し、また、予測残差が最小の予測器を示す予測器選択フラグ(その数nが2〜9個として3ビット)をマルチプレクサ19に対して印加する。パッキング回路18はバッファ・選択器16D1、16D2により選択された2ch分の予測残差を、選択信号生成器17により指定されたビット数フラグに基づいて指定ビット数でパッキングする。
【0014】
続くマルチプレクサ19は図3に示すように1フレーム分に対して
・フレームヘッダ(40ビット)と、
・和信号ch(L+R)の1フレームの先頭サンプル値(25ビット)と、
・差信号ch(L−R)の1フレームの先頭サンプル値(25ビット)と、
・和信号ch(L+R)のサブフレーム毎の予測器選択フラグ(3ビット×80)と、
・差信号ch(L−R)のサブフレーム毎の予測器選択フラグ(3ビット×80)と、
・和信号ch(L+R)のサブフレーム毎のビット数フラグ(5ビット×80)と、
・差信号ch(L−R)のサブフレーム毎のビット数フラグ(5ビット×80)と、
・和信号ch(L+R)の予測残差データ列(可変ビット数)と、
・差信号ch(L−R)の予測残差データ列(可変ビット数)とを
アクセスユニットとして多重化し、可変レートビットストリームとして出力する。上記予測残差データ列はサブパケットを構成する。このような予測符号化によれば、原信号が例えばサンプリング周波数=192kHz、量子化ビット数=24ビット、2チャネルの場合、59%の圧縮率を実現することができる。
【0015】
また、この可変レートビットストリームデータをDVDオーディオディスクに記録する場合には、図4に示す圧縮PCMのオーディオ(A)パックにパッキングされる。このパックは2034バイトのユーザデータ(Aパケット、Vパケット)に対して4バイトのパックスタート情報と、6バイトのSCR(System Clock Reference:システム時刻基準参照値)情報と、3バイトのMux レート(rate)情報と1バイトのスタッフィングの合計14バイトのパックヘッダが付加されて構成されている(1パック=合計2048バイト)。この場合、タイムスタンプであるSCR情報を、ACBユニット内の先頭パックでは「1」として同一タイトル内で連続とすることにより同一タイトル内のAパックの時間を管理することができる。
【0016】
圧縮PCMのAパケットは図5に詳しく示すように、17、9又は14バイトのパケットヘッダと、プライベートヘッダと、図3に示すフォーマットの1ないし2015バイトのオーディオ圧縮PCMデータにより構成されている。圧縮PCMのプライベートヘッダは、
・1バイトのサブストリームIDと、
・2バイトのUPC/EAN−ISRC(Universal Product Code/European Article Number−International Standard Recording Code)番号、及びUPC/EAN−ISRCデータと、
・1バイトのプライベートヘッダ長と、
・2バイトの第1アクセスユニットポインタと、
・4バイトのオーディオデータ情報(ADI)と、
・0〜7バイトのスタッフィングバイトとに、
より構成されている。
このように圧縮PCMのAパケットのADIは、4バイトに選定され、通常の非圧縮のPCMのAパケットのADIよりも4バイトだけ短くされている。したがってオーディオデータは4バイト分増加させることができる。
【0017】
次に図6を参照してデコーダ3D1、3D2について説明する。図3に示したフォーマットの可変レートビットストリームデータは、デマルチプレクサ21によりフレームヘッダに基づいて分離される。そして、和信号ch(L+R)及び差信号ch(L−R)の1フレームの先頭サンプル値はそれぞれ累積演算回路25a、25bに印加され、和信号ch(L+R)及び差信号ch(L−R)の予測器選択フラグはそれぞれ予測器(24a−1〜24a−n)、(24b−1〜24b−n)の各選択信号として印加され、和信号ch(L+R)及び差信号ch(L−R)のビット数フラグと予測残差データ列はアンパッキング回路22に印加される。ここで、予測器(24a−1〜24a−n)、(24b−1〜24b−n)はそれぞれ、符号化側の予測器(12a−1〜12a−n)、(12b−1〜12b−n)と同一の特性であり、予測器選択フラグにより同一特性のものが選択される。
【0018】
アンパッキング回路22は和信号ch(L+R)及び差信号ch(L−R)の予測残差データ列をビット数フラグ毎に基づいて分離してそれぞれ加算回路23a、23bに出力する。加算回路23a、23bではそれぞれ、アンパッキング回路22からの和信号ch(L+R)及び差信号ch(L−R)の今回の予測残差データと、予測器(24a−1〜24a−n)、(24b−1〜24b−n)の内、予測器選択フラグにより選択された各1つにより予測された前回の予測値が加算されて今回の予測値が算出される。この今回の予測値は、図2に示す差分回路11a、11bによりそれぞれ算出された差分Δ(L+R)、Δ(L−R)すなわちDPCMデータであり、予測器(24a−1〜24a−n)、(24b−1〜24b−n)と累積演算回路25a、25bに印加される。
【0019】
累積演算回路25a、25bはそれぞれ、1フレームの先頭サンプル値に対して差分Δ(L+R)、Δ(L−R)をサンプル毎に累積加算して和信号ch(L+R)、差信号ch(L−R)の各PCMデータを出力する。この和信号(L+R)、差信号(L−R)は図1に示すように加算回路4aにより2L信号が算出されるとともに、減算回路4bにより2R信号が算出される。そして、2L信号と2R信号がそれぞれ割り算器5a、5bにより1/2に割り算され、元のステレオ2チャネル信号L、Rが復元される。
【0020】
次に図7、図8を参照して第2の実施形態について説明する。上記の実施形態では、和信号(L+R)、差信号(L−R)の各差分Δ(L+R)、Δ(L−R)、すなわちDPCMデータのみを予測符号化するように構成されているが、この第2の実施形態では和信号(L+R)、差信号(L−R)すなわちPCMデータ、又はその各差分Δ(L+R)、Δ(L−R)すなわちDPCMデータを選択的に予測符号化するように構成されている。
【0021】
このため図7に示す符号化装置では、図2に示す構成に対して和信号(L+R)、差信号(L−R)をそれぞれ予測符号化するための予測回路15A、15Sとバッファ・選択器16A、16Sが追加されている。また、選択信号生成器17はバッファ・選択器16A、16Sによりそれぞれ選択された和信号(L+R)、差信号(L−R)と、バッファ・選択器16D1、16D2によりそれぞれ選択された差分Δ(L+R)、Δ(L−R)の各予測残差の最小値に基づいて、PCMデータとDPCMデータのどちらが圧縮率が高いか否かを判断し、高い方のデータを選択する。このとき、そのPCM/DPCMの選択フラグ(予測回路選択フラグ)を追加して多重化する。
【0022】
ここで、図7に示す和信号(L+R)の予測回路15Aと差分Δ(L+R)の予測回路15D1が同一の構成であり、また、差信号(L−R)の予測回路15Sと差分Δ(L−R)の予測回路15D2が同一の構成である場合、復号装置では図8に示すようにPCMデータとDPCMデータの両方の予測回路を設ける必要はなく、1つのデータ分の予測回路でよい。そして、符号化装置から伝送された予測回路選択フラグに基づいてセレクタ26a、26bにより、DPCMデータの場合には累積演算回路25a、25bの出力を選択し、PCMデータの場合には加算回路23a、23bの出力を選択する。
【0023】
第3の実施形態では図9に示すように、原信号L、R(PCMデータ)と、和信号(L+R)、差信号(L−R)(PCMデータ)と、その各差分Δ(L+R)、Δ(L−R)(DPCMデータ)の3グループの1つを選択的に予測符号化するように構成されている。
【0024】
このため図9に示す符号化装置では、図7に示す構成に対して原信号L、Rをそれぞれ予測符号化するための予測回路15L、15Rとバッファ・選択器16L、16Rが追加されている。また、選択信号生成器17はバッファ・選択器16L、16Rにより選択された原信号L、Rと、バッファ・選択器16A、16Sにより選択された和信号(L+R)、差信号(L−R)と、バッファ・選択器16D1、16D2により選択された各差分Δ(L+R)、Δ(L−R)の各予測残差の最小値に基づいて圧縮率が高いグループのデータを選択する。このとき、その選択フラグ(予測回路選択フラグ)を追加して多重化する。
【0025】
また、図9に示す3グループの予測回路が同一の構成である場合、復号装置では図10に示すように3グループ分の予測回路を設ける必要はなく、1つのグループ分の予測回路でよい。そして、符号化装置から伝送された予測回路選択フラグに基づいて、DPCMデータの場合には累積演算回路25a、25bの出力を選択し、PCMデータの場合には加算回路23a、23bの出力を選択してチャネル相関回路Bにより原信号L、Rを復元する。そして、更にセレクタ27a、27bにより原信号L、Rのグループの場合には加算回路23a、23bの出力を選択し、他の場合にはチャネル相関回路Bの出力を選択する
【0026】
また、符号化側により予測符号化された可変レートビットストリームデータをネットワークを介して伝送する場合には、符号化側では図11に示すように伝送用にパケット化し(ステップS41)、次いでパケットヘッダを付与し(ステップS42)、次いでこのパケットをネットワーク上に送り出す(ステップS43)。復号側では図12に示すようにヘッダを除去し(ステップS51)、次いでデータを復元し(ステップS52)、次いでこのデータをメモリに格納して復号を待つ(ステップS53)。
【0027】
上記第1の実施の形態は2チャネルの場合について説明したが、2以上のマルチチャネルの場合の第2の実施の形態について以下説明する。図13は、本発明の第2の実施の形態を示すブロック図である。図13は、図1の2チャネル用の構成に対して後方の2チャネルSL、SRを加えた4チャネル用として構成され、よって入力側にはチャネル相関回路Aに加えて、同様な構成のチャネル相関回路A2が設けられている。また、出力側にもチャネル相関回路Bに加えて、同様な構成のチャネル相関回路B2が設けられている。また、ロスレス・エンコーダ2Dとロスレス・デコーダ3Dはマルチチャネル対応型として構成されている。なお、チャネル相関回路A、A2、B、B2は、それぞれLとR、SLとSRを組み合わせの対象としている。なお、ロスレス・エンコーダ2Dとロスレス・デコーダ3Dにおける一連の動作である、差分の算出、予測値の算出、最小予測残差の選択、最小予測残差を用いた予測値の算出などは、第1の実施の形態と同様に行われる。
【0028】
次に、第2の実施の形態の変形例としての第3の実施の形態について、そのブロック図を示す図14に沿って説明する。図14は、図13の4チャネル用の構成に対して更にセンタチャネルC及び低音効果チャネルLFEを加えた合計6チャネル用として構成されている。ただし、センタチャネルC、後方の2チャネルSL、SR、及び低周波音効果チャネルLFEはLとRのように相関をとることなく、直接ロスレス・エンコーダ2Dに入力され、また直接ロスレス・デコーダ3Dから出力される。
【0029】
次に、第2の実施の形態及び第3の実施の形態の変形例としての第4の実施の形態について、そのブロック図を示す図15に沿って説明する。図15に示すチャネル相関回路A−1は加算回路1aと減算回路1bを有する。加算回路1aはステレオ2ch信号L、Rの和信号(L+R)を算出し、この和信号(L+R)を割り算器5aにより1/2に割り算してから、ロスレス・エンコーダ2Dに出力し、減算回路1bは差信号(L−R)を算出し、この差信号(L−R)を割り算器5bにより1/2に割り算してから、ロスレス・エンコーダ2Dに出力する。ロスレス・エンコーダ2Dは、1/2(L+R)と1/2(L−R)を用いてこれらを多重化して多重化信号250を作る。多重化信号250はロスレス・デコーダ3Dによりデコードされて、元の1/2(L+R)と1/2(L−R)が得られ、これらが、チャネル相関回路B−1を構成する加算回路4aと減算回路4bにそれぞれ与えられ、出力信号としてステレオ2chのL信号とR信号が得られる。なお、ロスレス・エンコーダ2Dとロスレス・デコーダ3Dにおける一連の動作である、差分の算出、予測値の算出、最小予測残差の選択、最小予測残差を用いた予測値の算出などは、第1の実施の形態と同様に行われる。第4の実施の形態からわかるように、第2、第3の実施の形態におけるチャネル相関回路A、A2はL+R及びL−Rを演算するものに限らず、1/2(L+R)、1/2(L−R)を演算するものに置き換えることができる。この場合、ロスレス・デコーダ3D側のチャネル相関回路B−1では1/2の演算は不要である。
【0030】
なお、先に図3で説明したフォーマットは1例であって、本発明における信号処理において記録あるいは伝送される信号のフォーマットは、これに限られるものでない。マルチチャネルの場合は、図13に対応してL、R信号に加えて、後方2チャネルSL、SRも和信号(SL+SR)と差信号(SL−SR)の形で収納される(図16のa)。また、同様に図14に対応してL、R信号は和信号と差信号の形で収納され、これに加えて、センターチャネルC、後方2チャネルSL、SR、低周波効果チャネルLFEは、そのまま、すなわち和信号や差信号の形をとることなく収納される(図16のb)。
【0031】
図17は、図16に示すようなマルチチャネルの信号を図4のAパックのユーザデータのパケットとするときのフォーマットを示す図である。ビットストリームBS0には、和信号(L+R)と差信号(L−R)が収納され、また他のビットストリームBS1には、図16のaに対応する場合は、和信号(SL+SR)と差信号の(SL−SR)が、一方図16のbに対応する場合は、センターチャネルC、後方2チャネルSL、SR、低周波効果チャネルLFEが、そのまま収納される。
【0032】
図5に示す圧縮PCM(PPCM)のオーディオ(A)パケットの図3と異なる態様を図18に示す。この異なる態様では、圧縮PCM(PPCM)のオーディオ(A)パケットにおけるオーディオデータエリアは、図18に示すように複数のPPCMアクセスユニットにより構成され、PPCMアクセスユニットはPPCMシンク情報とサブパケットにより構成されている。最初のPPCMアクセスユニット内のサブパケットは、ディレクトリと、ビットストリームBS0と、CRCと、ビットストリームBS1と、CRCとエクストラ情報により構成され、ビットストリームBS0,BS1はPPCMブロックのみにより構成されている。2番目以降のPPCMアクセスユニット内のサブパケットは、ディレクトリを除いてビットストリームBS0と、CRCと、ビットストリームBS1と、CRCとエクストラ情報により構成され、フレーム先頭のビットストリームBS0及びBS1はリスタートヘッダとPPCMブロックにより構成されている。フレーム先頭のPPCMブロックにフレーム先頭サンプル値を配する。
【0033】
PPCMシンク情報(以下、同期情報ともいう)は次の情報を含む。
・1パケット当たりのサンプル数:サンプリング周波数fsに応じて40、80又は160が選択される。
・データレート:VBRの場合には「0」(サブパケット内のデータが圧縮データであることを示す識別子)
・サンプリング周波数fs及び量子化ビット数Qb
・チャネル割り当て情報
ここで、リスタートヘッダはフレーム毎にチャネル相関回路Aが加算回路と減算回路で構成されることを明記した情報を有している。これらのオーディオデータは図13と図14においてデマルチプレクサ21以下の構成からなるロスレス・デコーダ3D(図8)により元のマルチチャネルオーディオ信号に復号される。図18に示したフォーマットの可変レートビットストリームデータは、図1のチャネル相関回路を用いたか、図15のチャネル相関回路を用いたかを、例えばPPCMアクセスユニットのリスタートヘッダに格納した識別子(図示せず)で識別するようにしているので、いずれであってもデコーダは確実にデコードできる。なお、フレーム毎のロスレス圧縮を例に説明したが、固定の長さに限らず区間は可変の長さであってもよい。
【0034】
【発明の効果】
以上説明したように本発明によれば、今まで以上に圧縮率を改善した音声信号を伝送し、この音声信号を不都合なく復号することができる。
【図面の簡単な説明】
【図1】本発明が適用される音声符号化装置とそれに対応した音声復号装置の第1の実施形態を示すブロック図である。
【図2】図1のエンコーダを詳しく示すブロック図である。
【図3】図2のマルチプレクサにより多重化される1フレームのフォーマットを示す説明図である。
【図4】DVDのパックのフォーマットを示す説明図である。
【図5】DVDのオーディオパックのフォーマットを示す説明図である。
【図6】図1のデコーダを詳しく示すブロック図である。
【図7】第2の実施形態のエンコーダを示すブロック図である。
【図8】第2の実施形態のデコーダを示すブロック図である。
【図9】第3の実施形態のエンコーダを示すブロック図である。
【図10】第3の実施形態のデコーダを示すブロック図である。
【図11】音声伝送方法を示すフローチャートである。
【図12】音声伝送方法を示すフローチャートである。
【図13】本発明が適用される音声符号化装置とそれに対応した音声復号装置の第2の実施形態を示すブロック図である。
【図14】本発明が適用される音声符号化装置とそれに対応した音声復号装置の第3の実施形態を示すブロック図である。
【図15】本発明が適用される音声符号化装置とそれに対応した音声復号装置の第4の実施形態を示すブロック図である。
【図16】本発明における信号処理において記録あるいは伝送されるマルチチャネル信号のフォーマットの例を示す図である。
【図17】マルチチャネルの信号を図4のAパックのユーザデータのパケットとするときのフォーマットを示す図である。
【図18】図5に示す圧縮PCM(PPCM)のオーディオ(A)パケットの図3と異なる態様を示すフォーマット説明図である。
【符号の説明】
1a、4a 加算回路(加算手段)
1b、4b 減算回路(減算手段)
5a、5b 割り算器
11D1 差分演算回路(第1の差分演算手段)
11D2 差分演算回路(第2の差分演算手段)
12a−1〜12a−n 予測器(減算器13a−1〜13a−n、バッファ・選択器16D1と共に第1の予測符号化手段を構成する。)
12b−1〜12b−n 予測器(減算器13b−1〜13b−n、バッファ・選択器16D2と共に第2の予測符号化手段を構成する。)
13a−1〜13a−n,13b−1〜13b−n 減算器
16D1,16D2,16A,16S,16L,16R バッファ・選択器
15A 予測回路(バッファ・選択器16Aと共に第3の予測符号化手段を構成する。)
15S 予測回路(バッファ・選択器16Sと共に第4の予測符号化手段を構成する。)
15L 予測回路(バッファ・選択器16Lと共に第5の予測符号化手段を構成する。)
15R 予測回路
路(バッファ・選択器16Rと共に第6の予測符号化手段を構成する。)
[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a speech decoding method for decoding an audio signal transmission method and the audio signal to transmit heat the audio signal encoded by the speech encoding method for compressing and predictive coding the speech signal.
[0002]
[Prior art]
As a method for predictively encoding a speech signal, the present inventor has used a plurality of predictors having different characteristics for the original digital speech signal of one channel (channel) in the previous application (Japanese Patent Application No. 9-289159). A plurality of linear prediction values of the current signal are calculated from past signals in the region, a prediction residual for each predictor is calculated from the original digital speech signal and the plurality of linear prediction values, and the prediction residuals are calculated. A method for selecting the minimum value is proposed.
[0003]
[Problems to be solved by the invention]
However, in the above method, when the original digital audio signal has a sampling frequency = 96 kHz and the number of quantization bits = 20 bits, a certain degree of compression effect can be obtained. (= 192 kHz) is used, and since the quantization bit number tends to be 24 bits, it is necessary to improve the compression rate. In recent DVD audio discs, multi-channel is used and the maximum number of channels is 6, so the compression rate needs to be improved.
[0004]
SUMMARY OF THE INVENTION An object of the present invention is to provide a transmission method and a decoding method for data encoded by a speech coding method that can improve the compression rate when predictive coding a speech signal.
[0005]
[Means for Solving the Problems]
In order to achieve the above object, the present invention comprises the following means 1) and 2) .
That is,
[0006]
1) matrix conversion of at least selected first and second two-channel audio signals in three or more multi-channel audio signals into two correlated channels that are correlated with each other;
The audio signal including the two correlation channels converted in the above step is obtained for each channel in response to the input audio signal, and a head sample value is obtained. Selecting a linear prediction method such that each of the linear prediction values of the current signal is predicted, and the prediction residual obtained from the predicted linear prediction value and the speech signal is minimized;
A data structure including header information , user data including a compressed PCM private header and an audio compressed PCM data portion , and a head sample value, a prediction residual, and a linear prediction method of each channel selected in the above step. Audio encoding comprising the steps of: recording predictive encoded data in the audio compressed PCM data section, and placing the UPC / EAN-ISRC number and UPC / EAN-ISRC data of the audio signal in the compressed PCM private header An audio signal transmission method for transmitting an audio signal encoded by the method,
Predictive encoded data including the selected first sample value, prediction residual, and linear prediction method, and UPC / EAN-ISRC number and UPC / EAN-ISRC data of the voice signal are packetized and transmitted. A voice signal transmission method.
2) matrix-calculating at least selected first and second two channels of audio signals among three or more multi-channel audio signals and converting them into two correlated channels;
The audio signal including the two correlation channels converted in the above step is obtained for each channel in response to the input audio signal, and a head sample value is obtained. Selecting a linear prediction method such that each of the linear prediction values of the current signal is predicted, and the prediction residual obtained from the predicted linear prediction value and the speech signal is minimized;
A data structure including header information, user data including a compressed PCM private header and an audio compressed PCM data portion, and a head sample value, a prediction residual, and a linear prediction method of each channel selected in the above step. Audio encoding comprising the steps of: recording predictive encoded data in the audio compressed PCM data section, and placing the UPC / EAN-ISRC number and UPC / EAN-ISRC data of the audio signal in the compressed PCM private header A speech decoding method for decoding an original speech signal from data encoded by the method,
Calculating a prediction value from predictive encoded data including the selected first sample value, prediction residual, and linear prediction method;
Restoring the first plurality of channels of digital audio signals from the calculated predicted value;
A speech decoding method comprising:
[0007]
DETAILED DESCRIPTION OF THE INVENTION
Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a block diagram showing a first embodiment of a speech encoding apparatus to which the present invention is applied and a speech decoding apparatus corresponding to the speech encoding apparatus, FIG. 2 is a block diagram showing in detail the encoder of FIG. 1, and FIG. FIG. 4 is a diagram illustrating the format of a DVD pack, FIG. 5 is a diagram illustrating the format of a DVD audio pack, and FIG. 6 is a diagram illustrating the decoder of FIG. It is a block diagram shown in detail.
[0008]
The channel correlation circuit A shown in FIG. 1 has an addition circuit 1a and a subtraction circuit 1b. The adding circuit 1a calculates a sum signal (L + R) of stereo 2ch signals L and R with each channel (hereinafter referred to as ch) having a sampling frequency of 192 kHz and the number of quantization bits = 24 bits, for example. The subtraction circuit 1b calculates the difference signal (LR) and outputs it to the 1ch lossless encoder 2D2 for the difference channel. As shown in detail in FIG. 2, the encoders 2D1 and 2D2 predictively encode the differences Δ (L + R) and Δ (LR) of the sum signal (L + R) and the difference signal (LR), respectively, to record and communicate media Is transmitted through.
[0009]
On the decoding side, as shown in detail in FIG. 6, the decoders 3D1, 3D2 respectively decode the predicted encoded data of each channel into a sum signal (L + R) and a difference signal (LR), and then the channel correlation circuit B The sum signal (L + R) and difference signal (LR) are restored to stereo 2ch signals L and R.
[0010]
The encoders 2D1 and 2D2 will be described in detail with reference to FIG. The sum signal (L + R) and the difference signal (LR) are stored in one frame buffer 10 for each frame. Then, the sample values (L + R) and (LR) of one frame are applied to the difference calculation circuits 11D1 and 11D2, respectively, and the difference Δ (L + R) and Δ (LR), that is, the difference PCM ( DPCM) data is calculated. In addition, the head sample values (L + R) and (LR) of each frame are applied to the multiplexer 19.
[0011]
The difference Δ (L + R) calculated by the difference calculation circuit 11D1 is applied to a plurality of predictors 12a-1 to 12a-n and subtractors 13a-1 to 13a-n having different prediction coefficients. Each of the predictors 12a-1 to 12a-n calculates each prediction value of the difference Δ (L + R) based on each prediction coefficient, and each of the subtractors 13a-1 to 13b-n calculates each prediction value and the difference Δ. Each prediction residual of (L + R) is calculated. The buffer / selector 16 </ b> D <b> 1 temporarily stores the plurality of prediction residuals, selects the minimum prediction residual for each subframe specified by the selection signal generator 17, and outputs the selected prediction residual to the packing circuit 18. Note that this subframe has a sample length of about one tens of frames, and one frame is 80 subframes as an example. Here, the predictors 12a-1 to 12a-n and the subtractors 13a-1 to 13a-n constitute a prediction circuit 15D1 for the sum signal ch, and the prediction circuit 15D1 and the buffer / selector 16D1 are sum signals ch. The prediction encoding circuit is configured.
[0012]
Similarly, the difference Δ (LR) calculated by the difference calculation circuit 11D2 is applied to a plurality of predictors 12b-1 to 12b-n and subtractors 13b-1 to 13b-n having different prediction coefficients. The predictors 12b-1 to 12b-n calculate the predicted values of the difference Δ (LR) based on the respective prediction coefficients, and the subtracters 13b-1 to 13b-n respectively Each prediction residual of the difference Δ (LR) is calculated. The buffer / selector 16D2 temporarily stores the plurality of prediction residuals, selects the minimum prediction residual for each subframe specified by the selection signal generator 17, and outputs it to the packing circuit 18. The predictors 12b-1 to 12b-n and the subtractors 13b-1 to 13b-n constitute a prediction circuit 15D2 for the difference signal ch. The prediction circuit 15D2 and the buffer / selector 16D2 are prediction codes for the difference signal ch. Circuit.
[0013]
The selection signal generator 17 applies a prediction residual bit number flag (5 bits) to the packing circuit 18 and the multiplexer 19, and also predictor selection flags (the number n) indicating the predictor having the smallest prediction residual. 2 to 9 and 3 bits) is applied to the multiplexer 19. The packing circuit 18 packs the prediction residuals for 2ch selected by the buffers / selectors 16D1 and 16D2 with the designated number of bits based on the bit number flag designated by the selection signal generator 17.
[0014]
The succeeding multiplexer 19 has a frame header (40 bits) for one frame as shown in FIG.
The first sample value (25 bits) of one frame of the sum signal ch (L + R),
The first sample value (25 bits) of one frame of the difference signal ch (LR),
A predictor selection flag (3 bits × 80) for each subframe of the sum signal ch (L + R);
A predictor selection flag (3 bits × 80) for each subframe of the difference signal ch (LR);
A bit number flag (5 bits × 80) for each subframe of the sum signal ch (L + R);
A bit number flag (5 bits × 80) for each subframe of the difference signal ch (LR);
A prediction residual data string (number of variable bits) of the sum signal ch (L + R);
-The prediction residual data string (variable bit number) of the difference signal ch (LR) is multiplexed as an access unit and output as a variable rate bit stream. The prediction residual data string constitutes a subpacket. According to such predictive coding, when the original signal is, for example, sampling frequency = 192 kHz, the number of quantization bits = 24 bits, and 2 channels, a compression rate of 59% can be realized.
[0015]
When this variable rate bit stream data is recorded on a DVD audio disk, it is packed into an audio (A) pack of compressed PCM shown in FIG. This pack has 20 bytes of user data (A packet, V packet), 4 bytes of pack start information, 6 bytes of SCR (System Clock Reference) information, and 3 bytes of Mux rate ( rate) information and a 1-byte stuffing total 14-byte pack header are added (1 pack = total 2048 bytes). In this case, the time of the A pack in the same title can be managed by setting the SCR information as a time stamp as “1” in the first pack in the ACB unit and continuing in the same title.
[0016]
As shown in detail in FIG. 5, the compressed PCM A packet is composed of a 17, 9 or 14 byte packet header, a private header, and audio compressed PCM data of 1 to 2015 bytes in the format shown in FIG. The compressed PCM private header is
A 1-byte substream ID,
2-byte UPC / EAN-ISRC (Universal Product Code / European Articial Number-International Standard Recording Code) number and UPC / EAN-ISRC data;
-1 byte private header length,
A 2-byte first access unit pointer;
-4 bytes of audio data information (ADI),
・ With stuffing byte of 0-7 bytes,
It is made up of.
Thus, the ADI of the compressed PCM A packet is selected to be 4 bytes, which is 4 bytes shorter than the ADI of the normal uncompressed PCM A packet. Therefore, the audio data can be increased by 4 bytes.
[0017]
Next, the decoders 3D1 and 3D2 will be described with reference to FIG. The variable rate bit stream data in the format shown in FIG. 3 is separated by the demultiplexer 21 based on the frame header. Then, the head sample values of one frame of the sum signal ch (L + R) and the difference signal ch (LR) are respectively applied to the accumulation arithmetic circuits 25a and 25b, and the sum signal ch (L + R) and the difference signal ch (LR) are applied. ) Predictor selection flags are applied as selection signals of the predictors (24a-1 to 24a-n) and (24b-1 to 24b-n), respectively, and the sum signal ch (L + R) and difference signal ch (L- The bit number flag (R) and the prediction residual data string are applied to the unpacking circuit 22. Here, the predictors (24a-1 to 24a-n) and (24b-1 to 24b-n) are the predictors (12a-1 to 12a-n) and (12b-1 to 12b-) on the encoding side, respectively. The same characteristics as those in n) are selected by the predictor selection flag.
[0018]
The unpacking circuit 22 separates the prediction residual data strings of the sum signal ch (L + R) and the difference signal ch (LR) based on each bit number flag, and outputs them to the adder circuits 23a and 23b, respectively. In addition circuits 23a and 23b, current prediction residual data of sum signal ch (L + R) and difference signal ch (LR) from unpacking circuit 22, and predictors (24a-1 to 24a-n), Of the (24b-1 to 24b-n), the previous predicted value predicted by each one selected by the predictor selection flag is added to calculate the current predicted value. The current predicted values are the differences Δ (L + R) and Δ (LR) calculated by the difference circuits 11a and 11b shown in FIG. 2, that is, DPCM data, and predictors (24a-1 to 24a-n). , (24b-1 to 24b-n) and the cumulative calculation circuits 25a and 25b.
[0019]
The cumulative calculation circuits 25a and 25b respectively add the differences Δ (L + R) and Δ (LR) for each sample with respect to the first sample value of one frame, and add the sum signal ch (L + R) and difference signal ch (L -R) of each PCM data is output. As for the sum signal (L + R) and the difference signal (LR), a 2L signal is calculated by the adder circuit 4a and a 2R signal is calculated by the subtractor circuit 4b as shown in FIG. Then, the 2L signal and the 2R signal are respectively divided by 1/2 by the dividers 5a and 5b, and the original stereo two-channel signals L and R are restored.
[0020]
Next, a second embodiment will be described with reference to FIGS. The above embodiment is configured to predictively encode only the differences Δ (L + R) and Δ (LR) of the sum signal (L + R) and difference signal (LR), that is, DPCM data. In the second embodiment, the sum signal (L + R), the difference signal (LR), that is, PCM data, or the respective differences Δ (L + R), Δ (LR), that is, DPCM data are selectively predictively encoded. Is configured to do.
[0021]
Therefore, in the encoding device shown in FIG. 7, prediction circuits 15A and 15S and a buffer / selector for predictively encoding the sum signal (L + R) and the difference signal (LR) with respect to the configuration shown in FIG. 16A and 16S are added. In addition, the selection signal generator 17 includes a sum signal (L + R) and a difference signal (LR) selected by the buffers / selectors 16A and 16S, and a difference Δ (respectively selected by the buffers / selectors 16D1 and 16D2. Based on the minimum value of each prediction residual of (L + R) and Δ (LR), it is determined which of the PCM data and DPCM data has the higher compression rate, and the higher data is selected. At this time, the PCM / DPCM selection flag (prediction circuit selection flag) is added and multiplexed.
[0022]
Here, the prediction circuit 15A for the sum signal (L + R) and the prediction circuit 15D1 for the difference Δ (L + R) shown in FIG. 7 have the same configuration, and the difference Δ (L−R) is different from the prediction circuit 15S. LR) prediction circuit 15D2 has the same configuration, the decoding apparatus does not need to provide both PCM data and DPCM data prediction circuits as shown in FIG. . Based on the prediction circuit selection flag transmitted from the encoding device, the selectors 26a and 26b select the outputs of the cumulative arithmetic circuits 25a and 25b in the case of DPCM data, and in the case of PCM data, the addition circuit 23a, Select the output of 23b.
[0023]
In the third embodiment, as shown in FIG. 9, the original signals L and R (PCM data), the sum signal (L + R), the difference signal (LR) (PCM data), and their respective differences Δ (L + R) , Δ (LR) (DPCM data), one of the three groups is selectively predictively encoded.
[0024]
For this reason, in the encoding apparatus shown in FIG. 9, prediction circuits 15L and 15R and buffer / selectors 16L and 16R for predictively encoding the original signals L and R, respectively, are added to the configuration shown in FIG. . The selection signal generator 17 includes the original signals L and R selected by the buffers and selectors 16L and 16R, the sum signal (L + R) and the difference signal (LR) selected by the buffers and selectors 16A and 16S. Then, a group of data with a high compression ratio is selected based on the minimum value of the prediction residuals of the differences Δ (L + R) and Δ (LR) selected by the buffer / selectors 16D1 and 16D2. At this time, the selection flag (prediction circuit selection flag) is added and multiplexed.
[0025]
In addition, when the three groups of prediction circuits shown in FIG. 9 have the same configuration, the decoding apparatus does not need to provide prediction circuits for three groups as shown in FIG. Based on the prediction circuit selection flag transmitted from the encoding device, the output of the cumulative arithmetic circuits 25a and 25b is selected in the case of DPCM data, and the output of the adder circuits 23a and 23b is selected in the case of PCM data. Then, the original signals L and R are restored by the channel correlation circuit B. Further, in the case of the group of the original signals L and R, the outputs of the adder circuits 23a and 23b are selected by the selectors 27a and 27b, and in the other cases, the output of the channel correlation circuit B is selected.
Also, when variable rate bitstream data predictively encoded by the encoding side is transmitted via the network, the encoding side packetizes it for transmission as shown in FIG. 11 (step S41), and then packet header (Step S42), and then the packet is sent out on the network (step S43). As shown in FIG. 12, the decoding side removes the header (step S51), then restores the data (step S52), then stores this data in the memory and waits for decoding (step S53).
[0027]
Although the first embodiment has been described for the case of two channels, the second embodiment for the case of two or more multi-channels will be described below. FIG. 13 is a block diagram showing a second embodiment of the present invention. FIG. 13 is configured for four channels by adding the rear two channels SL and SR to the configuration for two channels in FIG. 1, and therefore, in addition to the channel correlation circuit A on the input side, a channel having the same configuration A correlation circuit A2 is provided. In addition to the channel correlation circuit B, a channel correlation circuit B2 having a similar configuration is also provided on the output side. The lossless encoder 2D and the lossless decoder 3D are configured as a multi-channel compatible type. Note that the channel correlation circuits A, A2, B, and B2 are L and R, and SL and SR, respectively. Note that a series of operations in the lossless encoder 2D and the lossless decoder 3D includes a difference calculation, a prediction value calculation, a selection of a minimum prediction residual, a calculation of a prediction value using the minimum prediction residual, and the like. This is performed in the same manner as in the embodiment.
[0028]
Next, a third embodiment as a modification of the second embodiment will be described with reference to FIG. 14 showing a block diagram thereof. FIG. 14 is configured for a total of 6 channels, in which a center channel C and a bass effect channel LFE are further added to the configuration for 4 channels of FIG. However, the center channel C, the rear two channels SL and SR, and the low-frequency sound effect channel LFE are directly input to the lossless encoder 2D without being correlated like L and R, and directly from the lossless decoder 3D. Is output.
[0029]
Next, a fourth embodiment as a modification of the second embodiment and the third embodiment will be described with reference to FIG. 15 showing a block diagram thereof. The channel correlation circuit A-1 shown in FIG. 15 has an addition circuit 1a and a subtraction circuit 1b. The adder circuit 1a calculates the sum signal (L + R) of the stereo 2ch signals L and R, divides this sum signal (L + R) by ½ by the divider 5a, and then outputs the result to the lossless encoder 2D. 1b calculates a difference signal (LR), divides this difference signal (LR) by 1/2 by a divider 5b, and then outputs it to the lossless encoder 2D. The lossless encoder 2D multiplexes these using 1/2 (L + R) and 1/2 (LR) to create a multiplexed signal 250. The multiplexed signal 250 is decoded by the lossless decoder 3D to obtain the original ½ (L + R) and ½ (LR), which are the addition circuit 4a constituting the channel correlation circuit B-1. Are supplied to the subtracting circuit 4b, and stereo 2ch L and R signals are obtained as output signals. Note that a series of operations in the lossless encoder 2D and the lossless decoder 3D includes a difference calculation, a prediction value calculation, a selection of a minimum prediction residual, a calculation of a prediction value using the minimum prediction residual, and the like. This is performed in the same manner as in the embodiment. As can be seen from the fourth embodiment, the channel correlation circuits A and A2 in the second and third embodiments are not limited to those that calculate L + R and LR, but 1/2 (L + R), 1 / 2 (L−R) can be replaced with one that calculates. In this case, 1/2 calculation is unnecessary in the channel correlation circuit B-1 on the lossless decoder 3D side.
[0030]
Note that the format described above with reference to FIG. 3 is an example, and the format of a signal recorded or transmitted in the signal processing in the present invention is not limited to this. In the case of multi-channel, in addition to the L and R signals corresponding to FIG. 13, the rear two channels SL and SR are also stored in the form of a sum signal (SL + SR) and a difference signal (SL-SR) (FIG. 16). a). Similarly, corresponding to FIG. 14, the L and R signals are stored in the form of a sum signal and a difference signal. In addition to this, the center channel C, the rear two channels SL and SR, and the low frequency effect channel LFE are used as they are. That is, they are stored without taking the form of a sum signal or a difference signal (b in FIG. 16).
[0031]
FIG. 17 is a diagram showing a format when a multi-channel signal as shown in FIG. 16 is used as a packet of user data of the A pack in FIG. The bit stream BS0 contains a sum signal (L + R) and a difference signal (LR), and the other bit stream BS1 has a sum signal (SL + SR) and a difference signal when corresponding to a in FIG. On the other hand, when (SL-SR) corresponds to b in FIG. 16, the center channel C, the rear two channels SL, SR, and the low frequency effect channel LFE are accommodated as they are.
[0032]
FIG. 18 shows an aspect different from FIG. 3 of the audio (A) packet of the compressed PCM (PPCM) shown in FIG. In this different aspect, the audio data area in the compressed PCM (PPCM) audio (A) packet is composed of a plurality of PPCM access units as shown in FIG. 18, and the PPCM access unit is composed of PPCM sync information and subpackets. ing. A subpacket in the first PPCM access unit is composed of a directory, a bit stream BS0, a CRC, a bit stream BS1, a CRC and extra information, and the bit streams BS0 and BS1 are composed only of PPCM blocks. Sub-packets in the second and subsequent PPCM access units are composed of bit stream BS0, CRC, bit stream BS1, CRC, and extra information except for the directory, and the bit streams BS0 and BS1 at the head of the frame are restart headers. And PPCM blocks. The frame head sample value is arranged in the PPCM block at the head of the frame.
[0033]
The PPCM sync information (hereinafter also referred to as synchronization information) includes the following information.
-Number of samples per packet: 40, 80 or 160 is selected according to the sampling frequency fs.
Data rate: “0” in the case of VBR (an identifier indicating that the data in the subpacket is compressed data)
-Sampling frequency fs and number of quantization bits Qb
Channel allocation information Here, the restart header has information specifying that the channel correlation circuit A is composed of an addition circuit and a subtraction circuit for each frame. These audio data are decoded into the original multi-channel audio signal by a lossless decoder 3D (FIG. 8) having a configuration below the demultiplexer 21 in FIGS. The variable rate bit stream data in the format shown in FIG. 18 indicates whether the channel correlation circuit of FIG. 1 or the channel correlation circuit of FIG. 15 was used, for example, an identifier (not shown) stored in the restart header of the PPCM access unit. In any case, the decoder can be surely decoded. In addition, although the lossless compression for every frame was demonstrated to the example, it is not restricted to fixed length, A section may be variable length.
[0034]
【The invention's effect】
As described above, according to the present invention, it is possible to transmit an audio signal whose compression rate is improved more than ever and to decode the audio signal without any inconvenience .
[Brief description of the drawings]
FIG. 1 is a block diagram showing a first embodiment of a speech encoding apparatus to which the present invention is applied and a speech decoding apparatus corresponding thereto.
FIG. 2 is a block diagram showing in detail the encoder of FIG. 1;
3 is an explanatory diagram showing a format of one frame multiplexed by the multiplexer of FIG. 2; FIG.
FIG. 4 is an explanatory diagram showing a DVD pack format;
FIG. 5 is an explanatory diagram showing a format of a DVD audio pack;
FIG. 6 is a block diagram showing in detail the decoder of FIG. 1;
FIG. 7 is a block diagram illustrating an encoder according to a second embodiment.
FIG. 8 is a block diagram illustrating a decoder according to a second embodiment.
FIG. 9 is a block diagram illustrating an encoder according to a third embodiment.
FIG. 10 is a block diagram illustrating a decoder according to a third embodiment.
FIG. 11 is a flowchart illustrating an audio transmission method.
FIG. 12 is a flowchart showing an audio transmission method.
FIG. 13 is a block diagram showing a second embodiment of a speech encoding apparatus to which the present invention is applied and a speech decoding apparatus corresponding to the speech encoding apparatus.
FIG. 14 is a block diagram showing a third embodiment of a speech encoding apparatus to which the present invention is applied and a speech decoding apparatus corresponding thereto.
FIG. 15 is a block diagram showing a fourth embodiment of a speech encoding apparatus to which the present invention is applied and a speech decoding apparatus corresponding thereto.
FIG. 16 is a diagram illustrating an example of a format of a multi-channel signal recorded or transmitted in signal processing according to the present invention.
17 is a diagram showing a format when a multi-channel signal is used as a packet of user data of A pack in FIG.
18 is a format explanatory diagram showing a different aspect of the compressed PCM (PPCM) audio (A) packet shown in FIG. 5 from FIG. 3;
[Explanation of symbols]
1a, 4a Adder circuit (addition means)
1b, 4b Subtraction circuit (subtraction means)
5a, 5b Divider 11D1 Difference calculation circuit (first difference calculation means)
11D2 difference calculation circuit (second difference calculation means)
12a-1 to 12a-n Predictors (the first predictive coding means is configured together with the subtractors 13a-1 to 13a-n and the buffer / selector 16D1)
12b-1 to 12b-n predictor (the second predictive encoding means is configured together with the subtracters 13b-1 to 13b-n and the buffer / selector 16D2)
13a-1 to 13a-n, 13b-1 to 13b-n Subtractors 16D1, 16D2, 16A, 16S, 16L, and 16R Buffer / selector 15A Prediction circuit (the third predictive encoding means together with the buffer / selector 16A Constitute.)
15S prediction circuit (constitutes the fourth predictive encoding means together with the buffer / selector 16S)
15L prediction circuit (constitutes the fifth predictive encoding means together with the buffer / selector 16L)
15R Prediction circuit (forms sixth predictive encoding means together with buffer / selector 16R)

Claims (2)

3以上のマルチチャネルの音声信号中の少なくとも選択された第1及び第2の2つのチャネルの音声信号をマトリクス演算して互いに相関ある2つの相関チャネルに変換するステップと、
前記ステップにより変換された2つの相関チャネルを含む音声信号を、チャネル毎に、入力される音声信号に応答して先頭サンプル値を得ると共に、特性が異なる複数の線形予測方法により時間領域の過去から現在の信号の線形予測値がそれぞれ予測され、その予測される線形予測値と前記音声信号とから得られる予測残差が最小となるような線形予測方法を選択するステップと、
ヘッダ情報と、圧縮PCMプライベートヘッダ及びオーディオ圧縮PCMデータ部を含むユーザデータと、を含んだデータ構造にすると共に、前記ステップにより選択された各チャネルの先頭サンプル値と予測残差と線形予測方法を含む予測符号化データを、前記オーディオ圧縮PCMデータ部内に記録し、前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータを前記圧縮PCMプライベートヘッダ内に配置するステップからなる音声符号化方法により符号化された音声信号を伝送する音声信号伝送方法であって、
前記選択された先頭サンプル値と予測残差と線形予測方法とを含む予測符号化データと前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータとをパケット化して伝送することを特徴とする音声信号伝送方法。
Transforming at least selected first and second two-channel audio signals of three or more multi-channel audio signals into two correlated channels correlated with each other by matrix calculation ;
The audio signal including the two correlation channels converted in the above step is obtained for each channel in response to the input audio signal, and a head sample value is obtained. Selecting a linear prediction method such that each of the linear prediction values of the current signal is predicted, and the prediction residual obtained from the predicted linear prediction value and the speech signal is minimized;
A data structure including header information , user data including a compressed PCM private header and an audio compressed PCM data portion , and a head sample value, a prediction residual, and a linear prediction method of each channel selected in the above step. Audio encoding comprising the steps of: recording predictive encoded data in the audio compressed PCM data section, and placing the UPC / EAN-ISRC number and UPC / EAN-ISRC data of the audio signal in the compressed PCM private header An audio signal transmission method for transmitting an audio signal encoded by the method,
Predictive encoded data including the selected first sample value, prediction residual, and linear prediction method, and UPC / EAN-ISRC number and UPC / EAN-ISRC data of the voice signal are packetized and transmitted. A voice signal transmission method.
3以上のマルチチャネルの音声信号中の少なくとも選択された第1及び第2の2つのチャネルの音声信号をマトリクス演算して互いに相関ある2つの相関チャネルに変換するステップと、Converting at least selected first and second two-channel audio signals of three or more multi-channel audio signals into a matrix by performing a matrix operation on the two correlated channels;
前記ステップにより変換された2つの相関チャネルを含む音声信号を、チャネル毎に、入力される音声信号に応答して先頭サンプル値を得ると共に、特性が異なる複数の線形予測方法により時間領域の過去から現在の信号の線形予測値がそれぞれ予測され、その予測される線形予測値と前記音声信号とから得られる予測残差が最小となるような線形予測方法を選択するステップと、The audio signal including the two correlation channels converted in the above step is obtained for each channel in response to the input audio signal, and a head sample value is obtained. Selecting a linear prediction method such that a linear prediction value of each of the current signals is predicted, and a prediction residual obtained from the predicted linear prediction value and the speech signal is minimized;
ヘッダ情報と、圧縮PCMプライベートヘッダ及びオーディオ圧縮PCMデータ部を含むユーザデータと、を含んだデータ構造にすると共に、前記ステップにより選択された各チャネルの先頭サンプル値と予測残差と線形予測方法を含む予測符号化データを、前記オーディオ圧縮PCMデータ部内に記録し、前記音声信号のUPC/EAN−ISRC番号及びUPC/EAN−ISRCデータを前記圧縮PCMプライベートヘッダ内に配置するステップからなる音声符号化方法により符号化されたデータから元の音声信号を復号する音声復号方法であって、A data structure including header information, user data including a compressed PCM private header and an audio compressed PCM data portion, and a head sample value, a prediction residual, and a linear prediction method of each channel selected in the above step. Audio encoding comprising the steps of: recording predictive encoded data in the audio compressed PCM data section, and placing the UPC / EAN-ISRC number and UPC / EAN-ISRC data of the audio signal in the compressed PCM private header A speech decoding method for decoding an original speech signal from data encoded by the method,
前記選択された先頭サンプル値と予測残差と線形予測方法を含む予測符号化データから予測値を算出するステップと、Calculating a prediction value from predictive encoded data including the selected first sample value, prediction residual, and linear prediction method;
この算出された予測値から前記第1の複数チャネルのデジタル音声信号を復元するステップと、Restoring the first plurality of channels of digital audio signals from the calculated predicted value;
からなる音声復号方法。A speech decoding method comprising:
JP2001131800A 1998-10-13 2001-04-27 Audio signal transmission method and audio decoding method Expired - Fee Related JP3606456B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001131800A JP3606456B2 (en) 1998-10-13 2001-04-27 Audio signal transmission method and audio decoding method

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP30634998 1998-10-13
JP34235298 1998-11-16
JP10-306349 1998-11-16
JP10-342352 1998-11-16
JP2001131800A JP3606456B2 (en) 1998-10-13 2001-04-27 Audio signal transmission method and audio decoding method

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP29170299A Division JP3342001B2 (en) 1998-10-13 1999-10-13 Recording medium, audio decoding device

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2004243781A Division JP4148203B2 (en) 1998-10-13 2004-08-24 Audio signal transmission method and audio decoding method

Publications (2)

Publication Number Publication Date
JP2002006894A JP2002006894A (en) 2002-01-11
JP3606456B2 true JP3606456B2 (en) 2005-01-05

Family

ID=27338830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001131800A Expired - Fee Related JP3606456B2 (en) 1998-10-13 2001-04-27 Audio signal transmission method and audio decoding method

Country Status (1)

Country Link
JP (1) JP3606456B2 (en)

Also Published As

Publication number Publication date
JP2002006894A (en) 2002-01-11

Similar Documents

Publication Publication Date Title
JP4835646B2 (en) Speech encoding method and speech decoding method
JP4244223B2 (en) Speech encoding method and speech decoding method
JP3606458B2 (en) Audio signal transmission method and audio decoding method
JP3606456B2 (en) Audio signal transmission method and audio decoding method
JP4148260B2 (en) Speech encoding method and speech decoding method
JP4151036B2 (en) Speech encoding method and speech decoding method
JP4148259B2 (en) Speech encoding method and speech decoding method
JP4244225B2 (en) Speech encoding method and speech decoding method
JP4151035B2 (en) Speech encoding method and speech decoding method
JP4196356B2 (en) Speech encoding method and speech decoding method
JP4151029B2 (en) Speech encoding method and speech decoding method
JP4151034B2 (en) Speech encoding method and speech decoding method
JP4151028B2 (en) Speech encoding method and speech decoding method
JP4244226B2 (en) Speech encoding method and speech decoding method
JP4151027B2 (en) Speech encoding method and speech decoding method
JP4151033B2 (en) Speech encoding method and speech decoding method
JP4151032B2 (en) Speech encoding method and speech decoding method
JP4151030B2 (en) Speech encoding method and speech decoding method
JP4244224B2 (en) Speech encoding method and speech decoding method
JP4151031B2 (en) Speech encoding method and speech decoding method
JP4244222B2 (en) Speech encoding method and speech decoding method

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A132

Effective date: 20040625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040930

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20071015

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081015

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20091015

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101015

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111015

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121015

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121015

Year of fee payment: 8

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121015

Year of fee payment: 8

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131015

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees