JP5068429B2

JP5068429B2 - オーディオデータ変換方法およびその装置

Info

Publication number: JP5068429B2
Application number: JP2005005961A
Authority: JP
Inventors: 度亨金; ▼尚▲ ▼煌▲ 金; 殷美 ▼呉▲; 重會金; 亮錫徐; 時和李
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2004-01-13
Filing date: 2005-01-13
Publication date: 2012-11-07
Anticipated expiration: 2025-01-13
Also published as: CN1641749A; EP1553563A2; US7620543B2; US20050180586A1; CN1641749B; JP2005202406A; KR20050074040A; DE602005010759D1; EP1553563A3; KR100537517B1; EP1553563B1

Description

本発明は、オーディオデータの処理に係り、特に所定の形式で圧縮されたオーディオデータを他の形式で圧縮されるオーディオデータに変換するオーディオデータ変換方法およびその装置に関する。

ＭＰＥＧ（Moving Picture Experts Group）−２、またはＭＰ３として知られるＭＰＥＧ−１ｌａｙｅｒ３の規格を用いたオーディオ機器は、高圧縮効率のＭＰＥＧ−４の規格を用いたオーディオ機器に次第に代わりつつある。代表的な例として、ヨーロッパのデジタルオーディオ放送（ＤＡＢ：Digital Audio Broadcasting）や韓国の地域（Korean terrestrial）デジタルマルチメディア放送（ＤＭＢ：Digital Multimedia Broadcasting）などでは、オーディオおよびビデオ信号処理のいずれもＭＰＥＧ−４技術を採用している。ここで、オーディオ信号処理の場合、ＡＡＣ（Advanced Audio Coding）形式ではなく、ＢＳＡＣ（Bit Sliced Arithmetic Coding）形式が採用されている。また、衛星デジタルマルチメディア放送の場合、オーディオ信号処理技術として、ＡＡＣ形式にＳＢＲ（Spectral Band Replication）技術を組み合わせたａａｃＰｌｕｓ形式を採用している。

また、最近では、ＡＡＣ形式またはＢＳＡＣ形式で圧縮されたオーディオデータを含むコンテンツがオーディオマルチメディア市場に広く普及している。また、来るべきユビキタス（ubiquitous）時代では、ユーザの趣向や環境に適合させて絶えずマルチメディアサービスを提供する必要がある。特に、ユーザが多数のディバイスを保有して多様なコンテンツが全世界的に使われる状況を迎えつつあり、ユーザの趣向や環境に適したマルチメディアサービスに対する要求はさらに強まっている。

ここにおける環境とは、ユーザが使用するネットワークやコンテンツを意味する。このような多様な環境に適したサービスを、ユーザに提供するためのマルチメディアの核となる技術として、スケイラビリティ（scalability）方式および変換方式がある。ここで、スケイラビリティ方式とは、１つのデータを多様な環境に適応可能なように、あらかじめ階層化して作成する方式である。また、変換方式とは、オーディオデータの圧縮形式を所定の形式から他の形式に変換する方式である。

一般に、変換方式では、所定の形式で圧縮されたオーディオ入力データを、完全復号化（fully decoded）してパルス符号変調（ＰＣＭ：Pulse Coding Modulation）されたデータを生成し、この生成したＰＣＭデータを、さらに所望の圧縮形式で完全符号化（fully coded）する方法が主に使用される。このような従来の変換方法は、オーディオ入力データを完全復号化する復号化部を必要とし、所望の形式で完全符号化する符号化部をさらに必要とする。従って、従来の変換方法を用いると、製造コストが上昇するだけでなく、変換にかかる時間が長いという問題点がある。

本発明が解決しようとする技術的課題は、左右チャンネルの付加情報（side information）を利用することで、所定の形式で圧縮されたオーディオ入力データを、迅速に他の形式で圧縮されるオーディオ出力データに変換できるオーディオデータ変換方法を提供することにある。

また、本発明が解決しようとする他の技術的課題は、左右チャンネルの付加情報を利用することで、所定の形式で圧縮されたオーディオ入力データを、迅速に他の形式で圧縮されるオーディオ出力データに変換でき、製造コストを抑えることができるオーディオデータ変換装置を提供することにある。

前記した技術的課題を解決するためになされた本発明によるオーディオデータ変換方法は、オーディオ入力データが圧縮された形式により、オーディオ入力データを無損失復号化する段階および無損失復号化された結果を、オーディオ出力データが圧縮される形式により無損失符号化する段階を備える。

また、前記した無損失復号化する段階は、オーディオ入力データから付加情報を求める段階と、この付加情報を除外したオーディオ入力データを、オーディオ入力データが圧縮された形式によって無損失復号化し、この無損失復号化された結果を量子化データとして生成する段階とを備え、前記した無損失符号化する段階は、量子化データをオーディオ出力データが圧縮される形式により無損失符号化する段階と、この無損失符号化された結果および前記求められた付加情報を組み合わせ、オーディオ出力データを生成する段階とを備えることとしてもよい。

前記した他の技術的課題を解決するためになされた本発明によるオーディオデータ変換装置は、オーディオ入力データが圧縮された形式により前記オーディオ入力データを無損失復号化する復号化部および前記無損失復号化された結果をオーディオ出力データが圧縮される形式により無損失符号化する符号化部より構成される。

また、前記した復号化部は、オーディオ入力データから付加情報を求めるデータアンパッキング部と、この付加情報を除外したオーディオ入力データを、前記オーディオ入力データが圧縮された形式により無損失復号化し、この無損失復号化された結果を、量子化データとして出力する無損失復号化部とを備え、前記した符号化部は、量子化データを前記オーディオ出力データが圧縮される形式により無損失符号化する無損失符号化部と、この無損失符号化された結果および前記付加情報を組み合わせ、オーディオ出力データを生成するデータ組合せ部とを備えることとしてもよい。

本発明によるオーディオデータ変換方法およびその装置によると、左右チャンネルの付加情報の一部が共有されるときには、完全復号化および完全符号化することなく、オーディオ入力データをオーディオ出力データに変換することができるので、製造コストを低減させつつ変換速度を向上させることができる。また、左右チャンネルの付加情報が、一切共有されないときでも、別途の聴覚心理音響モデル部などの構成の必要がなく、オーディオ入力データをオーディオ出力データに変換できるので、従来の変換方法よりも、製造コストを低減させつつ変換速度を向上させることができる。

これにより、多様なアプリケーションでユーザの趣向や環境に適合させて絶えずマルチメディアサービスを提供でき、オーディオデータの圧縮のために、例えば、ＡＡＣ形式とＢＳＡＣ形式とを混用する環境下であっても、ユーザは、迅速に多様な形式のコンテンツを利用することができる。
例えば、ホームネットワークにおいて、ホームゲートウェイが受信したデジタル放送を家庭内のすべての機器に伝送する環境下では、放送を受信する機器の圧縮形式に合わせてオーディオ入力データをオーディオ出力データに、高速かつ容易に変換することができ、家庭内のいかなる機器においてもユーザが所望のサービスを絶えず提供できる。

以下、本発明によるオーディオデータ変換方法およびその装置の実施の形態を、添付した図面を参照しつつ説明する。

（第１実施形態例）
図１は、本発明の第１実施形態例によるオーディオデータ変換方法を説明するフローチャートの例であり、オーディオ入力データを復号化する段階（第１０段階および第１２段階）および復号化された結果を符号化し、オーディオ出力データを求める段階（第１４段階および第１６段階）からなる。

本実施形態例のオーディオデータ変換方法では、オーディオ入力データが圧縮された形式によってオーディオ入力データを無損失復号化する（第１０段階および第１２段階）。

詳しく説明すると、まず、オーディオ入力データから付加情報（side information）を求める（第１０段階）。ここで求めた付加情報には、１ビットのwindow＿shape情報、２ビットのwindow＿sequence情報、４ビットまたは６ビットのmax＿sfb情報または７ビットのscale＿factor＿grouping情報などが含まれる。

ここで、window＿shape情報とは、sine形式またはＫＢＤ（Kaiser−Bessel Derived）形式のウィンド係数のうち一つを選択する情報である。また、window＿sequence情報とは、あるフレームを処理するために使用するウィンドの種類がlong，start，shortおよびstopのうちいずれであるかを示す情報である。また、Max＿sfb情報とは、window＿sequence情報によって決定される情報であり、有効な最大のスケール因子帯域を表す情報である。さらに、scale＿factor＿grouping情報とは、前記したwindow＿sequence情報が、shortである場合にだけ存在する情報であり、８個のウィンドがどのようにグループにまとめられているかを表す情報である。

次に、第１０段階で求めた付加情報を除外したオーディオ入力データ部分を、オーディオ入力データが圧縮された形式によって無損失復号化する（第１２段階）。ここで、無損失復号化された結果は量子化データとして出力される。

第１２段階の後で、無損失復号化された結果である量子化データを、オーディオ出力データが圧縮される形式によって無損失符号化する（第１４段階および第１６段階）。

詳しく説明すると、まず、量子化データをオーディオ出力データが圧縮される形式によって無損失符号化する（第１４段階）。そして、第１４段階において無損失符号化された結果と、第１０段階で求めた付加情報とを組み合わせ、組み合わせた結果をオーディオ出力データとして出力する（第１６段階）。

（第２実施形態例）
次に、図２は、本発明の第２実施形態例によるオーディオデータ変換方法を説明するフローチャートの例であり、オーディオ入力データを復号化する段階（第３０段階ないし第４０段階）および復号化された結果を符号化し、オーディオ出力データを出力する段階（第４２段階ないし第５２段階）からなる。

本実施形態例のオーディオデータ変換方法によれば、まず、オーディオ入力データが圧縮された形式によってオーディオ入力データを無損失復号化する（第３０段階ないし第４０段階）。図２に示した第３０段階および第３２段階は、図１に示した第１０段階および第１２段階にそれぞれ相当し、同じ機能を行うので、それらについての詳細な説明は省略する。

次に、第３２段階の後で、量子化データを逆量子化する（第３４段階）。そして、第３４段階の後で、逆量子化された結果をステレオ処理する（第３６段階）。ここでは、例えば、逆量子化された結果は、ミッドサイド（Ｍ／Ｓ：ＭｉｄＳｉｄｅ）ステレオまたはインテンシティー・ステレオにより処理される。

次に、第３６段階の後で、ステレオ処理された結果を時間領域雑音整形（ＴＮＳ：Temporal Noise Shaping）処理する（第３８段階）。そして、第３８段階の後で、ＴＮＳ処理された結果である周波数領域のデータを時間領域のデータに変換する（第４０段階）。

次に、第４０段階の後で、時間領域のデータをオーディオ出力データが圧縮される形式によって無損失符号化する（第４２段階ないし第５２段階）。

例えば、第４０段階の後で、時間領域のデータを周波数領域のデータに変換する（第４２段階）。第４２段階の後で、周波数領域のデータをＴＮＳ処理する（第４４段階）。ここで、ＴＮＳ処理とは、予測手法により量子化ノイズをあらかじめ調節する処理である。第４４段階の後で、ＴＮＳ処理された結果をステレオ処理する（第４６段階）。第４６段階の後で、ステレオ処理された結果を量子化する（第４８段階）。

このとき、本実施形態例では、マスキング・スレショルド（Masking Threshold）値と類似した情報、例えばスケール因子（Scale Factor）を利用して第４８段階で量子化ノイズを抑制することができる。ここで、マスキング・スレショルド値と類似した情報とは、マスキング・スレショルド値ではないが、マスキング・スレショルド値から導き出すことができる値であり、オーディオ入力データから求めた付加情報に含まれる。

次に、第４８段階の後で、量子化された結果を、オーディオ出力データが圧縮される形式によって無損失符号化する（第５０段階）。そして、第５０段階の後で、無損失符号化された結果と付加情報とを組み合わせ、組み合わせた結果をオーディオ出力データとして決定する（第５２段階）。

本実施形態例のオーディオデータ変換方法は、第３４段階ないし第４０段階のうち、少なくとも一つを有することとしてもよい。このとき、例えば、オーディオデータ変換方法が、第４０段階、第３８段階、第３６段階および第３４段階を有する場合は、オーディオデータ変換方法は、第４２段階、第４４段階、第４６段階および第４８段階を有する。また、例えば、オーディオデータ変換方法が、第３４段階を有する場合には、オーディオデータ変換方法は、第４８段階を有し、また、第３６段階を有する場合は、第４６段階を有し、また、第３８段階を有する場合は、第４４段階を有し、さらに、第４０段階を有する場合は、第４２段階を有する。

また、オーディオ入力データの圧縮された形式、またはオーディオ出力データが圧縮される形式としては、ＢＳＡＣ形式、ＡＣＣ形式またはＴｗｉｎ−ＶＱ形式などがある。ここで、ＡＣＣ形式の場合、ハフマン符号化方式（Huffman coding）を使用し、ＢＳＡＣ形式の場合、算術符号化方式（Arithmetic Coding）を使用する。例えば、オーディオ入力データの圧縮された形式がＢＳＡＣ形式であり、オーディオ出力データの圧出される形式がＡＣＣ形式の場合、図１に示した第１２段階において、算術符号化方式で無損失復号化が行われ、第１４段階においてハフマン符号化方式で無損失符号化が行われる。

（第１実施形態例および第２実施形態例の混用）
一般的に、左右チャンネルは、類似した性質を有するので、付加情報のうち一部を共有して使用する場合が多いが、ごく一部分を共有する場合や、左右チャンネルの付加情報が、一切共有されないこともある。

例えば、オーディオ入力データの圧縮された形式またはオーディオ出力データの圧縮される形式がＢＳＡＣ形式である場合には、左右チャンネルの付加情報の一部が共有されて使われる。しかし、オーディオ入力データの圧縮された形式またはオーディオ出力データの圧縮される形式がＡＣＣ形式である場合には、左右チャンネルの付加情報の一部が共有されることもあり、共有されないこともある。

図３は、ＡＣＣ形式で圧縮されたオーディオ入力データまたは、圧縮されるオーディオ出力データの構造の一例を表す図面である。また、図４は、ＢＳＡＣ形式で圧縮されたオーディオ入力データまたは、圧縮されるオーディオ出力データの構造の一例を表す図面である。

図３に示すように、ＡＣＣ形式で圧縮されたオーディオ入力データまたは、圧縮されるオーディオ出力データの場合、“channel pair element（）”内に１ビットの変数common＿windowを有する。ここで、変数common＿windowは、オーディオデータがステレオである場合、左右チャンネルの付加情報の一部が共有されて使われるか否かを表す。

ここで、common＿windowが「０」である場合、左右チャンネルの付加情報が、一切共有されないことを意味する。このとき、window＿shape情報、window＿sequence情報、max＿sfb情報またはscale＿factor＿grouping情報のうち、いずれも共有されない。
また、common＿windowが「１」である場合、左右チャンネルの付加情報の一部が共有されることを意味する。このとき、window＿shape情報、window＿sequence情報、max＿sfb情報またはscale＿factor＿grouping情報のうち少なくとも一つが共有される。

一方、図４に示したＢＳＡＣ形式で圧縮されたオーディオ入力データまたは圧縮されるオーディオ出力データの場合、変数common＿windowを有さず、左右チャンネルの付加情報の一部が常に共有される。

本実施の形態では、左右チャンネルの付加情報の一部が共有されるときは、図２に示した第２実施形態例のオーディオデータ変換方法ではなく、図１に示した第１実施形態例のオーディオデータ変換方法を利用してオーディオ入力データをオーディオ出力データに変換する。例えば、オーディオ入力データの圧縮された形式がＭＰＥＧ−４ＢＳＡＣ形式であり、オーディオ出力データの圧縮される形式がＭＰＥＧ−２またはＭＰＥＧ−４ＡＣＣ形式であるとき、図１に示した第１実施形態例のオーディオデータ変換方法が利用される。または、オーディオ入力データの圧縮された形式が左右チャンネルの付加情報の一部を共有するＡＣＣ形式であり、オーディオ出力データの圧縮される形式がＢＳＡＣ形式であるときも、第１実施形態例のオーディオデータ変換方法が利用される。

一方、左右チャンネルの付加情報が、一切共有されないときは、図１に示した第１実施形態例のオーディオデータ変換方法でなく、図２に示した第２実施形態例のオーディオデータ変換方法を利用してオーディオ入力データをオーディオ出力データに変換させる。この場合、図２に示した第２実施形態例の第４２段階ないし第５２段階で復号化された結果を符号化するときには、左右チャンネルの付加情報のうち、いずれか１チャンネルの付加情報だけを利用する。このとき、左チャンネルの付加情報を利用するか、または右チャンネルの付加情報を利用するかは、付加情報の使用用途に応じて決定できる。

例えば、左チャンネルの付加情報のうち、window＿sequenceがlongであり、右チャンネルの付加情報のうち、window＿sequenceがshortである場合、左チャンネルの付加情報を利用するか、右チャンネルの付加情報を利用するかは、使用用途に応じて決定される。ここで、いずれの付加情報を利用すると決定した場合であっても、全体フレームを基準とすれば、common＿windowが「１」である場合がまれなために、本実施の形態によるオーディオデータ変換方法の全体の性能に対する影響は少ない。

例えば、オーディオ入力データの圧縮された形式が、左右チャンネルの付加情報を、一切共有しないＭＰＥＧ−２またはＭＰＥＧ−４ＡＣＣ形式であり、オーディオ出力データの圧縮される形式が、ＭＰＥＧ−４ＢＳＡＣ形式であるときには、図２に示した第２実施形態例のオーディオデータ変換方法を利用してオーディオ入力データをオーディオ出力データに変換できる。

ところで、左右チャンネルの付加情報の一部が共有されるか否かは、フレーム別に異なることもある。従って、フレーム別に図１または図２に示したオーディオデータ変換方法をそれぞれ適用することができる。
本実施の形態では、図２に示した第２実施形態例のオーディオデータ変換方法は、現在フレームから左右チャンネルの付加情報の一部を共有するフレームが表れるまでの間、実行される。

本発明の他の実施の形態では、図２に示した第２実施形態例のオーディオデータ変換方法は、現在フレームの以前のフレームから、左右チャンネルの付加情報の一部を共有するフレームが表れるまでの間、実行されることとしてもよい。左右チャンネルの付加情報が異なる多くの理由は、window＿sequenceが違うためである。すなわち、左右チャンネルのうち１つのチャンネルは、longウィンドを使用し、他のチャンネルは、shortウィンドを使用するためである。この場合、longウィンドを使用して処理されるオーディオ入力データを、shortウィンドを使用して処理されるオーディオ出力データに直ちに変換させることができない。

このため、一般的に、longウィンドを使用して処理されるオーディオ入力データを、startウィンドを使用して処理されるオーディオ出力データに変換させた後、startウィンドを使用して処理されるオーディオ入力データを、shortウィンドを使用して処理されるオーディオ出力データに変換させる。
従って、以前フレームから考慮してオーディオ入力データをオーディオ出力データに変換させることが望ましい。すなわち、これは逆変形離散コサイン変換（ＩＭＤＣＴ：Inverse Modified Discrete Cosine Transform）するとき、以前フレームの半分と現在フレームの半分とを分けて処理するオーバーラップ特性および加算（overlap and add）特性のためである。

まず、次の表１のように、フレーム別に異なるビットを有するＡＣＣ形式で圧縮されたオーディオ入力データをＢＳＡＣ形式で圧縮されるオーディオ出力データに変換することを仮定する。

表１において、フレーム１で変数common＿windowは「１」であり、フレーム２からフレーム４までで変数common＿windowは「０」であり、フレーム５とフレーム６とで変数common＿windowは「１」であると仮定する。

このような仮定のもとで、本実施の形態によれば、以前フレーム（フレーム１）の場合、図１に示したオーディオデータ変換方法を適用し、現在フレーム（フレーム２）から左右チャンネルの付加情報の一部を共有するフレーム（フレーム５）が表れるまでの間、すなわちフレーム４まで、図２に示した第２実施形態例のオーディオデータ変換方法を適用できる。

本発明の他の実施の形態によれば、以前フレーム（フレーム１）では、図１に示した第１実施形態例のオーディオデータ変換方法を適用したとしても、現在フレーム（フレーム２）を変換するときに、現在フレーム（フレーム２）の以前フレーム（フレーム１）から左右チャンネルの付加情報の一部を共有するフレーム（フレーム５）が表れるまでの間、すなわちフレーム４までは、図２に示した第２実施形態例のオーディオデータ変換方法を適用する。

（第３実施形態例）
図５は、本発明の第３実施形態例のオーディオデータ変換方法を説明するためのフローチャートの例であり、オーディオ入力データを復号化する段階（第７０段階ないし第８２段階）および復号化された結果を符号化してオーディオ出力データを求める段階（第８４段階ないし第９４段階）からなる。

図５に示した第７０段階および第７２段階は、図２に示した第２実施形態例の第３０段階および第３２段階にそれぞれ相当して同じ機能を行うので、それらについての詳細な説明は省略する。また、図５に示した第７６段階ないし第９４段階は、図２に示した第２実施形態例の第３４段階ないし第５２段階にそれぞれ相当し、同じ機能を行うので、それらについての詳細な説明もやはり省略する。
つまり、図５に示した本実施形態例のオーディオデータ変換方法は、第７４段階をさらに設けることを除外すれば、図２に示した第２実施形態例のオーディオデータ変換方法と同一である。

本実施形態例のオーディオデータ変換方法は、第７２段階の後で、左右チャンネルの付加情報の一部が共有されているか否かを判断する（第７４段階）。
ここで、左右チャンネルの付加情報の一部が共有されないと判断されれば、第７６段階に進む。この場合、本実施形態例のオーディオデータ変換方法は、図２に示した第２実施形態例のオーディオデータ変換方法と同様に、第７６段階ないし第９４段階を行い、変換されたオーディオ出力データを生成する。

このとき、図５に示した本実施形態例のオーディオデータ変換方法は、第２実施形態例のオーディオデータ変換方法と同様に、第７６段階、第７８段階、第８０段階および第８２段階のうち少なくとも一つを有することとしてもよい。
この場合、オーディオデータ変換方法が第７６段階、第７８段階、第８０段階および第８２段階を有する場合は、第９０段階、第８８段階、第８６段階および第８４段階がオーディオデータ変換方法に含まれる。

また、第７４段階において、左右チャンネルの付加情報の一部を共有すると判断されれば、第９２段階に進む。この場合、図５に示した本実施形態例のオーディオデータ変換方法は、図１に示した第１実施形態例のオーディオデータ変換方法と同様に、第１４段階および第１６段階に相当する第９２段階および第９４段階を行って、変換されたオーディオ出力データを生成する。

次に、本発明の実施の形態によるオーディオデータ変換装置の構成および動作を添付した図面を参照しつつ説明する。

（第４実施形態例）
図６は、本発明の第４実施形態例によるオーディオデータ変換装置のブロック図であり、復号化部１１０および符号化部１１２より構成される。

本実施形態例によるオーディオデータ変換装置の復号化部１１０は、入力端子ＩＮ１を介して入力されたオーディオ入力データを圧縮された形式により無損失復号化し、この無損失復号化された結果を符号化部１１２に出力する。

このとき、符号化部１１２は、復号化部１１０から入力された無損失復号化された結果を、オーディオ出力データが圧縮される形式により無損失符号化し、この無損失符号化された結果を、出力端子ＯＵＴ１を介して出力する。

本実施形態例のオーディオデータ変換装置の復号化部１１０および符号化部１１２は、図６に示すように具現できる。すなわち、復号化部１１０は、データアンパッキング（data unpacking）部１３０および無損失復号化部１３２より具現され、符号化部１１２は、無損失符号化部１４０およびデータ組合せ部１４２より具現できる。
図６に示した本実施形態例のオーディオデータ変換装置は、図１に示した第１実施形態例のオーディオデータ変換方法を実行できる。

ここで、図１に示した第１０段階を行うために、データアンパッキング部１３０は、入力端子ＩＮ１を介して入力されたビットストリーム形態のオーディオ入力データをアンパッキングして付加情報を求め、この求めた付加情報をデータ組合せ部１４２に出力し、付加情報が除外されたオーディオ入力データを無損失復号化部１３２に出力する。

次に、第１２段階を行うために、無損失復号化部１３２は、付加情報を除外したオーディオ入力データをデータアンパッキング部１３０から取得し、オーディオ入力データが圧縮された形式により無損失復号化し、無損失復号化された結果を量子化データとして符号化部１１２に出力する。
例えば、オーディオ入力データの圧縮された形式がＢＳＡＣ形式である場合、無損失復号化部１３２は、算術符号化方式で無損失復号化を行う。また、オーディオ入力データの圧縮された形式がＡＣＣ形式である場合、無損失復号化部１３２は、ハフマン符号化方式で無損失復号化を行う。

次に、第１４段階を行うために、無損失符号化部１４０は、無損失復号化部１３２から取得した量子化データを、オーディオ出力データが圧縮される形式により無損失符号化し、この無損失符号化された結果をデータ組合せ部１４２に出力する。
例えば、オーディオ出力データの圧縮される形式がＢＳＡＣ形式である場合、無損失符号化部１４０は、算術符号化方式で無損失符号化を行う。また、オーディオ出力データの圧縮される形式がＡＣＣ形式である場合、無損失符号化部１４０はハフマン符号化方式で無損失符号化を行う。

次に、第１６段階を行うために、データ組合せ部１４２は、無損失符号化部１４０で無損失符号化された結果と、データアンパッキング部１３０から取得した付加情報とを組み合わせ、この組み合わせた結果をオーディオ出力データとして出力端子ＯＵＴ１を介して出力する。

（第５実施形態例）
図７は、本発明の第５実施形態例のオーディオデータ変換装置のブロック図であり、復号化部１６０および符号化部１６２より構成される。ここで、図７に示した復号化部１６０および符号化部１６２は、図６に示した復号化部１１０および符号化部１１２とそれぞれ対応する機能を有する。

本実施形態例のオーディオデータ変換装置において、図７に示したように、復号化部１６０は、データアンパッキング部１８０、無損失復号化部１８２、逆量子化部１８４、第１ステレオ処理部１８６、第１ＴＮＳ部１８８および第１領域変換部１９０より具現される。また、符号化部１６２は、第２領域変換部２１０、第２ＴＮＳ部２１２、第２ステレオ処理部２１４、量子化部２１６、無損失符号化部２１８およびデータ組合せ部２２０より具現される。
図７に示した本実施形態例のオーディオデータ変換装置は、図２に示した第２実施形態例のオーディオデータ変換方法を実行できる。

図２に示した第３０段階および第３２段階をそれぞれ行うデータアンパッキング部１８０および無損失復号化部１８２は、図６に示したデータアンパッキング部１３０および無損失復号化部１３２とそれぞれ同じ機能を有するため、それらについての説明は省略する。

次に、第３４段階を行うために、逆量子化部１８４は、無損失復号化部１８２から取得した量子化データを逆量子化し、逆量子化された結果を第１ステレオ処理部１８６に出力する。そして、第３６段階を行うために、第１ステレオ処理部１８６は、逆量子化部１８４で逆量子化された結果をステレオ処理し、ステレオ処理された結果を第１ＴＮＳ部１８８に出力する。

次に、第３８段階を行うために、第１ＴＮＳ部１８８は、第１ステレオ処理部１８６でステレオ処理された結果をＴＮＳ処理し、ＴＮＳ処理された結果を第１領域変換部１９０に出力する。そして、第４０段階を行うために、第１領域変換部１９０は、第１ＴＮＳ部１８８でＴＮＳ処理された結果である周波数領域のデータを時間領域のデータに変換し、変換された時間領域のデータを符号化部１６２に出力する。

次に、第４２段階を行うために、第２領域変換部２１０は、第１領域変換部１９０から取得した時間領域のデータを、周波数領域のデータに変換し、変換された周波数領域のデータを第２ＴＮＳ部２１２に出力する。そして、第４４段階を行うために、第２ＴＮＳ部２１２は、第２領域変換部２１０から取得した周波数領域のデータをＴＮＳ処理し、ＴＮＳ処理された結果を第２ステレオ処理部２１４に出力する。

次に、第４６段階を行うために、第２ステレオ処理部２１４は、第２ＴＮＳ部２１２でＴＮＳ処理された結果をステレオ処理し、ステレオ処理された結果を量子化部２１６に出力する。そして、第４８段階を行うために、量子化部２１６は、第２ステレオ処理部２１４でステレオ処理された結果を量子化し、量子化された結果を無損失符号化部２１８に出力する。
このとき、データアンパッキング部１８０から取得した付加情報に含まれるマスキング・スレショルド値と類似した情報を利用して、量子化部２１６は、量子化されたノイズを抑制する。

参考までに、従来の変換方法によれば、オーディオ入力データに含まれる付加情報からマスキング・スレショルド値を計算する聴覚心理音響モデル部を別途に設ける必要があり、ここで計算されたマスキング・スレショルド値を利用し、量子化ノイズを抑制する。従って、別途に設けられる聴覚心理音響モデル部により製造コストが上昇するという問題が生じてしまう。

次に、第５０段階を行うために、無損失符号化部２１８は、量子化部２１６で量子化した結果を、オーディオ出力データが圧縮される形式により無損失符号化し、無損失符号化された結果をデータ組合せ部２２０に出力する。そして、第５２段階を行うために、データ組合せ部２２０は、無損失符号化された結果をデータアンパッキング部１８０から取得した付加情報と組み合わせ、この組み合わせた結果をオーディオ出力データとして出力端子ＯＵＴ２を介して出力する。

図７に示した本実施形態例の符号化部１６２は、復号化部１６０で復号化された結果を左右チャンネルの付加情報のうち、いずれか１つのチャンネルの付加情報だけを利用して符号化する。例えば、符号化部１６２でデータアンパッキング部１８０から出力される付加情報を取得する第２領域変換部２１０、第２ＴＮＳ部２１２、第２ステレオ処理部２１４、量子化部２１６、無損失符号化部２１８およびデータ組合せ部２２０は、左右チャンネルの付加情報のうちいずれか１つのチャンネルの付加情報だけを利用して符号化を行う。

本実施形態例では、図７に示した復号化部１６０は、逆量子化部１８４、第１ステレオ処理部１８６、第１ＴＮＳ部１８８および第１領域変換部１９０のうち少なくとも一つを備えることとしてもよい。これに対応して、符号化部１６２は、第２領域変換部２１０、第２ＴＮＳ部２１２、第２ステレオ処理部２１４および量子化部２１６のうち少なくとも一つを備える。例えば、図７に示した復号化部１６０が第１領域変換部１９０、第１ＴＮＳ部１８８、第１ステレオ処理部１８６および逆量子化部１８４を備える場合、符号化部１６２は、第２領域変換部２１０、第２ＴＮＳ部２１２、第２ステレオ処理部２１４および量子化部２１６をそれぞれ備える。

図６に示した第４実施形態例のオーディオデータ変換装置は、左右チャンネルの付加情報の一部が共有されるときに利用され、図７に示した本実施形態例のオーディオデータ変換装置は、左右チャンネルの付加情報が一切、共有されないときに利用することとしてもよい。

また、左右チャンネルの付加情報の一部が共有されるか否かは、フレームごとに変わることがある。従って、フレームごとに、図６に示したオーディオデータ変換装置、または図７に示したオーディオデータ変換装置が適用される。

ここで、図７に示した本実施形態のオーディオデータ変換装置は、現在フレームの以前フレームから、左右チャンネルの付加情報の一部を共有するフレームが表れるまでの間、オーディオ入力データをオーディオ出力データに変換するために適用してもよい。また、本実施形態のオーディオデータ変換装置を、現在フレームから左右チャンネルの付加情報の一部を共有するフレームが表れるまでの間、オーディオ入力データをオーディオ出力データに変換するために適用してもよい。

（第６実施形態例）
図８は、本発明の第６実施形態例によるオーディオデータ変換装置のブロック図であり、復号化部３００、符号化部３０２および検査部３０４より構成される。

図８に示した復号化部３００および符号化部３０２は、図６に示した復号化部１１０および符号化部１１２とそれぞれ対応する機能を有する。

本実施形態例において、図８に示したように復号化部３００は、データアンパッキング部３２０、無損失復号化部３２２、逆量子化部３２４、第１ステレオ処理部３２６、第１ＴＮＳ部３２８および第１領域変換部３３０より具現される。また、符号化部３０２は、第２領域変換部３６０、第２ＴＮＳ部３６２、第２ステレオ処理部３６４、量子化部３６６、無損失符号化部３６８およびデータ組合せ部３７０より具現される。
図８に示した本実施形態例のオーディオデータ変換装置は、図５に示した第３実施形態例のオーディオデータ変換方法を実行することができる。

図８に示したオーディオデータ変換装置は、検査部３０４をさらに備え、検査部３０４で検査された結果を利用して復号化部３００および符号化部３０２の各部を動作させるということを除外すれば、図７に示した第５実施形態例のオーディオデータ変換装置と同様である。従って、本実施形態例のオーディオデータ変換装置において、図７に示した第５実施形態例のオーディオデータ変換装置と異なる部分だけを次の通り説明する。

まず、図５に示した第７４段階を行うために、検査部３０４は、左右チャンネルの付加情報の一部が共有されているか否かを検査し、検査された結果を復号化部３００と符号化部３０２にそれぞれ出力する。このとき、検査部３０４で検査された結果に応答して、すなわち検査された結果を介して左右チャンネルの付加情報の一部が共有されると認識されることで、逆量子化部３２４、第１ステレオ処理部３２６、第１ＴＮＳ部３２８、第１領域変換部３３０、第２領域変換部３６０、第２ＴＮＳ部３６２、第２ステレオ処理部３６４および量子化部３６６は動作する。

本発明は、オーディオデータ変換方法およびその装置に関わる技術分野に効果的に適用可能である。

第１実施形態例によるオーディオデータ変換方法を説明するためのフローチャートである。第２実施形態例によるオーディオデータ変換方法を説明するためのフローチャートである。ＡＣＣ形式で圧縮されたオーディオデータの構造の一例を表す図面である。ＢＳＡＣ形式で圧縮されたオーディオデータの構造の一例を表す図面である。第３実施形態例によるオーディオデータ変換方法を説明するためのフローチャートである。第４実施形態例によるオーディオデータ変換装置のブロック図である。第５実施形態例によるオーディオデータ変換装置のブロック図である。第６実施形態例によるオーディオデータ変換装置のブロック図である。

符号の説明

１１０，１６０，３００復号化部
１１２，１６２，３０２符号化部
１３０，１８０，３２０データアンパッキング部
１３２，１８２，３２２無損失復号化部
１４０，２１８，３６８無損失符号化部
１４２，２２０，３７０データ組合せ部
１８４，３２４逆量子化部
１８６，３２６第１ステレオ処理部
１８８，３２８第１ＴＮＳ部
１９０，３３０第１領域変換部
２１０，３６０第２領域変換部
２１２，３６２第２ＴＮＳ部
２１４，３６４第２ステレオ処理部
２１６，３６６量子化部
３０４検査部

Claims

オーディオ入力データから付加情報を求める段階と、
前記オーディオ入力データが圧縮された形式により前記オーディオ入力データから前記付加情報を除いたデータを無損失復号化し、前記無損失復号化された結果を量子化データとして決定する段階と、
左チャンネル及び右チャンネルの付加情報の一部が互いに共有されるかを判断する段階と、
前記左チャンネル及び右チャンネルの付加情報の一部が互いに共有されることと判断された場合、前記量子化データをオーディオ出力データが圧縮される形式によって無損失符号化する段階と、
前記左チャンネル及び右チャンネルの付加情報の一部が互いに共有されないと判断された場合、前記左チャンネル及び右チャンネルの付加情報を用いて前記量子化データを復号化して時間領域のデータを得て、前記左チャンネル及び右チャンネルの付加情報のうちの一方の付加情報のみを用いて前記時間領域のデータを符号化して得たデータをオーディオ出力データが圧縮される形式によって無損失符号化する段階と、
前記無損失符号化された結果と前記求められた付加情報を組み合わせて前記オーディオ出力データを生成する段階であって、前記左チャンネル及び右チャンネルの付加情報の一部が互いに共有されないと判断された場合は組み合わされる付加情報は、前記時間領域のデータを符号化するのに用いられた前記一方の付加情報のみである、段階とを備えることを特徴とするオーディオデータ変換方法。
前記左チャンネル及び右チャンネルの付加情報の一部が互いに共有されないことと判断された場合、前記左チャンネル及び右チャンネルの付加情報を用いて前記量子化データを復号化して時間領域のデータを得る段階は、
(a1)前記量子化データを逆量子化する段階と、
(a2)この逆量子化された結果をステレオ処理する段階と、
(a3)このステレオ処理された結果をＴＮＳ処理する段階と、
(a4)このＴＮＳ処理された結果である周波数領域のデータを、時間領域のデータに変換する段階と、を含み、前記左チャンネル及び右チャンネルの付加情報のうちの一方の付加情報のみを用いて前記時間領域のデータを符号化してデータを得る段階は、
(b1)前記時間領域のデータを前記周波数領域のデータに変換する段階と、
(b2)この周波数領域のデータをＴＮＳ処理する段階と、
(b3)このＴＮＳ処理された結果をステレオ処理する段階と、
(b4)前記ステレオ処理された結果を量子化する段階を備える
ことを特徴とする請求項１に記載のオーディオデータ変換方法。
前記（ｂ４）段階では、
前記オーディオ入力データから求めた付加情報に含まれる、マスキング・スレショルド（Masking Threshold）値と類似する情報を利用して、量子化ノイズを抑制すること、
を特徴とする請求項２に記載のオーディオデータ変換方法。
フレーム別に行われる前記オーディオデータ変換方法は、
現在フレームの以前フレームから、前記左右チャンネルの付加情報の一部を共有するフレームが表れるまでの間実行されること、
を特徴とする請求項２に記載のオーディオデータ変換方法。
フレーム別に行われる前記オーディオデータ変換方法は、
現在フレームから、前記左右チャンネルの付加情報の一部を共有するフレームが表れるまでの間実行されること、
を特徴とする請求項２に記載のオーディオデータ変換方法。
前記オーディオ入力データが圧縮された形式は、ＢＳＡＣ（Bit Sliced Arithmetic Coding）形式であり、前記オーディオ出力データが圧縮される形式は、ＡＣＣ（Advanced Audio Coding）形式であること、
を特徴とする請求項１に記載のオーディオデータ変換方法。
前記オーディオ入力データが圧縮された形式は、ＡＣＣ形式であり、前記オーディオ出力データが圧縮される形式は、ＢＳＡＣ形式であり、前記ＡＣＣ形式は、左右チャンネルの付加情報の一部を共有すること、
を特徴とする請求項１に記載のオーディオデータ変換方法。
前記オーディオ入力データが圧縮された形式は、ＡＣＣ形式であり、前記オーディオ出力データが圧縮される形式は、ＢＳＡＣ形式であり、前記ＡＣＣ形式は、左右チャンネルの付加情報を、一切共有していないこと、
を特徴とする請求項２に記載のオーディオデータ変換方法。
前記ＡＣＣ形式が属する標準は、ＭＰＥＧ−２またはＭＰＥＧ−４であること、
を特徴とする請求項８に記載のオーディオデータ変換方法。
前記ＢＳＡＣ形式が属する標準は、ＭＰＥＧ−４であること、
を特徴とする請求項７に記載のオーディオデータ変換方法。
オーディオ入力データから付加情報を求めるデータ生成部と、
前記オーディオ入力データから前記付加情報を除いたデータを前記オーディオ入力データが圧縮された形式により無損失復号化し、前記無損失復号化された結果を量子化データとして出力する無損失復号化部と、
左チャンネル及び右チャンネルの付加情報の一部が互いに共有されるかを判断する検査部と、
前記左チャンネル及び右チャンネルの付加情報の一部が互いに共有されることと判断された場合、前記量子化データを前記オーディオ出力データが圧縮される形式により無損失符号化する無損失符号化部と、
前記左チャンネル及び右チャンネルの付加情報の一部が互いに共有されないことと判断された場合、前記左チャンネル及び右チャンネルの付加情報を用いて前記量子化データを復号化して時間領域のデータを得て、前記左チャンネル及び右チャンネルの付加情報のうちの一方の付加情報のみを用いて前記時間領域のデータを符号化して得たデータをオーディオ出力データが圧縮される形式によって無損失符号化する復号化及び符号化手段と、
前記無損失符号化された結果と前記付加情報とを組み合わせて前記オーディオ出力データを生成するデータ組合わせ部であって、前記左チャンネル及び右チャンネルの付加情報の一部が互いに共有されないと判断された場合は組み合わされる付加情報は、前記時間領域のデータを符号化するのに用いられた前記一方の付加情報のみである、データ組合わせ部とを備えること、
を特徴とするオーディオデータ変換装置。
前記検査部で前記左チャンネル及び右チャンネルの付加情報の一部が互いに共有されないことと判断された場合、前記復号化及び符号化手段は、
前記左チャンネル及び右チャンネルの付加情報を用いて前記量子化データを復号化して時間領域のデータを得るため、
前記無損失復号化部から取得した前記量子化データを逆量子化する逆量子化部と、
この逆量子化された結果をステレオ処理する第１ステレオ処理部と、
このステレオ処理された結果をＴＮＳ処理する第１ＴＮＳ部と、
このＴＮＳ処理された結果である周波数領域のデータを、時間領域のデータに変換する第１領域変換部とを含み、
前記左チャンネル及び右チャンネルの付加情報のうちの一方の付加情報のみを用いて前記時間領域のデータを符号化してデータを得るため、
前記時間領域のデータを周波数領域のデータに変換する第２領域変換部と、
この周波数領域のデータをＴＮＳ処理する第２ＴＮＳ部と、
このＴＮＳ処理された結果をステレオ処理する第２ステレオ処理部と、
前記第２ステレオ処理部でステレオ処理された結果を量子化し、前記無損失符号化部に出力する量子化部を備えること、
を特徴とする請求項１１に記載のオーディオデータ変換装置。
前記量子化部は、
前記付加情報に含まれる、マスキング・スレショルド値と類似する情報を利用して、量子化ノイズを抑制すること、
を特徴とする請求項１２に記載のオーディオデータ変換装置。
フレーム別に動作する前記オーディオデータ変換装置は、
現在フレームの以前のフレームから前記左右チャンネルの付加情報の一部を共有するフレームが表れるまでの間動作すること、
を特徴とする請求項１２に記載のオーディオデータ変換装置。
フレーム別に動作する前記オーディオデータ変換装置は、
現在フレームから前記左右チャンネルの付加情報の一部を共有するフレームが表れるまでの間動作すること、
を特徴とする請求項１２に記載のオーディオデータ変換装置。