JP2009080485A

JP2009080485A - オーディオ信号の適応変換装置及びその方法

Info

Publication number: JP2009080485A
Application number: JP2008259476A
Authority: JP
Inventors: Je Ho Nam; ナム、ジェ、ホ; Hae Kwang Kim; キム、ヘ、クァン; Jae Jun Kim; キム、ジェ、ジュン; Jin Woo Hong; ホン、ジン、ウ; Jin-Woong Kim; キム、ジン、ウン; Hyoung Jun Kim; キム、ヒュン、ジュン; Nam Ik Cho; ジョ、ナム、イク; Rin Chul Kim; キム、リン、チョル; Man Bae Kim; キム、マン、ベ
Original assignee: Electronics & Comm Res Inst; Electronics and Telecommunications Research Institute ETRI
Current assignee: Electronics & Comm Res Inst; Electronics and Telecommunications Research Institute ETRI
Priority date: 2002-04-26
Filing date: 2008-10-06
Publication date: 2009-04-16
Also published as: KR100919884B1; JP2005524263A; AU2003227377A1; CN1659507A; EP1499949A4; US20050180578A1; KR20040102093A; EP1499949A1; JP4704030B2; WO2003091870A1; CN1277180C

Abstract

【課題】マルチメディアソースで生成された１つのコンテンツを様々な使用環境のユーザ端末が該コンテンツを使用環境に合うように使用する。
【解決手段】オーディオ信号適応変換装置は、オーディオ信号をユーザ特性、端末器容量及びユーザの適応変換要請に応答するユーザ周辺環境を含む使用環境に合うように、ユーザの雑音環境情報と聴力特性及び選好情報を用いて一つのオーディオコンテンツを各々異なる使用環境と様々なユーザの特性と趣向に適合できるように適応、変換処理の可能な単一ソース複数使用環境を提供する。
【選択図】図１

Description

本発明はオーディオ信号の適応変換装置及びその方法に関し、さらに詳細には様々な使用環境、すなわち、ユーザ特性、ユーザ周辺環境及びユーザ端末能力に適合するようにオーディオ信号を適応変換させる装置及びその方法に関する。

ＭＰＥＧは、ＭＰＥＧ-２１の新しい標準作業項目(ＳＴＡＮＤＡＲＤＷＯＲＫＩＮＧＩＴＥＭ)のデジタルアイテム適応変換(ＤＩＧＩＴＡＬＩＴＥＭＡＤＡＰＴＡＴＩＯＮ，ＤＩＡ）を提示した。デジタルアイテム(ＤＩＧＩＴＡＬＩＴＥＭ，ＤＩ）は、標準化された表現、識別及びメタデータを有する構造化されたデジタルオブジェクト(ＳＴＲＵＣＴＵＲＥＤＤＩＧＩＴＡＬＯＢＪＥＣＴＷＩＴＨＡＳＴＡＮＤＡＲＤＲＥＰＲＥＳＥＮＴＡＴＩＯＮ，ＩＤＥＮＴＩＦＩＣＡＴＩＯＮＡＮＤＭＥＴＡ−ＤＡＴＡ)を意味し、ＤＩＡは、ＤＩがリソース適応変換エンジン(ＲＥＳＯＵＲＣＥＡＤＡＰＴＡＴＩＯＮＥＮＧＩＮＥ)または記述子適応変換エンジン(ＤＥＳＣＲＩＰＴＯＲＡＤＡＰＴＡＴＩＯＮＥＮＧＩＮＥ)で処理されて適応変換されたＤＩを生成するプロセスを意味する。

ここでリソースは、ビデオまたはオーディオクリップ、イメージまたはテキスト項目のように個別的に識別可能な項目を意味し、物理的なオブジェクトを意味することができる。記述子は、ＤＩ内の項目またはコンポーネントに関連した情報を意味する。また、ユーザは、ＤＩの生産者、権利者、分配者及び利用者などを全部含む。メディアリソースは、直接的にデジタル表現が可能なコンテンツを意味する。本明細書においてコンテンツという用語は、ＤＩ、メディアリソース及びリソースのような意味として使われる。

従来の技術によれば、オーディオコンテンツを使用する使用環境、すなわち、ユーザ特性、ユーザ周辺環境及びユーザ端末能力に対する情報を用いて一つのオーディオコンテンツを各々他の使用環境に適合できるように適応変換処理ができる単一ソース複数使用(Ｓｉｎｇｌｅ−ＳｏｕｒｃｅＭｕｌｔｉ−Ｕｓｅ)環境が提供出来ないという問題点がある。

「単一ソース」とはマルチメディアソースで生成された１つのコンテンツを意味し、「複数使用」とは、様々な使用環境のユーザ端末が「単一ソース」を各々の使用環境に合うように使用することを意味する。

単一ソース複数使用環境の長所は様々な使用環境に適合するように１つのコンテンツを再加工することにより、相違した使用環境に適応変換された様々な形態のコンテンツを提供することができ、進んで様々な使用環境に適応変換された単一ソースをユーザ端末に提供することにおいて、ネットワーク帯域幅を効率的に使用したり減少させたりすることができるということである。

したがって、コンテンツ提供者の立場では、様々な使用環境にオーディオ信号を適合させるために複数のコンテンツを製作したり伝送したりする過程で発生する不必要な費用を低減でき、コンテンツ利用者の立場では、自分が位置した環境の空間的制約を克服すると共にユーザ自分の聴力特性及び選好度を最大限満足させることができる最適のオーディオコンテンツを使用できるようになる。

しかし、従来の技術によれば、単一ソース複数使用環境が支援できる汎用的マルチメディアアクセス(ＵＮＩＶＥＲＳＡＬＭＵＬＴＩＭＥＤＩＡＡＣＣＥＳＳ、ＵＭＡ)環境でも単一ソース複数使用環境の長所が活用できない。すなわち、マルチメディアソースはユーザ特性、ユーザ周辺環境及びユーザ端末能力のような使用環境を考慮せずに一律的にオーディオコンテンツを伝送し、ＷＩＮＤＯＷＳＭＥＤＩＡＰＬＡＹＥＲ、ＭＰ３ＰＬＡＹＥＲ、ＲＥＡＬＰＬＡＹＥＲなどのようなオーディオプレーヤーアプリケーションが搭載されたユーザ端末は、マルチメディアソースから受信した形式そのままのオーディオコンテンツを使用するため、単一ソース複数使用環境に適合しない。

このような従来の技術の問題点を解決し単一ソース複数使用環境を支援するために、マルチメディアソースが様々な使用環境を全部考慮してマルチメディアコンテンツを提供するようになれば、コンテンツの生成及び伝送において多くの負担が存在するようになる。

本発明は前記のような従来の技術の問題点を解決するために提案なされたものであって、その目的はオーディオコンテンツを使用するユーザ端末の使用環境を予め記述した情報を用いて、使用環境に適合するようにオーディオコンテンツを適応変換させるオーディオ適応変換装置及びその方法を提供することにある。

本発明が属した技術分野における通常の知識を有した者は、本明細書の図面、発明の詳細な説明及び特許請求の範囲から本発明の他の目的及び長所を容易に認識できる。

前記のような目的を達成するために本発明に係るオーディオ適応変換装置は、
単一ソース複数使用のためのオーディオ適応変換装置において、
オーディオ信号を消費するユーザ端末からオーディオ使用環境情報を収集して記述し管理するオーディオ使用環境情報管理手段と、
前記オーディオ使用環境情報に符合するオーディオ信号が前記ユーザ端末に出力されるように、前記オーディオ信号を適応変換させるオーディオ適応変換手段とを備え、
前記オーディオ使用環境情報は、
前記オーディオ信号に対するユーザの選好度を記述するユーザ特性情報を含むことを特徴とする。
この場合、前記ユーザ特性情報が、
前記オーディオ信号に対するユーザの左右側耳各々の選好度を示す可聴度(ａｕｄｉｂｉｌｉｔｙ)情報を含むようにしてもよい。
この場合、前記可聴度情報が、特定周波数範囲に対する選好度を含むようにしてもよい。
また、前記可聴度情報が、特定レベル範囲に対する選好度を含むようにしてもよい。
また、前記ユーザ特性情報が、前記オーディオ信号のボリウムに対する選好度を含むようにしてもよい。
また、前記ユーザ特性情報が、前記オーディオ信号の特定周波数範囲に対する減衰または増幅で表現される選好度を含むようにしてもよい。
また、前記ユーザ特性情報が、特定オーディオ趣向(前記特定オーディオ趣向は、ＲＯＣＫ、ＣＬＡＳＳＩＣ、ＰＯＰ効果などを含む)に対する選好度を含むようにしてもよい。
また、前記ユーザ特性情報が、マルチメディアコンテンツのオーディオ部分が消費されるか否かに対する選好度を含むようにしてもよい。
また、前記オーディオ適応変換手段が、
前記ユーザ端末に適応変換されたオーディオ信号を提供するネットワークシステムに含まれ、
前記特定周波数範囲に対する選好度に基づいて、前記特定周波数範囲内でビットがさらに割り当てられたオーディオ信号が前記ユーザ端末に伝送されるようにオーディオ信号を適応変換させるようにしてもよい。
また、前記オーディオ適応変換手段が、
前記ユーザ端末に適応変換されたオーディオ信号を提供するネットワークシステムに含まれ、
前記特定周波数範囲に対する選好度に基づいて、前記特定周波数範囲内のオーディオ信号だけが前記ユーザ端末に伝送されるようにオーディオ信号を適応変換させるようにしてもよい。
また、前記オーディオ適応変換手段が、
前記ユーザ端末に適応変換されたオーディオ信号を提供するネットワークシステムに含まれ、
前記特定レベル範囲に対する選好度において前記特定レベル範囲の最大レベルと最小レベルの絶対差が小さい場合には、サンプリングレートが増加されるか、量子化ステップの数が増加されたオーディオ信号が前記ユーザ端末に伝送されるようにオーディオ信号を適応変換させるようにしてもよい。
また、前記オーディオ適応変換手段が、
前記ユーザ端末に適応変換されたオーディオ信号を提供するネットワークシステムに含まれ、
前記特定レベル範囲に対する選好度の特定レベル範囲を抜け出すオーディオ信号は前記ユーザ端末に伝送されないようにオーディオ信号を適応変換させるようにしてもよい。
また、前記オーディオ適応変換手段が、
イコライジング機能を持たないユーザ端末に適応変換されたオーディオ信号を提供するネットワークシステムに含まれ、
前記オーディオ信号の特定周波数範囲に対する減衰または増幅で表現される選好度に基づいて、エンコーディングされたオーディオ信号が前記ユーザ端末に伝送されるようにオーディオ信号を適応変換させるようにしてもよい。
また、前記オーディオ適応変換手段が、
イコライザー事前設定機能を持たないユーザ端末に適応変換されたオーディオ信号を提供するネットワークシステムに含まれ、
前記特定オーディオ趣向に対する選好度に基づいて、イコライザー事前設定されたオーディオ信号が前記ユーザ端末に伝送されるようにしてもよい。
また、前記オーディオ適応変換手段が、
前記ユーザ端末に適応変換されたオーディオ信号を提供するネットワークシステムに含まれ、
前記選好度がマルチメディアコンテンツのオーディオ部分は消費されないことを示す場合には、前記マルチメディアコンテンツのオーディオ部分は前記ユーザ端末に伝送されないようにオーディオ信号を適応変換させるようにしてもよい。
また、前記オーディオ使用環境情報が、前記ユーザが前記オーディオ信号を消費する周辺環境を記述する周辺環境特性情報をさらに含むようにしてもよい。
また、前記周辺環境特性情報が、前記ユーザ端末から入力される雑音信号を処理することによって獲得される雑音レベル情報を含むようにしてもよい。
また、前記周辺環境特性情報が、前記ユーザ端末から入力される雑音信号を処理することによって獲得される雑音周波数スペクトル情報を含むようにしてもよい。
また、前記オーディオ適応変換手段が、
前記ユーザ端末に適応変換されたオーディオ信号を提供するネットワークシステムに含まれ、
前記雑音レベル情報に基づいて前記雑音レベルでも聴取できるレベルのオーディオ信号が前記ユーザ端末に伝送されるようにオーディオ信号を適応変換させるものの、増加されたオーディオ信号レベルが所定の限界に到達した場合には、オーディオ信号が前記ユーザ端末に伝送されないようにオーディオ信号を適応変換させるようにしてもよい。
また、前記オーディオ使用環境情報が、前記オーディオ信号の処理に関連した前記ユーザ端末の能力を記述する端末能力情報をさらに含むようにしてもよい。
また、前記端末能力情報が、前記ユーザ端末の出力チャンネルの個数情報を含むようにしてもよい。

また、前記のような目的を達成するために本発明に係るオーディオ適応変換方法は、単一ソース複数使用のためのオーディオ適応変換方法において、
オーディオ信号を消費するユーザ端末からオーディオ使用環境情報を収集して記述し管理する第１ステップと、
前記オーディオ使用環境情報に符合するオーディオ信号が前記ユーザ端末に出力されるように、前記オーディオ信号を適応変換させる第２ステップと
を備え、
前記オーディオ使用環境情報は、
前記オーディオ信号に対するユーザの選好度を記述するユーザ特性情報を含むことを特徴とする。
この場合、前記ユーザ特性情報が、前記オーディオ信号に対するユーザの左右側耳各々の選好度を示す可聴度(ａｕｄｉｂｉｌｉｔｙ)情報を含むようにしてもよい。
この場合、前記可聴度情報が、特定周波数範囲に対する選好度を含むようにしてもよい。
この場合、前記可聴度情報が、特定レベル範囲に対する選好度を含むようにしてもよい。
また、前記ユーザ特性情報が、前記オーディオ信号のボリウムに対する選好度を含むようにしてもよい。
また、前記ユーザ特性情報が、前記オーディオ信号の特定周波数範囲に対する減衰または増幅で表現される選好度を含むようにしてもよい。
また、前記ユーザ特性情報が、特定オーディオ趣向(前記特定オーディオ趣向はＲＯＣＫ、ＣＬＡＳＳＩＣ、ＰＯＰ効果などを含む)に対する選好度を含むようにしてもよい。
また、前記ユーザ特性情報が、マルチメディアコンテンツのオーディオ部分が消費されるか否かに対する選好度を含むようにしてもよい。
また、前記第２ステップが、
前記ユーザ端末に適応変換されたオーディオ信号を提供するネットワークシステムで行われ、
前記特定周波数範囲に対する選好度に基づいて、前記特定周波数範囲内でビットがさらに割り当てられたオーディオ信号が前記ユーザ端末に伝送されるように、オーディオ信号を適応変換させるようにしてもよい。
また、前記第２ステップが、
前記ユーザ端末に適応変換されたオーディオ信号を提供するネットワークシステムで行われ、
前記特定周波数範囲に対する選好度に基づいて前記特定周波数範囲内のオーディオ信号だけが前記ユーザ端末に伝送されるように、オーディオ信号を適応変換させるようにしてもよい。
また、前記第２ステップが、
前記ユーザ端末に適応変換されたオーディオ信号を提供するネットワークシステムで行われ、
前記特定レベル範囲に対する選好度において前記特定レベル範囲の最大レベルと最小レベルとの絶対差が小さい場合には、サンプリングレートが増加されるか量子化ステップの数が増加されたオーディオ信号が前記ユーザ端末で伝送されるようにオーディオ信号を適応変換させるようにしてもよい。
また、前記第２ステップが、
前記ユーザ端末に適応変換されたオーディオ信号を提供するネットワークシステムで行われ、
前記特定レベル範囲に対する選好度の特定レベル範囲を抜け出すオーディオ信号は前記ユーザ端末で伝送されないようにオーディオ信号を適応変換させるようにしてもよい。
また、前記第２ステップが、
イコライジング機能を持たないユーザ端末に適応変換されたオーディオ信号を提供するネットワークシステムで行われ、
前記オーディオ信号の特定周波数範囲に対する減衰または増幅で表現される選好度に基づいて、エンコーディングされたオーディオ信号が前記ユーザ端末に伝送されるようにオーディオ信号を適応変換させるようにしてもよい。
また、前記第２ステップが、
イコライザー事前設定機能を持たないユーザ端末に適応変換されたオーディオ信号を提供するネットワークシステムで行われ、
前記特定オーディオ趣向に対する選好度に基づいて、イコライザー事前設定されたオーディオ信号が前記ユーザ端末に伝送されるようにオーディオ信号を適応変換させるようにしてもよい。
また、前記第２ステップが、
前記ユーザ端末に適応変換されたオーディオ信号を提供するネットワークシステムで行われ、
前記選好度がマルチメディアコンテンツのオーディオ部分は消費されないことを示す場合には、前記マルチメディアコンテンツのオーディオ部分は前記ユーザ端末に伝送されないようにオーディオ信号を適応変換させるようにしてもよい。
また、前記オーディオ使用環境情が、
前記ユーザが前記オーディオ信号を消費する周辺環境を記述する周辺環境特性情報をさらに含むようにしてもよい。
また、前記周辺環境特性情報が、
前記ユーザ端末から入力される雑音信号を処理することによって獲得される雑音レベル情報を含むようにしてもよい。
また、前記周辺環境特性情報が、
前記ユーザ端末から入力される雑音信号を処理することによって獲得される雑音周波数スペクトル情報を含むようにしてもよい。
また、前記第２ステップが、
前記ユーザ端末に適応変換されたオーディオ信号を提供するネットワークシステムで行われ、
前記雑音レベル情報に基づいて前記雑音レベルでも聴取できるレベルのオーディオ信号が前記ユーザ端末に伝送されるように、オーディオ信号を適応変換させるものの、増加されたオーディオ信号レベルが所定の限界に到達した場合には、オーディオ信号が前記ユーザ端末に伝送されないようにオーディオ信号を適応変換させるようにしてもよい。
また、前記オーディオ使用環境情報が、
前記オーディオ信号の処理に関連した前記ユーザ端末の能力を記述する端末能力情報を含むようにしてもよい。
また、前記端末能力情報が、
前記ユーザ端末の出力チャンネルの個数情報を含むようにしてもよい。

本発明によれば、オーディオコンテンツを使用する使用環境、すなわちユーザ特性、ユーザ周辺環境及びユーザ端末能力情報を用いて一つのオーディオコンテンツを様々な使用環境に適合できるように適応変換処理ができる単一ソース複数使用環境が提供することができる。

本発明の他の目的及び態様は添付図面を参照し、下記で実施の形態を説明することに明確になることであろう。

以下の内容は単に本発明の原理を例示する。したがって、当業者はたとえ本明細書に明確に説明や図示がされなかったとしても本発明の原理を具現して本発明の概念と範囲に含まれた様々な装置を発明することができるものである。また、本明細書に挙げたあらゆる条件付き用語及び実施の形態は原則的に、本発明の概念理解のための目的のみで明確に意図され、このように特別に挙げた実施の形態及び状態に制約的ではないことと理解されなければならない。

また、本発明の原理、観点及び実施の形態だけでなく特定実施の形態を列挙するあらゆる詳細な説明は、このような事項の構造的及び機能的均等物を含むように意図されることと理解されなければならない。また、このような均等物は現在公知された均等物だけでなく将来に開発される均等物すなわち構造と関係がなく同じ機能を行うように発明されたあらゆる素子を含むことと理解されなければならない。

したがって、例えば、本明細書のブロック図は本発明の原理を具体化する例示的な回路の概念的な観点を示すことと理解されなければならない。これと同様に、あらゆるフローチャート、状態変換図、擬似コードなどはコンピュータが読み取り可能な媒体に実質的に示すことができ、コンピュータまたはプロセッサが明確に図示されているか否かを問わずコンピュータまたはプロセッサにより行われる様々なプロセスを示すことと理解されなければならない。

プロセッサまたはこれと類似の概念で表示された機能ブロックを含む図面に示す様々な素子の機能は専用ハードウェアだけでなく適切なソフトウェアと関連してソフトウェアを実行する能力を有したハードウェアの使用で提供されることができる。プロセッサにより提供される時、前記機能は単一専用プロセッサ、単一共有プロセッサまたは複数の個別的プロセッサにより提供されることができ、これらのうち一部は共有できる。

またプロセッサ、制御またはこれと類似の概念で提示される用語の明確な使用は、ソフトウェアを実行する能力を有したハードウェアを排他的に引用して解析されてはならず、制限なしにデジタル信号プロセッサ(ＤＳＰ)ハードウェア、ソフトウェアを保存するためのロム(ＲＯＭ)、ラム(ＲＡＭ)及び非揮発性メモリを暗示的に含むことと理解されなければならない。周知慣用の他のハードウェアも含むことができる。

本明細書の特許請求の範囲において、発明の詳細な説明に記載された機能を行うための手段で表現された構成要素は例えば前記機能を行う回路素子の組み合せまたはファームウエア/マイクロコードなどを含むあらゆる形式のソフトウェアを含む機能を行うあらゆる方法を含むことと意図され、前記機能を行うように前記ソフトウェアを実行するための適切な回路と結びつく。このような特許請求の範囲により定義された本発明は様々に列挙された手段により提供されている機能が結びつき、請求項が要求する方式と結びつくため前記機能を提供できるいかなる手段も本明細書から把握されることと均等なものと理解されなければならない。

上述した目的、特徴及び長所は添付された図面と関連した次の詳細な説明を介しててさらに明確になる。まず、各図面の構成要素に参照番号を付加することにおいて、同じ構成要素に限ってはたとえ他の図面上に表示されても可能なかぎり同じ番号を有するようにしていることに留意すべきである。また、本発明を説明することにおいて、関連された公知技術に対する具体的な説明が本発明の要旨を理解する上で不必要であると判断された場合、その詳細な説明を省略する。以下、添付された図面を参照して本発明に係る好ましい実施の形態を詳細に説明する。

図１は、本発明の一実施の形態に係るオーディオ適応変換装置を概略的に示すブロック図である。図１に示すように、本発明の一実施の形態に係るオーディオ適応変換装置１００は、オーディオ適応変換手段１０３及びオーディオ使用環境情報管理手段１０７を含む。オーディオ適応変換手段１０３及びオーディオ使用環境情報管理手段１０７各々は、相互独立的にオーディオ処理システムに搭載されることができる。

オーディオ処理システムは、ラップトップコンピュータ、ノートブックコンピュータ、デスクトップコンピュータ、ワークステーション、メーンフレームまたは他の形態のコンピュータを含む。個人携帯情報端末器(ＰＥＲＳＯＮＡＬＤＩＧＩＴＡＬＡＳＳＩＳＴＡＮＴ、ＰＤＡ)、移動通信モバイルステーションのような他の形態のデータ処理または信号処理システムもオーディオ処理システムに含まれる。

オーディオ処理システムはネットワーク経路を構成するあらゆるノード、すなわちマルチメディアソースノードシステム、マルチメディア中継ノードシステム及びエンドユーザ端末(ＥＮＤＵＳＥＲＴＥＲＭＩＮＡＬ)の中で任意のノードシステムであり得る。

エンドユーザ端末は、ＷＩＮＤＯＷＳＭＥＤＩＡＰＬＡＹＥＲ、ＭＰ３ＰＬＡＹＥＲ及びＲＥＡＬＰＬＡＹＥＲなどのようなオーディオプレーヤーが搭載されている。

例えば、オーディオ適応変換装置１００がマルチメディアソースノードシステムに搭載され動作する場合、オーディオコンテンツを使用する使用環境を予め記述した情報を用いて使用環境に適合するようにオーディオコンテンツを適応変換させるためには使用環境に対する情報をエンドユーザ端末から受信し、受信された使用環境に基づいて適応変換されたコンテンツをエンドユーザ端末に伝送する。

本発明に係るオーディオ適応変換装置１００がオーディオデータを処理するプロセス、例えばオーディオエンコーディングプロセスに対して、ＩＳＯ(ＩｎｔｅｒｎａｔｉｏｎａｌＯｒｇａｎｉｚａｔｉｏｎｆｏｒＳｔａｎｄａｒｄｉｚａｔｉｏｎ)/ＩＥＣ(ＩｎｔｅｒｎａｔｉｏｎａｌＥｌｅｃｔｒｏｔｅｃｈｎｉｃａｌＣｏｍｍｉｓｓｉｏｎ)の技術委員会(ＴｅｃｈｎｉｃａｌＣｏｍｍｉｔｔｅｅ）のＩＳＯ／ＩＥＣ標準文書は本発明の好ましい実施の形態の各構成要素の機能と動作を説明するための範囲で本明細書の一部として含まれることができる。

オーディオデータソース手段１０１は、マルチメディアソースから生成されたオーディオデータを受信する。オーディオデータソース手段１０１は、マルチメディアソースノードシステムに含まれることもでき、マルチメディアソースノードシステムから有線／無線ネットワークを介して伝送されたオーディオデータを受信するマルチメディア中継ノードシステムまたはエンドユーザ端末に含まれることができる。

オーディオ適応変換手段１０３はオーディオデータソース手段１０１からオーディオデータを受信し、オーディオ使用環境情報管理手段１０７が使用環境すなわちユーザ特性、ユーザ周辺環境及びユーザ端末能力を予め記述した情報を用いて、使用環境に適合するようにオーディオデータを適応変換させる。ここで、図面に示されたオーディオ適応変換手段１０３の機能が必ず１つのノードシステムにだけ含まれなければならないことではなく、ネットワーク経路を構成するノードシステムに分散できる。

例えば、ネットワーク帯域幅と関連しないオーディオボリューム調節機能を有するオーディオ適応変換手段は、エンドユーザ端末に含まれる反面、ネットワーク帯域幅と関連する時間領域での特定オーディオ信号強度すなわちオーディオレベル調節機能を有するオーディオ適応変換手段は、マルチメディアソースノードシステムに含まれることができる。

オーディオ使用環境情報管理手段１０７は、ユーザ、ユーザ端末及び周辺環境から情報を収集して使用環境情報を予め記述し管理する。

オーディオ適応変換手段１０３が行う機能に関連した使用環境情報もオーディオ適応変換手段１０３の場合と同様ににネットワーク経路を構成するノードシステムに分散できる。

オーディオデータ出力手段１０５は、オーディオ適応変換手段１０３により適応変換されたオーディオデータを出力する。出力されたオーディオデータは、エンドユーザ端末のオーディオプレーヤーに伝送されることもでき、有線／無線ネットワークを介してマルチメディア中継ノードシステムまたはエンドユーザ端末に伝送されることもできる。

図２は、図１のオーディオ適応変換装置として具現可能な一実施の形態を概略的に示すブロック図である。図２に示したように、オーディオデータソース手段１０１は、オーディオメタデータ２０１及びオーディオコンテンツ２０３を含むことができる。

オーディオデータソース手段１０１は、マルチメディアソースから生成されたオーディオコンテンツ及びメタデータを収集して格納する。ここでオーディオコンテンツ２０３は、色々な符号化方式(ＭＰ３、ＡＣ−３、ＡＡＣ、ＷＭＡ、ＲＡ、ＣＥＬＰなど)で保存されたりストリーミング形態で伝送される様々なオーディオフォーマットを含む。

オーディオメタデータ２０１は、オーディオコンテンツの符号化方式、サンプリングレート(ＳａｍｐｌｉｎｇＲａｔｅ)、チャンネル数(例えば、モノ、ステレオ、５.１チャンネル等)、ビットレート(ＢｉｔＲａｔｅ)などのような、対応されるオーディオコンテンツに関連した情報であって、ＸＭＬ(ｅｘｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ)スキーマ(ｓｃｈｅｍａ)により定義され記述できる。

オーディオ使用環境情報管理手段１０７は、ユーザ特性情報管理部２０７、ユーザ特性情報入力部２１７、ユーザ周辺環境情報管理部２０９、ユーザ周辺環境情報入力部２１９、オーディオ端末能力情報管理部２１１及びオーディオ端末能力情報入力部２２１を含むことができる。

ユーザ特性情報管理部２０７はユーザ特性情報入力部２１７を介してユーザ端末から聴覚特性、選好音量、選好周波数スペクトル上のイコライジング(Ｅｑｕａｌｉｚｉｎｇ)パターンなどのようなユーザ特性情報を受信し管理する。入力されたユーザ特性情報は、例えばＸＭＬ形式の機械読み取り可能な言語で管理される。

ユーザ周辺環境情報管理部２０９は、ユーザ周辺環境情報入力部２１９を介してオーディオコンテンツが使用される周辺環境(ＮＡＴＵＲＡＬＥＮＶＩＲＯＮＭＥＮＴ)の情報を受け取って管理する。入力された周辺環境情報は、例えばＸＭＬ形式の機械読み取り可能な言語で管理される。

ユーザ周辺環境情報入力部２１９は、特定場所で収集、分析及び処理されたり事前に作られた雑音環境分類表により定義できる雑音環境特性情報をユーザ周辺環境情報管理部２０９に伝送する。

オーディオ端末能力情報管理部２１１は、オーディオ端末能力情報入力部２１１を介して端末能力情報を受信し管理する。入力された端末能力情報は、例えばＸＭＬ形式の機械読み取り可能な言語で管理される。

オーディオ端末能力情報入力部２２１は、ユーザ端末に予め設定されていたり、ユーザにより入力される端末能力情報をオーディオ端末能力情報管理部２１１に伝送できる。

オーディオ適応変換手段１０３は、オーディオメタデータ適応変換処理部２１３及びオーディオコンテンツ適応変換処理部２１５を含むことができる。

オーディオコンテンツ適応変換処理部２１５はユーザ周辺環境情報管理部２０９で管理されるユーザ周辺環境情報をパ−シング(Ｐａｒｓｉｎｇ)した後、雑音環境に強くなるように雑音マスキング(Ｎｏｉｓｅ−Ｍａｓｋｉｎｇ)などのオーディオ信号処理によりオーディオコンテンツが周辺環境に適応するように変換処理(Ｔｒａｎｓｃｏｄｉｎｇ)する。

同様に、オーディオコンテンツ適応変換処理部２１５は、ユーザ特性情報管理部２１７及びオーディオ端末能力情報管理部２１１で管理されるユーザ特性情報及びオーディオ端末能力情報をパ−シングした後、オーディオコンテンツがユーザ特性及び端末能力に適合するようにオーディオ信号を適応変換させる。

オーディオメタデータ適応変換処理部２１３は、オーディオコンテンツ適応変換過程で必要なメタデータを提供し、オーディオコンテンツ適応変換処理結果によって対応するオーディオメタデータ情報の内容を適応変換させる。

図３は図１のオーディオ適応変換装置１００で行われるオーディオ適応変換プロセスを説明するためのフローチャートである。図３に示すように、本発明に係るプロセスは、オーディオ使用環境情報管理手段１０７がユーザ、端末及び周辺環境からオーディオ使用環境情報を収集してユーザ特性、ユーザ周辺環境及びユーザ端末能力情報を予め記述することから始める(Ｓ３０１)。

次に、オーディオデータソース手段１０１がオーディオデータを受信すれば(Ｓ３０３)、オーディオ適応変換手段１０３はステップＳ３０１で記述した使用環境情報を用いて、ステップＳ３０３で受信したオーディオデータを使用環境すなわちユーザ特性、ユーザ周辺環境及びユーザ端末能力に適合するようにオーディオコンテンツを適応変換させる(Ｓ３０５)。オーディオデータ出力手段１０５は、ステップＳ３０５で適応変換されたオーディオデータを出力するＳ３０７。

図４は、図３の適応変換プロセス(Ｓ３０５)を説明するためのフローチャートである。
図４に示すように、オーディオ適応変換手段１０３は、オーディオデータソース手段１０１が受信したオーディオコンテンツ及びオーディオメタデータを確認して(Ｓ４０１)、適応変換の必要があるオーディオコンテンツをユーザ特性、ユーザ周辺環境及びユーザ端末能力に適合するように適応変換させて(Ｓ４０３)、ステップ(Ｓ４０３)のオーディオコンテンツ適応変換処理結果によって、対応するオーディオメタデータ情報の内容を適応変換させる(Ｓ４０５)。

以下ではオーディオ使用環境情報管理手段１０７で管理される記述情報構造が開示される。

本発明によってオーディオコンテンツを使用するユーザ特性、ユーザ周辺環境及びユーザ端末能力の使用環境を予め記述した情報を用いて、使用環境に適合するようにオーディオコンテンツを適応変換させるためには、ユーザ特性(ＵＳＥＲＣＨＡＲＡＣＴＥＲＩＳＴＩＣＳ）、端末能力(ＴＥＲＭＩＮＡＬＣＡＰＡＢＩＬＩＴＩＥＳ）及び周辺環境特性(ＮＡＴＵＲＡＬＥＮＶＩＲＯＮＭＥＮＴＣＨＡＲＡＣＴＥＲＩＳＴＩＣＳ)に対する情報が管理されなければならない。

次の表１は、本発明の一実施の形態によってオーディオ信号を適応変換させるための記述情報を構造的に表現したテーブルである。

図１のオーディオ使用環境情報管理手段１０７で管理する使用環境の記述情報構造として、例示的にＸＭＬスキーマ定義によって表現した構文(Ｓｙｎｔａｘ）は次の通りである。

<element name = “UserEnvironment”>
<complexType>
<all>
<element ref = “USERCHARACTERISTICS” />
<element
ref = “NATURALENVIRONMENTCHARACTERISTICS”/>
<element ref = “TERMINALCAPABILITIES”/>
</all>
</complexType>
</element>
一方、前記表１においてユーザ特性は、特定ユーザの可聴力と選好度を記述する。図１のオーディオ使用環境情報管理手段１０７で管理するユーザ特性の記述情報構造として、例示的にＸＭＬスキーマ定義によって表現した構文は次の通りである。

<element name = “USERCHARACTERISTICS”>
<complexType>
<all>
<element
name = “LeftAudibility” type=”Audibility”/>
<element
name = “RightAudibility” type=”Audibility”/>
<element name = “AudioPower” type = “integer”/>
<element name = “FrequencyEqualizer”>
<complexType>
<sequence>
<element name = Period type= “mpeg7:vector”/>
<element name = Level type= “float”/>
</sequence>
</complexType>
</element>
<element name = “PresetEqualizer”>
<complexType>
<sequence>
<enumeration Item = “Rock”>
<enumeration Item = “Classic”>
<eumeration Item = “POP>
</sequence>
</complexType>
</element>
<element name = “Mute” type = “boolean”/>
</all>
</complexType>
</element>
<complexType name = “Audibility”>
<sequence>
<element name = “AudibleFrequencyRange”>
<complexType>
<mpeg7:vector dim = “2”
type= “positiveInteger”/>
</complexType>
</element>
<element name = “AudibleLevelRange”>
<complexType>
<mpeg7:vector dim = “2”
type= “positiveInteger”/> </complexType>
</element>
</sequence>
</complexType>
前記ユーザ特性の構成要素を整理すれば次の表２の通りである。

前記表２において、左可聴及び右可聴は、可聴(Ａｕｄｉｂｉｌｉｔｙ）のデータタイプを有し、ユーザの左右両側の耳各々に対するオーディオ選好度を示す。

可聴データタイプは、AudibleFrequencyRange及びAudibleLevelRangeの２つの要素を有する。

AudibleFrequencyRangeは、特定周波数範囲に対するユーザの選好を記述する。特定周波数範囲の開始点のStartFrequency及び特定周波数範囲の終了点のEndFrequencyは、Ｈｚ単位で与えられる。AudibleFrequencyRange記述情報はユーザが好む可聴周波数の範囲を示す。ユーザに与えられたネットワーク帯域幅が固定されている場合、オーディオ適応変換手段１０３はAudibleFrequencyRange記述情報を用いて特定周波数範囲内でビットをさらに割り当てることによって、向上した品質のオーディオをユーザに提供できる。また、オーディオ適応変換手段１０３は、AudibleFrequencyRange記述情報を用いて、記述された周波数範囲内のオーディオ信号だけを伝送することによってネットワーク帯域幅を減らしたり、テキスト、イメージ、ビデオなど他の形態の追加情報を残った帯域幅に追加できる。

下の例示はユーザが好む可聴周波数の範囲が２０Ｈｚから２０ＫＨｚまでであることを示す。

<AudibleFrequencyRange>
<StartFrequency>20</StartFrequency>
<EndFrequency>2000</EndFrequency>
</AudibleFrequencyRange>
AudibleLevelRangeは、時間領域において特定オーディオ信号のレベル範囲に対するユーザの選好を記述する。オーディオ信号のレベル範囲の下限線であるLowLimitLevel以下の信号レベル値は黙音になり、オーディオ信号のレベル範囲の上限線であるHighLimitLevel以上の信号レベル値は上限コーナーレベルに制限される。LowLimitLevel及びHighLimitLevelは０.０から１.０までの正規化されたスケールを有するが、０.０は黙音を、１.０は信号の最大レベルを示す。AudibleLevelRange記述情報はユーザが聞こうとするオーディオレベルの最大値及び最小値を示す。

オーディオ適応変換手段１０３は、ユーザがオーディオコンテンツを最上に経験できるように、AudibleLevelRange記述情報を用いることができる。例えば、ユーザに与えられたネットワーク帯域幅が固定されており、最大レベルと最小レベルとの絶対差が小さい場合、オーディオ適応変換手段１０３はAudibleLevelRange記述情報を用いることによって、サンプリングレートを増加させたりまたは量子化ステップの数を増加させてオーディオ信号が伝送できる。また、オーディオ適応変換手段１０３は、AudibleLevelRange記述情報を用いてオーディオ信号のレベル範囲を抜け出すオーディオ信号を除去することによってネットワーク帯域幅を効率的に利用することができ、テキスト、イメージ、ビデオなど他の形態の追加情報を残った帯域幅に追加できる。

下の例示は、ユーザが好むオーディオ信号のレベル範囲が最小０.３から最大０.７であることをを示す。

<AudibleLevelRange>
<LowLimitLevel>0．30</LowLimitLevel>
<HighLimitLevel>0．70</HighLimitLevel>
</AudibleLevelRange>
AudioPowerは、オーディオのボリュームに対するユーザ選好を記述する。AudioPowerは整数値に表現されることもできるが、０.０は黙音(ｍｕｔｅ）を、１.０は最大ボリウムを示すように０.０から１.０までの正規化されたスケールの値でもあリ得る。オーディオ適応変換手段１０３は、オーディオ使用環境情報管理手段１０７で管理されるAudioPower記述情報によってオーディオ信号を調節するようになる。

下の例示はユーザが好むオーディオボリウムが０.８５であることを示す。

<AudioPower>0．85</AudioPower>
以下で説明する記述要素は、ユーザのオーディオ信号に対する選好を示す。この記述要素はオーディオ処理能力を持たないユーザ端末に利用されることができる。

FrequencyEqualizerは、周波数範囲及び減衰または増幅値で表現される特定イコライジング構成に対する選好度を記述する。FrequencyEqualizer記述情報は、特定周波数に対するユーザ選好を示す。FrequencyEqualizer記述情報では、周波数バンド及び対応するユーザ選好値を記述する。

ユーザ端末がイコライジング能力を持たない場合、オーディオ適応変換手段１０３は、ユーザが期待する品質を提供するためにFrequencyEqualizer記述情報を利用することができる。効率的なビット割り当てのために、人間周波数マスキング現象(ＨＵＭＡＮＦＲＥＱＵＥＮＣＹＭＡＳＫＩＮＧＰＨＥＮＯＭＥＮＡ)に基づいてFrequencyEqualizer記述情報がオーディオエンコーディングプロセスで用いられることができる。また、オーディオ適応変換手段１０３は、FrequencyEqualizer記述情報を基にイコライジングを行い、これによって適応変換されたオーディオ信号をユーザ端末に伝送できる。

PeriodはFrequencyEqualizerの属性であってＨｚで表現されるイコライジング範囲の下限及び上限コーナー周波数を定義する。LevelはFrequencyEqualizerの属性であって、ｄＢで表現される周波数範囲の減衰または増幅を定義する。Levelは、ユーザイコライジング選好値を示す。

下の例示はユーザが好む特定イコライジング構成を示す。

<FrequencyEqualizer>
<FrequencyBand>
<Period>
<StartFrequency>20</StartFrequency>
<EndFrequency>499</EndFrequency>
</Period>
<Level>0．8</Level>
</FrequencyBand>
<FrequencyBand>
<Period>
<StartFrequency>500</StartFrequency>
<EndFrequency>1000</EndFrequency>
</Period>
<Level>0.5</Level>
</FrequencyBand>
<FrequencyBand>
<Period>
<StartFrequency>1000</StartFrequency>
<EndFrequency>10000</EndFrequency>
</Period>
<Level>0.5</Level>
</FrequencyBand>
<FrequencyBand>
<Period>
<StartFrequency>10000</StartFrequency>
<EndFrequency>20000</EndFrequency>
</Period>
<Level>0.0</Level>
</FrequencyBand>
</FrequencyEqualizer>
PresetEqualizerは、イコライザー事前設定(ｅｑｕａｌｉｚｅｒｐｒｅｓｅｔ)に対する言語記述(ｖｅｒｂａｌｄｅｓｃｒｉｐｔｉｏｎ）で表現される特定イコライジング構成に対する選好度を記述する。すなわち、PresetEqualizer記述情報は、ＲＯＣＫ、ＣＬＡＳＳＩＣ、ＰＯＰ効果のように明確に区分される特定オーディオ趣向に対するユーザ選好を示す。ユーザ端末が事前設定イコライザー選好に対する設定能力を持たない場合、オーディオ適応変換手段１０３はユーザがオーディオコンテンツを最上に経験できるようにPresetEqualizer記述情報を利用することができる。

下の例示のように、オーディオ適応変換手段１０３は、ＲＯＣＫに対して予め設定されたイコライザー設定機能を処理して適応変換されたオーディオ信号をユーザ端末に伝送できる。

<PresetEqualizer>Rock</PresetEqualizer>
Muteは、ＤＩのオーディオ部分を黙音で処理するための選好度を記述する。すなわち、Mute記述情報は、コンテンツのオーディオ部分を使用するか否かに対する選好度を示す。
このような機能は、大部分のオーディオ装置、すなわち、エンドユーザ端末のオーディオプレーヤーに提供されるが、オーディオ適応変換手段１０３は、ネットワーク帯域幅を確保するためにオーディオ信号を伝送しないようにこの情報を利用することができる。

下の例示は、ユーザがＤＩのオーディオ部分に対しては利用しないということを示す。

<Mute>true</Mute>
一方、前記表１において、周辺環境特性は、特定ユーザの周辺環境を記述する。図１のオーディオ使用環境情報管理手段１０７で管理する周辺環境特性の記述情報構造として、例示的にＸＭＬスキーマ定義によって表現した構文は次の通りである。

<element name = “NATURALENVIRONMENTCHARACTERISTICS”>
<complexType>
<element name = “NoiseLevel” type = “integer”/>
<element name = “NoiseFrequencySpectrum”>
<complexType>
<sequence>
<element name = FrequencyPeriod
type= “mpeg7:vector”/>
<element name = FrequencyValue type= “float”/>
</sequence>
</complexType>
</element>
</complexType>
</element>
NoiseLevelは、雑音レベルを記述する。この記述情報は、ユーザ端末から入力された雑音信号を処理することによって獲得でき、ｄＢ単位のサウンド圧力レベルで表現される。

オーディオ適応変換手段１０３は、NoiseLevel記述情報を用いてユーザ端末に対するオーディオ信号レベルを自動に調節できる。一方、オーディオ適応変換手段１０３がエンドユーザ端末に搭載されて周辺環境の変化する雑音レベルに自動的に対応するようにすることができる。雑音レベルが相対的に高い状況においてオーディオ適応変換手段１０３は、ユーザが雑音環境でも意図した信号を聴取できるように信号の大きさを増加させる。増加された信号レベルがユーザにより設定された限界に到達した場合、オーディオ適応変換手段１０３は、オーディオ信号伝送を中断し、使用可能な帯域幅をテキスト、イメージ、グラフィック及びビデオのような他のメディアに割り当てることができる。

例えば周辺環境の雑音が２０デシベルの場合、NoiseLevelは下記のように記述される。

<NoiseLevel>20</NoiseLevel>
NoiseFrequencySpectrum記述情報は、ユーザ端末から入力された雑音信号を処理することによって獲得でき、雑音レベルはｄＢ単位のサウンド圧力レベルに測定される。

周波数マスキング現象に基づいた効率的なオーディオコーディングのため、オーディオ適応変換手段１０３は、NoiseFrequencySpectrum記述情報を利用できる。オーディオ適応変換手段１０３は、NoiseFrequencySpectrum記述情報に基づいて雑音を減らすか、さらに多い雑音が混ざっている周波数に対してオーディオ信号をさらに増加させることによって、効率的なオーディオコーディングを行い、適応変換されたオーディオ信号をユーザ端末に伝送できる。

例えば、下記のように記述できる。下の例示でFrequency Periodの１番目及び２番目の値は、周波数バンドの開始周波数値と終了周波数値を示す。次に記述されるFrequency Valueは、デシベルで表現されるオーディオパワーである。オーディオ適応変換手段１０３は、この情報に基いてイコライザー機能を処理しユーザ端末に結果オーディオ信号を伝送する。

<NoiseFrequencySpectrum>
<FrequencyPeriod>20 499</FrequencyPeriod>
<FrequencyValue>30</FrequencyValue>
<FrequencyPeriod>500 1000</FrequencyPeriod>
<FrequencyValue>10</FrequencyValue>
<FrequencyPeriod>1000 10000</FrequencyPeriod>
<FrequencyValue>50</FrequencyValue>
<FrequencyPeriod>10000 20000</FrequencyPeriod>
<FrequencyValue>10</FrequencyValue>
</NoiseFrequencySpectrum>
一方、前記表１において端末能力は、オーディオデータフォーマット、形状及びレベルの多様性、ダイナミックレンジ、スピーカー構成などのようなオーディオ処理において端末能力を記述するためのものである。図１のオーディオ使用環境情報管理手段１０７で管理する端末能力の記述情報構造として、例示的にＸＭＬシェーマ定義によって表現した構文は次の通りである。

<element name = "TERMINALCAPABILITIES">
<complexType>
<element name = "AudioChannelNumer" type = integer/>
<element name = "Headphone" type = "boolean"/>
<element name = "DecodersType"
type = "DecodersType”/ >
</complexType>
</element>
<complexType name = "DecodersType">
<sequence>
<element name = "DecoderType"/>
<enumeration Item = "AAC"/>
<enumeration Item = "MP3"/>
<enumeration Item = "TTS"/>
<enumeration Item = "SAOL"/>
<element name= "Profile" type = "string"/>
<element name= "Level" type = "string">
</element>
</sequence>
</complexType>
ここでAudioChannelNumberは、ユーザ端末により処理される出力チャンネルの個数を示す情報であって、オーディオ適応変換手段１０３は、この情報に基づいてオーディオ信号を伝送できる。

またHeadPhoneは、論理値(ｂｏｏｌｅａｎ)で現れる情報であって、ヘッドホンが使われない場合、オーディオ適応変換手段１０３は、周辺環境雑音レベル及び周波数スペクトル情報と共に周波数マスキングコーディングを行うことができる。ヘッドホンが使われる場合には、周辺環境雑音が減る。

そして、DecoderTypeは、オーディオフォーマット及びプロファイル/レベルの端末処理能力を示す情報であって、オーディオ適応変換手段１０３はこの情報を用いてユーザ端末に最適のオーディオ信号を伝送することができる。

以上のように本発明によれば、ユーザの雑音環境情報と聴力特性及び選好情報を用いて一つのオーディオコンテンツを各々異なる使用環境と様々なユーザの特性と趣向に適合できるように適応、変換処理の可能な単一ソース複数使用環境を提供することができる。

なお、本発明は、上記の実施の形態に限定されたものではなく、本発明に係る技術的思想から逸脱しない範囲内で様々な変更が可能であり、それらも本発明の技術的範囲に属する。

本発明の前記及び他の目的及び特徴は添付された下記図面等と関連した実施の形態を説明するにしたがいさらに明確になるであろう。
図１は、本発明の一実施の形態に係るオーディオ適応変換装置が含まれたユーザ端末を概略的に示すブロック図である。図２は、図１のオーディオ適応変換装置として具現可能な一実施の形態を概略的に示すユーザ端末のブロック図である。図３は、図１のオーディオ適応変換装置で行われるオーディオ適応変換プロセスを説明するためのフローチャートである。図４は、図３の適応変換プロセスを説明するためのフローチャートである。

Claims

単一ソース複数使用のためのオーディオ適応変換装置において、
オーディオ信号を消費するユーザ端末からオーディオ使用環境情報を収集して記述し管理するオーディオ使用環境情報管理手段と、
前記オーディオ使用環境情報に符合するオーディオ信号が前記ユーザ端末に出力されるように、前記オーディオ信号を適応変換させるオーディオ適応変換手段とを備え、
前記オーディオ使用環境情報は、
前記オーディオ信号に対するユーザの選好度を記述するユーザ特性情報を含むことを特徴とするオーディオ適応変換装置。