JP5771618B2 - 音声オブジェクトの区分を示すメタデータ時間標識情報 - Google Patents

音声オブジェクトの区分を示すメタデータ時間標識情報 Download PDF

Info

Publication number
JP5771618B2
JP5771618B2 JP2012533640A JP2012533640A JP5771618B2 JP 5771618 B2 JP5771618 B2 JP 5771618B2 JP 2012533640 A JP2012533640 A JP 2012533640A JP 2012533640 A JP2012533640 A JP 2012533640A JP 5771618 B2 JP5771618 B2 JP 5771618B2
Authority
JP
Japan
Prior art keywords
audio
information
audio data
metadata
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012533640A
Other languages
English (en)
Other versions
JP2013509601A5 (ja
JP2013509601A (ja
Inventor
レスク,バルバラ
エングデガルド,ヨナス
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2013509601A publication Critical patent/JP2013509601A/ja
Publication of JP2013509601A5 publication Critical patent/JP2013509601A5/ja
Application granted granted Critical
Publication of JP5771618B2 publication Critical patent/JP5771618B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Description

本出願は音声符号化に関し、より具体的には、音声〔オーディオ〕(audio)オブジェクトの区分〔セクション〕(section)を示す、音声データ内のメタデータに関する。
楽曲は、しばしばその楽曲の特徴部分(リフレインのコーラス(chorus)などのような)を聴くことによって認識することができる。また、音楽消費者が楽曲を好きか嫌いかを評価するには、楽曲の特徴部分を聴くだけで十分である場合がある。音楽消費者がデジタル音声データとして保存された楽曲の特徴部分を探している場合、特徴部分を見つけるために、音楽消費者は楽曲の中で手作業で早送りしなければならない。これは、特に音楽消費者が特定の楽曲を見つけるために大規模な音楽コレクションの中の複数の楽曲をブラウジングする場合、煩雑である。
本発明の第1の態様は、時間標識(marking)情報を音声データ中に符号化するための方法に関する。
好適には、時間標識情報を含む符号化された音声データは、MP3(MPEG−1オーディオ層3)ファイルまたはAAC(先進的オーディオ符号化)ファイル内などのような、単一の音声ファイルに保存される。
この方法によれば、時間標識情報は、音声データ中の音声メタデータとして符号化される。時間標識情報は、音声データ中に符号化された音声オブジェクトのうち少なくとも1つの区分を示す。例えば、時間標識情報は、その区分の開始位置および終了位置、または開始位置のみを指定する場合がある。
前記少なくとも1つの区分は、音声オブジェクトの特徴部分であってもよい。このような特徴部分は、しばしばその特徴部分を聴くことによって瞬時に音声オブジェクトを認識できるようにする。
このような音声データ中に符号化された時間標識情報は、音声オブジェクトの特定の区分を瞬時にブラウジングすることを可能にする。よって、特定の区分を見出すために音声オブジェクトを通じて手作業で探索することが回避される。
この音声データ中に符号化された時間標識情報により、特定の区分(例えば、特徴区分(特に、コーラス))の抽出が可能になる。その区分は、着信音またはアラーム信号として利用することができる。この目的のため、その区分を新規ファイル内に保存することができ、あるいは、その着信音またはアラーム音もしくはアラーム信号が再生されたときに、音声データ中の時間標識を用いてその特定の区分から再生を開始することができる。
前記少なくとも1つの区分が音声オブジェクトの特徴部分(すなわち、重要部分または代表的部分)である場合、この標識付けされた区分を時間標識情報と併用することで、聴くことによって瞬時に認識することを可能にする音声オブジェクトの音声サムネイルが提供される。
消費者機器が特定の区分(例えば、楽曲の特徴区分)を見出すための音声データ自動分析に対応している場合でも、その区分を見出すためのそのような分析は不要である。なぜならば、時間標識情報は事前に既に特定されており、音声データ中に含まれているからである。
音声データは、純粋な音声データ、多重化されたマルチメディアビデオ/オーディオデータ(MPEG−4ビデオ/オーディオビットストリームまたはMPEG−2ビデオ/オーディオビットストリームなどのような)、あるいはこのような多重化されたビデオ/オーディオデータの音声部分であってもよい点に留意されたい。
時間標識情報は音声データの生成時に符号化されてもよく、または時間標識情報は、所与の音声データ中に含まれてもよい。
符号化器からの音声データ出力または音声復号器への音声データ入力は典型的には、ビットストリームを形成する。よって、本出願全体において、「ビットストリーム」という用語が「音声データ」という用語の代わりに用いられ場合がある。時間標識情報を含む符号化された音声データは好適には、記憶媒体上に記憶された単一のファイル内に記憶される。
それにもかかわらず、符号化された音声データ(換言すれば、符号化されたビットストリーム)は、別個のファイル、つまり音声情報を有する1つの音声ファイルと1つ以上の時間標識(marker)を有する1つのメタデータファイルからの情報を多重化することにより、を生成されてもよい。
音声データは、ストリーミングアプリケーション(インターネットラジオビットストリームまたはビデオおよびオーディオを含むマルチメディアビットストリームなどのような)において用いられてもよい。あるいは、音声データは、消費者側の記憶媒体(フラッシュメモリまたはハードディスクなどのような)中に保存されていてもよい。
好適には、音声オブジェクトは、知覚的符号化方式(MP3、ドルビーデジタル、または(HE−)AACにおいて用いられる符号化方法などのような)によって符号化される。あるいは、音声オブジェクトは、PCM(パルス符号変調)符号化音声オブジェクトであってもよい。
例えば、音声オブジェクトは、楽曲またはスピーチの録音(オーディオブックなどのような)であってもよい。
好適には、時間標識情報の符号化は前方互換性を許容する。すなわち、時間標識情報に対応していない復号器が時間標識情報を読み飛ばすことができるような方法で、時間標識情報の符号化が行われる。
好適には、後方互換性および前方互換性の双方が達成される。後方互換性とは、時間標識情報に対応している復号器(例えば、時間標識メタデータ用の抽出器およびプロセッサを有するHE−AAC復号器)が、時間標識情報を含まない従来の音声データ(例えば、従来のHE−AACビットストリーム)と、時間標識情報を有する音声データ(例えば、追加的な時間標識メタデータを有するHE−AACビットストリーム)とをどちらとも読み出すことができることを意味する。前方互換性とは、時間標識情報に対応していない復号器(例えば、従来のHE−AAC復号器)が、時間標識情報を含まない従来の音声データと、時間標識情報を含む音声データの従来式の部分とをどちらとも読むことができることを意味する(この場合、時間標識情報は、対応されていないため、読み飛ばされる)。
ある実施形態によれば、時間標識情報は、音声オブジェクトの特徴部分の位置を示す。例えば、楽曲の場合、時間標識情報は、コーラス、リフレインまたはその一部を示してもよい。換言すれば、時間標識メタデータは、重要部分または代表的部分を指示する。その結果、音声ビットストリームを復号する音楽プレーヤが、重要な瞬間において再生を開始することが可能になる。
時間標識情報は、音声オブジェクト内の(例えば、楽曲またはオーディオブック内の)複数の区分を示してもよい。換言すれば、時間標識情報は、音声オブジェクトの複数の区分と関連付けられた複数の時間標識を含んでもよい。例えば、時間標識情報は、複数の区分の開始点および終点の時間位置を示してもよい。その結果、音声オブジェクト内の種々の区分へブラウジングすることが可能になる。
時間標識情報は、楽曲の時間的音楽的構造に関連する種々の時間的位置を指定してもよい。換言すれば、時間標識情報は、楽曲中における複数の区分を示してもよく、複数の区分は、時間的音楽的構造の異なる区分に関連する。例えば、時間標識情報は、以下の区分のうち1つ以上の区分の始まりを示してもよい。すなわち、導入部、1番の歌詞、第1のリフレインまたはコーラス、2番(3番)の歌詞、第2(第3)のリフレインまたはコーラス(chorus)、またはブリッジ(bridge))。
時間標識情報は、楽曲内の動機、主題および/または主題の変形も標識してもよい。
さらに、時間標識情報は、他の音楽的態様(歌声の発生(例えば、最初のボーカルの入り)などのような)を指定してもよく、または、音楽構成(特定の楽器の発生(特に、特定の楽器のソロの出現)または楽器グループ(例えば、ブラスセクション、バックボーカル)またはその楽曲において最も音の大きな部分などのような)に関連してもよい。
時間標識情報は、特定の音楽的特性を有する区分も示してもよい。音楽的特性は、例えば、特定の音楽的スタイルまたはジャンル、特定のムード、特定のテンポ、特定の調性、特定のアーティキュレーションであってもよい。
時間標識区分は、区分のラベル付けに用いられるラベル付け情報と関連付けられてもよい。例えば、ラベル付け情報はその区分の特定の音楽的特性を記述してもよい。特定の音楽的特性とは、音楽的スタイルまたはジャンルの指定(例えば、ソフト、クラシック、エレクトロニックなど)、関連付けられたムードの指定(例えば、うれしい、悲しい、攻撃的)、テンポ(例えば、1分あたりの拍数によって指定されるかまたは例えばアレグロ、アンダンテなどのような音楽用語によって標識付けされた音声信号の速度またはペース)、音声信号のその区分の調性(例えば、イ長調、ハ短調)、あるいはアーティキュレーション(例えば、ポルタート、レガート、ピチカートといったものである。
ラベル付け情報は、別のメタデータフィールドに含まれてもよい。ラベル付け情報は、テキストラベルを含んでもよい。あるいは、ラベル付けのために、時間標識は、例えば上述したような音楽的構造または音楽的特性を指定するテーブル中のインデックスと関連付けられてもよい。この場合、各ラベルのインデックスは、ラベル付け情報として音声データ中に含まれる。このような参照テーブル〔ルックアップ・テーブル〕の一例を以下に示す。
Figure 0005771618
この例においては、インデックス(ここでは4状態、よって2ビット)のみを音声ビットストリーム内で搬送することになる。参照テーブルは典型的には、復号器にとって既知である。しかし、テーブルを音声ビットストリーム内で搬送することも可能である。
時間標識情報と、該時間標識情報に関連付けられた1つ以上のラベル(例えば、テキストラベルとしてまたはテーブルからのラベル抽出を可能にする参照テーブルのインデックスとしてメタデータ中に符号化されたラベル)とを併用することにより、特定の部分(例えば、ギターソロ)を見つけるためにユーザが音声オブジェクトの大型データベース(楽曲の大規模なコレクションなどのような)を通じて容易にブラウジングすることが可能になる。
時間標識情報により、興味のある部分(複数)(例えば、ギターソロ、ボーカルパート、リフレイン)にわたってループ再生することもさらに可能になる場合があり、これにより、その楽曲の器楽またはボーカルパートのリハーサルおよび練習が容易にされる。
時間標識情報は、音声ファイル(例えば、AACファイルまたはMP3ファイル)中のメタデータとして保存されてもよく、時間情報(例えば、特定の区分の開始点および終了点、または特定の区分の開始点および継続長さ)を以下のフォーマットのうち1つ以上のフォーマットで符号化してもよい。
・ 秒値(例えば、20秒)および任意選択で端数秒値(例えば、0.2秒)
・ サンプル番号(例えば、28ビット幅のサンプル番号フィールドは、44100Hzのサンプリングレートにおいて1時間を越える長さをカバーする)
・ フレーム番号(例えば、44100Hzのサンプリングレートでおよび1024サンプル/フレームでは、18ビット幅のフレーム番号フィールドは1時間を越える長さをカバーする)
・ 整数のフレーム番号および整数のサンプル番号、または
・ 整数のフレーム番号および端数フレーム値(例えば、18ビット幅のフレームカウンタに2ビット幅の端数フレーム値を加えた結果、44100Hzのサンプリングレートおよび1024サンプル/フレームにおいて、5ミリ秒の精度がもたらされる)。
上記の時間情報の符号化のための種々のフォーマットの正確さの程度は異なる。使用されるフォーマットは典型的には、用途の要件に依存する。「コーラスファインダ」用途のためには、時間分解能はそれほど重要ではないため、フォーマットも高い精度を持つ必要がない。しかし、非常に厳密なループを用いる「曲に合わせて楽器を練習する」用途のためには、時間分解能要件も高くなる場合があり、そのため好適には高精度のフォーマットが用いられる。
時間標識メタデータは、音声データの初め(例えば、音声ビットストリームのヘッダ)に(例えば、一度)含まれてもよい。
あるいは、時間標識情報は、音声データの複数の区分中で符号化されてもよい。例えば、複数の区分は、特定の発生率でビットストリーム中に発生してもよい(例えば、n秒毎またはn音声フレーム毎に(n≧1であり、例えば、n=1である))。換言すれば、時間標識情報は、特定の固定された更新速度で符号化されてもよい。
複数の区分内の時間標識情報を符号化する場合、複数の区分のうちの所与の区分内の時間標識情報が、ビットストリーム内における所与の区分の発生に関連して指定されてもよい。換言すれば、時間標識の時間指定は、メタデータが挿入される時点に関連して規定することができる。例えば、時間標識は、規則的に離間されたメタデータ更新位置と、関心対象区分との間の時間的距離を指定してもよい(例えば、音声信号のコーラスが開始するまで3秒)。
このように特定の更新速度で時間標識情報を含めることで、ストリーミングアプリケーション(例えば、ブロードキャスティング)のためのブラウジング機能性が容易にされる。
符号化方法のさらなる実施形態については、独立請求項に記載される。
本出願の第2の態様は、音声データ中に提供された時間標識情報を復号する方法に関連する。この方法によれば、音声メタデータとして提供された時間標識情報が復号される。この復号は典型的には、音声データ中で与えられる音声オブジェクトの復号と共に行われる。時間標識情報は、本発明の第1の態様に関連して既述したように、音声データ中に符号化された音声オブジェクトのうち少なくとも1つの区分(例えば、最も特徴的な部分)を示す。
本出願の第1の態様による符号化方法に関連する上記の記述は、本出願の第2の態様による復号方法にも適用される。
ある実施形態によれば、時間標識情報を復号した後、標識付けされた区分の初めから再生が始まる。標識付けされた区分の初めは、時間標識情報によって指定されている。標識付けされた区分の初めから再生を開始するために、復号器は、標識付けされた区分から復号を開始してもよい。標識付けされた区分の初めからの再生開始は、ユーザ入力によって開始されてもよい。あるいは、(例えば、複数の曲の特徴部分の再生の場合において)再生は自動的に開始してもよい。
好適には、区分の再生は、区分の終端において停止する。終端は、時間標識情報によって示される。ループモードにおいては、その後、区分の初めから再生を再開することが可能である。
時間標識情報の復号と、各区分の初めからの再生とは、複数の音声オブジェクトについて行われてもよい。そのため、複数の曲を通してブラウジングする(例えば、大きな音楽コレクション内の複数の曲の最も特徴的な部分をブラウジングする)ことが可能になる。
楽曲の特徴部分を示す符号化された時間標識情報は、種々のラジオチャンネル(例えば、種々のインターネットラジオチャンネル)をブラウジングすることも容易にする。
種々のラジオチャンネルをブラウジングするために、複数のラジオチャンネルと関連付けられた複数の音声ビットストリーム中の時間標識情報が復号される。複数のビットストリームそれぞれについて1つずつ、各ビットストリームの時間標識情報によって示される少なくとも1つの各区分の初めから再生が開始される。よって、この実施形態によれば、第1のラジオチャンネル上の曲の特徴的な区分(または複数の曲の特徴的な区分)が再生されてもよい。その後、第2のラジオチャンネル上(その後、第3のラジオチャンネル上)の曲の特徴的な区分(または複数の曲の特徴的な区分)が再生されもよい。これにより、ラジオ消費者は、多様なラジオチャンネル上において再生されている音楽の種類についての印象を得ることが可能になる。
この方法は、所与のラジオチャンネル上において再生されている多様な曲のメドレーを再生するためにも使用されてもよい。このようなメドレーを生成するために、ラジオチャンネルのビットストリーム内の複数の音声オブジェクトの時間標識情報が復号される。複数の音声オブジェクトそれぞれについて1つずつ、各音声オブジェクトの各区分が再生される。前記方法は、複数のラジオチャンネルについても実行されてもよい。これにより、複数のラジオチャンネルそれぞれについて曲のメドレーを再生して、多様なチャンネル上においてどんな種類の音楽が再生されているかについての印象を提供することが可能になる。
上述したコンセプトは、リアルタイムラジオおよびオンデマンドラジオの両方と関連して用いられてもよい。リアルタイムラジオの場合、ユーザは典型的には、ラジオプログラムにおける特定の点にジャンプすることができない(リアルタイムラジオにおいては、ユーザは場合によってはバッファサイズに応じてラジオプログラム内の過去の点にジャンプすることはありうる)。オンデマンドラジオの場合、リスナーは、ラジオプログラム内の任意の点において開始および停止することが可能である。
リアルタイムラジオの場合、再生デバイスは、好ましくは特定の量の音楽をメモリ内に保存できる能力を有する。時間標識情報を復号することにより、デバイスは、1つ以上のラジオチャンネルの最後の1つ以上の曲それぞれの重要部分をキャプチャし、これらの重要区分を後で再生できるようにメモリ中に保存してもよい。再生デバイスは、ラジオチャンネルの受信した連続的音声ストリームを記録してもよく、任意選択的に(メモリを解放するために)重要ではない部分を後で削除してもよく、あるいは、再生デバイスは直接、重要部分を記録してもよい。
同じコンセプトを、インターネット経由のテレビに使うこともできる。
ある実施形態によれば、標識付けされた区分は、着信音またはアラーム信号として利用されてもよい。この目的のため、その区分は、着信音またはアラーム信号の再生のために用いられる異なるファイル中に区分を保存してもよく、あるいは、その区分を示す時間標識情報を用いて、着信音またはアラーム信号の再生のために、その区分の初めから再生を開始してもよい。
本出願の第3の態様は、時間標識情報を音声データ中の音声メタデータとして符号化するように構成された符号化器に関する。時間標識情報は、音声データ中に符号化された音声オブジェクトのうち少なくとも1つの区分を示す。
本出願の第1の態様による符号化方法に関連する上記の記述は、本出願の第3の態様による符号化器にも適用される。
本出願の第4の態様は、音声データ中の音声メタデータとして提供される時間標識情報を復号するように構成された復号器に関連する。時間標識情報は、音声データ中に符号化された音声オブジェクトのうち少なくとも1つの区分を示す。
本出願の第1の態様による復号方法に関連する上記の記述は、本出願の第4の態様による復号器にも適用される。
復号器は、音声プレーヤ(例えば、フラッシュメモリおよび/またはハードディスクを有するポータブル音楽プレーヤ内などのような音楽プレーヤ)において用いられてもよい。「ポータブル音楽プレーヤ」という用語は、音楽プレーヤ機能性を有する携帯電話もカバーする。音声復号器により、各曲の各特徴部分の再生によってそれらの曲を通じたブラウジングが可能になる場合、曲名を表示するディスプレイは省略されてもよい。その場合、音楽プレーヤサイズのさらなる低減と、デバイスコストの低減とが可能になる。
本出願の第5の態様は、音声データ(例えば、音声ビットストリーム)に関連する。音声データは、時間標識情報を音声メタデータとして含む。時間標識情報は、音声データ中に符号化された音声オブジェクトのうち少なくとも1つの区分を示す。音声データは、サーバーからクライアント(すなわち、消費者)へとストリーミングされるビットストリーム((インターネット)ラジオビットストリームなどのような)であってもよい。あるいは、音声データは、記憶媒体(フラッシュメモリまたはハードディスクなどのような)上に保存されたファイル内に含まれてもよい。例えば、音声データは、AAC(先進的オーディオ符号化)、HE−AAC(高効率AAC)、ドルビーパルス、MP3またはドルビーデジタルのビットストリームであってもよい。ドルビーパルスは、HE−AACv2(HE−AACバージョン2)に基づいたものであるが、さらなるメタデータを提供する。本出願全体を通して、「AAC」という用語は、AACの拡張バージョン(HE−AACまたはドルビーパルスなどのような)を全て含む。「HE−AAC」(ならびに「HE−AACvl」および「HE−AACv2」)という用語は、ドルビーパルスをもカバーする。音声データは、オーディオ情報およびビデオ情報の両方を含むマルチメディアデータであってもよい。
以下、本発明は、多様な例示的例により添付図面を参照して説明される。
時間標識情報を符号化する符号化器の概略的実施形態を示す図である。 時間標識情報を復号する復号器の概略的実施形態を示す図である。
以下において、メタデータ時間情報の種々の使用の場合が論じられる。メタデータ時間標識は、種々の種類の区分を示してもよく、種々の用途において用いられてもよい。
曲の特徴部分(例えば、コーラス)を示すメタデータ時間標識情報
曲の特徴部分(例えば、コーラス、リフレインまたはその一部)を示すために、時間標識情報を用いてもよい。曲はしばしば、曲名を読むよりも、特徴部分(例えば、コーラス)を聴くことによって、より容易に認識できる。曲の特徴部分を示すメタデータ時間標識を用いることで、知っている曲を検索することが可能となり、曲のデータベースを通じて聴くことによってブラウジングすることが容易になる。音楽消費者は、各曲の最重要な部分を聴けば、曲を瞬時に認識および特定することができる。さらに、このような機能性は、全く表示の無いポータブル音楽プレーヤデバイス上で曲をブラウジングする際に、または、デバイスがポケットまたはバッグの中にあるためユーザから現在のところ表示が見えない場合に、大変都合がよい。
曲の特徴部分を示す時間標識情報は、新しい曲を発見する際にも有用である。ユーザは、特徴部分(例えば、コーラス)を聴くことで、自分が曲を好きか嫌いか容易に判断することができる。よって、最も特徴的な部分を聴くことに基づいて、ユーザは、自分が曲全体を聴きたいかどうか決定すること、または自分がその曲を購入するためにお金を払いたいかどうか決定することができる。この機能性は、例えば、音楽ストアおよび音楽発見サービスの用途において有用である。
曲の時間的音楽的構造に関連するメタデータ時間標識情報
時間標識情報は、曲の時間的音楽的構造に関連する種々の時間的位置(例えば、イントロ、歌詞、リフレイン、ブリッジ、別のリフレイン、別の歌詞などの位置を示すためのもの)を指定するために用いられてもよい。
これにより、ユーザは、曲中において曲の異なる部分間を容易にブラウジングすることができる。例えば、ユーザは、曲のうちユーザが気に入っている部分に容易にブラウジングすることができる。
音楽的構造に関連するメタデータ時間標識情報は、楽器または歌唱の練習のためにも有益である。このような時間標識情報は、曲の種々の部分を通じてナビゲートする可能性を提供し、これにより、興味のある区分へとアクセスして、楽器または歌唱の練習している間、その区分を一度だけまたはループで再生することが可能となる。
特定の楽器の発生または歌声の発生に関連するメタデータ時間標識情報
時間標識情報は、特定の楽器の発生または歌声(および任意選択で音程範囲)の発生を指定するためにも用いてもよい。このような時間標識情報は、例えば楽器または歌唱の練習において有用である。ユーザが楽器(例えば、ギター)の演奏を学習している場合、ユーザは、曲の中で演奏してみたい部分(例えば、ギターソロ)を容易に見出すことができる。歌手の場合は、曲中の所望のピッチ範囲の部分を見つけることが有用である。
特定の音楽的特性をともなう区分を示すメタデータ時間標識情報
特定の音楽的特性、例えば、アーティキュレーション(例えば、レガート、ピチカート)、スタイル(例えば、アレグロ、アンダンテ)またはテンポ(例えば、1分あたりの拍数)に関する音楽的記述をともなう区分を見つけるために、時間標識情報を用いてもよい。これは、例えば楽器の練習の助けとなる場合がある。なぜならば、練習するために曲のうち関連のある、興味のある部分をユーザが容易に見つけることができるからである。再生は、そのような特定の区分にわたってループしてもよい。
特定のムードまたはテンポをともなう区分を示すメタデータ時間標識情報
メタデータ時間標識情報は、特定のムード(例えば、エネルギッシュ、攻撃的、または穏やか)またはテンポ(例えば、1分あたりの拍数)をともなう区分を示す場合がある。このようなメタデータは、、ムードに応じた曲の部分を見つける助けとなる。ユーザは、特定のムードの曲の区分を検索することができる。これにより、特定のムードに応じた複数の曲または利用可能な全ての曲からの区分でメドレーを作ることも可能になる。
このようなメタデータは、運動(例えば、ランニング、回転、ホームトレーナー、またはエアロビクス)用の適切な音楽を見つけるために用いられてもよい。メタデータにより、種々のレベルの強度でトレーニングを行う際に、音楽をトレーニング強度レベルに適合させることも容易にする場合がある。よって、このようなメタデータを用いることは、ユーザが、特定の計画されたワークアウトを適切な音楽と揃えることに役立つ。例えば、インターバルトレーニング(短時間の高強度のワークアウトとそれに続く休憩期間を交互に行う)の場合、高強度の期間の間、エネルギッシュな、攻撃的なまたは高速の区分が再生され、一方で、休憩期間においては穏やかな区分またはゆっくりとした区分が再生される。
上述したようなメタデータ時間情報の種々の使用の場合において、時間標識情報は好適には、音声ファイル中に(例えば、曲ファイルのヘッダ中に統合される。ファイルに基づいた利用法の代わりに、メタデータ時間標識情報は、ストリーミングアプリケーション(例えば、ラジオストリーミングアプリケーション(例えば、インターネットを介したもの))のコンテキスト内においても用いられてもよい。例えば、曲の特徴部分(例えば、コーラスまたはその一部)を示すメタデータ時間標識情報がある場合、そのようなメタデータは、種々のラジオチャンネルをブラウジングするコンテキストにおいて用いることができる。このようなメタデータは、複数のラジオ局(例えば、インターネットラジオ)を受信する能力がありかつ特定量の音楽をメモリに(例えば、ハードディスクまたはフラッシュメモリ上に)保存する能力を有するデバイス上において種々のラジオチャンネルをブラウジングすることを容易にする。曲の重要部分(例えば、コーラス)の位置を信号送信することにより、デバイスは、それらのチャンネルのうちの複数のチャンネルに対する最後の数曲(例えば、最後のn個の曲に対して;n≧1であり、例えば、n=5)それぞれの重要部分を決定することができる。デバイスは、これらの重要部分をキャプチャし、これらの区分をメモリ中に保持してもよい(そして、メモリを解放するために、前記最後の数曲の残りの部分を削除してもよい)。ユーザは、各チャンネルについてこのコーラスのコレクションを通じて聴き、そのチャンネルからどんな種類の音楽が放送されているかおよび自分がこれを好きか否かをの概要を容易に得ることができる。
音声オブジェクトの特定の区分を示すメタデータ時間標識情報
時間標識情報は、スピーチおよび任意選択の音楽および任意選択の音を含む音声オブジェクト(例えば、オーディオブック、オーディオ・ポッドキャスト、教育教材)の特定の区分を示すために用いてもよい。これらの区分は、音声オブジェクトの内容と関連することができる(例えば、オーディオブックのチャプターまたは演劇のシーンを指定する、音声オブジェクト全体の要約を与えるいくつかのセグメントを指定するなど)。これらの区分は、オーディオブックの特徴に関連することも可能である(例えば、例えば複数の話のコレクションであるオーディオブックにおいて、ある区分が陽気であるかまたは陽気ではないかを指示する)。教育用の音声教材の場合、時間標識情報は、当該教材の難易度について、音声オブジェクトの種々の部分を指示してもよい。また、教育教材中の時間標識情報は、学習者の能動的参加を必要とする区分(例えば、言語コースにおける理解度の問題、発音エクササイズ)を示してもよい。
メタデータ時間標識情報の多様な例示的用途について論じた後、時間標識の例示的ソースについて論じる。メタデータ中に書き込まれる時間標識は、例えば以下のソースのうち1つ以上から発生する場合がある。
・自動抽出(例えば、消費者側(すなわち、クライアント側)または音楽プロバイダ側(すなわち、サーバー側)における音楽情報検索(Music Information Retrieval)(MIR)アルゴリズムまたはサービスによるもの)。自動抽出アルゴリズムの例については、以下において論じられている。「A Chorus−Section Detection Method for Musical Audio Signals and Its Application to a Music Listening Station」(Masataka Goto、IEEE Transactions on Audio, Speech and Language Processing 、Vol.14、No.5、pp.1783−1794、2006年9月)、および「To Catch a Chorus:Using Chroma−Based Representations for Audio Thumbnailing」(M.A.Bartsch,M.A. and G.H. Wakefield,IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,2001年)。これらの文献は、参照により本明細書に組み込まれる。
・外部データベースからの転送。例えば、音声ライブラリを外部データベースと同期させてもよい。メタデータをホストしている外部データベースが例えばコンピュータネットワークまたはセルラーネットワークを介してアクセス可能である場合があるため、データは遠隔でフェッチされてもよい(Gracenoteのコンパクト・ディスク・データベース(Compact Disc Database)(CDDB)からアーティスト/トラック情報を入手するCDの場合と同様)
・クライアント側において(すなわち、消費者によって)エディタにおいて手作業で入力。
以下においては、メタデータ時間標識情報を搬送するための、多様な例示的なメタデータコンテナについて議論する。音声またはマルチメディアビットストリームでのメタデータの搬送は、多数の方法で行うことができる。このようなデータを前方互換な様態で(すなわち、時間標識メタデータの抽出に対応していない復号器にとって非破壊的に)含めることが望ましい場合がある。メタデータを音声データ中に埋め込むために、以下の一般的に用いられているメタデータ埋め込み方法のうち1つを用いてもよい。
ID3コンテナ
ID3タグ(ID3−「MP3を特定(Identify an MP3)」)は、MP3(MPEG−1/2 層III)音声ファイルと共にしばしば用いられるメタデータコンテナである。その埋め込みは、基本的にはID3タグをファイルの一番初めに挿入するか(ID3v2の場合)または終端部にアペンドする(ID3v1の場合)ため、どちらかといえばシンプルな方法である。特にID3タグはMP3プレーヤに対して事実上の標準(de facto standard)となっているため、通常、前方互換性が達成される。時間標識の搬送のために、ID3タグ中の未使用のデータフィールドが使用されてもよく(または、異なる用途のためのデータフィールドをその意図される用途から転用されてもよい)、あるいは、ID3タグを時間標識搬送のための1つ以上のデータフィールドによって拡張してもよい。
MPEG−1/2の補助データ
MPEG−1またはMPEG−2の層I/II/III音声ビットストリームは、時間標識メタデータのために用いられてもよい補助データコンテナを提供する。これらの補助データコンテナについては、標準化文献ISO/IEC11172−3およびISO/IEC13818−3中に記載がある。これらは、参照により、本明細書に組み込まれる。このような補助データコンテナは、可変サイズのデータコンテナを許容する「AncDataElement()」ビットストリーム要素により、完全に前方互換性の方法で信号送信される。復号器が時間標識情報に対応していない場合、この復号器は典型的にはこの追加的なデータを無視する。このデータコンテナ機構により、ビットストリームの任意のフレームにおいてメタデータを伝達することが可能になる。
MPEG−2/4 AACビットストリーム中の拡張ペイロード
MPEG−2またはMPEG−4 AAC(先進的オーディオ符号化)の音声ビットストリームについては、標準化文献ISO/IEC13818−7およびISO/IEC14496−3に記載のようなAACの「extension_payload()〔拡張_ペイロード()〕」機構を用いて、時間標識情報をデータコンテナ中に保存してもよい。これらの文献は、参照により本明細書に組み込まれる。このアプローチは、基本的AACにおいて使用できるだけではなく、拡張バージョンのAAC(HE−AACv1(高効率AACバージョン1)、HE−AACv2(高効率AACバージョン2)およびドルビーパルスなどのような)においても利用可能である。この「extension_payload()」機構は、可変サイズのデータコンテナを許容する完全に前方互換性の仕方で信号送信される。「extension_payload()」機構によって符号化された時間標識情報に復号器が対応しない場合、復号器は典型的には、この追加的なデータを無視する。このデータコンテナ機構により、ビットストリームの任意のフレームにおいてメタデータを伝達することが可能になる。よって、メタデータは連続的に(例えば、毎フレームについて)更新されてもよい。AACビットストリーム中への時間標識情報の統合についての詳細な例については、本出願において後述する。
ISOベースのメディアファイルフォーマット(MPEG−4パート12)
あるいは、ISO/IEC14496−12中に規定されているような、ISOベースのメディアファイルフォーマット(MPEG−4 パート12)が使用されてもよい。このコンテナ標準は、メタデータ用の階層的下部構造を既に有する。メタデータは、例えば以下を含むことができる。
−iTunes〔アイチューンズ〕メタデータ、
−上で論じたようなMPEG−4 AAC音声ビットストリームの一部としての「extension_payload()」要素、または
−カスタマイズされたメタデータ区分。
このISOベースのメディアファイルフォーマットは、このような時間標識メタデータをドルビーデジタル音声データまたはドルビーパルス音声データまたは他の音声データフォーマットの関連で含めるために用いられてもよい。例えば、時間標識メタデータをドルビーパルス音声ビットストリームに付加してもよく、その場合、従来のHE−AACからドルビーパルスがさらに差別化される。
ISO/IEC14496−12中に規定された階層構造を用いて、例えばドルビーパルスまたはドルビーメディアジェネレータに特有のメタデータを含めることができる。このメタデータは、「moov」アトム内でmp4ファイルにおいて搬送される。「moov」アトムは、ユーザデータアトム「udta」を含む。ユーザデータアトム「udta」は、一意のID(汎用一意識別子(universal unique identifier)−「uuid」)を用いることにより、自身が搬送している内容を特定する。この箱は、いくつかのメタアトムを含み、これらのメタアトムはそれぞれ、異なる種類のメタデータを搬送することができる。メタデータの種類は、ハンドラー「hdlr」によって特定される。既存の種類のものは、例えば曲名、アーティスト、ジャンル等々に関する情報を搬送している場合がある。例えば必要とされる情報を含む拡張マークアップ言語(XML)構造新規の種類を規定することができる可能性がある。正確なフォーマットは、送信したい情報に基づいて決定される。下記の例において、時間標識メタデータが「xml_data」という名称のアトムの一部である構造を示す。
Figure 0005771618
XML形式でコーディングされた時間標識メタデータアトム「xml_data」は、下記の例に示すような構造にすることができる。
Figure 0005771618
このようなアトムは、そのサイズに関する情報を含むことができる。すなわち、種類を認識しないパーサーは、その区分を読み飛ばして、後続データの解析を継続することができる。よって、前方互換性が達成される。
メタデータに対する他のフォーマット
メタデータに対応しかつ時間標識メタデータの搬送に利用されてもよい他のマルチメディアコンテナフォーマットは、広く用いられている業界標準(MPEG−4パート14(MP4とも呼ばれ、標準化文献ISO/IEC14496−14中に規定されている)および3GPフォーマットなどのような)である。
以下に、ビットストリームシンタックス中への時間標識メタデータの統合についての2つの例が説明される。
音声サムプリントビットストリームシンタックスの第1の例
いくつかのメタデータコンテナフォーマットは、(例えば、拡張マークアップ言語(XML)フレームワークにおける)テキストストリングの利用を定めており、一方他のメタデータコンテナフォーマットは、単にバイナリデータチャンクのための一般的コンテナである。下記の表1は、疑似Cシンタックスによって指定された(これは、ISO/IEC標準仕様書において一般的な慣用である)バイナリフォーマットビットストリームの一例を示す。1ビットよりも大きなビットストリーム要素は通常は、最上位ビットが先頭の符号無し整数(unsigned-integer-most-significant-bit-first)(「uimsbf」)として書き込み/読み出しされる。
Figure 0005771618
これらのビットストリーム要素は以下の意味を有する。
整数要素「BS_SECTION_ID」は、例えば長さが2ビットであり、標識付けされた区分の内容の種類を記述する(例えば、0=コーラス、1=歌詞、2=ソロ、3=ボーカルの入り)。
整数要素「BS_NUM_CHAR」は、例えば長さが8ビットであり、テキストストリング「BS_ARTIST_STRING」の長さをバイトで記述する。この例において、整数要素「BS_NUM_CHAR」およびテキストストリング「BS_ARTIST_STRING」は特別な場合(すなわち、整数要素「BS_SECTION_ID」がボーカルの入りを示す場合)においてのみ用いられる。疑似Cシンタックス中の命令文「if(BS_SECTION_ID==3)」を参照せよ。
テキストストリング要素「BS_ARTIST_STRING」は、標識付けされた区分中のボーカルアーティストの名称を含む。テキストストリングは、例えば8ビットASCII(例えば、ISO/IEC10646:2003に規定されるようなUTF−8)でコーディングされてもよい。この場合、テキストストリングのビット長さは8×BS_NUM_CHARである。
整数要素「BS_START」は、標識付けされた区分の開始フレーム番号を示す。
整数要素「BS_LENGTH」は、標識付けされた区分の長さを示す(ここでは、フレーム数で表される)。
上記疑似Cシンタックスによるビットストリーム例は、「11 00001101 01000001 01110010 01110100 00100000 01000111 01100001 01110010 01100110 01110101 01101110 01101011 01100101 01101100 001010111111001000 01100001101010」である。
上記例示的ビットストリームは、以下を指定する。
テキストタグ「Art Garfunkel」をもつVOCAL_ENTRY〔ボーカルの入り〕区分がフレーム番号45000において開始し、継続長さが6250フレームとなる(よって、この区分はフレーム51250において停止する)。
音声サムプリントビットストリームシンタックスの第2の例
第2の例は第1の例に基づいており、ISO/IEC14496−3からのextension_payload()機構を用いる。extension_payload()機構のシンタックスについて、表4.51(従属節4.4.2.7、ISO/IEC14496−3:2001/FDAM:2003(E))中に記載がある。これは、参照によりの本明細書に組み込まれる。
表4.51(従属節4.4.2.7、ISO/IEC14496−3:2001/FDAM:2003(E))中のextension_payload()機構のシンタックスと比較して、第2の例においては、表2に示すように、extension_payload()のシンタックスに対して追加のextension_type〔拡張_種類〕(すなわち、「EXT_AUDIO_THUMBNAIL」というextension_type)が追加される。復号器がこの追加のextension_typeに対応していない場合、この情報は典型的には読み飛ばされる。表2において、音声サムプリントのための追加のビットストリーム要素に下線を付してある。拡張種類「EXT_AUDIO_THUMBNAIL」はメタデータ「AudioThumbprintData()」と関連付けられ、「AudioThumbprintData()」のシンタックスの一例を表3に示す。表3の「AudioThumbprintData()」のシンタックスは、表1のシンタックスと類似する。ビットストリーム要素「BS_SECTION_ID」、「BS_NUM_CHAR」、「BS_ARTIST_STRING」、「BS_START」および「BS_LENGTH」の規定は、表1に関連して論じた規定と同じである。変数「numAuThBits」はAudioThumbprintData()と関連付けられた追加のビットの数をカウントする。
変数「numAlignBits」は、必要なフィルビット数に対応し、extension_payloadのビット数合計(変数「cnt」(単位:バイト))と、音声サムプリント(変数「numAuThBits」)および変数「拡張種類」(これは、extension_payload()中の拡張種類を特定する)に用いられるビット数との間の差として決定される。この所与の例において、「numAlignBits」は4に等しい、「AudioThumbprintData〔音声サムプリントデータ〕()」は、読み出されたバイト数合計を返す。
Figure 0005771618
Figure 0005771618
図1は、時間標識情報の符号化のための符号化器〔エンコーダ〕1の例示的実施形態を示している。符号化器は、音声信号2を受信する。音声信号2は、PCM(パルス符号変調)符号化された音声信号2でもよく、または、知覚符号化された音声ビットストリーム(MP3ビットストリーム、ドルビーデジタルビットストリーム、従来のHE−AACビットストリームまたはドルビーパルスビットストリームなどのような)であってもよい。音声信号2は、マルチメディアトランスポートフォーマット(例えば、「MP4」(MPEG−4パート14などのような)またはメタデータコンテナ(例えば、「ID3」)などのような)によって拡張した先述した音声ビットストリームフォーマットのいずれかであってもよい。音声信号2は、音声オブジェクト(例えば、楽曲)を含む。符号化器1は、時間標識データ7をさらに受信する。時間標識データ7は、音声オブジェクト中の1つ以上の区分(最も特徴的な部分などのような)を示す。時間標識データ7は、例えば音楽情報検索(MIR)アルゴリズムによって自動特定されてもよく、または手作業で入力されてもよい。符号化器1は、1つ以上の標識付けされた区分をラベル付けするための、ラベル付け情報8をさらに受信してもよい。
信号2および7ならびに任意選択的に信号8に基づいて、符号化器1は、音声オブジェクトを含み、かつ音声オブジェクト中の1つ以上の区分をマーク付けするための時間標識情報を含むビットストリーム3を生成する。ビットストリーム3は、MP3ビットストリーム、ドルビーデジタルビットストリーム、HE−AACビットストリームまたはドルビーパルスビットストリームであってもよく、ビットストリームが時間標識情報と、任意選択的に関連付けられたラベル付け情報とを含む点において従来のビットストリームと異なる。ビットストリーム3は、マルチメディアトランスポートフォーマット(例えば、「MP4」(MPEG−4パート14)、またはメタデータコンテナ(例えば、「ID3」などのような)によって拡張した先述した音声ビットストリームフォーマットのいずれかであってもよい。ビットストリーム3は、後で再生できるように音声ファイルとして記憶媒体(図示せず)(フラッシュメモリまたはハードディスクなどのような)中に保存されてもよく、またはストリーミングアプリケーション(インターネットラジオなどのような)においてストリーミングされてもよい。
ビットストリーム3は、ヘッダ区分4を備えてもよい。ヘッダ区分4は、時間標識メタデータ区分5を備えてもよい。時間標識メタデータ区分5は、符号化された時間標識情報と、関連付けられたラベル付け情報とを有する。時間標識情報は、1つ以上の標識付けされた区分についての開始点および停止点、または1つ以上の標識付けされた区分の各開始点および各継続長さを備えてもよい。時間標識メタデータ区分5は、上述したようにメタデータコンテナ中に含まれていてもよい。ビットストリーム3は、音声オブジェクト6をさらに含む。よって、1つ以上の区分の時間情報がビットストリームのメタデータ中に含まれ、これにより、例えば音声オブジェクトの重要部分にナビゲートすることが可能になる。
図2は、復号器〔デコーダ〕10の例示的実施形態を示す。復号器10は、符号化器1によって生成されたビットストリーム3を復号するように構成される。復号器10は、ビットストリーム3(PCM音声信号11などのような)に基づいて音声信号11を生成する。復号器10は典型的には、音声再生(特に音楽再生)のための消費者デバイスの一部である。消費者デバイスは、携帯電話機能性の無いポータブル音楽プレーヤ、音楽プレーヤ機能性のある携帯電話、ノートブック、セットトップボックス、またはDVDプレーヤなどのようなものである。音声再生のための消費者デバイスは、組み合わされたオーディオ/ビデオ再生のために利用されてもよい。復号器10は、選択信号13をさらに受信する。選択信号13に応じて、復号器10は、音声オブジェクトの標識付けされた区分にジャンプして標識付けされた区分の復号を行うか、または、音声オブジェクトの通常の復号を音声オブジェクトの初めから終わりまで行う。復号器が音声オブジェクトの標識付けされた区分へとジャンプした場合、消費者デバイスは、標識付けされた区分から再生を開始する。
復号器10は、復号されたラベル付け情報12を任意選択的にさらに出力してもよい。復号されたラベル付け情報12は、デバイスのディスプレイ上に表示されるよう、ディスプレイドライバ(図示せず)に入力されてもよい。
本明細書において、時間標識情報を音声データ中のメタデータとして符号化するための方法およシステムが記載される。この時間標識情報により、音楽消費者が音声ファイルの特徴部分を素早く特定することが可能になる。
本明細書中に記載の方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されてもよい。ある種のコンポーネントは、例えばデジタル信号プロセッサまたはマイクロプロセッサ上において実行されるソフトウェアとして実装されてもよい。他のコンポーネントは、例えばハードウェアとしてあるいは特定用途向け集積回路として実装されてもよい。記載された方法およびシステムにおいて出てくる信号は、媒体(ランダムアクセスメモリまたは光学記憶媒体などのような)上に保存されてもよい。これらは、ネットワーク(電波ネットワーク、衛星ネットワーク、無線ネットワーク、または有線ネットワーク(例えば、インターネット)などのような)を介して転送されてもよい。本文献中に記載の方法およびシステムを利用する典型的なデバイスとしては、ポータブル電子機器または音声信号の保存および/またはレンダリングに用いられる他の消費者装置がある。これらの方法およびシステムは、ダウンロードのために音声信号(例えば、音楽信号)を保存および提供するコンピュータシステム(例えば、インターネットウェブサーバー)上で用いられてもよい。

Claims (19)

  1. 時間標識情報を音声データ中に符号化する方法であって、前記音声データはビットストリームであり、当該方法は、
    時間標識情報を前記音声データ中の音声メタデータとして符号化することで、ジョイントビットストリームを形成するステップを含み、前記時間標識情報は、前記音声データ中の音声オブジェクトの複数の区分を示し、前記時間標識情報は、前記音声データの複数の位置において前記ジョイントビットストリームのメタデータコンテナ内において符号化されており、前記複数の位置は、前記音声データビットストリーム中に特定の発生率で発生し、これにより、対応する復号器は前記時間標識情報によって示される前記音声オブジェクトの区分の先頭から前記音声オブジェクトの再生を開始できる、
    方法。
  2. 前記音声オブジェクトは楽曲である、請求項1に記載の方法。
  3. 前記区分は前記音声オブジェクトの特徴部分である、請求項1に記載の方法。
  4. 前記音声オブジェクトは楽曲であり、前記区分は、コーラス、リフレインまたはその一部である、請求項3に記載の方法。
  5. 前記音声オブジェクトは楽曲であり、前記複数の区分は、前記楽曲の時間的音楽的構造に関連する異なる区分である、請求項1に記載の方法。
  6. 前記複数の区分は、以下の区分、すなわち、
    導入部、
    歌詞、
    リフレインもしくはコーラス、
    ブリッジ、または
    ソロ、
    のうち少なくとも1つを含む、請求項5に記載の方法。
  7. 前記音声オブジェクトは楽曲であり、前記時間標識情報は、以下、すなわち、
    前記楽曲内における、特定の楽器または楽器グループの発生、
    歌声の発生、
    前記楽曲の中で一番音の大きな部分、
    主題、
    動機、または
    主題の変形、
    のうち少なくとも1つを示す、請求項1に記載の方法。
  8. 前記時間標識情報は、
    前記区分の開始位置、および
    前記区分の終了位置または継続長さ、
    を指定する、請求項1に記載の方法。
  9. 前記方法は、
    前記音声データ中のラベル付け情報を符号化することを含み、前記ラベル付け情報は、前記音声オブジェクトの前記複数の区分をラベル付けし、前記ラベル付け情報は前記ジョイントビットストリームのメタデータとして符号化される、
    請求項1ないし8のうちいずれか一項に記載の方法。
  10. 前記音声オブジェクトは楽曲であり、前記時間標識情報は、特定の音楽的特性を有する区分を示し、前記ラベル付け情報はそのセクションについての特定の音楽的特性を記述する、請求項9に記載の方法。
  11. 前記音楽的特性は、以下、すなわち、
    特定のテンポ、
    特定のアーティキュレーション、
    特定のムード、
    特定の調性、または
    特定の音楽的スタイルまたはジャンル、
    のうち1つを含む、請求項10に記載の方法。
  12. 前記ラベル付け情報はテキストラベルとして符号化される、請求項9に記載の方法。
  13. 前記ラベル付け情報は、表のインデックスとして符号化される、請求項9に記載の方法。
  14. 前記時間標識情報は、
    秒値、
    秒値および端数秒値、
    サンプル番号、
    フレーム番号、
    整数のフレーム番号および整数のサンプル番号、または
    整数のフレーム番号および端数のフレーム値、
    を含む、請求項1に記載の方法。
  15. 前記複数の位置のうちある所与の位置における時間標識情報は、前記ビットストリーム中の前記所与の位置の発生に関連して指定される、請求項1に記載の方法。
  16. 前記時間標識情報は、
    MPEG−2または−4 AAC音声データの拡張ペイロードコンテナ、あるいは
    MPEG−4パート12に適合するメタデータコンテナ、
    中に符号化される、請求項1に記載の方法。
  17. 音声データおよび音声メタデータを含むジョイントビットストリーム中の時間標識情報を復号する方法であって、
    前記ジョイントビットストリーム中の前記音声メタデータとして提供された時間標識情報を復号するステップを含み、前記時間標識情報は、前記音声データ中に符号化された音声オブジェクトの複数の区分を示し、前記時間標識情報は、前記音声データの複数の位置において前記ジョイントビットストリームのメタデータコンテナ内において符号化され、前記複数の位置は、前記音声データビットストリーム中に特定の発生率で発生し、それにより、前記時間標識情報によって示される前記音声オブジェクトの区分の先頭から前記音声オブジェクトの再生を開始できるようにする、
    方法。
  18. 時間標識情報を音声データ中の音声メタデータとして符号化するように構成された符号化器であって、前記音声データはビットストリームであり、これによりジョイントビットストリームが形成され、前記時間標識情報は、前記音声データ中に符号化された音声オブジェクトの複数の区分を示し、前記時間標識情報は、前記音声データの複数の位置において前記ジョイントビットストリームのメタデータコンテナ内において符号化され、前記複数の位置は、前記音声データビットストリーム中に特定の発生率で発生し、これにより、対応する復号器が、前記時間標識情報によって示される前記音声オブジェクトの区分の先頭から前記音声オブジェクトの再生を開始できるようにする、符号化器。
  19. 音声データを含むジョイントビットストリーム中の音声メタデータとして提供された時間標識情報を復号するように構成された復号器であって、前記時間標識情報は、前記音声データ中に符号化された音声オブジェクトの複数の区分を示し、前記時間標識情報は、前記音声データの複数の位置において前記ジョイントビットストリームのメタデータコンテナ内において符号化され、前記複数の位置は、前記音声データビットストリーム中に特定の発生率で発生し、これにより、当該復号器が、前記時間標識情報によって示される前記音声オブジェクトの区分の先頭から前記音声オブジェクトの再生を開始できるようにする、復号器。
JP2012533640A 2009-10-19 2010-10-14 音声オブジェクトの区分を示すメタデータ時間標識情報 Expired - Fee Related JP5771618B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US25278809P 2009-10-19 2009-10-19
US61/252,788 2009-10-19
PCT/EP2010/065463 WO2011048010A1 (en) 2009-10-19 2010-10-14 Metadata time marking information for indicating a section of an audio object

Publications (3)

Publication Number Publication Date
JP2013509601A JP2013509601A (ja) 2013-03-14
JP2013509601A5 JP2013509601A5 (ja) 2013-08-08
JP5771618B2 true JP5771618B2 (ja) 2015-09-02

Family

ID=43608008

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012533640A Expired - Fee Related JP5771618B2 (ja) 2009-10-19 2010-10-14 音声オブジェクトの区分を示すメタデータ時間標識情報

Country Status (5)

Country Link
US (1) US9105300B2 (ja)
EP (1) EP2491560B1 (ja)
JP (1) JP5771618B2 (ja)
CN (1) CN102754159B (ja)
WO (1) WO2011048010A1 (ja)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
EP2659483B1 (en) 2010-12-30 2015-11-25 Dolby International AB Song transition effects for browsing
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
JP6273456B2 (ja) * 2013-04-26 2018-02-07 パナソニックIpマネジメント株式会社 音声再生装置
US8856825B1 (en) 2013-05-02 2014-10-07 This Technology, Inc. Server side adaptive bit rate reporting
WO2014178865A1 (en) * 2013-05-02 2014-11-06 This Technology, Inc. Server side adaptive bit rate reporting
JP6192813B2 (ja) * 2013-05-24 2017-09-06 ドルビー・インターナショナル・アーベー オーディオ・オブジェクトを含むオーディオ・シーンの効率的な符号化
CN103400592A (zh) * 2013-07-30 2013-11-20 北京小米科技有限责任公司 录音方法、播放方法、装置、终端及系统
CN104091591B (zh) * 2013-10-15 2016-01-27 腾讯科技(深圳)有限公司 一种音频处理方法及装置
CN104091595B (zh) * 2013-10-15 2017-02-15 广州酷狗计算机科技有限公司 一种音频处理方法及装置
CN104882145B (zh) * 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类
US9431002B2 (en) 2014-03-04 2016-08-30 Tribune Digital Ventures, Llc Real time popularity based audible content aquisition
FR3026541A1 (fr) 2014-09-29 2016-04-01 Parrot Systeme de restitution sonore avec casques audio dotes de processeurs sonores, composants d'un tel systeme et procede associe
CN104599681B (zh) * 2014-12-31 2017-08-01 广州酷狗计算机科技有限公司 音频处理的方法和装置
TWI693594B (zh) * 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
CN104778216B (zh) * 2015-03-20 2017-05-17 广东欧珀移动通信有限公司 一种预设风格歌曲处理的方法及装置
EP3389046B1 (en) * 2015-12-08 2021-06-16 Sony Corporation Transmission device, transmission method, reception device, and reception method
US9959343B2 (en) 2016-01-04 2018-05-01 Gracenote, Inc. Generating and distributing a replacement playlist
CN105931656B (zh) * 2016-04-14 2019-07-05 青岛海信移动通信技术股份有限公司 一种音频剪辑的方法及装置
US10565980B1 (en) 2016-12-21 2020-02-18 Gracenote Digital Ventures, Llc Audio streaming of text-based articles from newsfeeds
US10419508B1 (en) 2016-12-21 2019-09-17 Gracenote Digital Ventures, Llc Saving media for in-automobile playout
US10019225B1 (en) 2016-12-21 2018-07-10 Gracenote Digital Ventures, Llc Audio streaming based on in-automobile detection
US11895369B2 (en) 2017-08-28 2024-02-06 Dolby Laboratories Licensing Corporation Media-aware navigation metadata
CN108806692A (zh) * 2018-05-29 2018-11-13 深圳市云凌泰泽网络科技有限公司 一种音频内容查找及可视化播放方法
US11210337B2 (en) 2018-10-16 2021-12-28 International Business Machines Corporation System and method for searching audio data
CN111462767B (zh) * 2020-04-10 2024-01-09 全景声科技南京有限公司 音频信号的增量编码方法及装置
CN112732216B (zh) * 2020-12-31 2022-05-10 南京南机智农农机科技研究院有限公司 一种平行朗读语音的交互方法及其交互系统
CN114363791A (zh) * 2021-11-26 2022-04-15 赛因芯微(北京)电子科技有限公司 串行音频元数据生成方法、装置、设备及存储介质

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100228688B1 (ko) 1991-01-08 1999-11-01 쥬더 에드 에이. 다차원 음장용 인코우더/디코우더
US5463424A (en) 1993-08-03 1995-10-31 Dolby Laboratories Licensing Corporation Multi-channel transmitter/receiver system providing matrix-decoding compatible signals
JP3388481B2 (ja) 1995-09-25 2003-03-24 日本電信電話株式会社 音楽情報の曲構成自動抽出方法
JP3765622B2 (ja) 1996-07-09 2006-04-12 ユナイテッド・モジュール・コーポレーション オーディオ符号化復号化システム
SE512719C2 (sv) 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US5890125A (en) 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
JP4176893B2 (ja) * 1999-01-19 2008-11-05 ローランド株式会社 波形再生装置
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6345252B1 (en) 1999-04-09 2002-02-05 International Business Machines Corporation Methods and apparatus for retrieving audio information using content and speaker information
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US7266501B2 (en) * 2000-03-02 2007-09-04 Akiba Electronics Institute Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US6633845B1 (en) 2000-04-07 2003-10-14 Hewlett-Packard Development Company, L.P. Music summarization system and method
SE0001926D0 (sv) 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
US20050204385A1 (en) * 2000-07-24 2005-09-15 Vivcom, Inc. Processing and presentation of infomercials for audio-visual programs
US6652619B2 (en) * 2000-08-10 2003-11-25 Showa Denko K.K. Niobium powder, sintered body thereof, and capacitor using the same
JP2002133834A (ja) * 2000-10-24 2002-05-10 Pioneer Electronic Corp 楽曲データ管理装置及び車載用オーディオ情報再生制御システム
SE0004163D0 (sv) 2000-11-14 2000-11-14 Coding Technologies Sweden Ab Enhancing perceptual performance of high frequency reconstruction coding methods by adaptive filtering
SE0004187D0 (sv) 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
SE0202159D0 (sv) 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US6747201B2 (en) 2001-09-26 2004-06-08 The Regents Of The University Of Michigan Method and system for extracting melodic patterns in a musical piece and computer-readable storage medium having a program for executing the method
JP3870193B2 (ja) 2001-11-29 2007-01-17 コーディング テクノロジーズ アクチボラゲット 高周波再構成に用いる符号器、復号器、方法及びコンピュータプログラム
US7038118B1 (en) 2002-02-14 2006-05-02 Reel George Productions, Inc. Method and system for time-shortening songs
US7797446B2 (en) * 2002-07-16 2010-09-14 Apple Inc. Method and system for updating playlists
US7426537B2 (en) * 2002-05-31 2008-09-16 Microsoft Corporation Systems and methods for sharing dynamic content among a plurality of online co-users
SE0202770D0 (sv) 2002-09-18 2002-09-18 Coding Technologies Sweden Ab Method for reduction of aliasing introduces by spectral envelope adjustment in real-valued filterbanks
US7386357B2 (en) 2002-09-30 2008-06-10 Hewlett-Packard Development Company, L.P. System and method for generating an audio thumbnail of an audio track
US20040064476A1 (en) * 2002-09-30 2004-04-01 John Rounds Computer program, method, and media player
JP4243682B2 (ja) 2002-10-24 2009-03-25 独立行政法人産業技術総合研究所 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム
SE0301273D0 (sv) 2003-04-30 2003-04-30 Coding Technologies Sweden Ab Advanced processing based on a complex-exponential-modulated filterbank and adaptive time signalling methods
FR2856817A1 (fr) * 2003-06-25 2004-12-31 France Telecom Procede de traitement d'une sequence sonore, telle qu'un morceau musical
US7232948B2 (en) 2003-07-24 2007-06-19 Hewlett-Packard Development Company, L.P. System and method for automatic classification of music
US20060008256A1 (en) * 2003-10-01 2006-01-12 Khedouri Robert K Audio visual player apparatus and system and method of content distribution using the same
JP2008510177A (ja) * 2004-08-12 2008-04-03 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ再生装置間のプレイリストの配布
US20060080356A1 (en) 2004-10-13 2006-04-13 Microsoft Corporation System and method for inferring similarities between media objects
JP2006163063A (ja) * 2004-12-08 2006-06-22 Kddi Corp 楽曲自動分割方法
CA2644943A1 (en) 2005-03-04 2006-09-14 Musicip Corporation Scan shuffle for building playlists
WO2007011308A1 (en) 2005-07-22 2007-01-25 Agency For Science, Technology And Research Automatic creation of thumbnails for music videos
JP4487958B2 (ja) * 2006-03-16 2010-06-23 ソニー株式会社 メタデータ付与方法及び装置
US8392183B2 (en) 2006-04-25 2013-03-05 Frank Elmo Weber Character-based automated media summarization
JP2007304933A (ja) 2006-05-12 2007-11-22 Sony Corp 情報処理システム、端末装置、情報処理方法、プログラム
KR100855345B1 (ko) 2006-07-13 2008-09-04 에스케이 텔레콤주식회사 핸드폰에 저장된 음원 메타데이터를 자동 인식하는 노래방선곡 방법 및 시스템, 그를 위한 노래방 서비스 서버와 그동작 방법
WO2008046492A1 (en) 2006-10-20 2008-04-24 Dolby Sweden Ab Apparatus and method for encoding an information signal
US20080192736A1 (en) * 2007-02-09 2008-08-14 Dilithium Holdings, Inc. Method and apparatus for a multimedia value added service delivery system
US7838755B2 (en) 2007-02-14 2010-11-23 Museami, Inc. Music-based search engine
US8208643B2 (en) 2007-06-29 2012-06-26 Tong Zhang Generating music thumbnails and identifying related song structure
US20090044686A1 (en) 2007-08-14 2009-02-19 Vasa Yojak H System and method of using metadata to incorporate music into non-music applications
US20110000359A1 (en) * 2008-02-15 2011-01-06 Pioneer Corporation Music composition data analyzing device, musical instrument type detection device, music composition data analyzing method, musical instrument type detection device, music composition data analyzing program, and musical instrument type detection program
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
BRPI0919880B1 (pt) 2008-10-29 2020-03-03 Dolby International Ab Método e aparelho para prover proteção contra o ceifamento de sinal de um sinal de áudio derivado de dados de áudio digital e transcodificador
TWI538394B (zh) 2009-04-10 2016-06-11 杜比實驗室特許公司 利用順逆向濾波方式獲取所欲非零相移之技術
TWI501580B (zh) 2009-08-07 2015-09-21 Dolby Int Ab 資料串流的鑑別
TWI413110B (zh) 2009-10-06 2013-10-21 Dolby Int Ab 以選擇性通道解碼的有效多通道信號處理
CN103854651B (zh) 2009-12-16 2017-04-12 杜比国际公司 Sbr比特流参数缩混
TWI529703B (zh) 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法

Also Published As

Publication number Publication date
EP2491560A1 (en) 2012-08-29
CN102754159A (zh) 2012-10-24
US9105300B2 (en) 2015-08-11
WO2011048010A1 (en) 2011-04-28
EP2491560B1 (en) 2016-12-21
CN102754159B (zh) 2016-08-24
US20120197650A1 (en) 2012-08-02
JP2013509601A (ja) 2013-03-14

Similar Documents

Publication Publication Date Title
JP5771618B2 (ja) 音声オブジェクトの区分を示すメタデータ時間標識情報
US6448485B1 (en) Method and system for embedding audio titles
US6442517B1 (en) Methods and system for encoding an audio sequence with synchronized data and outputting the same
US20030158737A1 (en) Method and apparatus for incorporating additional audio information into audio data file identifying information
US20060087925A1 (en) Content using apparatus, content using method, distribution server apparatus, infomation distribution method, and recording medium
KR20060049374A (ko) 콘텐츠 이용장치, 콘텐츠 이용방법, 분배 서버 장치, 정보분배 방법 및 기록 매체
KR20080059650A (ko) 악곡 구간 검출 방법 및 그 장치, 및 데이터 기록 방법 및그 장치
JP2014520352A (ja) エンハンスされたメディア記録およびプレイバック
Jang et al. The MPEG interactive music application format standard [standards in a nutshell]
US20100089223A1 (en) Microphone set providing audio and text data
JP2007200495A (ja) 音楽再生装置、音楽再生方法及び音楽再生用プログラム
Jackson Digital audio editing fundamentals
CN1845249A (zh) Mp3多语声文同步互动学习数据的制作和播放方法及其装置
Corral García et al. Enabling interactive and interoperable semantic music applications
KR20020006620A (ko) 휴대용 시디재생장치 및 자막표시 오디오시디 및 이를이용한 학습시스템
JP2005208875A (ja) メタデータ配信方法
US7805311B1 (en) Embedding and employing metadata in digital music using format specific methods
Toulson et al. Embedding ISRC identifiers in broadcast wave audio files
Reiss et al. Audio Issues In MIR Evaluation.
KR101143908B1 (ko) 디스크자키 서비스를 제공하는 오디오 재생 장치 및 방법
Mason et al. Music information retrieval in broadcasting: Some visual applications
Stewart et al. Interactive music applications and standards
Szeto Metadata Standards in Digital Audio
Heavner The Applied Music Studio: Teaching Students With Special Needs
Ludovico An XML multi-layer framework for music information description

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130617

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141125

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150602

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150629

R150 Certificate of patent or registration of utility model

Ref document number: 5771618

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees