JP2009510658A - オーディオを再生用に処理する方法および装置 - Google Patents

オーディオを再生用に処理する方法および装置 Download PDF

Info

Publication number
JP2009510658A
JP2009510658A JP2008532916A JP2008532916A JP2009510658A JP 2009510658 A JP2009510658 A JP 2009510658A JP 2008532916 A JP2008532916 A JP 2008532916A JP 2008532916 A JP2008532916 A JP 2008532916A JP 2009510658 A JP2009510658 A JP 2009510658A
Authority
JP
Japan
Prior art keywords
chromagram
audio track
audio
correlation
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008532916A
Other languages
English (en)
Inventor
ステフェン シー パウス
ファビーオ ヴィジノリ
アヴェケ エヌ レムマ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2009510658A publication Critical patent/JP2009510658A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/038Cross-faders therefor
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs

Abstract

1つのオーディオトラックの開始領域と、先行オーディオトラックの終端領域との間でスムースなトランジションを提供するよう、オーディオを再生用に処理する方法および装置を開示する。オーディオトラックのそれぞれにつきクロマグラムを表す量が計算され、各オーディオトラックの開始領域および終端領域についてミキシング点が特定される。オーディオトラックの開始領域のミキシング点におけるクロマグラムを表す量と、先行オーディオトラックの終端領域のミキシング点におけるクロマグラムを表す量との、相関関係が取られ、オーディオトラックの再生順序および/またはミキシングされたトランジションの持続時間が決定される。

Description

本発明は、オーディオを再生用に処理する方法および装置に関するものである。本発明は特に、一連のオーディオ片同士の間でスムースなトランジション(移行)が提供されるオーディオ再生に関するものである。
オーディオ圧縮技術の進歩、家庭におけるブロードバンドのインターネットアクセスの利用可能性、および電子音楽配信システムの人気の結果、ユーザーはいまや、絶えず増え続ける数のオーディオファイルを取得し、自分のローカルのデータベースに保存することができる。さらに、大容量のランダムアクセス記憶装置と高度なレンダリング性能とを有する民生機器は、電子音楽のデータベース全体を、即座に再生できるものとして利用可能としている。限られた数の歌曲のみが手動で選択される従来型の音楽再生と異なり、ユーザーの興味を考慮に入れた上でデータベース全体を利用する、インテリジェント再生リスト生成技術が強く求められている。さらに、これらの歌曲を、スムースなトランジションをもって、シームレスにストリーム化した態様で提供することが望ましい。歌曲同士の間のスムースなトランジションを提供する自動オーディオミキシングおよび再生システムは知られており、一般的にAutoDJと呼ばれる。
AutoDJは、音楽の「知識」を有する消費者用のハードウェアプラットホーム内のソフトウェア機能であり、したがって所与のデータベースから歌曲を選択し、ミキシングすることができる。AutoDJは、人間のDJがオーディオミキシングを行うのに使われるツールではなく、むしろ人間のDJに代わるものであり、最小限の人的介入をもって動作する。
AutoDJは、単にクロスフェード型のトランジションを提供するのではなく、そのオーディオのコンテンツおよびユーザーの嗜好に応じて、様々なタイプのトランジションを適用することができる。AutoDJは、2つの部分に分けることができ、それは(1)再生リストを生成し、歌曲の類似度に応じてそれら歌曲をソートする部分(すなわち、AutoDJは、いくらかの「音楽の知識」を持っている)、および(2)一連の歌曲をミキシングし、そのミキシングされた音楽を再生する部分である。歌曲のミキシングは、トランジションのタイプおよびサイズを計算する工程と、正確なミキシング点を決定する工程と、音楽を再生する工程とを含む。そのようなAutoDJシステムは、一連のトラックの分析機能だけでなく、一連のトラック間の様々なトランジション(たとえば、テンポの等化およびビート位相の同期)を実現するための、複雑な音声処理機能を提供する。AutoDJシステムは、明りょうな基準に基づいてトランジションを決定し、そのトランジションを実行する。
自動オーディオミキシングを行う既存の製品は数多く存在し、たとえばBpm DJおよびDJ Mix Pro.Bpm DJは、予め規定された再生リストがライブイベントにおいてミキシングされる、クローズドシステムである。この予め規定されたミキシング音楽は、種々のジャンルに基づいている。たとえば、サウスダコタ・ウェディングSJミックス、スーフォールズ−ブルッキングス・ミックス、チェンバレン・ミックスもしくはウォータータウン・イベント・ミックス、またはプロム、スクールダンス、パーティー等々のミキシング音楽が、選択肢に含まれ得る。これらはすべて、既知のデータベースおよび再生リストに基づいている。しかしながら、このアプローチは、歌曲の事前知識を有していることを必要とし、予め規定された歌曲の集合があるときのみ動作する。DJ Mix Proは、より柔軟な再生リストの選択を提供し、ある程度、入力された再生リストに基づくビートミキシングを実行する。しかしながら、DJ Mix Proは、フレーズ境界といったような歌曲の重要なセマンティックスを特定する能力は有さない。歌曲を自動的にミキシングして、2つの歌曲間でシームレスなトランジションを生成する手法は、米国特許出願公開US2003/0183964号にも開示されている。既知の自動ミキシング方法の1つの欠点は、生成されたミキシング音楽中のトランジションが、短いまたは低品質であることが多い点である。
したがって、再生リスト中の一連の音楽トラックを自動的に選択、順序付けおよびミキシングして、(ほぼ)シームレスなトランジションを創出するための、単純かつ有効なシステムを提供することが望ましい。さらに、多様な再生リストの提供に利用可能なデータベース全体を使用できるAutoDJであって、再生順序を最適化してオーディオトラック間のスムースなトランジションを提供することができるようなAutoDJを提供することが望ましい。音楽トラックはオーディオ片であり、たとえば、後で再生できるようにデジタルフォーマットで保存されたものであってもよい歌曲とされ得る。
具体的には、本発明の第1の側面によれば、上記の目的は、1つのオーディオトラックの開始領域と、先行オーディオトラックの終端領域との間でスムースなトランジションを提供するよう、オーディオを再生用に処理する方法であって、
上記のオーディオトラックの開始領域のミキシング点におけるクロマグラムを表す量と、上記の先行オーディオトラックの終端領域のミキシング点におけるクロマグラムを表す量との、相関関係を取る工程と、
それらクロマグラムを表す量の間の相関関係に基づいて、上記のオーディオトラックの開始領域のミキシング点および上記の先行オーディオトラックの終端領域のミキシング点における再生中、それら連続するオーディオトラック間のトランジションをスムースにする工程とを含むことを特徴とする方法により達成される。クロマグラムを表す量は、クロマグラムそのものであってもよいし、クロマグラムから導出された1つまたは複数の値であってもよい。
本発明の第2の側面によれば、上記の目的はまた、1つのオーディオトラックの開始領域と、先行オーディオトラックの終端領域との間でスムースなトランジションを提供するよう、オーディオを再生用に処理する装置であって、
上記のオーディオトラックの開始領域のミキシング点におけるクロマグラムを表す量と、上記の先行オーディオトラックの終端領域のミキシング点におけるクロマグラムを表す量との、相関関係を取る相関器と、
それらクロマグラムを表す量の間の相関関係に基づいて、上記のオーディオトラックの開始領域のミキシング点および上記の先行オーディオトラックの終端領域のミキシング点における再生中、それら連続するオーディオトラック間のトランジションをスムースにする手段とを含むことを特徴とする装置によっても達成される。
クロマグラムは、オーディオトラックのスムースなミキシングを創出するのに、極めて有用であることが分かった。本システムは、歌曲に関する任意の事前知識を伴う任意のオーディオの集合に対して動作し得る。
連続する記録素材の各ペアがそれらのミキシング点において類似の調音またはコードの前後関係を有するような態様で、再生リスト中のオーディオ記録素材を選択およびソートするのに、クロマグラムを利用することができる。そのようなオーディオ記録素材の最適アレンジは、再生リスト内の2つの連続するオーディオ記録素材のミキシング点におけるクロマグラム間において、最も強い相関関係を見出すことにより実現することができる。
好ましくは、連続するオーディオトラックの開始領域のクロマグラムと終端領域のクロマグラムとの相関関係に基づいた順序で再生を行うよう、複数のオーディオトラックが選択される。さらに好ましくは、連続するオーディオトラックの開始領域のクロマグラムと終端領域のクロマグラムとの相関関係を最適化するように、再生順序が決定される。
再生リストの順序は、オーディオトラックのシーケンスが予め規定された制約条件を満たすか否かについてペナルティが計算され、最小のペナルティを有するオーディオトラックのシーケンスが反復法により導出される、局所的探索の手法に基づいて決定されてもよい。ペナルティは、オーディオトラックのクロマグラム間の相関関係に基づいて計算されてもよい。
上記に加えてまたは上記に代えて、連続するオーディオトラックの開始領域のクロマグラムと終端領域のクロマグラムとの間の相関関係に基づいて、それら連続するオーディオトラック間の、ミキシングされたトランジションの持続時間が決定されてもよい。
本発明の1つの好ましい実施形態では、クロマグラムは、予め決められたオクターブ数に亘って、各オーディオトラックのコンテンツのFFTベースの振幅スペクトルを調音圧縮する(harmonically compress)ことによって計算される。このオクターブ数は、6オクターブであってもよい。その後、各オーディオトラックの調音圧縮された振幅スペクトルが、そのスペクトルにハミング窓を掛け合わせることによってフィルタリングされる。スペクトルのピーク位置およびピーク周辺位置において、振幅スペクトルの値が抽出される。
クロマグラムは、音楽オーディオ中の12個のクロマすべてについて、その生じやすさ(likelihood)を符号化したものである。クロマは、音符の目盛位置のカテゴリーであり、オクターブにかかわらず、音符名により表される(たとえば「C」、「C#」、「D」、・・・)。そのため、1オクターブ離れた2つのピッチは、同じクロマを有するが、ピッチ高さが異なる。したがって、クロマは、オクターブの周期で繰り返される特性を有する。このため、クロマグラムは、音楽サンプルの調音/コードのコンテンツを、12成分の特徴ベクトルという非常にコンパクトな形式で要約するものである。
特定のキーで作曲された音楽、または特定のコード進行を使用した音楽は、比較的高い頻度で出現する特定のクロマを有する。すなわち、これらのクロマはより安定していることが見出される。長調キー(または対応の長調コードの3和音)のクロマグラムは、それらの主音につき最も高い出現率を有し、その後に3和音中の他の2つのピッチ(長3度、完全5度)、その後に長調目盛りの残りのピッチが続き、最後に目盛外のピッチとなる。一方、短調キー(または対応の短調コードの3和音)のクロマグラムは、長3度の出現率がより低いが、短3度の出現率がより高い点で異なる。クロマグラムは、ピッチと主音との関係のみに依存し、絶対的なピッチには依存しない。したがって、異なる長調キー(長調コード)に対するクロマグラム、および異なる短調キー(短調コード)に対するクロマグラムは、すべて互いに位置移動したものとなっている。たとえば、ハ長調に対するクロマグラムを6個の位置分シフトすることにより、ト長調に対するクロマグラムに到達することができる。このため、2つのオーディオサンプルのクロマグラム間のピアソン積モーメント相関は、それら2つのオーディオサンプル間の調音(ハーモニー)の類似度を計算するための、非常によい候補となる。
本発明をより完全に理解するため、図面と共に以下の説明を参照されたい。
図1は、既知のAutoDJシステムの簡単な模式図を示している。この図には、コンテンツアナライザ103およびプレーヤー105に歌曲を出力する、歌曲データベース101が含まれている。コンテンツアナライザ103は、データベース101内に保存されている歌曲を分析して、そのコンテンツのリズミカル特性および知覚上の特性を表すパラメータを抽出する。これらのパラメータは、とりわけ、歌曲のセグメント化パラメータ、テンポおよびビート位置(オンセット)、ハーモニック・シグニチャ等を含んでいる。好都合な形態では、これらのパラメータ(集合的に、AutoDJメタ情報と呼ぶこととする)は、オフラインで計算され、接続されている特性データベース107に保存または追加される。
再生リスト生成器109は、ユーザーの嗜好の入力を受け、データベース101を用いて適切な再生リストを生成する。そのような再生リストを与えられると、トランジションプランナー111が、再生リスト中の歌曲に対応するAutoDJメタ情報を比較し、最適な再生順序を決定して、プレーヤー105により実行されるべきコマンドの組を生成する。最後に、プレーヤー105は、いかにしてそれらの歌曲がリズム上調和したスムースな態様でミキシングおよび再生されるべきかを記述したコマンドのシーケンスを実行しながら、データベース101から出力レンダリング装置113(たとえばスピーカー)へと歌曲を流す。
歌曲間のシームレスなトランジションを実行するためには、ミキシング音楽中でうまく再生される歌曲は、それら歌曲のミキシング点において、音楽的に類似の特性を有することが必要不可欠である。したがって、歌曲の選択、および再生リスト中におけるそれら歌曲の順序は、ミキシング音楽中における音楽的な類似性を保証するために重要である。テンポに関しては、小さな非類似特性は、時間伸長アルゴリズムといったような音楽変換技術を適用することにより補正可能である。歌曲は、それら歌曲のビート(すなわち音楽中で知覚されるパルス)を揃えることによってミキシングすることができ、これは「ビートミキシング」として知られている。また、類似の音楽キー(または類似の調音/コードの前後関係)に関連付けて歌曲をミキシングすることもでき、これは「ハーモニックミキシング」と呼ばれる。
再生リスト中の歌曲の正しい「最適な」順序を生成する技術としては、多くの技術が知られている。その1つは、局所的探索である。この方法では、ユーザーの嗜好は、再生リストに対する制約条件として規定される。再生リストに対して「最も」適したものを生成するために、制約条件に違反することによるペナルティが最小限となるようにされる。このことを実現するために、制約条件がどの程度満たされているかを数値表現する、ペナルティ関数が用いられる。局所的探索は、ソリューション(再生リスト)が見出されるように反復法で行われ、各反復中において、このソリューションに対し、小さなランダムな変更が加えられる。ソリューションに対して加えることのできる変更の種類は、(i)歌曲の追加、(ii)歌曲の削除、(iii)ある歌曲と新規な歌曲との置換、および(iv)再生リスト中の2つの歌曲の順序交換である。その後、最小ペナルティが見出されるまで、各反復時の各ソリューションに対するペナルティが、前回のペナルティと比較される。
AutoDJにおいて適切な再生リストを生成する別の既知の方法は、カーネル関数のガウシアンの線形結合を用いて、ユーザーの嗜好をモデリングする方法である。このモデルは、カーネル関数を用いて歌曲のメタデータ間の類似度を表すことによって、ユーザーの嗜好を学習しようとするものである。AutoDJがトレーニングされると、学習された挙動は、より多くの他の歌曲の組に直接適用される。メタデータが、そのメタデータと関連付けられた歌曲をばらつきなく要約していることが、基本的な前提条件となっている。
多くの場合、これは有効でない前提条件である。なぜならば、ファイルのオーディオコンテンツに添付されているメタデータは、任意に記述されたもので、必ずしも歌曲の挙動を代表していないからである。さらに、この形態は、歌曲のビートミキシングを許容しない。
本発明の原理の理解を助けるため、以下、図2から4を参照して、ミキシング処理の基本を詳細に説明する。
図2は、音楽トラックの典型的な構成を図解している。この音楽トラックの構成は、単なる一例であり、実装されるべきトランジションのタイプは、ミキシングが適用される場所に依存し、また逆にいえば、使用されるインターバルは、想定されるトランジションのタイプに依存し得る。
図2に図示されているように、音楽トラック(または歌曲)は、3つの主要部分、具体的にはイントロ、要部およびアウトロに分解することができる。これらおよびその他のいくつかの領域は、以下のように定義することができる。
最初の可聴点(フェードイン点)201。トラックが可聴閾値を最初に超えた位置である。
イントロの終了点202。この終了点は、分析目的のためだけに利用される。この終了点は、ブレンド・イン点のポインタのアンカーとして利用される。これにより、イントロの一部がビートミキシングのトランジション状態となる可能性が、低減させられる。
ブレンド・イン点203。このブレンド・イン点は、ビートミキシングの場合には、再生リスト中の先行トラックのブレンド・アウト点に同期させられる、ビートオンセットの位置を特定する。
ブレンド・アウト点204。このブレンド・アウト点は、ビートミキシングの場合には、再生リスト中の次のトラックのブレンド・イン点に同期させられる、ビートオンセットの位置を特定する。
アウトロの開始点205。この開始点は、分析目的のためだけに利用される。この開始点は、ブレンド・アウト点のポインタのアンカーとして利用される。これにより、アウトロの一部がビートミキシングのトランジション状態となる可能性が、低減させられる。
最後の可聴点(フェードアウト点)206。トラックが可聴閾値をまさに最後に超えていた位置である。
上記の区切りに基づいて、以下の4つのミキシング領域(分析領域)が存在する。
フェードイン領域(領域A):トランジション型のフェードインが適用される領域。全体が、歌曲のイントロ内に位置し、フェードイン点201から始まって延びている。この領域の実際の持続時間は、先行する歌曲の特性に依存する。
ブレンド・イン領域(領域B):前の歌曲とのビートミキシングが生じ得る領域。全体が、歌曲の要部内に位置し、ブレンド・イン点203から始まって延びている。この領域の厳密な持続時間は、先行する歌曲の特性に依存する。
ブレンド・アウト領域(領域C):次の歌曲とのビートミキシングが生じ得る領域。全体が、歌曲の要部内に位置し、ブレンド・アウト点204まで延びている。この領域の実際の持続時間は、次の歌曲の特性に依存する。
フェードアウト領域(領域D):トランジション型のフェードアウトが適用される領域。全体が、歌曲のアウトロ内に位置し、フェードアウト点206まで延びている。この領域の実際の持続時間は、次の歌曲の特性に依存する。
各分析領域について、AutoDJメタ情報が、データベース内に保存されている。これらの領域外においては、任意の領域に対するメタ情報のリアルタイム計算が可能であれば、装飾的なミキシングが行われてもよい。好ましい実施形態のAutoDJは、利用可能なメタ情報が存在しないときには、単純なCDスタイルのトランジションを利用してもよい。
本発明の1つの実施形態に係るAutoDJシステム内での第1のステップは、コンテンツの自動選択およびソートを可能とする信号特性を抽出する工程である。この目的のため、2カテゴリーのAutoDJ特性、具体的には、芸術面からみて一貫性のあるミキシング音楽を作製するのに必要な特性の組(再生リスト特性と呼ぶこととする)と、リズムの面からみて一貫性のあるミキシングを行うのに必要な特性の組(リズミカル特性と呼ぶこととする)とが特定される。
再生リスト特性は、ユーザーの評価基準を満足するような、意味のある(芸術面からみて一貫性のある)歌曲の集合を構成するのに用いられる特性である。再生リストの生成は、記録素材と共に提供されるメタデータに基づいて開始されてもよい。かかるメタデータは、ほとんどの場合には手動で編集されたものであり、ジャンルやアーティストといったような、その歌曲の何らかの直観的な周辺知識に基づいている。一般的に供給されるメタデータは、発表年、アーティスト名、ジャンルタグ等を含んでいる。メタデータに基づく再生リスト生成方法は、基本的に、編集済みのメタデータが、そのメタデータと関連付けられた歌曲を正しく記述していることを前提とする。しかしながら、この前提条件が満足される可能性は極めて低い。なぜならば、コンテンツ片に添付されているメタデータは、ほとんどの場合は任意に記述されたものであり、必ずしもその歌曲の挙動を代表していないからである。そのため、歌曲の特性とメタデータとの関連付けは、不備のあるモデルをもたらしかねない。
再生リストを生成する別の1つの方法は、コンテンツ自体からメタデータを自動的に生成する何らかの信号処理ツールを用いて抽出される、低層レベルの特性に基づいている。これにより、歌曲の分類が可能となる。この形態は、客観的な量を用いて歌曲の類似度が測定され、したがって結果として一貫性のあるモデルが得られる潜在能力があるという利点を有する。再生リストの生成には、2つのアプローチが利用される。1つは、分類を基礎とするアプローチであり、もう1つは、類似度の測定を基礎とするアプローチである。第1のアプローチでは、まず特性の組が抽出され、その後、これらの特性に基づいて処理が行われる。あるモデルが導出され、歌曲の分類および自動ラベリングを行うためにトレーニングされる。歌曲がラベリングされると、メタデータを用いて、ミキシングのための再生リストが生成される。上記で述べたように、1つの既知の方法は局所的探索である。第2のアプローチは、何らかの客観的な距離の測定に基づく、歌曲の類似度を基礎としている。この第2のアプローチの思想は、客観的な距離の尺度と「シード(核)」となる歌曲とが与えられ、類似度に基づいて、類似の歌曲が収集およびソートされるという思想である。
リズミカル特性は、モデリングが容易な、歌曲の自明な特性である。これらのリズミカル特性は、一般には、たとえばテンポ、ビート位相、節およびフレーズの境界といったような、明確かつ客観的な概念である。最も低層のレベルでは、歌曲のセマンティックス中には歌曲のビートがあり、連続する各ビートは、あるビート周期をもって隔てられている。ビートの周波数は、その歌曲のテンポと呼ばれる。複数のビートの組が、歌曲の節を形成する。1節に含まれるビートの数は、その歌曲のジャンルに依存する。たとえば、ダンスミュージックでは、1節につき4ビートが存在する。より高層概念のレベルには、歌曲のフレーズが存在する。このフレーズは、一般的には、4つの節の集合であり、通常、歌曲中のボーカルフレーズの開始点と一致して始まる。歌曲ミキシングの分野では、人間のDJは常に、ミキシングされる歌曲同士のフレーズ境界を揃えようと試みる。こうすることにより、リズムのよい音声ミキシングが作られる。しかしながら、フレーズ検出およびフレーズ揃えは、より深い音楽感覚を必要とし、モデリングするのは難しいことが多い。そのような場合、節同士が揃えられたビートミキシングでも十分かもしれない。一般的には、フレーズを揃えるのは理想的な話であり、節同士を揃えるのでも許容可能であるが、ビートを揃えただけでは、リズム上許容可能な音楽ミキシングには不十分である。
本発明の1つの実施形態に係るAutoDJが、図3に示されている。
AutoDJ501は、第1のミキサ503と、第2のミキサ505とを含んでいる。各ミキサの入力端子の対は、AutoDJ501のそれぞれの入力端子507a、507b、507cおよび507dに接続されている。各ミキサ503および505は、AutoDJ501の制御端子509にも接続されている。各ミキサ503および5050の出力部は、加算器511の各入力部に接続されている。加算器511の出力部は、AutoDJ501の出力端子513に接続されている。
第1の対の入力端子507a、507bは、第1の低域通過フィルタ515および第1の高域通過フィルタ517の出力に接続されている。第2の対の入力端子507c、507dは、第2の低域通過フィルタ519および第2の高域通過フィルタ521の出力に接続されている。
トランジション期間中においては、第1の低域通過フィルタ515と第1の高域通過フィルタ517とが、第1の入力信号x[n]を、2つの相補的な成分x[n]とx[n]とに分解し、第2の低域通過フィルタ519と第2の高域通過フィルタ521とが、第2の入力信号y[n]を、2つの相補的な成分y[n]とy[n]とに分解する。好ましくは、これらは低周波(低音域)成分および高周波(高音域)成分である。その後、第1のミキサ503が適用され、2つの信号x[n]およびy[n]の対応の周波数成分がミキシングされる。また、第2のミキサ505が適用され、2つの信号x[n]およびy[n]の対応の周波数成分がミキシングされる。第1のミキサ503および第2のミキサ505のトランジションプロファイルは、図4に示したのと類似している。
続いて、ミキサ503および505の出力z[n]とz[n]とが、加算器511によって加算され、出力ミキシング信号z[n]が生成されて、AutoDJ501の出力端子513から出力される。AutoDJ501の制御端子509に入力される制御信号は、2つのミキサ503および505内におけるミキシングがどのように行われるのかを記述しており、ミキシング点の位置および重複部分のサイズの情報を含んでいる。
原則として、それぞれ自己のトランジションプロファイルを持つような、複数の周波数帯を選択することができる。さらに、各周波数帯におけるトランジションプロファイルは、重複部分がゼロであるものから、極めて大きな重複部分を有するものまで可変である。
以下、ミキサ503および505のより詳細な説明を、図4を参照しながら行う。第1のミキサ503と第2のミキサ505とは、実質的に類似のものであってもよく、簡単化のために、ここでは第1のミキサ503のみを示して説明する旨を理解されたい。
第1のミキサ503は、位相比較器601を含んでいる。位相比較器601の入力部は、ミキサ503の入力端子603および605に接続されている。ミキサ503の入力端子603および605はまた、それぞれ、第1の遅延素子607および第2の遅延素子609の入力部にも接続されている。遅延素子607および609は、位相比較器601により生成される制御信号Cにより制御されている。第1の遅延素子607の出力部は、第1のゲイン素子611の入力部に接続されている。第2の遅延素子609の出力部は、第2のゲイン素子613の入力部に接続されている。第1のゲイン素子611および第2のゲイン素子613の出力部は、加算器615のそれぞれの入力部に接続されている。加算器615の出力部は、ミキサ503の出力端子617に接続されている。
入力信号x[n]は入力端子603に配され、入力信号y[n]は入力端子605に配される。x[n]およびy[n]の位相が、位相比較器601で比較される。比較器601の出力は制御信号Cであり、この制御信号Cは、加算中における位相の不一致が最小限となるように、遅延素子607および609を制御する。可聴レベルのアーティファクトを防止するために、遅延素子607および609は、グレイスフルな手法で変更される。ゲイン素子611および613は、クロスフェード・プロファイルを組み入れる。こうすることにより、位相の不一致(この例ではミキシングされる信号の低音域成分)の問題が補償される。
ゲイン素子611および613のゲインは、AutoDJ501の制御端子509に入力される制御信号によって制御される。
ミキシングを作製する際に人間のDJが考慮に入れる1つの重要な特性は、ミキシングされる歌曲同士の音楽キーの類似度である。たとえば、ハ長調と嬰へ短調とをミキシングするのはより難しい。信号処理においては、歌曲の音楽キーは、その歌曲のいわゆるクロマグラムによって表される。クロマグラムは、ピッチの知覚的な構造に基づく、オーディオ信号の経時変化するスペクトルの抽出であって、冗長性の高いオクターブの関係は割り引いて考慮され、ピッチ構造が重視される。クロマグラムは、歌曲の音楽キーを表すものであり、表1に示すような周波数対キーのマッピングに基づいている。
Figure 2009510658
歌曲のクロマグラムは、0から20kHzの周波数範囲内にある12オクターブのビン(bin)について、信号の規格化された累積エネルギーを考慮に入れることによって計算される。より具体的に、x(f)がオーディオ信号の周波数応答であり、fkj1およびfkj2が、k番目のオクターブのビン内にあるj番目の周波数範囲の下限周波数および上限周波数であるとする。fkj1およびfkj2は、各スペクトル領域の幅が、表1に示した中心周波数周囲の半音の1/2分となるような周波数とされる。すると、k番目のクロマグラム値μは、
Figure 2009510658
により与えられる。
歌曲Wのクロマグラムxは、12個のクロマグラム値を1つのベクトルに集約することにより構築される、ヒストグラムである。具体的には、
Figure 2009510658
である。
本発明の本実施形態に係るAutoDJシステムでは、ミキシングの持続時間(重複部分のサイズ)は、ミキシングされる2つの歌曲のクロマグラム間の類似度に比例する。2つのクロマグラム間の類似度は、
Figure 2009510658
という、2つのクロマグラムベクトルxおよびyのピアソン積モーメント相関p(x,y)によって規定される。ここで、xおよびyは、サイズM(=12)のクロマグラムベクトルを表し、p(x,y)は、
Figure 2009510658
で与えられるピアソン積モーメント相関である。
このピアソン相関値は、[−1,1]の区間に入り、値1は完全な対応関係があることを示し、値0は対応関係が全くないことを示し、値−1は完全に逆の対応関係があることを示す。p(x,y)が与えられると、
Figure 2009510658
との関係式を用いて、ミキシングの持続時間が計算される。ここでθは、許容される最小限の重複を表し、通常は、出力される歌曲のビート周期に等しい。Kは、相関値を持続時間値にマッピングするための定数である。Kは、典型的には、ビートを単位として測定され、16−32ビートの範囲内の値を有し得る(すなわち、重複部分の上限は、1フレーズから2フレーズ分)。
ミキシングされる歌曲同士のクロマグラムが大きく異なるものであるときは、ミキシングの期間は短く、より快適度の低いミキシングが生成されてしまうかもしれない。
この問題を解決するため、人工的に生成されたトランジションパターンを用いて、2つのコンテンツの橋渡しをすることが望ましいかもしれない。このパターンは、いかなるクロマグラムにも合う、打楽器パターンであるのが一般的である。打楽器パターンは、オクターブの複数のビンに対して多かれ少なかれ平坦なスペクトルを持っており、したがってあらゆる種類の歌曲に対してほとんど一定の相関値を与えるため、単一キー信号と呼ぶこととする。クロマグラムが合致しない歌曲が与えられると、よりスムースなトランジションを可能とするために、2つの歌曲間に人工的なパターンが挿入される。
歌曲Aと歌曲Bとが一致しない音楽キーを有するものと仮定すると、この不一致の橋渡しをするために、人工的に生成されたトランジションパターンが用いられる。打楽器パターンは、その打楽器パターンのクロマグラムが歌曲Aに近いものから歌曲Bに近いものに徐々に移行するように設計されてもよいし、上記で述べたような単一キーを有するように選択されてもよい。クロマグラム以外の点でも、人工的なパターンを用いて、非常に異なるテンポや全く異なるスタイルの歌曲同士をマッチングすることもできる。この後者のマッチングは、たとえば、ミキシングされる歌曲間の休止のような音響効果を導入することにより実現され得る。
好ましい実施形態では、歌曲のデータベースから、AutoDJメタ情報が導出される。各分析につき、AutoDJメタ情報、具体的にはテンポならびにビートオンセット、バー境界(bar boundaries)、ビートの強さ、およびスペクトル形状パラメータ(クロマグラム)がオフラインで計算され、上記で図1を参照して述べたような接続されたデータベースに保存される。これ以外にも、他の(いわゆる非AutoDJ)メタ情報、たとえばジャンル、時代、アーティスト、および客観的な類似度の尺度に使用される低層レベルの特性(類似度パラメータと呼ぶこととする)も収集される。AutoDJは任意の2つの歌曲間の最適なトランジション(長い混成から休止によるミキシングまで多岐に亘る)を決定するものであるが、非AutoDJメタ情報に関する条件も利用され満足されたほうが、再生リストはより魅力的なものとなる。そこで、ユーザーが供給した核(シード)となる歌曲に端を発する再生リストを提供するため、AutoDJメタ情報と類似度パラメータとをいくつかの重み付けした組合せで用いる適用形態が作られた。可能な限り多くの同期させられたミキシングを再生リストが含むか、あるいはハーモニック・シグニチャに関して連続的に最適なマッチングを有するトラックを再生リストが含むかという、2つの「予め設定された」ユーザーの嗜好が取り入れられる。
自動生成された再生リストはトランジションプランナーに供給され、このトランジションプランナーが、各トランジションにおいて使用される分析領域のAutoDJメタ情報を分析する。トランジションプランナーは、この分析から、好適なタイプのトランジションと、それを実行するために必要とされるパラメータとを決定する。その後、生成されたコマンドの組がプレーヤーにより実行され、必要なミキシングが行われる。
再生リスト中の歌曲の順序を最適化して、必要とされるスムースなトランジションを提供するための1つの好ましい方法は、局所的探索に基づく方法を利用するものである。この方法では、調音(ハーモニー)の類似度を、長さNの歌曲シーケンスS=s,s,・・・,sからなる再生リスト中における2つの(連続する)位置iとj=(i+1)との間の二値条件として、すなわち
Figure 2009510658
として、モデリングすることができる。ここで、s.xは、歌曲sのミキシング点xにおけるクロマグラムを表す。ミキシング点は、たとえば、連続する2つの歌曲のアウトロとイントロとを含んでいてもよい(たとえば最後と最初との10秒分)。局所的探索を実装するためには、クロマグラム間の上記の近似を、さらにペナルティ関数として運用できるようにしなくてはならない。このペナルティ関数は、一方のクロマグラムが他方のクロマグラムにどの程度近似しているかを、0から1の範囲の数値で表したものである。
調音の類似度に関して再生リスト全体を最適な順序としなくてはならないため、すべてのペナルティ関数の総和Pが最小となる、すなわち
Figure 2009510658
となるような歌曲シーケンスS=s,s,・・・,sを見出す必要がある。
明らかなことであるが、この問題は、最大化の問題として定式化してもよい。
第1に、本発明の好ましい実施形態に係る方法は、各歌曲(または各歌曲の各関連ミキシング点)について、クロマグラムを計算する方法である。ミキシング点は、歌曲のイントロおよびアウトロであってもよい。この計算は、オフラインで行ってもよいし、オンラインで行ってもよい。しかしながら、計算速度の目的からすれば、計算はオフラインで行う方が好ましい。
上記で述べたように、クロマグラムは、周波数が12個の限られたクロマ値の組に多数対1の態様でマッピングされた、スペクトル表現の再構成として規定される。このマッピングは、たとえば上記の表1に示したように、周波数を、均等に調整された縮尺を有する、その周波数に対して理想的なクロマ値を表す「ビン」に割り当てることにより行われる。これらの「ビン」は、1オクターブ中の12個のクロマに対応する。スペクトル表現としては、5kHzを上回るスペクトル成分が信号のダウンサンプリングによりカットオフされた、調音圧縮されたFFTベースの振幅スペクトルの合計が使用される。より高い周波数領域中の調音は、低周波数領域内のピッチには顕著に寄与しないと想定される。好ましくは、限られた数(たとえば15個)の調音圧縮スペクトルのみが加算される。ピッチに寄与しない擬似的なピークを打ち消すため、スペクトル成分(すなわちピーク)が強調される。より高い周波数のスペクトル成分は、より低い周波数のスペクトル成分に比べて、ピッチへの寄与度が低い。人間のピッチの知覚は対数律に従うので、補間により、周波数の横座標が対数座標に変換される。合計すると、1オクターブにつき171個の点が、三次スプライン法により、6オクターブ(25Hzから5kHz)に亘って補間される。これは、線形周波数領域から対数周波数領域に転換するためのより高い分解能を実現するため、および数値の不安定さを防止するために必要とされる。
人間の聴覚(ピッチの体感音量が周波数に依存する)をモデリングするためには、重み付け関数が用いられる。たとえば、400Hzよりも低い周波数では、等しい振幅を有するピッチの音量が、急激に低下し始める。
調音圧縮は、周波数の線形横座標に、整数因子nが乗算されることを意味する。対数周波数領域では、この乗算はシフト(すなわち加算)と等価である。圧縮ランクnは、分解される調音の指数を意味する。実行される圧縮回数は、分析対象の調音の数に等しい。これらすべての異なる圧縮されたスペクトル表現が加算される。その際、より高い調音のピッチへの寄与度が、より低い調音よりも低くなる状態を実現するために、低減因子のシーケンスが用いられる。
アルゴリズムの観点からみると、入力信号が、重複のない100ミリ秒の時間フレームに分割される。信号がステレオフォーマットである場合には、最初に2つのチャネルを平均することにより、モノクロ版の信号が創出される。フレームの長さは、一方では、利用可能なグローバルなテンポを有する音楽実演中の音符の最低限の持続時間(30−300bpm、すなわち1秒につき5イベントから2秒につき1イベントの間)によって影響を受け、他方では、長いフレームはあまりに強力な計算を必要とするという事実によって影響を受ける。
以降の処理ではA0(27.5Hz)からA6(1760.0Hz)の音楽ピッチしか考慮しないので、より高いピッチ周波数の調音もいくらか捕捉するためにも、調音圧縮は、25Hzから5kHzまでの6オクターブに亘って行われる。したがって、5kHzよりも高い周波数のスペクトル内容は、考慮されない。少なくとも10kHzの低域通過フィルタリングおよびデシメーション処理が、ある特定の率によって、信号の帯域制限およびダウンサンプリングを行う。低域通過フィルタリングは、理想的な低域通過フィルタのFIR近似によりダウンさせられる。このダウンサンプリングは、結果に深刻な影響を与えることなく、必要な計算時間を大幅に低減させる。フレーム中の「残りの」サンプルが、ハミング窓と掛け合わされ、ゼロで埋め合わされて、1024点のFFTから振幅スペクトルが算出される。このスペクトルは、周波数の線形目盛上で4.88Hzの間隔を有する、512個の点からなる。次に、周波数またはそれらの強度に深刻な影響を与えることなくピークを強調することを目的とした処理が行われる。極大点から2つのFFT点分(9.77Hz)より遠くに離れたすべての点の値をゼロに設定することによって、スペクトルのピーク値およびピーク周辺の値のみが考慮される。結果として得られたスペクトルは、その後、ハニングフィルタを用いて平滑化される。
4.88Hzという線形分解能は、低ピッチ領域においては限定されすぎた分解能であるので(C2とC#2との間のピッチ周波数の違いは3.89Hz)、171個の点につき、対数周波数目盛上でのスペクトル値が計算される(補間)。1250Hz未満の周波数に対する人間の聴覚系を擬似再現するため、補間されたスペクトルには、上げ底された逆正接関数が乗算される。この結果は、対数周波数目盛りに沿ってシフトされ、低減因子hが乗算され、分解されるべきすべての調音(N=15)について加算されて、その結果、少なくとも6オクターブに亘って規定された調音圧縮スペクトルが得られる。
等分平均律の各クロマに対応する調音圧縮スペクトル中のスペクトル領域を位置決めすることにより、各フレームのクロマグラムが計算される。ピッチクラスCに関していえば、これは、C1(32.7Hz)、C2(65.4Hz)、C3(130.8Hz)、C4(261.6Hz)、C5(523.3Hz)およびC6(1046.5Hz)のピッチ周波数周辺を中心とする、4つのスペクトル領域に集約される。各スペクトル領域の幅は、この中心から半音の1/2分である。4つすべてのスペクトル領域内の振幅が加算され、1つのクロマ領域が形成される。そして、クロマ領域内に入る振幅のノルムHと、クロマ領域内に入らない振幅のノルムRとが取られる。H/Rの比を計算することにより、そのクロマの生じやすさが与えられる。すべてのフレームに亘ってクロマグラムを加算し規格化することにより、結果として、音楽サンプル全体についての1つのクロマグラムが得られる。
上記の好ましい実施形態は、ミキシング点においてクロマグラムの相関関係を取る特定の相関技術に言及して説明されてきたが、本発明は、かかる特定の技術に限定されるものでなく、ミキシング点におけるクロマグラムの相関関係の取得は、任意の他の組合せ尺度または距離尺度(たとえばカイ二乗距離、ユークリッド距離、エントロピー尺度、分布尺度等)を含み得る点を理解されたい。
本発明の好ましい実施形態を、図面に示し上記の詳細な説明で説明してきたが、本発明は、上記に開示された実施形態に限定されるものでなく、特許請求の範囲で規定した本発明の技術的範囲から逸脱することなく、多くの変更形態が可能であることを理解されたい。
既知の自動DJシステムの簡単な模式図 オーディオトラックの典型的なミキシング素材を、グラフにより示した図 本発明の1つの実施形態に係るAutoDJシステムの簡単な模式図 図3のAutoDJシステムのミキサの簡単な模式図

Claims (9)

  1. 1つのオーディオトラックの開始領域と、先行オーディオトラックの終端領域との間でスムースなトランジションを提供するよう、オーディオを再生用に処理する方法であって、
    前記オーディオトラックの前記開始領域のミキシング点におけるクロマグラムを表す量と、前記先行オーディオトラックの前記終端領域のミキシング点におけるクロマグラムを表す量との、相関関係を取る工程と、
    前記クロマグラムを表す前記量の間の相関関係に基づいて、前記オーディオトラックの前記開始領域の前記ミキシング点および前記先行オーディオトラックの前記終端領域の前記ミキシング点における再生中、該連続するオーディオトラック間の前記トランジションをスムースにする工程とを含むことを特徴とする方法。
  2. 前記連続するオーディオトラック間の前記トランジションをスムースにする前記工程が、前記クロマグラムを表す前記量の間の相関関係に基づいて、前記オーディオトラックが再生される再生順序を決定する工程を含むことを特徴とする請求項1記載の方法。
  3. 連続するオーディオトラックの前記開始領域の前記クロマグラムを表す前記量と前記終端領域の前記クロマグラムを表す前記量との間の相関関係を最適化することによって、前記再生順序が決定されることを特徴とする請求項2記載の方法。
  4. 前記再生順序を決定する前記工程が、
    オーディオトラックのシーケンスが予め規定された制約条件を満たすか否かについて、該オーディオトラックの前記クロマグラムを表す前記量の間の前記相関関係に基づいて、ペナルティを計算する工程と、
    最小のペナルティを有するオーディオトラックのシーケンスを、反復法により導出する工程とを含んでいることを特徴とする請求項2または3記載の方法。
  5. 前記連続するオーディオトラックの前記開始領域の前記クロマグラムを表す前記量と前記終端領域の前記クロマグラムを表す前記量との間の前記相関関係に基づいて、該連続するオーディオトラック間のミキシングされたトランジションの持続時間が決定されることを特徴とする請求項1から4いずれか1項記載の方法。
  6. 1つのオーディオトラックの開始領域と、先行オーディオトラックの終端領域との間でスムースなトランジションを提供するよう、オーディオを再生用に処理する装置であって、
    前記オーディオトラックの前記開始領域のミキシング点におけるクロマグラムを表す量と、前記先行オーディオトラックの前記終端領域のミキシング点におけるクロマグラムを表す量との、相関関係を取る相関器と、
    前記クロマグラムを表す前記量の間の相関関係に基づいて、前記オーディオトラックの前記開始領域の前記ミキシング点および前記先行オーディオトラックの前記終端領域の前記ミキシング点における再生中、該連続するオーディオトラック間の前記トランジションをスムースにする手段とを含むことを特徴とする装置。
  7. 前記連続するオーディオトラックの前記開始領域の前記クロマグラムを表す前記量と前記終端領域の前記クロマグラムを表す前記量との間の、前記相関関係に基づく再生順序で再生を行うよう、再生リスト中の複数のオーディオトラックを選択する再生リスト生成器をさらに含むことを特徴とする請求項6記載の装置。
  8. 前記連続するオーディオトラックの前記開始領域の前記クロマグラムを表す前記量と前記終端領域の前記クロマグラムを表す前記量との間の前記相関関係に基づいて、該連続するオーディオトラック間のミキシングされたトランジションの持続時間を決定する、トランジション持続時間決定器をさらに含むことを特徴とする請求項6または7記載の装置。
  9. 請求項1から5いずれか1項記載の方法を実行するための、複数のプログラムコード部分を含むことを特徴とするコンピュータプログラム。
JP2008532916A 2005-09-30 2006-09-12 オーディオを再生用に処理する方法および装置 Pending JP2009510658A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05109080 2005-09-30
PCT/IB2006/053230 WO2007036824A2 (en) 2005-09-30 2006-09-12 Method and apparatus for processing audio for playback

Publications (1)

Publication Number Publication Date
JP2009510658A true JP2009510658A (ja) 2009-03-12

Family

ID=37757102

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008532916A Pending JP2009510658A (ja) 2005-09-30 2006-09-12 オーディオを再生用に処理する方法および装置

Country Status (6)

Country Link
US (1) US8069036B2 (ja)
EP (1) EP1938325A2 (ja)
JP (1) JP2009510658A (ja)
KR (1) KR20080066007A (ja)
CN (1) CN101278349A (ja)
WO (1) WO2007036824A2 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101341530A (zh) * 2005-12-22 2009-01-07 皇家飞利浦电子股份有限公司 用于确定混合参数的电子设备和方法
US7888582B2 (en) * 2007-02-08 2011-02-15 Kaleidescape, Inc. Sound sequences with transitions and playlists
KR20090118752A (ko) * 2008-05-14 2009-11-18 삼성전자주식회사 컨텐트 재생 목록 제공 방법 및 그 장치
KR20100071314A (ko) * 2008-12-19 2010-06-29 삼성전자주식회사 영상처리장치 및 영상처리장치의 제어 방법
US8422699B2 (en) * 2009-04-17 2013-04-16 Linear Acoustic, Inc. Loudness consistency at program boundaries
US20110231426A1 (en) * 2010-03-22 2011-09-22 Microsoft Corporation Song transition metadata
JP5598536B2 (ja) * 2010-03-31 2014-10-01 富士通株式会社 帯域拡張装置および帯域拡張方法
US8380334B2 (en) 2010-09-07 2013-02-19 Linear Acoustic, Inc. Carrying auxiliary data within audio signals
US9326082B2 (en) * 2010-12-30 2016-04-26 Dolby International Ab Song transition effects for browsing
EP2659482B1 (en) 2010-12-30 2015-12-09 Dolby Laboratories Licensing Corporation Ranking representative segments in media data
EP2485213A1 (en) * 2011-02-03 2012-08-08 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Semantic audio track mixer
US9070352B1 (en) 2011-10-25 2015-06-30 Mixwolf LLC System and method for mixing song data using measure groupings
US9111519B1 (en) 2011-10-26 2015-08-18 Mixwolf LLC System and method for generating cuepoints for mixing song data
US9576050B1 (en) * 2011-12-07 2017-02-21 Google Inc. Generating a playlist based on input acoustic information
WO2015027327A1 (en) * 2013-08-28 2015-03-05 Mixgenius Inc. System and method for performing automatic audio production using semantic data
US10219029B1 (en) 2014-03-12 2019-02-26 Google Llc Determining online content insertion points in an online publication
US9269339B1 (en) * 2014-06-02 2016-02-23 Illiac Software, Inc. Automatic tonal analysis of musical scores
SE1451583A1 (en) * 2014-12-18 2016-06-19 100 Milligrams Holding Ab Computer program, apparatus and method for generating a mix of music tracks
US10147407B2 (en) 2016-08-31 2018-12-04 Gracenote, Inc. Characterizing audio using transchromagrams
US20180315407A1 (en) * 2017-04-28 2018-11-01 Microsoft Technology Licensing, Llc Automatic Music Mixing
US11443724B2 (en) * 2018-07-31 2022-09-13 Mediawave Intelligent Communication Method of synchronizing electronic interactive device
EP4115628A1 (en) * 2020-03-06 2023-01-11 algoriddim GmbH Playback transition from first to second audio track with transition functions of decomposed signals
CN112735479B (zh) * 2021-03-31 2021-07-06 南方电网数字电网研究院有限公司 语音情绪识别方法、装置、计算机设备和存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002287758A (ja) * 2001-03-26 2002-10-04 Yamaha Corp 波形編集方法および波形編集装置
US20020157522A1 (en) * 2001-04-28 2002-10-31 Cliff David Trevor Automated compilation of music
JP2003015666A (ja) * 2001-03-21 2003-01-17 Matsushita Electric Ind Co Ltd プレイリスト生成装置、オーディオ情報提供装置、オーディオ情報提供システムおよびその方法、プログラム、記録媒体
JP2003108132A (ja) * 2001-09-28 2003-04-11 Pioneer Electronic Corp オーディオ情報再生装置及びオーディオ情報再生システム
JP2003177743A (ja) * 2001-12-12 2003-06-27 Yamaha Corp 自動制御装置、鍵盤楽器、楽音発生装置、自動演奏ピアノおよびプログラム
JP2003241800A (ja) * 2003-02-10 2003-08-29 Yamaha Corp ディジタル信号の時間軸圧伸方法及び装置
WO2004057570A1 (en) * 2002-12-20 2004-07-08 Koninklijke Philips Electronics N.V. Ordering audio signals
JP2004233965A (ja) * 2002-10-24 2004-08-19 National Institute Of Advanced Industrial & Technology 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム
JP2004527000A (ja) * 2001-04-13 2004-09-02 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の高品質タイムスケーリング及びピッチスケーリング
JP2005202354A (ja) * 2003-12-19 2005-07-28 Toudai Tlo Ltd 信号解析方法
WO2006070768A1 (ja) * 2004-12-27 2006-07-06 P Softhouse Co., Ltd. オーディオ波形処理装置、方式およびプログラム
JP2007041234A (ja) * 2005-08-02 2007-02-15 Univ Of Tokyo 音楽音響信号の調推定方法および調推定装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08254985A (ja) * 1995-03-17 1996-10-01 Pioneer Electron Corp 音楽再生制御装置及び音楽再生装置
US6533969B1 (en) 1998-06-12 2003-03-18 Jeneric/Pentron, Inc. Method of making high-strength dental restorations
US8326584B1 (en) 1999-09-14 2012-12-04 Gracenote, Inc. Music searching methods based on human perception
JP3687467B2 (ja) * 2000-02-25 2005-08-24 ティアック株式会社 記録媒体再生装置
US6542869B1 (en) * 2000-05-11 2003-04-01 Fuji Xerox Co., Ltd. Method for automatic analysis of audio including music and speech
US20030205124A1 (en) * 2002-05-01 2003-11-06 Foote Jonathan T. Method and system for retrieving and sequencing music by rhythmic similarity
KR100429885B1 (ko) 2002-05-09 2004-05-03 삼성전자주식회사 열방출 특성을 개선한 멀티 칩 패키지
DE102004047069A1 (de) * 2004-09-28 2006-04-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003015666A (ja) * 2001-03-21 2003-01-17 Matsushita Electric Ind Co Ltd プレイリスト生成装置、オーディオ情報提供装置、オーディオ情報提供システムおよびその方法、プログラム、記録媒体
JP2002287758A (ja) * 2001-03-26 2002-10-04 Yamaha Corp 波形編集方法および波形編集装置
JP2004527000A (ja) * 2001-04-13 2004-09-02 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション オーディオ信号の高品質タイムスケーリング及びピッチスケーリング
US20020157522A1 (en) * 2001-04-28 2002-10-31 Cliff David Trevor Automated compilation of music
JP2003108132A (ja) * 2001-09-28 2003-04-11 Pioneer Electronic Corp オーディオ情報再生装置及びオーディオ情報再生システム
JP2003177743A (ja) * 2001-12-12 2003-06-27 Yamaha Corp 自動制御装置、鍵盤楽器、楽音発生装置、自動演奏ピアノおよびプログラム
JP2004233965A (ja) * 2002-10-24 2004-08-19 National Institute Of Advanced Industrial & Technology 音楽音響データ中のサビ区間を検出する方法及び装置並びに該方法を実行するためのプログラム
WO2004057570A1 (en) * 2002-12-20 2004-07-08 Koninklijke Philips Electronics N.V. Ordering audio signals
JP2003241800A (ja) * 2003-02-10 2003-08-29 Yamaha Corp ディジタル信号の時間軸圧伸方法及び装置
JP2005202354A (ja) * 2003-12-19 2005-07-28 Toudai Tlo Ltd 信号解析方法
WO2006070768A1 (ja) * 2004-12-27 2006-07-06 P Softhouse Co., Ltd. オーディオ波形処理装置、方式およびプログラム
JP2007041234A (ja) * 2005-08-02 2007-02-15 Univ Of Tokyo 音楽音響信号の調推定方法および調推定装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN5008014916; MUELLER: 'AUDIO MATCHING VIA CHROMA-BASED STATISTICAL FEATURES' ISMIR 2005 [ONLINE] , 20050915, P288-295 *
JPN5008014917; Ning, Hu, et.al.: 'POLYPHONIC AUDIO MATCHING AND ALIGNMENT FOR MUSIC RETRIEVAL' 2003 IEEE WORKSHOP [ONLINE] , 20031022 *
JPN7011002467; Gregory H. Wakefield: 'Mathematical Representation of Joint Time-Chroma Distributions' In SPIE, Denver, Colorado, 1999 , 1999, p.637-645 *

Also Published As

Publication number Publication date
US20080221895A1 (en) 2008-09-11
US8069036B2 (en) 2011-11-29
WO2007036824A3 (en) 2007-07-19
CN101278349A (zh) 2008-10-01
KR20080066007A (ko) 2008-07-15
WO2007036824A2 (en) 2007-04-05
EP1938325A2 (en) 2008-07-02

Similar Documents

Publication Publication Date Title
JP2009510658A (ja) オーディオを再生用に処理する方法および装置
JP5759022B2 (ja) セマンティック・オーディオ・トラック・ミキサー
MX2012009787A (es) Aparato y metodo para modificar una señal de audio usando modelado de envolvente.
TW201142818A (en) Complexity scalable perceptual tempo estimation
US10623480B2 (en) Music categorization using rhythm, texture and pitch
Hargreaves et al. Structural segmentation of multitrack audio
US11271993B2 (en) Streaming music categorization using rhythm, texture and pitch
CN101499268A (zh) 自动生成音乐结构性界面信息的设备和方法及检索系统
US9037278B2 (en) System and method of predicting user audio file preferences
Herbst et al. Guitar profiling technology in metal music production: public reception, capability, consequences and perspectives
CN1763841B (zh) 乐音数据产生方法、乐音合成方法及其设备
Nuanáin et al. Rhythmic concatenative synthesis for electronic music: techniques, implementation, and evaluation
Schwarz et al. Methods and datasets for DJ-mix reverse engineering
Pampalk et al. Computational models of similarity for drum samples
Dittmar et al. A toolbox for automatic transcription of polyphonic music
JP4079260B2 (ja) 楽曲ミキシング装置、方法およびプログラム
Werthen-Brabants Ground truth extraction & transition analysis of DJ mixes
Pope et al. Feature extraction and database design for music software
Patel et al. Karaoke Generation from songs: recent trends and opportunities
Gärtner Tempo estimation from urban music using non-negative matrix factorization
da Rocha Interactive Manipulation of Musical Melody in Audio Recordings
Sheng Intelligent Control of Dynamic Range Compressor
Boeckling An Automatic Drum and Bass Music DJ System
Kulkarni et al. Audio segmentation
Hatch High-level audio morphing strategies

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121011