JP2007520727A - 楽曲のようなサウンドシーケンスを処理する方法 - Google Patents
楽曲のようなサウンドシーケンスを処理する方法 Download PDFInfo
- Publication number
- JP2007520727A JP2007520727A JP2006516296A JP2006516296A JP2007520727A JP 2007520727 A JP2007520727 A JP 2007520727A JP 2006516296 A JP2006516296 A JP 2006516296A JP 2006516296 A JP2006516296 A JP 2006516296A JP 2007520727 A JP2007520727 A JP 2007520727A
- Authority
- JP
- Japan
- Prior art keywords
- sequence
- sound
- subsequence
- sub
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/061—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction of musical phrases, isolation of musically relevant segments, e.g. musical thumbnail generation, or for temporal structure analysis of a musical piece, e.g. determination of the movement sequence of a musical work
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
本発明はオーディオシーケンス、例えば楽曲の処理に関する。前記シーケンスにスペクトル変換を適用した後、特に楽曲のオーディオレジュメを作成するために、楽曲の旋律および/または歌詞のような演算結果のスペクトル係数の統計分析によって前記シーケンスにおいて少なくとも1つの繰り返されるサブシーケンスが決定され、かつ前記サブシーケンスの開始時間および終了時間が決定される。
Description
本発明は、楽曲のようなサウンドシーケンス、または、より一般に、サブシーケンスの繰り返しを含むサウンドシーケンスの処理に関する。
音楽作品、例えばCD、カセットまたは他の媒体への録音物の販売者は、潜在的な顧客に利用可能なブースを作り、そこで顧客は選択した楽曲、またはその目新しさのために宣伝された他の楽曲を聴くことができる。顧客は、聴いている楽曲から歌詞または旋律(refrain)を確認すると、対応する音楽作品の購入を決定することができる。
より一般に、通常、注意深い聴取者は、特に、曲の序奏(introduction)よりも一続きの歌詞および旋律に、より注意を集中する。したがって、上述したようなブースの中で宣伝するためには、宣伝される音楽作品全体を提供するよりむしろ、少なくとも1つの歌詞および1つの旋律を含むサウンドレジュメが十分であることが理解される。
携帯電話によるサウンドデータの伝送のようなもう1つのアプリケーションにおいて、遠隔のサーバから携帯端末へ楽曲全体をダウンロードすることは非常に冗長であり、したがって、上述したようなサウンドレジュメのダウンロードよりもコストを要することが理解される。
同様に、電子商取引の場面において、サウンドレジュメは、インターネットのような広域ネットワークを介して、遠隔のサーバと通信する機器へダウンロードすることが可能である。したがって、コンピュータ機器のユーザは、そのサウンドレジュメが気に入った音楽作品を注文することができる。
しかし、耳で歌詞および旋律を検出すること、そして販売される全ての音楽作品についてサウンドレジュメを作成することは法外に厄介な仕事である。
本発明はその状況を改善することを目的とする。
本発明はその状況を改善することを目的とする。
本発明の目的の1つは、サウンドシーケンスにおいて繰り返されるサブシーケンスの自動化された検出を提案することである。
本発明のもう1つの目的は、上述したようなサウンドレジュメの自動化された作成を提案することである。
本発明のもう1つの目的は、上述したようなサウンドレジュメの自動化された作成を提案することである。
この目的のため、本発明は、まず、サウンドシーケンスを処理する方法であって、
a)前記サウンドシーケンスにおける時間の関数として変化するスペクトル係数を取得するために、前記サウンドシーケンスにスペクトル変換を適用するステップを有する、サウンドシーケンスを処理する方法に関する。
a)前記サウンドシーケンスにおける時間の関数として変化するスペクトル係数を取得するために、前記サウンドシーケンスにスペクトル変換を適用するステップを有する、サウンドシーケンスを処理する方法に関する。
本発明の要旨の範囲内の方法は、
b)前記スペクトル係数の統計分析によって前記サウンドシーケンスにおいて繰り返される少なくとも1つのサブシーケンスを決定するステップと、
c)前記サウンドシーケンスにおける前記サブシーケンスの開始時点および終了時点を求めるステップと、をさらに有する。
b)前記スペクトル係数の統計分析によって前記サウンドシーケンスにおいて繰り返される少なくとも1つのサブシーケンスを決定するステップと、
c)前記サウンドシーケンスにおける前記サブシーケンスの開始時点および終了時点を求めるステップと、をさらに有する。
効果的には、追加のステップによれば、
d)前記サブシーケンスの代表となるサウンドサンプルをメモリに記憶するために、前記サブシーケンスを抽出する。
d)前記サブシーケンスの代表となるサウンドサンプルをメモリに記憶するために、前記サブシーケンスを抽出する。
好ましくは、ステップd)の抽出は、前記サウンドシーケンスにおいて期間が最も大きい少なくとも1つのサブシーケンス、および/または、前記サウンドシーケンスにおいて繰り返しの回数が最も大きい少なくとも1つのサブシーケンスに関して行われる。
本発明は、特に、モーター速度の加速および減速段階のサウンド録音シーケンスを取得することによって、産業用機械またはモーターの故障の検出を助けるという効果的な応用が見いだされる。本発明の要旨の範囲内の方法の応用は、例えば、安定した速度または加速段階に対応するサウンドサブシーケンスを分離することを可能とし、このサブシーケンスは、場合によっては参照サブシーケンスと比較することが可能である。
上述したような音楽データの取得へのもう1つの効果的な応用において、サウンドシーケンスは、そのシーケンスの中で繰り返される、少なくとも序奏、歌詞、旋律、ブリッジウェイ(bridgeway)、主旋律(theme)、モチーフ(motif)、または楽章(movement)の中からの一連のサブシーケンスを含む楽曲である。ステップc)において、少なくとも、第1サブシーケンスおよび第2サブシーケンスのそれぞれの開始時点および終了時点を決定する。
特に効果的な実施形態では、ステップd)は、少なくとも前記第2サブシーケンスと一続きの前記第1サブシーケンスを含む前記楽曲のサウンドレジュメを記憶媒体に取得するために、前記第1および第2サブシーケンスを抽出する。
好ましくは、前記第1サブシーケンスは歌詞に対応し、前記第2サブシーケンスは旋律に対応する。
しかし、サウンドシーケンスから抽出された前記第1および第2サブシーケンスは時間が隣接していないことも生じる可能性がある。
このため、さらに次のステップが設けられる。
d1)前記第1サブシーケンスの少なくとも1つの終了区間(segment)および前記第2サブシーケンスの少なくとも1つの開始区間とともに、終止形(cadence)において小節の平均期間を求めるために、前記第1サブシーケンスおよび/または前記第2サブシーケンスの少なくとも1つの終止形を検出する。前記サウンドシーケンスは整数個の前記平均期間に分離され、前記終了区間および前記開始区間のそれぞれの期間は前記平均期間に対応する。
d2)少なくとも前記終了区間および前記開始区間のサウンドサンプルを含み、かつ前記平均期間に対応する期間の少なくとも1つの転調(transition)小節を生成する。
d3)前記第1サブシーケンスおよび前記第2サブシーケンスの一続きになったものを取得するために、前記第1サブシーケンス、1つまたは複数の前記転調小節および前記第2サブシーケンスを結合する。
d1)前記第1サブシーケンスの少なくとも1つの終了区間(segment)および前記第2サブシーケンスの少なくとも1つの開始区間とともに、終止形(cadence)において小節の平均期間を求めるために、前記第1サブシーケンスおよび/または前記第2サブシーケンスの少なくとも1つの終止形を検出する。前記サウンドシーケンスは整数個の前記平均期間に分離され、前記終了区間および前記開始区間のそれぞれの期間は前記平均期間に対応する。
d2)少なくとも前記終了区間および前記開始区間のサウンドサンプルを含み、かつ前記平均期間に対応する期間の少なくとも1つの転調(transition)小節を生成する。
d3)前記第1サブシーケンスおよび前記第2サブシーケンスの一続きになったものを取得するために、前記第1サブシーケンス、1つまたは複数の前記転調小節および前記第2サブシーケンスを結合する。
一連のステップd1)からd3)は、サウンドレジュメの自動的な作成を超えて、コンピュータ補助による音楽作成への効果的な応用が見いだされることに留意すべきである。このアプリケーションにおいて、ユーザは1つの音楽から2つのサブシーケンスを生成することが可能であるが、ステップd1)からd3)を実行する命令を含むソフトウェアは、結合によって、人手を介さず、かつ耳に快く響く、2つのサブシーケンスが一続きになったものを提供する。
また、より一般に、本発明は、コンピュータのメモリ、またはコンピュータの読み取り装置と協働する着脱式の媒体に記憶され、かつ本発明の要旨の範囲内の方法のステップを実行するための命令を含むコンピュータプログラム製品を提供することを目的とする。
本発明の他の特徴および効果は、以下の詳細な説明および添付図面を検討することによって明らかになる。
図1aのオーディオ信号は、楽曲(アーティストAlanis Morissetteによる楽曲”head over feet”)の時間(横軸)の関数として音響強度(縦軸)を表わす。このオーディオ信号を構成するため、(ステレオモードにおける)左右のチャネルのそれぞれの信号は同期され、かつ1つに加算された。
図1aに表わされたオーディオ信号は、図1bに表わされたようなスペクトルエネルギーの時間変化を取得するためにスペクトル変換(例えば高速フーリエ変換FFT)が適用される。
一実施形態において、複数の連続した短時間FFTに関心がある場合、その結果は、いくつかの周波数範囲(好ましくは、周波数の対数のように増加する波長)のフィルタの列に適用される。そして、オーディオ信号の動的パラメータ(図1bにおいてPDとして参照される)を取得するために、もう1つのフーリエ変換が適用される。特に、図1bの縦軸のスケールは、与えられた周波数範囲において各種のレートにおける成分の変化の大きさを示す。したがって、図1bの任意の縦軸のスケールのインデックス0または2は低い周波数における遅い変化に対応し、一方、この同じスケールのインデックス12は高い周波数における速い変化に対応する。これらの変化は、横軸(秒)に沿って時間の関数として表現される。これらの動的パラメータPDに対応付けられた強度は、時間にわたって、各種のグレーレベルによって表わされ、相対値は(図1bの右の)参照カラムCOLによって示される。
図1bに表わされたような動的パラメータは、十分に楽曲の識別を可能とすることが示されている。この楽曲の「刷り込み」に関して、本出願人による仏国特許出願公開第2834363号明細書には、詳細にこれらのパラメータおよびそれらを取得する方法が記載されている。
変形として、オーディオ信号から推定された変数は、楽曲を特徴付けることを可能とすることとは異なるタイプのものであり、特に、いわゆる「メル周波数ケプストラム係数(Mel Frequency Cepstral Coefficients)」である。一般に、(それ自体知られた)これらの係数は、短時間高速フーリエ変換によっても取得されることが示されている。
図1cは、図1bのスペクトラムエネルギーのプロファイルの視覚的表現を提供する。図1cにおいて、横軸は(秒における)時間を表わし、かつ縦軸は歌詞、旋律、序奏、主旋律等のような楽曲の様々な部分を表わす。歌詞または旋律のような同様な部分の時間にわたる繰り返しは、横軸の様々な時間において現れるハッチングされた矩形によって表わされ(これらは異なる時間幅であり得る)、縦軸と異なる。図1bの表現から図1cの表現へ移行するために、例えば、ビタビ(VITERBI)アルゴリズムに従って、バウムウェルチ(BAUM-WELSH)アルゴリズムとともに、”K-means”アルゴリズム、または、”ファジィK-means”アルゴリズム、または、隠れマルコフチェーンを用いて統計分析が行われる。
典型的に、楽曲を表現するために必要な状態数(楽曲の部分)の決定は、自動化された方法で、上述したアルゴリズムの各繰り返しにおいて見出される状態の類似度の比較によって、および冗長な状態を除去することによって実行される。したがって、「プルーニング(pruning)」と称するこの技術は、楽曲の各々の冗長部分を分離し、かつその時間座標(上述したようなその開始時点および終了時点)を決定することを可能とする。
したがって、例えば、(人間の声の)音の周波数において、オーディオ信号の特定の楽節の繰り返しを判断するためにスペクトルエネルギーの変化を調査する。
好ましくは、楽曲において期間が最も大きい、および/または、繰り返しの回数が最も大きい、1つまたは複数の楽節を抽出することを試みる。
例えば、たいていの娯楽的な流行曲について、繰り返しが全体として最も頻繁である旋律部分、そして繰り返しが頻繁である歌詞部分、そして場合によって、繰り返されるならばさらに他の部分を分離するために選択することが可能である。
これらのサブシーケンスが楽曲において繰り返されるならば、楽曲の代表的なサブシーケンスの他のタイプの抽出が可能であることが示される。例えば、楽曲において繰り返される打楽器の楽節、または楽曲において何回か歌われる音声のフレーズのような、歌詞または旋律よりも一般的に短期間の音楽のモチーフを抽出するために選択することも可能である。さらに、主旋律、例えばジャズまたはクラシック音楽において繰り返される音楽フレーズを楽曲から抽出することも可能である。さらに、クラシック音楽において、楽章のような楽節を抽出することも可能である。
図1cの例によって表わされた視覚的なレジュメにおいて、ハッチングされた矩形は、時間的な横軸によって(秒において)示される時間窓における序奏(「イントロ」)、歌詞または旋律のような楽曲の部分の存在を示す。
したがって、0秒と約15秒との間において、楽曲は序奏(縦軸のスケールの数字2によってインデックスされる)で始まる。序奏は、約100秒まで、(数字3によってインデックスされる)歌詞および(数字1によってインデックスされる)旋律の2つの交互の反復が続く。
したがって、0秒と約15秒との間において、楽曲は序奏(縦軸のスケールの数字2によってインデックスされる)で始まる。序奏は、約100秒まで、(数字3によってインデックスされる)歌詞および(数字1によってインデックスされる)旋律の2つの交互の反復が続く。
ここで図5を参照し、好ましい実施形態による上述したサウンドレジュメを取得するための方法の主要なステップを説明する。最初のサウンドシーケンスはステレオモードで表現され、まず、オーディオ信号が左チャネル「オーディオL」および右チャネル「オーディオR」から、それぞれステップ10およびステップ11において取得される。これら2つのチャネルの信号はステップ12において、図1aに表わされたようなオーディオ信号を取得するために1つに加算される。このオーディオ信号は、場合によって、対応付けられた時間座標の関数としてランク付けされた音響強度の値とともにサンプルされた形式で作業メモリに記憶することが可能である(ステップ14)。ステップ16において、これらのオーディオデータに(表わされた例においてはFFT型の)スペクトル変換を適用し、ステップ18において、時間の関数としてスペクトル係数Fi(t)および/またはそれらの変化△Fi(t)を取得する。ステップ20において、統計分析モジュールは、ステップ14のオーディオ信号において繰り返される様々なサブシーケンスの開始時点および終了時点に対応する時点t0、t1、・・・、t7を分離するためにステップ18において取得された係数に基づいて動作する。
表わされた例において、楽曲は(娯楽的な流行曲において典型的な)次を含むような構造を表わす。
− 時点t0と時点t1との間に楽曲の開始における序奏、
− t1とt2との間に歌詞、
− t2とt3との間に旋律、
− t3とt4との間に第2歌詞、
− t4とt5との間に第2旋律、
− 時点t5とt6との間に、場合によって楽器のソロで埋め合わされた、再度の序奏、
− 時点t6とt7との間に、2つの楽曲最後の旋律の繰り返し。
− 時点t0と時点t1との間に楽曲の開始における序奏、
− t1とt2との間に歌詞、
− t2とt3との間に旋律、
− t3とt4との間に第2歌詞、
− t4とt5との間に第2旋律、
− 時点t5とt6との間に、場合によって楽器のソロで埋め合わされた、再度の序奏、
− 時点t6とt7との間に、2つの楽曲最後の旋律の繰り返し。
ステップ22において、時点t0からt7は、対応する楽節(序奏、歌詞または旋律)の関数としてカタログが作成され、かつインデックスが付与され、場合によって作業メモリに記憶される。そして、ステップ23において、図5に表わされたように、この楽曲の視覚的なレジュメを作成することが可能である。
典型的な構造を含む娯楽的な流行曲の上述した例において、サウンドレジュメは、楽曲から抽出された旋律が続く、楽曲から抽出された歌詞から作成される。ステップ24において、結合は、上述した例において時点t1とt2との間、および時点t2とt3との間のオーディオ信号のサウンドサンプルから作成される。場合によって、この結合の結果は、ステップ26において、続く利用のために恒久的なメモリMEMに記憶される。
一方、一般的な規則として、分離された歌詞の終了時点と分離された旋律の開始時点とは、必ずしも同一である必要はなく、または、第1歌詞および第2旋律(t4とt5との間)から、または、最後の旋律(t6とt7との間)からサウンドレジュメを作成することを選択することも可能である。したがって、サウンドレジュメを作成するために選択された2つの楽節は、必ずしも隣接している必要はない。
楽曲の2つの部分に対応するサウンド信号の無計画な結合は、耳に不快な印象を与える。以下、図2、図3a、図3b、図4を参照し、この問題を克服するような方法で、楽曲の2つの部分の結合によるサウンド信号の作成を説明する。
この結合による作成の目的の1つは、サウンド信号のテンポを局所的に保つことである。
もう1つの目的は、小節の期間の整数倍に等しい結合点(または「整列(alignment)」点)間の時間間隔を保証することである。
もう1つの目的は、小節の期間の整数倍に等しい結合点(または「整列(alignment)」点)間の時間間隔を保証することである。
好ましくは、この結合は、楽曲の上述した2つのそれぞれの部分から選択および分離されたサウンド区間の重畳/加算によって実行される。
以下、まず、ビート同期(「ビート同期された(beat-synchronous)」と称する)によって、次に、小節同期によって、好ましい実施形態による、そのようなサウンド区間の重畳/加算が説明される。
以下、次の表記が用いられる。
− bpmは、楽曲の1分あたりのビート数、
− Dは、このbpmの数の参照符号(reference)(例えば、“120=四分音符”と示される楽曲の場合、bpm=120およびD=四分音符)、
− Tは、ビート、すなわち参照符号Dの(秒で表わされた)期間:D=四分音符である上記の例において、次の通りである。
− bpmは、楽曲の1分あたりのビート数、
− Dは、このbpmの数の参照符号(reference)(例えば、“120=四分音符”と示される楽曲の場合、bpm=120およびD=四分音符)、
− Tは、ビート、すなわち参照符号Dの(秒で表わされた)期間:D=四分音符である上記の例において、次の通りである。
− Nは、楽曲の拍子(metric)の分子(例えば、“3/4”と示された小節の場合、N=3)
− Mは、M=N・T(すなわち、上記の例において、M=3×60/120)の関係によって与えられる小節の(秒で表わされた)期間、
− s(t)は、楽曲のオーディオ信号、
− [数2]は、重畳/加算によって再作成された信号、および
− Mは、M=N・T(すなわち、上記の例において、M=3×60/120)の関係によって与えられる小節の(秒で表わされた)期間、
− s(t)は、楽曲のオーディオ信号、
− [数2]は、重畳/加算によって再作成された信号、および
− si(t)、sj(t)は、それぞれ楽曲の第1および第2楽節に属するオーディオ信号を含み、かつ重畳/加算による[数2]の作成のために用いられるi番目およびj番目の区間である。
原則として、上述した第1および第2楽節は隣接しない。そして、[数2]は以下のように得られる。
図2を参照すると、区間si(t)およびsj(t)は、まず、幅がLで0とLとの間において(0でない値に)定義された時間窓hL(t)を用いてオーディオ信号を切り取ることによって形成される。この窓は、矩形型、いわゆる「ハニング(Hanning)」型、いわゆる「階段ハニング(staircase Hanning)」型等とすることが可能である。
図4を参照すると、時間窓の好ましい型は、上昇側面、平坦、下降側面の結合によって得られる。この窓の好ましい時間幅は以下に示される。
図4を参照すると、時間窓の好ましい型は、上昇側面、平坦、下降側面の結合によって得られる。この窓の好ましい時間幅は以下に示される。
第1区間si(t)は、miを第1区間の開始時点として、次のように定義される。
si(t)=s(t+mi)・hL(t) [1]
図3aに表わされたように、sj(t)は、mjを第2区間の開始時点として、ほぼ同様に作成される。
sj(t)=s(t+mj)・hL(t) [1a]
si(t)=s(t+mi)・hL(t) [1]
図3aに表わされたように、sj(t)は、mjを第2区間の開始時点として、ほぼ同様に作成される。
sj(t)=s(t+mj)・hL(t) [1a]
さらに図2に表わされたように、時間窓の期間Lが両方の区間について同じであっても、窓の形状は1つの区間si(t)と他の区間sj(t)とで異なることが可能であることが示されている。
biおよびbjを、それぞれ第1および第2区間の内側の2つの位置とし、重畳/加算が実行されることに関して「同期位置」と呼び、次の通りである。
0≦bi≦L および 0≦bj≦L [2]
効果的には、biとbjとの間の時間間隔は、ビートの期間Tの整数倍(bj−bi=kT)に等しく選択される。こられの条件のもとで、「ビート同期された」再作成と呼ぶものは、次の通りである。
0≦bi≦L および 0≦bj≦L [2]
効果的には、biとbjとの間の時間間隔は、ビートの期間Tの整数倍(bj−bi=kT)に等しく選択される。こられの条件のもとで、「ビート同期された」再作成と呼ぶものは、次の通りである。
ここで、
s’i(t)=si(t+bi) [5]
であり、k’はk’T≦L−(bi−mi)である最大の整数、cはc=b1−m1である時間定数である。
効果的には、時点miとmjとの間の間隔は、k’NTの整数倍に等しく選択される。ここで、Nは拍子の分子を示す。
したがって、再作成された信号は次のように表わすことができる。
s’i(t)=si(t+bi) [5]
であり、k’はk’T≦L−(bi−mi)である最大の整数、cはc=b1−m1である時間定数である。
効果的には、時点miとmjとの間の間隔は、k’NTの整数倍に等しく選択される。ここで、Nは拍子の分子を示す。
したがって、再作成された信号は次のように表わすことができる。
そして、遅延のない(in-time)同期された重畳/加算が得られる。図3bはこの状況を表わす。図4は、上述した時間窓の幅Lが、ほぼ(上昇および下降側面内の)k’NTであることを表わす。一方、この場合において、好ましくは、k’T≦L−2(bi−mi)であるような側面の傾斜が選択される。
より詳しくは、時点miおよびmjは、それらが第1小節の時間に対応するように選択される。これらの条件のもとで、いわゆる「整列された」ビート同期された重畳/加算が効果的に取得される。
したがって、第1楽節および/または第2楽節の拍子をさらに決定することによって、遅延のないビート同期された再作成を実行することができる。さらに、第1および第2区間が、第1小節の時間で開始するように選択されるならば、このビート同期された再作成は整列される。
したがって、第1楽節および/または第2楽節の拍子をさらに決定することによって、遅延のないビート同期された再作成を実行することができる。さらに、第1および第2区間が、第1小節の時間で開始するように選択されるならば、このビート同期された再作成は整列される。
信号[数2]の再作成は、結合された2つより多くの楽節に基づいて行うことが可能であることが示される。i個の楽節(i>2)について、上記の方法の一般化は次の関係式に表わされる。
各整数kj’はkj’T≦Lj−(bj−mj)であるような最大の整数として定義され、Ljは結合されたj番目の楽節の窓の幅に対応する。
例えば、既存のソフトウェアアプリケーションを用いることによって、第1小節の時間、拍子、楽曲のテンポを自動的に検出することが可能であることが示される。例えば、MPEG−7標準(オーディオバージョン2)は、そのようなソフトウェアアプリケーションを用いることによって、楽曲のテンポおよび拍子の決定および記述を提供する。
もちろん、本発明は例示によって上述した実施形態に限定されず、他の変形に拡張される。
したがって、サウンドレジュメは2つより多くの楽節、例えば、序奏、歌詞、旋律、または、序奏および旋律のような、歌詞および旋律とは異なる2つの楽節を含むことが可能である。
また、図5のフローチャートに表わされたステップは、コンピュータソフトウェアによって実現することが可能であることに留意すべきであり、そのアルゴリズムが全体としてフローチャートの構造を呼び出す。この点で、本発明はそのようなコンピュータプログラムをも目的とする。
したがって、サウンドレジュメは2つより多くの楽節、例えば、序奏、歌詞、旋律、または、序奏および旋律のような、歌詞および旋律とは異なる2つの楽節を含むことが可能である。
また、図5のフローチャートに表わされたステップは、コンピュータソフトウェアによって実現することが可能であることに留意すべきであり、そのアルゴリズムが全体としてフローチャートの構造を呼び出す。この点で、本発明はそのようなコンピュータプログラムをも目的とする。
PD 動的パラメータ
COL 参照カラム
COL 参照カラム
Claims (12)
- サウンドシーケンスを処理する方法であって、
a)前記サウンドシーケンスにおける時間の関数として変化するスペクトル係数を取得するために、前記サウンドシーケンスにスペクトル変換を適用するステップを有する、サウンドシーケンスを処理する方法において、
b)前記スペクトル係数の統計分析によって前記サウンドシーケンスにおいて繰り返される少なくとも1つのサブシーケンスを決定するステップと、
c)前記サウンドシーケンスにおける前記サブシーケンスの開始時点および終了時点を求めるステップと、
をさらに有することを特徴とするサウンドシーケンスを処理する方法。 - d)前記サブシーケンスの代表となるサウンドサンプルをメモリに記憶するために、前記サブシーケンスを抽出するステップをさらに有することを特徴とする請求項1に記載の方法。
- 前記抽出するステップd)は、前記サウンドシーケンスにおいて期間が最も大きい少なくとも1つのサブシーケンス、および/または、前記サウンドシーケンスにおいて繰り返しの回数が最も大きい少なくとも1つのサブシーケンスに関して行われることを特徴とする請求項2に記載の方法。
- 前記サウンドシーケンスは、少なくとも序奏、歌詞、旋律、ブリッジウェイ、主旋律、モチーフ、または楽章の中からの一連のサブシーケンスを含む楽曲であり、
前記ステップc)において、少なくとも、第1サブシーケンスおよび第2サブシーケンスのそれぞれの開始時点および終了時点を決定することを特徴とする請求項1から3のいずれか1項に記載の方法。 - 前記第1サブシーケンスは歌詞に対応し、かつ前記第2サブシーケンスは旋律に対応することを特徴とする請求項3と組み合わされた請求項4に記載の方法。
- 前記ステップd)は、少なくとも前記第2サブシーケンスと一続きの前記第1サブシーケンスを含む前記楽曲のサウンドレジュメを記憶媒体に取得するために、前記第1および第2サブシーケンスを抽出することを特徴とする請求項2と組み合わされた請求項4および5のいずれか1項に記載の方法。
- 前記抽出されたサブシーケンスは時間が隣接せず、
d1)前記第1サブシーケンスの少なくとも1つの終了区間および前記第2サブシーケンスの少なくとも1つの開始区間とともに、終止形において小節の平均期間を求めるために、前記第1サブシーケンスおよび/または前記第2サブシーケンスの少なくとも1つの終止形を検出するステップをさらに有し、
前記サウンドシーケンスは整数個の前記平均期間に分離され、前記終了区間および前記開始区間のそれぞれの期間は前記平均期間に対応し、
d2)少なくとも前記終了区間および前記開始区間のサウンドサンプルを含み、かつ前記平均期間に対応する期間の少なくとも1つの転調小節を生成するステップと、
d3)前記第1サブシーケンスおよび前記第2サブシーケンスの一続きになったものを取得するために、前記第1サブシーケンス、1つまたは複数の前記転調小節および前記第2サブシーケンスを結合するステップと、
をさらに有することを特徴とする請求項6に記載の方法。 - 前記ステップd1)は、矩形型、ハニング型、階段ハニング型、または、時間にわたって上昇側面、平坦、下降側面を含む型の少なくとも2つの窓を切り取るステップを有することを特徴とする請求項7に記載の方法。
- 前記ステップd2)は、ビート同期された再作成を含むことを特徴とする請求項7および8のいずれか1項に記載の方法。
- 前記ステップd1)は、前記第1サブシーケンスおよび/または前記第2サブシーケンスの拍子を決定し、
前記ステップd2)は、遅延のないビート同期された再作成を含むことを特徴とする請求項9に記載の方法。 - 前記ステップd1)は、前記終了区間および前記開始区間が第1小節の時間で開始するように決定され、
前記ステップd2)は、整列されたビート同期された再作成を含むことを特徴とする請求項9および10のいずれか1項に記載の方法。 - コンピュータのメモリ、またはコンピュータの読み取り装置と協働する着脱式の媒体に記憶されたコンピュータプログラム製品であって、
請求項1から11のいずれか1項に記載の方法のステップを実行するための命令を含むコンピュータプログラム製品。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR0307667A FR2856817A1 (fr) | 2003-06-25 | 2003-06-25 | Procede de traitement d'une sequence sonore, telle qu'un morceau musical |
PCT/FR2004/001493 WO2005004002A2 (fr) | 2003-06-25 | 2004-06-16 | Procede de traitement d’une sequence sonore, telle qu’un morceau musical |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007520727A true JP2007520727A (ja) | 2007-07-26 |
Family
ID=33515393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006516296A Pending JP2007520727A (ja) | 2003-06-25 | 2004-06-16 | 楽曲のようなサウンドシーケンスを処理する方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20060288849A1 (ja) |
EP (1) | EP1636789A2 (ja) |
JP (1) | JP2007520727A (ja) |
FR (1) | FR2856817A1 (ja) |
WO (1) | WO2005004002A2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013509601A (ja) * | 2009-10-19 | 2013-03-14 | ドルビー インターナショナル アーベー | 音声オブジェクトの区分を示すメタデータ時間標識情報 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7521623B2 (en) | 2004-11-24 | 2009-04-21 | Apple Inc. | Music synchronization arrangement |
US7563971B2 (en) * | 2004-06-02 | 2009-07-21 | Stmicroelectronics Asia Pacific Pte. Ltd. | Energy-based audio pattern recognition with weighting of energy matches |
US7626110B2 (en) * | 2004-06-02 | 2009-12-01 | Stmicroelectronics Asia Pacific Pte. Ltd. | Energy-based audio pattern recognition |
DE102004047032A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Bezeichnen von verschiedenen Segmentklassen |
DE102004047069A1 (de) * | 2004-09-28 | 2006-04-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ändern einer Segmentierung eines Audiostücks |
US7826911B1 (en) | 2005-11-30 | 2010-11-02 | Google Inc. | Automatic selection of representative media clips |
US7668610B1 (en) | 2005-11-30 | 2010-02-23 | Google Inc. | Deconstructing electronic media stream into human recognizable portions |
WO2007129250A1 (en) * | 2006-05-08 | 2007-11-15 | Koninklijke Philips Electronics N.V. | Method and electronic device for aligning a song with its lyrics |
US7645929B2 (en) * | 2006-09-11 | 2010-01-12 | Hewlett-Packard Development Company, L.P. | Computational music-tempo estimation |
US8084677B2 (en) * | 2007-12-31 | 2011-12-27 | Orpheus Media Research, Llc | System and method for adaptive melodic segmentation and motivic identification |
EP2096626A1 (en) | 2008-02-29 | 2009-09-02 | Sony Corporation | Method for visualizing audio data |
CN102541965B (zh) | 2010-12-30 | 2015-05-20 | 国际商业机器公司 | 自动获得音乐文件中的特征片断的方法和系统 |
FR3028086B1 (fr) * | 2014-11-04 | 2019-06-14 | Universite de Bordeaux | Procede de recherche automatise d'au moins une sous-sequence sonore representative au sein d'une bande sonore |
US9691429B2 (en) * | 2015-05-11 | 2017-06-27 | Mibblio, Inc. | Systems and methods for creating music videos synchronized with an audio track |
US10681408B2 (en) | 2015-05-11 | 2020-06-09 | David Leiberman | Systems and methods for creating composite videos |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4633749A (en) * | 1984-01-12 | 1987-01-06 | Nippon Gakki Seizo Kabushiki Kaisha | Tone signal generation device for an electronic musical instrument |
JPS61204693A (ja) * | 1985-03-08 | 1986-09-10 | カシオ計算機株式会社 | 自動演奏装置を備えた電子楽器 |
US4926737A (en) * | 1987-04-08 | 1990-05-22 | Casio Computer Co., Ltd. | Automatic composer using input motif information |
US6316712B1 (en) * | 1999-01-25 | 2001-11-13 | Creative Technology Ltd. | Method and apparatus for tempo and downbeat detection and alteration of rhythm in a musical segment |
US7212972B2 (en) * | 1999-12-08 | 2007-05-01 | Ddi Corporation | Audio features description method and audio video features description collection construction method |
WO2001069575A1 (en) * | 2000-03-13 | 2001-09-20 | Perception Digital Technology (Bvi) Limited | Melody retrieval system |
-
2003
- 2003-06-25 FR FR0307667A patent/FR2856817A1/fr active Pending
-
2004
- 2004-06-16 US US10/562,242 patent/US20060288849A1/en not_active Abandoned
- 2004-06-16 WO PCT/FR2004/001493 patent/WO2005004002A2/fr not_active Application Discontinuation
- 2004-06-16 JP JP2006516296A patent/JP2007520727A/ja active Pending
- 2004-06-16 EP EP04767355A patent/EP1636789A2/fr not_active Withdrawn
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013509601A (ja) * | 2009-10-19 | 2013-03-14 | ドルビー インターナショナル アーベー | 音声オブジェクトの区分を示すメタデータ時間標識情報 |
Also Published As
Publication number | Publication date |
---|---|
WO2005004002A3 (fr) | 2005-03-24 |
US20060288849A1 (en) | 2006-12-28 |
FR2856817A1 (fr) | 2004-12-31 |
WO2005004002A2 (fr) | 2005-01-13 |
EP1636789A2 (fr) | 2006-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4465626B2 (ja) | 情報処理装置および方法、並びにプログラム | |
US9542917B2 (en) | Method for extracting representative segments from music | |
JP3941417B2 (ja) | ソース音声信号内の新規点の識別方法 | |
JP2007520727A (ja) | 楽曲のようなサウンドシーケンスを処理する方法 | |
Liutkus et al. | Adaptive filtering for music/voice separation exploiting the repeating musical structure | |
US7812241B2 (en) | Methods and systems for identifying similar songs | |
JP5594052B2 (ja) | 情報処理装置、楽曲再構成方法及びプログラム | |
JP2006517679A (ja) | オーディオ再生装置、方法及びコンピュータプログラム | |
JP3789326B2 (ja) | テンポ抽出装置、テンポ抽出方法、テンポ抽出プログラム及び記録媒体 | |
JP3569104B2 (ja) | 音情報処理方法および装置 | |
JP4622199B2 (ja) | 楽曲検索装置及び楽曲検索方法 | |
JP2012506061A (ja) | デジタル音楽音響信号の分析方法 | |
CN105895079B (zh) | 语音数据的处理方法和装置 | |
Hainsworth et al. | Automatic bass line transcription from polyphonic music | |
Rao et al. | Structural Segmentation of Alap in Dhrupad Vocal Concerts. | |
JP3716725B2 (ja) | 音声処理装置、音声処理方法および情報記録媒体 | |
JP4347815B2 (ja) | テンポ抽出装置およびテンポ抽出方法 | |
JP2002278544A (ja) | 採譜方法および採譜装置 | |
Finkelstein | Music Segmentation Using Markov Chain Methods | |
Kulkarni et al. | Audio segmentation | |
Boenn | Automated Quantisation and Transcription of Ornaments from Audio Recordings | |
JP4906565B2 (ja) | メロディー推定方法及びメロディー推定装置 | |
JP2000330581A (ja) | 音声のピッチ差値を利用した音声ファイルの終点検出方法 | |
Nawasalkar et al. | Extracting Melodic Pattern of ‘Mohan Veena’from Polyphonic Audio Signal of North Indian Classical Music | |
FR3028086A1 (fr) | Procede de recherche automatise d'au moins une sous-sequence sonore representative au sein d'une bande sonore |