JP2007520727A

JP2007520727A - 楽曲のようなサウンドシーケンスを処理する方法

Info

Publication number: JP2007520727A
Application number: JP2006516296A
Authority: JP
Inventors: ジェフロイ・ペーテル
Original assignee: France Telecom SA
Current assignee: Orange SA
Priority date: 2003-06-25
Filing date: 2004-06-16
Publication date: 2007-07-26
Also published as: WO2005004002A3; US20060288849A1; FR2856817A1; WO2005004002A2; EP1636789A2

Abstract

本発明はオーディオシーケンス、例えば楽曲の処理に関する。前記シーケンスにスペクトル変換を適用した後、特に楽曲のオーディオレジュメを作成するために、楽曲の旋律および／または歌詞のような演算結果のスペクトル係数の統計分析によって前記シーケンスにおいて少なくとも１つの繰り返されるサブシーケンスが決定され、かつ前記サブシーケンスの開始時間および終了時間が決定される。

Description

本発明は、楽曲のようなサウンドシーケンス、または、より一般に、サブシーケンスの繰り返しを含むサウンドシーケンスの処理に関する。

音楽作品、例えばＣＤ、カセットまたは他の媒体への録音物の販売者は、潜在的な顧客に利用可能なブースを作り、そこで顧客は選択した楽曲、またはその目新しさのために宣伝された他の楽曲を聴くことができる。顧客は、聴いている楽曲から歌詞または旋律（refrain）を確認すると、対応する音楽作品の購入を決定することができる。

より一般に、通常、注意深い聴取者は、特に、曲の序奏（introduction）よりも一続きの歌詞および旋律に、より注意を集中する。したがって、上述したようなブースの中で宣伝するためには、宣伝される音楽作品全体を提供するよりむしろ、少なくとも１つの歌詞および１つの旋律を含むサウンドレジュメが十分であることが理解される。

携帯電話によるサウンドデータの伝送のようなもう１つのアプリケーションにおいて、遠隔のサーバから携帯端末へ楽曲全体をダウンロードすることは非常に冗長であり、したがって、上述したようなサウンドレジュメのダウンロードよりもコストを要することが理解される。

同様に、電子商取引の場面において、サウンドレジュメは、インターネットのような広域ネットワークを介して、遠隔のサーバと通信する機器へダウンロードすることが可能である。したがって、コンピュータ機器のユーザは、そのサウンドレジュメが気に入った音楽作品を注文することができる。

しかし、耳で歌詞および旋律を検出すること、そして販売される全ての音楽作品についてサウンドレジュメを作成することは法外に厄介な仕事である。
本発明はその状況を改善することを目的とする。

本発明の目的の１つは、サウンドシーケンスにおいて繰り返されるサブシーケンスの自動化された検出を提案することである。
本発明のもう１つの目的は、上述したようなサウンドレジュメの自動化された作成を提案することである。

この目的のため、本発明は、まず、サウンドシーケンスを処理する方法であって、
ａ）前記サウンドシーケンスにおける時間の関数として変化するスペクトル係数を取得するために、前記サウンドシーケンスにスペクトル変換を適用するステップを有する、サウンドシーケンスを処理する方法に関する。

本発明の要旨の範囲内の方法は、
ｂ）前記スペクトル係数の統計分析によって前記サウンドシーケンスにおいて繰り返される少なくとも１つのサブシーケンスを決定するステップと、
ｃ）前記サウンドシーケンスにおける前記サブシーケンスの開始時点および終了時点を求めるステップと、をさらに有する。

効果的には、追加のステップによれば、
ｄ）前記サブシーケンスの代表となるサウンドサンプルをメモリに記憶するために、前記サブシーケンスを抽出する。

好ましくは、ステップｄ）の抽出は、前記サウンドシーケンスにおいて期間が最も大きい少なくとも１つのサブシーケンス、および／または、前記サウンドシーケンスにおいて繰り返しの回数が最も大きい少なくとも１つのサブシーケンスに関して行われる。

本発明は、特に、モーター速度の加速および減速段階のサウンド録音シーケンスを取得することによって、産業用機械またはモーターの故障の検出を助けるという効果的な応用が見いだされる。本発明の要旨の範囲内の方法の応用は、例えば、安定した速度または加速段階に対応するサウンドサブシーケンスを分離することを可能とし、このサブシーケンスは、場合によっては参照サブシーケンスと比較することが可能である。

上述したような音楽データの取得へのもう１つの効果的な応用において、サウンドシーケンスは、そのシーケンスの中で繰り返される、少なくとも序奏、歌詞、旋律、ブリッジウェイ（bridgeway）、主旋律（theme）、モチーフ（motif）、または楽章（movement）の中からの一連のサブシーケンスを含む楽曲である。ステップｃ）において、少なくとも、第１サブシーケンスおよび第２サブシーケンスのそれぞれの開始時点および終了時点を決定する。

特に効果的な実施形態では、ステップｄ）は、少なくとも前記第２サブシーケンスと一続きの前記第１サブシーケンスを含む前記楽曲のサウンドレジュメを記憶媒体に取得するために、前記第１および第２サブシーケンスを抽出する。

好ましくは、前記第１サブシーケンスは歌詞に対応し、前記第２サブシーケンスは旋律に対応する。

しかし、サウンドシーケンスから抽出された前記第１および第２サブシーケンスは時間が隣接していないことも生じる可能性がある。

このため、さらに次のステップが設けられる。
ｄ１）前記第１サブシーケンスの少なくとも１つの終了区間（segment）および前記第２サブシーケンスの少なくとも１つの開始区間とともに、終止形（cadence）において小節の平均期間を求めるために、前記第１サブシーケンスおよび／または前記第２サブシーケンスの少なくとも１つの終止形を検出する。前記サウンドシーケンスは整数個の前記平均期間に分離され、前記終了区間および前記開始区間のそれぞれの期間は前記平均期間に対応する。
ｄ２）少なくとも前記終了区間および前記開始区間のサウンドサンプルを含み、かつ前記平均期間に対応する期間の少なくとも１つの転調（transition）小節を生成する。
ｄ３）前記第１サブシーケンスおよび前記第２サブシーケンスの一続きになったものを取得するために、前記第１サブシーケンス、１つまたは複数の前記転調小節および前記第２サブシーケンスを結合する。

一連のステップｄ１）からｄ３）は、サウンドレジュメの自動的な作成を超えて、コンピュータ補助による音楽作成への効果的な応用が見いだされることに留意すべきである。このアプリケーションにおいて、ユーザは１つの音楽から２つのサブシーケンスを生成することが可能であるが、ステップｄ１）からｄ３）を実行する命令を含むソフトウェアは、結合によって、人手を介さず、かつ耳に快く響く、２つのサブシーケンスが一続きになったものを提供する。

また、より一般に、本発明は、コンピュータのメモリ、またはコンピュータの読み取り装置と協働する着脱式の媒体に記憶され、かつ本発明の要旨の範囲内の方法のステップを実行するための命令を含むコンピュータプログラム製品を提供することを目的とする。

本発明の他の特徴および効果は、以下の詳細な説明および添付図面を検討することによって明らかになる。

図１ａのオーディオ信号は、楽曲（アーティストAlanis Morissetteによる楽曲”head over feet”）の時間（横軸）の関数として音響強度（縦軸）を表わす。このオーディオ信号を構成するため、（ステレオモードにおける）左右のチャネルのそれぞれの信号は同期され、かつ１つに加算された。

図１ａに表わされたオーディオ信号は、図１ｂに表わされたようなスペクトルエネルギーの時間変化を取得するためにスペクトル変換（例えば高速フーリエ変換ＦＦＴ）が適用される。

一実施形態において、複数の連続した短時間ＦＦＴに関心がある場合、その結果は、いくつかの周波数範囲（好ましくは、周波数の対数のように増加する波長）のフィルタの列に適用される。そして、オーディオ信号の動的パラメータ（図１ｂにおいてＰＤとして参照される）を取得するために、もう１つのフーリエ変換が適用される。特に、図１ｂの縦軸のスケールは、与えられた周波数範囲において各種のレートにおける成分の変化の大きさを示す。したがって、図１ｂの任意の縦軸のスケールのインデックス０または２は低い周波数における遅い変化に対応し、一方、この同じスケールのインデックス１２は高い周波数における速い変化に対応する。これらの変化は、横軸（秒）に沿って時間の関数として表現される。これらの動的パラメータＰＤに対応付けられた強度は、時間にわたって、各種のグレーレベルによって表わされ、相対値は（図１ｂの右の）参照カラムＣＯＬによって示される。

図１ｂに表わされたような動的パラメータは、十分に楽曲の識別を可能とすることが示されている。この楽曲の「刷り込み」に関して、本出願人による仏国特許出願公開第２８３４３６３号明細書には、詳細にこれらのパラメータおよびそれらを取得する方法が記載されている。

変形として、オーディオ信号から推定された変数は、楽曲を特徴付けることを可能とすることとは異なるタイプのものであり、特に、いわゆる「メル周波数ケプストラム係数（Mel Frequency Cepstral Coefficients）」である。一般に、（それ自体知られた）これらの係数は、短時間高速フーリエ変換によっても取得されることが示されている。

図１ｃは、図１ｂのスペクトラムエネルギーのプロファイルの視覚的表現を提供する。図１ｃにおいて、横軸は（秒における）時間を表わし、かつ縦軸は歌詞、旋律、序奏、主旋律等のような楽曲の様々な部分を表わす。歌詞または旋律のような同様な部分の時間にわたる繰り返しは、横軸の様々な時間において現れるハッチングされた矩形によって表わされ（これらは異なる時間幅であり得る）、縦軸と異なる。図１ｂの表現から図１ｃの表現へ移行するために、例えば、ビタビ（VITERBI）アルゴリズムに従って、バウムウェルチ（BAUM-WELSH）アルゴリズムとともに、”K-means”アルゴリズム、または、”ファジィK-means”アルゴリズム、または、隠れマルコフチェーンを用いて統計分析が行われる。

典型的に、楽曲を表現するために必要な状態数（楽曲の部分）の決定は、自動化された方法で、上述したアルゴリズムの各繰り返しにおいて見出される状態の類似度の比較によって、および冗長な状態を除去することによって実行される。したがって、「プルーニング（pruning）」と称するこの技術は、楽曲の各々の冗長部分を分離し、かつその時間座標（上述したようなその開始時点および終了時点）を決定することを可能とする。

したがって、例えば、（人間の声の）音の周波数において、オーディオ信号の特定の楽節の繰り返しを判断するためにスペクトルエネルギーの変化を調査する。

好ましくは、楽曲において期間が最も大きい、および／または、繰り返しの回数が最も大きい、１つまたは複数の楽節を抽出することを試みる。

例えば、たいていの娯楽的な流行曲について、繰り返しが全体として最も頻繁である旋律部分、そして繰り返しが頻繁である歌詞部分、そして場合によって、繰り返されるならばさらに他の部分を分離するために選択することが可能である。

これらのサブシーケンスが楽曲において繰り返されるならば、楽曲の代表的なサブシーケンスの他のタイプの抽出が可能であることが示される。例えば、楽曲において繰り返される打楽器の楽節、または楽曲において何回か歌われる音声のフレーズのような、歌詞または旋律よりも一般的に短期間の音楽のモチーフを抽出するために選択することも可能である。さらに、主旋律、例えばジャズまたはクラシック音楽において繰り返される音楽フレーズを楽曲から抽出することも可能である。さらに、クラシック音楽において、楽章のような楽節を抽出することも可能である。

図１ｃの例によって表わされた視覚的なレジュメにおいて、ハッチングされた矩形は、時間的な横軸によって（秒において）示される時間窓における序奏（「イントロ」）、歌詞または旋律のような楽曲の部分の存在を示す。
したがって、０秒と約１５秒との間において、楽曲は序奏（縦軸のスケールの数字２によってインデックスされる）で始まる。序奏は、約１００秒まで、（数字３によってインデックスされる）歌詞および（数字１によってインデックスされる）旋律の２つの交互の反復が続く。

ここで図５を参照し、好ましい実施形態による上述したサウンドレジュメを取得するための方法の主要なステップを説明する。最初のサウンドシーケンスはステレオモードで表現され、まず、オーディオ信号が左チャネル「オーディオＬ」および右チャネル「オーディオＲ」から、それぞれステップ１０およびステップ１１において取得される。これら２つのチャネルの信号はステップ１２において、図１ａに表わされたようなオーディオ信号を取得するために１つに加算される。このオーディオ信号は、場合によって、対応付けられた時間座標の関数としてランク付けされた音響強度の値とともにサンプルされた形式で作業メモリに記憶することが可能である（ステップ１４）。ステップ１６において、これらのオーディオデータに（表わされた例においてはＦＦＴ型の）スペクトル変換を適用し、ステップ１８において、時間の関数としてスペクトル係数Ｆ_ｉ（ｔ）および／またはそれらの変化△Ｆ_ｉ（ｔ）を取得する。ステップ２０において、統計分析モジュールは、ステップ１４のオーディオ信号において繰り返される様々なサブシーケンスの開始時点および終了時点に対応する時点ｔ_０、ｔ_１、・・・、ｔ_７を分離するためにステップ１８において取得された係数に基づいて動作する。

表わされた例において、楽曲は（娯楽的な流行曲において典型的な）次を含むような構造を表わす。
− 時点ｔ_０と時点ｔ_１との間に楽曲の開始における序奏、
− ｔ_１とｔ_２との間に歌詞、
− ｔ_２とｔ_３との間に旋律、
− ｔ_３とｔ_４との間に第２歌詞、
− ｔ_４とｔ_５との間に第２旋律、
− 時点ｔ_５とｔ_６との間に、場合によって楽器のソロで埋め合わされた、再度の序奏、
− 時点ｔ_６とｔ_７との間に、２つの楽曲最後の旋律の繰り返し。

ステップ２２において、時点ｔ_０からｔ_７は、対応する楽節（序奏、歌詞または旋律）の関数としてカタログが作成され、かつインデックスが付与され、場合によって作業メモリに記憶される。そして、ステップ２３において、図５に表わされたように、この楽曲の視覚的なレジュメを作成することが可能である。

典型的な構造を含む娯楽的な流行曲の上述した例において、サウンドレジュメは、楽曲から抽出された旋律が続く、楽曲から抽出された歌詞から作成される。ステップ２４において、結合は、上述した例において時点ｔ_１とｔ_２との間、および時点ｔ_２とｔ_３との間のオーディオ信号のサウンドサンプルから作成される。場合によって、この結合の結果は、ステップ２６において、続く利用のために恒久的なメモリＭＥＭに記憶される。

一方、一般的な規則として、分離された歌詞の終了時点と分離された旋律の開始時点とは、必ずしも同一である必要はなく、または、第１歌詞および第２旋律（ｔ_４とｔ_５との間）から、または、最後の旋律（ｔ_６とｔ_７との間）からサウンドレジュメを作成することを選択することも可能である。したがって、サウンドレジュメを作成するために選択された２つの楽節は、必ずしも隣接している必要はない。

楽曲の２つの部分に対応するサウンド信号の無計画な結合は、耳に不快な印象を与える。以下、図２、図３ａ、図３ｂ、図４を参照し、この問題を克服するような方法で、楽曲の２つの部分の結合によるサウンド信号の作成を説明する。

この結合による作成の目的の１つは、サウンド信号のテンポを局所的に保つことである。
もう１つの目的は、小節の期間の整数倍に等しい結合点（または「整列（alignment）」点）間の時間間隔を保証することである。

好ましくは、この結合は、楽曲の上述した２つのそれぞれの部分から選択および分離されたサウンド区間の重畳／加算によって実行される。

以下、まず、ビート同期（「ビート同期された（beat-synchronous）」と称する）によって、次に、小節同期によって、好ましい実施形態による、そのようなサウンド区間の重畳／加算が説明される。

以下、次の表記が用いられる。
− ｂｐｍは、楽曲の１分あたりのビート数、
− Ｄは、このｂｐｍの数の参照符号（reference）（例えば、“１２０＝四分音符”と示される楽曲の場合、ｂｐｍ＝１２０およびＤ＝四分音符）、
− Ｔは、ビート、すなわち参照符号Ｄの（秒で表わされた）期間：Ｄ＝四分音符である上記の例において、次の通りである。

− Ｎは、楽曲の拍子（metric）の分子（例えば、“３／４”と示された小節の場合、Ｎ＝３）
− Ｍは、Ｍ＝Ｎ・Ｔ（すなわち、上記の例において、Ｍ＝３×６０／１２０）の関係によって与えられる小節の（秒で表わされた）期間、
− ｓ（ｔ）は、楽曲のオーディオ信号、
− ［数２］は、重畳／加算によって再作成された信号、および

− ｓ_ｉ（ｔ）、ｓ_ｊ（ｔ）は、それぞれ楽曲の第１および第２楽節に属するオーディオ信号を含み、かつ重畳／加算による［数２］の作成のために用いられるｉ番目およびｊ番目の区間である。

原則として、上述した第１および第２楽節は隣接しない。そして、［数２］は以下のように得られる。

図２を参照すると、区間ｓ_ｉ（ｔ）およびｓ_ｊ（ｔ）は、まず、幅がＬで０とＬとの間において（０でない値に）定義された時間窓ｈ_Ｌ（ｔ）を用いてオーディオ信号を切り取ることによって形成される。この窓は、矩形型、いわゆる「ハニング（Hanning）」型、いわゆる「階段ハニング（staircase Hanning）」型等とすることが可能である。
図４を参照すると、時間窓の好ましい型は、上昇側面、平坦、下降側面の結合によって得られる。この窓の好ましい時間幅は以下に示される。

第１区間ｓ_ｉ（ｔ）は、ｍ_ｉを第１区間の開始時点として、次のように定義される。
ｓ_ｉ（ｔ）＝ｓ（ｔ＋ｍ_ｉ）・ｈ_Ｌ（ｔ） [１]
図３ａに表わされたように、ｓ_ｊ（ｔ）は、ｍ_ｊを第２区間の開始時点として、ほぼ同様に作成される。
ｓ_ｊ（ｔ）＝ｓ（ｔ＋ｍ_ｊ）・ｈ_Ｌ（ｔ） [１ａ]

さらに図２に表わされたように、時間窓の期間Ｌが両方の区間について同じであっても、窓の形状は１つの区間ｓ_ｉ（ｔ）と他の区間ｓ_ｊ（ｔ）とで異なることが可能であることが示されている。

ｂ_ｉおよびｂ_ｊを、それぞれ第１および第２区間の内側の２つの位置とし、重畳／加算が実行されることに関して「同期位置」と呼び、次の通りである。
０≦ｂ_ｉ≦Ｌおよび０≦ｂ_ｊ≦Ｌ [２]
効果的には、ｂ_ｉとｂ_ｊとの間の時間間隔は、ビートの期間Ｔの整数倍（ｂ_ｊ−ｂ_ｉ＝ｋＴ）に等しく選択される。こられの条件のもとで、「ビート同期された」再作成と呼ぶものは、次の通りである。

ここで、
ｓ’_ｉ（ｔ）＝ｓ_ｉ（ｔ＋ｂ_ｉ） [５]
であり、ｋ’はｋ’Ｔ≦Ｌ−（ｂ_ｉ−ｍ_ｉ）である最大の整数、ｃはｃ＝ｂ_１−ｍ_１である時間定数である。
効果的には、時点ｍ_ｉとｍ_ｊとの間の間隔は、ｋ’ＮＴの整数倍に等しく選択される。ここで、Ｎは拍子の分子を示す。
したがって、再作成された信号は次のように表わすことができる。

そして、遅延のない（in-time）同期された重畳／加算が得られる。図３ｂはこの状況を表わす。図４は、上述した時間窓の幅Ｌが、ほぼ（上昇および下降側面内の）ｋ’ＮＴであることを表わす。一方、この場合において、好ましくは、ｋ’Ｔ≦Ｌ−２（ｂ_ｉ−ｍ_ｉ）であるような側面の傾斜が選択される。

より詳しくは、時点ｍ_ｉおよびｍ_ｊは、それらが第１小節の時間に対応するように選択される。これらの条件のもとで、いわゆる「整列された」ビート同期された重畳／加算が効果的に取得される。
したがって、第１楽節および／または第２楽節の拍子をさらに決定することによって、遅延のないビート同期された再作成を実行することができる。さらに、第１および第２区間が、第１小節の時間で開始するように選択されるならば、このビート同期された再作成は整列される。

信号［数２］の再作成は、結合された２つより多くの楽節に基づいて行うことが可能であることが示される。ｉ個の楽節（ｉ＞２）について、上記の方法の一般化は次の関係式に表わされる。

各整数ｋ_ｊ’はｋ_ｊ’Ｔ≦Ｌ_ｊ−（ｂ_ｊ−ｍ_ｊ）であるような最大の整数として定義され、Ｌ_ｊは結合されたｊ番目の楽節の窓の幅に対応する。

例えば、既存のソフトウェアアプリケーションを用いることによって、第１小節の時間、拍子、楽曲のテンポを自動的に検出することが可能であることが示される。例えば、ＭＰＥＧ−７標準（オーディオバージョン２）は、そのようなソフトウェアアプリケーションを用いることによって、楽曲のテンポおよび拍子の決定および記述を提供する。

もちろん、本発明は例示によって上述した実施形態に限定されず、他の変形に拡張される。
したがって、サウンドレジュメは２つより多くの楽節、例えば、序奏、歌詞、旋律、または、序奏および旋律のような、歌詞および旋律とは異なる２つの楽節を含むことが可能である。
また、図５のフローチャートに表わされたステップは、コンピュータソフトウェアによって実現することが可能であることに留意すべきであり、そのアルゴリズムが全体としてフローチャートの構造を呼び出す。この点で、本発明はそのようなコンピュータプログラムをも目的とする。

例示された娯楽的な流行曲に対応する楽曲のオーディオ信号を表わす。図１ａに表わされた楽曲のオーディオ信号について、時間の関数としてスペクトルエネルギーの変化を表わす。図１ａの楽曲において繰り返される各種の楽節によって占められる期間を表わす。上述した一連のステップｄ１）からｄ３）による、これらの２つの部分の結合を作成するために、楽曲の２つのそれぞれの部分から選択された時間窓を図式的に表わす。重畳／加算によって２つの部分の結合を作成するために、楽曲の上記のそれぞれの部分から選択された区間ｓ_ｉ（ｔ）、ｓ_ｊ（ｔ）を図式的に表わす。上記の重畳／加算を下記の記号によって図式的に表わす。

上記結合のための好ましい形状および幅の時間窓を表わす。本発明の好ましい実施形態においてサウンドシーケンスを処理するためのフローチャートを表わす。

符号の説明

ＰＤ動的パラメータ
ＣＯＬ参照カラム

Claims

サウンドシーケンスを処理する方法であって、
ａ）前記サウンドシーケンスにおける時間の関数として変化するスペクトル係数を取得するために、前記サウンドシーケンスにスペクトル変換を適用するステップを有する、サウンドシーケンスを処理する方法において、
ｂ）前記スペクトル係数の統計分析によって前記サウンドシーケンスにおいて繰り返される少なくとも１つのサブシーケンスを決定するステップと、
ｃ）前記サウンドシーケンスにおける前記サブシーケンスの開始時点および終了時点を求めるステップと、
をさらに有することを特徴とするサウンドシーケンスを処理する方法。
ｄ）前記サブシーケンスの代表となるサウンドサンプルをメモリに記憶するために、前記サブシーケンスを抽出するステップをさらに有することを特徴とする請求項１に記載の方法。
前記抽出するステップｄ）は、前記サウンドシーケンスにおいて期間が最も大きい少なくとも１つのサブシーケンス、および／または、前記サウンドシーケンスにおいて繰り返しの回数が最も大きい少なくとも１つのサブシーケンスに関して行われることを特徴とする請求項２に記載の方法。
前記サウンドシーケンスは、少なくとも序奏、歌詞、旋律、ブリッジウェイ、主旋律、モチーフ、または楽章の中からの一連のサブシーケンスを含む楽曲であり、
前記ステップｃ）において、少なくとも、第１サブシーケンスおよび第２サブシーケンスのそれぞれの開始時点および終了時点を決定することを特徴とする請求項１から３のいずれか１項に記載の方法。
前記第１サブシーケンスは歌詞に対応し、かつ前記第２サブシーケンスは旋律に対応することを特徴とする請求項３と組み合わされた請求項４に記載の方法。
前記ステップｄ）は、少なくとも前記第２サブシーケンスと一続きの前記第１サブシーケンスを含む前記楽曲のサウンドレジュメを記憶媒体に取得するために、前記第１および第２サブシーケンスを抽出することを特徴とする請求項２と組み合わされた請求項４および５のいずれか１項に記載の方法。
前記抽出されたサブシーケンスは時間が隣接せず、
ｄ１）前記第１サブシーケンスの少なくとも１つの終了区間および前記第２サブシーケンスの少なくとも１つの開始区間とともに、終止形において小節の平均期間を求めるために、前記第１サブシーケンスおよび／または前記第２サブシーケンスの少なくとも１つの終止形を検出するステップをさらに有し、
前記サウンドシーケンスは整数個の前記平均期間に分離され、前記終了区間および前記開始区間のそれぞれの期間は前記平均期間に対応し、
ｄ２）少なくとも前記終了区間および前記開始区間のサウンドサンプルを含み、かつ前記平均期間に対応する期間の少なくとも１つの転調小節を生成するステップと、
ｄ３）前記第１サブシーケンスおよび前記第２サブシーケンスの一続きになったものを取得するために、前記第１サブシーケンス、１つまたは複数の前記転調小節および前記第２サブシーケンスを結合するステップと、
をさらに有することを特徴とする請求項６に記載の方法。
前記ステップｄ１）は、矩形型、ハニング型、階段ハニング型、または、時間にわたって上昇側面、平坦、下降側面を含む型の少なくとも２つの窓を切り取るステップを有することを特徴とする請求項７に記載の方法。
前記ステップｄ２）は、ビート同期された再作成を含むことを特徴とする請求項７および８のいずれか１項に記載の方法。
前記ステップｄ１）は、前記第１サブシーケンスおよび／または前記第２サブシーケンスの拍子を決定し、
前記ステップｄ２）は、遅延のないビート同期された再作成を含むことを特徴とする請求項９に記載の方法。
前記ステップｄ１）は、前記終了区間および前記開始区間が第１小節の時間で開始するように決定され、
前記ステップｄ２）は、整列されたビート同期された再作成を含むことを特徴とする請求項９および１０のいずれか１項に記載の方法。
コンピュータのメモリ、またはコンピュータの読み取り装置と協働する着脱式の媒体に記憶されたコンピュータプログラム製品であって、
請求項１から１１のいずれか１項に記載の方法のステップを実行するための命令を含むコンピュータプログラム製品。