JP2023153801A

JP2023153801A - シームレスなオーディオ混合のための方法、システム、および媒体

Info

Publication number: JP2023153801A
Application number: JP2023114617A
Authority: JP
Inventors: ミッシェル・コヴェル; Covell Michele; シュミート・バルージャ; Baluja Shumeet
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2019-12-02
Filing date: 2023-07-12
Publication date: 2023-10-18
Also published as: US11195553B2; KR102653938B1; US20210166731A1; KR20220110796A; CN114746938A; JP7314414B2; US11670338B2; EP4038610A1; JP2022550218A; US20220093130A1; US20230307003A1; WO2021112813A1; KR20240046635A

Abstract

【課題】2つのオーディオアイテムの間を円滑に移行するための方法を提供する。【解決手段】プレイリスト中のオーディオアイテムの間を円滑に移行するための方法は、第1のオーディオアイテム、および続いてプレイされる第2のオーディオアイテムを含む、プレイリスト中のオーディオアイテムのシーケンスを識別するステップと、第1のオーディオアイテムの末尾部分に対応する第1のスペクトログラムおよび第2のオーディオアイテムの冒頭部分に対応する第2のスペクトログラムを生成するステップと、周波数帯域内の周波数の振幅が、第1のスペクトログラムの末尾部分にわたって第1のスペクトログラム内で低下し、第2のスペクトログラムの冒頭部分にわたって第2のスペクトログラム内で増大するように、一連の周波数帯域の中の各周波数帯域について、第1のスペクトログラムの末尾部分および第2のスペクトログラムの冒頭部分を修正するステップと、を含む。【選択図】図１

Description

開示する主題は、2つのオーディオアイテムの間のシームレスなオーディオ混合のための方法、システム、および媒体に関する。開示する主題は、たとえば、音声合成システムにおいて適用され得る。

音声合成システムが、ますます使われるようになっている。いくつかの音声合成システムは、1つの単語または複数の単語などの音単位を表す、あらかじめ記録されたオーディオセグメントを使って動作する。複数のオーディオセグメントが、音声合成システムから出力オーディオフレーズを生じるように結合(または「連結」)される。出力フレーズの範囲が変えられ、もしくは広げられるように、または既存のあらかじめ記録されたセグメントのうちの1つを訂正し、もしくは置き換えるように、あらかじめ記録されたオーディオセグメントを音声合成システムにさらに追加することが望ましいことがあるが、新たなセグメントのテンポおよび音量が既存のオーディオセグメントのテンポおよび音量と一致するように、これを行うのは難しく、むしろ、移行はしばしば、聞き手にとって気づくことができる。これは、音声合成システムによって生成される出力オーディオの品質を低下させる場合があり、たとえば、出力フレーズが、ユーザが正確に理解するのが難しくなることにつながり得る。その上、現在のシステムは、特に、2つのオーディオセグメントの間の異なるエネルギー情報を軽視している。

したがって、音声合成システムのための音声セグメントなど、2つのオーディオアイテムの間のシームレスなオーディオ混合のための新規の方法、システム、および媒体を提供することが望ましい。

オーディオアイテムの間のシームレスなオーディオ混合のための方法、システム、および媒体が提供される。

開示する主題のいくつかの実施形態によると、プレイリスト中のオーディオアイテムの間を移行するための方法が提供され、この方法は、オーディオアイテムのプレイリスト中のオーディオアイテムのシーケンスを識別するステップであって、オーディオアイテムのシーケンスは、第1のオーディオアイテム、および第1のオーディオアイテムに続いてプレイされることになる第2のオーディオアイテムを含む、ステップと、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分を修正するステップであって、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分は、第1のオーディオアイテムと第2のオーディオアイテムとの間を移行するように同時にプレイされることになり、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分はオーバーラップ持続時間を有する、ステップとを含み、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分を修正するステップは、第1のオーディオアイテムの末尾部分に対応する第1のスペクトログラムおよび第2のオーディオアイテムの冒頭部分に対応する第2のスペクトログラムを生成するステップと、一連の周波数帯域中の各周波数帯域について、第1のオーディオアイテムの末尾部分内の第1のスペクトログラムおよび第2のオーディオアイテムの冒頭部分内の第2のスペクトログラムが特定の相互相関を有するウィンドウを識別するステップと、周波数帯域内の周波数の振幅が、第1のスペクトログラムの末尾部分にわたって第1のスペクトログラム内で低下し、周波数帯域内の周波数の振幅が、第2のスペクトログラムの冒頭部分にわたって第2のスペクトログラム内で増大するように、一連の周波数帯域の中の各周波数帯域について、第1のスペクトログラムの末尾部分および第2のスペクトログラムの冒頭部分を修正するステップと、第1のスペクトログラムの修正された末尾部分に基づいて、第1のオーディオアイテムの修正された末尾部分を含む、第1のオーディオアイテムの修正バージョンを生成し、第2のスペクトログラムの修正された冒頭部分に基づいて、第2のオーディオアイテムの修正された冒頭部分を含む、第2のオーディオアイテムの修正バージョンを生成するステップとを含む。

いくつかの実施形態では、方法は、第1のスペクトログラムおよび第2のスペクトログラムに基づいてオーバーラップ持続時間を識別するステップをさらに含む。

いくつかの実施形態では、一連の周波数帯域の中の各周波数帯域について、第1のオーディオアイテムの末尾部分内の第1のスペクトログラムおよび第2のオーディオアイテムの冒頭部分内の第2のスペクトログラムが高い相互相関を有するウィンドウを識別するステップは、最も低い周波数帯域内の第1のスペクトログラムの末尾部分および第2のスペクトログラムの冒頭部分の相互相関に基づいて、一連の周波数帯域の中の最も低い周波数帯域に対する第1のウィンドウを識別するステップと、最も低い周波数帯域に隣接する周波数帯域内の第1のスペクトログラムの末尾部分および第2のスペクトログラムの冒頭部分の相互相関に基づいて、最も低い周波数帯域に隣接する周波数帯域に対する第2のウィンドウを識別するステップであって、第2のウィンドウは第1のウィンドウよりも短い、ステップとを含む。

いくつかの実施形態では、第2のウィンドウは第1のウィンドウとオーバーラップする。

いくつかの実施形態では、第2のオーディオアイテムの修正された冒頭部分と重ねられた、第1のオーディオアイテムの修正された末尾部分のスペクトログラムの位相は、オーバーラップの冒頭部分において第1のオーディオアイテムの位相と一致し、オーバーラップの末尾部分において第2のオーディオアイテムの位相と一致する。

いくつかの実施形態では、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分を修正するステップは、第1のオーディオアイテムの末尾部分の間の第1のオーディオアイテムのテンポ、および第2のオーディオアイテムの冒頭部分の間の第2のオーディオアイテムのテンポを修正するステップを含む。

いくつかの実施形態では、第1のオーディオアイテムの末尾部分の間の第1のオーディオアイテムのテンポ、および第2のオーディオアイテムの冒頭部分の間の第2のオーディオアイテムのテンポを修正することは、第1のオーディオアイテムの末尾部分の間の第1のオーディオアイテムのテンポが、第2のオーディオアイテムの冒頭部分の間の第2のオーディオアイテムのテンポとは、所定の閾を超えて異なると判断したことに応答する。

いくつかの実施形態では、ユーザデバイスによってオーディオアイテムのプレイリストを生じさせることは、オーバーラップ持続時間の指示に関連して、第1のオーディオアイテムの修正バージョンおよび第2のオーディオアイテムの修正バージョンをユーザデバイスへ送信することを含む。

いくつかの実施形態では、方法は、オーディオアイテムのプレイリストの識別子に関連して、第1のオーディオアイテムの修正バージョンおよび第2のオーディオアイテムの修正バージョンを記憶するステップをさらに含む。

いくつかの実施形態では、方法は、ユーザデバイスから、オーディオアイテムのプレイリストを提示するための要求を受信するステップと、オーディオアイテムのプレイリストをユーザデバイスによって提示させるステップであって、オーディオアイテムのプレイリストを提示することは、第1のオーディオアイテムの修正バージョンおよび第2のオーディオアイテムの修正バージョンを提示することを含み、第1のオーディオアイテムの修正バージョンの修正された末尾部分は、第2のオーディオアイテムの修正バージョンの修正された冒頭部分と同時にプレイされる、ステップとをさらに含む。

開示する主題のいくつかの実施形態によると、プレイリスト中のオーディオアイテムの間を移行するためのシステムが提供され、システムはメモリとハードウェアプロセッサとを備え、ハードウェアプロセッサは、メモリ中のコンピュータ実行可能命令を実行するとき、オーディオアイテムのプレイリスト中のオーディオアイテムのシーケンスを識別することであって、オーディオアイテムのシーケンスは、第1のオーディオアイテム、および第1のオーディオアイテムに続いてプレイされることになる第2のオーディオアイテムを含む、ことと、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分を修正することとを行うように構成され、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分は、第1のオーディオアイテムと第2のオーディオアイテムとの間を移行するように同時にプレイされることになり、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分はオーバーラップ持続時間を有し、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分を修正することは、第1のオーディオアイテムの末尾部分に対応する第1のスペクトログラムおよび第2のオーディオアイテムの冒頭部分に対応する第2のスペクトログラムを生成することと、一連の周波数帯域中の各周波数帯域について、第1のオーディオアイテムの末尾部分内の第1のスペクトログラムおよび第2のオーディオアイテムの冒頭部分内の第2のスペクトログラムが特定の相互相関を有するウィンドウを識別することと、周波数帯域内の周波数の振幅が、第1のスペクトログラムの末尾部分にわたって第1のスペクトログラム内で低下し、周波数帯域内の周波数の振幅が、第2のスペクトログラムの冒頭部分にわたって第2のスペクトログラム内で増大するように、一連の周波数帯域の中の各周波数帯域について、第1のスペクトログラムの末尾部分および第2のスペクトログラムの冒頭部分を修正することと、第1のスペクトログラムの修正された末尾部分に基づいて、第1のオーディオアイテムの修正された末尾部分を含む、第1のオーディオアイテムの修正バージョンを生成し、第2のスペクトログラムの修正された冒頭部分に基づいて、第2のオーディオアイテムの修正された冒頭部分を含む、第2のオーディオアイテムの修正バージョンを生成することとを含む。

開示する主題のいくつかの実施形態によると、プロセッサによって実行されると、プロセッサに、プレイリスト中のオーディオアイテムの間を移行するための方法を実施させるコンピュータ実行可能命令を含むコンピュータ可読媒体が提供され、この方法は、オーディオアイテムのプレイリスト中のオーディオアイテムのシーケンスを識別するステップであって、オーディオアイテムのシーケンスは、第1のオーディオアイテム、および第1のオーディオアイテムに続いてプレイされることになる第2のオーディオアイテムを含む、ステップと、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分を修正するステップであって、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分は、第1のオーディオアイテムと第2のオーディオアイテムとの間を移行するように同時にプレイされることになり、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分はオーバーラップ持続時間を有する、ステップとを含み、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分を修正するステップは、第1のオーディオアイテムの末尾部分に対応する第1のスペクトログラムおよび第2のオーディオアイテムの冒頭部分に対応する第2のスペクトログラムを生成するステップと、一連の周波数帯域中の各周波数帯域について、第1のオーディオアイテムの末尾部分内の第1のスペクトログラムおよび第2のオーディオアイテムの冒頭部分内の第2のスペクトログラムが特定の相互相関を有するウィンドウを識別するステップと、周波数帯域内の周波数の振幅が、第1のスペクトログラムの末尾部分にわたって第1のスペクトログラム内で低下し、周波数帯域内の周波数の振幅が、第2のスペクトログラムの冒頭部分にわたって第2のスペクトログラム内で増大するように、一連の周波数帯域の中の各周波数帯域について、第1のスペクトログラムの末尾部分および第2のスペクトログラムの冒頭部分を修正するステップと、第1のスペクトログラムの修正された末尾部分に基づいて、第1のオーディオアイテムの修正された末尾部分を含む、第1のオーディオアイテムの修正バージョンを生成し、第2のスペクトログラムの修正された冒頭部分に基づいて、第2のオーディオアイテムの修正された冒頭部分を含む、第2のオーディオアイテムの修正バージョンを生成するステップとを含む。コンピュータ可読媒体は、非一時的媒体であってよいが、それに限定されない。

開示する主題のいくつかの実施形態によると、プレイリスト中のオーディオアイテムの間を移行するためのシステムが提供され、このシステムは、オーディオアイテムのプレイリスト中のオーディオアイテムのシーケンスを識別するための手段であって、オーディオアイテムのシーケンスは、第1のオーディオアイテム、および第1のオーディオアイテムに続いてプレイされることになる第2のオーディオアイテムを含む、手段と、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分を修正するための手段とを備え、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分は、第1のオーディオアイテムと第2のオーディオアイテムとの間を移行するように同時にプレイされることになり、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分はオーバーラップ持続時間を有し、第1のオーディオアイテムの末尾部分および第2のオーディオアイテムの冒頭部分を修正するための手段は、第1のオーディオアイテムの末尾部分に対応する第1のスペクトログラムおよび第2のオーディオアイテムの冒頭部分に対応する第2のスペクトログラムを生成するための手段と、一連の周波数帯域中の各周波数帯域について、第1のオーディオアイテムの末尾部分内の第1のスペクトログラムおよび第2のオーディオアイテムの冒頭部分内の第2のスペクトログラムが特定の相互相関を有するウィンドウを識別するための手段と、周波数帯域内の周波数の振幅が、第1のスペクトログラムの末尾部分にわたって第1のスペクトログラム内で低下し、周波数帯域内の周波数の振幅が、第2のスペクトログラムの冒頭部分にわたって第2のスペクトログラム内で増大するように、一連の周波数帯域の中の各周波数帯域について、第1のスペクトログラムの末尾部分および第2のスペクトログラムの冒頭部分を修正するための手段と、第1のスペクトログラムの修正された末尾部分に基づいて、第1のオーディオアイテムの修正された末尾部分を含む、第1のオーディオアイテムの修正バージョンを生成し、第2のスペクトログラムの修正された冒頭部分に基づいて、第2のオーディオアイテムの修正された冒頭部分を含む、第2のオーディオアイテムの修正バージョンを生成するための手段とを備える。

ある実装形態では、システムは音声合成システムであってよい。

開示する主題のいくつかの実施形態によると、プレイリスト中のオーディオアイテムの間を移行するためのシステムが提供され、このシステムは、メモリとハードウェアプロセッサとを備え、ハードウェアプロセッサは、メモリ中のコンピュータ実行可能命令を実行するとき、本明細書に記載するいずれかの態様または実施形態による方法を実施するように構成される。

開示する主題のいくつかの実施形態によると、コンピュータ可読媒体が提供され、コンピュータ可読媒体はコンピュータ実行可能命令を含み、コンピュータ実行可能命令は、プロセッサによって実行されると、プロセッサに、本明細書に記載するいずれかの態様または実施形態による方法を実施させる。コンピュータ可読媒体は、非一時的媒体であってよいが、それに限定されない。

例として、オーディオアイテムは、音声合成システム用の音声セグメント(たとえば、あらかじめ記録された音声セグメント)であってよい。プレイリストは、音声セグメントを、所望の可聴出力フレーズを与えるように音声合成システムによって音声セグメントが再現されるために、所望される順序で並べる。

開示する方法、システム、および媒体はただし、音声合成システムとの使用に限定されるのではなく、本開示の原理は、多くの可能適用例を有する。別の例として、オーディオアイテムは歌であってよい。プレイリストは、歌が再現/プレイされるために所望される順序で、歌を並べる。

開示する主題の様々な目的、特徴、および利点は、同様の参照番号が同様の要素を特定する以下の図面に関連して検討されると、開示する主題の以下の詳細な説明を参照してより完全に理解され得る。

開示する主題のいくつかの実施形態による、プレイリスト中のオーディオアイテムの間の移行を伴う、オーディオアイテムのプレイリストを生成し、提示するためのプロセスの、説明のための例を示す図である。開示する主題のいくつかの実施形態による、2つのオーディオアイテムの間の移行を発生させるためのプロセスの説明のための例を示す図である。開示する主題のいくつかの実施形態による、現在のオーディオアイテムセグメントおよび次のオーディオアイテムセグメントについての相関係数およびテンポ測度曲線の、説明のための例を示す図である。開示する主題のいくつかの実施形態による、現在のオーディオアイテムセグメントと次のオーディオアイテムセグメントとの間を移行するための再生速度プロファイルの、説明のための例を示す図である。開示する主題のいくつかの実施形態による、現在のオーディオアイテムセグメントおよび次のオーディオアイテムセグメントの整合されたスペクトルセクションがオーバーラップされ、現在のオーディオアイテムセグメントおよび次のオーディオアイテムセグメントの整合されたスペクトルセクションを混合するのに、マスクされた部分が使われる、整合されたスペクトログラムのカービングの、説明のための例を示す図である。開示する主題のいくつかの実施形態による、2つのオーディオアイテムの間の混合移行の、説明のための例を示す図である。開示する主題のいくつかの実施形態による、2つのオーディオアイテムの間の混合移行の、説明のための例を示す図である。開示する主題のいくつかの実施形態による、2つのオーディオアイテムの間の混合移行の、説明のための例を示す図である。開示する主題のいくつかの実施形態による、2つのオーディオアイテムの間の混合移行の、説明のための例を示す図である。開示する主題のいくつかの実施形態による、プレイリスト中のオーディオアイテムの間のシームレスなオーディオ混合のための、本明細書に記載する機構の実装に適した例示的システムの概略図である。開示する主題のいくつかの実施形態による、図7のサーバおよび/またはユーザデバイスにおいて使用され得るハードウェアの詳細な例を示す図である。

様々な実施形態に従って、プレイリスト中のオーディオアイテムの間のシームレスなオーディオ混合のための機構(方法、システム、および媒体を含み得る)が提供される。

概して、機構は、第1のオーディオアイテムから第2のオーディオアイテムへ特定の周波数を移行させるべき時間を指示するための、第1のオーディオアイテムの末尾部分と第2のオーディオアイテムの冒頭部分との間の視覚的シームカービングによる、順序つきプレイリスト中のオーディオアイテムの間を移行することに関する。

いくつかの実施形態では、本明細書に記載する機構は、第1のオーディオアイテムAが第2のオーディオアイテムBへ円滑に移行するような、プレイリスト中の2つのオーディオアイテムの間の円滑な移行を発生させることができる。いくつかの実施形態では、オーディオアイテムAとオーディオアイテムBとの間の円滑な移行は、任意の適切なタイプの移行を含み得る。たとえば、いくつかの実施形態では、本明細書に記載する機構は、オーディオアイテムAの末尾部分がオーディオアイテムBの冒頭部分の上にオーバーラップされるか、またはそうでなければ位置決めされると、(1)オーディオアイテムAおよびBのオーバーラップ部分がテンポおよび/または拍を一致させられ、また、(2)オーバーラップ部分中にオーディオアイテムAの音量が低下し、オーディオアイテムBの音量が増大するような、オーディオアイテムAおよびオーディオアイテムBの修正バージョンを生成することができる。

便宜上、さらなる詳細な説明では、オーディオアイテムが歌である実施形態に言及するが、述べるように、本発明はこれに限定されず、記載する方法、システム、および媒体は原則として、他のオーディオアイテムで適用されてよい。

より具体的な例として、いくつかの実施形態では、本明細書に記載する機構は、歌Aの末尾部分から歌Bの冒頭部分までのテンポを一致させるのにテンポ分析を使うこと、歌Aの末尾部分の拍を歌Bの冒頭部分の拍に整合するのに拍分析を使うこと、歌Aの末尾部分の音量を歌Bの冒頭部分に向けてフェードすること、および/または任意の他の適切なタイプの移行によって、歌Aが歌Bに移行するように、歌Aおよび歌Bの修正バージョンを生成することができる。この例を続けると、本明細書に記載する機構は、各周波数領域内のエネルギー一致の質に基づいて、歌Aおよび歌Bの整合されたスペクトログラムをカービングすることを含み得る。いくつかの実施形態では、本明細書に記載する機構は、歌の各々の間の円滑な移行が発生されるように、プレイリストに含まれる歌のシーケンスを繰り返し得る。いくつかの実施形態では、プレイリストの歌の間の円滑な移行を含む修正されたプレイリストが、図1に示し、それに関連して以下で説明するように、ユーザデバイス上での再生のために、ユーザデバイスに与えられ得る。

いくつかの実施形態では、本明細書に記載する機構は、適切な任意のやり方で、および任意の適切な技法を使って、2つの歌の間の円滑な移行を発生させることができる。たとえば、図2に示し、それに関連して以下で説明するように、いくつかの実施形態では、機構は、最も類似している、歌Aのスペクトログラムおよび歌Bのスペクトログラムの部分を識別したことに基づいて、第1の歌Aの末尾部分の持続時間と、歌Aと歌Bとの間の移行中に歌Aおよび歌Bがオーバーラップすることになる、第2の歌Bの冒頭部分の持続時間とを決定することができる。別の例として、いくつかの実施形態では、機構は、歌Aおよび歌Bの識別されたオーバーラップ部分中の、歌Aおよび歌Bのテンポを修正することができる。さらに別の例として、いくつかの実施形態では、機構は、歌Aの振幅が移行中にフェードまたは低下し、歌Bの振幅が移行中に上昇または増大するように、歌Aと歌Bとの間の移行を発生させることができる。より具体的な例として、いくつかの実施形態では、機構は、図2に示し、それに関連して以下で説明するように、すべての周波数に対して同じように移行中に振幅を変えるのではなく、異なる周波数帯域中で、異なるように、歌Aの振幅が移行中に低下し、歌Bの振幅が移行中に増大するように、移行を発生させることができる。

図1に移ると、プレイリスト中の歌の間の移行を伴う、歌のプレイリストを生成し、提示するためのプロセスの、説明のための例100が、開示する主題のいくつかの実施形態に従って示されている。いくつかの実施形態では、プロセス100のブロックは、任意の適切なデバイスによって実行されてよい。たとえば、いくつかの実施形態では、プロセス100のブロックは、オーディオコンテンツアイテム(たとえば、歌、歌のプレイリスト、および/または任意の他の適切なオーディオコンテンツアイテム)を記憶し、かつ/またはユーザデバイスに提供するサーバによって実行され得る。より具体的な例として、いくつかの実施形態では、プロセス100のブロックは、メディアコンテンツ共有サービス、ソーシャルネットワーキングサービス、および/または任意の他の適切なサーバに関連付けられたサーバによって実行され得る。

プロセス100は初めに、102において、歌のプレイリスト中の歌のシーケンスを識別し得る。いくつかの実施形態では、プロセス100は、歌のプレイリスト中の歌のシーケンスを、適切な任意のやり方で識別してよい。たとえば、いくつかの実施形態では、プロセス100は、プレイリストに含まれる歌のグループの識別子と、歌のグループの中の歌が提示されることになるシーケンスまたは順序とを指示する、歌のプレイリストを識別し得る。いくつかの実施形態では、歌のプレイリストは、任意の適切なエンティティによって作成されてよいことに留意されたい。たとえば、いくつかの実施形態では、歌のプレイリストは、特定のユーザアカウントに関連付けられているユーザ生成プレイリストであってよい。別の例として、いくつかの実施形態では、歌のプレイリストは、アーティストまたはコンテンツクリエータによって作成されてよく、アーティストまたはコンテンツクリエータに関連付けられたチャネルに関連して記憶され、かつ/または与えられてよい。さらに、いくつかの実施形態では、歌のプレイリストは、任意の適切な数の歌(たとえば、2、3、5、10、20、および/または任意の他の適切な数)を含み得ることに留意されたい。

104において、プロセス100は、歌のシーケンス中の第1の歌の末尾部分と、歌のシーケンス中の第1の歌に続いて含まれる第2の歌の冒頭部分とを修正し得る。いくつかの実施形態では、プロセス100は、第1の歌の末尾部分および第2の歌の冒頭部分が同時にプレイされると、第1の歌から第2の歌に円滑に移行するように、第1の歌の末尾部分および第2の歌の冒頭部分を修正し得る。いくつかの実施形態では、同時にプレイされることになる第1の歌の末尾部分および第2の歌の冒頭部分は、本明細書ではオーバーラップと呼ばれることがあることに留意されたい。

いくつかの実施形態では、プロセス100は、第1の歌と第2の歌との間の円滑な移行を発生させるように、第1の歌の末尾部分および第2の歌の冒頭部分を、適切な任意のやり方で修正してよい。たとえば、いくつかの実施形態では、プロセス100は、第1の歌の末尾部分および第2の歌の冒頭部分が同様のテンポを有するように、第1の歌の末尾部分および第2の歌の冒頭部分を修正してよい。別の例として、いくつかの実施形態では、プロセス100は、第1の歌の末尾部分の拍が、第2の歌の冒頭部分の拍と整合されるように、第1の歌の末尾部分および第2の歌の冒頭部分を修正してよい。さらに別の例として、いくつかの実施形態では、プロセス100は、第1の歌から第2の歌への移行中に第1の歌が第2の歌にフェードするように、第1の歌の末尾部分の振幅および第2の歌の冒頭部分の振幅を修正してよい。より具体的な例として、いくつかの実施形態では、プロセス100は、同じ時間におけるすべての周波数にわたる振幅移行よりも知覚できない振幅移行を行うために、異なる時点における異なる周波数帯域の振幅を修正することによって、第1の歌の末尾部分の振幅および第2の歌の冒頭部分の振幅を修正してよい。第1の歌の末尾部分および第2の歌の冒頭部分を修正するための、より具体的な技法を、図2に示し、それと関連して以下で説明することに留意されたい。

106において、プロセス100は、修正された歌(たとえば、第1の歌の修正された末尾部分をもつ第1の歌および第2の歌の修正された冒頭部分をもつ第2の歌)を、プレイリストの修正バージョンに関連して記憶することができる。いくつかの実施形態では、プロセス100は、プレイリストの修正バージョンに関連して、修正された歌を適切な任意のやり方で記憶してよい。たとえば、いくつかの実施形態では、プロセス100は、プレイリストの修正バージョンに対応する新たなプレイリストを生成または初期化し得る。いくつかのそのような実施形態では、新たなプレイリストは、プレイリストの修正バージョンを元のプレイリストに関連付ける識別子を有し得る。別の例として、いくつかの実施形態では、プロセス100は、歌のプレイリスト中の第1の歌および第2の歌を、第1の歌の修正バージョンおよび第2の歌の修正バージョンで置き換え得る。さらに別の例として、いくつかの実施形態では、プロセス100は、歌のプレイリストをプレイするユーザデバイスが、オーバーラップに対応する第2の歌の冒頭部分が、オーバーラップに対応する第1の歌の末尾部分と同時にプレイされるように第2の歌の提示を始めることができるような、第1の歌と第2の歌との間のオーバーラップの持続時間(たとえば、第1の歌の末尾部分の持続時間および第2の歌の冒頭部分の持続時間)の指示を記憶すればよい。

いくつかの実施形態では、プロセス100は、ループして104に戻ってよく、第2の歌と第3の歌との間のシームレスな移行を発生させるように、第2の歌の末尾部分と、プレイリストの歌のシーケンス中の第3の歌の冒頭部分とを修正し得る。いくつかの実施形態では、プロセス100は、プレイリスト中の連続する歌の間の移行を発生させるように歌のプレイリスト中の歌の各々が修正されるまで、104および106をループしてよい。

いくつかの実施形態では、プレイリストに新たな歌が挿入されたこと(または、プレイリストの順序が変えられ、異なる歌が第2の歌に続くこと)を検出したことに応答して、プロセス100は104にループして戻ってよく、第2の歌と新たに追加された歌との間のシームレスな移行を発生させるように、第2の歌の末尾部分および新たな歌の冒頭部分を修正すればよい。

108において、プロセス100は、プレイリスト中の歌のシーケンスを提示するための要求を、ユーザデバイスから受信し得る。いくつかの実施形態では、プロセス100は、ユーザデバイスから要求を、適切な任意のやり方で受信してよい。たとえば、いくつかの実施形態では、プロセス100は、プレイリストに関連付けられたアイコンまたはリンクが、ユーザデバイス上に提示されるユーザインターフェースを介して選択されたという指示を受信し得る。

110において、プロセス100は、要求を受信したことに応答して、プレイリストの修正バージョンの修正された歌を、ユーザデバイスによって提示させることができる。いくつかの実施形態では、プロセス100は、ユーザデバイスによって提示されることになるプレイリストの修正バージョンの修正された歌を、適切な任意のやり方で送信してよい。たとえば、いくつかの実施形態では、プロセス100は、修正された歌をユーザデバイスへ、適切な任意のやり方で、および任意の適切な技法を使ってストリーミングしてよい。別の例として、いくつかの実施形態では、プロセス100は、プレイリストに含まれる歌が、ユーザデバイス上での記憶およびユーザデバイスによる提示のために、ユーザデバイスにダウンロードされるようにし得る。いくつかの実施形態では、プロセス100は、プレイリストの修正バージョンの提示中に2つの連続する修正された歌がオーバーラップされるべきである時間を指示する、プレイリストの修正バージョンの中の連続する修正された歌の間の各移行のためのオーバーラップ持続時間の指示を送信し得ることに留意されたい。

いくつかの実施形態では、ユーザデバイスは、提示されるべきプレイリストの修正バージョンの修正された歌を、適切な任意のやり方で提示してよい。たとえば、いくつかの実施形態では、ユーザデバイスは、プレイリストの第1の歌に、提示を始めさせる場合がある。この例を続けると、いくつかの実施形態では、ユーザデバイスは、第1の歌の終わりがプレイリスト中の次の歌の冒頭部分と同時にプレイされることになるオーバーラップ持続時間を識別することができる。この例をさらに続けると、いくつかの実施形態では、ユーザデバイスは、第1の歌の再生においてオーバーラップ持続時間が残っていると判断したことに応答して、プレイリスト中の次の歌の提示を始めればよく、第1の歌の残りを第2の歌の冒頭部分と同時にプレイすればよい。いくつかの実施形態では、ユーザデバイスは、プレイリストの修正バージョンの修正された歌を、修正された歌の再生を調節するための任意の適切な制御(たとえば、再生位置を巻き戻す、再生位置を早送りする、歌をリプレイする、音量を調節する、および/または任意の他の適切な制御)を含む任意の適切なメディアコンテンツプレーヤを使って提示してよいことに留意されたい。

図2に移ると、2つの歌の間の移行を発生させるためのプロセスの、説明のための例200が、開示する主題のいくつかの実施形態に従って示される。いくつかの実施形態では、プロセス200のブロックは、任意の適切なデバイスによって実行されてよい。たとえば、いくつかの実施形態では、プロセス200のブロックは、メディアコンテンツを記憶し、かつ/またはユーザデバイスに提供するサーバによって実行され得る。より具体的な例として、いくつかの実施形態では、プロセス200は、歌のプレイリストを記憶するサーバによって実行されてよく、サーバは、歌のプレイリストに含まれる歌の間の移行を修正するために、プロセス200のブロックを実行することができる。

プロセス200は始めに、202において、第1の歌Aおよび第2の歌Bを識別し得る。いくつかの実施形態では、プロセス200は、第1の歌Aおよび第2の歌Bを、適切な任意のやり方で識別してよい。たとえば、いくつかの実施形態では、プロセス200は、プレイリスト中の歌を繰り返すプロセスであってよく、プレイリスト中の歌の反復中に、プレイリストに含まれる歌の次のペアに対応する歌AおよびBを選択してよい。いくつかの実施形態では、歌Aおよび歌Bの各々が、任意の適切な持続時間(たとえば、10秒、30秒、1分、3分、5分、および/または任意の他の適切な持続時間)を有し得ることに留意されたい。

204において、いくつかの実施形態では、プロセス200は、歌Aと歌Bとの間の移行のための最小可能オーバーラップ持続時間N_minおよび最大可能オーバーラップ持続時間N_maxを選択し得る。図1に関連して上述したように、いくつかの実施形態では、オーバーラップ持続時間は、歌Aから歌Bへの移行中に同時にプレイされることになる、歌A(終わりに近づいている歌)の末尾部分の持続時間および歌B(間もなく始まる歌)の冒頭部分の持続時間を指示し得ることに留意されたい。いくつかのそのような実施形態では、最小可能オーバーラップ持続時間N_minは最短可能オーバーラップ持続時間を指示することができ、最大可能オーバーラップ持続時間N_maxは最長可能オーバーラップ持続時間を指示することができる。いくつかの実施形態では、N_minとN_maxとの間のオーバーラップ持続時間N_overlapは、214に関連して以下で説明するように、プロセス200によって選択され得ることに留意されたい。

いくつかの実施形態では、N_minおよびN_maxは任意の適切な持続時間に対応してよく、ここでN_minはN_max未満である。たとえば、いくつかの実施形態では、可能オーバーラップ持続時間は、3秒、5秒、10秒、20秒、および/または任意の他の適切な持続時間を含み得る。いくつかの実施形態では、プロセス200は、N_minおよびN_maxを適切な任意のやり方で選択してよい。たとえば、いくつかの実施形態では、N_minおよびN_maxは、歌Aおよび歌Bの持続時間に基づいて選択され得る。より具体的な例として、いくつかの実施形態では、プロセス200は、歌Aおよび/または歌Bの持続時間が比較的長い事例では(たとえば、歌Aおよび歌Bが拡張バージョン、および/または任意の他の適切な比較的長いバージョンである事例では)、N_minおよびN_max用に比較的大きい値を選択すればよい。別のより具体的な例として、いくつかの実施形態では、プロセス200は、歌Aおよび/または歌Bの持続時間が比較的短い、および/または標準的長さである事例では、N_minおよびN_max用に比較的小さい値を選択すればよい。

いくつかの実施形態では、プロセス200は、歌Aの末尾部分および/または歌Bの冒頭部分から無音をトリミングすることができ、そうすることによって、歌Aおよび歌Bの無音トリミングされた部分が得られることに留意されたい。プロセス200は、この無音トリミングを、オーバーラップ持続時間を選択するのに先立って、また、本明細書において後で記載するテンポ推定および整合に先立って実施してよいことにも留意されたい。たとえば、歌Aおよび/または歌Bの無音トリミングされた部分を取得した後、プロセス200は、歌Aの最後の40秒および歌Bの最初の40秒におけるスペクトログラムを計算することができる。

206において、プロセス200は、歌Aおよび歌Bのオーバーラップ中の、歌Aと歌Bとの間の最大許容再生速度変更を選択し得る。いくつかの実施形態では、最大許容再生速度変更は、歌Bの冒頭部分の間の歌Aおよび歌Bの末尾部分の間の歌Aの再生速度が、それらのリズムを一致させるために変えられ得る最大量を指示し得る。いくつかの実施形態では、最大許容再生速度変更は、任意の適切な割合(たとえば、2%、5%、8%、10%、および/または任意の他の適切な割合)に対応し得る。

208において、プロセス200は、歌Aの最後のN_max秒および歌Bの最初のN_max秒のためのスペクトログラムを算出し得る。いくつかの実施形態では、プロセス200は、スペクトログラムを、適切な任意のやり方で、および任意の適切な技法を使って算出してよい。たとえば、いくつかの実施形態では、プロセス200は、任意の適切な持続時間(たとえば、30ミリ秒、50ミリ秒、70ミリ秒、および/または任意の他の適切な持続時間)のスライスを使ってスペクトログラムを算出してよい。より具体的な例では、プロセス200は、因子が4でオーバーラップするハニングウィンドウ(Hanning window)による50ミリ秒のフレーム長(つまり、フレームの間の12.5ミリ秒きざみ)を使って、スペクトログラムを算出することができる。使われる高速フーリエ変換(FFT)サイズは、フレーム長の2倍よりも大きい、次の2の冪乗であってよい。たとえば、毎秒16,000サンプルというサンプルレートを使うと、FFTサイズは2,048に設定され得る。基底オーディオレートが毎秒16,000サンプルよりも大きい場合、反転プロセス中に使うためのスペクトログラムを生成するのに、全帯域幅変換が行われ得る。

別の例として、いくつかの実施形態では、プロセス200は、スライスの間の任意の適切なオーバーラップ率(たとえば、50%オーバーラップ、75%オーバーラップ、80%オーバーラップ、および/または任意の他の適切なオーバーラップ率)をもつスペクトログラムを算出することができる。いくつかの実施形態では、プロセス200は、任意の適切な技法もしくは技法の組合せを使って、たとえば、短時間フーリエ変換(STFT)を使うことによって、および/または任意の他の適切なやり方で、スペクトログラムを算出することができる。いくつかの実施形態では、スペクトログラムを算出するためのパラメータは、歌Aおよび歌Bの各々の中の拍の拍位置が、得られたスペクトログラム中で識別可能であるように選択されてよいことに留意されたい。

210において、プロセス200は、歌Aの最後のN_max秒(たとえば、歌Aの末尾部分)のテンポおよび歌Bの最初のN_max秒(たとえば、歌Bの冒頭部分)のテンポを決定し得る。このテンポ決定は、プロセス200が、たとえば、セグメント整合中に拍を一致させ得るように行われてよい。

いくつかの実施形態では、プロセス200は、任意の他の適切なやり方でテンポを決定することができる。たとえば、いくつかの実施形態では、プロセス200は、歌Aの最後のN_max秒のスペクトログラムの自己相関を算出することによって、歌Aの最後のN_max秒のテンポを算出することができ、歌Bの最初のN_max秒のスペクトログラムの自己相関を算出することによって、歌Bの最初のN_max秒のテンポを算出することができる。いくつかの実施形態では、プロセス200は、スペクトログラムの自己相関からテンポを、適切な任意のやり方で算出してよい。

たとえば、いくつかの実施形態では、プロセス200は、スペクトログラムの自己相関における周期性をテンポとして算出することができる。いくつかの実施形態では、プロセス200は、スペクトログラムの異なる周波数に対する自己相関を算出してよい。いくつかのそのような実施形態では、プロセス200は次いで、スペクトログラムの異なる周波数の自己相関の平均を算出することによって、平均自己相関を算出すればよい。この例を続けると、いくつかの実施形態では、プロセス200は、平均自己相関内の周期性を算出することによって、テンポを算出することができる。

いくつかの実施形態では、歌Aのスペクトログラムの最後のN_max秒および歌Bのスペクトログラムの最初のN_max秒を使って、それぞれ、歌Aの最後のN_max秒のテンポおよび歌Bの最初のN_max秒のテンポを算出するのではなく、いくつかの実施形態では、プロセス200は、歌Aの時間ドメインオーディオ信号の最後のN_max秒および歌Bの時間ドメインオーディオ信号の最初のN_max秒の自己相関を算出することによって、それぞれ、歌Aの最後のN_max秒のテンポおよび歌Bの最初のN_max秒のテンポを算出し得ることに留意されたい。

いくつかの実施形態では、プロセス200は、候補テンポのリストを判断するために、歌Aの最後のN_max秒および歌Bの最初のN_max秒を分析すればよい。たとえば、テンポを推定するために、プロセス200は、各セグメント遅れに対する相関係数、すなわちρ[l]で始めてよく、低調波強化された(sub-harmonically reinforced)差分テンポ測度、すなわちt[l]を、ρ[l]から計算することができ、これは、次のように表され得る。

テンポ測度は、lという第iの低調波中のρ[il]における強度差と、片側でのある期間内のρの最小値とを使うので、局所的に差分的であり、そうすることによって、自己相関関数において見られる主ローブ効果を低減し、半化テンポを抑制することに留意されたい。不変テンポがあるとき、この差分テンポ測度は、たとえば、図3に示すように、テンポピークを浮き彫りにすることができる。この差分測度を用いると、0.25は、強拍に対応すると見なすことができ、0.01より下は、弱いまたは変わりやすいテンポに対応すると見なすことができる。したがって、歌Aの最後のN_max秒(たとえば、歌Aの末尾部分)および歌Bの最初のN_max秒(たとえば、歌Bの冒頭部分)のテンポに対応するテンポ曲線の各々について、プロセス200は、遅れと、0.01を上回り、その最近傍遅れの両方を上回るピークの強度とを判断することができる。

図3に移ると、1拍1.04秒において最も顕著である差分テンポ測度を使って、現在の歌310の最終部分が0.016という弱テンポを有すると判断される(インジケータ315によって示すように)。やはり図3に示すように、現在の歌310の最終部分はまた、1拍0.069秒および1拍0.093秒の所で、2つのより弱い代替テンポを有すると判断される。次の歌320の冒頭部分について、次の歌320は、1拍0.89秒において最も顕著である差分テンポ測度を使って、0.25という、より強いテンポを有すると判断される(インジケータ325によって示すように)。

図2に戻ると、212において、プロセス200は、テンポ変更の見込み可聴性を最小限にしながらテンポが整合されるように、対応するスペクトログラムをサンプリングし直すのに、現在の歌の末尾部分(現在のセグメントと呼ばれることがある)および次の歌の冒頭部分(次のセグメントと呼ばれることがある)の推定テンポを使えばよい。たとえば、図2に示すように、これは、テンポ一致比と、歌Aの最後のN_max秒のテンポから歌Bの最初のN_max秒のテンポに移行するためのテンポ変更のレートとを判断することを含み得る。いくつかの実施形態では、テンポ一致比は、歌Aと歌Bとの間のオーバーラップ中に歌Aの拍が歌Bの拍に整合される比を指示し得る(たとえば、歌Aの末尾部分が歌Bの冒頭部分と同時にプレイされるとき)。いくつかの実施形態では、テンポ変更のレートは、オーバーラップ中に歌AおよびBのテンポが調節されるべきレートを指示し得る。

いくつかの実施形態では、プロセス200は最初に、歌Aの最後のN_max秒のテンポと歌Bの最初のN_max秒のテンポとの間の差が、206において識別された最大許容テンポ差以内であるかどうかを判断し得ることに留意されたい。たとえば、歌Aの最後のN_max秒のテンポが1拍1.06秒として算出され、歌Bの最初のN_max秒のテンポが1拍1.05秒として算出され、最大許容テンポ差が5%である事例では、プロセス200は、テンポにおける差は最大許容テンポ差以内であると判断してよい。いくつかのそのような実施形態では、歌Aの最後のN_max秒のテンポおよび歌Bの最初のN_max秒のテンポが最大許容テンポ差以内であるとプロセス200が判断する事例において、プロセス200は、歌Aおよび歌Bのテンポは調節される必要はなく、歌Aの最後のN_max秒および歌Bの最初のN_max秒の拍が1:1の比で一致されればよいと判断し得る。

逆に、歌Aの最後のN_max秒のテンポおよび歌Bの最初のN_max秒のテンポが、206において識別された最大許容テンポ差以内でないとプロセス200が判断する事例では、プロセス200は、テンポ一致比と、歌Aの最後のN_max秒の拍が歌Bの最初のN_max秒の拍と整合されるように、歌Aの最後のN_max秒のテンポが調節されるべきテンポ変更のレートとを算出すればよい。

いくつかの実施形態では、プロセス200は、適切な任意のやり方でテンポ一致比を算出してよい。たとえば、いくつかの実施形態では、プロセス200は、歌Aの最後のN_max秒のテンポを、206において識別された最大許容テンポ差以内の、歌Bの最初のN_max秒のテンポに一致する、最も低い有理分数を算出することができる。より具体的な例として、歌Aの最後のN_max秒のテンポが1拍1.06秒であり、歌Bの最初のN_max秒のテンポが1拍0.68秒である事例では、プロセス200は、テンポの比を0.68/1.06または0.6415と算出し得る。この例を続けると、プロセス200は、0.6415に最も近い、最も低い有理分数が2/3≒0.6667であると判断し得る。いくつかの実施形態では、プロセス200は次いで、テンポの比および算出された最も低い有理分数に基づいて、テンポ変更のレートを算出し得る。たとえば、いくつかの実施形態では、プロセス200は、テンポ変更のレートを、テンポの算出された比と、テンポの比に最も近い、最も低い有理分数の値との間のパーセンテージ差として算出し得る。上に挙げた例を続けると、いくつかの実施形態では、プロセス200は、テンポ変更のレートを、

と算出し得る。

214において、プロセス200は、歌Aおよび歌Bのオーバーラップ中に歌Aおよび歌Bの拍を一致させることによって、歌Aおよび歌Bの修正されたスペクトログラムを生成し得る。いくつかの実施形態では、プロセス200は、歌Aと歌Bとの間の移行に対して、適切な任意のやり方で拍を一致させてよい。たとえば、いくつかの実施形態では、プロセス200は、N_min～N_maxの範囲の歌Aおよび歌Bのオーバーラップ持続時間、すなわちN_overlapを判断することができ、歌Aおよび歌Bのスペクトログラムは最も厳密に一致させられる。いくつかの実施形態では、プロセス200は、適切な任意のやり方でオーバーラップを識別してよい。たとえば、いくつかの実施形態では、プロセス200は、N_minとN_maxとの間の、歌Aおよび歌Bのスペクトログラムにおける最大一致を識別するための相関行列を生成することができる。

いくつかの実施形態では、オーバーラップの選択をN_maxに偏らせるのを避けるために、プロセス200は、オーバーラップされている領域中の歌Aまたは歌Bいずれかの冪だけ、相関行列の各オフセットを正規化すればよい。いくつかの実施形態では、歌Aの最後のN_overlap秒の拍が、212において算出されたテンポ一致比で、歌Bの最初のN_overlap秒の拍と整合されてよいことに留意されたい。たとえば、212において最も低い有理分数が算出された事例では、拍は、212において算出された有理分数比で整合されてよい。

プロセス200が、212において、歌Aおよび歌Bのテンポが調節されるべきであると判断した事例では、プロセス200は、歌Aの最後のN_max秒をテンポワープしてよく、かつ/または歌Bの最初のN_max秒をテンポワープ(tempo-warp)してよいことに留意されたい。いくつかの実施形態では、プロセス200は、歌Aおよび/または歌Bを適切な任意のやり方でテンポワープしてよい。たとえば、いくつかの実施形態では、プロセス200は、212において算出されたテンポ変更を適用するために、歌Bの最初のN_max秒間にスペクトログラムのフレームを補間し得る。いくつかの実施形態では、プロセス200は次いで、歌Aの最後のN_max秒にテンポ変更を適用するように徐々にシフトしてよい。いくつかの実施形態では、プロセス200は、上述したように、N_overlapを判断するのに先立って、歌Aおよび歌Bのテンポを調節してよいことに留意されたい。

テンポ整合のより具体的な例では、プロセス200は、現在のセグメントのための候補テンポおよび強度({T_C[k]}および{S_C[k]})ならびに次のセグメントのための候補テンポおよび強度({T_N[k]}および{S_N[k]})のこれらの2つのセットを、拍整合を可能にするためにセグメントの速度をどのように変えるかを判断するのに使ってよい。

より具体的には、いくつかの実施形態では、プロセス200は、({T_C[k_C]}および{T_N[k_C]})のペアすべてにわたって、最も目立たない速度変更、すなわち

をもつ、最強組合せ強度を与えるペア、すなわちS[k_C,k_N]=S_C[k_C]+S_N[k_N]を判断することができる。つまり、プロセス200は、速度変更の見込み可聴性を最小限にするか、または低減し得る速度プロファイルを使って2つのテンポを整合させるために、現在および次のスペクトログラムをサンプリングし直すことができる。この例を続けると、プロセス200は、ユーザ指定許容範囲(たとえば、-15%～25%)内のγを与える(k_C,k_N)ペアリングすべてを収集することができ、知覚できる速度変更だけ、組合せ強度を以下のように不利にすることができ、
S[k_C,k_N]×(1-max(0,γ[k_C,k_N]-γ_thres))
上式で、γ_thresは、たとえば、5%である。これを使って、プロセス200は、速度変更、すなわちγと、各歌の中のテンポピークの最大強度、すなわちS_γ,C=max{S_C}およびS_γ,N=max{S_N}とを判断することができる。

いくつかの実施形態では、このペアリングを使ってテンポを一致させるために、プロセス200は、次のセグメントの速度のγ+1で、現在のセグメントをプレイすればよい。各歌の中のテンポピークの最大強度は、オーバーラップするセクションにわたるその速度変更についてのプロファイルを決定するのに使われ得る。より強い拍をもつセグメントを、より長い間隔にわたってその自然な速度に維持するように移行を偏らせるために、プロセス200は、速度プロファイルを生成し得る。

速度プロファイルの、説明のための例を図4に示す。図3からの例を続けると、プロセス200は、弱テンポセグメントから強テンポセグメントに再生速度を増大させる速度プロファイルを生成してよく、ここで再生速度は、弱テンポ部分中に変わる。より具体的には、次のセグメントが、0.016のテンポを有する現在のセグメントよりも強い、0.25のテンポを有するので、強テンポ部分中の再生速度に対する変更は、弱テンポ部分中の再生速度に対する変更よりも可聴であり得る。

この例を続けると、プロセス200は、一定速度セクション、すなわちR_CおよびR_Nの相対的長さを判断する際にS_γ,CおよびS_γ,Nを使ってよく、これらは、以下のように表され得る。

R_CおよびR_Nは、現在のセグメントの自然な速度および次のセグメントの自然な速度で再生される、オーバーラップするセクションの断片であることに留意されたい。図4に示すように、プロセス200は、オーバーラップの、残りの1-R_C-R_N断片のための速度を直線的に変えてよい。

速度に対する制約のこのセットは、L_F,C、すなわち現在のセグメントにおける自然なオーバーラップ持続時間とともに、(サンプリングし直された)テンポ整合された持続時間、すなわち、L_Fを決定することができ、これは、以下のように表され得ることにも留意されたい。

図4の目標速度プロファイルにおけるサンプルの数を用いると、現在のセグメントにおける自然速度持続時間はL_F,Cであり、次のセグメントにおける自然速度持続時間は

である。

この例を続けると、プロセス200は、それらの現在セグメントおよび次セグメントの自然時間における現在および次のセグメントのスペクトル積を示す時間依存ドット積行列を形成し得る。1+γの相対的速度を強制するために、プロセス200は、1+γ傾斜をもつ、および現在のセグメントと次のセグメントとの間のオフセット時間によって決まる切片をもつ直線上でドット積行列を積分すればよい。その直線上で、プロセス200は、図4に示すサンプリングプロファイルを使って積分をサンプリングすればよい。サンプル間隔は、再生速度が現在のセグメントの自然な速度であるときの垂直軸(現在セグメント時間)上の一単位であり、サンプル間隔は、再生速度が、中間速度のための中間間隔をもつ、次のセグメントの自然な速度であるときの水平軸(次セグメント時間)上の一単位である。

ドット積行列はスペクトル振幅の積に対して計算されているので、プロセス200は、サンプリングし直されたオーバーラップするセクションの別々の冪プロファイルによって線積分値を正規化することができ、そうすることによって相関係数測度を与えることに留意されたい。この手法を使って、プロセス200は、最強相関係数をもつオフセットを見つけることができる。このオフセットおよびサンプリングプロファイルは、シームレスなオーディオ混合のための、2つの基底のテンポ整合された、オフセット整合されたセクションを生成するのに使われ得る。

図2を再び参照すると、216において、プロセス200は、スペクトログラムの一連の周波数帯域において、歌Aから歌Bへの移行中に振幅フェージングを開始し、終了するべき時点を識別し得る。いくつかの実施形態では、一連の周波数帯域は、任意の適切な数の帯域(たとえば、8、16、32、および/または任意の他の適切な数の帯域)を含み得る。いくつかの実施形態では、一連の帯域の中の帯域は対数的なサイズであってよい。いくつかのそのような実施形態では、より低い帯域用には、最小数の周波数チャネル(たとえば、4つのチャネル、および/または任意の他の適切な最小)があってよいことに留意されたい。たとえば、スペクトログラムが1025幅であり、16個の帯域が構築されるべきである事例では、プロセス200は一連の周波数帯域を構築することができ、ここで、各帯域用の上限周波数ビンは、[4,8,12,16,20,24,28,32,49,76,117,181,279,439,665,1025]である。

いくつかの実施形態では、プロセス200は、一連の周波数帯域の中の各周波数帯域のために振幅フェージングを開始し、終了するべき時点を、適切な任意のやり方で識別することができる。たとえば、いくつかの実施形態では、最も低い周波数帯域(たとえば、上に挙げた例示的周波数帯域の中の周波数ビン0～3)で始めて、プロセス200は、高い相互相関をもつ、歌Aの最後のN_overlap秒および歌Bの最初のN_overlap秒の最も低い周波数帯域内の、スペクトログラムの領域を見つけることができる。つまり、プロセス200は、ローカルテクスチャ整合を検査することによって、各可能開始時点および終了時点の品質を判断することができ、ここで、スタート-エンドポイントの間の2つの基底テクスチャが類似している場合、そのペアの品質には高い相互相関スコアが与えられてよく、スタート-エンドポイントの間の2つの基底テクスチャが似ていない場合、そのペアの品質には比較的低い相互相関スコアが与えられてよい。いくつかの実施形態では、高い相互相関をもたらすものとして識別されたウィンドウおよび位置は、最も低い周波数帯域に対する振幅フェードについての開始時点および最終時点を定義するのに使われ得る。いくつかの実施形態では、プロセス200は次いで、次に高い周波数帯域(たとえば、上に挙げた例示的周波数帯域の中の5Hz～8Hz)に移ればよく、次に高い周波数帯域内で、最も高い相互相関をもつウィンドウを同様に識別することができる。いくつかの実施形態では、プロセス200は、相互相関長を、最も低い周波数帯域について識別されたウィンドウの長さと同じ長さまたはそれよりも短い長さになるように、ならびに最も低い周波数帯域について識別されたウィンドウと、所定を超える量がオーバーラップする(たとえば、所定を超える持続時間だけオーバーラップする、所定を超える割合だけオーバーラップする、および/または任意の他の適切な量だけオーバーラップする)ように、制約し得ることに留意されたい。いくつかの実施形態では、プロセス200は、一連の周波数帯域の中の周波数帯域のすべてで、同様に続けてよい。いくつかの実施形態では、最も高い周波数帯域における振幅フェージングのためのウィンドウ、最も低い周波数帯域における振幅フェージングのためのウィンドウよりも比較的短くてよく、そうすることによって、より高い周波数帯域においてより短いクロスフェードを生じることに留意されたい。

周波数帯域にわたってスタート-エンドポイントを組み合わせる例示的マスクを、開示する主題のいくつかの実施形態に従って図5に示し、ここで、例示的マスクは、歌Aの最終部分および歌Bの冒頭部分の2つの整合されたスペクトルセクションを混合するのに使われ得る。上述したように、動的プログラミングを使って、プロセス200は、各周波数領域内のエネルギー一致の品質に基づいて、マスク中のスタート-エンドポイントのための最適経路を判断することができる。たとえば、混合の左端は最古のオーバーラップスライスであり、下位14個のスペクトル領域に対する右端は最新オーバーラップスライスの所にある。上位2つの領域に対して、クロス面の終わりがそのスタートに近づく。これらの最適スタートおよびエンドポイントを見つけると、プロセス200は、それらの間のスペクトログラムを直線的にフェードしてよい。

図5に示すマスクを超えて、混合されたスペクトログラムは、現在の歌(たとえば、歌A)のスペクトログラムおよび次の歌(たとえば、歌B)のスペクトログラムと同一であってよいことに留意されたい。

いくつかの実施形態では、プロセス200は、クロス面の中点におけるドリフトと、より高い周波数でのクロスフェードの延長とを阻止するための移行ペナルティを含み得ることにも留意されたい。たとえば、ペナルティは、それらの点の間の距離を、前の(より低周波数の)帯域に相対して延長するか、またはクロスフェードの中心を、前の(より低周波数の)帯域中でのその位置に相対して変えるかのいずれかであるスタート-エンド時間における位置変更に割り当てられてよい。

図5は、16個のスペクトル帯域がある、メル尺度のような間隔で周波数帯域がグループ化されることを示すが、これは例示にすぎないことにさらに留意されたい。

218において、プロセス200は、上述したように、216において識別された振幅フェージングウィンドウに基づいて、拍を一致させたスペクトログラムを、歌Aおよび歌Bの振幅をフェードすることによって修正してよい。いくつかの実施形態では、プロセス200は、拍を一致させたスペクトログラムを、適切な任意のやり方で修正してよい。たとえば、いくつかの実施形態では、プロセス200は、一連の周波数帯域の中の各周波数帯域内で、歌Aおよび歌Bに対応するスペクトログラムの加重時間平均を実施することによって、拍を一致させたスペクトログラムをマージすることができる。より具体的な例として、いくつかの実施形態では、216において識別された時点が、周波数ビン0～3のための振幅フェードが3:00～3:15の時点から実施されることになることを示す事例において、プロセス200は、歌Aが3:00における振幅の100%に寄与し、歌Bが3:15における振幅の100%に寄与するように、3:00～3:15の時点内で、歌Aおよび歌Bのスペクトログラムの平均をとればよい。いくつかの実施形態では、振幅フェージングウィンドウの間の各歌の振幅寄与率は、一次関数、および/または任意の他の適切な関数など、任意の適切な関数に従ってよい。

2つの歌の間の混合移行の、説明のための例を、図6A～図6Dに示す。たとえば、図6Aは、5秒のオーバーラップする長さ、4.1%の増加という速度変更、ならびに2つの歌の間の0.031および0.032のテンポ強度を有し、図6Bは、11.67秒のオーバーラップする長さ、4.8%の増加という速度変更、ならびに2つの歌の間の0.028および0.22のテンポ強度を有し、図6Cは、7.11秒のオーバーラップする長さ、17.3%の増加という速度変更、ならびに0.009および0.029のテンポ強度を有し、図6Dは、15秒のオーバーラップする長さ、2.2%の増加という速度変更、ならびに0.029および0.010のテンポ強度を有する。

220において、プロセス200は、修正されたスペクトログラムに基づいて、歌Aおよび歌Bについての修正されたオーディオ波形を生成し得る。いくつかの実施形態では、プロセス200は、修正されたオーディオ波形を、適切な任意のやり方で生成してよい。たとえば、いくつかの実施形態では、プロセス200は、逆STFTを使って、および/または任意の他の適切なやり方で、修正されたスペクトログラムからオーディオ信号を推定することによって、オーディオ波形を生成することができる。

いくつかの実施形態では、プロセス200は、修正されたスペクトログラムを使って、修正されたオーディオ波形の位相を推定するのに、任意の適切な技法または技法の組合せを使ってよい。たとえば、いくつかの実施形態では、プロセス200は、修正されたスペクトログラムからオーディオ波形の位相を繰り返し推定するためのGriffin-Lim技法と同様の技法を使ってよい。いくつかの実施形態では、プロセス200は、オーディオ波形の位相を推定するのに要する反復の回数を削減するために、適切な任意のやり方で、位相についての初期推定値を設定してよい。たとえば、いくつかの実施形態では、プロセス200は、オーバーラップに含まれないスペクトログラムの時点に対する、歌Aおよび歌Bのためのオリジナルスペクトログラムの位相として、位相についての初期推定値を設定してよく、オーバーラップに含まれる時点に対する位相についての初期推定値を、オーバーラップにおける位相のスペクトル規模加重平均として設定してよい。

いくつかの実施形態では、プロセス200は、任意の適切な制約を受ける、歌Aおよび歌Bに対する修正された波形を生成し得ることに留意されたい。たとえば、いくつかの実施形態では、プロセス200は、214において識別されたオーバーラップ持続時間に基づいて、歌Aおよび歌Bについての修正された波形をオーバーラップさせるか、または重ねることによって生成されたスペクトログラムの規模が、修正された波形がオーバーラップ領域においてそこから生成された、修正されたスペクトログラムの規模と一致するように、歌Aおよび歌Bに対する修正された波形を生成してよい。別の例として、いくつかの実施形態では、プロセス200は、214において識別されたオーバーラップ持続時間に基づいて、歌Aおよび歌Bについての修正された波形をオーバーラップさせるか、または重ねることによって生成されたスペクトログラムの位相が、オーバーラップ領域の始まり(たとえば、オーバーラップ領域の前半、および/またはオーバーラップ領域の任意の他の適切な始まり)において歌Aの位相と一致し、歌Bの位相およびオーバーラップ領域の終わり(たとえば、オーバーラップ領域の後半、および/またはオーバーラップ領域の任意の他の適切な後半)と一致するように、歌Aおよび歌Bに対する修正された波形を生成してよい。

いくつかの実施形態では、プロセス200は、歌Aおよび歌Bの修正バージョンに対応する、生成された修正オーディオ波形を記憶し得ることに留意されたい。たとえば、いくつかの実施形態では、プロセス200は、生成された修正オーディオ波形を、歌Aおよび歌Bの識別子に関連して記憶してよい。別の例として、いくつかの実施形態では、プロセス200は、生成された修正オーディオ波形を、歌Bの修正バージョンの冒頭部分とオーバーラップされることになる、歌Aの修正バージョンの末尾部分の持続時間を指示する、オーバーラップ持続時間の指示(たとえば、判断され、214に関連して上述したN_overlap)に関連して記憶してよい。

図7に移ると、開示する主題のいくつかの実施形態に従って使われ得る、プレイリスト中の歌の間のシームレスなオーディオ混合のためのハードウェアの、説明のための例700が示されている。示されるように、ハードウェア700は、サーバ702、通信ネットワーク704、ならびに/または、ユーザデバイス708および710など、1つもしくは複数のユーザデバイス706を含み得る。

サーバ702は、情報、データ、プログラム、メディアコンテンツ、および/または任意の他の適切なコンテンツを記憶するための任意の適切なサーバであり得る。いくつかの実施形態では、サーバ702は、任意の適切な機能を実施し得る。たとえば、いくつかの実施形態では、サーバ702は、オーディオコンテンツアイテムのプレイリストを、ユーザデバイス上での提示のためにユーザデバイスへ送信し得る。別の例として、いくつかの実施形態では、サーバ702は、図2に示し、それに関連して以下で説明するように、第1の歌の末尾部分が第2の歌の冒頭部分とオーバーラップされたとき、第1の歌が第2の歌に円滑に移行するように、第1の歌の末尾部分および第2の歌の冒頭部分を修正してよい。

通信ネットワーク704は、いくつかの実施形態では、1つまたは複数のワイヤードおよび/またはワイヤレスネットワークの任意の適切な組合せであり得る。たとえば、通信ネットワーク704は、インターネット、イントラネット、ワイドエリアネットワーク(WAN)、ローカルエリアネットワーク(LAN)、ワイヤレスネットワーク、デジタル加入者線(DSL)ネットワーク、フレームリレーネットワーク、非同期トランスファーモード(ATM)ネットワーク、仮想プライベートネットワーク(VPN)、および/または任意の他の適切な通信ネットワークのうちの任意の1つまたは複数を含み得る。ユーザデバイス706は、1つまたは複数の通信リンク(たとえば、通信リンク714)を介してサーバ702にリンクされ得る通信ネットワーク704に、1つまたは複数の通信リンク(たとえば、通信リンク712)によって接続され得る。通信リンクは、ネットワークリンク、ダイヤルアップリンク、ワイヤレスリンク、ハードワイヤードリンク、任意の他の適切な通信リンク、またはそのようなリンクの任意の適切な組合せなどの、ユーザデバイス706とサーバ702との間でデータを通信するのに適した任意の通信リンクであり得る。

ユーザデバイス706は、オーディオコンテンツおよび/またはオーディオコンテンツのプレイリストをプレイするのに適した、任意の1つまたは複数のユーザデバイスを含み得る。いくつかの実施形態では、ユーザデバイス706は、モバイルフォン、タブレットコンピュータ、ウェアラブルコンピュータ、ラップトップコンピュータ、デスクトップコンピュータ、スマートテレビジョン、メディアプレーヤ、ゲームコンソール、車両情報および/もしくはエンターテインメントシステム、ならびに/または任意の他の適切なタイプのユーザデバイスなど、任意の適切なタイプのユーザデバイスも含み得る。

サーバ702は1つのデバイスとして示されているが、サーバ702によって実施される機能は、いくつかの実施形態では任意の適切な数のデバイスを使用して実施され得る。たとえば、いくつかの実施形態では、複数のデバイスが、サーバ702により実施される機能を実装するために使用され得る。

図を過剰に複雑にするのを避けるために、2つのユーザデバイス708および710が図7に示されているが、いくつかの実施形態では、任意の適切な数のユーザデバイス、および/または任意の適切なタイプのユーザデバイスが使用され得る。

いくつかの実施形態では、サーバ702およびユーザデバイス706は、任意の適切なハードウェアを使用して実装され得る。たとえば、いくつかの実施形態では、デバイス702および706は、任意の適切な汎用コンピュータまたは専用コンピュータを使用して実装され得る。たとえば、携帯電話は、専用コンピュータを使用して実装され得る。任意のそのような汎用コンピュータまたは専用コンピュータが、任意の適切なハードウェアを含み得る。たとえば、図8の例示的なハードウェア800において示されるように、そのようなハードウェアは、ハードウェアプロセッサ802、メモリおよび/またはストレージ804、入力デバイスコントローラ806、入力デバイス808、ディスプレイ/オーディオドライバ810、ディスプレイおよびオーディオ出力回路構成812、通信インターフェース814、アンテナ816、ならびにバス818を含み得る。

ハードウェアプロセッサ802は、いくつかの実施形態では、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、専用論理、および/または、汎用コンピュータもしくは専用コンピュータの機能を制御するための任意の他の適切な回路構成など、任意の適切なハードウェアプロセッサを含み得る。いくつかの実施形態では、ハードウェアプロセッサ802は、サーバ702などのサーバのメモリおよび/またはストレージに記憶されるサーバプログラムによって制御され得る。いくつかの実施形態では、ハードウェアプロセッサ802は、ユーザデバイス706のメモリおよび/またはストレージ804に記憶されているコンピュータプログラムによって制御され得る。

メモリおよび/またはストレージ804は、いくつかの実施形態では、プログラム、データ、および/または任意の他の適切な情報を記憶するための、任意の適切なメモリおよび/またはストレージであり得る。たとえば、メモリおよび/またはストレージ804は、ランダムアクセスメモリ、読取り専用メモリ、フラッシュメモリ、ハードディスクストレージ、光学メディア、および/または任意の適切なメモリを含み得る。

入力デバイスコントローラ806は、いくつかの実施形態では、1つまたは複数の入力デバイス808を制御してそれらから入力を受けるための任意の適切な回路構成であり得る。たとえば、入力デバイスコントローラ806は、タッチスクリーンから、キーボードから、1つまたは複数のボタンから、音声認識回路から、マイクロフォンから、カメラから、光学センサから、加速度計から、温度センサから、近距離センサから、圧力センサから、エンコーダから、および/または任意の他のタイプの入力デバイスから、入力を受けるための回路構成であり得る。

ディスプレイ/オーディオドライバ810は、いくつかの実施形態では、1つまたは複数のディスプレイ/オーディオ出力デバイス812を制御してそれへの出力を駆動するための任意の適切な回路構成であり得る。たとえば、ディスプレイ/オーディオドライバ810は、タッチスクリーン、フラットパネルディスプレイ、陰極線管ディスプレイ、プロジェクタ、1つもしくは複数のスピーカ、ならびに/または任意の他の適切なディスプレイおよび/もしくは提示デバイスを駆動するための回路構成であり得る。

通信インターフェース814は、1つまたは複数の通信ネットワーク(たとえば、コンピュータネットワーク704)とインターフェースをとるための任意の適切な回路構成であり得る。たとえば、インターフェース814は、ネットワークインターフェースカード回路構成、ワイヤレス通信回路構成、および/または任意の他の適切なタイプの通信ネットワーク回路構成を含み得る。

アンテナ816は、いくつかの実施形態では、通信ネットワーク(たとえば、通信ネットワーク704)とワイヤレスに通信するための任意の適切な1つまたは複数のアンテナであり得る。いくつかの実施形態では、アンテナ816は省略され得る。

バス818は、いくつかの実施形態では、2つ以上の構成要素802、804、806、810、および814の間で通信するための任意の適切な機構であり得る。

いくつかの実施形態に従って、任意の他の適切な構成要素がハードウェア800に含まれ得る。

いくつかの実施形態では、図1および図2のプロセスの上で説明されたブロックの少なくともいくつかは、図において示され図に関連して説明される順序および順列に限定されない、任意の順序または順列で実行もしくは実施され得る。また、図1および図2の上記のブロックのいくつかは、適切な場合には実質的に同時に、またはレイテンシおよび処理時間を減らすために並列に、実行もしくは実施され得る。追加または代替として、図1および図2のプロセスの上で説明されたブロックのいくつかは省略され得る。

いくつかの実施形態では、本明細書における機能および/またはプロセスを実施するための命令を記憶するために、任意の適切なコンピュータ可読媒体が使用され得る。たとえば、いくつかの実施形態では、コンピュータ可読媒体は、一時的または非一時的であり得る。たとえば、非一時的コンピュータ可読媒体は、非一時的な形態の磁気媒体(ハードディスク、フロッピーディスク、および/または任意の他の適切な磁気媒体など)、非一時的な形態の光学媒体(コンパクトディスク、デジタルビデオディスク、Blu-ray(登録商標)ディスク、および/または任意の他の適切な光学媒体など)、非一時的な形態の半導体媒体(フラッシュメモリ、電気的プログラム可能読取り専用メモリ(EPROM)、電気的消去可能プログラム可能読取り専用メモリ(EEPROM)、および/または任意の他の適切な半導体媒体など)、一過性でなく、もしくは送信の間に見かけ上の永続性を失うことのない任意の適切な媒体、および/または任意の適切な有形媒体などの媒体を含み得る。別の例として、一時的コンピュータ可読媒体は、ネットワーク上の、配線中の、導体中の、光ファイバ中の、回路中の、一過性であり、また送信の間にあらゆる見かけ上の永続性を失う任意の適切な媒体中の、ならびに/または任意の適切な非有形媒体中の信号を含み得る。

したがって、プレイリスト中の歌の間のシームレスなオーディオ混合のための方法、システム、および媒体が提供される。

本発明は、前述の説明のための実施形態において説明され示されているが、本開示は、単なる例として行われるものであり、本発明の実装形態の詳細における多数の変更が、以下の特許請求の範囲だけによって限定される本発明の趣旨および範囲から逸脱することなく行われ得ることが理解される。開示される実施形態の特徴は、様々な方法で組み合わされて並べ替えられ得る。

700 ハードウェア
702 サーバ
704 通信ネットワーク、コンピュータネットワーク
706 ユーザデバイス
708 ユーザデバイス
710 ユーザデバイス
712 通信リンク
714 通信リンク
800 ハードウェア
802 ハードウェアプロセッサ、構成要素
804 メモリおよび/またはストレージ、構成要素
806 入力デバイスコントローラ、構成要素
808 入力デバイス
810 ディスプレイ/オーディオドライバ、構成要素
812 ディスプレイおよびオーディオ出力回路構成、ディスプレイ/オーディオ出力デバイス
814 通信インターフェース、インターフェース、構成要素
816 アンテナ
818 バス

Claims

プレイリスト中のオーディオアイテムの間を移行するための方法であって、
オーディオアイテムのプレイリスト中のオーディオアイテムのシーケンスを識別するステップであって、
前記オーディオアイテムのシーケンスは、第1のオーディオアイテム、および前記第1のオーディオアイテムに続いてプレイされることになる第2のオーディオアイテムを含む、ステップと、
前記第1のオーディオアイテムの末尾部分および前記第2のオーディオアイテムの冒頭部分を修正するステップであって、
前記第1のオーディオアイテムの前記末尾部分および前記第2のオーディオアイテムの前記冒頭部分は、前記第1のオーディオアイテムと前記第2のオーディオアイテムとの間を移行するように同時にプレイされることになり、
前記第1のオーディオアイテムの前記末尾部分および前記第2のオーディオアイテムの前記冒頭部分はオーバーラップ持続時間を有する、ステップと
を含み、
前記第1のオーディオアイテムの前記末尾部分および前記第2のオーディオアイテムの前記冒頭部分を修正するステップは、
前記第1のオーディオアイテムの前記末尾部分に対応する第1のスペクトログラムおよび前記第2のオーディオアイテムの前記冒頭部分に対応する第2のスペクトログラムを生成するステップと、
一連の周波数帯域中の周波数帯域ごとに、前記第1のオーディオアイテムの前記末尾部分内の前記第1のスペクトログラムおよび前記第2のオーディオアイテムの前記冒頭部分内の前記第2のスペクトログラムが特定の相互相関を有するウィンドウを識別するステップと、
前記周波数帯域内の周波数の振幅が、前記第1のスペクトログラムの前記末尾部分にわたって前記第1のスペクトログラム内で低下し、前記周波数帯域内の周波数の振幅が、前記第2のスペクトログラムの前記冒頭部分にわたって前記第2のスペクトログラム内で増大するように、前記一連の周波数帯域の中の周波数帯域ごとに、前記第1のスペクトログラムの前記末尾部分および前記第2のスペクトログラムの前記冒頭部分を修正するステップと、
前記第1のスペクトログラムの前記修正された末尾部分に基づいて、前記第1のオーディオアイテムの前記修正された末尾部分を含む、前記第1のオーディオアイテムの修正バージョンを生成し、前記第2のスペクトログラムの前記修正された冒頭部分に基づいて、前記第2のオーディオアイテムの前記修正された冒頭部分を含む、前記第2のオーディオアイテムの修正バージョンを生成するステップと
を含む、方法。
前記第1のスペクトログラムおよび前記第2のスペクトログラムに基づいて前記オーバーラップ持続時間を識別するステップをさらに含む、請求項1に記載の方法。
前記一連の周波数帯域の中の周波数帯域ごとに、前記第1のオーディオアイテムの前記末尾部分内の前記第1のスペクトログラムおよび前記第2のオーディオアイテムの前記冒頭部分内の前記第2のスペクトログラムが高い相互相関を有する前記ウィンドウを識別するステップは、
前記一連の周波数帯域の中の最も低い周波数帯域に対する第1のウィンドウを、前記最も低い周波数帯域内の前記第1のスペクトログラムの前記末尾部分および前記第2のスペクトログラムの前記冒頭部分の前記相互相関に基づいて識別するステップと、
前記最も低い周波数帯域に隣接する前記周波数帯域内の前記第1のスペクトログラムの前記末尾部分および前記第2のスペクトログラムの前記冒頭部分の前記相互相関に基づいて、前記最も低い周波数帯域に隣接する周波数帯域に対する第2のウィンドウを識別するステップであって、前記第2のウィンドウは前記第1のウィンドウよりも短い、ステップと
を含む、請求項1または2に記載の方法。
前記第2のウィンドウは前記第1のウィンドウとオーバーラップする、請求項3に記載の方法。
前記第2のオーディオアイテムの前記修正された冒頭部分と重ねられた、前記第1のオーディオアイテムの前記修正された末尾部分のスペクトログラムの位相は、
オーバーラップの冒頭部分において前記第1のオーディオアイテムの位相と一致し、
前記オーバーラップの末尾部分において前記第2のオーディオアイテムの位相と一致する、請求項1から4のいずれか一項に記載の方法。
前記第1のオーディオアイテムの前記末尾部分および前記第2のオーディオアイテムの前記冒頭部分を修正するステップは、前記第1のオーディオアイテムの前記末尾部分の間の前記第1のオーディオアイテムのテンポ、および前記第2のオーディオアイテムの前記冒頭部分の間の前記第2のオーディオアイテムのテンポを修正するステップを含む、請求項1から5のいずれか一項に記載の方法。
前記第1のオーディオアイテムの前記末尾部分の間の前記第1のオーディオアイテムの前記テンポ、および前記第2のオーディオアイテムの前記冒頭部分の間の前記第2のオーディオアイテムの前記テンポを修正するステップは、前記第1のオーディオアイテムの前記末尾部分の間の前記第1のオーディオアイテムの前記テンポが、前記第2のオーディオアイテムの前記冒頭部分の間の前記第2のオーディオアイテムの前記テンポとは、所定の閾を超えて異なると判断したことに応答する、請求項6に記載の方法。
ユーザデバイスによってオーディオアイテムの前記プレイリストを生じさせることは、前記オーバーラップ持続時間の指示に関連して、前記第1のオーディオアイテムの前記修正バージョンおよび前記第2のオーディオアイテムの前記修正バージョンを前記ユーザデバイスへ送信することを含む、請求項1から7のいずれか一項に記載の方法。
オーディオアイテムの前記プレイリストの識別子に関連して、前記第1のオーディオアイテムの前記修正バージョンおよび前記第2のオーディオアイテムの前記修正バージョンを記憶するステップをさらに含む、請求項1から8のいずれか一項に記載の方法。
ユーザデバイスから、オーディオアイテムの前記プレイリストを提示するための要求を受信するステップと、
オーディオアイテムの前記プレイリストを前記ユーザデバイスによって提示させるステップであって、
オーディオアイテムの前記プレイリストを提示することは、前記第1のオーディオアイテムの前記修正バージョンおよび前記第2のオーディオアイテムの前記修正バージョンを提示することを含み、
前記第1のオーディオアイテムの前記修正バージョンの前記修正された末尾部分は、前記第2のオーディオアイテムの前記修正バージョンの前記修正された冒頭部分と同時にプレイされる、ステップと
をさらに含む、請求項1から9のいずれか一項に記載の方法。
プレイリスト中のオーディオアイテムの間を移行するためのシステムであって、
メモリと、
ハードウェアプロセッサと
を備え、前記ハードウェアプロセッサは、前記メモリ中のコンピュータ実行可能命令を実行すると、
オーディオアイテムのプレイリスト中のオーディオアイテムのシーケンスを識別することであって、
前記オーディオアイテムのシーケンスは、第1のオーディオアイテム、および前記第1のオーディオアイテムに続いてプレイされることになる第2のオーディオアイテムを含む、識別することと、
前記第1のオーディオアイテムの末尾部分および前記第2のオーディオアイテムの冒頭部分を修正することであって、
前記第1のオーディオアイテムの前記末尾部分および前記第2のオーディオアイテムの前記冒頭部分は、前記第1のオーディオアイテムと前記第2のオーディオアイテムとの間を移行するように同時にプレイされることになり、
前記第1のオーディオアイテムの前記末尾部分および前記第2のオーディオアイテムの前記冒頭部分はオーバーラップ持続時間を有する、修正することと
を行うように構成され、
前記第1のオーディオアイテムの前記末尾部分および前記第2のオーディオアイテムの前記冒頭部分を修正することは、
前記第1のオーディオアイテムの前記末尾部分に対応する第1のスペクトログラムおよび前記第2のオーディオアイテムの前記冒頭部分に対応する第2のスペクトログラムを生成することと、
一連の周波数帯域中の周波数帯域ごとに、前記第1のオーディオアイテムの前記末尾部分内の前記第1のスペクトログラムおよび前記第2のオーディオアイテムの前記冒頭部分内の前記第2のスペクトログラムが特定の相互相関を有するウィンドウを識別することと、
前記周波数帯域内の周波数の振幅が、前記第1のスペクトログラムの前記末尾部分にわたって前記第1のスペクトログラム内で低下し、前記周波数帯域内の周波数の振幅が、前記第2のスペクトログラムの前記冒頭部分にわたって前記第2のスペクトログラム内で増大するように、前記一連の周波数帯域の中の周波数帯域ごとに、前記第1のスペクトログラムの前記末尾部分および前記第2のスペクトログラムの前記冒頭部分を修正することと、
前記第1のスペクトログラムの前記修正された末尾部分に基づいて、前記第1のオーディオアイテムの前記修正された末尾部分を含む、前記第1のオーディオアイテムの修正バージョンを生成し、前記第2のスペクトログラムの前記修正された冒頭部分に基づいて、前記第2のオーディオアイテムの前記修正された冒頭部分を含む、前記第2のオーディオアイテムの修正バージョンを生成することと
を含む、システム。
前記ハードウェアプロセッサは、前記第1のスペクトログラムおよび前記第2のスペクトログラムに基づいて前記オーバーラップ持続時間を識別するようにさらに構成される、請求項11に記載のシステム。
前記一連の周波数帯域の中の周波数帯域ごとに、前記第1のオーディオアイテムの前記末尾部分内の前記第1のスペクトログラムおよび前記第2のオーディオアイテムの前記冒頭部分内の前記第2のスペクトログラムが高い相互相関を有する前記ウィンドウを識別することは、
前記一連の周波数帯域の中の最も低い周波数帯域に対する第1のウィンドウを、前記最も低い周波数帯域内の前記第1のスペクトログラムの前記末尾部分および前記第2のスペクトログラムの前記冒頭部分の前記相互相関に基づいて識別することと、
前記最も低い周波数帯域に隣接する前記周波数帯域内の前記第1のスペクトログラムの前記末尾部分および前記第2のスペクトログラムの前記冒頭部分の前記相互相関に基づいて、前記最も低い周波数帯域に隣接する周波数帯域に対する第2のウィンドウを識別することであって、前記第2のウィンドウは前記第1のウィンドウよりも短い、識別することと
を含む、請求項11または12に記載のシステム。
前記第2のウィンドウは前記第1のウィンドウとオーバーラップする、請求項13に記載のシステム。
前記第2のオーディオアイテムの前記修正された冒頭部分と重ねられた、前記第1のオーディオアイテムの前記修正された末尾部分のスペクトログラムの位相は、
オーバーラップの冒頭部分において前記第1のオーディオアイテムの位相と一致し、
前記オーバーラップの末尾部分において前記第2のオーディオアイテムの位相と一致する、請求項11から14のいずれか一項に記載のシステム。
前記第1のオーディオアイテムの前記末尾部分および前記第2のオーディオアイテムの前記冒頭部分を修正することは、前記第1のオーディオアイテムの前記末尾部分の間の前記第1のオーディオアイテムのテンポ、および前記第2のオーディオアイテムの前記冒頭部分の間の前記第2のオーディオアイテムのテンポを修正することを含む、請求項11から15のいずれか一項に記載のシステム。
前記第1のオーディオアイテムの前記末尾部分の間の前記第1のオーディオアイテムの前記テンポ、および前記第2のオーディオアイテムの前記冒頭部分の間の前記第2のオーディオアイテムの前記テンポを修正することは、前記第1のオーディオアイテムの前記末尾部分の間の前記第1のオーディオアイテムの前記テンポが、前記第2のオーディオアイテムの前記冒頭部分の間の前記第2のオーディオアイテムの前記テンポとは、所定の閾を超えて異なると判断したことに応答する、請求項16に記載のシステム。
ユーザデバイスによってオーディオアイテムの前記プレイリストを生じさせることは、前記オーバーラップ持続時間の指示に関連して、前記第1のオーディオアイテムの前記修正バージョンおよび前記第2のオーディオアイテムの前記修正バージョンを前記ユーザデバイスへ送信することを含む、請求項11から17のいずれか一項に記載のシステム。
前記ハードウェアプロセッサは、オーディオアイテムの前記プレイリストの識別子に関連して、前記第1のオーディオアイテムの前記修正バージョンおよび前記第2のオーディオアイテムの前記修正バージョンを記憶するようにさらに構成される、請求項11から18のいずれか一項に記載のシステム。
前記ハードウェアプロセッサは、
ユーザデバイスから、オーディオアイテムの前記プレイリストを提示するための要求を受信することと、
オーディオアイテムの前記プレイリストを前記ユーザデバイスによって提示させることであって、
オーディオアイテムの前記プレイリストを提示することは、前記第1のオーディオアイテムの前記修正バージョンおよび前記第2のオーディオアイテムの前記修正バージョンを提示することを含み、
前記第1のオーディオアイテムの前記修正バージョンの前記修正された末尾部分は、前記第2のオーディオアイテムの前記修正バージョンの前記修正された冒頭部分と同時にプレイされる、提示させることと
を行うようにさらに構成される、請求項11から19のいずれか一項に記載のシステム。
プロセッサによって実行されると、プレイリスト中のオーディオアイテムの間を移行するための方法を前記プロセッサに実行させるコンピュータ実行可能命令を記憶したコンピュータ可読記録媒体であって、前記方法は、
オーディオアイテムのプレイリスト中のオーディオアイテムのシーケンスを識別するステップであって、
前記オーディオアイテムのシーケンスは、第1のオーディオアイテム、および前記第1のオーディオアイテムに続いてプレイされることになる第2のオーディオアイテムを含む、ステップと、
前記第1のオーディオアイテムの末尾部分および前記第2のオーディオアイテムの冒頭部分を修正するステップであって、
前記第1のオーディオアイテムの前記末尾部分および前記第2のオーディオアイテムの前記冒頭部分は、前記第1のオーディオアイテムと前記第2のオーディオアイテムとの間を移行するように同時にプレイされることになり、
前記第1のオーディオアイテムの前記末尾部分および前記第2のオーディオアイテムの前記冒頭部分はオーバーラップ持続時間を有する、ステップと
を含み、
前記第1のオーディオアイテムの前記末尾部分および前記第2のオーディオアイテムの前記冒頭部分を修正するステップは、
前記第1のオーディオアイテムの前記末尾部分に対応する第1のスペクトログラムおよび前記第2のオーディオアイテムの前記冒頭部分に対応する第2のスペクトログラムを生成するステップと、
一連の周波数帯域中の周波数帯域ごとに、前記第1のオーディオアイテムの前記末尾部分内の前記第1のスペクトログラムおよび前記第2のオーディオアイテムの前記冒頭部分内の前記第2のスペクトログラムが特定の相互相関を有するウィンドウを識別するステップと、
前記周波数帯域内の周波数の振幅が、前記第1のスペクトログラムの前記末尾部分にわたって前記第1のスペクトログラム内で低下し、前記周波数帯域内の周波数の振幅が、前記第2のスペクトログラムの前記冒頭部分にわたって前記第2のスペクトログラム内で増大するように、前記一連の周波数帯域の中の周波数帯域ごとに、前記第1のスペクトログラムの前記末尾部分および前記第2のスペクトログラムの前記冒頭部分を修正するステップと、
前記第1のスペクトログラムの前記修正された末尾部分に基づいて、前記第1のオーディオアイテムの前記修正された末尾部分を含む、前記第1のオーディオアイテムの修正バージョンを生成し、前記第2のスペクトログラムの前記修正された冒頭部分に基づいて、前記第2のオーディオアイテムの前記修正された冒頭部分を含む、前記第2のオーディオアイテムの修正バージョンを生成するステップと
を含む、コンピュータ可読記録媒体。