JP6926354B1

JP6926354B1 - オーディオデータの分解、ミキシング、再生のためのａｉベースのｄｊシステムおよび方法

Info

Publication number: JP6926354B1
Application number: JP2021035838A
Authority: JP
Inventors: モルジーカリーム; テスマンフェデリコ; テシュナークリストフ
Original assignee: Algoriddim GmbH
Current assignee: Algoriddim GmbH
Priority date: 2020-03-06
Filing date: 2021-03-05
Publication date: 2021-08-25
Anticipated expiration: 2041-03-05
Also published as: JP2021141586A

Abstract

【課題】ライブショーの状況下で、オーディオデータの再生を制御するユーザの芸術的かつクリエイティブな自由度を高める、オーディオデータを処理および再生するための方法および装置を提供する。【解決手段】方法は、ミキシング入力データを受信するステップと、再結合出力データを再生するステップと、を含む。さらに、好ましくはＤＪ機器であるオーディオデータを処理および再生するための装置は、ミキシング入力信号を受信するためのオーディオ入力ユニット１２と、再結合ユニット３２−１、３２−２と、再結合出力データを再生するための再生ユニット（オーディオインタフェース３４）と、を含む。【選択図】図２

Description

本発明は、オーディオデータを処理および再生する装置、特にＤＪ機器に関するものであり、第１および第２のミキシング入力データを受信するための第１および第２のオーディオ入力ユニットと、第１および第２のミキシング入力データから取得されたオーディオデータを再結合するための再結合ユニットと、出力データを再生するための再生ユニットと、を含む。さらに、本発明は、かかる装置を使用する方法に関する。

上述した特徴を有するオーディオ機器は、オーディオデータを再生、処理、伝送、記録する種々の用途に使用されている。特に、かかる種類の方法および装置は、音楽エンターテインメントの分野で使用されており、ライブエンタテインメント用のサウンドシステムおよびパブリックアドレスシステム（ＰＡシステム）に実装することができる。一例として、少なくとも２つの異なる入力信号を受信するように従来から適合化されたＤＪ機器があり、当該ＤＪ機器は、所望の音量レベルで２つの入力信号をミキシングする再結合ユニットを含む。ＤＪ装置には、通常、第１の入力信号の音量レベルを上げると同時に第２の入力信号の音量レベルを下げて、入力信号間を連続的にブレンドする、クロスフェーダと称される制御要素が含まれている。

近年、ライブショー中のディスクジョッキーのクリエイティブかつ芸術的な貢献は、特定の会場での全体的なエンターテインメントの質だけでなく、現代音楽の発展そのものにも大きな影響を与えている。影響力のあるＤＪが開発した特定のオーディオエフェクト、タイミングおよびピッチのバリエーションは、従来の手法で制作されたレコーディングを現代風にアレンジする際にも使用されている。このため、当該分野では、既存のオーディオ信号をライブで調整して、ショー中のＤＪの創作の自由度をさらに高めるための新しい技術の開発が強く望まれている。

ＤＪの作業のクリエイティブな側面に加えて、２つの楽曲の間をシームレスにブレンドさせることがＤＪの大きな役割である。このため、従来のＤＪ機器では、一方の楽曲のテンポおよびキーを他方の楽曲のテンポおよびキーに合わせてそれぞれ変更する特徴部、および２つの楽曲のオーディオエフェクト、例えばイコライザエフェクトの音量またはパラメータをクロスフェードさせる制御部が備えられている。スムーズなトランジションを実現するために、２つの楽曲のボーカルの衝突を回避することがＤＪの目的である。そのため、トランジションは、２つの楽曲のうち少なくとも一方の楽曲のボーカルトラックが一時停止している時間間隔、例えばインストゥルメンタルのソロパート、アウトロパート、またはコーラスとヴァースとの間の休止時間、または同様の位置で行われるのが一般的である。しかし、これはＤＪに相当の制約を課すものであり、ミキシングの際に楽曲の素材についての十分な知識または分析が必要となる。さらに、多くの楽曲で、特にポップスまたはヒップホップなどのジャンルでは、ＤＪがスムーズに次の楽曲にトランジションできるようなボーカルトラックの休止部が極めて少ない場合が多い。かかる楽曲の場合、従来の手法では、２つのボーカルが一緒に再生されて衝突したり、流れが途絶したりすることを回避できない場合がある。同様に、ボーカルが全く含まれない場合もある電子音楽の場合、ＤＪの目的は、２つの楽曲のベースライン、シンセサイザなどが衝突しないようにすることである。トランジションは通常、２つの楽曲のうち少なくとも一方の楽曲で、例えば楽曲の終わりもしくは始まりへ向かって、１つ以上の音色／メロディトラックが一時停止している時間間隔において、または楽曲の休止部分もしくはパーカッシブな部分などにおいて、行われる。

オーディオソース、特にＤＪが利用できる入力データに関しては、従来の方法および装置は、通常、オンラインデジタルミュージックストアまたはストリーミングサービスから取得されたミキシングステレオオーディオファイルなどのミキシング入力信号の処理に限定されている。オーディオファイルは、通常、音楽スタジオにおいて、複数のソーストラック、例えば複数のボーカルトラックおよびインストゥルメンタルトラックをミキシングし、オーディオエフェクトをかけ、プロジェクトをマスタリングしてステレオオーディオファイルを取得することで制作される。完成したオーディオファイルは、すべてのソーストラックおよびエフェクトなどの和信号であるため、個々のソーストラックに関する情報は通常は失われ、オーディオファイルのみを直接に検査しても利用することはできない。

近年、ミキシングオーディオ信号を分解して信号のボーカルパートを分離するための幾つかのアプローチが登場しており、これらは人工知能およびディープニューラルネットワークに基づいている。ＡＩシステムには、通常、畳み込みニューラルネットワーク（ＣＮＮ）が実装されており、ボーカルトラック、インストゥルメンタルトラック、ならびにボーカルトラックおよびインストゥルメンタルトラックのミックスなど、複数のデータセットによって訓練されている。ミキシングオーディオ信号から歌声のトラックなどのソーストラックを分離することができる、かかる従来のＡＩシステムの例としては、Pretet, “Singing Voice Separation: A study on training data”, Acoustics, Speech and Signal Processing (ICASSP), 2019, 506-510頁、「spleeter」（上記Pretetの教示に基づいて音楽ストリーミング会社Deezerが提供するオープンソースのツール）、「PhonicMind」（https://phonicmind.com、ディープニューラルネットワークに基づく音声および音源の分離装置）、「Open-Unmix」（周波数領域のディープニューラルネットワークに基づく音源分離装置）、またはFacebook AI Research社の「Demucs」（波形領域のディープニューラルネットワークに基づく音源分離装置）などが挙げられる。これらのツールは、標準的なフォーマット（ＭＰ３，ＷＡＶ，ＡＩＦＦなど）の音楽ファイルを受信し、楽曲全体を分解して、楽曲の分解／分離されたトラック（ボーカルトラック、ベーストラック、ドラムトラック、伴奏トラック、またはこれらのミクスチャなど）を提供する。これらのトラックは、ユーザがオーディオ制作、分析目的または再生のために保存することができる。この場合、例えば、市販されている楽曲からボーカルトラックを削除することによるカラオケ機器の設定に、従来のＡＩシステムを使用することができる。

ソーストラックを入力ファイルとしてＤＪシステムにロードし、ライブショー中にトラックを再結合するという方法も考えられるが、複数の理由から、かかるアプローチはＤＪの間では普及しなかった。

第一に、レコード会社またはプロデューサは、完全なミキシングオーディオファイルを提供するのみであり、商業的にリリースされた音楽の個々のソーストラック、例えば元のボイストラックは、通常、個別に入手することができない。第二に、オーディオデータをその場（on the fly）で処理および再生する必要がある音楽ストリーミングの場合、オーディオコンテンツ全体を前もってダウンロードして、上述のツールのうちの１つのようなソフトウェアモジュールで再生前に事前処理することは、通常、不可能である。

第三に、再生時間が数分以上の典型的なオーディオファイルの分解は、特にニューラルネットワークを使用する場合に、比較的時間を要する複雑な計算を伴う。そのため、ショーの前にセットアップを準備する（すなわち、ショー中の使用が所望されうるすべてのトラックをアップロード、分解、ダウンロード、保存および整理する）には、多大な時間および作業が必要になる。概して、ニューラルネットワークを用いた分解により、良質で正確なトラックの分離が実現されることが知られているが、通常のサイズ（数分の再生時間）のオーディオファイルを分解するには、比較的長い時間を要する。一方、ニューラルネットワークを使用しない分解は、例えば（多くのボーカルソーストラックはモノラルで録音されており、ステレオの両チャネルに均等に適用されるという想定に基づく）位相キャンセルとしても知られる、ステレオオーディオファイルの右チャネルから左チャネルを差し引くような単純なデジタル信号処理に基づいており、処理時間が短く、ライブ環境での使用に適していることが知られているが、これらのアプローチは品質が低く、通常、期待した結果を得ることができない。第四に、個別のトラックの再生を可能にするＤＪシステムには、各トラックの音量を調整するための個別のフェーダを備えたマルチチャネルミキシングユニットが必要になる。かかる追加のフェーダをＤＪが同時に操作することは困難であり、システムの複雑さが増大する。

以上の背景に鑑み、本発明の目的は、好ましくはライブショーの状況下で、オーディオデータの再生を制御するユーザの芸術的かつクリエイティブな自由度を高める、オーディオデータを処理および再生するための方法および装置を提供することである。

本発明の第１の態様によれば、上記の目的は、オーディオデータを処理および再生するための方法であって、（ａ）ミキシング入力データを受信するステップであって、前記ミキシング入力データが、少なくとも１つの第１のソーストラックと少なくとも１つの第２のソーストラックとをミキシングして取得された和信号である、ステップと、（ｂ）ミキシング入力データを分解して、少なくとも１つの第１のソーストラックに類似した少なくとも第１の分解トラックを取得するステップと、（ｃ）第１の分解トラックに基づいて出力データを生成するステップと、（ｄ）オーディオ出力部を介して出力データを再生するステップと、を含む方法によって実現される。

本開示の文脈では、ミキシング入力データは、特にインストゥルメンタル奏者および／またはボーカリストのライブ音楽演奏の録音中の音楽制作中に、複数のソーストラックをミキシングして取得されるオーディオ信号を表す。したがって、ミキシング入力データは、本発明の方法による処理の開始前に完了している事前のミキシング処理から取得される。換言すれば、本発明の方法は、本発明の処理とは別の事前のミックスダウン処理の入力データを使用するものである。具体的には、ミキシング入力データは、オーディオファイルであってよく、例えば、レコーディングスタジオで複数のソーストラックをミキシングして制作された音楽作品を含むオーディオファイルであってもよい。例えば、第１のソーストラックは、ボーカリストをマイクで録音して取得されたボーカルトラックであってもよく、第２のソーストラックは、インストゥルメンタル奏者をマイクで録音して取得されたインストゥルメンタルトラックまたは楽器からのダイレクトライン信号であってもよい。通常、複数のボーカルトラックおよび／または複数のインストゥルメンタルトラックが同時に、または順次録音されていく。その後、複数のソーストラックがミキシングステーションに転送され、そこでソーストラックが個別に編集され、種々のサウンドエフェクトがソーストラックに適用され、個々の音量レベルが割り当てられ、好ましくは最終的に１つ以上のマスタリングエフェクトがすべてのトラックの和に適用される。制作プロセスの最後には、最終的なオーディオミックスが適切な記録媒体に保存される。例えば、コンピュータのハードドライブにオーディオファイルとして保存される。かかるオーディオファイルは、Apple Mobileオペレーティングシステム（iOS）、Apple Macintoshオペレーティングシステム（macOS）、Microsoft Windowsオペレーティングシステム、またはGoogle Androidオペレーティングシステムなどを搭載したコンピュータまたはスマートフォンなどの標準的な再生装置で読み取り可能であるように、ＭＰ３，ＷＡＶ，ＡＩＦＦなどの従来のオーディオファイル形式であることが好ましい。

本発明の実施形態において、ミキシング入力データは、好ましくはオーディオファイル、特に音楽を含むオーディオファイルである。本発明の方法または装置は、好ましくは、かかるオーディオファイルを装置のローカルストレージ手段に保存し、かつ／またはかかるオーディオファイルを、例えばインターネットを介してリモートサーバから受信して、特にストリーミングするように構成される。そのため、本発明の装置は、オーディオファイルを受信するように構成されたＷＩＦＩインタフェースまたはＬＡＮインタフェースなどのネットワーク接続手段を含むことができる。代替的にもしくは付加的に、装置は、ＢｌｕｅｔｏｏｔｈインタフェースもしくはＵＳＢポートなど、オーディオファイルを受信するように適合化された他の接続機器を有してもよい。装置は、オーディオデータを保存するためのハードドライブを有してもよい。

本発明の一実施形態によれば、ミキシング入力データの受信、ミキシング入力データの分解、出力データの生成および再生の各ステップは、連続したプロセスで実施される。これは、オーディオデータの入力（ミキシング入力データの受信）から出力（出力データの再生）までの処理が、連続的に、またはその場で、つまり大幅な時間の遅れなく実施されることを意味する。例えば、ミキシング入力データを受信してから、２秒未満、好ましくは１５０ミリ秒未満、最も好ましくは５０ミリ秒未満で、分解されたオーディオデータの再生を開始することができる。特に、オーディオファイルを分解サービスプロバイダのリモートサーバにアップロードしたり、リモートサーバ上で分解が終了するのを待機してサーバからローカル装置に分解トラックをダウンロードしたり、ローカルメモリに分解トラックを保存して、その後、分解トラックを再生したりする必要がなくなる。ミキシング入力データの受信、ミキシング入力データの分解、出力データの生成および再生といった処理のすべてのステップを、単一の装置内で実施することで、またはケーブルで、かつ／もしくはローカルネットワーク内で、かつ／もしくは近距離無線接続（ＷＩＦＩ，Ｂｌｕｅｔｏｏｔｈ，ＩＲなど）を介して互いに接続された複数のローカル装置内で行うことで、連続処理を実現できる。付加的にもしくは代替的に、ミキシング入力データを受信するステップ、ミキシング入力データを分解するステップ、出力データを生成して再生するステップを含む連続処理は、コンピュータ、タブレット、スマートフォン、スタンドアロンのＤＪハードウェアコンソールなどの電子制御ユニット（ＥＣＵ）上で実行できるように適合化された単一のソフトウェアアプリケーション（単一のソフトウェアプログラムまたはアプリ）内で実装することができる。

本発明の方法によれば、上述の種類のミキシング入力データが受信され、分解されて、第１のソーストラックまたは第１のソーストラックの和に類似した第１の分解トラックが取得される。任意で、分解中に、第２のソーストラックまたは第２のソーストラックの和に類似した第２の分解トラックを取得することができる。例えば、第１の分解トラックは、元のボイストラックまたは複数のボイストラックの和信号、例えば、コーラスの各ボーカリストの元のボイストラックの和、または二重化されたボーカルトラックの２つ以上のボイストラックの和信号に類似していてもよい。同様に、第２の分解トラックは、単一の録音もしくは制作されたインストゥルメンタルトラックなどの元のインストゥルメンタルトラック、またはすべてのインストゥルメンタルトラックの和信号などの複数のインストゥルメンタルトラックの和信号に類似していてもよい。好ましい実施形態では、第１の分解トラックは、メインボーカルトラックまたは分離されたすべてのメインボーカルトラックの和に類似しており、一方、第２の分解トラックは、ミックスの残りの部分、すなわち単一のメインボーカルトラック／複数のメインボーカルのトラックを除くすべてのトラックの和に類似している。

分解結果の品質、すなわち、分解トラックがその対応するソーストラックまたはソーストラックの対応するミクスチャにどれだけ類似しているかは、例えば、ＭＵＳＤＢ１８データセット（Zafar Rafii, Antoine Liutkus, Fabian-Robert Stoeter, Stylianos Ioannis Mimilakis, and Rachel Bittner, “The musdb18 corpus for music separation” 2017）を用いて評価することができ、これは、分解アルゴリズムの評価のための標準的なベンチマークおよびリファレンスデータベースとして機能している。ＭＵＳＤＢ１８データセットを用いた実験では、概して、他の測定値の中でも信号対歪み比（ＳＤＲ）が測定され、また、分解結果の知覚的な品質に関する平均意見スコア（ＭＯＳ）で評価される人間による評価も測定される。

最先端のＳＤＲのスコアは５．０より大きく、中には７．０より大きいものもある（Defossez, A., Usunier, N., Bottou, L., & Bach, F.(2019). “Music Source Separation in the Waveform Domain” arXiv preprint arXiv:1911.13254.）。

人間による評価については、例えば、１〜５のスケールで２つのレーティングを行うことができる。第一の評価は、品質およびアーティファクトの有無（１：多くのアーティファクトおよび歪みがあり、コンテンツはほとんど認識できない。５：完璧な品質、アーティファクトなし）であり、第二の評価は、他のソーストラックによるコンタミネーション（１：コンタミネーションが頻繁に存在し、かつ大きい。５：コンタミネーションなし）である。最先端における人間による評価のレーティングは、３．０より大きく、または４．０より大きくなることさえある。好ましくは、本発明の実施形態では、少なくとも第１のソーストラックと少なくとも第２のソースとをミキシングして取得されたミキシングトラックを分解して、分解トラックを実現するステップにおいて、分解トラックは、第１のソーストラックに類似しており、ＭＯＳスコアが２．０より大きく、好ましくは４．０より大きく、かつ／またはＳＤＲスコアが３．０ｄＢより大きく、好ましくは５．０ｄＢより大きい。

本発明の一実施形態では、第２のトラックが提供されてもよく、好ましくは連続プロセスとして実施される本方法は、ユーザからの制御入力を読み取るステップであって、前記制御入力が、第１の分解トラックの第１の音量レベルおよび第２のトラックの第２の音量レベルの所望の設定を表す、ステップと、再結合出力データが生成されるように、少なくとも第１の音量レベルでの第１の分解トラックと第２の音量レベルでの第２のトラックとを再結合するステップと、再結合出力データを再生するステップと、をさらに含んでいてよい。第２のトラックは、第２のミキシング入力データ（例えば第２の楽曲）から取得された独立したトラックであってもよく、またはミキシング入力データを分解するステップで取得可能であって、これによりミキシング入力データのうちの少なくとも１つの第２のソーストラックに類似した第２の分解トラックを形成可能なものであってもよい。

本開示の文脈において、第１のトラックと第２のトラックとを再結合することは、例えば、それぞれの音量レベルに基づいてトラックをスケーリングする（例えば、第１および第２のトラックの信号値にそれぞれの第１および第２の音量レベルを乗算するか、または第１および第２の音量レベルに応じて第１および第２のトラックを増幅する適切な増幅ユニットを使用する）第１のステップと、ソフトウェアもしくはハードウェアミキサでスケーリング／増幅されたトラックをミキシングする（例えば、スケーリング／増幅されたトラックの信号値をそれと等しい時間フレームか、または対応する時間フレームで合計する）第２のステップと、を含む再結合処理によって、既知の任意の手法で実現することができる。

特に、本発明の一実施形態によれば、オーディオデータを処理および再生するための方法であって、当該方法が、ミキシング入力データを受信するステップであって、前記ミキシング入力データが、少なくとも１つの第１のソーストラック（例えばボーカルトラック）と少なくとも１つの第２のソーストラック（例えばインストゥルメンタルトラック）とをミキシングして取得された和信号である、ステップと、ミキシング入力データを分解して、少なくとも１つの第１のソーストラックに類似した第１の分解トラックおよび少なくとも１つの第２のソーストラックに類似した第２の分解トラックを取得するステップと、ユーザからの制御入力を読み取るステップであって、前記制御入力が、第１の分解トラックの第１の音量レベルおよび第２の分解トラックの第２の音量レベルの所望の設定を表す、ステップと、再結合出力データが生成されるように、少なくとも第１の音量レベルでの第１の分解トラックと第２の音量レベルでの第２の分解トラックとを再結合するステップと、再結合出力データを再生するステップと、を含む方法が提供される。

上述の実施形態のいずれかにしたがって第２のトラックを使用することは、新規の再結合、例えば、第１の分解トラックと別のトラックとに基づいたリミックスまたはマッシュアップを作成して直ちに再生するためのライブアプリケーションに特に適している。好ましくは、本発明において、ユーザは、本方法により第１および第２の分解トラックの音量レベルを制御し、指定された音量レベルでの第１および第２の分解トラックを再結合し、第１および第２の分解トラックを再結合して取得された再結合出力信号を再生することができる。具体的には、これにより、ＤＪは楽曲間でシームレスなトランジションを行うことができ、特にトランジション中にボーカル再生が重複することを回避できる。両方の楽曲にボーカルパートが含まれている再生の時間間隔でも、ユーザは、例えば、一方のボーカルの音量をフェードアウトし、もう一方の楽曲のボーカルをフェードインするスペースを提供して、楽曲をシームレスにブレンドさせることができる。ボーカルトランジションの前、後、または途中の任意のタイミングで、ユーザは、第１の楽曲のインストゥルメンタルトラックから第２の楽曲のインストゥルメンタルトラックへのトランジションを実行することができる。

本発明の方法によって実現されるもう１つの利点は、ユーザがオーディオミックスの個々の成分にアクセスして、これらの成分を修正して再結合し、いわゆるマッシュアップまたはリミックスを作成できることである。これにより、ライブショー中などでオーディオを再生する際に、ユーザの創造性または芸術性を発揮するための新たな選択肢が数多く提供される。例えば、ユーザは、制御入力を使用して、再結合出力データを再生しながら、分解ボーカルトラックと分解インストゥルメンタルトラックとの間の音量比を操作することができる。例えば、後で詳しく説明するように、ボーカルとインストゥルメンタルとの間を必要に応じてスワイプしたり、インストゥルメンタルを維持しながら２つの楽曲のボーカルをスワップしたり、その逆を行ったりすることができる。

本発明の好ましい実施形態では、ミキシング入力データの分解は、セグメントごとに実施され、ここで、分解、および必要に応じて再結合は、ミキシング入力データの第１のセグメントに基づいて実施されて、出力データの第１のセグメントが取得され、ミキシング入力データの第２のセグメントの分解が、出力データの第１のセグメントを再生しながら実施される。

本実施形態では、ミキシング入力データをセグメントごとに並列に分解することで、分解計算の実行に必要な時間を大幅に短縮し、これにより、出力データの再生を著しく早く、好ましくは即座に、すなわち顕著なレイテンシなく開始することを可能にする。特に、再生可能な分解トラックデータを取得するために完全な入力データ（完全なオーディオファイルなど）を分解する必要がない。むしろ、再生を開始するためには、オーディオファイルの１つのセグメントのみ、またはすべてではなく一部のセグメントのみの分解を終了すれば十分である。これは、分解計算の一部、特にオーディオファイルの他のセグメントの分解が、先行するセグメントの再生中に実施されるためである。

セグメントごとの分解の別の技術的効果は、メモリ効率が向上し、すべてのミキシング入力データ、特に入力オーディオファイル全体を機器のローカルメモリに一度に保存する必要がないことである（これは、ストリーミングでの使用を目的としたオーディオ素材を提供するソースでは不可能であり、望ましくない場合もある。しかし、これは、例えば、入力オーディオファイル全体のハードドライブへのダウンロードおよび／または永久保存を目的としたものではない）。これとは異なり、オーディオデータの分解および再結合は、例えばストリーミング音楽サービス（Spotify、Apple Musicなど）のようなリモートサーバからの連続的なオーディオストリームなど、ミキシング入力データの連続的な流れに基づいて、その場で実施することができる。したがって、ミキシング入力データは、リモートサーバから、好ましくはインターネットを介してストリーミングで受信することができる。

また、セグメント単位で分解することで、任意の所望の位置（任意の所望の再生時間）から出力データの再生を開始できるという別の利点もある。特に、最初に分解される第１のセグメントは、必ずしもオーディオファイルの先頭にある開始セグメントである必要はない。特に、オーディオファイル全体を処理および分解する必要はなく、所望の再生位置を含むまさにそのセグメントから分解を開始することができる。そのため、オーディオファイル全体のサイズおよび再生時間に関係なく、オーディオファイル内の任意の位置に素早く正確に前後にジャンプして、認識可能な遅延が少ないか、または全くない状態で再生することができる。

本発明のさらなる実施形態によれば、上述の種類の方法を提供することができ、ステップ（ａ）において、所定のファイルサイズおよび所定の再生時間を有し、ミキシング入力データを再生するためのオーディオデータを含む入力オーディオファイルが受信され、所定の再生時間より小さい第１の時間間隔内でミキシング入力データを再生するためのオーディオデータを含む第１のセグメントが、入力オーディオファイルから抽出され、ステップ（ｂ）において、入力オーディオファイルの第１のセグメントが分解されて、第１の分解トラックの第１のセグメントおよび任意に第２の分解トラックの第１のセグメントが取得され、ステップ（ｃ）において、出力データの第１のセグメントが、第１の分解トラックの第１のセグメントから、好ましくは、少なくとも第１の音量レベルでの第１の分解トラックの第１のセグメントと第２の音量レベルでの第２の分解トラックの第１のセグメントとを再結合することによって、生成される。ここで、本方法は、（ａ２）入力オーディオファイルから、第２のセグメントを抽出するステップであって、第２のセグメントが、第１のセグメントとは異なっており、入力オーディオファイルの所定の再生時間より小さく、かつ第１の時間間隔に対して時間的にシフトされた第２の時間間隔内でミキシング入力データを再生するためのオーディオデータを含む、ステップと、（ｂ２）入力オーディオファイルの第２のセグメントを分解して、第１の分解トラックの第２のセグメントを取得し、かつ任意に第２の分解トラックの第２のセグメントを取得するステップと、任意に、（ｃ２）少なくとも第１の音量レベルでの第１の分解トラックの第２のセグメントと第２の音量レベルでの第２の分解トラックの第２のセグメントとを再結合して、出力データの第２のセグメントを生成するステップと、をさらに含み、ステップ（ａ２）、（ｂ２）および（ｃ２）のうちの少なくとも１つが、出力データの第１のセグメントを再生しながら実行され、出力データの第２のセグメントの生成が、出力データの第１のセグメントの再生が完了する前に完了する。

本開示では、オーディオデータのファイルサイズまたはサイズは、復号データおよび／または非圧縮データの総フレーム数を意味しており、オーディオデータの特定のサンプリングレートに応じて、一定のフレーム数が一定の再生時間に対応する。

本実施形態によれば、ミキシング入力データは、所定のファイルサイズおよび所定の再生時間の入力オーディオファイルである。かかる入力オーディオファイルは、ローカルストレージ装置から取得することができ、または例えばインターネットなどを介してリモートサーバからストリーミングすることもできる。上述したように、入力オーディオファイル（またはその画像／コピー）、好ましくは圧縮フォーマットを入力として使用する場合の入力オーディオファイルの復号バージョンは、仮想的に少なくとも２つのセグメントに分割され、セグメントに基づいてさらなる処理（特に分解）が実行される。セグメントが分解されるとすぐに、分解トラックのセグメントのさらなる処理が直ちに行われ、特に再結合されて再生されるが、一方で、第２のセグメントの分解を開始または継続することができる。セグメントのサイズ（フレーム数）および再生時間は、入力オーディオファイルのサイズおよび再生時間（通常は数分）に比べて通常短い（好ましくは格段に短い、例えば２０秒未満の再生時間）ため、セグメントの分解に必要な時間は大幅に短くなり、出力信号の対応するセグメントの再生をより早く開始することができる。さらに、出力データの第１のセグメントの再生中に、入力オーディオファイルの第２のセグメントの処理、特に第２のセグメントを分解して第１の分解トラックの第２のセグメントを取得すること、および任意で第２の分解トラックを取得することを、並行して実施することができる。好ましくは、すべてのセグメントは一定の大きさを有する。

好ましくは、入力オーディオファイルが分割される個々のセグメントのサイズは、出力データの第１のセグメントの再生が完了する前に出力データの第２のセグメントの生成が完了するように、個々のセグメントを分解するのに必要な処理時間に適合化されている。その結果、出力トラック全体の再生、すなわち出力トラック全体または再生部分の連続したすべてのセグメントの連続再生は、第１のセグメントの処理／分解の完了後、直ちに実行することができる。

好ましくは、第１の時間間隔の長さは、第１のセグメントを分解するのに必要な時間が２秒未満となるように設定されており、その結果、本方法は、例えば、ＤＪが特定の効果を実現するために１つ以上の分解トラックを再生することを自発的に決定するようなライブ状況で使用することができる。さらに、第１のセグメントを分解するのに必要な時間を１５０ミリ秒未満に設定すれば、分解トラックの再生を所与のビートに合わせてより正確にトリガすることができ、オーディオファイルの任意の部分を実質的にリアルタイムで再生することが可能になる。最も好ましくは、オーディオファイル内の再生およびビート／タイミングの同期および位置シフトが実質的にレイテンシフリー（認識できるタイムラグが発生しない）で実行できるように、第１のセグメントを分解するのに必要な時間は、５０ミリ秒未満である。かかる条件のもと、ＤＪは、元のミキシングオーディオファイルまたは従来のエフェクトトラックなどと同様に、オーディオファイルの分解トラックを扱うことができる。適切なセグメントサイズを見つけるために、当業者は、所与のハードウェアおよびソフトウェア構成が特定の再生時間Ｔ１のオーディオデータを分解するのに必要な時間ｔ１を測定し、次いで、許容可能な時間遅延／レイテンシとしての要件に応じて所望の分解時間ｔ２を選択し、次いで、例えばＴ２＝Ｔ１^＊ｔ２／ｔ１の式からセグメントの再生時間Ｔ２を取得することができる。この場合、オーディオデータの分割は、それぞれ再生時間Ｔ２を有する連続したセグメントとなるように実施することができる。セグメントサイズを過小に選択すると、分解の質が低下する。セグメントサイズを過大に選択すると、処理時間が長くなり、結果的にレイテンシが大きくなる。

上記のような方法、特に入力オーディオファイルのセグメントを処理してライブパフォーマンスに適したレベルまで処理時間を短縮する方法を用いれば、原理的に、所望の再生位置から始まる特定のサイズのセグメントを処理することで、任意の所望の位置（出力トラック内の時間的位置）から分解トラックの再生を開始することが可能となる。これにより、原理的に、レイテンシおよび音質に関する許容可能な結果が実現され、これを、例えばミュージックプレーヤアプリケーションのように、ユーザがトラックの特定の位置にジャンプして、その位置から先のトラックを再生したいアプリケーションに使用できる。ただし、特にクリエイティブなＤＪの作業では、細かい位置の移動、順方向再生と逆方向再生との切り替え、または再生速度の変更などを素早く正確に実行したい場合がある。例えば、「スクラッチ」と称される手法では、ＤＪが楽曲の特定の位置で素早く順方向再生と逆方向再生とを切り替え、再生中のヴァイナルレコードを素早く順回転および逆回転させることで実現される効果と類似した対応するスクラッチオーディオ効果を実現することができる。本発明の発明者は、分解トラックから取得された出力トラックにかかる技術を適用すると、オーディオアーティファクトが発生し、対応するソーストラックまたは対応する従来のミキシングトラックに同じ技術を適用した場合に期待されるような結果を実現できない場合があることを発見した。

本発明者らは、この問題が、本発明の一実施形態によって解決できることを見出している。当該実施形態には、所定のファイルサイズおよび所定の再生時間を有し、ミキシング入力データを再生するためのオーディオデータを含む入力オーディオファイルを受信するステップと、入力オーディオファイルを、互いに続く複数の時間間隔内でミキシング入力データを再生するためのオーディオデータを含む、複数の連続するセグメントに分割するステップと、入力オーディオファイルをある再生開始位置から再生するというユーザの指示を表す再生位置コマンドを、ユーザから受信するステップと、複数の所定のセグメントのなかから、第１のセグメントに対応する時間間隔内に再生開始位置がある第１のセグメントを識別するステップと、入力オーディオファイルの第１のセグメント（最初に処理されるセグメントであり、入力オーディオファイルの開始セグメントである必要はない）を分解して、第１の分解トラックの第１のセグメントおよび任意に第２の分解トラックの第１のセグメントを取得するステップと、好ましくは、少なくとも第１の音量レベルでの第１の分解トラックの第１のセグメントと第２の音量レベルでの第２の分解トラックの第１のセグメントとを再結合することによって、第１の分解トラックの第１のセグメントに基づいて、出力データの第１のセグメントを生成するステップと、出力データの第１のセグメントを、出力データの第１のセグメントの時間間隔の開始位置よりも後または等しい再生位置である再生開始位置から再生するステップと、が含まれる。明確化のために、第１のセグメントは、必ずしもオーディオファイルの開始セグメントではなく、所望の再生開始位置を含むセグメント、したがってプロセスで最初に分解されるセグメントである。

連続したセグメントとは、特定のセグメントの開始位置が先行するすべてのセグメントの開始位置よりも後になるように選択されたセグメント、特に、固定されたセグメントを指すことに注意されたい。

本実施形態では、入力オーディオファイルの分解が再びセグメント単位で実行される。しかし、分解される第１のセグメントの開始点は、次に再生されるデータが含まれていることから、セグメントを定義する最も時間効率の良い手法と考えられるため、ユーザが選択した所望の再生開始位置と必ずしも一致しない。その代わりに、入力オーディオファイル全体の固定されたパーティショニングが、分割するステップで設定され、セグメントの開始点および終了点が、この入力オーディオファイルの各分解サイクルにおいて固定して維持される。この手法により、分解トラックおよび出力データの連続したセグメントの隣接部分に発生する音のアーティファクトが大幅に低減され、または完全に回避さえされうることが判明した。改善の理由の１つとして、分解するステップでＡＩシステムが使用されている場合、トラック内の特定のオーディオ位置で分解されたオーディオ信号が、トラック内の特定のオーディオ位置の前後でＡＩシステムによって分析されたデータ（すなわち、特定の位置を含み、ＡＩシステムによって分析されたそれぞれのセグメントの開始点と終了点との間のオーディオデータ）に依存していることが考えられる。入力オーディオファイル全体に固定された開始点および終了点を有する所定のセグメントが存在することで、同じセグメント内にある入力オーディオデータの同じ部分の分析から、常に同じ分解されたオーディオデータが取得されることが保証される。例えば、あるセグメントの開始位置が１５：００（秒：１００分の１秒）で、再生時間が５秒の場合、再生開始位置１５：３０，１７：５０，１８：００は、すべて同一の分解セグメントに基づいており、同じ分解セグメント内の異なる位置のオフセットを使用しているに過ぎない。

本発明の別の好ましい実施形態では、ミキシング入力データは、少なくとも第１のソーストラック（例えば第１のボーカルトラック）と第２のソーストラック（例えば第１のインストゥルメンタルトラックまたは複数のインストゥルメンタルトラック）とをミキシングして取得された和信号である第１のミキシング入力データである。本方法は、前記第１のミキシング入力データとは異なる第２のミキシング入力データを受信するステップをさらに含み、前記第２のミキシング入力データは、少なくとも１つの第３のソーストラック（例えば第１のボーカルトラックとは異なる第２のボーカルトラック）と、少なくとも１つの第４のソーストラック（例えば第１のインストゥルメンタルトラックとは異なる第２のインストゥルメンタルトラック）とをミキシングして取得された和信号である。さらに、本方法は、第２のミキシング入力データを分解して、少なくとも１つの第３のソーストラックに類似した第３の分解トラックと、少なくとも１つの第４のソーストラックに類似した第４の分解トラックと、を取得するステップを含んでもよく、ここで、（例えば、１つ以上の制御要素を介して受信した）ユーザからの制御入力を読み取るステップにおいて、前記制御入力は、第１の分解トラックの第１の音量レベル、第２の分解トラックの第２の音量レベル、第３の分解トラックの第３の音量レベル、および第４の分解トラックの第４の音量レベルの所望の設定を表し、再結合するステップにおいて、第１の音量レベルでの第１の分解トラック、第２の音量レベルでの第２の分解トラック、第３の音量レベルでの第３の分解トラック、第４の音量レベルでの第４の分解トラックを再結合することにより、再結合出力データを生成する。

かかる実施形態は、特にＤＪ環境で使用することができ、２つの異なるオーディオファイル（例えば、２つの異なる楽曲）などの２つの異なるミキシング入力データが、少なくとも一定の時間、同時に再生されるＤＪ機器に実装することができる。例えば、第１の楽曲の再生中に第２の楽曲の再生を開始し、第１の楽曲の音量レベルを第２の楽曲の音量レベルに合わせて下げることで、第１の楽曲から第２の楽曲へとスムーズにブレンドオーバーさせることができるようになる。上述した本実施形態の方法では、第１および第２のミキシング入力データの両方を、それぞれ第１および第２の分解トラックと第３および第４の分解トラックとに分解することができ、ユーザは、分解トラックを所望の音量レベルで個別に再結合する機会を有することができる。上述したように、特に、かかる特徴部を使用して、ＤＪは、２つの楽曲の間をスムーズにブレンドし、異なる楽曲のボーカルトラックが同時に聞こえることを避けることができる。さらに、本実施形態では、第１のミキシング入力データの分解トラックのうちの１つを、第２のミキシング入力データの分解トラックのうちの１つと結合することが可能となるため、第１および第２のミキシング入力データの成分の和信号またはマッシュアップ／リミックスを作成することができる。これは完全に新規なものであり、驚くべき効果を実現することができる。例えば、第１のミキシング入力データの分解ボーカルトラックを、第２のミキシング入力データの分解インストゥルメンタルトラックと再結合して、一方の楽曲の歌手が他方の楽曲のインストゥルメンタルに伴奏されているのを聴くことができる。

好ましくは、ミキシング入力データおよび分解トラックのうちの少なくとも１つ以上、最も好ましくはそのすべてが、ステレオデータであり、それぞれが左チャネルの信号部分および右チャネルの信号部分を含む。このように、本方法は、ステレオオーディオの能力および音響効果を利用するように適合化されている。他の実施形態では、モノラルデータおよびモノラルトラック、または任意の他の数のチャネルを有するトラック（例えば、５．１または７．１サラウンドトラック、複数のストリームを有するＭＰ４）を使用することができる。

ミキシング入力データを分解して少なくとも１つの分解トラックを取得することは、任意のアルゴリズム、フィルタリング、エフェクトアプリケーション、またはミキシング入力データを取得するために事前にミックスダウンされた元のオーディオ素材の１つ以上のソーストラックと音響的に類似したまたは等しいミキシング入力データから少なくとも１つの分解トラック（特にボーカルトラック）を分離できる他の処理によって実現することができる。例えば、分解することには、例えばフーリエ変換アルゴリズムを用いて周波数スペクトルを算出することと、周波数スペクトルをフィルタリングしてミキシング入力データの特定の成分、特にボーカル成分に属する周波数を抽出することと、抽出された周波数を例えば逆フーリエ変換を用いて再変換することで、第１または第２の分解トラックのオーディオデータを取得することと、が含まれてもよい。

本発明のすべての態様の好ましい実施形態では、ミキシング入力データを分解することには、ＡＩシステム（人工知能システム）によってミキシング入力データを処理することが含まれ、前記ＡＩシステムは、好ましくは、例えば畳み込みニューラルネットワーク（ＣＮＮ）などの少なくとも１つのディープニューラルネットワークに基づいており、かつ／または複数の訓練用オーディオデータのセットによって訓練されている。訓練用オーディオデータの各セットには、少なくとも、例えばボーカルトラックなどの第１のソーストラック、および少なくとも第１のソーストラックと例えばインストゥルメンタルトラックなどの第２のソーストラックとをミキシングして取得された和信号であるミキシングトラック、が含まれていてよい。

ＡＩシステムを使用することで、ミキシング入力データを高品質に分解することができ、分解結果は、元のソーストラックに非常に類似しているか、またはすべての元のソーストラックよりも少ない和信号に非常に類似している。例えば、ＭＯＳスコアが４．０より大きく、かつ／またはＳＤＲスコアが５．０ｄＢより大きい類似性を、ＡＩシステムを使用することで実現できる。ＡＩシステムは、１つ以上のレコード会社および／または音楽制作会社、１つ以上の音楽配信会社／ストリーミング会社、またはそれらの間の協力関係会社から取得されたオーディオデータによって提供され、訓練することができる。ＡＩシステムの訓練のために、レコーディング会社は、特定の録音物のミキシングオーディオファイルを提供するだけでなく、ミキシングトラックに含まれる１つ以上の訓練ソーストラックであって、制作プロセスのオリジナル素材から取得されたもの、すなわち、ミキシングプロセスで使用された個々のトラックまたは全トラックより少ない和のトラックのオーディオデータを提供することができる。ＡＩシステムは、多数の訓練用オーディオデータのセットを使って訓練を行った後、訓練段階で事前に解析されていない新しいミキシングトラック（新しいオーディオファイル）から分解トラックを生成することができる。例えば、ＡＩシステムは、上述した従来のＡＩシステム（spleeter、Open-Unmix、Demucsなど）のいずれかに基づいていてもよい。

本発明の実施形態では、少なくとも１つのＡＩシステム、好ましくは複数のＡＩシステムは、装置のランダムアクセスメモリ（ＲＡＭ）内に完全に保存されて動作し、ミキシング入力データの分解に必要な時間を短縮し、さらにはＤＪ装置のようなライブ状況でほぼレイテンシフリーの動作を可能にする。

本発明の一実施形態によれば、ミキシング入力データを分解するステップにおいて、上述したようなＡＩシステムが使用される。ここで、本発明は、一実施形態において、第１の分解トラックを抽出するだけでなく、第２の分解トラックを抽出することを提案するものであり、これにより、ユーザが第１の分解トラックだけでなく第２の分解トラックの音量を個別に操作し、特定の再生効果を実現するために両方の分解トラックを再結合することができる。好ましくは、第２の分解トラックは、第１の分解トラックを補完するものであり、これは、第１の分解トラックおよび第２の分解トラックの和が、第１および第２の分解トラックの音量レベルの変更を除き、また、分解ステップにおける不完全性（例えば、少なくとも１つの第１のソーストラックから発生したが、ＡＩシステムによって少なくとも１つの第２のソーストラックから発生したものと誤って識別された、または逆に少なくとも１つの第２のソーストラックから発生したが少なくとも１つの第１のソーストラックから発生したものと誤って識別された、小さな信号成分が挙げられる。その他の小さな不完全性は、分解ステップ中のフーリエ変換などの計算処理に起因しうる）に起因する偏りを除き、ミキシング入力データのオーディオ信号全体に極めて類似していることを意味する。

本発明の好ましい実施形態では、ミキシング入力データは、第１のＡＩシステムおよび第１のＡＩシステムとは別の第２のＡＩシステム内で同時に処理され、第１のＡＩシステムは、ミキシング入力データを処理して第１の分解トラックのみを取得し、第２のＡＩシステムは、ミキシング入力データを処理して第２の分解トラックのみを取得する。特に、本方法は、好ましくは、ミキシング入力データを第１のミキシング入力データとして処理し、さらに、第１および第２のＡＩシステムとは別の第３のＡＩシステム内、および第１から第３のＡＩシステムのそれぞれとは別の第４のＡＩシステム内で、第２のミキシング入力データを同時に処理する。ここで、第３のＡＩシステムは、第３の分解トラックのみを取得するために第２のミキシング入力データを処理し、第４のＡＩシステムは、第４の分解トラックのみを取得するために第２のミキシング入力データを処理する。同時に動作するように配置された少なくとも２つの独立したＡＩシステムを使用することで、少なくとも第１および第２の分解トラックを並行して、つまり同時に計算することができるため、処理速度が大幅に向上し、わずかな時間遅延のみで、または認識可能な時間遅延なしに、分解トラックを取得することが可能になる。本方法において第１および第２のミキシング入力データを処理し、その結果、４つの個別のＡＩシステムが並行して動作するように使用された場合、２つの個別のオーディオファイルまたはそのセグメントの高速分解が、わずかな時間遅延のみで、または認識可能な時間遅延なしに可能となる。かかる方法は、ライブショー中のＤＪのようなライブパフォーマンスに適している。

本発明のさらなる実施形態では、前記ミキシング入力データは、周期的なビート構造（例えば４／４拍子）に基づく第１のミキシング入力データであり、本方法は、第１のミキシング入力データとは異なる、周期的なビート構造に基づく第２のミキシング入力データを受信することと、テンポマッチングおよびビートマッチング処理ならびにキーマッチング処理のうちの少なくとも１つを実行することと、をさらに含む。具体的には、テンポマッチング処理は、第１のミキシング入力データから取得された第１の入力データおよび第２のミキシング入力データから取得された第２の入力データを受信することと、第１の入力データおよび第２の入力データのうちの少なくとも１つをタイムストレッチまたはリサンプリングすることと、相互に一致するテンポを有する第１の出力データおよび第２の出力データを出力することと、を含んでもよい。ビートマッチング処理は、第１のミキシング入力データと第２のミキシング入力データとの間のビート合わせ、すなわち、第１のミキシング入力データおよび第２のミキシング入力データのうちの少なくとも１つの時間位置をシフトさせることと、ビートの位相が相互に一致する第１の出力データおよび第２の出力データを出力することと、を含んでもよい。さらに、キーマッチング処理は、第１のミキシング入力データから取得された第１の入力データおよび第２のミキシング入力データから取得された第２の入力データを受信することと、第１の入力データおよび第２の入力オーディオデータのうちの少なくとも１つをピッチシフトすることと、相互に一致するキーを有する第１の出力データおよび第２の出力データを出力することと、を含んでもよい。

上述の実施形態において、第１のミキシング入力データから取得された第１の入力データは、第１のミキシング入力データそのものであってもよく、または第１のミキシング入力データから取得される任意の分解トラック（例えば、第１もしくは第２の分解トラック）であってもよく、または第１の再結合出力データ（すなわち、第１のミキシング入力データから分解および再結合を経て取得されるもの）であってもよい。同様に、第２のミキシング入力データから取得された第２の入力データは、第２のミキシング入力データそのものであってもよく、または第２のミキシング入力データから取得される任意の分解トラック（例えば、第３もしくは第４の分解トラック）であってもよく、または第２の再結合出力データ（すなわち、第２のミキシング入力データから分解および再結合を経て取得されるもの）であってもよい。

なお、第１の入力データは、特にテンポマッチングおよび／またはキーマッチング処理が処理の初期段階（すなわち分解するステップの前）に実施される場合には、第１のミキシング入力データでありうる。代替的に、分解するステップの後に、テンポマッチングおよび／またはキーマッチングおよび／またはビートマッチング処理を実施する場合は、第１の入力データは、第１の分解トラックでありうる。別の例として、第１の入力データは、第１の分解トラックの変形例であってもよく、例えば、第１の分解トラックにオーディオエフェクト（ディレイ、リバーブ、イコライザなど）を適用して取得される変形例であってもよい。第２の入力データについても同様で、第２のミキシング入力データまたは第２の分解トラック、またはそれらの変形例であってもよい。

上記実施形態において、「相互に一致するテンポ」とは、第１の出力データおよび第２の出力データのビートが相互に同期可能となるよう、第１の出力データおよび第２の出力データの１分間あたりのビート数で測定されたテンポが相互に等しいかまたは相互の倍数となることを意味する。さらに、「相互に一致するキー」とは、第１の出力データおよび第２の出力データのハーモニックキーが等しいか、マイナーキーとその平行のメジャーキーとの関係（第１の出力データおよび第２の出力データのうちの一方のキーが第１の基本音を有するマイナーキーであり、第１の出力データおよび第２の出力データのうちの他方のキーが第１の基本音よりも３半音高い第２の基本音を有するメジャーキーである関係）にあることを意味する。

上記の実施形態で説明したテンポマッチングおよび／またはキーマッチング処理により、２つの楽曲のインストルメントトラックとボーカルトラックのクロスフェードまたは２つの楽曲のインストルメントトラックもしくはボーカルトラックのスワップを含む２つの楽曲のスムーズなブレンド、すなわち２つの楽曲の分解トラックの再結合／再ミキシングが可能になるため、本発明の方法を適用してＤＪによるライブパフォーマンスが大幅に改善される。これは、音楽の流れを乱すことなく、両方の楽曲またはその一部（両方の楽曲の分解トラック）を同時に（同じまたは対応するテンポ、ビート位相、およびキーで）聴かせることができるためである。

本発明の第２の態様によれば、上記の目的は、オーディオ信号を処理および再生する装置、好ましくはＤＪ機器により実現され、当該機器は、ミキシング入力データを受信するためのオーディオ入力ユニットであって、前記ミキシング入力データが、少なくとも第１のソーストラックと少なくとも第２のソーストラックとをミキシングして取得された和信号である、オーディオ入力ユニットと、オーディオ入力ユニットに接続され、ミキシング入力データを分解して、第１のソーストラックに類似した少なくとも第１の分解トラックを取得するための分解ユニットと、第１の分解トラックに基づいて出力データを再生するための再生ユニットと、を含む。

かかる装置を用いれば、本発明の第１の態様の方法について上述したような利点を、ミキシング入力データを受信して分解し、出力データを再生するのに必要なすべてのハードウェアおよびソフトウェアコンポーネント、オーディオ入力および出力手段、ならびに処理ユニットを含む適切な装置によって実現することができる。

概して、本発明の装置は、コンピュータなどの電子制御ユニット（ＥＣＵ）、好ましくはポータブルコンピュータ（例えば、タブレットまたはスマートフォン）、および適切なハードウェアインタフェースおよびスピーカ（例えば、内蔵スピーカまたはＥＣＵをＰＡシステムに接続するための接続機器）を含むＤＪ機器として具現化することができる。再生ユニットは、デジタルオーディオデータをアナログオーディオ信号に変換するデジタル／アナログ変換器を有してもよい。入力ユニットは、ＭＰ３またはＡＡＣなどの異なるオーディオフォーマットで符号化されたオーディオデータを復号するための復号ユニットを有していてもよい。

また、上述したようなＤＪアプリケーションなどのライブアプリケーションに構成するために、装置は、少なくとも第１の分解トラックを第２のトラックと再結合して、再生ユニット用の出力データを生成するための再結合ユニットを含むことができる。さらに、装置は、ユーザによって制御され、第１の分解トラックの第１の音量レベルおよび第２のトラックの第２の音量レベルの所望の設定を表す制御入力を生成するように適合化された再構成制御部を含んでもよく、再結合ユニットは、少なくとも第１の音量レベルでの第１の分解トラックと第２の音量レベルでの第２のトラックとを再結合することによって出力データを生成するように構成されている。再構成制御部は、コンピュータ画面上に表示されるユーザインタフェース制御によって実装されてよく、または代替的に、ハウジング、（回転可能なノブまたは可動式スライダなどの）制御要素、ディスプレイ、入出力ポートなどを含む別個のハードウェアによって実装されてもよい。

再構成制御部は、第１および第２の分解トラックの第１および第２の音量レベルをそれぞれ高レベルもしくはＯＮ値、例えば１００％に設定するか、または低レベルもしくはＯＦＦ値、例えば０％に設定するために、限られた数の離散的な値の入力を可能にする制御要素としてのスイッチ、特に２つのスイッチ位置（ＯＮ／ＯＦＦ、０／１、作動／非作動）のみを有するスイッチを含むことができる。例えば、分解ボーカルトラックの音量レベルのＯＮ／ＯＦＦを切り替えるボーカルスイッチ、および／または分解インストゥルメンタルトラックの音量レベルのＯＮ／ＯＦＦを切り替えるインストゥルメンタルスイッチなどが考えられる。スイッチは、例えばタッチパネルディスプレイに設けられたプッシュボタンとして具現化されてもよい。急激な音量変化によるアーティファクトを回避するために、装置は、スイッチの切り替え位置に応じて音量レベルを連続的かつ限定的な速度で所望の値に自動的に変化させるオートフェージングユニットを含んでもよく、前記オートフェージングは、ユーザがスイッチを操作すると同時に開始される。

本発明の一実施形態では、装置が提供され、オーディオ入力ユニットは、少なくとも第１のソーストラック（例えば第１のボーカルトラック）と少なくとも第２のソーストラック（例えば第１のインストゥルメンタルトラック）とをミキシングして取得された和信号である第１のミキシング入力データを受信するための第１のオーディオ入力ユニットであり、分解ユニットは、第１のミキシング入力データを分解して、少なくとも第１のソーストラックに類似した第１の分解トラックおよび第２のソーストラックに類似した第２の分解トラックを取得するための第１の分解ユニットである。ここで、装置は、第１のミキシング入力データとは異なる第２のミキシング入力データを受信するための第２のオーディオ入力ユニットであって、前記第２のミキシング入力データが、少なくとも第３のソーストラック、例えば第１のボーカルトラックとは異なる第２のボーカルトラックと、第４のソーストラック、例えば第１のインストゥルメンタルトラックとは異なる第２のインストゥルメンタルトラックとをミキシングして取得された和信号である、第２のオーディオ入力ユニットと、第２のオーディオ入力ユニットに接続され、第２のミキシング入力データを分解して、第３のソーストラックに類似した第３の分解トラックおよび第４のソーストラックに類似した第４の分解トラックを取得するための第２の分解ユニットと、をさらに含み、再構成制御部は、ユーザによって制御され、第１の分解トラックの第１の音量レベル、第２の分解トラックの第２の音量レベル、第３の分解トラックの第３の音量レベル、および第４の分解トラックの第４の音量レベルの所望の設定を表す制御入力を生成するように適合化されており、再結合ユニットは、第１の音量レベルでの第１の分解トラック、第２の音量レベルでの第２の分解トラック、第３の音量レベルでの第３の分解トラック、および第４の音量レベルでの第４の分解トラックを再結合することによって、再結合出力データを生成するように適合化されている。

本実施形態の装置は、クリエイティブな作業で使用して、２つの異なる楽曲を再結合したり、スムーズにブレンドオーバーまたはトランジションさせたり、または楽曲をマッシュアップして種々の新しい効果を実現するために準備される。特に、かかる装置は、ライブパフォーマンス用のＤＪ機器として具現化することができる。

本発明の実施形態では、好ましくは、再構成制御部が、第１の音量レベルおよび第２の音量レベルを制御するために、特に第１の音量レベルと第２の音量レベルとの間の比率を少なくとも１より小さい値から少なくとも１より大きい値に変更するか、またはその逆を行うために、ユーザが単一の制御操作で操作可能な少なくとも１つの単一の再構成制御要素を含む。

本発明のすべての態様および実施形態において、第１のトラックの第１の音量レベルおよび第２のトラックの第２の音量レベルを制御するための単一の再構成制御要素または単一の制御要素は、好ましくは、第１の音量レベルと第２の音量レベルとの間の比率を少なくとも１より小さい値から少なくとも１より大きい値に変更する、すなわち第１の音量レベルが第２の音量レベルより小さい第１の比率から第１の音量レベルが第２の音量レベルより大きいか等しい第２の比率へと変更するか、またはその逆を行うために、ユーザが単一の制御操作、例えば単一の制御動作（例えば、スライド動作、回転動作など）または単一の制御スイッチ操作（例えば、ボタンなどに触れること）によって操作可能な制御要素を指す。単一の（再構成）制御要素の制御範囲の少なくとも一部において、単一の（再構成）制御要素によって制御される音量変化は、例えば、第１の音量レベルを低減させながら第２の音量レベルを増大させることによって、同時に実行されてもよい。または代替的に、単一の（再構成）制御要素の制御範囲の他の部分において、単一の（再構成）制御要素によって制御される音量変化が順次実行されてもよい。例えば、単一の（再構成）制御要素の制御範囲において、第２の音量レベルを一定に維持しながら第１の音量レベルを増大または低減させる第１のサブレンジと、第１の音量レベルを一定に維持しながら第２の音量レベルを増大または低減させる第２のサブレンジと、が存在し、第１のサブレンジと第２のサブレンジが互いに重複しないようにしてもよい。

好ましい実施形態では、単一の再構成制御要素は、第１の音量レベルが最大値（例えば約１００％）を有し、第２の音量レベルが最小値（例えば約０％）を有する第１の終了点から、第１の音量レベルが最小値（例えば約０％）を有し、第２の音量レベルが最大値（例えば約１００％）を有する第２の終了点まで広がる制御範囲を有することができる。より好ましくは、制御範囲の中間領域では、第１の音量レベルおよび第２の音量レベルがともに最大値（例えば約１００％）となる。中間領域と各終了点との間では、第１および第２の音量レベルは実質的に一定にとどめられることもあるし、またはそれぞれ線形または非線形に増大または低減されることもある。

これにより、ユーザは、第１のミキシング入力データから第２のミキシング入力データへ（例えば、第１の楽曲から第２の楽曲へ）、またはその逆へスムーズな線形トランジションを実行するために、単一の制御操作、例えば、ボタンまたはスイッチのタッチ、回転可能な制御ノブの単一の連続回転、または単一のフェーダの単一の連続スライド移動によって、第１の分解トラックと第２の分解トラックとの間でフェードまたは切り替えることができる。特に、異なる分解トラックの２つの音量レベルを、ユーザが片手でまたは指一本のみでさえ操作できるようにしたことで、システムのライブパフォーマンス能力が向上する。つまり、例えば片手を分解／再結合の制御の操作に用い、もう片方の手をクロスフェーダまたは他の楽曲の分解／再結合のために用いることができる。

上述した実施形態の変形例では、装置は、スワップ制御要素をさらに含むことができ、当該スワップ制御要素は、ユーザが操作したときに、再結合ユニットを制御して、第１および第２の音量レベルのうちの１つを低減させ、同時に第３および第４の音量レベルのうちの１つを増大させ、かつ／またはユーザが操作したときに、再結合ユニットを制御して、第１および第２の音量レベルのうちの１つを増大させ、同時に第３および第４の音量レベルのうちの１つを低減させる。なお、「低減」には、音量レベルをミュートすること、または音量レベルを０％にすることが含まれてもよく、「増大」には、音量レベルをフルスケールまたは１００％にすることが含まれてもよい。

例えば、第１のミキシング入力データから取得された第１の分解トラックが第１の楽曲のボーカルトラックであり、第２のミキシング入力データから取得された第３の分解トラックが第２の楽曲のボーカルトラックである場合、上述のスワップ制御要素は、ユーザによって起動され、再結合ユニットを制御して、再結合出力データに現在含まれているボーカルトラックの音量をＯＮからＯＦＦに切り替え、再結合出力データに現在含まれていない別のボーカルトラックの音量をＯＦＦからＯＮに切り替える（つまり、両ボーカルトラックのＯＮ−ＯＦＦ設定を逆に切り替える）。別の例として、第１のミキシング入力データから取得された第２の分解トラックが第１の楽曲のインストゥルメンタルトラックであり、第２のミキシング入力データから取得された第４の分解トラックが第２の楽曲のインストゥルメンタルトラックである場合、上述のスワップ制御要素は、ユーザによって起動され、再結合ユニットを制御して、再結合出力データに現在含まれているインストゥルメンタルトラックの音量をＯＮからＯＦＦに切り替え、再結合出力データに現在含まれていない別のインストゥルメンタルトラックの音量をＯＦＦからＯＮに切り替える（つまり、両インストゥルメンタルトラックのＯＮ−ＯＦＦ設定を逆に切り替える）。かかるスワップ制御要素の動作は、第１のミキシング入力データからの分解トラックのＯＮ−ＯＦＦ設定が、第２のミキシング入力データからの分解トラックのＯＮ−ＯＦＦ設定と異なる場合に適用することが好ましい。

本発明の別の実施形態では、上述の種類の装置が提供され、再構成制御部は、第１の音量レベルおよび第２の音量レベルを制御するために、特に、第１の音量レベルと第２の音量レベルとの間の比率を、少なくとも１より小さい値から少なくとも１より大きい値に変更するか、またはその逆を行う、ユーザが単一の制御操作で操作可能な第１の単一の再構成制御要素と、第１の和信号の音量レベルおよび第２の和信号の音量レベルを制御するために、特に、第１の和信号の音量レベルと第２の和信号の音量レベルとの間の比率を、少なくとも１より小さい値から少なくとも１より大きい値に変更するか、またはその逆を行う、ユーザが単一の制御操作で操作可能な単一の再結合制御要素であって、第１の和信号が、第１の音量レベルでの第１の分解トラックと第２の音量レベルでの第２の分解トラックとの和であり、第２の和信号が、第３の音量レベルでの第３の分解トラックと第４の音量レベルでの第４の分解トラックとの和である、単一の再結合制御要素と、好ましくは、第３の音量レベルおよび第４の音量レベルを制御するために、特に、第３の音量レベルと第４の音量レベルとの間の比率を、少なくとも１より小さい値から少なくとも１より大きい値に変更するか、またはその逆を行う、ユーザが単一の制御操作で操作可能な第２の単一の再構成制御要素と、を含む。本実施形態の装置の利点は、制御の複雑さが大幅に軽減され、特にライブショー中のＤＪによる迅速で直感的な操作が可能になることである。装置が２つの異なるミキシング入力データを受信し、それらが両方とも少なくとも２つのトラックに分解されて、既に４つの個別トラック（好ましくは、それぞれが右と左のチャネルを有する４つの個別のステレオトラックで、和で少なくとも８つのチャネル）が存在する場合でも、第１および第２の単一の再構成制御要素および単一の再結合制御要素により、トラック間の切り替え、スワップ、フェードを、制御要素の単一の動きまたは単一の連続操作によって、非常に迅速かつ直感的に実行することができる。

本発明の別の実施形態では、所定のファイルサイズおよび所定の再生時間を有する入力オーディオファイルのセグメントをロードするための入力オーディオファイルバッファであって、ミキシング入力データを再生するためのオーディオデータを含む、入力オーディオファイルバッファと、分解ユニットに接続され、入力オーディオファイルのセグメントから取得された第１の分解トラックのセグメントを受信および保存する第１のセグメントバッファと、任意手段として、分解ユニットに接続され、入力オーディオファイルの同じセグメントから取得された第２の分解トラックのセグメントを受信および保存する第２のセグメントバッファと、をさらに含む装置が提供され、再生ユニットは、出力データからアナログオーディオ信号を生成するアナログ／デジタル変換器を有するオーディオインタフェースを含み、前記オーディオインタフェースは、再生用の出力データの一部をバッファリングするためのオーディオバッファを有し、第１のセグメントバッファおよび／または第２のセグメントバッファのサイズは、オーディオインタフェースのオーディオバッファのサイズより大きく、（復号された）入力オーディオファイルのオーディオデータ全体より小さい。本実施形態では、再結合および／または再生のために、分解トラックのセグメント（すべてのセグメントを同時に保存するのではなく、１つまたは一部のセグメントのみ）を保存するための別個のバッファが提供されており、これにより、再生前に入力オーディオファイル全体が分解されて別個のバッファに完全に保存される状況と比較して、処理速度の向上とメモリフットプリントの削減を実現する。つまり、各セグメントバッファのサイズは、（復号された）入力オーディオファイルデータ全体のサイズより小さくなる。一方、第１および第２のセグメントバッファは、それぞれオーディオインタフェースのオーディオバッファよりもサイズが大きく、これにより、オーディオインタフェースのオーディオバッファがセグメントバッファのコンテンツによって常に適時に補充されるようになっている。そのため、オーディオのドロップアウトまたは認識できるタイムラグなしに連続的な出力信号を生成して再生することができる。そのため、本実施形態は、装置のライブ機能も支援するものである。

好ましくは、オーディオインタフェースのオーディオバッファは、２^ｎフレーム／サンプルのオーディオデータ（ｎは自然数、好ましくは６〜１２）を保存するための固定された標準サイズを有し、例えば５１２オーディオフレームは、４４．１ｋＨｚのサンプリングレートで約１１ミリ秒の再生時間に相当する。一方、セグメントバッファのサイズは、再生時間が１秒超のセグメントを保存できるように大きくすることが好ましい。

上記の目的を解決するために、本発明の第３の態様によれば、オーディオデータを処理および再生するための方法が提供され、当該方法は、ミキシング入力データを提供するステップであって、前記ミキシング入力データが、複数のソーストラックをミキシングして取得される、ステップと、ミキシングオーディオデータから所定の音色のオーディオデータを分離するように訓練済のニューラルネットワークを含むＡＩシステムによって、ミキシング入力データを処理するステップであって、ミキシング入力データが、ＡＩシステムによって処理され、少なくとも、第１の所定の音色のオーディオ信号を表す第１の分解トラック、前記第１の所定の音色とは異なる第２の所定の音色のオーディオ信号を表す第２の分解トラック、および前記第１および第２の所定の音色とは異なる第３の所定の音色のオーディオ信号を表す第３の分解トラックを含む、分解トラックのグループを取得する、ステップと、ユーザからの制御入力を読み取るステップであって、前記制御入力が、第１の音量レベルおよび第２の音量レベルの所望の設定を表す、ステップと、分解トラックのグループから選択された少なくとも第１および第２の選択トラックを再結合して、第１の再結合トラックを生成するステップと、第１の音量レベルでの第１の再結合トラックと、分解トラックのグループから選択された第２の音量レベルでの少なくとも第３のトラックとを再結合して、第２の再結合トラックを取得するステップと、第２の再結合トラックに基づいて、オーディオデータを再生するステップと、を含む。

本発明の第３の態様の重要な特徴によれば、ミキシング入力データがＡＩシステムによって処理され、異なる音色の少なくとも３つの分解トラックが生成される。この目的のために、ＡＩシステムは、２つまたは３つの分解トラックを出力として分離するように訓練済の１つのニューラルネットワークを含んでもよい。代替的に、２つ以上のニューラルネットワークをＡＩシステムにおいて使用してもよく、これらのニューラルネットワークは、互いに独立して動作するように適切に構成されており、ＡＩシステムの異なるニューラルネットワークは、異なる音色の分解トラックを生成するように構成されている。かかるニューラルネットワークまたはニューラルネットワークの層は、相乗効果を実現して分離結果を向上させるために、分離プロセス中に互いにインタラクションしてデータを交換することができる。

ＡＩシステムは、訓練用データによって訓練されており、訓練用データには、ミキシング入力データ、ならびにミキシング入力データの成分である特定の音色のトラック、すなわち、ミキシング入力データを再生したときに知覚される音に含まれる特定の音色のトラックの両方が含まれる。前述したように、ミキシングオーディオデータから特定の音色のトラックを分離することができるＡＩシステムは、他の目的のために、当技術分野において既知となっている。

本開示の文脈、特に本発明のすべての態様および実施形態において、異なる音色は、異なる楽器、異なるソフトウェア楽器またはサンプル、異なるボイスなど、異なる音源に由来するオーディオ信号の成分に対応する。特に、特定の音色とは、
−特定の楽器（ベース、ピアノ、ドラム（クラシックドラムセット音、電子ドラムセット音、パーカッション音を含む）、ギター、フルート、オルガンなど）または任意のかかる楽器のグループの、録音された音；
−例えば、特定の楽器（ベース、ピアノ、ドラム（クラシックドラムセット音、電子ドラムセット音、パーカッション音を含む）、ギター、フルート、オルガンなど）または任意のかかる楽器のグループの音に類似するように、アナログまたはデジタルシンセサイザによって合成された音；
−ボーカリスト（歌もしくはラップのボーカリストなど）またはかかるボーカリストのグループの音；
−これらの任意の組み合わせ、
のうちの少なくとも１つを含む。

これらの音色は、オーディオデータのスペクトル内の特定の周波数成分および周波数成分の分布、オーディオデータ内の周波数成分の時間的な分布に関するものであり、これらの音色を含む訓練用データで特別に訓練済のＡＩシステムによって分離することができる。

本発明の第３の態様の別の重要な特徴は、少なくとも３つの分解トラックを再結合することに関し、ユーザが３つ以上の分解トラックのそれぞれに個別の音量レベルを選択する必要がなく、代わりに第１および第２の音量レベルを設定するだけで、再結合の結果、ひいては分解トラックの再生を制御できるような手法で再結合することに関する。第１および第２の音量の制御は、２つの独立した制御要素（ボタンまたはフェーダなど）を使用することで容易に実現できる。好ましくは、制御は、単一の制御要素によって実現される。具体的には、第１の再結合ステップでは、少なくとも２つの分解トラックが選択され、それらが再結合されて第１の再結合トラックが生成される。次に、ユーザは、第１の再結合トラックおよび任意の第３のトラックについてのみ音量設定を選択することができ、本方法により、設定された音量レベルにしたがってこれらのトラックを再結合して第２の再結合トラックを取得し、このトラックを再生ユニットにルーティングして再生することができる。

例えば、ドラムトラック、ベーストラック、ボーカルトラック、および補完トラックの４つのトラックを生成するように構成および訓練されたＡＩシステムを使用することができる。前記補完トラックは、補完トラックとドラムトラック、ベーストラックおよびボーカルトラックとのミキシングによってミキシング入力信号と実質的に等しいオーディオ信号が取得されるような、残りのすべての音／音色を含む。かかるＡＩシステムでは、ベーストラック、ボーカルトラック、補完トラックを最初に再結合して第１の再結合トラックを取得する際に、ユーザは、再結合された残りのミックスの音量に対する分解ドラムトラックの音量を制御するために、単一の制御要素を使用することができる。これによりＤＪは、楽曲のドラム成分およびトーン（和音またはメロディ）成分という２つの重要なサウンド成分を容易にブレンドすることができる。

第１の再結合ステップで分解トラックの選択を変更するだけで、ユーザは同じＡＩシステムを別の構成（例えば異なる種類の音楽）に使用することができる。上記の例では、第１の再結合ステップにおいて、ドラムトラック、ベーストラックおよび補完トラックが再結合のために選択されて第１の再結合トラックが生成された場合、ユーザは、単純な制御入力、特にボーカル（アカペラ）とインストゥルメンタルとの間を容易にブレンドする単一の制御要素によって、ミックスの残りの部分（インストゥルメンタルパート）の音量に対するボーカルの音量を制御できる。

上述の例と同様に、本発明の第３の態様の方法では、概して、第１、第２および第３の所定の音色のうち少なくとも１つが、ドラムの音色、ボーカルの音色、ならびにミキシング入力データのハーモニー、キーまたはメロディを定義する音色を含むグループから選択されることが好ましい。これらは、特定の可聴効果を生み出すためにＤＪ機器において作用を受ける重要なサウンド成分である。これらの音色は、オーディオデータのスペクトル内の特定の周波数成分および周波数成分の分布、オーディオデータ内の周波数成分の時間的な分布に関するものであり、これらの音色を含む訓練用データで特別に訓練されたＡＩシステムによって分離することができる。

さらに、好ましくは、第１、第２、および第３の所定の音色のうち少なくとも１つは、補完の音色である。すなわち、補完トラックが、分解中に同様に生成され、すべての分解トラック（補完トラックを含む）のミックスがミキシング入力データと実質的に等しくなる。このように、すべてのオーディオ成分が依然としてすべての分解トラックの和として表現されるため、ＤＪは、可聴サウンドを制御して、元のミックス／元の楽曲のサウンドに近づけたり、それらから所望の量だけ逸脱させることができる。

本発明の第４の態様によれば、オーディオデータを処理および再生する装置、好ましくはＤＪ機器が提供され、当該装置は、複数のソーストラックをミキシングして取得されるミキシング入力データを提供するオーディオ入力ユニットと、ミキシングオーディオデータから所定の音色のオーディオデータを分離するように訓練済のニューラルネットワークを含むＡＩシステムであって、ＡＩシステムが、ミキシング入力データを受信および処理し、少なくとも、第１の所定の音色のオーディオ信号を表す第１の分解トラック、前記第１の所定の音色とは異なる第２の所定の音色のオーディオ信号を表す第２の分解トラック、および前記第１および第２の所定の音色とは異なる第３の所定の音色のオーディオ信号を表す第３の分解トラックを含む、分解トラックのグループを生成するように構成されている、ＡＩシステムと、ユーザによって制御され、第１の音量レベルおよび第２の音量レベルの所望の設定を表す制御入力を生成するように適合化された制御部と、分解トラックのグループから選択された少なくとも第１および第２の選択トラックを再結合して、第１の再結合トラックを生成するように構成された再結合ユニットであって、再結合ユニットが、第１の音量レベルでの第１の再結合トラックと、分解トラックのグループから選択された第２の音量レベルでの少なくとも第３のトラックとを再結合して、第２の再結合トラックを取得するようにさらに構成されている、再結合ユニットと、第２の再結合トラックに基づいてオーディオデータを再生するように構成された再生ユニットと、を含む。

本発明の第４の態様の装置は、上述した本発明の第３の態様の方法およびそれらの実施形態を実施して、それぞれの効果および利点を実現するように特別に構成されている。

本発明の第４の態様の好ましい実施形態において、装置は、装置の動作モードを少なくとも第１の動作モードと第２の動作モードとの間で変更するように構成されたモード制御ユニットを含み、第１の動作モードにおいて、再結合ユニットは、分解トラックのグループから選択された選択トラックの第１のセットを再結合して、第１の再結合トラックを生成するように構成され、第２の動作モードにおいて、再結合ユニットは、分解トラックのグループから選択された選択トラックの第２のセットを再結合して、第１の再結合トラックを生成するように構成され、前記選択トラックの第２のセットは、前記選択トラックの第１のセットと異なる。本実施形態では、同じＡＩシステムを使用して、再結合する分解トラックの選択を変更するだけで、異なるサウンド成分のグループを制御することができる。ここで、ユーザ入力は、第１の再結合トラック、すなわちトラックのグループに依然として作用を与えるものであり、これにより高速でシンプルな制御が保証される。

モード制御ユニットは、装置を第１の動作モードまたは第２の動作モードに選択的に設定するためにユーザが操作可能なモード制御要素を含みうる。本実施形態では、ユーザは依然として選択に影響力を有しており、そのため、再生する音楽の種類に応じて分解トラックの選択を変更することができ、一方で、実際の再生中にすべての個々の分解トラックを制御する必要がないという利点を有する。

本発明の第３の態様の方法および本発明の第４の態様の装置は、ＤＪ機器に実装した場合に特に利点がある。特に、分解トラックの再結合の簡単化された制御部と分解トラックのグループ化を特定の音楽タイプに適合化させることができる特徴部とにより、必要な柔軟性を維持しながら、ＤＪのクリエイティブな作業をより直感的かつ迅速に行うことができる。したがって、本発明の第４の態様の装置において、オーディオ入力ユニットは、好ましくは、第１のミキシング入力データを受信するように構成された第１の入力部と、前記第１のミキシング入力データとは異なる第２のミキシング入力データを受信するように構成された第２の入力部と、を含み、再結合ユニットは、第１のミキシング入力データに由来するオーディオデータと、第２のミキシング入力データに由来するオーディオデータと、を再結合するように構成される。そのため、装置は、例えば２つの異なる楽曲のミキシング入力データを受信できるように構成されている。両方の楽曲の特定の分解トラックの音量レベルを制御することで、ＤＪはより柔軟に、よりスムーズに２つの楽曲間でブレンドすることができ、また、異なる楽曲の分解トラックを再結合することで、特定の新しいオーディオの創造および効果を実現することができる。例えば、ＤＪは、ある楽曲のボーカルを別の楽曲のインストゥルメンタルに重ね合わせて再生してもよい。これについては、本発明の他の態様および実施形態に関して、以下で詳しく説明する。

以下、図面に示す具体的な実施例に基づいて、本発明をさらに説明する。

本発明の第１の実施形態によるオーディオ信号を処理および再生する装置の構成要素を示す概略図である。第１の実施形態による装置内の要素および信号の流れを示す機能図である。第１の実施形態の装置における信号の流れを示すさらなる機能図である。第１の実施形態の変形例である、本発明の第２の実施形態を示す図である。第１の実施形態の変形例である、本発明の第３の実施形態を示す図である。第１の実施形態の変形例である、本発明の第４の実施形態を示す図である。第１の実施形態の変形例である、本発明の第４の実施形態を示す図である。第１の実施形態の変形例である、本発明の第５の実施形態を示す図である。第１の実施形態の変形例である、本発明の第６の実施形態を示す図である。第１の実施形態の変形例である、本発明の第７の実施形態を示す図である。第１の実施形態の変形例である、本発明の第８の実施形態を示す図である。本発明の第８の実施形態の装置において適用可能なスワップ処理を説明するための図である。本発明の実施形態による波形のグラフィック表現を示すグラフである。本発明の実施形態による波形のグラフィック表現を示すグラフである。本発明の第９の実施形態によるオーディオプレーヤを示す図である。第１の実施形態の変形例である、本発明の第１０の実施形態を示す図である。第１の実施形態の変形例である、本発明の第１１の実施形態を示す図である。先の実施形態の変形例である、本発明の第１２の実施形態を示す図である。先の実施形態の変形例である、本発明の第１２の実施形態を示す図である。

図１を参照すると、本発明の第１の実施形態は、装置１０、好ましくはＤＪ装置である。装置１０は、第１の楽曲Ａなどの第１の入力オーディオファイルＡと、第２の楽曲Ｂなどの第２の入力オーディオファイルＢと、をロードしうる入力部１２を含む。両方の入力オーディオファイルＡ，Ｂは、ＭＰ３，ＷＡＶ，ＡＩＦＦなどの一般的なオーディオファイル形式のオーディオデータを含むことができ、また、固定のファイルサイズおよび再生時間（特に秒単位の楽曲の長さ）を有しており、これは、従来から既知であるように、ＤＪ機器などの再生装置に入力される。オーディオファイルＡおよびＢは、インターネットまたはその他のネットワーク接続を介してリモートサーバから提供、ダウンロードまたはストリーミングされてよく、ローカルコンピュータまたは装置１０自体に統合されたストレージ装置から提供されてもよい。入力部１２は、ユーザに、利用可能な複数のオーディオファイルのうちの１つを入力オーディオファイルＡとして選択させ、複数のオーディオファイルのうちの別の１つを入力オーディオファイルＢとして選択させることを可能にする、適切なユーザインタフェース手段を含むことができる。

装置１０は、処理部１４をさらに含み、処理部１４は、好ましくは、ＲＡＭストレージ１６、ＲＯＭストレージ１８、永続的ストレージ１９（ハードドライブまたはフラッシュドライブなど）、マイクロプロセッサ２０、および少なくとも１つの人工知能システム２２、例えばマイクロプロセッサ２０に接続されている第１〜第４のＡＩシステム２２−１，．．．，２２−４を含む。処理部１４は、入力部１２に接続され、オーディオファイルＡ，Ｂのオーディオデータを受信する。

装置１０は、再構成制御部２４をさらに含み、再構成制御部２４は、少なくとも１つの再構成制御要素２６、例えば第１の制御要素２６−１、第２の再構成制御要素２６−２、およびミックス制御要素２８を含む。再構成制御部２４は、第１または第２のミキシング入力データに由来するオーディオ信号の再生をそれぞれ開始または停止するための第１の再生制御要素３０−１および第２の再生制御要素３０−２をさらに含みうる。

さらに、装置１０は、再構成制御部２４に接続され、制御要素の設定に基づいてオーディオデータを再結合するための再結合ユニット３２を含みうる。再結合は、オーディオデータの異なるチャネルに、制御要素の設定に基づくスカラー値を乗じ、次いでチャネルをサンプルごとに加算することで実施することができる。さらに、デジタル／アナログ変換器を有するオーディオインタフェース３４（例えば、サウンドカード）が、好ましくは、再結合された出力データを受信して、デジタルで再結合された出力データをアナログオーディオ信号に変換する、再結合ユニット３２に接続されている。アナログオーディオ信号は、オーディオ出力部３６に提供されうるものであり、このオーディオ出力部３６は、ラインコネクタもしくはＸＬＲコネクタなどのオーディオケーブルを接続するための従来のオーディオコネクタ、またはオーディオ出力部３６をＰＡシステムもしくはスピーカもしくはヘッドフォンなど（図示せず）に接続できるワイヤレス出力部（Ｂｌｕｅｔｏｏｔｈなど）を備えうる。ＰＡシステムは、オーディオ信号を出力するために、スピーカに接続されたアンプを含んでいてもよい。代替手段として、タブレットのスピーカまたはコンピュータのスピーカもしくはヘッドフォンなど、装置の内部スピーカを使用してアナログオーディオ信号を出力することもできる。

第１の実施形態に関して上述した一部または全部の構成要素および特徴部は、図１に関して上述したようなオーディオデータの入力、分解、再結合および出力を可能とするＥＣＵを動作させることと、例えば、再構成制御部２４の制御要素を表示するタッチパネル３７を介して、ユーザからの制御入力を受信することと、を行うようにプログラムされたソフトウェアアプリケーションを実行する、コンピュータ、特に、タブレットコンピュータ３５などの電子制御ユニット（ＥＣＵ）によって提供されうる。

図２を参照しながら、以下、装置１０の内部構成要素および信号の流れの詳細を説明する。入力部１２内で、上述したように第１および第２の入力オーディオファイルＡ，Ｂが取得される。次いで、入力オーディオファイルＡ，Ｂが、少なくとも第１の分解ユニット３８および第２の分解ユニット４０を含む処理部１４に伝送される。第１の分解ユニット３８は、第１のセグメンテーションユニット４２と、少なくとも１つのＡＩシステム、好ましくは第１のＡＩシステム４４−１および第２のＡＩシステム４４−２と、を含む。第２の分解ユニット４０は、同様に、第２のセグメンテーションユニット４６と、少なくとも１つのＡＩシステム、好ましくは第３のＡＩシステム４４−３および第４のＡＩシステム４４−４と、を含みうる。

第１の分解ユニット３８の第１のセグメンテーションユニット４２は、第１の入力オーディオファイルＡを受信し、オーディオファイルを複数の連続したセグメントに分割するように適合化されている。好ましくは、完全な入力オーディオファイルＡが、そのオーディオファイルから再生可能なオーディオ信号の時間間隔に対応するセグメントに分割される。好ましくは、開始セグメントの開始点が時間軸上のオーディオファイルの先頭（再生位置０：００）に対応し、開始セグメントの終了点がオーディオファイルの先頭の第１の時間間隔の終了点に対応するように定義される。この場合、第２のセグメントおよび後続の各セグメントは、同じ長さの連続した時間間隔で定義されており、このため、ある時間間隔から次の時間間隔に向かって時間間隔の開始点が増大していく。

より具体的には、オーディオファイルを、１秒あたりのサンプル数によって与えられる所定のサンプリングレートｆｓでサンプリングされるアナログオーディオ信号のデジタル表現とみなす。サンプリングは、例えばオーディオインタフェースのようなアナログ／デジタル変換器を介して記録中に実施されてもよい。（デジタルシンセサイザ、ドラムコンピュータなどから）デジタルで生成されたオーディオデータの場合、サンプル、特に各サンプルで表現されるオーディオデータは、コンピュータで生成された値である。各サンプルは、サンプリング期間Ｔ内の信号値（例えば、測定された平均値）を表し、ここで、ｆｓ＝１／Ｔである。オーディオファイルの場合、ｆｓは、例えば４４．１ｋＨｚまたは４８ｋＨｚでありうる。１サンプルは、１フレームとも称される。ここで、本実施形態では、第１のセグメントの開始フレームは、オーディオファイル内のオーディオデータの時間位置０の最初のフレームであってよく、第２のセグメントの開始フレームは、第１のセグメントの終了フレームの直後のフレームであってよく、第３のセグメントの開始フレームは、第２のセグメントの終了フレームの直後のフレームであってよく、以下同様である。セグメントはすべて、最後のセグメントを除いて、再生可能なオーディオ信号の時間軸に対して同じサイズを有することができ、または同じフレーム数を有しうる。ここで、最後のセグメントは、（復号された）オーディオファイルの終了点もしくは最後のフレーム、または再生可能なオーディオ信号の時間軸上の終了点によって定義される終了点を有しうる。

実際、本発明の方法および装置では、処理、特に分解は、入力オーディオファイルのフレームによって正確に定義されたセグメントに基づいて、かつ／または入力オーディオファイルのフレームに対応するセグメントに基づいて実施されることが好ましい。これにより、トラック内、特に再結合または再生中の分解トラック内でのフレームの正確な位置決めが保証され、ミキシング入力信号内のオーディオ位置を分解トラック内のオーディオ位置に直接に変換することができる。したがって、このようにして取得された分解トラックは、ミキシング入力トラックと正確に同じ時間軸を有し、時間軸のずれまたは精度の低下を生じることなく、例えば、エフェクトの適用、リサンプリング、タイムストレッチ、テンポマッチング、およびビートマッチングのためのシークなどにより、さらなる処理を行うことができる。好ましくは、分解セグメントには、そのセグメントに対応する元の入力オーディオデータと正確に同じ量のフレームが含まれている。

好ましくは、セグメントのサイズは、対応する時間間隔の長さが６０秒より小さく、１秒より大きくなるように選択される。これにより、入力オーディオファイルが十分に分割され、任意の所与の位置から再生を開始するために必要な処理の大幅な高速化が実現される。より好ましくは、セグメントは、５秒〜２０秒の長さを有する時間間隔に対応するサイズを有している。これにより、ＡＩシステム４４にとって、一方では要求を満たす分解結果の実現のために十分なオーディオデータが保証され、また、ライブパフォーマンスの状況での装置の適用を可能とするために、１つのセグメントにおいて分解されるオーディオデータが分解されたオーディオデータの実質的な即時利用を実現するのに十分な程度に小さい値へ縮小されることが保証される。

第１のセグメンテーションユニット４２の出力では、入力オーディオファイルＡのセグメントが、少なくとも１つのＡＩシステム４４に伝送されるように提供される。好ましくは、セグメントは、第１のＡＩシステム４４−１に伝送されると同時に、すなわち並行して、第２のＡＩシステム４４−２に伝送されるように二重化またはコピーされる。したがって、入力オーディオファイルＡの同一のセグメントは、第１のＡＩシステム４４−１だけでなく、第２のＡＩシステム４４−２においても同時に処理することができる。

本発明の実施形態で使用されるＡＩシステムのそれぞれは、本開示で上述したように、訓練済の人工ニューラルネットワーク（訓練済のＡＮＮ）でありうる。特に、Pretet et al.に記載されているように、ミキシングオーディオデータからボーカルトラックまたは歌声のトラックを表す第１の分解トラックを抽出しうる訓練済のＡＮＮを使用できる。特に、ＡＩシステム４４は、オーディオデータに含まれる周波数のスペクトルが取得されるように、オーディオデータ（すなわち、入力オーディオファイルのセグメントに含まれるオーディオデータ）のフーリエ変換を計算することができる。次いで、当該スペクトルは、例えば、ミックスのボーカルパートに属するなど、特定のソーストラックまたは特定のソーストラックの和に属すると認識されるスペクトルの部分をフィルタリングする畳み込みニューラルネットワークに導入される。フィルタリングされたスペクトルは、波形信号またはオーディオ信号に再変換される。これらの信号には、再生時に、元のオーディオ信号のフィルタリングされた部分（例えばボーカルパート）のみが含まれる。

このフィルタリング分析には、例えばPretet et al.に説明されているように、ＡＮＮなどのＡＩシステムを使用することができる。ＡＮＮは、例えばヒップホップ、ポップ、ロック、カントリー、エレクトロニックダンスミュージックなど、様々なジャンルの専門家が録音または制作した大量の楽曲を含むデータセットで訓練されたものであり、前記データセットには、完成した楽曲だけでなく、それぞれのボーカルトラックおよびインストゥルメンタルトラックも別個に録音として含まれる。

第１の実施形態の装置１０の第１の分解ユニット３８内（好ましくはそのＲＡＭメモリ内、特にコンピュータ３５の内部ＲＡＭ内）には、上述の種類のＡＩシステムの２つの個別の完全に訓練済のインスタンス（異なるまたは等しいＡＩシステム）が保存可能であり、第１の分解トラックおよび第２の分解トラックをそれぞれ生成するために、互いに独立して同時に操作可能である。好ましくは、第１および第２の分解トラックは補完関係にある。これは、通常の音量レベル（すなわちそれぞれが１００％）で再結合されたときの、第１の分解トラックおよび第２の分解トラックの和が、元のミキシング入力データに類似していることを意味する。例えば、第１の分解トラックは、ミキシング入力データの完全なボーカルパートに類似していてよく、第２の分解トラックは、ミキシング入力データの完全な残りの部分、特にすべてのインストゥルメンタルトラックの和に類似していてもよい。これにより、両方の分解トラックが適切な音量で再結合されると、音響的知覚の点で、元のミキシング入力データと音響的に非常に近似した、または元のミキシング入力データから区別できないオーディオ信号が取得される。

好ましくは、第１および／または第２の分解トラックは、それぞれ、左チャネルの信号部分と右チャネルの信号部分とを含むステレオトラックである。代替的に、それぞれまたは両方がモノラルトラックであってもよく、３つ以上のチャネルを有するマルチチャネルトラック（例えば５．１サラウンドトラックなど）であってもよい。

第２の分解ユニット４０は、第１の分解ユニット３８と同様のまたはこれに対応する方式で構成することができ、したがって、第２のセグメンテーションユニット４６を含み、当該第２のセグメンテーションユニット４６は、第２の入力オーディオファイルＢを固定された開始点および終了点の複数のセグメントに分割し、第３の分解トラックおよび第４の分解トラック（例えば、それぞれがモノラルトラック、ステレオトラック、または３つ以上のチャネルを有するマルチチャネルトラック（例えば５．１サラウンドトラックなど）であってもよい）を取得するための並列処理および分解を行う第３のＡＩシステムおよび第４のＡＩシステムの両方に、セグメントを連続して伝送する。

第１および第２の分解ユニット３８および４０に由来する分解トラックは、次いで、分解トラックのうちの少なくとも２つを指定された制御可能な音量レベルで再結合して再結合出力データを生成するように構成された再結合ユニット３２に伝送される。ユーザは、少なくとも１つの制御要素によって分解トラックの音量レベルを制御することができる。例えば、第１の分解トラックの第１の音量レベルと第２の分解トラックの第２の音量レベルとの間の比率をユーザが制御することを可能にする第１の制御要素２６−１が提供されていてよく、一方、代替的にもしくは付加的に、第３の分解トラックの第３の音量レベルと第４の分解トラックの第４の音量レベルとの間の比率をユーザが制御することを可能にする第２の制御要素２６−２が提供されていてもよい。

この場合、再結合ユニット３２では、第１の分解トラックおよび第２の分解トラックは、第１の制御要素２６−１によって設定された音量レベルに基づいて、第１の再結合ステージ３２−１において互いに再結合され、第１の入力オーディオファイルＡから再結合Ａ’が取得される。さらに、第３および第４の分解トラックは、第２の制御要素２６−２によって設定された第３および第４の音量レベルにしたがって、再結合ユニット３２の第２の再結合ステージ３２−２において再結合され、第２の入力オーディオファイルＢから第２の再結合Ｂ’を取得することができる。さらに、再結合Ａ’および再結合Ｂ’は、ユーザが制御可能なミックス制御要素２８の設定に応じて、第１の再結合Ａ’および第２の再結合Ｂ’をミキシングするミキシングステージ４８に導入されうる。ミックス制御要素２８は、第１の再結合Ａ’の音量レベルと第２の再結合Ｂ’の音量レベルとの間の比率を制御するように適合化可能である。

再結合ユニット３２によって生成された再結合出力データは、次いで、オーディオ出力部３６に接続されたオーディオインタフェース３４を含みうる再生ユニットに伝送される。

図２に見られるように、第１の分解ユニット３８によって出力された第１および第２の分解トラックは、第１の視覚化ユニット４９−１に入力されうる。さらに、第２の分解ユニット４０が出力する第３および第４の分解トラックは、第２の視覚化ユニット４９−２に入力されうる。さらに、第１および／または第２の視覚化ユニット４９−１，４９−２を再結合ユニット３２に接続して、例えば制御要素２６−１，２６−２の現在の設定に関する情報を取得することもできる。第１および／または第２の視覚化ユニット４９−１および４９−２は、後で詳しく説明するように、それぞれ、再結合Ａ’および再結合Ｂ’のオーバーレイ波形を表示するように構成されることが好ましい。

図３に関して、本発明の第１の実施形態の装置１０内のオーディオデータの処理をさらに説明する。図３は、例として第１の入力オーディオファイルＡのみの処理を示しているが、これは、第２の入力オーディオファイルＢ、または任意の追加の他の入力オーディオファイルの処理にも同様に適用することができる。図３に見られるように、処理部１４における分解処理の後、第１および第２の分解トラックのセグメントは、直ちにさらなる処理を行うために、特に再生、好ましくはリアルタイム再生のために、オーディオバッファ（例えばリングバッファ）に保存される。オーディオバッファは、第１の分解トラックのカレントセグメントからのオーディオデータと、第２の分解トラックのカレントセグメントからのオーディオデータと、をそれぞれ所与のチャネル数（モノラル、ステレオ、サラウンドなど）で保存するために、複数のデータアレイを有している。例えば、分解トラックが両方ともステレオ信号である場合、第１および第２の分解トラックセグメントの左および右チャネル部分をそれぞれ保存するために、４アレイのバッファが使用されてもよい。

バッファの出力部は、第１の制御要素２６−１の設定に応じて再結合トラックを生成する再結合ユニット３２に接続されうる。

装置１０が、オーディオ効果を信号に適用するための１つ以上のオーディオエフェクトチェーン（ＤＪ機器において従来公知である、ディレイ効果、リバーブ効果、イコライザ効果、キーまたはテンポ変更効果などであり、例えばピッチシフト、リサンプリングおよび／またはタイムストレッチ効果によって実現される）を含む場合、かかるエフェクトチェーンは、信号の流れにおける様々な位置に挿入可能である。例えば、バッファが出力する分解トラック（セグメント）は、それぞれオーディオエフェクトチェーン５１−１，５１−２を介してそれぞれルーティング可能であり、例えば、必要に応じて、それぞれの分解トラックに個別にエフェクトが適用される。この場合、オーディオエフェクトチェーン５１−１，５１−２の出力部は、再結合ユニット３２に接続可能である。付加的にもしくは代替的に、エフェクトチェーン５１−３は、第１の制御要素２６−１によって設定された第１および第２の音量レベルにしたがって第１および第２の分解トラックが再結合される信号の流れに関する位置、特に、再結合ユニット３２の下流の位置または再結合ユニット３２の第１の再結合ステージ３２−１の下流の位置に配置することができる。こうした配置の利点は、オーディオエフェクトチェーン５１−３に提出されるチャネル数が、再結合プロセス内で、第１の再結合ステージの前のチャネル数の少なくとも半分に減少し、特に、第１のミキシング入力データのチャネル数（モノラル信号の場合は１チャネル、ステレオ信号の場合は２チャネル、サラウンド信号などの他のフォーマットの場合は３チャネル以上）に等しくなることである。このように、本実施形態の分解ユニットの追加機能は、従来のミキシング入力データの処理と比較して、オーディオエフェクトチェーン５１−３の複雑化または性能の過負荷をもたらすものではない。また、従来のＤＪ機器と同じオーディオエフェクトチェーンを使用することもできる。

図４〜図１０を参照しながら、以下、第２〜第８の実施形態について説明する。各実施形態は、図１〜図３に関して上述した第１の実施形態の変形例であり、第１の実施形態に関して上述したすべての特徴および機能は、以下で異なる説明をしない限り、第２〜第８の各実施形態においても同様に対応して含まれることが好ましい。これらの同一または対応する特徴または機能については、再度の説明を行わない。

図４に示す第２の実施形態では、第１のＤＪデッキ５０ａおよび第２のＤＪデッキ５０ｂがディスプレイ上、特にタッチディスプレイ上に表示されており、ユーザは物理的なＤＪデッキの操作に対応するジェスチャまたは動作によってそれらを操作することができる。第２の実施形態は、ユーザ、特にＤＪが、ライブパフォーマンス中にスクラッチ効果を実行したり、楽曲中の異なる時間位置にスキップしたりすることを可能にするために、特に有利でありうる。

ＤＪデッキ５０ａ，５０ｂとは独立して（付加的にもしくは代替的に）提供することができる、第２の実施形態のさらなる特徴として、第１の制御要素２６−１および好ましくはさらに第２の制御要素２６−２を、ユーザによって機械的に移動可能なハードウェアスライダとして、またはタッチジェスチャもしくはポインタもしくはコンピュータマウスもしくは他の任意のユーザ入力によって移動可能な、タッチパネル上もしくはコンピュータ画面上に提示される仮想スライダとして、具現化することができる。第１の制御要素２６−１のスライダは、第１の分解トラックの第１の音量レベルと第２の分解トラックの第２の音量レベルとの間の比率を、第１の音量レベルを１００％とし、第２の音量レベルを０％とする一方の終端位置から、第１の音量レベルを０％とし、第２の音量レベルを１００％とする別の終端位置の位置までの範囲で連続的に変化させることができる。終端位置間でスライダを一方向に動かすと、第１の音量および第２の音量のうちの一方が大きくなり、第１の音量および第２の音量のうちの他方が同じ割合で小さくなる。

好ましいデフォルト設定として、制御要素２６−１の中心位置では、第１および第２の音量レベルの両方が、フル／ノーマル音量＝１００％に設定されている。すなわち、再結合が元の第１のミキシング入力データに対応している。必要に応じて、音量調整カーブをユーザが設定することも可能である。デフォルトでは、
第１の音量レベル＝ＭＩＮ（１．０，ｓｌｉｄｅｒＶａｌｕｅ^＊２．０）
第２の音量レベル＝ＭＩＮ（１．０，（１．０−ｓｌｉｄｅｒＶａｌｕｅ）^＊２．０）
のように、音量レベルを計算することができる。ここで、「ＭＩＮ（値１，値２）」は、値１および値２の最小値を表し、「ｓｌｉｄｅｒＶａｌｕｅ」は、０（左端の値）から１．０（右端の値）まで動く、制御要素２６−１の設定を表す。スライダを反対方向に動かすと音量の増減が逆になる。これにより、ユーザは片手または指一本だけで、単一の連続した動きによって、第１の分解トラックと第２の分解トラックとの間をスムーズにクロスフェードし、または両分解トラック間の所望の再結合を調整できるようになる。好ましくは、第２の制御要素２６−２は、第３および第４の分解トラックの第３および第４の音量レベルをそれぞれ制御するために、第１の制御要素２６−１と同じ手法で操作可能である。

好ましくは、ミックス制御要素２８もスライダとして実現され、装置の直感的な操作のために第１の制御要素２６−１と第２の制御要素２６−２との間に配置されてもよい。第１の実施形態と同様に、ミックス制御要素２８は、クロスフェーダであってもよく、かつ／または第１の再結合Ａ’の音量レベルと第２の再結合Ｂ’の音量レベルとの間の比率を制御するように適合化可能であり、ここで、再結合Ａ’は、第１の分解トラックと第２の分解トラックとを再結合して取得され、再結合Ｂ’は、第３の分解トラックと第４の分解トラックとを再結合して取得される。

装置１０は、さらに、第１および第２の分解トラックまたはその再結合を表す波形が表示される第１の波形部５２−１を表示するように構成することができる。第１および第２の分解トラックは、共通のベースライン／時間軸を共有するように重ね合わせて表示されるが、互いに視覚的に区別できるように、異なる信号軸および／または異なる描画スタイルを使用する。図４に示す例では、第１の波形部５２−１は、第１の波形および第２の波形のズームインバージョン５３−１を表示しており、第１の波形および第２の波形は、好ましくは１秒〜６０秒、より好ましくは３秒〜１０秒のサイズを有し、かつ現在の再生位置を含む時間間隔が可視となるようにスケーリングされた共通のベースラインを用いて、重ね合わされて表示されている。ズームインバージョン５３−１は、現在の再生位置が特にディスプレイの固定位置で可視となって維持されるように、再生に伴ってスクロール可能である。付加的にもしくは代替的に、第１の波形部５２−１は、第１および第２の波形のズームアウトバージョン５５−１を表示することもでき、第１および第２の波形は、好ましくは、入力オーディオファイルの長さ、例えば、楽曲Ａ全体および／または６０秒〜２０分のサイズに対応するサイズを有し、かつ現在の再生位置を含む時間間隔が可視となるようにスケーリングされた共通のベースラインを用いて、重ね合わされて表示されている。ズームアウトバージョン５５−１は、時間軸に対して移動しないが、ズームアウトバージョン５５−１には、時間軸に沿って移動する、現在の再生位置を表す再生ヘッド５８が表示されることが好ましい。

同様に、装置１０は、第３および第４の分解トラックを表す波形が、第１の波形部５２−１ならびに第１および第２の分解トラックについて上述したのと同様の手法で、特にズームインバージョン５３−２およびズームアウトバージョン５５−２によって表示される第２の波形部５２−２を表示するように構成することができる。

第１の波形部５２−１および／または第２の波形部５２−２は、タッチジェスチャまたはマウス／ポインタの入力コマンドなどのユーザ入力コマンドを受信するように構成することができ、これは、例えば、ズームアウトバージョン５５−１／５５−２のベースライン上の所望の位置を単純にクリックまたはタッチすることによって、現在の再生位置を変更して、オーディオデータ内の所望の位置にジャンプするために構成される。

図４の例では、第１の波形部５２−１のズームインバージョン５３−１の第１の分解トラックおよび第２の分解トラックを、異なる信号軸および異なる描画スタイルで表示している。特に、第１の分解トラック（例えば分解ボーカルトラック）の信号軸は、第２の分解トラック（例えば分解インストゥルメンタルトラック）の信号軸より大幅に小さくスケーリングされ、第１の分解トラックが第２の分解トラックの中にあるように視覚化され、視覚的に区別できるようになっている。さらに、第１の分解トラックの波形は濃い色の描画スタイルで表示され、第２の分解トラックの波形は薄い色の描画スタイルで表示される。

同様に、第１の波形部５２−１のズームアウトバージョン５５−１の第１の分解トラックおよび第２の分解トラックも、異なる描画スタイルで表示されている。具体的には、第１の分解トラックの波形の上半分のみ、第２の分解トラックの波形の下半分のみが表示される。また、第１の分解トラックの波形は濃い色の描画スタイルで表示してもよく、第２の分解トラックの波形は薄い色の描画スタイルで表示してもよい。当然に、これらすべての描画スタイルは、第２の波形部５２−２の波形に交換または変更および／もしくは適用することができる。

第１および第２の波形部５２−１，５２−２における分解トラックのオーバーレイ表現は、図１２および図１３に関して以下でより詳細に説明する、本発明の一実施形態による方法によって提供することができる。

さらに、制御要素２６−１，２６−２，２８および３０−１，３０−２の設定は、表示される個々の波形のそれぞれの信号振幅変化を通じて、第１および第２の波形部５２−１，５２−２における分解トラックの視覚化に反映させることができる。特に、第１および第２の波形部５２−１，５２−２に表示される分解トラックの波形の信号軸は、制御要素２６−１，２６−２，２８および３０−１，３０−２を介してユーザが設定したそれぞれの分解トラックの音量レベルの現在の設定に応じてスケーリングされる。これにより、音量の設定をユーザに直接に、好ましくは直ちに視覚的にフィードバックすることができる。

装置１０は、第１および第２のミキシング入力ファイル（楽曲ＡおよびＢ）にそれぞれ関連付けられた第１のキュー制御要素３１−１および／または第２のキュー制御要素３１−２を有することができ、ユーザは、現在の再生位置を保存し、所望に応じて後の任意の時点でそれを取り出してジャンプするために、これらを操作しうる。

図５に示す第３の実施形態では、第１および第２の制御要素２６−１，２６−２がスライダの代わりに回転可能なノブであることを除き、第２の実施形態のそれぞれの制御要素と機能が類似している。ただし、ノブは、第１および第２の音量レベルの一方が１００％に設定され、第１および第２の音量レベルの他方が０％に設定された２つの終端位置の間で回転させることもできる。また、ユーザは、片手または指一本だけを使った単一の連続した動きによって、第１の分解トラックと第２の分解トラックとの間をクロスフェードすることができる。なお、第２の制御要素２６−２についても同様の構成が実装されてよい。

図６ａは、本発明の第４の実施形態のうち、再結合ユニットの制御に異なる制御部を用いた第１の変形例を示す図である。特に、第１〜第３の実施形態について説明した第１および第２の制御要素２６−１，２６−２に代えてもしくはこれに加えて、第４の実施形態の第１の変形例では、第１の分解トラックの第１の音量レベルと第３の分解トラックの第３の音量レベルとの間の比率、言い換えれば、異なる分解ユニット３８，４０の分解トラックの音量レベルを制御する第３の制御要素２６−３が設けられている。さらに、第２の分解トラックの第２の音量レベルと第４の分解トラックの第４の音量レベルとの間の比率をユーザが制御できる第４の制御要素２６−４が含まれていてもよい。これらの制御要素２６−３，２６−４により、例えば、第３の制御要素２６−３を操作することで、第１のオーディオファイルのボーカルパートと第２のオーディオファイルのボーカルパートとの間の比率を、片手または指一本での単一の動きにより、簡単かつ直接的に制御することが可能となる。同様に、第４の制御要素２６−４を片手または指一本だけで単一の動きで操作することにより、ユーザは、第１のオーディオファイルのインストゥルメンタルパートの音量レベルと第２のオーディオファイルのインストゥルメンタルパートの音量レベルとの間の比率を制御することができる。これにより、例えばＤＪは、最初にボーカルトラックを楽曲Ａから楽曲Ｂにクロスフェードさせ、続いてインストゥルメンタルトラックを楽曲Ａから楽曲Ｂにクロスフェードさせることで、よりシームレスなトランジションを行うことができ、音楽のより連続的な流れを実現することができる。

第３の制御要素２６−３および／または第４の制御要素２６−４は、スライダ（ハードウェアスライダまたはソフトウェアユーザインタフェース、例えば仮想タッチパネルスライダ）として、または回転可能なノブ（同様に、タッチパネル、コンピュータ画面、またはその他のディスプレイ装置上のハードウェアノブまたは仮想ノブ）として、実装することができる。

上述した第１〜第４の実施形態において、装置１０は、好ましくは、入力部１２、処理部１４、再結合ユニット３２、再生ユニット（特にオーディオインタフェース３４（サウンドカードなど）およびオーディオ出力部３６）を含むオールインワンの装置として、１つのハウジング内で実現されるものであり、または代替的に、電子制御ユニット（ＥＣＵ）上で動作するソフトウェアとして実現され、制御要素がＥＣＵのディスプレイ上で視覚化され、処理部１４の電子部品がＥＣＵの統合電子部品によって提供される完全な仮想機器として実現されるものである。かかるＥＣＵは、標準的なパーソナルコンピュータ、多目的コンピューティング装置、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、または統合されたスタンドアロンのＤＪコントローラであってもよい。

図６ｂは、本発明の第４の実施形態による装置の制御部の第２の変形例のレイアウトを示している。装置は、第１および第２のミキシング入力データ、すなわち異なる楽曲ＡおよびＢを受信し、楽曲選択制御要素６２Ａおよび６２Ｂは、第１のミキシング入力データとしての楽曲Ａおよび第２のミキシング入力データとしての楽曲Ｂをそれぞれ選択するために、ユーザによって操作されうる。楽曲ＡおよびＢは、外部のオーディオソースから、またはインターネット経由でストリーミングするためのオンライン音楽配信サービスから、またはローカルデータストレージ装置から選択されうる。

制御部は、楽曲Ａおよび楽曲Ｂの再生をそれぞれ開始または停止するための再生／停止制御要素６４Ａ，６４Ｂをさらに含むことができる。

本変形例の装置は第１の分解ユニットを含み、第１の分解ユニットは、楽曲Ａのオーディオデータを分解して、３つの分解Ａトラック、特に分解ボーカルＡトラック、分解ハーモニックＡトラック（例えばインストゥルメンタルＡトラック）、および分解ドラムＡトラックを取得する。任意手段として、第１の分解ユニットは、分解ベースＡトラックをさらに取得する。さらに、本変形例の装置は第２の分解ユニットを含み、第２の分解ユニットは、楽曲Ｂのオーディオデータを分解して、３つの分解Ｂトラック、特に分解ボーカルＢトラック、分解ハーモニックＢトラック（例えば、インストゥルメンタルＢトラック）、および分解ドラムＢトラックを取得する。任意手段として、第２の分解ユニットは、分解ベースＢトラックをさらに取得する。

制御部は、分解トラックの各ペアに対応する個別のクロスフェーダを有しており、例えば、分解ボーカルＡトラックと分解ボーカルＢトラックとの間でクロスフェードするボーカルクロスフェーダ６６Ｖ、および／または分解ハーモニックＡトラックと分解ハーモニックＢトラックとの間でクロスフェードするハーモニッククロスフェーダ６６Ｈ、および／または分解ドラムＡトラックと分解ドラムＢトラックとの間でクロスフェードするドラムクロスフェーダ６６Ｄ（および／またはさらに任意手段として、分解ベースＡトラックと分解ベースＢトラックとの間でのクロスフェードのための、図示されていないベースクロスフェーダ）などが含まれる。クロスフェードとは、各分解トラックのクロスフェーダ６６Ｖ，６６Ｈ，６６Ｄが２つの終了点間で制御されるように適合化されていることを意味しており、第１の終了点では、楽曲Ａの分解トラックの音量が最大で、楽曲Ｂの対応する分解トラックの音量が最小であり、一方、第２の終了点では、楽曲Ａの分解トラックの音量が最小で、楽曲Ｂの対応する分解トラックの音量が最大であることを意味している。２つの終了点の間で分解トラックのクロスフェーダの１つを移動または操作すると、楽曲ＡおよびＢの分解トラックの音量がそれぞれ所定のトランジション機能または所定のトランジション曲線にしたがって変更される。

図７に示す第５の実施形態によれば、さらなる代替案として、装置１０は、コンピュータ５４（パーソナルコンピュータ、ラップトップコンピュータ、タブレットまたはスマートフォン、またはその他の多目的コンピューティング装置）と、ケーブル（ＵＳＢ接続、ＭＩＤＩ接続、ＨＩＤ接続、ファイアワイヤ接続、ＬＡＮ接続など）または通常の無線プロトコル（ＷＩＦＩ，ＧＳＭ，Ｂｌｕｅｔｏｏｔｈなど）を使用した任意の無線接続によってコンピュータに接続可能な外部ハードウェアコンポーネントである周辺装置５６と、の組み合わせとして実装することができる。好ましくは、周辺装置５６は、制御要素２６−１，２６−２，２８などの制御要素を有する再構成制御部２４を含む。さらに、周辺装置５６は、従来のＤＪ機器において既知であるジョグホイール５０ａ、５０ｂまたは他の特徴部を含みうる。なお、処理部１４としては、コンピュータ５４の従来のハードウェアを用いてもよく、特にＡＩシステムおよびセグメンテーションユニットをコンピュータ５４のＲＡＭメモリに保存して実行する。さらに、処理部１４のタスクの一部または全部を実行するために、プロセッサ／ＣＰＵが周辺装置５６に含まれていてもよい。

図８に示す本発明の第６の実施形態は、第５の実施形態の若干の変形例であり、第６の実施形態の周辺装置５６は、本発明を実施するために必要な追加のハードウェアを最小限に減らし、なおかつ機械的な制御要素を設けるために、比較的コンパクトであり、再構成制御部および制御要素のみを含む。

図９に示す第７の実施形態では、装置１０は、ユーザが制御して楽曲Ａの分解インストゥルメンタルトラックをオンまたはオフに切り替えることが可能な楽曲Ａインストゥルメンタルボタン２６−５、および／またはユーザが制御して楽曲Ａの分解ボーカルトラックをオンまたはオフに切り替えることが可能な楽曲Ａボーカルボタン２６−６、および／またはユーザが制御して楽曲Ｂの分解インストゥルメンタルトラックをオンまたはオフに切り替えることが可能な楽曲Ｂインストゥルメンタルボタン２６−７、および／またはユーザが制御して楽曲Ｂの分解ボーカルトラックをオンまたはオフに切り替えることが可能な楽曲Ｂボーカルボタン２６−８を含む。これらのボタン２６−５〜２６−８の一部または全部を独立したボタンとして実現することで、ユーザは、分解トラックのうち、選択された１つのトラックを個別に、かつ単一の操作（指で１回タップ）のみでＯＮ／ＯＦＦを切り替えることができる。なお、本明細書では、トラックのＯＮ／ＯＦＦの切り替えは、それぞれトラックのミュート解除およびトラックのミュートを意味していることに注意されたい。

好ましくは、ユーザがボタン２６−５〜２６−８のうちのいずれかを操作する場合、それぞれの分解トラックが直ちにＯＮまたはＯＦＦに切り替わるのではなく、装置は、例えば瞬間的な信号のトランジションから生じる音響的なアーティファクトを回避するために、好ましくは５ミリ秒超、さらには５０ミリ秒超の一定の時間内に、それぞれのトラックの音量を連続的にまたは段階的に増大させまたは低減させるように制御される。

図１０に示す第８の実施形態では、装置１０は、楽曲Ａの分解ボーカルトラックと楽曲Ａの分解インストゥルメンタルトラックとを再結合することで第１の再結合Ａ’を取得するように構成された第１の再結合ステージと、楽曲Ｂの分解ボーカルトラックと楽曲Ｂの分解インストゥルメンタルトラックとを再結合することで第２の再結合Ｂ’を取得するように構成された第２の再結合ステージと、を含みうる。さらに、装置１０は、第１の再結合Ａ’の音量レベルを増大させるために第１の方向にユーザが操作可能であるように、または第２の再結合Ｂ’の音量レベルを増大させるために第２の方向にユーザが操作可能であるように構成されたミックス制御要素２８を含みうる。さらに、好ましくは、第１および第２の再結合Ａ’およびＢ’をそれぞれの音量レベルに応じて互いにミキシングし、再結合出力トラックを取得するミキシングステージが提供される。かかる信号の流れは、前述の図２を参照して説明したものと同様である。

ここで、第８の実施形態では、装置１０は、ボーカルスワップボタン２６−９をさらに含むことができ、ボーカルスワップボタン２６−９は、ユーザによって、特に、単にボタンを押すなどの単一の操作によって制御可能であり、楽曲Ａの分解ボーカルトラックを第２の再結合ステージにルーティングし、楽曲Ｂの分解ボーカルトラックを第１の再結合ステージにルーティングする。つまり、ボーカルスワップボタン２６−９の操作により、楽曲Ａ，Ｂの２つの分解ボーカルトラックが、それぞれ第１、第２の再結合ステージに入る前にスワップされる。ボーカルスワップボタン２６−９を繰り返し操作することで、２つの分解ボーカルトラックのスワップをさらに続けることができる。

付加的にもしくは代替的に、装置１０は、インストゥルメンタルスワップボタン２６−１０をさらに含むことができ、インストゥルメンタルスワップボタン２６−９は、ユーザによって、特に、単にボタンを押すなどの単一の操作によって制御可能であり、楽曲Ａの分解インストゥルメンタルトラックを第２の再結合ステージにルーティングし、楽曲Ｂの分解インストゥルメンタルトラックを第１の再結合ステージにルーティングする。つまり、インストゥルメンタルスワップボタン２６−１０の操作により、楽曲Ａ，Ｂの２つの分解インストゥルメンタルトラックが、それぞれ第１、第２の再結合ステージに入る前に、スワップされる。インストゥルメンタルスワップボタン２６−１０を繰り返し操作することで、２つの分解インストゥルメンタルトラックのスワップをさらに続けることができる。

好ましくは、ユーザがボタン２６−９または２６−１０のうちのいずれかを操作する場合、トラックのそれぞれのスワップは直ちに行われるのではなく、装置は、例えば瞬間的な信号のトランジションから生じる音響的なアーティファクトを回避するために、好ましくは５ミリ秒超、さらには５０ミリ秒超の一定の時間内に、それぞれのトラックの音量を連続的にまたは段階的に増大させまたは低減させるように制御される。

代替的に、ボーカルスワップボタン２６−９をユーザが制御して、通常の音量（特に最大音量）の楽曲Ａの分解ボーカルトラックと楽曲Ａのミュートされた分解インストゥルメンタルトラックとを再結合して第１の再結合Ａ’を取得することにより、また楽曲Ｂのミュートされた分解ボーカルトラックと楽曲Ｂの通常の音量（特に最大音量）の分解インストゥルメンタルトラックとを再結合して第２の再結合Ｂ’を取得することにより、一方で、再結合Ａ’およびＢ’が同じ音量レベルで同時に聞こえるようにミックス制御要素２８をその中央位置に設定しながら、同様のリミックス／マッシュアップを実現することができる。

図１１は、第８の実施形態の方法の変形例であり、特にスワップボタン、例えばボーカルスワップボタン２６−９の操作について示している。装置１０は、マスタトラックとしてトラックＡ（楽曲Ａ）を、スレーブトラックとしてトラックＢ（楽曲Ｂ）を受信する。それぞれ、トラックＡが前述のように分解されて、分解トラック１および２が取得され、トラックＢが前述のように分解されて、分解トラック３および４が取得される。分解トラック３をスワップ用に準備するために、そのキー、テンポ、ビートの位相がマスタトラックＡのものと一致させられる。特に、装置１０はトラックＡおよびトラックＢのテンポ（例えば、ＢＰＭ（beats per minutes）値）を判別し、これらが一致しない場合、分解トラック３は、マスタトラックＡのテンポに一致するように、リサンプリングまたはタイムストレッチされる。また、キーマッチングが実施され、必要に応じて分解トラック３のキーがマスタトラックＡのキーと一致するように変更される。さらに、分解トラック３のテンポマッチングの後、同期ステップにおいて、分解トラック３のビート位相が、必要に応じてシフトされ、トラックＡのビート位相に一致させられる。

その結果、装置１０は、トラックＡの分解トラック２とシームレスに再結合できるように、テンポ、ビート位相およびキーに関してトラックＡと一致する修正された分解トラック３’を準備する。スワップボタンが有効になっている場合、図１１に示しているように、トラックＡの次の処理で、分解トラック１の代わりに分解トラック３’が使用され、再結合ステージにルーティングされて分解トラック２と再結合され、オーディオが出力されることになる。

任意手段として、１つ以上のオーディオエフェクトチェーンを、例えば、スワップするステップと再結合ステージとの間で、例えばそれぞれの分解トラック１，２または３’に適用されるように、いずれかのトラックの信号フローに挿入することができる。

図１２および図１３は、本発明の実施形態の方法または装置、特に上述した第１〜第８の実施形態のいずれかによる装置において、装置の操作中に表示装置に表示されうるオーディオデータのグラフィック表現を示す。特に、このグラフィック表現は、ＥＣＵのディスプレイ、特にコンピュータ画面、またはコンピュータに接続された別の周辺装置の統合されたディスプレイ、またはスタンドアロンの装置として、タブレット、スマートフォン、または同様の装置上に表示することができる。グラフィック表現は、ＥＣＵ（コンピュータ、スタンドアロン装置、タブレット、スマートフォンなど）上で動作する適切なソフトウェアによって生成可能であり、また、特許請求の範囲または上記の実施形態に記載した本発明による方法を実施するソフトウェアの一部であってもよい。ソフトウェアは、グラフィックカードなどのグラフィックインタフェースを動作させるものであってもよい。

本実施形態では、オーディオデータを波形として視覚化している。ここでいう波形とは、再生時間を表す直線的な時間軸ｔ（通常は横軸）と、特定の再生時間ごとのオーディオデータの平均的な信号強度または信号振幅を表す信号軸（時間軸ｔに直交する軸、好ましくは縦軸）と、を有する表現のことである。現在の再生位置を示す再生ヘッド５８が設けられてもよい。オーディオデータの再生中、再生ヘッド５８は、波形または再生ヘッドのいずれかまたは両方を視覚的に動かすことにより、時間軸ｔに沿って波形に対して移動する。

図１２は、本発明の新規なグラフィック表現に到達するまでの処理手順を概略的に示したものである。ミキシング入力データ６０（例えば楽曲Ａ）を受信し、分解して、第１の分解トラック６１−１（例えば分解ボーカルトラック）と、第２の分解トラック６１−２（例えば分解インストゥルメンタルトラック）と、が取得される。第１の分解トラック６１−１および第２の分解トラック６１−２は、その和がミキシング入力データ６０に対応するような補完トラックでありうる。

実際には、両方の分解トラックの波形に対して単一のベースラインを使用する、第１および第２の分解トラック６１−１，６１−２のオーバーレイ表現であるオーバーレイ波形６４が表示されており、これは、両波形の時間軸ｔが所定の距離を置いて互いに平行に延在しているのではなく、１本の共通線を形成する同一のものであることを意味する。両波形は、両者を区別できるように、異なる描画スタイルで表示されている。例えば、分解トラックの２つの波形のうち、一方の波形が他方の波形と異なる色で表示されてもよい。図１２の例では、分解トラックの一方の波形（ここでは分解ボーカルトラック６１−１）では、正の信号部分のみが表示され、負の信号部分は省かれているが、分解トラックの他方の波形（ここでは分解インストゥルメンタルトラック６１−２）では、負の信号部分のみが表示され、正の信号部分は省かれている。代替的に、波形を互いに区別できるようにするために、異なるスケールの信号軸を用いて、または異なる描画スタイルを用いて、波形を描画することができる。異なる描画スタイルの例として、一方の波形を破線または点線で描画したり、異なる色で描画したり、異なる透明度または透過度で描画したり、これらの組み合わせで描画したりすることができる。

図１３に示す別の例では、分解トラックの一方の波形、ここではボーカルトラック６１−１の波形が、他方の分解トラックの波形、ここではインストゥルメンタルトラック６１−２の波形とは異なるスケールで、ここではより小さいスケールで、信号軸に沿って表示されている。また、異なる色によって各波形を表示することもできる。

分解トラックの波形を再構成制御部の制御要素の設定および／または再結合ユニットの設定を表すように表示して、それぞれの分解トラックに割り当てられた信号量についてユーザにフィードバックを提供することが好ましい。好ましくは、ユーザが制御要素の１つを操作して、少なくとも１つの分解トラックの音量を増大または低減させるのと同時に、当該分解トラックの関連する波形が、その信号軸に関して増大または低減するサイズで表示されるか、または視覚的にフェードインまたはフェードアウトされる。当該グラフィカルフィードバックは、好ましくは即時に行われ、したがって、ユーザにとって邪魔にならない、または認識できないほどの遅延時間、特に５００ミリ秒未満の遅延時間、好ましくは毎秒３０フレームのフレームレートにおいて肉眼で認識できないほどの、３５ミリ秒未満の遅延時間で行われる。かかる表示は、ライブパフォーマンス中の装置の操作に大いに役立つものである。

図１４は、本発明の装置１０の第９の実施形態を示しており、オーディオプレーヤである。当該オーディオプレーヤは、１つのオーディオファイルから取得されたそれぞれの第１および第２の分解トラック（ここでは分解ボーカルトラックおよび分解インストゥルメンタルトラック）の第１および第２の音量レベルを制御するための制御要素２６−１３を有する再構成制御部２４と、任意に第１および第２の分解トラックのオーバーレイ表現を表示する表示領域６６と、を含む。図１４の装置１０は、例えばプレイリストから、または個々のユーザの選択に基づいて、オーディオファイルを順次再生するように適合化可能であり、オーディオストリーミングサービスからのストリーミングを介してオーディオファイルを受信するための入力ユニットを有することができ、よって、大部分の時間において（１つの楽曲の終わりから次の楽曲の先頭へのトランジション時の任意のクロスフェード効果は別として）１つのオーディオファイルのみを再生するように適合化可能である。ユーザは、再生制御要素３０の操作によって再生を開始または停止することができ、かつ／または再生ヘッドを時間軸に沿って移動させることによって再生位置を変更することができる。

ユーザは、制御要素２６−１３を介して楽曲の再生を制御して、分解ボーカルトラックのみ、または分解インストゥルメンタルトラックのみ、または両方のトラックの再結合を聴くことができる。かかる構成は、例えば、カラオケアプリケーションまたはプレイアロングアプリケーションなどに有効である。好ましくは、装置１０は、上述の機能を実現するための適切なソフトウェアアプリケーションを実行する、コンピュータまたはスマートフォンまたはタブレットなどのモバイル装置である。

図１５は、本発明の第１０の実施形態を示しており、当該実施形態は、第１〜第４の分解トラックのそれぞれ、特に第１の分解ボーカルトラック、第１の分解インストゥルメンタルトラック、第２の分解ボーカルトラックおよび第２の分解インストゥルメンタルトラックのそれぞれに対して、個別のＯＮ−ＯＦＦボタン２６−１４〜２６−１７を含む。いずれかのボタンを操作することで、各分解トラックの音量が０〜１００％の間または逆方向に１００〜０％の間で切り替えられる。

図１６は、本発明の第１１の実施形態を示しており、当該実施形態は、第１〜第４の分解トラック、特に第１の分解ボーカルトラック、第１の分解インストゥルメンタルトラック、第２の分解ボーカルトラック、および第２の分解インストゥルメンタルトラックのそれぞれに対して個別のフェーダ２６−１８〜２６−２１を含む。いずれかのフェーダを操作することで、各分解トラックの音量を０〜１００％の間または逆方向に１００〜０％の間で連続的に変化させることができる。

図１７および図１８を参照して、以下、本発明の第１２の実施形態について説明する。第１２の実施形態は、第１〜第１１の実施形態の変形例であり、そのため、以下で特に説明しない限り、第１〜第１１の実施形態のいずれかの上述した特徴および利点のいずれかまたはすべてを含みうる。

第１２の実施形態の装置１１０は、入力ユニットを含み、入力ユニットは、入力オーディオファイルＡ、例えば第１の楽曲Ａを受信および／または提供するための第１の入力部と、好ましくは、第２の入力オーディオファイルＢ、例えば第２の楽曲Ｂを受信または提供するための第２の入力部と、を有する。第１の入力オーディオファイルは、符号化または圧縮されたフォーマットで提供された場合、復号または解凍されてよく、第１の実施形態について上述したのと同じまたは対応する手法で、第１のセグメンテーションユニット１４２においてセグメントに分割されてよい。

入力オーディオファイルＡ（またはそのセグメント）は、オーディオデータを少なくとも４つの分解トラック、すなわちドラムトラックＤ１、ベーストラックＤ２、ボーカルトラックＤ３、および補完トラックＤ４に分離することができる第１のＡＩシステム１４４に転送される。ドラムトラックＤ１は、入力オーディオファイルＡのうちドラムの音色を有する成分を含み、ベーストラックＤ２は、入力オーディオファイルＡのうちベースの音色を有する成分を含み、ボーカルトラックＤ３は、入力オーディオファイルＡのうちボーカルの音色を有する成分を含み、補完トラックＤ４は、入力オーディオファイルＡの残りの部分である。これは、ドラムトラックＤ１、ベーストラックＤ２、ボーカルトラックＤ３、および補完トラックＤ４のミクスチャが、入力オーディオファイルＡのものと実質的に等しいオーディオ信号になることを意味している。この実施形態の変形例において、ＡＩシステム１４４は、入力オーディオファイルＡから、他の任意の音色の分解トラックＤ１〜Ｄ３を分離するように構成され、訓練されてもよい。

分解トラックＤ１〜Ｄ４は、ユーザ設定および／またはユーザ制御入力にしたがって、分解トラックＤ１〜Ｄ４のうちの選択トラックを再結合するように構成された再結合ユニット１３２にルーティングされる。特に、再結合ユニット１３２は、第１の再結合部１３２ａを含むことができ、この第１の再結合部１３２ａは、個々の分解トラックＤ１〜Ｄ４を入力として受信し、分解トラックＤ１〜Ｄ４のうちの１つを通過して取得された２つのトラックＳ１と、Ｄ１〜Ｄ４のうちの選択トラックをグループ化して取得されたＳ２と、を出力する。分解トラックの選択および分解トラックＤ１〜Ｄ４のそれぞれのグループ化は、モード制御ユニット１４５によって制御されうる。

図１７および図１８に示す例では、モード制御ユニット１４５は、図１７に示す第１の動作モードまたは図１８に示す第２の動作モードに選択的に設定することができる。第１の動作モードでは、ドラムトラックＤ１が第１のトラックＳ１にルーティングされて、すなわちＳ１がＤ１に等しくなり、一方でベーストラックＤ２、ボーカルトラックＤ３および補完トラックＤ４が選択されて、１つのトラックすなわち第２のトラックＳ２に再結合されるように、第１の再結合部１３２ａが構成されている。つまり、第１の動作モードでは、Ｄ２、Ｄ３、Ｄ４をグループ化して単一のトラックＳ２が形成され、Ｄ１を通過してトラックＳ１が形成されるようになっている。一方、図１８に示す第２の動作モードでは、ドラムトラックＤ１、ベーストラックＤ２および補完トラックＤ４が再結合の対象として選択され、すなわちグループ化されて１つのトラックＳ２が形成され、一方でボーカルトラックＤ３がトラックＳ１のみにルーティングされるように、第１の再結合部１３２ａが構成されている。

モード制御ユニット１４５は、第１の動作モードと第２の動作モードとを選択的に切り替えるためにユーザが操作するモード制御要素（ジャンルボタンまたはジャンルスイッチなど）を含みうる。例えば、第１の動作モードは、主に電子音楽（すなわち通常ボーカルを含まない音楽）に使用可能であり、一方、第２の動作モードは、ヒップホップまたはポップスなどの通常ボーカルを含む音楽に使用可能である。

トラックＳ１およびＳ２は、次いで第２の再結合部１３２ｂにルーティングされ、この第２の再結合部１３２ｂは、第１のトラックＳ１に関連する第１の音量レベルおよび第２のトラックＳ２に関連する第２の音量レベルを制御するためにユーザによって制御可能な単一の制御要素１２６−１を含む。好ましくは、制御要素１２６−１は、ユーザが単一の制御操作で、例えば、第１の音量レベルと第２の音量レベルとの間のクロスフェーダとして、すなわち第１の音量レベルと第２の音量レベルとの間の比率を変更するように、操作可能である。特に、単一の制御要素１２６−１は、制御範囲を有するように構成することができ、制御範囲のうちの少なくとも一部では、第１および第２の音量レベルの音量変化が、例えば、第１および第２の音量レベルのうちの一方を増大させること、および／または第１および第２の音量レベルのうちの他方を低減させることによって、同時に実行される。好ましくは、単一の制御要素１２６−１は、第１の音量レベルが最大値を有し、第２の音量が最小値を有する第１の終了点から、第１の音量レベルが最小値を有し、第２の音量レベルが最大値を有する第２の終了点まで広がる制御範囲を有していてよい。制御範囲の中間領域では、第１および第２の音量レベルがともに最大値であってもよい。

好ましくは、単一の制御要素１２６−１は、単一の回転可能なノブまたは単一のフェーダ要素である。制御要素１２６−１を介してユーザによって入力された第１および第２の音量レベルの設定に基づいて、第２の再結合部１３２ｂは、再生用にオーディオインタフェース１３４に向けてルーティングされる第２の再結合トラックＡ’を取得するために、第１のトラックＳ１および第２のトラックＳ２を再結合する。

トラックＳ１およびＳ２は、さらに、先の実施形態の視覚化ユニット４９−１および４９−２について上述したように、その波形をディスプレイなどで視覚化するために、視覚化ユニット１４９−１にルーティングされてもよい。

第２のオーディオ入力ファイルＢは、例えば、第２のＡＩシステムを含みうる第２の分解ユニット１４０において、第１の入力オーディオファイルＡと同様の手法で処理可能である。第２の分解ユニット１４０から取得された分解トラックは、次に、再結合ユニット１３２を介してルーティングされ、第１の入力オーディオファイルＡについて上述したのと同一のまたは対応する手法で、グループとしてまたは個別に、ここで再結合されてもよい。第２の入力オーディオファイルＢからこのようにして取得された再結合トラックＢ’は、次いで、特に第１〜第１１の実施形態についてより詳細に上述した手法で、ミックス制御要素１２８によって制御される、さらなるミキシングステージ内で、第１の入力オーディオファイルＡから取得された再結合トラックＡ’と再結合／ミキシングされうる。そして、このミキシングステージの出力は、再生用にオーディオインタフェース１３４にルーティングされうる。

Claims

オーディオデータを処理および再生するためのＤＪ機器であって、前記ＤＪ機器は、
−第１のミキシング入力データ（Ａ）を受信するための第１のオーディオ入力ユニットであって、前記第１のミキシング入力データは、少なくとも第１のソーストラックと第２のソーストラックとをミキシングして取得された和信号である第１のオーディオ入力ユニットと、
−前記第１のミキシング入力データ（Ａ）とは異なる第２のミキシング入力データ（Ｂ）を受信するための第２のオーディオ入力ユニットであって、前記第２のミキシング入力データ（Ｂ）は、少なくとも第３のソーストラックと第４のソーストラックとをミキシングして取得された和信号である第２のオーディオ入力ユニットと、
−前記第１のオーディオ入力ユニットに接続され、前記第１のミキシング入力データを分解して、前記第１のソーストラックに類似した少なくとも第１の分解トラックを取得するための第１の分解ユニット（３８）と、
−前記第２のオーディオ入力ユニットに接続され、前記第２のミキシング入力データ（Ｂ）を分解して、前記第３のソーストラックに類似した少なくとも第３の分解トラックを取得するための第２の分解ユニット（４０）と、
−前記第１の分解トラックと前記第３の分解トラックとを再結合することによって再結合出力データを生成するように適合化された再結合ユニット（３２）と、
−前記再結合出力データを再生するための再生ユニット（３４，３６）と、
を含むＤＪ機器。
前記ＤＪ機器は、ユーザによって制御されて前記第１の分解トラックの第１の音量レベルおよび前記第３の分解トラックの第３の音量レベルの所望の設定を表す制御入力を生成するように適合化された再構成制御部（２４）をさらに含み、
前記再結合ユニット（３２）は、前記第１の音量レベルでの前記第１の分解トラックと前記第３の音量レベルでの前記第３の分解トラックとを再結合することによって前記再結合出力データを生成するように適合化されている、
請求項１記載のＤＪ機器。
前記再構成制御部（２４）は、前記第１の分解トラックの第１の音量レベルと前記第３の分解トラックの第３の音量レベルとの間の比率を制御する制御要素（２６−３）を含む、
請求項２記載のＤＪ機器。
前記第１の分解ユニット（３８）は、前記第１のミキシング入力データ（Ａ）を分解して、前記第２のソーストラックに類似した第２の分解トラックをさらに取得するように適合化されており、
前記第２の分解ユニット（４０）は、前記第２のミキシング入力データ（Ｂ）を分解して、前記第４のソーストラックに類似した第４の分解トラックをさらに取得するように適合化されており、
前記再構成制御部（２４）は、ユーザによって制御されて、前記第２の分解トラックの第２の音量レベルおよび前記第４の分解トラックの第４の音量レベルの所望の設定を表す制御入力をさらに生成するように適合化されており、
前記再結合ユニット（３２）は、第１の音量レベルでの前記第１の分解トラック、第２の音量レベルでの前記第２の分解トラック、第３の音量レベルでの前記第３の分解トラック、および、第４の音量レベルでの前記第４の分解トラックを再結合することによって、前記再結合出力データを生成するように適合化されている、
請求項２から３までのいずれか１項記載のＤＪ機器。
前記再構成制御部（２４）は、前記第２の分解トラックの前記第２の音量レベルと前記第４の分解トラックの前記第４の音量レベルとの間の比率を制御する制御要素（２６−４）をさらに含む、
請求項４記載のＤＪ機器（１０）。
前記制御要素は、スライダとしてまたは回転可能なノブとして実装されている、
請求項３または５記載のＤＪ機器（１０）。
第３の制御要素（２６−３）は、片手または指一本による単一の動きで操作されて、前記第１のミキシング入力データ（Ａ）のボーカルパートの音量レベルと前記第２のミキシング入力データ（Ｂ）のボーカルパートの音量レベルとの間の比率を制御するように適合化されており、
第４の制御要素（２６−４）は、片手または指一本による単一の動きで操作されて、前記第１のミキシング入力データ（Ａ）のインストゥルメンタルパートの音量レベルと前記第２のミキシング入力データ（Ｂ）のインストゥルメンタルパートの音量レベルとの間の比率を制御するように適合化されている、
請求項１から６までのいずれか１項記載のＤＪ機器（１０）。
前記再構成制御部（２４）は、前記第１の音量レベルおよび前記第２の音量レベルを制御するために、ユーザが単一の制御操作で操作可能な少なくとも１つの単一の再構成制御要素（２６−１，２６−２）をさらに含み、
再構成制御要素（２６−１，２６−２）は、（１）前記第１の音量レベルおよび前記第２の音量レベルのうちの一方を増大させると同時に、前記第１の音量レベルおよび前記第２の音量レベルのうちの他方を低減させるか、または、（２）前記第１の音量レベルと前記第２の音量レベルとの間の比率を、少なくとも１より小さい値から少なくとも１より大きい値に変更するか、または、その逆を行う、
請求項４および請求項４を引用する請求項５から７までのいずれか１項記載のＤＪ機器。
前記再構成制御部（２４）は、
−前記第１の音量レベルおよび前記第２の音量レベルを制御するために、（１）前記第１の音量レベルおよび前記第２の音量レベルのうちの一方を増大させると同時に、前記第１の音量レベルおよび前記第２の音量レベルのうちの他方を低減させるか、または、（２）前記第１の音量レベルと前記第２の音量レベルとの間の比率を、少なくとも１より小さい値から少なくとも１より大きい値に変更するか、またはその逆を行う、ユーザが単一の制御操作で操作可能な第１の単一の再構成制御要素（２６−１）と、
−前記第３の音量レベルおよび前記第４の音量レベルを制御するために、（１）前記第３の音量レベルおよび前記第４の音量レベルのうちの一方を増大させかつ／または前記第３の音量レベルおよび前記第４の音量レベルのうちの他方を低減させるか、または、（２）前記第３の音量レベルと前記第４の音量レベルとの間の比率を、少なくとも１より小さい値から少なくとも１より大きい値に変更するか、または、その逆を行う、ユーザが単一の制御操作で操作可能な第２の単一の再構成制御要素（２６−２）と、
−第１の和信号および第２の和信号を制御するために、（１）前記第１の和信号および前記第２の和信号のうちの一方を増大させると同時に、前記第１の和信号および前記第２の和信号のうちの他方を低減させるか、または、（２）前記第１の和信号の音量レベルと前記第２の和信号の音量レベルとの間の比率を、少なくとも１より小さい値から少なくとも１より大きい値に変更するか、または、その逆を行う、ユーザが単一の制御操作で操作可能な単一のミックス制御要素（２８）と、
を含み、
前記第１の和信号は、前記第１の音量レベルでの前記第１の分解トラックと前記第２の音量レベルでの前記第２の分解トラックとの和であり、前記第２の和信号は、前記第３の音量レベルでの前記第３の分解トラックと前記第４の音量レベルでの前記第４の分解トラックとの和である、
請求項４および請求項４を引用する請求項５から８までのいずれか１項記載のＤＪ機器。
前記ＤＪ機器は、
−所定のファイルサイズおよび所定の再生時間を有する入力オーディオファイルのセグメントをロードするための入力オーディオファイルバッファであって、前記ミキシング入力データを再生するためのオーディオデータを含む入力オーディオファイルバッファと、
−前記第１の分解ユニットに接続されており、前記入力オーディオファイルのセグメントから取得された前記第１の分解トラックのセグメントを受信および保存する第１のセグメントバッファと、
−前記第２の分解ユニットに接続されており、前記入力オーディオファイルの同じセグメントから取得された前記第２の分解トラックのセグメントを受信および保存する第２のセグメントバッファと、
をさらに含み、
−前記再生ユニット（３４，３６）は、前記再結合出力データからアナログオーディオ信号を生成するアナログ／デジタル変換器を有するオーディオインタフェースを含み、前記オーディオインタフェースは、再生用の出力データの一部をバッファリングするためのオーディオバッファを有し、
−前記第１のセグメントバッファおよび／または前記第２のセグメントバッファのサイズは、前記オーディオインタフェースの前記オーディオバッファのサイズより大きいが、前記入力オーディオファイルデータのサイズまたは前記入力オーディオファイルの前記所定のファイルサイズより小さい、
請求項４および請求項４を引用する請求項５から９までのいずれか１項記載のＤＪ機器。
前記ＤＪ機器は、テンポマッチングユニットおよびキーマッチングユニットのうちの少なくとも１つをさらに含み、
−前記テンポマッチングユニットは、前記第１のミキシング入力データから取得された第１の入力データおよび前記第２のミキシング入力データから取得された第２の入力データを受信するように配置されており、前記テンポマッチングユニットは、前記第１の入力データおよび前記第２の入力データのうちの少なくとも１つをタイムストレッチして、相互に一致するテンポを有する第１の出力データおよび第２の出力データを出力するように適合化されたタイムストレッチユニットを含み、かつ／または、
−前記キーマッチングユニットは、前記第１のミキシング入力データから取得された第１の入力データおよび前記第２のミキシング入力データから取得された第２の入力データを受信するように配置されており、前記キーマッチングユニットは、前記第１の入力データおよび前記第２の入力データのうちの少なくとも１つをピッチシフトして、相互に一致するキーを有する第１の出力データおよび第２の出力データを出力するように適合化されたピッチシフトユニットを含む、
請求項１から１０までのいずれか１項記載のＤＪ機器。
前記ＤＪ機器のすべての構成要素は、単一のユニット内に統合されている、または、ローカルネットワークを介してもしくは周辺ケーブル接続部を介してもしくは近距離無線接続を介して互いに接続された複数のローカルユニット内に統合されている、
請求項１から１１までのいずれか１項記載のＤＪ機器。
前記第１および第２の分解ユニットは、複数の訓練用オーディオデータのセットによって訓練された少なくとも１つのニューラルネットワークに基づくＡＩシステムを含む、
請求項１から１２までのいずれか１項記載のＤＪ機器。
前記ＤＪ機器は、
−ミキシング入力データ（Ａ，Ｂ）を受信するためのオーディオ入力ユニットであって、前記ミキシング入力データ（Ａ，Ｂ）は、ボーカル成分、ドラム成分およびハーモニック成分をミキシングして取得された和信号であるオーディオ入力ユニットと、
−前記オーディオ入力ユニットに接続されており、前記ミキシング入力データを分解して、
ｉ．前記ボーカル成分に類似した第１の分解トラックと、
ｉｉ．前記ドラム成分に類似した第２の分解トラックと、
ｉｉｉ．前記ハーモニック成分に類似した第３の分解トラックと、
を取得するための分解ユニットと、
−ユーザによって制御されるように適合化されており、
ｉ．前記第１の分解トラックの第１の音量レベルを制御するための第１の制御要素と、
ｉｉ．前記第２の分解トラックの第２の音量レベルを制御するための第２の制御要素と、
ｉｉｉ．前記第３の分解トラックの第３の音量レベルを制御するための第３の制御要素と、
を含む再構成制御部（２４）と、
−前記第１の音量レベルでの前記第１の分解トラック、前記第２の音量レベルでの前記第２の分解トラックおよび前記第３の音量レベルでの前記第３の分解トラックを再結合することによって出力データを生成するように適合化された再結合ユニットと、
−前記出力データを再生するための再生ユニットと、
を含む、
請求項１から１３までのいずれか１項記載のＤＪ機器。
ＤＪ機器を使用してオーディオデータを処理および再生するための方法であって、前記方法は、
−第１のミキシング入力データを受信するステップであって、前記第１のミキシング入力データは、少なくとも１つの第１のソーストラックと少なくとも１つの第２のソーストラックとをミキシングして取得された和信号であるステップと、
−第２のミキシング入力データを受信するステップであって、前記第２のミキシング入力データは、少なくとも１つの第３のソーストラックと少なくとも１つの第４のソーストラックとをミキシングして取得された和信号であるステップと、
−前記第１のミキシング入力データを分解して、前記少なくとも１つの第１のソーストラックに類似した少なくとも第１の分解トラックを取得するステップと、
−前記第２のミキシング入力データを分解して、前記少なくとも１つの第３のソーストラックに類似した少なくとも第３の分解トラックを取得するステップと、
−再結合出力データが生成されるように、少なくとも前記第１の分解トラックと前記第３の分解トラックとを再結合するステップと、
−前記再結合出力データを、オーディオ出力部を介して再生するステップと、
を含む方法。
前記方法は、ユーザからの制御入力を読み取るステップをさらに含み、前記制御入力は、前記第１の分解トラックの第１の音量レベルおよび前記第３の分解トラックの第３の音量レベルの所望の設定を表し、
前記再結合するステップは、少なくとも前記第１の音量レベルでの前記第１の分解トラックと前記第３の音量レベルでの前記第３の分解トラックとを再結合して、前記再結合出力データを生成することを含む、
請求項１５記載の方法。
前記方法は、前記第１の分解トラックの第１の音量レベルと前記第３の分解トラックの第３の音量レベルとの間の比率を制御するステップをさらに含む、
請求項１５または１６記載の方法。
前記第１のミキシング入力データを分解することにより、前記第２のソーストラックに類似した第２の分解トラックをさらに取得し、
前記第２のミキシング入力データを分解することにより、前記第４のソーストラックに類似した第４の分解トラックをさらに取得し、
ユーザからの制御入力を読み取るステップにおいて、前記制御入力は、前記第２の分解トラックの第２の音量レベルおよび前記第４の分解トラックの第４の音量レベルの所望の設定をさらに表し、
前記再結合するステップにおいて、前記再結合出力データは、第１の音量レベルでの前記第１の分解トラック、第２の音量レベルでの前記第２の分解トラック、第３の音量レベルでの前記第３の分解トラック、および、第４の音量レベルでの前記第４の分解トラックを再結合することによって生成される、
請求項１５から１７までのいずれか１項記載の方法。
前記方法は、前記第２の分解トラックの前記第２の音量レベルと前記第４の分解トラックの前記第４の音量レベルとの間の比率を制御するステップをさらに含む、
請求項１８記載の方法。
前記ミキシング入力データを分解することは、セグメントごとに実施され、
分解することは、前記ミキシング入力データの第１のセグメントに基づいて実施され、出力データの第１のセグメントが取得され、
前記ミキシング入力データの第２のセグメントを分解することは、出力データの前記第１のセグメントを再生しながら実施される、
請求項１５から１９までのいずれか１項記載の方法。
前記方法の各ステップは、連続プロセスで実施される、
請求項１５から２０までのいずれか１項記載の方法。
前記ミキシング入力データは、リモートサーバからのストリーミングを介して受信される、
請求項１５から２１までのいずれか１項記載の方法。
前記ミキシング入力データおよび前記第１の分解トラックおよび前記第２の分解トラックのうちの少なくとも１つは、それぞれ左チャネル信号部分および右チャネル信号部分を含むステレオ信号を表す、
請求項１５から２２までのいずれか１項記載の方法。
前記ミキシング入力データを分解することは、少なくとも１つのニューラルネットワークに基づくＡＩシステムによって前記ミキシング入力データを処理することを含み、前記ＡＩシステムは、少なくとも第１のソーストラックおよびミキシングトラックを含み、前記ミキシングトラックは、少なくとも前記第１のソーストラックまたは前記第１のソーストラックに類似するトラックと、第２のソーストラックと、をミキシングして取得された和信号である、
請求項１５から２３までのいずれか１項記載の方法。
前記第１のミキシング入力データおよび前記第２のミキシング入力データは、それぞれ周期的なビート構造に基づいており、前記方法は、テンポマッチング処理およびキーマッチング処理のうちの少なくとも１つを実行するステップをさらに含み、
−前記テンポマッチング処理は、前記第１のミキシング入力データから取得された第１の入力データおよび前記第２のミキシング入力データから取得された第２の入力データを受信することと、前記第１の入力データおよび前記第２の入力データのうちの少なくとも１つをタイムストレッチまたは類似化することと、相互に一致するテンポを有する第１の出力データおよび第２の出力データを出力することと、を含み、
−前記キーマッチング処理は、前記第１のミキシング入力データから取得された第１の入力データおよび前記第２のミキシング入力データから取得された第２の入力データを受信することと、前記第１の入力データおよび前記第２の入力データのうちの少なくとも１つをピッチシフトすることと、相互に一致するキーを有する第１の出力データおよび第２の出力データを出力することと、を含む、
請求項１５から２４までのいずれか１項記載の方法。
前記方法は、
−ボーカル成分、ドラム成分およびハーモニック成分をミキシングして取得された和信号であるミキシング入力データ（Ａ，Ｂ）を受信するステップと、
−前記ミキシング入力データを分解して、前記ボーカル成分に類似した第１の分解トラック、前記ドラム成分に類似した第２の分解トラックおよび前記ハーモニック成分に類似した第３の分解トラックを取得するステップと、
−前記第１の分解トラックの第１の音量レベルを制御するための第１の制御要素、前記第２の分解トラックの第２の音量レベルを制御するための第２の制御要素、および、前記第３の分解トラックの第３の音量レベルを制御するための第３の制御要素を介して、ユーザ入力を受信するステップと、
−前記第１の音量レベルでの前記第１の分解トラック、前記第２の音量レベルでの前記第２の分解トラックおよび前記第３の音量レベルでの前記第３の分解トラックを再結合することによって出力データを生成するステップと、
−前記出力データを再生するステップと、
を含む、
請求項１５から２５までのいずれか１項記載の方法。