JP2021141586A - オーディオデータの分解、ミキシング、再生のためのaiベースのdjシステムおよび方法 - Google Patents

オーディオデータの分解、ミキシング、再生のためのaiベースのdjシステムおよび方法 Download PDF

Info

Publication number
JP2021141586A
JP2021141586A JP2021035838A JP2021035838A JP2021141586A JP 2021141586 A JP2021141586 A JP 2021141586A JP 2021035838 A JP2021035838 A JP 2021035838A JP 2021035838 A JP2021035838 A JP 2021035838A JP 2021141586 A JP2021141586 A JP 2021141586A
Authority
JP
Japan
Prior art keywords
track
decomposition
volume level
input data
mixing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021035838A
Other languages
English (en)
Other versions
JP6926354B1 (ja
Inventor
モルジー カリーム
Morsy Kariem
モルジー カリーム
テスマン フェデリコ
Tessmann Federico
テスマン フェデリコ
テシュナー クリストフ
Teschner Christoph
テシュナー クリストフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Algoriddim GmbH
Original Assignee
Algoriddim GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from PCT/EP2020/056124 external-priority patent/WO2021175455A1/en
Priority claimed from PCT/EP2020/079275 external-priority patent/WO2021175461A1/en
Application filed by Algoriddim GmbH filed Critical Algoriddim GmbH
Application granted granted Critical
Publication of JP6926354B1 publication Critical patent/JP6926354B1/ja
Publication of JP2021141586A publication Critical patent/JP2021141586A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】ライブショーの状況下で、オーディオデータの再生を制御するユーザの芸術的かつクリエイティブな自由度を高める、オーディオデータを処理および再生するための方法および装置を提供する。【解決手段】方法は、ミキシング入力データを受信するステップと、再結合出力データを再生するステップと、を含む。さらに、好ましくはDJ機器であるオーディオデータを処理および再生するための装置は、ミキシング入力信号を受信するためのオーディオ入力ユニット12と、再結合ユニット32−1、32−2と、再結合出力データを再生するための再生ユニット(オーディオインタフェース34)と、を含む。【選択図】図2

Description

本発明は、オーディオデータを処理および再生する装置、特にDJ機器に関するものであり、第1および第2のミキシング入力データを受信するための第1および第2のオーディオ入力ユニットと、第1および第2のミキシング入力データから取得されたオーディオデータを再結合するための再結合ユニットと、出力データを再生するための再生ユニットと、を含む。さらに、本発明は、かかる装置を使用する方法に関する。
上述した特徴を有するオーディオ機器は、オーディオデータを再生、処理、伝送、記録する種々の用途に使用されている。特に、かかる種類の方法および装置は、音楽エンターテインメントの分野で使用されており、ライブエンタテインメント用のサウンドシステムおよびパブリックアドレスシステム(PAシステム)に実装することができる。一例として、少なくとも2つの異なる入力信号を受信するように従来から適合化されたDJ機器があり、当該DJ機器は、所望の音量レベルで2つの入力信号をミキシングする再結合ユニットを含む。DJ装置には、通常、第1の入力信号の音量レベルを上げると同時に第2の入力信号の音量レベルを下げて、入力信号間を連続的にブレンドする、クロスフェーダと称される制御要素が含まれている。
近年、ライブショー中のディスクジョッキーのクリエイティブかつ芸術的な貢献は、特定の会場での全体的なエンターテインメントの質だけでなく、現代音楽の発展そのものにも大きな影響を与えている。影響力のあるDJが開発した特定のオーディオエフェクト、タイミングおよびピッチのバリエーションは、従来の手法で制作されたレコーディングを現代風にアレンジする際にも使用されている。このため、当該分野では、既存のオーディオ信号をライブで調整して、ショー中のDJの創作の自由度をさらに高めるための新しい技術の開発が強く望まれている。
DJの作業のクリエイティブな側面に加えて、2つの楽曲の間をシームレスにブレンドさせることがDJの大きな役割である。このため、従来のDJ機器では、一方の楽曲のテンポおよびキーを他方の楽曲のテンポおよびキーに合わせてそれぞれ変更する特徴部、および2つの楽曲のオーディオエフェクト、例えばイコライザエフェクトの音量またはパラメータをクロスフェードさせる制御部が備えられている。スムーズなトランジションを実現するために、2つの楽曲のボーカルの衝突を回避することがDJの目的である。そのため、トランジションは、2つの楽曲のうち少なくとも一方の楽曲のボーカルトラックが一時停止している時間間隔、例えばインストゥルメンタルのソロパート、アウトロパート、またはコーラスとヴァースとの間の休止時間、または同様の位置で行われるのが一般的である。しかし、これはDJに相当の制約を課すものであり、ミキシングの際に楽曲の素材についての十分な知識または分析が必要となる。さらに、多くの楽曲で、特にポップスまたはヒップホップなどのジャンルでは、DJがスムーズに次の楽曲にトランジションできるようなボーカルトラックの休止部が極めて少ない場合が多い。かかる楽曲の場合、従来の手法では、2つのボーカルが一緒に再生されて衝突したり、流れが途絶したりすることを回避できない場合がある。同様に、ボーカルが全く含まれない場合もある電子音楽の場合、DJの目的は、2つの楽曲のベースライン、シンセサイザなどが衝突しないようにすることである。トランジションは通常、2つの楽曲のうち少なくとも一方の楽曲で、例えば楽曲の終わりもしくは始まりへ向かって、1つ以上の音色/メロディトラックが一時停止している時間間隔において、または楽曲の休止部分もしくはパーカッシブな部分などにおいて、行われる。
オーディオソース、特にDJが利用できる入力データに関しては、従来の方法および装置は、通常、オンラインデジタルミュージックストアまたはストリーミングサービスから取得されたミキシングステレオオーディオファイルなどのミキシング入力信号の処理に限定されている。オーディオファイルは、通常、音楽スタジオにおいて、複数のソーストラック、例えば複数のボーカルトラックおよびインストゥルメンタルトラックをミキシングし、オーディオエフェクトをかけ、プロジェクトをマスタリングしてステレオオーディオファイルを取得することで制作される。完成したオーディオファイルは、すべてのソーストラックおよびエフェクトなどの和信号であるため、個々のソーストラックに関する情報は通常は失われ、オーディオファイルのみを直接に検査しても利用することはできない。
近年、ミキシングオーディオ信号を分解して信号のボーカルパートを分離するための幾つかのアプローチが登場しており、これらは人工知能およびディープニューラルネットワークに基づいている。AIシステムには、通常、畳み込みニューラルネットワーク(CNN)が実装されており、ボーカルトラック、インストゥルメンタルトラック、ならびにボーカルトラックおよびインストゥルメンタルトラックのミックスなど、複数のデータセットによって訓練されている。ミキシングオーディオ信号から歌声のトラックなどのソーストラックを分離することができる、かかる従来のAIシステムの例としては、Pretet, “Singing Voice Separation: A study on training data”, Acoustics, Speech and Signal Processing (ICASSP), 2019, 506-510頁、「spleeter」(上記Pretetの教示に基づいて音楽ストリーミング会社Deezerが提供するオープンソースのツール)、「PhonicMind」(https://phonicmind.com、ディープニューラルネットワークに基づく音声および音源の分離装置)、「Open-Unmix」(周波数領域のディープニューラルネットワークに基づく音源分離装置)、またはFacebook AI Research社の「Demucs」(波形領域のディープニューラルネットワークに基づく音源分離装置)などが挙げられる。これらのツールは、標準的なフォーマット(MP3,WAV,AIFFなど)の音楽ファイルを受信し、楽曲全体を分解して、楽曲の分解/分離されたトラック(ボーカルトラック、ベーストラック、ドラムトラック、伴奏トラック、またはこれらのミクスチャなど)を提供する。これらのトラックは、ユーザがオーディオ制作、分析目的または再生のために保存することができる。この場合、例えば、市販されている楽曲からボーカルトラックを削除することによるカラオケ機器の設定に、従来のAIシステムを使用することができる。
ソーストラックを入力ファイルとしてDJシステムにロードし、ライブショー中にトラックを再結合するという方法も考えられるが、複数の理由から、かかるアプローチはDJの間では普及しなかった。
第一に、レコード会社またはプロデューサは、完全なミキシングオーディオファイルを提供するのみであり、商業的にリリースされた音楽の個々のソーストラック、例えば元のボイストラックは、通常、個別に入手することができない。第二に、オーディオデータをその場(on the fly)で処理および再生する必要がある音楽ストリーミングの場合、オーディオコンテンツ全体を前もってダウンロードして、上述のツールのうちの1つのようなソフトウェアモジュールで再生前に事前処理することは、通常、不可能である。
第三に、再生時間が数分以上の典型的なオーディオファイルの分解は、特にニューラルネットワークを使用する場合に、比較的時間を要する複雑な計算を伴う。そのため、ショーの前にセットアップを準備する(すなわち、ショー中の使用が所望されうるすべてのトラックをアップロード、分解、ダウンロード、保存および整理する)には、多大な時間および作業が必要になる。概して、ニューラルネットワークを用いた分解により、良質で正確なトラックの分離が実現されることが知られているが、通常のサイズ(数分の再生時間)のオーディオファイルを分解するには、比較的長い時間を要する。一方、ニューラルネットワークを使用しない分解は、例えば(多くのボーカルソーストラックはモノラルで録音されており、ステレオの両チャネルに均等に適用されるという想定に基づく)位相キャンセルとしても知られる、ステレオオーディオファイルの右チャネルから左チャネルを差し引くような単純なデジタル信号処理に基づいており、処理時間が短く、ライブ環境での使用に適していることが知られているが、これらのアプローチは品質が低く、通常、期待した結果を得ることができない。第四に、個別のトラックの再生を可能にするDJシステムには、各トラックの音量を調整するための個別のフェーダを備えたマルチチャネルミキシングユニットが必要になる。かかる追加のフェーダをDJが同時に操作することは困難であり、システムの複雑さが増大する。
以上の背景に鑑み、本発明の目的は、好ましくはライブショーの状況下で、オーディオデータの再生を制御するユーザの芸術的かつクリエイティブな自由度を高める、オーディオデータを処理および再生するための方法および装置を提供することである。
本発明の第1の態様によれば、上記の目的は、オーディオデータを処理および再生するための方法であって、(a)ミキシング入力データを受信するステップであって、前記ミキシング入力データが、少なくとも1つの第1のソーストラックと少なくとも1つの第2のソーストラックとをミキシングして取得された和信号である、ステップと、(b)ミキシング入力データを分解して、少なくとも1つの第1のソーストラックに類似した少なくとも第1の分解トラックを取得するステップと、(c)第1の分解トラックに基づいて出力データを生成するステップと、(d)オーディオ出力部を介して出力データを再生するステップと、を含む方法によって実現される。
本開示の文脈では、ミキシング入力データは、特にインストゥルメンタル奏者および/またはボーカリストのライブ音楽演奏の録音中の音楽制作中に、複数のソーストラックをミキシングして取得されるオーディオ信号を表す。したがって、ミキシング入力データは、本発明の方法による処理の開始前に完了している事前のミキシング処理から取得される。換言すれば、本発明の方法は、本発明の処理とは別の事前のミックスダウン処理の入力データを使用するものである。具体的には、ミキシング入力データは、オーディオファイルであってよく、例えば、レコーディングスタジオで複数のソーストラックをミキシングして制作された音楽作品を含むオーディオファイルであってもよい。例えば、第1のソーストラックは、ボーカリストをマイクで録音して取得されたボーカルトラックであってもよく、第2のソーストラックは、インストゥルメンタル奏者をマイクで録音して取得されたインストゥルメンタルトラックまたは楽器からのダイレクトライン信号であってもよい。通常、複数のボーカルトラックおよび/または複数のインストゥルメンタルトラックが同時に、または順次録音されていく。その後、複数のソーストラックがミキシングステーションに転送され、そこでソーストラックが個別に編集され、種々のサウンドエフェクトがソーストラックに適用され、個々の音量レベルが割り当てられ、好ましくは最終的に1つ以上のマスタリングエフェクトがすべてのトラックの和に適用される。制作プロセスの最後には、最終的なオーディオミックスが適切な記録媒体に保存される。例えば、コンピュータのハードドライブにオーディオファイルとして保存される。かかるオーディオファイルは、Apple Mobileオペレーティングシステム(iOS)、Apple Macintoshオペレーティングシステム(macOS)、Microsoft Windowsオペレーティングシステム、またはGoogle Androidオペレーティングシステムなどを搭載したコンピュータまたはスマートフォンなどの標準的な再生装置で読み取り可能であるように、MP3,WAV,AIFFなどの従来のオーディオファイル形式であることが好ましい。
本発明の実施形態において、ミキシング入力データは、好ましくはオーディオファイル、特に音楽を含むオーディオファイルである。本発明の方法または装置は、好ましくは、かかるオーディオファイルを装置のローカルストレージ手段に保存し、かつ/またはかかるオーディオファイルを、例えばインターネットを介してリモートサーバから受信して、特にストリーミングするように構成される。そのため、本発明の装置は、オーディオファイルを受信するように構成されたWIFIインタフェースまたはLANインタフェースなどのネットワーク接続手段を含むことができる。代替的にもしくは付加的に、装置は、BluetoothインタフェースもしくはUSBポートなど、オーディオファイルを受信するように適合化された他の接続機器を有してもよい。装置は、オーディオデータを保存するためのハードドライブを有してもよい。
本発明の一実施形態によれば、ミキシング入力データの受信、ミキシング入力データの分解、出力データの生成および再生の各ステップは、連続したプロセスで実施される。これは、オーディオデータの入力(ミキシング入力データの受信)から出力(出力データの再生)までの処理が、連続的に、またはその場で、つまり大幅な時間の遅れなく実施されることを意味する。例えば、ミキシング入力データを受信してから、2秒未満、好ましくは150ミリ秒未満、最も好ましくは50ミリ秒未満で、分解されたオーディオデータの再生を開始することができる。特に、オーディオファイルを分解サービスプロバイダのリモートサーバにアップロードしたり、リモートサーバ上で分解が終了するのを待機してサーバからローカル装置に分解トラックをダウンロードしたり、ローカルメモリに分解トラックを保存して、その後、分解トラックを再生したりする必要がなくなる。ミキシング入力データの受信、ミキシング入力データの分解、出力データの生成および再生といった処理のすべてのステップを、単一の装置内で実施することで、またはケーブルで、かつ/もしくはローカルネットワーク内で、かつ/もしくは近距離無線接続(WIFI,Bluetooth,IRなど)を介して互いに接続された複数のローカル装置内で行うことで、連続処理を実現できる。付加的にもしくは代替的に、ミキシング入力データを受信するステップ、ミキシング入力データを分解するステップ、出力データを生成して再生するステップを含む連続処理は、コンピュータ、タブレット、スマートフォン、スタンドアロンのDJハードウェアコンソールなどの電子制御ユニット(ECU)上で実行できるように適合化された単一のソフトウェアアプリケーション(単一のソフトウェアプログラムまたはアプリ)内で実装することができる。
本発明の方法によれば、上述の種類のミキシング入力データが受信され、分解されて、第1のソーストラックまたは第1のソーストラックの和に類似した第1の分解トラックが取得される。任意で、分解中に、第2のソーストラックまたは第2のソーストラックの和に類似した第2の分解トラックを取得することができる。例えば、第1の分解トラックは、元のボイストラックまたは複数のボイストラックの和信号、例えば、コーラスの各ボーカリストの元のボイストラックの和、または二重化されたボーカルトラックの2つ以上のボイストラックの和信号に類似していてもよい。同様に、第2の分解トラックは、単一の録音もしくは制作されたインストゥルメンタルトラックなどの元のインストゥルメンタルトラック、またはすべてのインストゥルメンタルトラックの和信号などの複数のインストゥルメンタルトラックの和信号に類似していてもよい。好ましい実施形態では、第1の分解トラックは、メインボーカルトラックまたは分離されたすべてのメインボーカルトラックの和に類似しており、一方、第2の分解トラックは、ミックスの残りの部分、すなわち単一のメインボーカルトラック/複数のメインボーカルのトラックを除くすべてのトラックの和に類似している。
分解結果の品質、すなわち、分解トラックがその対応するソーストラックまたはソーストラックの対応するミクスチャにどれだけ類似しているかは、例えば、MUSDB18データセット(Zafar Rafii, Antoine Liutkus, Fabian-Robert Stoeter, Stylianos Ioannis Mimilakis, and Rachel Bittner, “The musdb18 corpus for music separation” 2017)を用いて評価することができ、これは、分解アルゴリズムの評価のための標準的なベンチマークおよびリファレンスデータベースとして機能している。MUSDB18データセットを用いた実験では、概して、他の測定値の中でも信号対歪み比(SDR)が測定され、また、分解結果の知覚的な品質に関する平均意見スコア(MOS)で評価される人間による評価も測定される。
最先端のSDRのスコアは5.0より大きく、中には7.0より大きいものもある(Defossez, A., Usunier, N., Bottou, L., & Bach, F.(2019). “Music Source Separation in the Waveform Domain” arXiv preprint arXiv:1911.13254.)。
人間による評価については、例えば、1〜5のスケールで2つのレーティングを行うことができる。第一の評価は、品質およびアーティファクトの有無(1:多くのアーティファクトおよび歪みがあり、コンテンツはほとんど認識できない。5:完璧な品質、アーティファクトなし)であり、第二の評価は、他のソーストラックによるコンタミネーション(1:コンタミネーションが頻繁に存在し、かつ大きい。5:コンタミネーションなし)である。最先端における人間による評価のレーティングは、3.0より大きく、または4.0より大きくなることさえある。好ましくは、本発明の実施形態では、少なくとも第1のソーストラックと少なくとも第2のソースとをミキシングして取得されたミキシングトラックを分解して、分解トラックを実現するステップにおいて、分解トラックは、第1のソーストラックに類似しており、MOSスコアが2.0より大きく、好ましくは4.0より大きく、かつ/またはSDRスコアが3.0dBより大きく、好ましくは5.0dBより大きい。
本発明の一実施形態では、第2のトラックが提供されてもよく、好ましくは連続プロセスとして実施される本方法は、ユーザからの制御入力を読み取るステップであって、前記制御入力が、第1の分解トラックの第1の音量レベルおよび第2のトラックの第2の音量レベルの所望の設定を表す、ステップと、再結合出力データが生成されるように、少なくとも第1の音量レベルでの第1の分解トラックと第2の音量レベルでの第2のトラックとを再結合するステップと、再結合出力データを再生するステップと、をさらに含んでいてよい。第2のトラックは、第2のミキシング入力データ(例えば第2の楽曲)から取得された独立したトラックであってもよく、またはミキシング入力データを分解するステップで取得可能であって、これによりミキシング入力データのうちの少なくとも1つの第2のソーストラックに類似した第2の分解トラックを形成可能なものであってもよい。
本開示の文脈において、第1のトラックと第2のトラックとを再結合することは、例えば、それぞれの音量レベルに基づいてトラックをスケーリングする(例えば、第1および第2のトラックの信号値にそれぞれの第1および第2の音量レベルを乗算するか、または第1および第2の音量レベルに応じて第1および第2のトラックを増幅する適切な増幅ユニットを使用する)第1のステップと、ソフトウェアもしくはハードウェアミキサでスケーリング/増幅されたトラックをミキシングする(例えば、スケーリング/増幅されたトラックの信号値をそれと等しい時間フレームか、または対応する時間フレームで合計する)第2のステップと、を含む再結合処理によって、既知の任意の手法で実現することができる。
特に、本発明の一実施形態によれば、オーディオデータを処理および再生するための方法であって、当該方法が、ミキシング入力データを受信するステップであって、前記ミキシング入力データが、少なくとも1つの第1のソーストラック(例えばボーカルトラック)と少なくとも1つの第2のソーストラック(例えばインストゥルメンタルトラック)とをミキシングして取得された和信号である、ステップと、ミキシング入力データを分解して、少なくとも1つの第1のソーストラックに類似した第1の分解トラックおよび少なくとも1つの第2のソーストラックに類似した第2の分解トラックを取得するステップと、ユーザからの制御入力を読み取るステップであって、前記制御入力が、第1の分解トラックの第1の音量レベルおよび第2の分解トラックの第2の音量レベルの所望の設定を表す、ステップと、再結合出力データが生成されるように、少なくとも第1の音量レベルでの第1の分解トラックと第2の音量レベルでの第2の分解トラックとを再結合するステップと、再結合出力データを再生するステップと、を含む方法が提供される。
上述の実施形態のいずれかにしたがって第2のトラックを使用することは、新規の再結合、例えば、第1の分解トラックと別のトラックとに基づいたリミックスまたはマッシュアップを作成して直ちに再生するためのライブアプリケーションに特に適している。好ましくは、本発明において、ユーザは、本方法により第1および第2の分解トラックの音量レベルを制御し、指定された音量レベルでの第1および第2の分解トラックを再結合し、第1および第2の分解トラックを再結合して取得された再結合出力信号を再生することができる。具体的には、これにより、DJは楽曲間でシームレスなトランジションを行うことができ、特にトランジション中にボーカル再生が重複することを回避できる。両方の楽曲にボーカルパートが含まれている再生の時間間隔でも、ユーザは、例えば、一方のボーカルの音量をフェードアウトし、もう一方の楽曲のボーカルをフェードインするスペースを提供して、楽曲をシームレスにブレンドさせることができる。ボーカルトランジションの前、後、または途中の任意のタイミングで、ユーザは、第1の楽曲のインストゥルメンタルトラックから第2の楽曲のインストゥルメンタルトラックへのトランジションを実行することができる。
本発明の方法によって実現されるもう1つの利点は、ユーザがオーディオミックスの個々の成分にアクセスして、これらの成分を修正して再結合し、いわゆるマッシュアップまたはリミックスを作成できることである。これにより、ライブショー中などでオーディオを再生する際に、ユーザの創造性または芸術性を発揮するための新たな選択肢が数多く提供される。例えば、ユーザは、制御入力を使用して、再結合出力データを再生しながら、分解ボーカルトラックと分解インストゥルメンタルトラックとの間の音量比を操作することができる。例えば、後で詳しく説明するように、ボーカルとインストゥルメンタルとの間を必要に応じてスワイプしたり、インストゥルメンタルを維持しながら2つの楽曲のボーカルをスワップしたり、その逆を行ったりすることができる。
本発明の好ましい実施形態では、ミキシング入力データの分解は、セグメントごとに実施され、ここで、分解、および必要に応じて再結合は、ミキシング入力データの第1のセグメントに基づいて実施されて、出力データの第1のセグメントが取得され、ミキシング入力データの第2のセグメントの分解が、出力データの第1のセグメントを再生しながら実施される。
本実施形態では、ミキシング入力データをセグメントごとに並列に分解することで、分解計算の実行に必要な時間を大幅に短縮し、これにより、出力データの再生を著しく早く、好ましくは即座に、すなわち顕著なレイテンシなく開始することを可能にする。特に、再生可能な分解トラックデータを取得するために完全な入力データ(完全なオーディオファイルなど)を分解する必要がない。むしろ、再生を開始するためには、オーディオファイルの1つのセグメントのみ、またはすべてではなく一部のセグメントのみの分解を終了すれば十分である。これは、分解計算の一部、特にオーディオファイルの他のセグメントの分解が、先行するセグメントの再生中に実施されるためである。
セグメントごとの分解の別の技術的効果は、メモリ効率が向上し、すべてのミキシング入力データ、特に入力オーディオファイル全体を機器のローカルメモリに一度に保存する必要がないことである(これは、ストリーミングでの使用を目的としたオーディオ素材を提供するソースでは不可能であり、望ましくない場合もある。しかし、これは、例えば、入力オーディオファイル全体のハードドライブへのダウンロードおよび/または永久保存を目的としたものではない)。これとは異なり、オーディオデータの分解および再結合は、例えばストリーミング音楽サービス(Spotify、Apple Musicなど)のようなリモートサーバからの連続的なオーディオストリームなど、ミキシング入力データの連続的な流れに基づいて、その場で実施することができる。したがって、ミキシング入力データは、リモートサーバから、好ましくはインターネットを介してストリーミングで受信することができる。
また、セグメント単位で分解することで、任意の所望の位置(任意の所望の再生時間)から出力データの再生を開始できるという別の利点もある。特に、最初に分解される第1のセグメントは、必ずしもオーディオファイルの先頭にある開始セグメントである必要はない。特に、オーディオファイル全体を処理および分解する必要はなく、所望の再生位置を含むまさにそのセグメントから分解を開始することができる。そのため、オーディオファイル全体のサイズおよび再生時間に関係なく、オーディオファイル内の任意の位置に素早く正確に前後にジャンプして、認識可能な遅延が少ないか、または全くない状態で再生することができる。
本発明のさらなる実施形態によれば、上述の種類の方法を提供することができ、ステップ(a)において、所定のファイルサイズおよび所定の再生時間を有し、ミキシング入力データを再生するためのオーディオデータを含む入力オーディオファイルが受信され、所定の再生時間より小さい第1の時間間隔内でミキシング入力データを再生するためのオーディオデータを含む第1のセグメントが、入力オーディオファイルから抽出され、ステップ(b)において、入力オーディオファイルの第1のセグメントが分解されて、第1の分解トラックの第1のセグメントおよび任意に第2の分解トラックの第1のセグメントが取得され、ステップ(c)において、出力データの第1のセグメントが、第1の分解トラックの第1のセグメントから、好ましくは、少なくとも第1の音量レベルでの第1の分解トラックの第1のセグメントと第2の音量レベルでの第2の分解トラックの第1のセグメントとを再結合することによって、生成される。ここで、本方法は、(a2)入力オーディオファイルから、第2のセグメントを抽出するステップであって、第2のセグメントが、第1のセグメントとは異なっており、入力オーディオファイルの所定の再生時間より小さく、かつ第1の時間間隔に対して時間的にシフトされた第2の時間間隔内でミキシング入力データを再生するためのオーディオデータを含む、ステップと、(b2)入力オーディオファイルの第2のセグメントを分解して、第1の分解トラックの第2のセグメントを取得し、かつ任意に第2の分解トラックの第2のセグメントを取得するステップと、任意に、(c2)少なくとも第1の音量レベルでの第1の分解トラックの第2のセグメントと第2の音量レベルでの第2の分解トラックの第2のセグメントとを再結合して、出力データの第2のセグメントを生成するステップと、をさらに含み、ステップ(a2)、(b2)および(c2)のうちの少なくとも1つが、出力データの第1のセグメントを再生しながら実行され、出力データの第2のセグメントの生成が、出力データの第1のセグメントの再生が完了する前に完了する。
本開示では、オーディオデータのファイルサイズまたはサイズは、復号データおよび/または非圧縮データの総フレーム数を意味しており、オーディオデータの特定のサンプリングレートに応じて、一定のフレーム数が一定の再生時間に対応する。
本実施形態によれば、ミキシング入力データは、所定のファイルサイズおよび所定の再生時間の入力オーディオファイルである。かかる入力オーディオファイルは、ローカルストレージ装置から取得することができ、または例えばインターネットなどを介してリモートサーバからストリーミングすることもできる。上述したように、入力オーディオファイル(またはその画像/コピー)、好ましくは圧縮フォーマットを入力として使用する場合の入力オーディオファイルの復号バージョンは、仮想的に少なくとも2つのセグメントに分割され、セグメントに基づいてさらなる処理(特に分解)が実行される。セグメントが分解されるとすぐに、分解トラックのセグメントのさらなる処理が直ちに行われ、特に再結合されて再生されるが、一方で、第2のセグメントの分解を開始または継続することができる。セグメントのサイズ(フレーム数)および再生時間は、入力オーディオファイルのサイズおよび再生時間(通常は数分)に比べて通常短い(好ましくは格段に短い、例えば20秒未満の再生時間)ため、セグメントの分解に必要な時間は大幅に短くなり、出力信号の対応するセグメントの再生をより早く開始することができる。さらに、出力データの第1のセグメントの再生中に、入力オーディオファイルの第2のセグメントの処理、特に第2のセグメントを分解して第1の分解トラックの第2のセグメントを取得すること、および任意で第2の分解トラックを取得することを、並行して実施することができる。好ましくは、すべてのセグメントは一定の大きさを有する。
好ましくは、入力オーディオファイルが分割される個々のセグメントのサイズは、出力データの第1のセグメントの再生が完了する前に出力データの第2のセグメントの生成が完了するように、個々のセグメントを分解するのに必要な処理時間に適合化されている。その結果、出力トラック全体の再生、すなわち出力トラック全体または再生部分の連続したすべてのセグメントの連続再生は、第1のセグメントの処理/分解の完了後、直ちに実行することができる。
好ましくは、第1の時間間隔の長さは、第1のセグメントを分解するのに必要な時間が2秒未満となるように設定されており、その結果、本方法は、例えば、DJが特定の効果を実現するために1つ以上の分解トラックを再生することを自発的に決定するようなライブ状況で使用することができる。さらに、第1のセグメントを分解するのに必要な時間を150ミリ秒未満に設定すれば、分解トラックの再生を所与のビートに合わせてより正確にトリガすることができ、オーディオファイルの任意の部分を実質的にリアルタイムで再生することが可能になる。最も好ましくは、オーディオファイル内の再生およびビート/タイミングの同期および位置シフトが実質的にレイテンシフリー(認識できるタイムラグが発生しない)で実行できるように、第1のセグメントを分解するのに必要な時間は、50ミリ秒未満である。かかる条件のもと、DJは、元のミキシングオーディオファイルまたは従来のエフェクトトラックなどと同様に、オーディオファイルの分解トラックを扱うことができる。適切なセグメントサイズを見つけるために、当業者は、所与のハードウェアおよびソフトウェア構成が特定の再生時間T1のオーディオデータを分解するのに必要な時間t1を測定し、次いで、許容可能な時間遅延/レイテンシとしての要件に応じて所望の分解時間t2を選択し、次いで、例えばT2=T1t2/t1の式からセグメントの再生時間T2を取得することができる。この場合、オーディオデータの分割は、それぞれ再生時間T2を有する連続したセグメントとなるように実施することができる。セグメントサイズを過小に選択すると、分解の質が低下する。セグメントサイズを過大に選択すると、処理時間が長くなり、結果的にレイテンシが大きくなる。
上記のような方法、特に入力オーディオファイルのセグメントを処理してライブパフォーマンスに適したレベルまで処理時間を短縮する方法を用いれば、原理的に、所望の再生位置から始まる特定のサイズのセグメントを処理することで、任意の所望の位置(出力トラック内の時間的位置)から分解トラックの再生を開始することが可能となる。これにより、原理的に、レイテンシおよび音質に関する許容可能な結果が実現され、これを、例えばミュージックプレーヤアプリケーションのように、ユーザがトラックの特定の位置にジャンプして、その位置から先のトラックを再生したいアプリケーションに使用できる。ただし、特にクリエイティブなDJの作業では、細かい位置の移動、順方向再生と逆方向再生との切り替え、または再生速度の変更などを素早く正確に実行したい場合がある。例えば、「スクラッチ」と称される手法では、DJが楽曲の特定の位置で素早く順方向再生と逆方向再生とを切り替え、再生中のヴァイナルレコードを素早く順回転および逆回転させることで実現される効果と類似した対応するスクラッチオーディオ効果を実現することができる。本発明の発明者は、分解トラックから取得された出力トラックにかかる技術を適用すると、オーディオアーティファクトが発生し、対応するソーストラックまたは対応する従来のミキシングトラックに同じ技術を適用した場合に期待されるような結果を実現できない場合があることを発見した。
本発明者らは、この問題が、本発明の一実施形態によって解決できることを見出している。当該実施形態には、所定のファイルサイズおよび所定の再生時間を有し、ミキシング入力データを再生するためのオーディオデータを含む入力オーディオファイルを受信するステップと、入力オーディオファイルを、互いに続く複数の時間間隔内でミキシング入力データを再生するためのオーディオデータを含む、複数の連続するセグメントに分割するステップと、入力オーディオファイルをある再生開始位置から再生するというユーザの指示を表す再生位置コマンドを、ユーザから受信するステップと、複数の所定のセグメントのなかから、第1のセグメントに対応する時間間隔内に再生開始位置がある第1のセグメントを識別するステップと、入力オーディオファイルの第1のセグメント(最初に処理されるセグメントであり、入力オーディオファイルの開始セグメントである必要はない)を分解して、第1の分解トラックの第1のセグメントおよび任意に第2の分解トラックの第1のセグメントを取得するステップと、好ましくは、少なくとも第1の音量レベルでの第1の分解トラックの第1のセグメントと第2の音量レベルでの第2の分解トラックの第1のセグメントとを再結合することによって、第1の分解トラックの第1のセグメントに基づいて、出力データの第1のセグメントを生成するステップと、出力データの第1のセグメントを、出力データの第1のセグメントの時間間隔の開始位置よりも後または等しい再生位置である再生開始位置から再生するステップと、が含まれる。明確化のために、第1のセグメントは、必ずしもオーディオファイルの開始セグメントではなく、所望の再生開始位置を含むセグメント、したがってプロセスで最初に分解されるセグメントである。
連続したセグメントとは、特定のセグメントの開始位置が先行するすべてのセグメントの開始位置よりも後になるように選択されたセグメント、特に、固定されたセグメントを指すことに注意されたい。
本実施形態では、入力オーディオファイルの分解が再びセグメント単位で実行される。しかし、分解される第1のセグメントの開始点は、次に再生されるデータが含まれていることから、セグメントを定義する最も時間効率の良い手法と考えられるため、ユーザが選択した所望の再生開始位置と必ずしも一致しない。その代わりに、入力オーディオファイル全体の固定されたパーティショニングが、分割するステップで設定され、セグメントの開始点および終了点が、この入力オーディオファイルの各分解サイクルにおいて固定して維持される。この手法により、分解トラックおよび出力データの連続したセグメントの隣接部分に発生する音のアーティファクトが大幅に低減され、または完全に回避さえされうることが判明した。改善の理由の1つとして、分解するステップでAIシステムが使用されている場合、トラック内の特定のオーディオ位置で分解されたオーディオ信号が、トラック内の特定のオーディオ位置の前後でAIシステムによって分析されたデータ(すなわち、特定の位置を含み、AIシステムによって分析されたそれぞれのセグメントの開始点と終了点との間のオーディオデータ)に依存していることが考えられる。入力オーディオファイル全体に固定された開始点および終了点を有する所定のセグメントが存在することで、同じセグメント内にある入力オーディオデータの同じ部分の分析から、常に同じ分解されたオーディオデータが取得されることが保証される。例えば、あるセグメントの開始位置が15:00(秒:100分の1秒)で、再生時間が5秒の場合、再生開始位置15:30,17:50,18:00は、すべて同一の分解セグメントに基づいており、同じ分解セグメント内の異なる位置のオフセットを使用しているに過ぎない。
本発明の別の好ましい実施形態では、ミキシング入力データは、少なくとも第1のソーストラック(例えば第1のボーカルトラック)と第2のソーストラック(例えば第1のインストゥルメンタルトラックまたは複数のインストゥルメンタルトラック)とをミキシングして取得された和信号である第1のミキシング入力データである。本方法は、前記第1のミキシング入力データとは異なる第2のミキシング入力データを受信するステップをさらに含み、前記第2のミキシング入力データは、少なくとも1つの第3のソーストラック(例えば第1のボーカルトラックとは異なる第2のボーカルトラック)と、少なくとも1つの第4のソーストラック(例えば第1のインストゥルメンタルトラックとは異なる第2のインストゥルメンタルトラック)とをミキシングして取得された和信号である。さらに、本方法は、第2のミキシング入力データを分解して、少なくとも1つの第3のソーストラックに類似した第3の分解トラックと、少なくとも1つの第4のソーストラックに類似した第4の分解トラックと、を取得するステップを含んでもよく、ここで、(例えば、1つ以上の制御要素を介して受信した)ユーザからの制御入力を読み取るステップにおいて、前記制御入力は、第1の分解トラックの第1の音量レベル、第2の分解トラックの第2の音量レベル、第3の分解トラックの第3の音量レベル、および第4の分解トラックの第4の音量レベルの所望の設定を表し、再結合するステップにおいて、第1の音量レベルでの第1の分解トラック、第2の音量レベルでの第2の分解トラック、第3の音量レベルでの第3の分解トラック、第4の音量レベルでの第4の分解トラックを再結合することにより、再結合出力データを生成する。
かかる実施形態は、特にDJ環境で使用することができ、2つの異なるオーディオファイル(例えば、2つの異なる楽曲)などの2つの異なるミキシング入力データが、少なくとも一定の時間、同時に再生されるDJ機器に実装することができる。例えば、第1の楽曲の再生中に第2の楽曲の再生を開始し、第1の楽曲の音量レベルを第2の楽曲の音量レベルに合わせて下げることで、第1の楽曲から第2の楽曲へとスムーズにブレンドオーバーさせることができるようになる。上述した本実施形態の方法では、第1および第2のミキシング入力データの両方を、それぞれ第1および第2の分解トラックと第3および第4の分解トラックとに分解することができ、ユーザは、分解トラックを所望の音量レベルで個別に再結合する機会を有することができる。上述したように、特に、かかる特徴部を使用して、DJは、2つの楽曲の間をスムーズにブレンドし、異なる楽曲のボーカルトラックが同時に聞こえることを避けることができる。さらに、本実施形態では、第1のミキシング入力データの分解トラックのうちの1つを、第2のミキシング入力データの分解トラックのうちの1つと結合することが可能となるため、第1および第2のミキシング入力データの成分の和信号またはマッシュアップ/リミックスを作成することができる。これは完全に新規なものであり、驚くべき効果を実現することができる。例えば、第1のミキシング入力データの分解ボーカルトラックを、第2のミキシング入力データの分解インストゥルメンタルトラックと再結合して、一方の楽曲の歌手が他方の楽曲のインストゥルメンタルに伴奏されているのを聴くことができる。
好ましくは、ミキシング入力データおよび分解トラックのうちの少なくとも1つ以上、最も好ましくはそのすべてが、ステレオデータであり、それぞれが左チャネルの信号部分および右チャネルの信号部分を含む。このように、本方法は、ステレオオーディオの能力および音響効果を利用するように適合化されている。他の実施形態では、モノラルデータおよびモノラルトラック、または任意の他の数のチャネルを有するトラック(例えば、5.1または7.1サラウンドトラック、複数のストリームを有するMP4)を使用することができる。
ミキシング入力データを分解して少なくとも1つの分解トラックを取得することは、任意のアルゴリズム、フィルタリング、エフェクトアプリケーション、またはミキシング入力データを取得するために事前にミックスダウンされた元のオーディオ素材の1つ以上のソーストラックと音響的に類似したまたは等しいミキシング入力データから少なくとも1つの分解トラック(特にボーカルトラック)を分離できる他の処理によって実現することができる。例えば、分解することには、例えばフーリエ変換アルゴリズムを用いて周波数スペクトルを算出することと、周波数スペクトルをフィルタリングしてミキシング入力データの特定の成分、特にボーカル成分に属する周波数を抽出することと、抽出された周波数を例えば逆フーリエ変換を用いて再変換することで、第1または第2の分解トラックのオーディオデータを取得することと、が含まれてもよい。
本発明のすべての態様の好ましい実施形態では、ミキシング入力データを分解することには、AIシステム(人工知能システム)によってミキシング入力データを処理することが含まれ、前記AIシステムは、好ましくは、例えば畳み込みニューラルネットワーク(CNN)などの少なくとも1つのディープニューラルネットワークに基づいており、かつ/または複数の訓練用オーディオデータのセットによって訓練されている。訓練用オーディオデータの各セットには、少なくとも、例えばボーカルトラックなどの第1のソーストラック、および少なくとも第1のソーストラックと例えばインストゥルメンタルトラックなどの第2のソーストラックとをミキシングして取得された和信号であるミキシングトラック、が含まれていてよい。
AIシステムを使用することで、ミキシング入力データを高品質に分解することができ、分解結果は、元のソーストラックに非常に類似しているか、またはすべての元のソーストラックよりも少ない和信号に非常に類似している。例えば、MOSスコアが4.0より大きく、かつ/またはSDRスコアが5.0dBより大きい類似性を、AIシステムを使用することで実現できる。AIシステムは、1つ以上のレコード会社および/または音楽制作会社、1つ以上の音楽配信会社/ストリーミング会社、またはそれらの間の協力関係会社から取得されたオーディオデータによって提供され、訓練することができる。AIシステムの訓練のために、レコーディング会社は、特定の録音物のミキシングオーディオファイルを提供するだけでなく、ミキシングトラックに含まれる1つ以上の訓練ソーストラックであって、制作プロセスのオリジナル素材から取得されたもの、すなわち、ミキシングプロセスで使用された個々のトラックまたは全トラックより少ない和のトラックのオーディオデータを提供することができる。AIシステムは、多数の訓練用オーディオデータのセットを使って訓練を行った後、訓練段階で事前に解析されていない新しいミキシングトラック(新しいオーディオファイル)から分解トラックを生成することができる。例えば、AIシステムは、上述した従来のAIシステム(spleeter、Open-Unmix、Demucsなど)のいずれかに基づいていてもよい。
本発明の実施形態では、少なくとも1つのAIシステム、好ましくは複数のAIシステムは、装置のランダムアクセスメモリ(RAM)内に完全に保存されて動作し、ミキシング入力データの分解に必要な時間を短縮し、さらにはDJ装置のようなライブ状況でほぼレイテンシフリーの動作を可能にする。
本発明の一実施形態によれば、ミキシング入力データを分解するステップにおいて、上述したようなAIシステムが使用される。ここで、本発明は、一実施形態において、第1の分解トラックを抽出するだけでなく、第2の分解トラックを抽出することを提案するものであり、これにより、ユーザが第1の分解トラックだけでなく第2の分解トラックの音量を個別に操作し、特定の再生効果を実現するために両方の分解トラックを再結合することができる。好ましくは、第2の分解トラックは、第1の分解トラックを補完するものであり、これは、第1の分解トラックおよび第2の分解トラックの和が、第1および第2の分解トラックの音量レベルの変更を除き、また、分解ステップにおける不完全性(例えば、少なくとも1つの第1のソーストラックから発生したが、AIシステムによって少なくとも1つの第2のソーストラックから発生したものと誤って識別された、または逆に少なくとも1つの第2のソーストラックから発生したが少なくとも1つの第1のソーストラックから発生したものと誤って識別された、小さな信号成分が挙げられる。その他の小さな不完全性は、分解ステップ中のフーリエ変換などの計算処理に起因しうる)に起因する偏りを除き、ミキシング入力データのオーディオ信号全体に極めて類似していることを意味する。
本発明の好ましい実施形態では、ミキシング入力データは、第1のAIシステムおよび第1のAIシステムとは別の第2のAIシステム内で同時に処理され、第1のAIシステムは、ミキシング入力データを処理して第1の分解トラックのみを取得し、第2のAIシステムは、ミキシング入力データを処理して第2の分解トラックのみを取得する。特に、本方法は、好ましくは、ミキシング入力データを第1のミキシング入力データとして処理し、さらに、第1および第2のAIシステムとは別の第3のAIシステム内、および第1から第3のAIシステムのそれぞれとは別の第4のAIシステム内で、第2のミキシング入力データを同時に処理する。ここで、第3のAIシステムは、第3の分解トラックのみを取得するために第2のミキシング入力データを処理し、第4のAIシステムは、第4の分解トラックのみを取得するために第2のミキシング入力データを処理する。同時に動作するように配置された少なくとも2つの独立したAIシステムを使用することで、少なくとも第1および第2の分解トラックを並行して、つまり同時に計算することができるため、処理速度が大幅に向上し、わずかな時間遅延のみで、または認識可能な時間遅延なしに、分解トラックを取得することが可能になる。本方法において第1および第2のミキシング入力データを処理し、その結果、4つの個別のAIシステムが並行して動作するように使用された場合、2つの個別のオーディオファイルまたはそのセグメントの高速分解が、わずかな時間遅延のみで、または認識可能な時間遅延なしに可能となる。かかる方法は、ライブショー中のDJのようなライブパフォーマンスに適している。
本発明のさらなる実施形態では、前記ミキシング入力データは、周期的なビート構造(例えば4/4拍子)に基づく第1のミキシング入力データであり、本方法は、第1のミキシング入力データとは異なる、周期的なビート構造に基づく第2のミキシング入力データを受信することと、テンポマッチングおよびビートマッチング処理ならびにキーマッチング処理のうちの少なくとも1つを実行することと、をさらに含む。具体的には、テンポマッチング処理は、第1のミキシング入力データから取得された第1の入力データおよび第2のミキシング入力データから取得された第2の入力データを受信することと、第1の入力データおよび第2の入力データのうちの少なくとも1つをタイムストレッチまたはリサンプリングすることと、相互に一致するテンポを有する第1の出力データおよび第2の出力データを出力することと、を含んでもよい。ビートマッチング処理は、第1のミキシング入力データと第2のミキシング入力データとの間のビート合わせ、すなわち、第1のミキシング入力データおよび第2のミキシング入力データのうちの少なくとも1つの時間位置をシフトさせることと、ビートの位相が相互に一致する第1の出力データおよび第2の出力データを出力することと、を含んでもよい。さらに、キーマッチング処理は、第1のミキシング入力データから取得された第1の入力データおよび第2のミキシング入力データから取得された第2の入力データを受信することと、第1の入力データおよび第2の入力オーディオデータのうちの少なくとも1つをピッチシフトすることと、相互に一致するキーを有する第1の出力データおよび第2の出力データを出力することと、を含んでもよい。
上述の実施形態において、第1のミキシング入力データから取得された第1の入力データは、第1のミキシング入力データそのものであってもよく、または第1のミキシング入力データから取得される任意の分解トラック(例えば、第1もしくは第2の分解トラック)であってもよく、または第1の再結合出力データ(すなわち、第1のミキシング入力データから分解および再結合を経て取得されるもの)であってもよい。同様に、第2のミキシング入力データから取得された第2の入力データは、第2のミキシング入力データそのものであってもよく、または第2のミキシング入力データから取得される任意の分解トラック(例えば、第3もしくは第4の分解トラック)であってもよく、または第2の再結合出力データ(すなわち、第2のミキシング入力データから分解および再結合を経て取得されるもの)であってもよい。
なお、第1の入力データは、特にテンポマッチングおよび/またはキーマッチング処理が処理の初期段階(すなわち分解するステップの前)に実施される場合には、第1のミキシング入力データでありうる。代替的に、分解するステップの後に、テンポマッチングおよび/またはキーマッチングおよび/またはビートマッチング処理を実施する場合は、第1の入力データは、第1の分解トラックでありうる。別の例として、第1の入力データは、第1の分解トラックの変形例であってもよく、例えば、第1の分解トラックにオーディオエフェクト(ディレイ、リバーブ、イコライザなど)を適用して取得される変形例であってもよい。第2の入力データについても同様で、第2のミキシング入力データまたは第2の分解トラック、またはそれらの変形例であってもよい。
上記実施形態において、「相互に一致するテンポ」とは、第1の出力データおよび第2の出力データのビートが相互に同期可能となるよう、第1の出力データおよび第2の出力データの1分間あたりのビート数で測定されたテンポが相互に等しいかまたは相互の倍数となることを意味する。さらに、「相互に一致するキー」とは、第1の出力データおよび第2の出力データのハーモニックキーが等しいか、マイナーキーとその平行のメジャーキーとの関係(第1の出力データおよび第2の出力データのうちの一方のキーが第1の基本音を有するマイナーキーであり、第1の出力データおよび第2の出力データのうちの他方のキーが第1の基本音よりも3半音高い第2の基本音を有するメジャーキーである関係)にあることを意味する。
上記の実施形態で説明したテンポマッチングおよび/またはキーマッチング処理により、2つの楽曲のインストルメントトラックとボーカルトラックのクロスフェードまたは2つの楽曲のインストルメントトラックもしくはボーカルトラックのスワップを含む2つの楽曲のスムーズなブレンド、すなわち2つの楽曲の分解トラックの再結合/再ミキシングが可能になるため、本発明の方法を適用してDJによるライブパフォーマンスが大幅に改善される。これは、音楽の流れを乱すことなく、両方の楽曲またはその一部(両方の楽曲の分解トラック)を同時に(同じまたは対応するテンポ、ビート位相、およびキーで)聴かせることができるためである。
本発明の第2の態様によれば、上記の目的は、オーディオ信号を処理および再生する装置、好ましくはDJ機器により実現され、当該機器は、ミキシング入力データを受信するためのオーディオ入力ユニットであって、前記ミキシング入力データが、少なくとも第1のソーストラックと少なくとも第2のソーストラックとをミキシングして取得された和信号である、オーディオ入力ユニットと、オーディオ入力ユニットに接続され、ミキシング入力データを分解して、第1のソーストラックに類似した少なくとも第1の分解トラックを取得するための分解ユニットと、第1の分解トラックに基づいて出力データを再生するための再生ユニットと、を含む。
かかる装置を用いれば、本発明の第1の態様の方法について上述したような利点を、ミキシング入力データを受信して分解し、出力データを再生するのに必要なすべてのハードウェアおよびソフトウェアコンポーネント、オーディオ入力および出力手段、ならびに処理ユニットを含む適切な装置によって実現することができる。
概して、本発明の装置は、コンピュータなどの電子制御ユニット(ECU)、好ましくはポータブルコンピュータ(例えば、タブレットまたはスマートフォン)、および適切なハードウェアインタフェースおよびスピーカ(例えば、内蔵スピーカまたはECUをPAシステムに接続するための接続機器)を含むDJ機器として具現化することができる。再生ユニットは、デジタルオーディオデータをアナログオーディオ信号に変換するデジタル/アナログ変換器を有してもよい。入力ユニットは、MP3またはAACなどの異なるオーディオフォーマットで符号化されたオーディオデータを復号するための復号ユニットを有していてもよい。
また、上述したようなDJアプリケーションなどのライブアプリケーションに構成するために、装置は、少なくとも第1の分解トラックを第2のトラックと再結合して、再生ユニット用の出力データを生成するための再結合ユニットを含むことができる。さらに、装置は、ユーザによって制御され、第1の分解トラックの第1の音量レベルおよび第2のトラックの第2の音量レベルの所望の設定を表す制御入力を生成するように適合化された再構成制御部を含んでもよく、再結合ユニットは、少なくとも第1の音量レベルでの第1の分解トラックと第2の音量レベルでの第2のトラックとを再結合することによって出力データを生成するように構成されている。再構成制御部は、コンピュータ画面上に表示されるユーザインタフェース制御によって実装されてよく、または代替的に、ハウジング、(回転可能なノブまたは可動式スライダなどの)制御要素、ディスプレイ、入出力ポートなどを含む別個のハードウェアによって実装されてもよい。
再構成制御部は、第1および第2の分解トラックの第1および第2の音量レベルをそれぞれ高レベルもしくはON値、例えば100%に設定するか、または低レベルもしくはOFF値、例えば0%に設定するために、限られた数の離散的な値の入力を可能にする制御要素としてのスイッチ、特に2つのスイッチ位置(ON/OFF、0/1、作動/非作動)のみを有するスイッチを含むことができる。例えば、分解ボーカルトラックの音量レベルのON/OFFを切り替えるボーカルスイッチ、および/または分解インストゥルメンタルトラックの音量レベルのON/OFFを切り替えるインストゥルメンタルスイッチなどが考えられる。スイッチは、例えばタッチパネルディスプレイに設けられたプッシュボタンとして具現化されてもよい。急激な音量変化によるアーティファクトを回避するために、装置は、スイッチの切り替え位置に応じて音量レベルを連続的かつ限定的な速度で所望の値に自動的に変化させるオートフェージングユニットを含んでもよく、前記オートフェージングは、ユーザがスイッチを操作すると同時に開始される。
本発明の一実施形態では、装置が提供され、オーディオ入力ユニットは、少なくとも第1のソーストラック(例えば第1のボーカルトラック)と少なくとも第2のソーストラック(例えば第1のインストゥルメンタルトラック)とをミキシングして取得された和信号である第1のミキシング入力データを受信するための第1のオーディオ入力ユニットであり、分解ユニットは、第1のミキシング入力データを分解して、少なくとも第1のソーストラックに類似した第1の分解トラックおよび第2のソーストラックに類似した第2の分解トラックを取得するための第1の分解ユニットである。ここで、装置は、第1のミキシング入力データとは異なる第2のミキシング入力データを受信するための第2のオーディオ入力ユニットであって、前記第2のミキシング入力データが、少なくとも第3のソーストラック、例えば第1のボーカルトラックとは異なる第2のボーカルトラックと、第4のソーストラック、例えば第1のインストゥルメンタルトラックとは異なる第2のインストゥルメンタルトラックとをミキシングして取得された和信号である、第2のオーディオ入力ユニットと、第2のオーディオ入力ユニットに接続され、第2のミキシング入力データを分解して、第3のソーストラックに類似した第3の分解トラックおよび第4のソーストラックに類似した第4の分解トラックを取得するための第2の分解ユニットと、をさらに含み、再構成制御部は、ユーザによって制御され、第1の分解トラックの第1の音量レベル、第2の分解トラックの第2の音量レベル、第3の分解トラックの第3の音量レベル、および第4の分解トラックの第4の音量レベルの所望の設定を表す制御入力を生成するように適合化されており、再結合ユニットは、第1の音量レベルでの第1の分解トラック、第2の音量レベルでの第2の分解トラック、第3の音量レベルでの第3の分解トラック、および第4の音量レベルでの第4の分解トラックを再結合することによって、再結合出力データを生成するように適合化されている。
本実施形態の装置は、クリエイティブな作業で使用して、2つの異なる楽曲を再結合したり、スムーズにブレンドオーバーまたはトランジションさせたり、または楽曲をマッシュアップして種々の新しい効果を実現するために準備される。特に、かかる装置は、ライブパフォーマンス用のDJ機器として具現化することができる。
本発明の実施形態では、好ましくは、再構成制御部が、第1の音量レベルおよび第2の音量レベルを制御するために、特に第1の音量レベルと第2の音量レベルとの間の比率を少なくとも1より小さい値から少なくとも1より大きい値に変更するか、またはその逆を行うために、ユーザが単一の制御操作で操作可能な少なくとも1つの単一の再構成制御要素を含む。
本発明のすべての態様および実施形態において、第1のトラックの第1の音量レベルおよび第2のトラックの第2の音量レベルを制御するための単一の再構成制御要素または単一の制御要素は、好ましくは、第1の音量レベルと第2の音量レベルとの間の比率を少なくとも1より小さい値から少なくとも1より大きい値に変更する、すなわち第1の音量レベルが第2の音量レベルより小さい第1の比率から第1の音量レベルが第2の音量レベルより大きいか等しい第2の比率へと変更するか、またはその逆を行うために、ユーザが単一の制御操作、例えば単一の制御動作(例えば、スライド動作、回転動作など)または単一の制御スイッチ操作(例えば、ボタンなどに触れること)によって操作可能な制御要素を指す。単一の(再構成)制御要素の制御範囲の少なくとも一部において、単一の(再構成)制御要素によって制御される音量変化は、例えば、第1の音量レベルを低減させながら第2の音量レベルを増大させることによって、同時に実行されてもよい。または代替的に、単一の(再構成)制御要素の制御範囲の他の部分において、単一の(再構成)制御要素によって制御される音量変化が順次実行されてもよい。例えば、単一の(再構成)制御要素の制御範囲において、第2の音量レベルを一定に維持しながら第1の音量レベルを増大または低減させる第1のサブレンジと、第1の音量レベルを一定に維持しながら第2の音量レベルを増大または低減させる第2のサブレンジと、が存在し、第1のサブレンジと第2のサブレンジが互いに重複しないようにしてもよい。
好ましい実施形態では、単一の再構成制御要素は、第1の音量レベルが最大値(例えば約100%)を有し、第2の音量レベルが最小値(例えば約0%)を有する第1の終了点から、第1の音量レベルが最小値(例えば約0%)を有し、第2の音量レベルが最大値(例えば約100%)を有する第2の終了点まで広がる制御範囲を有することができる。より好ましくは、制御範囲の中間領域では、第1の音量レベルおよび第2の音量レベルがともに最大値(例えば約100%)となる。中間領域と各終了点との間では、第1および第2の音量レベルは実質的に一定にとどめられることもあるし、またはそれぞれ線形または非線形に増大または低減されることもある。
これにより、ユーザは、第1のミキシング入力データから第2のミキシング入力データへ(例えば、第1の楽曲から第2の楽曲へ)、またはその逆へスムーズな線形トランジションを実行するために、単一の制御操作、例えば、ボタンまたはスイッチのタッチ、回転可能な制御ノブの単一の連続回転、または単一のフェーダの単一の連続スライド移動によって、第1の分解トラックと第2の分解トラックとの間でフェードまたは切り替えることができる。特に、異なる分解トラックの2つの音量レベルを、ユーザが片手でまたは指一本のみでさえ操作できるようにしたことで、システムのライブパフォーマンス能力が向上する。つまり、例えば片手を分解/再結合の制御の操作に用い、もう片方の手をクロスフェーダまたは他の楽曲の分解/再結合のために用いることができる。
上述した実施形態の変形例では、装置は、スワップ制御要素をさらに含むことができ、当該スワップ制御要素は、ユーザが操作したときに、再結合ユニットを制御して、第1および第2の音量レベルのうちの1つを低減させ、同時に第3および第4の音量レベルのうちの1つを増大させ、かつ/またはユーザが操作したときに、再結合ユニットを制御して、第1および第2の音量レベルのうちの1つを増大させ、同時に第3および第4の音量レベルのうちの1つを低減させる。なお、「低減」には、音量レベルをミュートすること、または音量レベルを0%にすることが含まれてもよく、「増大」には、音量レベルをフルスケールまたは100%にすることが含まれてもよい。
例えば、第1のミキシング入力データから取得された第1の分解トラックが第1の楽曲のボーカルトラックであり、第2のミキシング入力データから取得された第3の分解トラックが第2の楽曲のボーカルトラックである場合、上述のスワップ制御要素は、ユーザによって起動され、再結合ユニットを制御して、再結合出力データに現在含まれているボーカルトラックの音量をONからOFFに切り替え、再結合出力データに現在含まれていない別のボーカルトラックの音量をOFFからONに切り替える(つまり、両ボーカルトラックのON−OFF設定を逆に切り替える)。別の例として、第1のミキシング入力データから取得された第2の分解トラックが第1の楽曲のインストゥルメンタルトラックであり、第2のミキシング入力データから取得された第4の分解トラックが第2の楽曲のインストゥルメンタルトラックである場合、上述のスワップ制御要素は、ユーザによって起動され、再結合ユニットを制御して、再結合出力データに現在含まれているインストゥルメンタルトラックの音量をONからOFFに切り替え、再結合出力データに現在含まれていない別のインストゥルメンタルトラックの音量をOFFからONに切り替える(つまり、両インストゥルメンタルトラックのON−OFF設定を逆に切り替える)。かかるスワップ制御要素の動作は、第1のミキシング入力データからの分解トラックのON−OFF設定が、第2のミキシング入力データからの分解トラックのON−OFF設定と異なる場合に適用することが好ましい。
本発明の別の実施形態では、上述の種類の装置が提供され、再構成制御部は、第1の音量レベルおよび第2の音量レベルを制御するために、特に、第1の音量レベルと第2の音量レベルとの間の比率を、少なくとも1より小さい値から少なくとも1より大きい値に変更するか、またはその逆を行う、ユーザが単一の制御操作で操作可能な第1の単一の再構成制御要素と、第1の和信号の音量レベルおよび第2の和信号の音量レベルを制御するために、特に、第1の和信号の音量レベルと第2の和信号の音量レベルとの間の比率を、少なくとも1より小さい値から少なくとも1より大きい値に変更するか、またはその逆を行う、ユーザが単一の制御操作で操作可能な単一の再結合制御要素であって、第1の和信号が、第1の音量レベルでの第1の分解トラックと第2の音量レベルでの第2の分解トラックとの和であり、第2の和信号が、第3の音量レベルでの第3の分解トラックと第4の音量レベルでの第4の分解トラックとの和である、単一の再結合制御要素と、好ましくは、第3の音量レベルおよび第4の音量レベルを制御するために、特に、第3の音量レベルと第4の音量レベルとの間の比率を、少なくとも1より小さい値から少なくとも1より大きい値に変更するか、またはその逆を行う、ユーザが単一の制御操作で操作可能な第2の単一の再構成制御要素と、を含む。本実施形態の装置の利点は、制御の複雑さが大幅に軽減され、特にライブショー中のDJによる迅速で直感的な操作が可能になることである。装置が2つの異なるミキシング入力データを受信し、それらが両方とも少なくとも2つのトラックに分解されて、既に4つの個別トラック(好ましくは、それぞれが右と左のチャネルを有する4つの個別のステレオトラックで、和で少なくとも8つのチャネル)が存在する場合でも、第1および第2の単一の再構成制御要素および単一の再結合制御要素により、トラック間の切り替え、スワップ、フェードを、制御要素の単一の動きまたは単一の連続操作によって、非常に迅速かつ直感的に実行することができる。
本発明の別の実施形態では、所定のファイルサイズおよび所定の再生時間を有する入力オーディオファイルのセグメントをロードするための入力オーディオファイルバッファであって、ミキシング入力データを再生するためのオーディオデータを含む、入力オーディオファイルバッファと、分解ユニットに接続され、入力オーディオファイルのセグメントから取得された第1の分解トラックのセグメントを受信および保存する第1のセグメントバッファと、任意手段として、分解ユニットに接続され、入力オーディオファイルの同じセグメントから取得された第2の分解トラックのセグメントを受信および保存する第2のセグメントバッファと、をさらに含む装置が提供され、再生ユニットは、出力データからアナログオーディオ信号を生成するアナログ/デジタル変換器を有するオーディオインタフェースを含み、前記オーディオインタフェースは、再生用の出力データの一部をバッファリングするためのオーディオバッファを有し、第1のセグメントバッファおよび/または第2のセグメントバッファのサイズは、オーディオインタフェースのオーディオバッファのサイズより大きく、(復号された)入力オーディオファイルのオーディオデータ全体より小さい。本実施形態では、再結合および/または再生のために、分解トラックのセグメント(すべてのセグメントを同時に保存するのではなく、1つまたは一部のセグメントのみ)を保存するための別個のバッファが提供されており、これにより、再生前に入力オーディオファイル全体が分解されて別個のバッファに完全に保存される状況と比較して、処理速度の向上とメモリフットプリントの削減を実現する。つまり、各セグメントバッファのサイズは、(復号された)入力オーディオファイルデータ全体のサイズより小さくなる。一方、第1および第2のセグメントバッファは、それぞれオーディオインタフェースのオーディオバッファよりもサイズが大きく、これにより、オーディオインタフェースのオーディオバッファがセグメントバッファのコンテンツによって常に適時に補充されるようになっている。そのため、オーディオのドロップアウトまたは認識できるタイムラグなしに連続的な出力信号を生成して再生することができる。そのため、本実施形態は、装置のライブ機能も支援するものである。
好ましくは、オーディオインタフェースのオーディオバッファは、2フレーム/サンプルのオーディオデータ(nは自然数、好ましくは6〜12)を保存するための固定された標準サイズを有し、例えば512オーディオフレームは、44.1kHzのサンプリングレートで約11ミリ秒の再生時間に相当する。一方、セグメントバッファのサイズは、再生時間が1秒超のセグメントを保存できるように大きくすることが好ましい。
上記の目的を解決するために、本発明の第3の態様によれば、オーディオデータを処理および再生するための方法が提供され、当該方法は、ミキシング入力データを提供するステップであって、前記ミキシング入力データが、複数のソーストラックをミキシングして取得される、ステップと、ミキシングオーディオデータから所定の音色のオーディオデータを分離するように訓練済のニューラルネットワークを含むAIシステムによって、ミキシング入力データを処理するステップであって、ミキシング入力データが、AIシステムによって処理され、少なくとも、第1の所定の音色のオーディオ信号を表す第1の分解トラック、前記第1の所定の音色とは異なる第2の所定の音色のオーディオ信号を表す第2の分解トラック、および前記第1および第2の所定の音色とは異なる第3の所定の音色のオーディオ信号を表す第3の分解トラックを含む、分解トラックのグループを取得する、ステップと、ユーザからの制御入力を読み取るステップであって、前記制御入力が、第1の音量レベルおよび第2の音量レベルの所望の設定を表す、ステップと、分解トラックのグループから選択された少なくとも第1および第2の選択トラックを再結合して、第1の再結合トラックを生成するステップと、第1の音量レベルでの第1の再結合トラックと、分解トラックのグループから選択された第2の音量レベルでの少なくとも第3のトラックとを再結合して、第2の再結合トラックを取得するステップと、第2の再結合トラックに基づいて、オーディオデータを再生するステップと、を含む。
本発明の第3の態様の重要な特徴によれば、ミキシング入力データがAIシステムによって処理され、異なる音色の少なくとも3つの分解トラックが生成される。この目的のために、AIシステムは、2つまたは3つの分解トラックを出力として分離するように訓練済の1つのニューラルネットワークを含んでもよい。代替的に、2つ以上のニューラルネットワークをAIシステムにおいて使用してもよく、これらのニューラルネットワークは、互いに独立して動作するように適切に構成されており、AIシステムの異なるニューラルネットワークは、異なる音色の分解トラックを生成するように構成されている。かかるニューラルネットワークまたはニューラルネットワークの層は、相乗効果を実現して分離結果を向上させるために、分離プロセス中に互いにインタラクションしてデータを交換することができる。
AIシステムは、訓練用データによって訓練されており、訓練用データには、ミキシング入力データ、ならびにミキシング入力データの成分である特定の音色のトラック、すなわち、ミキシング入力データを再生したときに知覚される音に含まれる特定の音色のトラックの両方が含まれる。前述したように、ミキシングオーディオデータから特定の音色のトラックを分離することができるAIシステムは、他の目的のために、当技術分野において既知となっている。
本開示の文脈、特に本発明のすべての態様および実施形態において、異なる音色は、異なる楽器、異なるソフトウェア楽器またはサンプル、異なるボイスなど、異なる音源に由来するオーディオ信号の成分に対応する。特に、特定の音色とは、
−特定の楽器(ベース、ピアノ、ドラム(クラシックドラムセット音、電子ドラムセット音、パーカッション音を含む)、ギター、フルート、オルガンなど)または任意のかかる楽器のグループの、録音された音;
−例えば、特定の楽器(ベース、ピアノ、ドラム(クラシックドラムセット音、電子ドラムセット音、パーカッション音を含む)、ギター、フルート、オルガンなど)または任意のかかる楽器のグループの音に類似するように、アナログまたはデジタルシンセサイザによって合成された音;
−ボーカリスト(歌もしくはラップのボーカリストなど)またはかかるボーカリストのグループの音;
−これらの任意の組み合わせ、
のうちの少なくとも1つを含む。
これらの音色は、オーディオデータのスペクトル内の特定の周波数成分および周波数成分の分布、オーディオデータ内の周波数成分の時間的な分布に関するものであり、これらの音色を含む訓練用データで特別に訓練済のAIシステムによって分離することができる。
本発明の第3の態様の別の重要な特徴は、少なくとも3つの分解トラックを再結合することに関し、ユーザが3つ以上の分解トラックのそれぞれに個別の音量レベルを選択する必要がなく、代わりに第1および第2の音量レベルを設定するだけで、再結合の結果、ひいては分解トラックの再生を制御できるような手法で再結合することに関する。第1および第2の音量の制御は、2つの独立した制御要素(ボタンまたはフェーダなど)を使用することで容易に実現できる。好ましくは、制御は、単一の制御要素によって実現される。具体的には、第1の再結合ステップでは、少なくとも2つの分解トラックが選択され、それらが再結合されて第1の再結合トラックが生成される。次に、ユーザは、第1の再結合トラックおよび任意の第3のトラックについてのみ音量設定を選択することができ、本方法により、設定された音量レベルにしたがってこれらのトラックを再結合して第2の再結合トラックを取得し、このトラックを再生ユニットにルーティングして再生することができる。
例えば、ドラムトラック、ベーストラック、ボーカルトラック、および補完トラックの4つのトラックを生成するように構成および訓練されたAIシステムを使用することができる。前記補完トラックは、補完トラックとドラムトラック、ベーストラックおよびボーカルトラックとのミキシングによってミキシング入力信号と実質的に等しいオーディオ信号が取得されるような、残りのすべての音/音色を含む。かかるAIシステムでは、ベーストラック、ボーカルトラック、補完トラックを最初に再結合して第1の再結合トラックを取得する際に、ユーザは、再結合された残りのミックスの音量に対する分解ドラムトラックの音量を制御するために、単一の制御要素を使用することができる。これによりDJは、楽曲のドラム成分およびトーン(和音またはメロディ)成分という2つの重要なサウンド成分を容易にブレンドすることができる。
第1の再結合ステップで分解トラックの選択を変更するだけで、ユーザは同じAIシステムを別の構成(例えば異なる種類の音楽)に使用することができる。上記の例では、第1の再結合ステップにおいて、ドラムトラック、ベーストラックおよび補完トラックが再結合のために選択されて第1の再結合トラックが生成された場合、ユーザは、単純な制御入力、特にボーカル(アカペラ)とインストゥルメンタルとの間を容易にブレンドする単一の制御要素によって、ミックスの残りの部分(インストゥルメンタルパート)の音量に対するボーカルの音量を制御できる。
上述の例と同様に、本発明の第3の態様の方法では、概して、第1、第2および第3の所定の音色のうち少なくとも1つが、ドラムの音色、ボーカルの音色、ならびにミキシング入力データのハーモニー、キーまたはメロディを定義する音色を含むグループから選択されることが好ましい。これらは、特定の可聴効果を生み出すためにDJ機器において作用を受ける重要なサウンド成分である。これらの音色は、オーディオデータのスペクトル内の特定の周波数成分および周波数成分の分布、オーディオデータ内の周波数成分の時間的な分布に関するものであり、これらの音色を含む訓練用データで特別に訓練されたAIシステムによって分離することができる。
さらに、好ましくは、第1、第2、および第3の所定の音色のうち少なくとも1つは、補完の音色である。すなわち、補完トラックが、分解中に同様に生成され、すべての分解トラック(補完トラックを含む)のミックスがミキシング入力データと実質的に等しくなる。このように、すべてのオーディオ成分が依然としてすべての分解トラックの和として表現されるため、DJは、可聴サウンドを制御して、元のミックス/元の楽曲のサウンドに近づけたり、それらから所望の量だけ逸脱させることができる。
本発明の第4の態様によれば、オーディオデータを処理および再生する装置、好ましくはDJ機器が提供され、当該装置は、複数のソーストラックをミキシングして取得されるミキシング入力データを提供するオーディオ入力ユニットと、ミキシングオーディオデータから所定の音色のオーディオデータを分離するように訓練済のニューラルネットワークを含むAIシステムであって、AIシステムが、ミキシング入力データを受信および処理し、少なくとも、第1の所定の音色のオーディオ信号を表す第1の分解トラック、前記第1の所定の音色とは異なる第2の所定の音色のオーディオ信号を表す第2の分解トラック、および前記第1および第2の所定の音色とは異なる第3の所定の音色のオーディオ信号を表す第3の分解トラックを含む、分解トラックのグループを生成するように構成されている、AIシステムと、ユーザによって制御され、第1の音量レベルおよび第2の音量レベルの所望の設定を表す制御入力を生成するように適合化された制御部と、分解トラックのグループから選択された少なくとも第1および第2の選択トラックを再結合して、第1の再結合トラックを生成するように構成された再結合ユニットであって、再結合ユニットが、第1の音量レベルでの第1の再結合トラックと、分解トラックのグループから選択された第2の音量レベルでの少なくとも第3のトラックとを再結合して、第2の再結合トラックを取得するようにさらに構成されている、再結合ユニットと、第2の再結合トラックに基づいてオーディオデータを再生するように構成された再生ユニットと、を含む。
本発明の第4の態様の装置は、上述した本発明の第3の態様の方法およびそれらの実施形態を実施して、それぞれの効果および利点を実現するように特別に構成されている。
本発明の第4の態様の好ましい実施形態において、装置は、装置の動作モードを少なくとも第1の動作モードと第2の動作モードとの間で変更するように構成されたモード制御ユニットを含み、第1の動作モードにおいて、再結合ユニットは、分解トラックのグループから選択された選択トラックの第1のセットを再結合して、第1の再結合トラックを生成するように構成され、第2の動作モードにおいて、再結合ユニットは、分解トラックのグループから選択された選択トラックの第2のセットを再結合して、第1の再結合トラックを生成するように構成され、前記選択トラックの第2のセットは、前記選択トラックの第1のセットと異なる。本実施形態では、同じAIシステムを使用して、再結合する分解トラックの選択を変更するだけで、異なるサウンド成分のグループを制御することができる。ここで、ユーザ入力は、第1の再結合トラック、すなわちトラックのグループに依然として作用を与えるものであり、これにより高速でシンプルな制御が保証される。
モード制御ユニットは、装置を第1の動作モードまたは第2の動作モードに選択的に設定するためにユーザが操作可能なモード制御要素を含みうる。本実施形態では、ユーザは依然として選択に影響力を有しており、そのため、再生する音楽の種類に応じて分解トラックの選択を変更することができ、一方で、実際の再生中にすべての個々の分解トラックを制御する必要がないという利点を有する。
本発明の第3の態様の方法および本発明の第4の態様の装置は、DJ機器に実装した場合に特に利点がある。特に、分解トラックの再結合の簡単化された制御部と分解トラックのグループ化を特定の音楽タイプに適合化させることができる特徴部とにより、必要な柔軟性を維持しながら、DJのクリエイティブな作業をより直感的かつ迅速に行うことができる。したがって、本発明の第4の態様の装置において、オーディオ入力ユニットは、好ましくは、第1のミキシング入力データを受信するように構成された第1の入力部と、前記第1のミキシング入力データとは異なる第2のミキシング入力データを受信するように構成された第2の入力部と、を含み、再結合ユニットは、第1のミキシング入力データに由来するオーディオデータと、第2のミキシング入力データに由来するオーディオデータと、を再結合するように構成される。そのため、装置は、例えば2つの異なる楽曲のミキシング入力データを受信できるように構成されている。両方の楽曲の特定の分解トラックの音量レベルを制御することで、DJはより柔軟に、よりスムーズに2つの楽曲間でブレンドすることができ、また、異なる楽曲の分解トラックを再結合することで、特定の新しいオーディオの創造および効果を実現することができる。例えば、DJは、ある楽曲のボーカルを別の楽曲のインストゥルメンタルに重ね合わせて再生してもよい。これについては、本発明の他の態様および実施形態に関して、以下で詳しく説明する。
以下、図面に示す具体的な実施例に基づいて、本発明をさらに説明する。
本発明の第1の実施形態によるオーディオ信号を処理および再生する装置の構成要素を示す概略図である。 第1の実施形態による装置内の要素および信号の流れを示す機能図である。 第1の実施形態の装置における信号の流れを示すさらなる機能図である。 第1の実施形態の変形例である、本発明の第2の実施形態を示す図である。 第1の実施形態の変形例である、本発明の第3の実施形態を示す図である。 第1の実施形態の変形例である、本発明の第4の実施形態を示す図である。 第1の実施形態の変形例である、本発明の第4の実施形態を示す図である。 第1の実施形態の変形例である、本発明の第5の実施形態を示す図である。 第1の実施形態の変形例である、本発明の第6の実施形態を示す図である。 第1の実施形態の変形例である、本発明の第7の実施形態を示す図である。 第1の実施形態の変形例である、本発明の第8の実施形態を示す図である。 本発明の第8の実施形態の装置において適用可能なスワップ処理を説明するための図である。 本発明の実施形態による波形のグラフィック表現を示すグラフである。 本発明の実施形態による波形のグラフィック表現を示すグラフである。 本発明の第9の実施形態によるオーディオプレーヤを示す図である。 第1の実施形態の変形例である、本発明の第10の実施形態を示す図である。 第1の実施形態の変形例である、本発明の第11の実施形態を示す図である。 先の実施形態の変形例である、本発明の第12の実施形態を示す図である。 先の実施形態の変形例である、本発明の第12の実施形態を示す図である。
図1を参照すると、本発明の第1の実施形態は、装置10、好ましくはDJ装置である。装置10は、第1の楽曲Aなどの第1の入力オーディオファイルAと、第2の楽曲Bなどの第2の入力オーディオファイルBと、をロードしうる入力部12を含む。両方の入力オーディオファイルA,Bは、MP3,WAV,AIFFなどの一般的なオーディオファイル形式のオーディオデータを含むことができ、また、固定のファイルサイズおよび再生時間(特に秒単位の楽曲の長さ)を有しており、これは、従来から既知であるように、DJ機器などの再生装置に入力される。オーディオファイルAおよびBは、インターネットまたはその他のネットワーク接続を介してリモートサーバから提供、ダウンロードまたはストリーミングされてよく、ローカルコンピュータまたは装置10自体に統合されたストレージ装置から提供されてもよい。入力部12は、ユーザに、利用可能な複数のオーディオファイルのうちの1つを入力オーディオファイルAとして選択させ、複数のオーディオファイルのうちの別の1つを入力オーディオファイルBとして選択させることを可能にする、適切なユーザインタフェース手段を含むことができる。
装置10は、処理部14をさらに含み、処理部14は、好ましくは、RAMストレージ16、ROMストレージ18、永続的ストレージ19(ハードドライブまたはフラッシュドライブなど)、マイクロプロセッサ20、および少なくとも1つの人工知能システム22、例えばマイクロプロセッサ20に接続されている第1〜第4のAIシステム22−1,...,22−4を含む。処理部14は、入力部12に接続され、オーディオファイルA,Bのオーディオデータを受信する。
装置10は、再構成制御部24をさらに含み、再構成制御部24は、少なくとも1つの再構成制御要素26、例えば第1の制御要素26−1、第2の再構成制御要素26−2、およびミックス制御要素28を含む。再構成制御部24は、第1または第2のミキシング入力データに由来するオーディオ信号の再生をそれぞれ開始または停止するための第1の再生制御要素30−1および第2の再生制御要素30−2をさらに含みうる。
さらに、装置10は、再構成制御部24に接続され、制御要素の設定に基づいてオーディオデータを再結合するための再結合ユニット32を含みうる。再結合は、オーディオデータの異なるチャネルに、制御要素の設定に基づくスカラー値を乗じ、次いでチャネルをサンプルごとに加算することで実施することができる。さらに、デジタル/アナログ変換器を有するオーディオインタフェース34(例えば、サウンドカード)が、好ましくは、再結合された出力データを受信して、デジタルで再結合された出力データをアナログオーディオ信号に変換する、再結合ユニット32に接続されている。アナログオーディオ信号は、オーディオ出力部36に提供されうるものであり、このオーディオ出力部36は、ラインコネクタもしくはXLRコネクタなどのオーディオケーブルを接続するための従来のオーディオコネクタ、またはオーディオ出力部36をPAシステムもしくはスピーカもしくはヘッドフォンなど(図示せず)に接続できるワイヤレス出力部(Bluetoothなど)を備えうる。PAシステムは、オーディオ信号を出力するために、スピーカに接続されたアンプを含んでいてもよい。代替手段として、タブレットのスピーカまたはコンピュータのスピーカもしくはヘッドフォンなど、装置の内部スピーカを使用してアナログオーディオ信号を出力することもできる。
第1の実施形態に関して上述した一部または全部の構成要素および特徴部は、図1に関して上述したようなオーディオデータの入力、分解、再結合および出力を可能とするECUを動作させることと、例えば、再構成制御部24の制御要素を表示するタッチパネル37を介して、ユーザからの制御入力を受信することと、を行うようにプログラムされたソフトウェアアプリケーションを実行する、コンピュータ、特に、タブレットコンピュータ35などの電子制御ユニット(ECU)によって提供されうる。
図2を参照しながら、以下、装置10の内部構成要素および信号の流れの詳細を説明する。入力部12内で、上述したように第1および第2の入力オーディオファイルA,Bが取得される。次いで、入力オーディオファイルA,Bが、少なくとも第1の分解ユニット38および第2の分解ユニット40を含む処理部14に伝送される。第1の分解ユニット38は、第1のセグメンテーションユニット42と、少なくとも1つのAIシステム、好ましくは第1のAIシステム44−1および第2のAIシステム44−2と、を含む。第2の分解ユニット40は、同様に、第2のセグメンテーションユニット46と、少なくとも1つのAIシステム、好ましくは第3のAIシステム44−3および第4のAIシステム44−4と、を含みうる。
第1の分解ユニット38の第1のセグメンテーションユニット42は、第1の入力オーディオファイルAを受信し、オーディオファイルを複数の連続したセグメントに分割するように適合化されている。好ましくは、完全な入力オーディオファイルAが、そのオーディオファイルから再生可能なオーディオ信号の時間間隔に対応するセグメントに分割される。好ましくは、開始セグメントの開始点が時間軸上のオーディオファイルの先頭(再生位置0:00)に対応し、開始セグメントの終了点がオーディオファイルの先頭の第1の時間間隔の終了点に対応するように定義される。この場合、第2のセグメントおよび後続の各セグメントは、同じ長さの連続した時間間隔で定義されており、このため、ある時間間隔から次の時間間隔に向かって時間間隔の開始点が増大していく。
より具体的には、オーディオファイルを、1秒あたりのサンプル数によって与えられる所定のサンプリングレートfsでサンプリングされるアナログオーディオ信号のデジタル表現とみなす。サンプリングは、例えばオーディオインタフェースのようなアナログ/デジタル変換器を介して記録中に実施されてもよい。(デジタルシンセサイザ、ドラムコンピュータなどから)デジタルで生成されたオーディオデータの場合、サンプル、特に各サンプルで表現されるオーディオデータは、コンピュータで生成された値である。各サンプルは、サンプリング期間T内の信号値(例えば、測定された平均値)を表し、ここで、fs=1/Tである。オーディオファイルの場合、fsは、例えば44.1kHzまたは48kHzでありうる。1サンプルは、1フレームとも称される。ここで、本実施形態では、第1のセグメントの開始フレームは、オーディオファイル内のオーディオデータの時間位置0の最初のフレームであってよく、第2のセグメントの開始フレームは、第1のセグメントの終了フレームの直後のフレームであってよく、第3のセグメントの開始フレームは、第2のセグメントの終了フレームの直後のフレームであってよく、以下同様である。セグメントはすべて、最後のセグメントを除いて、再生可能なオーディオ信号の時間軸に対して同じサイズを有することができ、または同じフレーム数を有しうる。ここで、最後のセグメントは、(復号された)オーディオファイルの終了点もしくは最後のフレーム、または再生可能なオーディオ信号の時間軸上の終了点によって定義される終了点を有しうる。
実際、本発明の方法および装置では、処理、特に分解は、入力オーディオファイルのフレームによって正確に定義されたセグメントに基づいて、かつ/または入力オーディオファイルのフレームに対応するセグメントに基づいて実施されることが好ましい。これにより、トラック内、特に再結合または再生中の分解トラック内でのフレームの正確な位置決めが保証され、ミキシング入力信号内のオーディオ位置を分解トラック内のオーディオ位置に直接に変換することができる。したがって、このようにして取得された分解トラックは、ミキシング入力トラックと正確に同じ時間軸を有し、時間軸のずれまたは精度の低下を生じることなく、例えば、エフェクトの適用、リサンプリング、タイムストレッチ、テンポマッチング、およびビートマッチングのためのシークなどにより、さらなる処理を行うことができる。好ましくは、分解セグメントには、そのセグメントに対応する元の入力オーディオデータと正確に同じ量のフレームが含まれている。
好ましくは、セグメントのサイズは、対応する時間間隔の長さが60秒より小さく、1秒より大きくなるように選択される。これにより、入力オーディオファイルが十分に分割され、任意の所与の位置から再生を開始するために必要な処理の大幅な高速化が実現される。より好ましくは、セグメントは、5秒〜20秒の長さを有する時間間隔に対応するサイズを有している。これにより、AIシステム44にとって、一方では要求を満たす分解結果の実現のために十分なオーディオデータが保証され、また、ライブパフォーマンスの状況での装置の適用を可能とするために、1つのセグメントにおいて分解されるオーディオデータが分解されたオーディオデータの実質的な即時利用を実現するのに十分な程度に小さい値へ縮小されることが保証される。
第1のセグメンテーションユニット42の出力では、入力オーディオファイルAのセグメントが、少なくとも1つのAIシステム44に伝送されるように提供される。好ましくは、セグメントは、第1のAIシステム44−1に伝送されると同時に、すなわち並行して、第2のAIシステム44−2に伝送されるように二重化またはコピーされる。したがって、入力オーディオファイルAの同一のセグメントは、第1のAIシステム44−1だけでなく、第2のAIシステム44−2においても同時に処理することができる。
本発明の実施形態で使用されるAIシステムのそれぞれは、本開示で上述したように、訓練済の人工ニューラルネットワーク(訓練済のANN)でありうる。特に、Pretet et al.に記載されているように、ミキシングオーディオデータからボーカルトラックまたは歌声のトラックを表す第1の分解トラックを抽出しうる訓練済のANNを使用できる。特に、AIシステム44は、オーディオデータに含まれる周波数のスペクトルが取得されるように、オーディオデータ(すなわち、入力オーディオファイルのセグメントに含まれるオーディオデータ)のフーリエ変換を計算することができる。次いで、当該スペクトルは、例えば、ミックスのボーカルパートに属するなど、特定のソーストラックまたは特定のソーストラックの和に属すると認識されるスペクトルの部分をフィルタリングする畳み込みニューラルネットワークに導入される。フィルタリングされたスペクトルは、波形信号またはオーディオ信号に再変換される。これらの信号には、再生時に、元のオーディオ信号のフィルタリングされた部分(例えばボーカルパート)のみが含まれる。
このフィルタリング分析には、例えばPretet et al.に説明されているように、ANNなどのAIシステムを使用することができる。ANNは、例えばヒップホップ、ポップ、ロック、カントリー、エレクトロニックダンスミュージックなど、様々なジャンルの専門家が録音または制作した大量の楽曲を含むデータセットで訓練されたものであり、前記データセットには、完成した楽曲だけでなく、それぞれのボーカルトラックおよびインストゥルメンタルトラックも別個に録音として含まれる。
第1の実施形態の装置10の第1の分解ユニット38内(好ましくはそのRAMメモリ内、特にコンピュータ35の内部RAM内)には、上述の種類のAIシステムの2つの個別の完全に訓練済のインスタンス(異なるまたは等しいAIシステム)が保存可能であり、第1の分解トラックおよび第2の分解トラックをそれぞれ生成するために、互いに独立して同時に操作可能である。好ましくは、第1および第2の分解トラックは補完関係にある。これは、通常の音量レベル(すなわちそれぞれが100%)で再結合されたときの、第1の分解トラックおよび第2の分解トラックの和が、元のミキシング入力データに類似していることを意味する。例えば、第1の分解トラックは、ミキシング入力データの完全なボーカルパートに類似していてよく、第2の分解トラックは、ミキシング入力データの完全な残りの部分、特にすべてのインストゥルメンタルトラックの和に類似していてもよい。これにより、両方の分解トラックが適切な音量で再結合されると、音響的知覚の点で、元のミキシング入力データと音響的に非常に近似した、または元のミキシング入力データから区別できないオーディオ信号が取得される。
好ましくは、第1および/または第2の分解トラックは、それぞれ、左チャネルの信号部分と右チャネルの信号部分とを含むステレオトラックである。代替的に、それぞれまたは両方がモノラルトラックであってもよく、3つ以上のチャネルを有するマルチチャネルトラック(例えば5.1サラウンドトラックなど)であってもよい。
第2の分解ユニット40は、第1の分解ユニット38と同様のまたはこれに対応する方式で構成することができ、したがって、第2のセグメンテーションユニット46を含み、当該第2のセグメンテーションユニット46は、第2の入力オーディオファイルBを固定された開始点および終了点の複数のセグメントに分割し、第3の分解トラックおよび第4の分解トラック(例えば、それぞれがモノラルトラック、ステレオトラック、または3つ以上のチャネルを有するマルチチャネルトラック(例えば5.1サラウンドトラックなど)であってもよい)を取得するための並列処理および分解を行う第3のAIシステムおよび第4のAIシステムの両方に、セグメントを連続して伝送する。
第1および第2の分解ユニット38および40に由来する分解トラックは、次いで、分解トラックのうちの少なくとも2つを指定された制御可能な音量レベルで再結合して再結合出力データを生成するように構成された再結合ユニット32に伝送される。ユーザは、少なくとも1つの制御要素によって分解トラックの音量レベルを制御することができる。例えば、第1の分解トラックの第1の音量レベルと第2の分解トラックの第2の音量レベルとの間の比率をユーザが制御することを可能にする第1の制御要素26−1が提供されていてよく、一方、代替的にもしくは付加的に、第3の分解トラックの第3の音量レベルと第4の分解トラックの第4の音量レベルとの間の比率をユーザが制御することを可能にする第2の制御要素26−2が提供されていてもよい。
この場合、再結合ユニット32では、第1の分解トラックおよび第2の分解トラックは、第1の制御要素26−1によって設定された音量レベルに基づいて、第1の再結合ステージ32−1において互いに再結合され、第1の入力オーディオファイルAから再結合A’が取得される。さらに、第3および第4の分解トラックは、第2の制御要素26−2によって設定された第3および第4の音量レベルにしたがって、再結合ユニット32の第2の再結合ステージ32−2において再結合され、第2の入力オーディオファイルBから第2の再結合B’を取得することができる。さらに、再結合A’および再結合B’は、ユーザが制御可能なミックス制御要素28の設定に応じて、第1の再結合A’および第2の再結合B’をミキシングするミキシングステージ48に導入されうる。ミックス制御要素28は、第1の再結合A’の音量レベルと第2の再結合B’の音量レベルとの間の比率を制御するように適合化可能である。
再結合ユニット32によって生成された再結合出力データは、次いで、オーディオ出力部36に接続されたオーディオインタフェース34を含みうる再生ユニットに伝送される。
図2に見られるように、第1の分解ユニット38によって出力された第1および第2の分解トラックは、第1の視覚化ユニット49−1に入力されうる。さらに、第2の分解ユニット40が出力する第3および第4の分解トラックは、第2の視覚化ユニット49−2に入力されうる。さらに、第1および/または第2の視覚化ユニット49−1,49−2を再結合ユニット32に接続して、例えば制御要素26−1,26−2の現在の設定に関する情報を取得することもできる。第1および/または第2の視覚化ユニット49−1および49−2は、後で詳しく説明するように、それぞれ、再結合A’および再結合B’のオーバーレイ波形を表示するように構成されることが好ましい。
図3に関して、本発明の第1の実施形態の装置10内のオーディオデータの処理をさらに説明する。図3は、例として第1の入力オーディオファイルAのみの処理を示しているが、これは、第2の入力オーディオファイルB、または任意の追加の他の入力オーディオファイルの処理にも同様に適用することができる。図3に見られるように、処理部14における分解処理の後、第1および第2の分解トラックのセグメントは、直ちにさらなる処理を行うために、特に再生、好ましくはリアルタイム再生のために、オーディオバッファ(例えばリングバッファ)に保存される。オーディオバッファは、第1の分解トラックのカレントセグメントからのオーディオデータと、第2の分解トラックのカレントセグメントからのオーディオデータと、をそれぞれ所与のチャネル数(モノラル、ステレオ、サラウンドなど)で保存するために、複数のデータアレイを有している。例えば、分解トラックが両方ともステレオ信号である場合、第1および第2の分解トラックセグメントの左および右チャネル部分をそれぞれ保存するために、4アレイのバッファが使用されてもよい。
バッファの出力部は、第1の制御要素26−1の設定に応じて再結合トラックを生成する再結合ユニット32に接続されうる。
装置10が、オーディオ効果を信号に適用するための1つ以上のオーディオエフェクトチェーン(DJ機器において従来公知である、ディレイ効果、リバーブ効果、イコライザ効果、キーまたはテンポ変更効果などであり、例えばピッチシフト、リサンプリングおよび/またはタイムストレッチ効果によって実現される)を含む場合、かかるエフェクトチェーンは、信号の流れにおける様々な位置に挿入可能である。例えば、バッファが出力する分解トラック(セグメント)は、それぞれオーディオエフェクトチェーン51−1,51−2を介してそれぞれルーティング可能であり、例えば、必要に応じて、それぞれの分解トラックに個別にエフェクトが適用される。この場合、オーディオエフェクトチェーン51−1,51−2の出力部は、再結合ユニット32に接続可能である。付加的にもしくは代替的に、エフェクトチェーン51−3は、第1の制御要素26−1によって設定された第1および第2の音量レベルにしたがって第1および第2の分解トラックが再結合される信号の流れに関する位置、特に、再結合ユニット32の下流の位置または再結合ユニット32の第1の再結合ステージ32−1の下流の位置に配置することができる。こうした配置の利点は、オーディオエフェクトチェーン51−3に提出されるチャネル数が、再結合プロセス内で、第1の再結合ステージの前のチャネル数の少なくとも半分に減少し、特に、第1のミキシング入力データのチャネル数(モノラル信号の場合は1チャネル、ステレオ信号の場合は2チャネル、サラウンド信号などの他のフォーマットの場合は3チャネル以上)に等しくなることである。このように、本実施形態の分解ユニットの追加機能は、従来のミキシング入力データの処理と比較して、オーディオエフェクトチェーン51−3の複雑化または性能の過負荷をもたらすものではない。また、従来のDJ機器と同じオーディオエフェクトチェーンを使用することもできる。
図4〜図10を参照しながら、以下、第2〜第8の実施形態について説明する。各実施形態は、図1〜図3に関して上述した第1の実施形態の変形例であり、第1の実施形態に関して上述したすべての特徴および機能は、以下で異なる説明をしない限り、第2〜第8の各実施形態においても同様に対応して含まれることが好ましい。これらの同一または対応する特徴または機能については、再度の説明を行わない。
図4に示す第2の実施形態では、第1のDJデッキ50aおよび第2のDJデッキ50bがディスプレイ上、特にタッチディスプレイ上に表示されており、ユーザは物理的なDJデッキの操作に対応するジェスチャまたは動作によってそれらを操作することができる。第2の実施形態は、ユーザ、特にDJが、ライブパフォーマンス中にスクラッチ効果を実行したり、楽曲中の異なる時間位置にスキップしたりすることを可能にするために、特に有利でありうる。
DJデッキ50a,50bとは独立して(付加的にもしくは代替的に)提供することができる、第2の実施形態のさらなる特徴として、第1の制御要素26−1および好ましくはさらに第2の制御要素26−2を、ユーザによって機械的に移動可能なハードウェアスライダとして、またはタッチジェスチャもしくはポインタもしくはコンピュータマウスもしくは他の任意のユーザ入力によって移動可能な、タッチパネル上もしくはコンピュータ画面上に提示される仮想スライダとして、具現化することができる。第1の制御要素26−1のスライダは、第1の分解トラックの第1の音量レベルと第2の分解トラックの第2の音量レベルとの間の比率を、第1の音量レベルを100%とし、第2の音量レベルを0%とする一方の終端位置から、第1の音量レベルを0%とし、第2の音量レベルを100%とする別の終端位置の位置までの範囲で連続的に変化させることができる。終端位置間でスライダを一方向に動かすと、第1の音量および第2の音量のうちの一方が大きくなり、第1の音量および第2の音量のうちの他方が同じ割合で小さくなる。
好ましいデフォルト設定として、制御要素26−1の中心位置では、第1および第2の音量レベルの両方が、フル/ノーマル音量=100%に設定されている。すなわち、再結合が元の第1のミキシング入力データに対応している。必要に応じて、音量調整カーブをユーザが設定することも可能である。デフォルトでは、
第1の音量レベル=MIN(1.0,sliderValue2.0)
第2の音量レベル=MIN(1.0,(1.0−sliderValue)2.0)
のように、音量レベルを計算することができる。ここで、「MIN(値1,値2)」は、値1および値2の最小値を表し、「sliderValue」は、0(左端の値)から1.0(右端の値)まで動く、制御要素26−1の設定を表す。スライダを反対方向に動かすと音量の増減が逆になる。これにより、ユーザは片手または指一本だけで、単一の連続した動きによって、第1の分解トラックと第2の分解トラックとの間をスムーズにクロスフェードし、または両分解トラック間の所望の再結合を調整できるようになる。好ましくは、第2の制御要素26−2は、第3および第4の分解トラックの第3および第4の音量レベルをそれぞれ制御するために、第1の制御要素26−1と同じ手法で操作可能である。
好ましくは、ミックス制御要素28もスライダとして実現され、装置の直感的な操作のために第1の制御要素26−1と第2の制御要素26−2との間に配置されてもよい。第1の実施形態と同様に、ミックス制御要素28は、クロスフェーダであってもよく、かつ/または第1の再結合A’の音量レベルと第2の再結合B’の音量レベルとの間の比率を制御するように適合化可能であり、ここで、再結合A’は、第1の分解トラックと第2の分解トラックとを再結合して取得され、再結合B’は、第3の分解トラックと第4の分解トラックとを再結合して取得される。
装置10は、さらに、第1および第2の分解トラックまたはその再結合を表す波形が表示される第1の波形部52−1を表示するように構成することができる。第1および第2の分解トラックは、共通のベースライン/時間軸を共有するように重ね合わせて表示されるが、互いに視覚的に区別できるように、異なる信号軸および/または異なる描画スタイルを使用する。図4に示す例では、第1の波形部52−1は、第1の波形および第2の波形のズームインバージョン53−1を表示しており、第1の波形および第2の波形は、好ましくは1秒〜60秒、より好ましくは3秒〜10秒のサイズを有し、かつ現在の再生位置を含む時間間隔が可視となるようにスケーリングされた共通のベースラインを用いて、重ね合わされて表示されている。ズームインバージョン53−1は、現在の再生位置が特にディスプレイの固定位置で可視となって維持されるように、再生に伴ってスクロール可能である。付加的にもしくは代替的に、第1の波形部52−1は、第1および第2の波形のズームアウトバージョン55−1を表示することもでき、第1および第2の波形は、好ましくは、入力オーディオファイルの長さ、例えば、楽曲A全体および/または60秒〜20分のサイズに対応するサイズを有し、かつ現在の再生位置を含む時間間隔が可視となるようにスケーリングされた共通のベースラインを用いて、重ね合わされて表示されている。ズームアウトバージョン55−1は、時間軸に対して移動しないが、ズームアウトバージョン55−1には、時間軸に沿って移動する、現在の再生位置を表す再生ヘッド58が表示されることが好ましい。
同様に、装置10は、第3および第4の分解トラックを表す波形が、第1の波形部52−1ならびに第1および第2の分解トラックについて上述したのと同様の手法で、特にズームインバージョン53−2およびズームアウトバージョン55−2によって表示される第2の波形部52−2を表示するように構成することができる。
第1の波形部52−1および/または第2の波形部52−2は、タッチジェスチャまたはマウス/ポインタの入力コマンドなどのユーザ入力コマンドを受信するように構成することができ、これは、例えば、ズームアウトバージョン55−1/55−2のベースライン上の所望の位置を単純にクリックまたはタッチすることによって、現在の再生位置を変更して、オーディオデータ内の所望の位置にジャンプするために構成される。
図4の例では、第1の波形部52−1のズームインバージョン53−1の第1の分解トラックおよび第2の分解トラックを、異なる信号軸および異なる描画スタイルで表示している。特に、第1の分解トラック(例えば分解ボーカルトラック)の信号軸は、第2の分解トラック(例えば分解インストゥルメンタルトラック)の信号軸より大幅に小さくスケーリングされ、第1の分解トラックが第2の分解トラックの中にあるように視覚化され、視覚的に区別できるようになっている。さらに、第1の分解トラックの波形は濃い色の描画スタイルで表示され、第2の分解トラックの波形は薄い色の描画スタイルで表示される。
同様に、第1の波形部52−1のズームアウトバージョン55−1の第1の分解トラックおよび第2の分解トラックも、異なる描画スタイルで表示されている。具体的には、第1の分解トラックの波形の上半分のみ、第2の分解トラックの波形の下半分のみが表示される。また、第1の分解トラックの波形は濃い色の描画スタイルで表示してもよく、第2の分解トラックの波形は薄い色の描画スタイルで表示してもよい。当然に、これらすべての描画スタイルは、第2の波形部52−2の波形に交換または変更および/もしくは適用することができる。
第1および第2の波形部52−1,52−2における分解トラックのオーバーレイ表現は、図12および図13に関して以下でより詳細に説明する、本発明の一実施形態による方法によって提供することができる。
さらに、制御要素26−1,26−2,28および30−1,30−2の設定は、表示される個々の波形のそれぞれの信号振幅変化を通じて、第1および第2の波形部52−1,52−2における分解トラックの視覚化に反映させることができる。特に、第1および第2の波形部52−1,52−2に表示される分解トラックの波形の信号軸は、制御要素26−1,26−2,28および30−1,30−2を介してユーザが設定したそれぞれの分解トラックの音量レベルの現在の設定に応じてスケーリングされる。これにより、音量の設定をユーザに直接に、好ましくは直ちに視覚的にフィードバックすることができる。
装置10は、第1および第2のミキシング入力ファイル(楽曲AおよびB)にそれぞれ関連付けられた第1のキュー制御要素31−1および/または第2のキュー制御要素31−2を有することができ、ユーザは、現在の再生位置を保存し、所望に応じて後の任意の時点でそれを取り出してジャンプするために、これらを操作しうる。
図5に示す第3の実施形態では、第1および第2の制御要素26−1,26−2がスライダの代わりに回転可能なノブであることを除き、第2の実施形態のそれぞれの制御要素と機能が類似している。ただし、ノブは、第1および第2の音量レベルの一方が100%に設定され、第1および第2の音量レベルの他方が0%に設定された2つの終端位置の間で回転させることもできる。また、ユーザは、片手または指一本だけを使った単一の連続した動きによって、第1の分解トラックと第2の分解トラックとの間をクロスフェードすることができる。なお、第2の制御要素26−2についても同様の構成が実装されてよい。
図6aは、本発明の第4の実施形態のうち、再結合ユニットの制御に異なる制御部を用いた第1の変形例を示す図である。特に、第1〜第3の実施形態について説明した第1および第2の制御要素26−1,26−2に代えてもしくはこれに加えて、第4の実施形態の第1の変形例では、第1の分解トラックの第1の音量レベルと第3の分解トラックの第3の音量レベルとの間の比率、言い換えれば、異なる分解ユニット38,40の分解トラックの音量レベルを制御する第3の制御要素26−3が設けられている。さらに、第2の分解トラックの第2の音量レベルと第4の分解トラックの第4の音量レベルとの間の比率をユーザが制御できる第4の制御要素26−4が含まれていてもよい。これらの制御要素26−3,26−4により、例えば、第3の制御要素26−3を操作することで、第1のオーディオファイルのボーカルパートと第2のオーディオファイルのボーカルパートとの間の比率を、片手または指一本での単一の動きにより、簡単かつ直接的に制御することが可能となる。同様に、第4の制御要素26−4を片手または指一本だけで単一の動きで操作することにより、ユーザは、第1のオーディオファイルのインストゥルメンタルパートの音量レベルと第2のオーディオファイルのインストゥルメンタルパートの音量レベルとの間の比率を制御することができる。これにより、例えばDJは、最初にボーカルトラックを楽曲Aから楽曲Bにクロスフェードさせ、続いてインストゥルメンタルトラックを楽曲Aから楽曲Bにクロスフェードさせることで、よりシームレスなトランジションを行うことができ、音楽のより連続的な流れを実現することができる。
第3の制御要素26−3および/または第4の制御要素26−4は、スライダ(ハードウェアスライダまたはソフトウェアユーザインタフェース、例えば仮想タッチパネルスライダ)として、または回転可能なノブ(同様に、タッチパネル、コンピュータ画面、またはその他のディスプレイ装置上のハードウェアノブまたは仮想ノブ)として、実装することができる。
上述した第1〜第4の実施形態において、装置10は、好ましくは、入力部12、処理部14、再結合ユニット32、再生ユニット(特にオーディオインタフェース34(サウンドカードなど)およびオーディオ出力部36)を含むオールインワンの装置として、1つのハウジング内で実現されるものであり、または代替的に、電子制御ユニット(ECU)上で動作するソフトウェアとして実現され、制御要素がECUのディスプレイ上で視覚化され、処理部14の電子部品がECUの統合電子部品によって提供される完全な仮想機器として実現されるものである。かかるECUは、標準的なパーソナルコンピュータ、多目的コンピューティング装置、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、または統合されたスタンドアロンのDJコントローラであってもよい。
図6bは、本発明の第4の実施形態による装置の制御部の第2の変形例のレイアウトを示している。装置は、第1および第2のミキシング入力データ、すなわち異なる楽曲AおよびBを受信し、楽曲選択制御要素62Aおよび62Bは、第1のミキシング入力データとしての楽曲Aおよび第2のミキシング入力データとしての楽曲Bをそれぞれ選択するために、ユーザによって操作されうる。楽曲AおよびBは、外部のオーディオソースから、またはインターネット経由でストリーミングするためのオンライン音楽配信サービスから、またはローカルデータストレージ装置から選択されうる。
制御部は、楽曲Aおよび楽曲Bの再生をそれぞれ開始または停止するための再生/停止制御要素64A,64Bをさらに含むことができる。
本変形例の装置は第1の分解ユニットを含み、第1の分解ユニットは、楽曲Aのオーディオデータを分解して、3つの分解Aトラック、特に分解ボーカルAトラック、分解ハーモニックAトラック(例えばインストゥルメンタルAトラック)、および分解ドラムAトラックを取得する。任意手段として、第1の分解ユニットは、分解ベースAトラックをさらに取得する。さらに、本変形例の装置は第2の分解ユニットを含み、第2の分解ユニットは、楽曲Bのオーディオデータを分解して、3つの分解Bトラック、特に分解ボーカルBトラック、分解ハーモニックBトラック(例えば、インストゥルメンタルBトラック)、および分解ドラムBトラックを取得する。任意手段として、第2の分解ユニットは、分解ベースBトラックをさらに取得する。
制御部は、分解トラックの各ペアに対応する個別のクロスフェーダを有しており、例えば、分解ボーカルAトラックと分解ボーカルBトラックとの間でクロスフェードするボーカルクロスフェーダ66V、および/または分解ハーモニックAトラックと分解ハーモニックBトラックとの間でクロスフェードするハーモニッククロスフェーダ66H、および/または分解ドラムAトラックと分解ドラムBトラックとの間でクロスフェードするドラムクロスフェーダ66D(および/またはさらに任意手段として、分解ベースAトラックと分解ベースBトラックとの間でのクロスフェードのための、図示されていないベースクロスフェーダ)などが含まれる。クロスフェードとは、各分解トラックのクロスフェーダ66V,66H,66Dが2つの終了点間で制御されるように適合化されていることを意味しており、第1の終了点では、楽曲Aの分解トラックの音量が最大で、楽曲Bの対応する分解トラックの音量が最小であり、一方、第2の終了点では、楽曲Aの分解トラックの音量が最小で、楽曲Bの対応する分解トラックの音量が最大であることを意味している。2つの終了点の間で分解トラックのクロスフェーダの1つを移動または操作すると、楽曲AおよびBの分解トラックの音量がそれぞれ所定のトランジション機能または所定のトランジション曲線にしたがって変更される。
図7に示す第5の実施形態によれば、さらなる代替案として、装置10は、コンピュータ54(パーソナルコンピュータ、ラップトップコンピュータ、タブレットまたはスマートフォン、またはその他の多目的コンピューティング装置)と、ケーブル(USB接続、MIDI接続、HID接続、ファイアワイヤ接続、LAN接続など)または通常の無線プロトコル(WIFI,GSM,Bluetoothなど)を使用した任意の無線接続によってコンピュータに接続可能な外部ハードウェアコンポーネントである周辺装置56と、の組み合わせとして実装することができる。好ましくは、周辺装置56は、制御要素26−1,26−2,28などの制御要素を有する再構成制御部24を含む。さらに、周辺装置56は、従来のDJ機器において既知であるジョグホイール50a、50bまたは他の特徴部を含みうる。なお、処理部14としては、コンピュータ54の従来のハードウェアを用いてもよく、特にAIシステムおよびセグメンテーションユニットをコンピュータ54のRAMメモリに保存して実行する。さらに、処理部14のタスクの一部または全部を実行するために、プロセッサ/CPUが周辺装置56に含まれていてもよい。
図8に示す本発明の第6の実施形態は、第5の実施形態の若干の変形例であり、第6の実施形態の周辺装置56は、本発明を実施するために必要な追加のハードウェアを最小限に減らし、なおかつ機械的な制御要素を設けるために、比較的コンパクトであり、再構成制御部および制御要素のみを含む。
図9に示す第7の実施形態では、装置10は、ユーザが制御して楽曲Aの分解インストゥルメンタルトラックをオンまたはオフに切り替えることが可能な楽曲Aインストゥルメンタルボタン26−5、および/またはユーザが制御して楽曲Aの分解ボーカルトラックをオンまたはオフに切り替えることが可能な楽曲Aボーカルボタン26−6、および/またはユーザが制御して楽曲Bの分解インストゥルメンタルトラックをオンまたはオフに切り替えることが可能な楽曲Bインストゥルメンタルボタン26−7、および/またはユーザが制御して楽曲Bの分解ボーカルトラックをオンまたはオフに切り替えることが可能な楽曲Bボーカルボタン26−8を含む。これらのボタン26−5〜26−8の一部または全部を独立したボタンとして実現することで、ユーザは、分解トラックのうち、選択された1つのトラックを個別に、かつ単一の操作(指で1回タップ)のみでON/OFFを切り替えることができる。なお、本明細書では、トラックのON/OFFの切り替えは、それぞれトラックのミュート解除およびトラックのミュートを意味していることに注意されたい。
好ましくは、ユーザがボタン26−5〜26−8のうちのいずれかを操作する場合、それぞれの分解トラックが直ちにONまたはOFFに切り替わるのではなく、装置は、例えば瞬間的な信号のトランジションから生じる音響的なアーティファクトを回避するために、好ましくは5ミリ秒超、さらには50ミリ秒超の一定の時間内に、それぞれのトラックの音量を連続的にまたは段階的に増大させまたは低減させるように制御される。
図10に示す第8の実施形態では、装置10は、楽曲Aの分解ボーカルトラックと楽曲Aの分解インストゥルメンタルトラックとを再結合することで第1の再結合A’を取得するように構成された第1の再結合ステージと、楽曲Bの分解ボーカルトラックと楽曲Bの分解インストゥルメンタルトラックとを再結合することで第2の再結合B’を取得するように構成された第2の再結合ステージと、を含みうる。さらに、装置10は、第1の再結合A’の音量レベルを増大させるために第1の方向にユーザが操作可能であるように、または第2の再結合B’の音量レベルを増大させるために第2の方向にユーザが操作可能であるように構成されたミックス制御要素28を含みうる。さらに、好ましくは、第1および第2の再結合A’およびB’をそれぞれの音量レベルに応じて互いにミキシングし、再結合出力トラックを取得するミキシングステージが提供される。かかる信号の流れは、前述の図2を参照して説明したものと同様である。
ここで、第8の実施形態では、装置10は、ボーカルスワップボタン26−9をさらに含むことができ、ボーカルスワップボタン26−9は、ユーザによって、特に、単にボタンを押すなどの単一の操作によって制御可能であり、楽曲Aの分解ボーカルトラックを第2の再結合ステージにルーティングし、楽曲Bの分解ボーカルトラックを第1の再結合ステージにルーティングする。つまり、ボーカルスワップボタン26−9の操作により、楽曲A,Bの2つの分解ボーカルトラックが、それぞれ第1、第2の再結合ステージに入る前にスワップされる。ボーカルスワップボタン26−9を繰り返し操作することで、2つの分解ボーカルトラックのスワップをさらに続けることができる。
付加的にもしくは代替的に、装置10は、インストゥルメンタルスワップボタン26−10をさらに含むことができ、インストゥルメンタルスワップボタン26−9は、ユーザによって、特に、単にボタンを押すなどの単一の操作によって制御可能であり、楽曲Aの分解インストゥルメンタルトラックを第2の再結合ステージにルーティングし、楽曲Bの分解インストゥルメンタルトラックを第1の再結合ステージにルーティングする。つまり、インストゥルメンタルスワップボタン26−10の操作により、楽曲A,Bの2つの分解インストゥルメンタルトラックが、それぞれ第1、第2の再結合ステージに入る前に、スワップされる。インストゥルメンタルスワップボタン26−10を繰り返し操作することで、2つの分解インストゥルメンタルトラックのスワップをさらに続けることができる。
好ましくは、ユーザがボタン26−9または26−10のうちのいずれかを操作する場合、トラックのそれぞれのスワップは直ちに行われるのではなく、装置は、例えば瞬間的な信号のトランジションから生じる音響的なアーティファクトを回避するために、好ましくは5ミリ秒超、さらには50ミリ秒超の一定の時間内に、それぞれのトラックの音量を連続的にまたは段階的に増大させまたは低減させるように制御される。
代替的に、ボーカルスワップボタン26−9をユーザが制御して、通常の音量(特に最大音量)の楽曲Aの分解ボーカルトラックと楽曲Aのミュートされた分解インストゥルメンタルトラックとを再結合して第1の再結合A’を取得することにより、また楽曲Bのミュートされた分解ボーカルトラックと楽曲Bの通常の音量(特に最大音量)の分解インストゥルメンタルトラックとを再結合して第2の再結合B’を取得することにより、一方で、再結合A’およびB’が同じ音量レベルで同時に聞こえるようにミックス制御要素28をその中央位置に設定しながら、同様のリミックス/マッシュアップを実現することができる。
図11は、第8の実施形態の方法の変形例であり、特にスワップボタン、例えばボーカルスワップボタン26−9の操作について示している。装置10は、マスタトラックとしてトラックA(楽曲A)を、スレーブトラックとしてトラックB(楽曲B)を受信する。それぞれ、トラックAが前述のように分解されて、分解トラック1および2が取得され、トラックBが前述のように分解されて、分解トラック3および4が取得される。分解トラック3をスワップ用に準備するために、そのキー、テンポ、ビートの位相がマスタトラックAのものと一致させられる。特に、装置10はトラックAおよびトラックBのテンポ(例えば、BPM(beats per minutes)値)を判別し、これらが一致しない場合、分解トラック3は、マスタトラックAのテンポに一致するように、リサンプリングまたはタイムストレッチされる。また、キーマッチングが実施され、必要に応じて分解トラック3のキーがマスタトラックAのキーと一致するように変更される。さらに、分解トラック3のテンポマッチングの後、同期ステップにおいて、分解トラック3のビート位相が、必要に応じてシフトされ、トラックAのビート位相に一致させられる。
その結果、装置10は、トラックAの分解トラック2とシームレスに再結合できるように、テンポ、ビート位相およびキーに関してトラックAと一致する修正された分解トラック3’を準備する。スワップボタンが有効になっている場合、図11に示しているように、トラックAの次の処理で、分解トラック1の代わりに分解トラック3’が使用され、再結合ステージにルーティングされて分解トラック2と再結合され、オーディオが出力されることになる。
任意手段として、1つ以上のオーディオエフェクトチェーンを、例えば、スワップするステップと再結合ステージとの間で、例えばそれぞれの分解トラック1,2または3’に適用されるように、いずれかのトラックの信号フローに挿入することができる。
図12および図13は、本発明の実施形態の方法または装置、特に上述した第1〜第8の実施形態のいずれかによる装置において、装置の操作中に表示装置に表示されうるオーディオデータのグラフィック表現を示す。特に、このグラフィック表現は、ECUのディスプレイ、特にコンピュータ画面、またはコンピュータに接続された別の周辺装置の統合されたディスプレイ、またはスタンドアロンの装置として、タブレット、スマートフォン、または同様の装置上に表示することができる。グラフィック表現は、ECU(コンピュータ、スタンドアロン装置、タブレット、スマートフォンなど)上で動作する適切なソフトウェアによって生成可能であり、また、特許請求の範囲または上記の実施形態に記載した本発明による方法を実施するソフトウェアの一部であってもよい。ソフトウェアは、グラフィックカードなどのグラフィックインタフェースを動作させるものであってもよい。
本実施形態では、オーディオデータを波形として視覚化している。ここでいう波形とは、再生時間を表す直線的な時間軸t(通常は横軸)と、特定の再生時間ごとのオーディオデータの平均的な信号強度または信号振幅を表す信号軸(時間軸tに直交する軸、好ましくは縦軸)と、を有する表現のことである。現在の再生位置を示す再生ヘッド58が設けられてもよい。オーディオデータの再生中、再生ヘッド58は、波形または再生ヘッドのいずれかまたは両方を視覚的に動かすことにより、時間軸tに沿って波形に対して移動する。
図12は、本発明の新規なグラフィック表現に到達するまでの処理手順を概略的に示したものである。ミキシング入力データ60(例えば楽曲A)を受信し、分解して、第1の分解トラック61−1(例えば分解ボーカルトラック)と、第2の分解トラック61−2(例えば分解インストゥルメンタルトラック)と、が取得される。第1の分解トラック61−1および第2の分解トラック61−2は、その和がミキシング入力データ60に対応するような補完トラックでありうる。
実際には、両方の分解トラックの波形に対して単一のベースラインを使用する、第1および第2の分解トラック61−1,61−2のオーバーレイ表現であるオーバーレイ波形64が表示されており、これは、両波形の時間軸tが所定の距離を置いて互いに平行に延在しているのではなく、1本の共通線を形成する同一のものであることを意味する。両波形は、両者を区別できるように、異なる描画スタイルで表示されている。例えば、分解トラックの2つの波形のうち、一方の波形が他方の波形と異なる色で表示されてもよい。図12の例では、分解トラックの一方の波形(ここでは分解ボーカルトラック61−1)では、正の信号部分のみが表示され、負の信号部分は省かれているが、分解トラックの他方の波形(ここでは分解インストゥルメンタルトラック61−2)では、負の信号部分のみが表示され、正の信号部分は省かれている。代替的に、波形を互いに区別できるようにするために、異なるスケールの信号軸を用いて、または異なる描画スタイルを用いて、波形を描画することができる。異なる描画スタイルの例として、一方の波形を破線または点線で描画したり、異なる色で描画したり、異なる透明度または透過度で描画したり、これらの組み合わせで描画したりすることができる。
図13に示す別の例では、分解トラックの一方の波形、ここではボーカルトラック61−1の波形が、他方の分解トラックの波形、ここではインストゥルメンタルトラック61−2の波形とは異なるスケールで、ここではより小さいスケールで、信号軸に沿って表示されている。また、異なる色によって各波形を表示することもできる。
分解トラックの波形を再構成制御部の制御要素の設定および/または再結合ユニットの設定を表すように表示して、それぞれの分解トラックに割り当てられた信号量についてユーザにフィードバックを提供することが好ましい。好ましくは、ユーザが制御要素の1つを操作して、少なくとも1つの分解トラックの音量を増大または低減させるのと同時に、当該分解トラックの関連する波形が、その信号軸に関して増大または低減するサイズで表示されるか、または視覚的にフェードインまたはフェードアウトされる。当該グラフィカルフィードバックは、好ましくは即時に行われ、したがって、ユーザにとって邪魔にならない、または認識できないほどの遅延時間、特に500ミリ秒未満の遅延時間、好ましくは毎秒30フレームのフレームレートにおいて肉眼で認識できないほどの、35ミリ秒未満の遅延時間で行われる。かかる表示は、ライブパフォーマンス中の装置の操作に大いに役立つものである。
図14は、本発明の装置10の第9の実施形態を示しており、オーディオプレーヤである。当該オーディオプレーヤは、1つのオーディオファイルから取得されたそれぞれの第1および第2の分解トラック(ここでは分解ボーカルトラックおよび分解インストゥルメンタルトラック)の第1および第2の音量レベルを制御するための制御要素26−13を有する再構成制御部24と、任意に第1および第2の分解トラックのオーバーレイ表現を表示する表示領域66と、を含む。図14の装置10は、例えばプレイリストから、または個々のユーザの選択に基づいて、オーディオファイルを順次再生するように適合化可能であり、オーディオストリーミングサービスからのストリーミングを介してオーディオファイルを受信するための入力ユニットを有することができ、よって、大部分の時間において(1つの楽曲の終わりから次の楽曲の先頭へのトランジション時の任意のクロスフェード効果は別として)1つのオーディオファイルのみを再生するように適合化可能である。ユーザは、再生制御要素30の操作によって再生を開始または停止することができ、かつ/または再生ヘッドを時間軸に沿って移動させることによって再生位置を変更することができる。
ユーザは、制御要素26−13を介して楽曲の再生を制御して、分解ボーカルトラックのみ、または分解インストゥルメンタルトラックのみ、または両方のトラックの再結合を聴くことができる。かかる構成は、例えば、カラオケアプリケーションまたはプレイアロングアプリケーションなどに有効である。好ましくは、装置10は、上述の機能を実現するための適切なソフトウェアアプリケーションを実行する、コンピュータまたはスマートフォンまたはタブレットなどのモバイル装置である。
図15は、本発明の第10の実施形態を示しており、当該実施形態は、第1〜第4の分解トラックのそれぞれ、特に第1の分解ボーカルトラック、第1の分解インストゥルメンタルトラック、第2の分解ボーカルトラックおよび第2の分解インストゥルメンタルトラックのそれぞれに対して、個別のON−OFFボタン26−14〜26−17を含む。いずれかのボタンを操作することで、各分解トラックの音量が0〜100%の間または逆方向に100〜0%の間で切り替えられる。
図16は、本発明の第11の実施形態を示しており、当該実施形態は、第1〜第4の分解トラック、特に第1の分解ボーカルトラック、第1の分解インストゥルメンタルトラック、第2の分解ボーカルトラック、および第2の分解インストゥルメンタルトラックのそれぞれに対して個別のフェーダ26−18〜26−21を含む。いずれかのフェーダを操作することで、各分解トラックの音量を0〜100%の間または逆方向に100〜0%の間で連続的に変化させることができる。
図17および図18を参照して、以下、本発明の第12の実施形態について説明する。第12の実施形態は、第1〜第11の実施形態の変形例であり、そのため、以下で特に説明しない限り、第1〜第11の実施形態のいずれかの上述した特徴および利点のいずれかまたはすべてを含みうる。
第12の実施形態の装置110は、入力ユニットを含み、入力ユニットは、入力オーディオファイルA、例えば第1の楽曲Aを受信および/または提供するための第1の入力部と、好ましくは、第2の入力オーディオファイルB、例えば第2の楽曲Bを受信または提供するための第2の入力部と、を有する。第1の入力オーディオファイルは、符号化または圧縮されたフォーマットで提供された場合、復号または解凍されてよく、第1の実施形態について上述したのと同じまたは対応する手法で、第1のセグメンテーションユニット142においてセグメントに分割されてよい。
入力オーディオファイルA(またはそのセグメント)は、オーディオデータを少なくとも4つの分解トラック、すなわちドラムトラックD1、ベーストラックD2、ボーカルトラックD3、および補完トラックD4に分離することができる第1のAIシステム144に転送される。ドラムトラックD1は、入力オーディオファイルAのうちドラムの音色を有する成分を含み、ベーストラックD2は、入力オーディオファイルAのうちベースの音色を有する成分を含み、ボーカルトラックD3は、入力オーディオファイルAのうちボーカルの音色を有する成分を含み、補完トラックD4は、入力オーディオファイルAの残りの部分である。これは、ドラムトラックD1、ベーストラックD2、ボーカルトラックD3、および補完トラックD4のミクスチャが、入力オーディオファイルAのものと実質的に等しいオーディオ信号になることを意味している。この実施形態の変形例において、AIシステム144は、入力オーディオファイルAから、他の任意の音色の分解トラックD1〜D3を分離するように構成され、訓練されてもよい。
分解トラックD1〜D4は、ユーザ設定および/またはユーザ制御入力にしたがって、分解トラックD1〜D4のうちの選択トラックを再結合するように構成された再結合ユニット132にルーティングされる。特に、再結合ユニット132は、第1の再結合部132aを含むことができ、この第1の再結合部132aは、個々の分解トラックD1〜D4を入力として受信し、分解トラックD1〜D4のうちの1つを通過して取得された2つのトラックS1と、D1〜D4のうちの選択トラックをグループ化して取得されたS2と、を出力する。分解トラックの選択および分解トラックD1〜D4のそれぞれのグループ化は、モード制御ユニット145によって制御されうる。
図17および図18に示す例では、モード制御ユニット145は、図17に示す第1の動作モードまたは図18に示す第2の動作モードに選択的に設定することができる。第1の動作モードでは、ドラムトラックD1が第1のトラックS1にルーティングされて、すなわちS1がD1に等しくなり、一方でベーストラックD2、ボーカルトラックD3および補完トラックD4が選択されて、1つのトラックすなわち第2のトラックS2に再結合されるように、第1の再結合部132aが構成されている。つまり、第1の動作モードでは、D2、D3、D4をグループ化して単一のトラックS2が形成され、D1を通過してトラックS1が形成されるようになっている。一方、図18に示す第2の動作モードでは、ドラムトラックD1、ベーストラックD2および補完トラックD4が再結合の対象として選択され、すなわちグループ化されて1つのトラックS2が形成され、一方でボーカルトラックD3がトラックS1のみにルーティングされるように、第1の再結合部132aが構成されている。
モード制御ユニット145は、第1の動作モードと第2の動作モードとを選択的に切り替えるためにユーザが操作するモード制御要素(ジャンルボタンまたはジャンルスイッチなど)を含みうる。例えば、第1の動作モードは、主に電子音楽(すなわち通常ボーカルを含まない音楽)に使用可能であり、一方、第2の動作モードは、ヒップホップまたはポップスなどの通常ボーカルを含む音楽に使用可能である。
トラックS1およびS2は、次いで第2の再結合部132bにルーティングされ、この第2の再結合部132bは、第1のトラックS1に関連する第1の音量レベルおよび第2のトラックS2に関連する第2の音量レベルを制御するためにユーザによって制御可能な単一の制御要素126−1を含む。好ましくは、制御要素126−1は、ユーザが単一の制御操作で、例えば、第1の音量レベルと第2の音量レベルとの間のクロスフェーダとして、すなわち第1の音量レベルと第2の音量レベルとの間の比率を変更するように、操作可能である。特に、単一の制御要素126−1は、制御範囲を有するように構成することができ、制御範囲のうちの少なくとも一部では、第1および第2の音量レベルの音量変化が、例えば、第1および第2の音量レベルのうちの一方を増大させること、および/または第1および第2の音量レベルのうちの他方を低減させることによって、同時に実行される。好ましくは、単一の制御要素126−1は、第1の音量レベルが最大値を有し、第2の音量が最小値を有する第1の終了点から、第1の音量レベルが最小値を有し、第2の音量レベルが最大値を有する第2の終了点まで広がる制御範囲を有していてよい。制御範囲の中間領域では、第1および第2の音量レベルがともに最大値であってもよい。
好ましくは、単一の制御要素126−1は、単一の回転可能なノブまたは単一のフェーダ要素である。制御要素126−1を介してユーザによって入力された第1および第2の音量レベルの設定に基づいて、第2の再結合部132bは、再生用にオーディオインタフェース134に向けてルーティングされる第2の再結合トラックA’を取得するために、第1のトラックS1および第2のトラックS2を再結合する。
トラックS1およびS2は、さらに、先の実施形態の視覚化ユニット49−1および49−2について上述したように、その波形をディスプレイなどで視覚化するために、視覚化ユニット149−1にルーティングされてもよい。
第2のオーディオ入力ファイルBは、例えば、第2のAIシステムを含みうる第2の分解ユニット140において、第1の入力オーディオファイルAと同様の手法で処理可能である。第2の分解ユニット140から取得された分解トラックは、次に、再結合ユニット132を介してルーティングされ、第1の入力オーディオファイルAについて上述したのと同一のまたは対応する手法で、グループとしてまたは個別に、ここで再結合されてもよい。第2の入力オーディオファイルBからこのようにして取得された再結合トラックB’は、次いで、特に第1〜第11の実施形態についてより詳細に上述した手法で、ミックス制御要素128によって制御される、さらなるミキシングステージ内で、第1の入力オーディオファイルAから取得された再結合トラックA’と再結合/ミキシングされうる。そして、このミキシングステージの出力は、再生用にオーディオインタフェース134にルーティングされうる。

Claims (26)

  1. オーディオデータを処理および再生するためのDJ機器であって、前記DJ機器は、
    −第1のミキシング入力データ(A)を受信するための第1のオーディオ入力ユニットであって、前記第1のミキシング入力データは、少なくとも第1のソーストラックと第2のソーストラックとをミキシングして取得された和信号である第1のオーディオ入力ユニットと、
    −前記第1のミキシング入力データ(A)とは異なる第2のミキシング入力データ(B)を受信するための第2のオーディオ入力ユニットであって、前記第2のミキシング入力データ(B)は、少なくとも第3のソーストラックと第4のソーストラックとをミキシングして取得された和信号である第2のオーディオ入力ユニットと、
    −前記第1のオーディオ入力ユニットに接続され、前記第1のミキシング入力データを分解して、前記第1のソーストラックに類似した少なくとも第1の分解トラックを取得するための第1の分解ユニット(38)と、
    −前記第2のオーディオ入力ユニットに接続され、前記第2のミキシング入力データ(B)を分解して、前記第3のソーストラックに類似した少なくとも第3の分解トラックを取得するための第2の分解ユニット(40)と、
    −前記第1の分解トラックと前記第3の分解トラックとを再結合することによって再結合出力データを生成するように適合化された再結合ユニット(32)と、
    −前記再結合出力データを再生するための再生ユニット(34,36)と、
    を含むDJ機器。
  2. 前記DJ機器は、ユーザによって制御されて前記第1の分解トラックの第1の音量レベルおよび前記第3の分解トラックの第3の音量レベルの所望の設定を表す制御入力を生成するように適合化された再構成制御部(24)をさらに含み、
    前記再結合ユニット(32)は、前記第1の音量レベルでの前記第1の分解トラックと前記第3の音量レベルでの前記第3の分解トラックとを再結合することによって前記再結合出力データを生成するように適合化されている、
    請求項1記載のDJ機器。
  3. 前記再構成制御部(24)は、前記第1の分解トラックの第1の音量レベルと前記第3の分解トラックの第3の音量レベルとの間の比率を制御する制御要素(26−3)を含む、
    請求項1または2記載のDJ機器。
  4. 前記第1の分解ユニット(38)は、前記第1のミキシング入力データ(A)を分解して、前記第2のソーストラックに類似した第2の分解トラックをさらに取得するように適合化されており、
    前記第2の分解ユニット(40)は、前記第2のミキシング入力データ(B)を分解して、前記第4のソーストラックに類似した第4の分解トラックをさらに取得するように適合化されており、
    前記再構成制御部(24)は、ユーザによって制御されて、前記第2の分解トラックの第2の音量レベルおよび前記第4の分解トラックの第4の音量レベルの所望の設定を表す制御入力をさらに生成するように適合化されており、
    前記再結合ユニット(32)は、第1の音量レベルでの前記第1の分解トラック、第2の音量レベルでの前記第2の分解トラック、第3の音量レベルでの前記第3の分解トラック、および、第4の音量レベルでの前記第4の分解トラックを再結合することによって、前記再結合出力データを生成するように適合化されている、
    請求項1から3までのいずれか1項記載のDJ機器。
  5. 前記再構成制御部(24)は、前記第2の分解トラックの前記第2の音量レベルと前記第4の分解トラックの前記第4の音量レベルとの間の比率を制御する制御要素(26−4)をさらに含む、
    請求項4記載のDJ機器(10)。
  6. 前記制御要素は、スライダとしてまたは回転可能なノブとして実装されている、
    請求項3または5記載のDJ機器(10)。
  7. 第3の制御要素(26−3)は、片手または指一本による単一の動きで操作されて、前記第1のミキシング入力データ(A)のボーカルパートの音量レベルと前記第2のミキシング入力データ(B)のボーカルパートの音量レベルとの間の比率を制御するように適合化されており、
    第4の制御要素(26−4)は、片手または指一本による単一の動きで操作されて、前記第1のミキシング入力データ(A)のインストゥルメンタルパートの音量レベルと前記第2のミキシング入力データ(B)のインストゥルメンタルパートの音量レベルとの間の比率を制御するように適合化されている、
    請求項1から6までのいずれか1項記載のDJ機器(10)。
  8. 前記再構成制御部は、前記第1の音量レベルおよび前記第2の音量レベルを制御するために、ユーザが単一の制御操作で操作可能な少なくとも1つの単一の再構成制御要素(26−1,26−2)をさらに含み、
    再構成制御要素(26−1,26−2)は、好ましくは、(1)前記第1の音量レベルおよび前記第2の音量レベルのうちの一方を増大させると同時に、前記第1の音量レベルおよび前記第2の音量レベルのうちの他方を低減させるか、または、(2)前記第1の音量レベルと前記第2の音量レベルとの間の比率を、少なくとも1より小さい値から少なくとも1より大きい値に変更するか、または、その逆を行う、
    請求項1から7までのいずれか1項記載のDJ機器。
  9. 前記再構成制御部(24)は、
    −前記第1の音量レベルおよび前記第2の音量レベルを制御するために、好ましくは、(1)前記第1の音量レベルおよび前記第2の音量レベルのうちの一方を増大させると同時に、前記第1の音量レベルおよび前記第2の音量レベルのうちの他方を低減させるか、または、(2)前記第1の音量レベルと前記第2の音量レベルとの間の比率を、少なくとも1より小さい値から少なくとも1より大きい値に変更するか、またはその逆を行う、ユーザが単一の制御操作で操作可能な第1の単一の再構成制御要素(26−1)と、
    −前記第3の音量レベルおよび前記第4の音量レベルを制御するために、好ましくは、(1)前記第3の音量レベルおよび前記第4の音量レベルのうちの一方を増大させかつ/または前記第3の音量レベルおよび前記第4の音量レベルのうちの他方を低減させるか、または、(2)前記第3の音量レベルと前記第4の音量レベルとの間の比率を、少なくとも1より小さい値から少なくとも1より大きい値に変更するか、または、その逆を行う、ユーザが単一の制御操作で操作可能な第2の単一の再構成制御要素(26−2)と、
    −第1の和信号および第2の和信号を制御するために、好ましくは、(1)前記第1の和信号および前記第2の和信号のうちの一方を増大させると同時に、前記第1の和信号および前記第2の和信号のうちの他方を低減させるか、または、(2)前記第1の和信号の音量レベルと前記第2の和信号の音量レベルとの間の比率を、少なくとも1より小さい値から少なくとも1より大きい値に変更するか、または、その逆を行う、ユーザが単一の制御操作で操作可能な単一のミックス制御要素(28)と、
    を含み、
    前記第1の和信号は、前記第1の音量レベルでの前記第1の分解トラックと前記第2の音量レベルでの前記第2の分解トラックとの和であり、前記第2の和信号は、前記第3の音量レベルでの前記第3の分解トラックと前記第4の音量レベルでの前記第4の分解トラックとの和である、
    請求項1から8までのいずれか1項記載のDJ機器。
  10. 前記DJ機器は、
    −所定のファイルサイズおよび所定の再生時間を有する入力オーディオファイルのセグメントをロードするための入力オーディオファイルバッファであって、前記ミキシング入力データを再生するためのオーディオデータを含む入力オーディオファイルバッファと、
    −前記第1の分解ユニットに接続されており、前記入力オーディオファイルのセグメントから取得された前記第1の分解トラックのセグメントを受信および保存する第1のセグメントバッファと、
    −前記第2の分解ユニットに接続されており、前記入力オーディオファイルの同じセグメントから取得された前記第2の分解トラックのセグメントを受信および保存する第2のセグメントバッファと、
    をさらに含み、
    −前記再生ユニット(34,36)は、前記再結合出力データからアナログオーディオ信号を生成するアナログ/デジタル変換器を有するオーディオインタフェースを含み、前記オーディオインタフェースは、再生用の出力データの一部をバッファリングするためのオーディオバッファを有し、
    −前記第1のセグメントバッファおよび/または前記第2のセグメントバッファのサイズは、前記オーディオインタフェースの前記オーディオバッファのサイズより大きいが、前記入力オーディオファイルデータのサイズまたは前記入力オーディオファイルの前記所定のファイルサイズより小さい、
    請求項1から9までのいずれか1項記載のDJ機器。
  11. 前記DJ機器は、テンポマッチングユニットおよびキーマッチングユニットのうちの少なくとも1つをさらに含み、
    −前記テンポマッチングユニットは、前記第1のミキシング入力データから取得された第1の入力データおよび前記第2のミキシング入力データから取得された第2の入力データを受信するように配置されており、前記テンポマッチングユニットは、前記第1の入力データおよび前記第2の入力データのうちの少なくとも1つをタイムストレッチして、相互に一致するテンポを有する第1の出力データおよび第2の出力データを出力するように適合化されたタイムストレッチユニットを含み、かつ/または、
    −前記キーマッチングユニットは、前記第1のミキシング入力データから取得された第1の入力データおよび前記第2のミキシング入力データから取得された第2の入力データを受信するように配置されており、前記キーマッチングユニットは、前記第1の入力データおよび前記第2の入力データのうちの少なくとも1つをピッチシフトして、相互に一致するキーを有する第1の出力データおよび第2の出力データを出力するように適合化されたピッチシフトユニットを含む、
    請求項1から10までのいずれか1項記載のDJ機器。
  12. 前記DJ機器のすべての構成要素、特に前記オーディオ入力ユニット、前記第1および第2の分解ユニットおよび前記再生ユニットは、単一のユニット内に統合されている、または、ローカルネットワークを介してもしくは周辺ケーブル接続部を介してもしくは近距離無線接続を介して互いに接続された複数のローカルユニット内に統合されている、
    請求項1から11までのいずれか1項記載のDJ機器。
  13. 前記第1および第2の分解ユニットは、複数の訓練用オーディオデータのセットによって訓練された少なくとも1つのニューラルネットワークに基づくAIシステムを含む、
    請求項1から12までのいずれか1項記載のDJ機器。
  14. 前記DJ機器は、
    −ミキシング入力データ(A,B)を受信するためのオーディオ入力ユニットであって、前記ミキシング入力データ(A,B)は、ボーカル成分、ドラム成分およびハーモニック成分をミキシングして取得された和信号であるオーディオ入力ユニットと、
    −前記オーディオ入力ユニットに接続されており、前記ミキシング入力データを分解して、
    i.前記ボーカル成分に類似した第1の分解トラックと、
    ii.前記ドラム成分に類似した第2の分解トラックと、
    iii.前記ハーモニック成分に類似した第3の分解トラックと、
    を取得するための分解ユニットと、
    −ユーザによって制御されるように適合化されており、
    i.前記第1の分解トラックの第1の音量レベルを制御するための第1の制御要素と、
    ii.前記第2の分解トラックの第2の音量レベルを制御するための第2の制御要素と、
    iii.前記第3の分解トラックの第3の音量レベルを制御するための第3の制御要素と、
    を含む再構成制御部(24)と、
    −前記第1の音量レベルでの前記第1の分解トラック、前記第2の音量レベルでの前記第2の分解トラックおよび前記第3の音量レベルでの前記第3の分解トラックを再結合することによって出力データを生成するように適合化された再結合ユニットと、
    −前記出力データを再生するための再生ユニットと、
    を含む、
    請求項1から13までのいずれか1項記載のDJ機器。
  15. DJ機器、好ましくは少なくとも請求項1から14までのいずれか1項記載のDJ機器を使用してオーディオデータを処理および再生するための方法であって、前記方法は、
    −第1のミキシング入力データを受信するステップであって、前記第1のミキシング入力データは、少なくとも1つの第1のソーストラックと少なくとも1つの第2のソーストラックとをミキシングして取得された和信号であるステップと、
    −第2のミキシング入力データを受信するステップであって、前記第2のミキシング入力データは、少なくとも1つの第3のソーストラックと少なくとも1つの第4のソーストラックとをミキシングして取得された和信号であるステップと、
    −前記第1のミキシング入力データを分解して、前記少なくとも1つの第1のソーストラックに類似した少なくとも第1の分解トラックを取得するステップと、
    −前記第2のミキシング入力データを分解して、前記少なくとも1つの第3のソーストラックに類似した少なくとも第3の分解トラックを取得するステップと、
    −再結合出力データが生成されるように、少なくとも前記第1の分解トラックと前記第3の分解トラックとを再結合するステップと、
    −前記再結合出力データを、オーディオ出力部を介して再生するステップと、
    を含む方法。
  16. 前記方法は、ユーザからの制御入力を読み取るステップをさらに含み、前記制御入力は、前記第1の分解トラックの第1の音量レベルおよび前記第3の分解トラックの第3の音量レベルの所望の設定を表し、
    前記再結合するステップは、少なくとも前記第1の音量レベルでの前記第1の分解トラックと前記第3の音量レベルでの前記第3の分解トラックとを再結合して、前記再結合出力データを生成することを含む、
    請求項15記載の方法。
  17. 前記方法は、前記第1の分解トラックの第1の音量レベルと前記第3の分解トラックの第3の音量レベルとの間の比率を制御するステップをさらに含む、
    請求項15または16記載の方法。
  18. 前記第1のミキシング入力データを分解することにより、前記第2のソーストラックに類似した第2の分解トラックをさらに取得し、
    前記第2のミキシング入力データを分解することにより、前記第4のソーストラックに類似した第4の分解トラックをさらに取得し、
    ユーザからの制御入力を読み取るステップにおいて、前記制御入力は、前記第2の分解トラックの第2の音量レベルおよび前記第4の分解トラックの第4の音量レベルの所望の設定をさらに表し、
    前記再結合するステップにおいて、前記再結合出力データは、第1の音量レベルでの前記第1の分解トラック、第2の音量レベルでの前記第2の分解トラック、第3の音量レベルでの前記第3の分解トラック、および、第4の音量レベルでの前記第4の分解トラックを再結合することによって生成される、
    請求項15から17までのいずれか1項記載の方法。
  19. 前記方法は、前記第2の分解トラックの前記第2の音量レベルと前記第4の分解トラックの前記第4の音量レベルとの間の比率を制御するステップをさらに含む、
    請求項18記載の方法。
  20. 前記ミキシング入力データを分解することは、セグメントごとに実施され、
    分解することは、前記ミキシング入力データの第1のセグメントに基づいて実施され、出力データの第1のセグメントが取得され、
    前記ミキシング入力データの第2のセグメントを分解することは、出力データの前記第1のセグメントを再生しながら実施される、
    請求項15から19までのいずれか1項記載の方法。
  21. 前記方法の各ステップは、連続プロセスで実施される、
    請求項15から20までのいずれか1項記載の方法。
  22. 前記ミキシング入力データは、リモートサーバからのストリーミングを介して、好ましくはインターネットを介して受信される、
    請求項15から21までのいずれか1項記載の方法。
  23. 前記ミキシング入力データおよび前記分解トラック信号のうちの少なくとも1つ、好ましくは、すべては、それぞれ左チャネル信号部分および右チャネル信号部分を含むステレオ信号を表す、
    請求項15から22までのいずれか1項記載の方法。
  24. 前記ミキシング入力データを分解することは、少なくとも1つのニューラルネットワークに基づくAIシステムによって前記ミキシング入力データを処理することを含み、前記AIシステムは、好ましくは、複数の訓練用オーディオデータのセットによって訓練され、訓練用オーディオデータの各セットは、少なくとも第1のソーストラックおよびミキシングトラックを含み、前記ミキシングトラックは、少なくとも前記第1のソーストラックまたは前記第1のソーストラックに類似するトラックと、第2のソーストラックと、をミキシングして取得された和信号である、
    請求項15から23までのいずれか1項記載の方法。
  25. 前記第1のミキシング入力データおよび前記第2のミキシング入力データは、それぞれ周期的なビート構造に基づいており、前記方法は、テンポマッチング処理およびキーマッチング処理のうちの少なくとも1つを実行するステップをさらに含み、
    −前記テンポマッチング処理は、前記第1のミキシング入力データから取得された第1の入力データおよび前記第2のミキシング入力データから取得された第2の入力データを受信することと、前記第1の入力データおよび前記第2の入力データのうちの少なくとも1つをタイムストレッチまたは類似化することと、相互に一致するテンポを有する第1の出力データおよび第2の出力データを出力することと、を含み、
    −前記キーマッチング処理は、前記第1のミキシング入力データから取得された第1の入力データおよび前記第2のミキシング入力データから取得された第2の入力データを受信することと、前記第1の入力データおよび前記第2の入力データのうちの少なくとも1つをピッチシフトすることと、相互に一致するキーを有する第1の出力データおよび第2の出力データを出力することと、を含む、
    請求項15から24までのいずれか1項記載の方法。
  26. 前記方法は、
    −ボーカル成分、ドラム成分およびハーモニック成分をミキシングして取得された和信号であるミキシング入力データ(A,B)を受信するステップと、
    −前記ミキシング入力データを分解して、前記ボーカル成分に類似した第1の分解トラック、前記ドラム成分に類似した第2の分解トラックおよび前記ハーモニック成分に類似した第3の分解トラックを取得するステップと、
    −前記第1の分解トラックの第1の音量レベルを制御するための第1の制御要素、前記第2の分解トラックの第2の音量レベルを制御するための第2の制御要素、および、前記第3の分解トラックの第3の音量レベルを制御するための第3の制御要素を介して、ユーザ入力を受信するステップと、
    −前記第1の音量レベルでの前記第1の分解トラック、前記第2の音量レベルでの前記第2の分解トラックおよび前記第3の音量レベルでの前記第3の分解トラックを再結合することによって出力データを生成するステップと、
    −前記出力データを再生するステップと、
    を含む、
    請求項15から25までのいずれか1項記載の方法。
JP2021035838A 2020-03-06 2021-03-05 オーディオデータの分解、ミキシング、再生のためのaiベースのdjシステムおよび方法 Active JP6926354B1 (ja)

Applications Claiming Priority (8)

Application Number Priority Date Filing Date Title
PCT/EP2020/056124 WO2021175455A1 (en) 2020-03-06 2020-03-06 Method and device for decomposing and recombining of audio data and/or visualizing audio data
EPPCT/EP2020/056124 2020-03-06
EPPCT/EP2020/057330 2020-03-17
PCT/EP2020/057330 WO2021175456A1 (en) 2020-03-06 2020-03-17 Method and device for decomposing, recombining and playing audio data
US16/892,063 US11216244B2 (en) 2020-03-06 2020-06-03 Method and device for processing, playing and/or visualizing audio data, preferably based on AI, in particular decomposing and recombining of audio data in real-time
US16/892,063 2020-06-03
EPPCT/EP2020/079275 2020-10-16
PCT/EP2020/079275 WO2021175461A1 (en) 2020-03-06 2020-10-16 Method, device and software for applying an audio effect to an audio signal separated from a mixed audio signal

Publications (2)

Publication Number Publication Date
JP6926354B1 JP6926354B1 (ja) 2021-08-25
JP2021141586A true JP2021141586A (ja) 2021-09-16

Family

ID=77364614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021035838A Active JP6926354B1 (ja) 2020-03-06 2021-03-05 オーディオデータの分解、ミキシング、再生のためのaiベースのdjシステムおよび方法

Country Status (1)

Country Link
JP (1) JP6926354B1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2023032270A1 (ja) * 2021-09-06 2023-03-09

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006201496A (ja) * 2005-01-20 2006-08-03 Matsushita Electric Ind Co Ltd フィルタリング装置
JP2008527458A (ja) * 2005-01-18 2008-07-24 ソ、ムン‐ジョン 音楽と音声の合成システム及び方法、及びこれを利用したサービスシステム及び方法{systemandmethodforsynthesizingmusicandvoiceandservicesystemandmethodthereof}
JP2010156738A (ja) * 2008-12-26 2010-07-15 Pioneer Electronic Corp 音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体
US20150268924A1 (en) * 2014-03-19 2015-09-24 Hipolito Torrales, JR. Method and system for selecting tracks on a digital file
US20180122403A1 (en) * 2016-02-16 2018-05-03 Red Pill VR, Inc. Real-time audio source separation using deep neural networks
WO2019130595A1 (ja) * 2017-12-29 2019-07-04 Pioneer DJ株式会社 音響機器および音響機器用プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008527458A (ja) * 2005-01-18 2008-07-24 ソ、ムン‐ジョン 音楽と音声の合成システム及び方法、及びこれを利用したサービスシステム及び方法{systemandmethodforsynthesizingmusicandvoiceandservicesystemandmethodthereof}
JP2006201496A (ja) * 2005-01-20 2006-08-03 Matsushita Electric Ind Co Ltd フィルタリング装置
JP2010156738A (ja) * 2008-12-26 2010-07-15 Pioneer Electronic Corp 音量調節装置、音量調節方法、音量調節プログラムおよび音量調節プログラムを格納した記録媒体
US20150268924A1 (en) * 2014-03-19 2015-09-24 Hipolito Torrales, JR. Method and system for selecting tracks on a digital file
US20180122403A1 (en) * 2016-02-16 2018-05-03 Red Pill VR, Inc. Real-time audio source separation using deep neural networks
WO2019130595A1 (ja) * 2017-12-29 2019-07-04 Pioneer DJ株式会社 音響機器および音響機器用プログラム

Also Published As

Publication number Publication date
JP6926354B1 (ja) 2021-08-25

Similar Documents

Publication Publication Date Title
US11216244B2 (en) Method and device for processing, playing and/or visualizing audio data, preferably based on AI, in particular decomposing and recombining of audio data in real-time
US10062367B1 (en) Vocal effects control system
US7952012B2 (en) Adjusting a variable tempo of an audio file independent of a global tempo using a digital audio workstation
JP5243042B2 (ja) 音楽編集装置及び音楽編集方法
AU2022218554B2 (en) Method and device for decomposing, recombining and playing audio data
US8198525B2 (en) Collectively adjusting tracks using a digital audio workstation
US11347475B2 (en) Transition functions of decomposed signals
US20120014673A1 (en) Video and audio content system
US20110112672A1 (en) Systems and Methods of Constructing a Library of Audio Segments of a Song and an Interface for Generating a User-Defined Rendition of the Song
US11462197B2 (en) Method, device and software for applying an audio effect
US20230120140A1 (en) Ai based remixing of music: timbre transformation and matching of mixed audio data
JP7136979B2 (ja) オーディオエフェクトを適用するための方法、装置、およびソフトウェア
JP6926354B1 (ja) オーディオデータの分解、ミキシング、再生のためのaiベースのdjシステムおよび方法
US8314321B2 (en) Apparatus and method for transforming an input sound signal
WO2021175461A1 (en) Method, device and software for applying an audio effect to an audio signal separated from a mixed audio signal
NZ791507A (en) Method and device for decomposing, recombining and playing audio data
Jordan Performing live with electronics: A percussionist's guide to the performance practice of electroacoustic percussion music

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210419

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210419

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210420

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20210427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210706

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210714

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210804

R150 Certificate of patent or registration of utility model

Ref document number: 6926354

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150