JP2019533195A

JP2019533195A - 分離されたオブジェクトを使用してオーディオ信号を編集する方法および関連装置

Info

Publication number: JP2019533195A
Application number: JP2019517915A
Authority: JP
Inventors: ミッカヴィレルモ; レフティニエミアルト; アルトレフティニエミ; ラッセラークソネン; ミッコタンミ
Original assignee: ノキアテクノロジーズオーユー
Priority date: 2016-10-03
Filing date: 2017-09-27
Publication date: 2019-11-14
Anticipated expiration: 2037-09-27
Also published as: US10349196B2; EP3520105A1; US20190261121A1; CN109844859A; EP3520105A4; CN109844859B; US20180096705A1; WO2018065664A1; US10623879B2; JP6859431B2

Abstract

好適な実施形態の一例は、２つ以上の個別トラックを備えたオーディオファイルを準備することと、２つ以上の個別トラックを分離することと、２つ以上の個別トラックのうちの少なくとも１つが変更されてもよい量に関する限度を設定することと、分離されて限度を設けられた個別トラックを最終ユーザによる使用のためのファイルとして出力することとを含む。【選択図】図１

Description

背景

［技術分野］
本願明細書に記載される例示的且つ非限定的な実施形態は、全般的に、オーディオ技術に関し、特に、混合音の制作物中の別々のオーディオオブジェクトを制御する方法、およびかかる方法のための装置に関する。

従来の開発の簡単な説明

音楽またはその他オーディオの正式な制作物がミックスされた後、最終ユーザは、様々な技術によりオーディオトラックまたはオーディオオブジェクトを分離できる。そのような技術には、ＤＯＬＢＹＡＴＭＯＳ、ブラインド信号分離（ＢＳＳ：ｂｌｉｎｄｓｉｇｎａｌｓｅｐａｒａｔｉｏｎ）、およびＭＰＥＧ空間オーディオオブジェクト符号化（ＳＡＯＣ：ＳｐａｔｉａｌＡｕｄｉｏＯｂｊｅｃｔＣｏｄｉｎｇ）が含まれる。一般に、音楽制作者は、当初制作された音楽の完全性を維持しようとして、最終ユーザがこうした技術を利用する能力を制限したがる。

摘要

以下の摘要は、単に例示として意図される。この摘要に、特許請求の範囲に記載の範囲を制限する意図はない。

例示的な一側面に係る方法は、２つ以上の個別トラックを備えたオーディオファイルを準備することと、２つ以上の個別トラックを分離することと、２つ以上の個別トラックのうちの少なくとも１つが変更されてもよい量に関する限度を設定することと、分離されて限度を設けられた個別トラックを最終ユーザによる使用のためのファイルとして出力することとを含む。

例示的な別の側面に係る方法は、２つ以上の個別トラックを備えたオーディオファイルを受信することと、２つ以上の個別トラックのうちの少なくとも１つについて可能なリミックスに関する設定限度を判断するために２つ以上の個別トラックを分析することと、２つ以上の個別トラックのうちの少なくとも１つを編集することと、２つ以上の個別トラックのうちの少なくとも１つについて可能なリミックスに関して判断された設定限度に基づき２つ以上の個別トラックをリミックスすることとを含む。

例示的な別の側面に係る装置は、少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つの非一時的メモリとを備え、コンピュータプログラムコードは、少なくとも１つのプロセッサとともに、装置に少なくとも、２つ以上の個別トラックを備えたオーディオファイルを受信することと、２つ以上の個別トラックを互いに分離することと、２つ以上の個別トラックのうちの少なくとも１つについて可能なリミックスに関する設定限度を判断するために２つ以上の個別トラックを分析することと、２つ以上の個別トラックのうちの少なくとも１つについて可能なリミックスに関して判断された設定限度に基づき２つ以上の個別トラックをユーザがリミックスできるようにすることとをさせるように構成されている。

前述の側面および他の特徴が、添付図面に関連して理解される以下の記載の中で説明される。

音楽制作者による音楽の最終的なミックスを最終ユーザが変更する能力に関する限度を設定する方法の例示的な一実施形態のフロー図である。音楽制作者による音楽の最終的なミックスを最終ユーザが変更する能力に関する限度を設定する方法の例示的な別の実施形態のフロー図である。音楽制作者による音楽の最終的なミックスを最終ユーザが変更する能力に関する限度を自動的に設定する方法の例示的な別の実施形態のフロー図である。音楽ファイルを受信するユーザインターフェースのブロック図である。スライダベースのコントロールをそのディスプレイに有するユーザインターフェースの概略図である。バンドのアーティストの操作可能なイメージの表示を示すユーザインターフェースの概略図である。操作可能なイメージのうちの１つが拡大されているのを示す、図６のユーザインターフェースの概略図である。操作可能なイメージのうちの１つに関連する視覚的オブジェクトを示す、図６のユーザインターフェースの概略図である。データベースと通信しているユーザインターフェースのブロック図である。

実施形態の詳細説明

楽器トラックおよび音声トラックのミックスを、定義済みの限度の中で最終ユーザが変更できるようにする方法の例示的な実施形態が、図面を参照しながら本願明細書で開示される。本願明細書では、かかる方法を実行する装置の例示的な実施形態も開示される。一部の技術（例えばＣＤ、ＭＰ３、および同様のもの）では、最終ユーザはトラックのミックスを変更できないが、より最近の技術ではこれができる。そのような変更は、ＤＯＬＢＹＡＴＭＯＳ、ブラインド信号分離（ＢＳＳ）、およびＭＰＥＧ空間オーディオオブジェクト符号化（ＳＡＯＣ）などの技術フォーマットを使用することによるかもしれない。例えば、ＤＯＬＢＹＡＴＭＯＳでは、楽器トラックおよび音声トラックの完全に自由な編集ができる。一方、ＢＳＳでは、音源信号またはそれに対して使用されるミキシングプロセスについてユーザが利用できる情報が少ししか、またはまったくないことが理由で、提供される自由編集の能力がわずかに低い。さらに、ＢＳＳを使用した編集では、分離によるアーチファクトが生じた成果物がもたらされることもある。同様に、ＭＰＥＧＳＡＯＣを使用する際には自由編集ができるが、オブジェクト分離における、音源トラックに対して極端すぎる変更が原因で、オーディオ品質が損なわれるかもしれない。

いずれの編集技術においても、記録された音楽は、録音を自動識別する任意の適切な方法を使用して認識され得る。一部の音楽ファイルは、任意の適切なアルゴリズム（例えばＤＵＥＴＢＳＳアルゴリズム）を使用して楽器トラックおよび音声トラックへと分離され得る。さらに、各トラックの楽器が、任意の適切な自動音楽楽器認識アルゴリズムによって認識されてもよい。さらに、楽曲中の主要な楽器を、主要タグについて音楽を分析することにより認識できる。

オーディオトラックを分離するために前述の技術のいずれかを使用する際、最終ユーザには、音楽またはその他オーディオを自分の好みに合わせて過度に改変する傾向があるかもしれない。例えば、ギターを弾く人は、音符またはコードを知るために楽曲の中のギタートラックをよりよく聴きたいかもしれず、ボーカルは、歌詞を理解したいかもしれず、映画を観ている人は、爆発音をより大きな音で聴いたりもしくは登場人物が言っていることが聞こえるように背景雑音を除去したりしたいかもしれず、または或る人は、総音量を最小限に抑えようとして音楽、ラフトラック、もしくはその他背景音を聞かずに単に音声トラックだけを聴きたがるかもしれない。

しかしながら、１つ以上の理由で、オーディオまたは音楽の制作者は一般的には、最終ユーザに完全な制御をさせたがならない。具体的には、著作権に関係する理由で、アーティストおよび制作者は、最終ユーザが楽器を別々のトラックに完全に取り出す能力を制限したがる。なぜなら、そのような分離されたトラックは無許可のプロジェクトに使用されるおそれがあるからである。楽曲に対する極端な変更は、楽曲の響きを悪くする可能性もあり、その楽曲のそうしたバージョンが広く（例えばインターネット上で）広まると、もとのアーティストが否定的な評価を受けたり、且つ／または悪評が立ったりするかもしれない。さらに、コメディ番組からラフトラックを除去すると、多くの場合、笑いを誘う何らかの効果がなくなったり弱まったりするということは、よく知られている。

したがって、一般的に、アーティストおよび制作者はいずれも、最終ユーザにより自らの作業成果物が過度に改変されることを嫌う。制作されるオーディオが過度に改変される問題に対処するために、音楽アーティストおよび音楽制作者は、最終ユーザがオーディオファイルをリミックスできる範囲（例えば結合、パン、反響音の追加、オートチューニング能力の追加、レベル（例えば他のレベルに対して相対的な増幅のレベル）の変更、および同様のもの）に関する限度を（自動または手動のいずれかで）設定することにより、最終ユーザの楽曲（または他の作業成果物）改変の能力を抑制したがるかもしれない。そのような限度には、オーディオ音源の位置（例えば音の伝搬の方向）に基づいてオーディオ音源を分離すること、および分離されたオーディオ音源の再生が含まれ得る。他の限度が、オーディオに関連するメタデータに基づく再生オプションの操作により課され得る。本願明細書で開示される例示的な実施形態は、楽器トラックの分離（音の伝搬の方向に基づく分離とは異なる）に関する限度を課すこと、ならびに再生における分離品質に限度を設けることを対象とする。

本願明細書で開示される例示的な実施形態は、楽器トラックの分離後の、最終ユーザによる楽曲のオーディオミックスの操作（ユーザインターフェース（ＵＩ：ｕｓｅｒｉｎｔｅｒｆａｃｅ）を使用する）に、音楽制作者が限度を設けるための方法およびツールを対象とする。操作は、自動の限度、または音楽制作者が設定できる限度のいずれかを有してもよい。本願明細書に記載された例示的な実施形態は、限度を決定するときに、分離システムの品質を考慮に入れる。別の選択肢として、音楽制作者は、分離された楽器トラックの品質を考慮に入れることができる。さらに、最終ユーザは限度を超過してその結果を聴くことができてもよいが、限度を超過したリミックスを保存または公表（ライセンスが与えられる場合）することは禁じられてもよい。さらに、本願明細書で開示される例示的な実施形態は、経験の浅い最終ユーザがＢＳＳを活用して自分の記録コンテンツをリミックスできるようにしつつ過剰なリミックスが原因で記録コンテンツの品質を損なうリスクを制限するために使用されてもよい。

図１を参照する。最終的なミックスを変更する能力に関する限度を設定する方法の例示的な一実施形態が、概して参照番号１００により示されており、以降「方法１００」と呼ばれる。方法１００は、従来のオーディオファイル、例えば制作者による最終的なミックスのみを扱うことができる。方法１００において、制作者は、最終ユーザが制作者の最終的なミックスを変更してよい限度を手動で設定する。

方法１００は、音楽制作ステップ１１０、第１の分離ステップ１２０、および限度設定ステップ１３０により開始される。音楽制作ステップ１１０において、音楽制作者は、楽器およびボーカルの個別トラックを使用して（例えばトラックごとに１つの楽器、トラックごとに１つにボーカルなど）、楽曲の好ましいミックスを作成する。次に音楽制作者は、好ましいミックスを特定フォーマット（例えばモノラル、ステレオ、５．１、または同様のもの）で出力および／または保存してもよい。限度は、実際の楽曲オーディオとともにメタデータとして格納される。一部の実施形態において、楽曲オーディオはＭＰＥＧＳＡＯＣフォーマットで格納され、メタデータはＳＡＯＣフォーマットの自由メタデータフィールドに追加される。他の一部の実施形態において、楽曲オーディオはＭＰＥＧＳＡＯＣフォーマットで格納され、メタデータはＭＰ４コンテナに追加される。他の一部の実施形態において、楽曲オーディオは、ＡＡＣ（ａｄｖａｎｃｅｄａｕｄｉｏｃｏｄｉｎｇ：アドバンスドオーディオコーディング）として格納され、メタデータはＡＡＣフォーマットの自由メタデータフィールドに追加される。ＭＰＥＧＳＡＯＣでは、トラックはフォーマットの中に格納され、格納されたトラックを改変するのは容易である。

第１の分離ステップ１２０に示されるように、ＡＡＣでは、好ましいミックスのトラックが、改変前に個別トラックへと分離される必要があるかもしれない。オーディオオブジェクト分離システムは、音楽制作側およびユーザ側の両方で使用される。音楽制作者が決定するメタデータをユーザ側でも適用できるように、分離システムは同じである必要があるかもしれない。一部のフォーマットでは、好ましいミックスが、ＢＳＳを使用して楽器トラックに分離されてもよい。ただし、ＳＡＯＣが使用される場合、分離は組み込まれている。しかしながら、いずれの場合でも、トラックは個別のものと見なされるとはいえ、それらの分離は、制作における制限が原因で完璧ではないかもしれない（例えば特にＡＡＣおよびＳＡＯＣに関して）。

限度設定ステップ１３０において、音楽制作者は、分離されたトラックを異なるリミックスで聴いて、ユーザリミックスの許容限度を決定する。このようにして、音楽制作者は、使用される分離品質に対して、決定された限度が適切であることを確実にする。当然、制作者は、分離品質以外の側面も限度を決定するときに考慮することができる。かかる側面には、芸術的な観点および同様のものが含まれてもよい。制作者は、例えば「ボーカルトラックの減衰は不可」（したがって限度はゼロであってもよく、すなわちトラックの変更は一切許されない）、「背景の歌唱トラックは常にリードボーカルトラックより少なくとも３ｄＢ小さくなければならない」、および同様のものなどの限度も設定してもよい。一部の例示的な実施形態において、限度はコンピュータプログラムを使用して決定されてもよい。

音楽制作ステップ１１０、第１の分離ステップ１２０、および／または限度設定ステップ１３０の後、分離され／限度を設けられたオーディオおよびメタデータが出力ファイル１４０として出力される。例示的な様々な実施形態において、出力ファイル１４０は、音楽制作者による最終ユーザのためのオーディオファイルの完成した制作物であってもよく、楽器トラックおよび／またはボーカルトラックを備えてもよい。

必要であれば、出力ファイル１４０は暗号化されて、承認されたバージョンのプレーヤプログラムのみがそれを復号できるようにされてもよい。このようにして、最終ユーザが他のプレーヤプログラムを使用して過度に楽曲をリミックスできないようにすることができる。言い換えれば、デジタル著作権管理（ＤＲＭ：ｄｉｇｉｔａｌｒｉｇｈｔｓｍａｎａｇｅｍｅｎｔ）スキームが、コンテンツの保存、コピー、または共有を許可する前に、（編集またはリミックスの許容限度により定義される）変更の度合いを推定し得る。次に出力ファイル１４０は、送信ステップ１５０において格納、ストリーミング、および／またはプレーヤプログラムに送信される。

プレーヤプログラムが送信ステップ１５０から出力ファイル１４０を受信すると、プレーヤプログラムはメタデータの存在を確認して、それに応じて最終ユーザが楽曲をリミックスできるようにする。第２の分離ステップ１６０に示されるように、好ましいミックスのオーディオファイルが、ＢＳＳを使用して楽器トラックおよび／または音声トラックへと分離されてもよい。他方、第２の分離ステップ１６０における分離がＳＡＯＣによる場合、分離は組み込まれている。第２の分離ステップ１６０においてＤＯＬＢＹＡＴＭＯＳが使用される実施形態では、ＤＯＬＢＹＡＴＭＯＳは一般に、送信ステップ１５０中にトラックの分離を維持するので、少なくとも一部のトラックはすでに他のトラックから独立しているかもしれない。リミックスステップ１７０に示されるとおり、メタデータが受信され、最終ユーザがどの程度トラックをリミックスしてよいかについて限度を確認するためにメタデータの分析が行われ、最終ユーザはオーディオを聴き、許容される範囲で、ＵＩを使用してオーディオをリミックスできる。これを行う際、最終ユーザは、限度設定ステップ１３０において制作者によりメタデータ内に設定された限度を超過することはできない。

ただし、一部の実施形態において最終ユーザは、設定限度を限度超過ステップ１８０において超過することを許可されてもよい。限度超過ステップ１８０において、最終ユーザは設定限度を一時的に超過できるが、結果を格納することはできない。他の一部の実施形態において、最終ユーザは、最終ユーザが絶えずコントロールを操作している（例えばコントロールボタン上に指を保持している）ときにだけ、設定限度を超過できてもよい。

図２を参照する。最終的なミックスを変更する能力に関する限度を設定する方法の例示的な別の実施形態が、概して参照番号２００により示されており、以降「方法２００」と呼ばれる。方法２００では、制作者による最終的な好ましいミックスに加えて、原トラックが供給される。方法２００のシステムでは、原トラック情報を用いて、限度が自動的に設定される。

方法２００は、音楽制作ステップ２１０、第１の分離ステップ２２０、品質推定ステップ２２５、および限度設定ステップ２３０により開始される。音楽制作ステップ２１０では、音楽制作からの原楽器トラックを利用できる。音楽制作者は、楽曲の好ましいミックスを作成して、特定フォーマット（例えばモノラル、ステレオ、５．１、または同様のもの）で出力および／または保存する。

第１の分離ステップ２２０に示されるように、好ましいミックスが楽器トラックへと分離される。分離は完璧ではないかもしれないので、分離された楽器トラックは、原楽器トラックとわずかに異なる場合もある。分離は、従来の音楽ファイルにはＢＳＳを、ＳＡＯＣファイルにはＳＡＯＣを使用して行うことができる。

品質推定ステップ２２５では、種々の基準を使用して分離の品質が推定される。一部の実施形態では、ファイルフォーマットのみが品質評価において考慮される。ＳＡＯＣファイルは高品質を有すると見なされるのに対して、ＢＳＳファイルはより低い品質を有すると見なされる。ファイルの様々なメトリクスも計算されてもよい。例えばシステムは、原楽器トラックと、分離されたトラックとの間の相互相関を計算してもよい。一般に、より高い相関関係は、より高い品質に対応する。

限度設定ステップ２３０では、最終ユーザがどのようにファイルをリミックスできるかについて限度が設定されてもよい。典型的には、ファイルの品質が高いほど大きく編集でき、ファイルの品質が低いほどできる編集は小さい。限度はメタデータ内に書き込まれてもよい。

分離品質に関係する限度に加えて、他の限度があってもよい。プレーヤプログラムは、楽曲のトラックの種々の特性を分析してもよい。分析は、自動楽器認識アルゴリズムを使用して楽器を認識すること、楽曲の主要な楽器を認識すること、楽曲のテンポを認識すること、インパルス、ゼロクロス率、スペクトル傾斜、全体的なスペクトル、過渡性または正弦性など、楽曲の周波数領域特性または時間領域特性を認識すること、および同様のことを含んでもよい。分析は、楽曲全体に対して、または楽曲の一部のみに対して実行することができる。最終ユーザは、ＵＩを使用して楽曲をリミックスしてもよい。プレーヤプログラムソフトウェアは、分析に基づいて最終ユーザのリミックスの限度を設定する。限度は、例えば、「主要楽器の減衰は不可」、「ボーカルトラックの減衰は不可」、「テンポ＞１８０ｂｐｍの楽曲の速度を上げることは不可」、および同様のものであってもよい。さらに、音楽分析と組み合わせて限度を使用することができる（例えば「主要楽器を２ｄＢを超えて減衰させることは不可」、「ボーカルトラックの減衰は不可」、および同様のもの）。これらの限度もメタデータ内に書き込まれてもよい。

次に、分離された／推定された／限度を設けられたオーディオおよびメタデータは、楽器トラックとして、出力ファイル２４０として出力される。次に出力ファイル２４０は、送信ステップ２５０において格納、ストリーミング、および／または最終ユーザに送信される。

プレーヤプログラムが出力ファイル２４０を送信ステップ２５０から受信するとき、プレーヤプログラムは、編集の限度を記述するメタデータを備えた音楽楽曲ファイルを受信する。第２の分離ステップ２６０において、プレーヤプログラムは、楽曲をオーディオオブジェクトトラックへと分離する。第２の分離ステップ２６０において、オーディオファイルはＢＳＳまたはＳＡＯＣ（分離は組み込まれている）を使用して分離されてもよい。

リミックスステップ２７０に示されるように、最終ユーザは、ＵＩを使用して楽曲をリミックスしてもよい。最終ユーザは、メタデータ内に設定された限度をリミックスが超過するように楽曲をリミックスすることはできない。限度は例えば、「楽器の音をより大きくまたは小さく設定してもよいが、メタデータの記述を超えてはならない」であってもよい。各トラックに対して、メタデータは、例えばデシベルで限度を含んでもよい。そのような限度は、例えば、分離品質が低ければ「トラック３のレベルはユーザによって−３ｄＢから＋３ｄＢまで改変可能」、分離品質が高ければ「トラック３のレベルはユーザによって−１２ｄＢから＋１２ｄＢまで改変可能」とされてもよい。

方法２００の一部の実施形態では（方法１００と同様に）、最終ユーザは設定限度を、限度超過ステップ２８０において超過してもよい。限度超過ステップ２８０において、最終ユーザは設定限度を一時的に超過できるが、結果を格納することはできない。他の一部の実施形態において、最終ユーザは、最終ユーザが絶えずコントロールを操作している（例えばコントロールボタン上に指を保持している）ときにだけ、設定限度を超過できてもよい。

図３を参照する。原楽器トラックに関する情報なしに限度を自動的に設定する方法の、例示的な別の実施形態が、概して参照番号３００により示されており、以降「方法３００」と呼ばれる。方法３００は、従来のオーディオファイル、例えば制作者による最終的なミックスのみで動作する。

方法３００は、音楽制作からの原楽器トラックを１つ以上利用できる音楽制作ステップ３１０を備える。音楽制作者は、楽曲の好ましいミックスを作成して、特定フォーマット（例えばモノラル、ステレオ、５．１、または同様のもの）で出力および／または保存する。音楽制作ステップ３１０の後、好ましいミックスが楽器トラックの出力ファイル３４０として出力され、送信ステップ３５０において格納、ストリーミング、および／または最終ユーザに送信される。

分離ステップ３６０において、プレーヤプログラムは、メタデータのない音楽楽曲ファイルを受信する。プレーヤプログラムは、好ましいミックスを楽器トラックへと分離する。分離は、従来の音楽ファイルにはＢＳＳを、ＳＡＯＣファイルにはＳＡＯＣを使用して行うことができる。

次に、分離の品質が、最終ユーザ品質推定ステップ３６５において推定されてもよい。最終ユーザ品質推定ステップ３６５は、種々の基準を用いてもよい。一部の実施形態では、ファイルフォーマットのみが品質評価において考慮される。ＳＡＯＣファイルは高品質を有すると見なされるのに対して、ＢＳＳファイルはより低い品質を有すると見なされる。ファイルの様々なメトリクスも計算されてもよい。例えばシステムは、分離されたトラック間の相互相関を計算してもよい。トラックの相関関係が低ければ、分離は高い成功率を有すると見なされてもよい。一方、トラックの相関関係が高ければ、分離はより低い成功率を有すると見なされてもよい。

限度設定ステップ３６７に示されるように、最終ユーザがどのようにファイルをリミックスしてよいかに関して限度が設定される。そのようなステップにおいて、ファイルの品質が高いほど大きく編集でき、ファイルの品質が低いほどできる編集は小さい。そのような限度は、例えば、分離品質が低ければ「トラック３のレベルはユーザによって−３ｄＢから＋３ｄＢまで改変可能」、分離品質が高ければ「トラック３のレベルはユーザによって−１２ｄＢから＋１２ｄＢまで改変可能」とされてもよい。

分離品質に関係する限度に加えて、他の限度があってもよい。例えばプレーヤプログラムは、楽曲のトラックの種々の特性を分析してもよい。分析は、自動楽器認識アルゴリズムを使用して楽器を認識すること、楽曲の主要な楽器を認識すること、楽曲のテンポを認識すること、インパルス、ゼロクロス率、スペクトル傾斜、全体的なスペクトル、過渡性または正弦性など、楽曲の周波数領域特性または時間領域特性を認識すること、および同様のことを含んでもよい。分析は、楽曲全体に対して、または楽曲の一部のみに対して実行することができる。ユーザは、ＵＩを使用して楽曲をリミックスしてもよい。プレーヤプログラムソフトウェアは、分析に基づいてユーザのリミックスの限度を設定する。限度は、例えば、「主要楽器の減衰は不可」、「ボーカルトラックの減衰は不可」、「テンポ＞１８０ｂｐｍの楽曲の速度を上げることは不可」、および同様のものであってもよい。さらに、音楽分析と組み合わせて限度を使用することができる（例えば「主要楽器を２ｄＢを超えて減衰させることは不可」、「ボーカルトラックの減衰は不可」、および同様のもの）。

リミックスステップ３７０に示されるように、最終ユーザは、ＵＩを使用して楽曲をリミックスしてもよい。最終ユーザは、設定限度をリミックスが超過するように楽曲をリミックスすることはできない。

限度超過ステップ３８０において、最終ユーザは、設定限度を超過してもよい。限度超過ステップ３８０において、最終ユーザは設定限度を一時的に超過できるが、結果を格納することはできない。他の一部の実施形態において、最終ユーザは、最終ユーザが絶えずコントロールを操作している（例えばコントロールボタン上に指を保持している）ときにだけ、設定限度を超過できてもよい。

図４を参照する。前述した例示的な実施形態のいずれかからの楽器トラックが、最終ユーザによる使用のために装置または電子デバイスへと受信されてもよい。装置または電子デバイスは、参照番号４００により示されるユーザインターフェース（ＵＩ）であってもよく、以降「ＵＩ４００」と呼ばれる。ＵＩ４００は、コントローラ４１０およびディスプレイ４２０を備える。コントローラ４１０は、プロセッサ４３０およびメモリ４４０を含んでもよく、ソフトウェア４５０がメモリ４４０内に位置する。楽器トラックは、音楽ファイル４６０であってもよい。

図５を参照する。ＵＩ４００は、ディスプレイ４２０上の、単純なスライダベースのコントロールを備えてもよく、各スライダ５００が楽曲中のトラックを表す。最終ユーザは、各トラックを、それに対応するスライダ５００を操作することにより変更してもよい。

図６を参照する。ＵＩ４００は、バンドのアーティストのイメージ６００、６１０、６２０を表示して、最終ユーザがイメージ６００、６１０、６２０を操作して同時にアーティストのオーディオミックスを操作できるようにするグラフィカルユーザインターフェース（ＧＵＩ：ｇｒａｐｈｉｃａｌｕｓｅｒｉｎｔｅｒｆａｃｅ）であってもよい。ＧＵＩは、スライダを含むＵＩと比較してＵＩ４００の使用をより直感的にするかもしれない。イメージ６００、６１０、６２０は、例えばアルバムカバーアートであってもよい。各イメージ６００、６１０、６２０は、イメージに関連する楽器が編集可能であるか不可能であるかを示すために、異なる色または視覚エフェクトを有してもよい。

特に、ＵＩ４００がグラフィカルである実施形態では、音楽ファイル４６０は、視覚的ファイルの視覚的オブジェクトが楽器および／または音声に、つまり音楽ファイル４６０内の音楽オブジェクトにマッピングされた、視覚的ファイルを含んでもよい。その結果、最終ユーザは、視覚的オブジェクトを操作するとともに、同時に自動で音楽オブジェクトを操作できる。音楽オブジェクトの操作には、バンドメンバーの視覚的オブジェクトをそのトラック音量を上げるために選択すること、および同様のことが含まれるが、これに限定はされない。図７に示されるように、視覚的オブジェクトとしてのバンドメンバーのイメージ６００が、そのトラック音量を上げるためにピンチでより大きくされてもよい。操作は、バンドメンバーの視覚的オブジェクトを移動してそのトラックの聴空間的な位置を移動すること、例えばバンドメンバーの関連トラックを左スピーカから右スピーカに移動すること、およびその逆に移動することも含んでもよい。図８に示されるように、オートチューン８００、ベース／トレブル８１０、スピーカ間のバランス８２０、リバーブ、イコライゼーションなどのようなオーディオエフェクトが視覚的オブジェクトとして出現してもよい。その場合、最終ユーザは、視覚的オブジェクトを操作することによってこれらのエフェクトの量を制御してもよい。各トラックは、それ自体のエフェクトを有してもよい。

図９を参照する。ＵＩ４００は、音楽ファイル内の楽曲を認識する任意の適切な方法を使用してもよい。例えばＵＩ４００は、オンライン（または他の）データベース９００にアクセスしてもよく、ＵＩ４００はデータベース９００を使用して音楽ファイルに記録されているアーティストを検索してもよい。ＵＩ４００はさらに、アーティストおよび／またはその楽器のオンラインイメージを検索してもよい。ＵＩ４００はさらに、（例えばＤＵＥＴＢＳＳアルゴリズムを使用して）音楽ファイルを楽器トラック／音声トラックに分割してもよく、（例えば任意の適切な自動音楽楽器認識アルゴリズムを使用して）各トラック中の楽器の認識もしてもよい。ＵＩ４００は、アーティストの楽器の知識に基づいて、各トラックをアーティストにマッピングしてもよい。アーティストまたはその楽器のイメージが表示されてもよく、最終ユーザはそれらに基づいて個々のトラックを操作してもよい。さらに、同じ楽器を用いる奏者が複数いる場合、ＵＩ４００は、アーティストのイメージの代わりに、それらのトラックをまとめて、楽器のイメージ、または複数のアーティストのグループもしくは合成イメージを示してもよい。

ＵＩ４００の他の側面は、奏者が変化するときまたは音を出していないときに、楽曲の種々の部分で、ディスプレイ４２０上に異なる画像を表示することを含んでもよい。さらに、楽曲に関連するレコードレーベルが、バンドメンバーの視覚的オブジェクトがミックスに合致する、関連画像を備えたいくつかの例示のミックスを提供してもよい。そのようなシステムは、ユーザ設定、または最終ユーザの以前の傾向のいずれかに基づいて、最終ユーザの好むミックスを自動的に選択してもよい。例えば、最終ユーザがいつもベース奏者をより大きな音でミックスする場合、すべての奏者の中でベース奏者の音が最も大きいミックスが選択されてもよい。システムが、ベース奏者の視覚的オブジェクトがほかよりも大きいイメージを最終ユーザに示すので、ミックスの視覚的確認を最終ユーザに与えることができる。

ＵＩ４００上での最終ユーザによるリミックスは、チャンネルベースともされてもよく、その結果、最終ユーザはマルチチャンネルオーディオの種々のチャンネルで別様に楽器を増幅／減衰させる。このようにして、最終ユーザは楽器の知覚される空間的位置を制御してもよい。例えば、空間的位置に関連するファイルで品質のより高いファイルは、品質のより低いファイルよりも大きく変更できるなど、増幅の変化量も、メタデータ内にまたは自動分析により限度を設けられてもよい。

ＵＩ４００の任意の実施形態において、最終ユーザは、音楽制作者により設定された限度を超過してもよい。ＵＩ４００では、これを例えばタッチディスプレイデバイス上で見えるようにし、限度を超過した後はコントロールの移動が遅くなり、コントロールを移動するためには最終ユーザが何度もスワイプしなければならないようにされてもよい。コントロールは、図５に示されるようにスライダであってもよく、またはアイコンであってもよい。最終ユーザは、限度を超過するリミックスで楽曲を聴いてもよいが、リミックス後のバージョンの保存および／または送信は、ＵＩ４００により拒否されてもよい。

最終ユーザが制作者により設定された限度を超過してもよいＵＩ４００の実施形態において、限度の超過は、例えばタッチディスプレイデバイス上で見えるようにすることによりディスプレイ４２０上で示されて、ユーザがスライダの上に指をかざしてスライダの最大値より上に保持した場合に限りリミックスが限度を超過するようにされてもよい。ユーザが指を離すと、スライダは最大値に戻る。

本願明細書に記載された例示的な実施形態を音楽ファイルに対して使用するのに加えて、本願明細書に記載された実施形態は、オーディオブロードキャスト、遠隔会議、映画のオーディオ、オーディオブック、および同様のものに適用できる。最終ユーザが自分の記録コンテンツをリミックスできるようにするのは有益な機能である（がＢＳＳを用いた従来のリミックスはかなりの専門的技術を必要とする場合もあり、それが最終結果を決して望ましいとはいえない響きにすることもあり、その結果、最終ユーザがその使用をやめる原因になるかもしれない）ので、本願明細書に記載された例示的な実施形態は、さらに、最終ユーザ自身の記録コンテンツとともに使用されてもよい。いずれにしても、本願明細書に記載される例示的な実施形態では、ユーザ自身のコンテンツの全体的な品質を損ねるリスクがそれほど大きくない状態で、経験の浅い最終ユーザによるＢＳＳの使用が可能である。

本願明細書に記載される実施形態に関して、リミックスの限度は各楽器に対して個別に設定されてもよく、アーティストは、オーディオオブジェクト分離およびメタデータを使用して、オーディオがＡＡＣまたはＭＰ３など後方互換性のあるオーディオフォーマットを使用して送信される場合でも楽器別の限度を設定でき、一部の実施形態において、リミックスの限度は自動的に設定されてもよく、一部の実施形態において、メタデータなしでも自動の楽器別限度が使用されてもよく、最終ユーザが個人用の音楽ミックスを作成するための直感的な方法が実現される。

以下、本願明細書で説明されるすべての図面を参照する。前述の例示的な実施形態のいずれも、ソフトウェア、ハードウェア、アプリケーション論理、またはソフトウェア、ハードウェア、およびアプリケーション論理の組み合わせにおいて実装され得る。オーディオをリミックスするために、ソフトウェア、アプリケーション論理、および／またはハードウェアがＵＩ４００に存在してもよい。必要であれば、ソフトウェア、アプリケーション論理、および／またはハードウェアの全部または一部が、他の任意の適切な位置に存在してもよい。例示の実施形態では、アプリケーション論理、ソフトウェア、または命令セットは、様々なコンピュータ可読媒体のうちの任意のものにおいて維持される。「コンピュータ可読媒体」は、コンピュータなどの命令実行システム、装置、またはデバイスによって、またはそれに関連して使用される命令を含むこと、格納すること、伝達すること、伝搬すること、または搬送することができる任意の媒体または手段であってもよい。コンピュータ可読媒体は、コンピュータなど、命令実行システム、装置、またはデバイスによって、またはそれに関連して使用される命令を含むこと、または格納することができる任意の媒体または手段とされてもよい、コンピュータ可読ストレージ媒体を備えてもよい。

例示的な一実施形態において、方法は、２つ以上の個別トラックを備えたオーディオファイルを準備することと、２つ以上の個別トラックを分離することと、２つ以上の個別トラックのうちの少なくとも１つが変更されてもよい量に関する限度を設定することと、分離されて限度を設けられた個別トラックを最終ユーザによる使用のためのファイルとして出力することとを含む。

本方法において、２つ以上の個別トラックそれぞれが変更されてもよい量に関する限度を設定することは、限度をメタデータとして格納することを含んでもよい。限度をメタデータとして格納することは、限度をメタデータ内に手動で設定することを含んでもよい。限度をメタデータ内に手動で設定することは、許容可能な音の上限および下限を手動で決定することを含んでもよい。限度をメタデータとして格納することは、オーディオファイル内の２つ以上の個別トラックの構成に基づいてメタデータ内に限度を自動的に設定することを含んでもよい。メタデータ内に限度を自動的に設定することは、オーディオファイルの２つ以上の個別トラックと分離後の２つ以上の個別トラックとの間の相関関係に基づいて音質を判断することを含んでもよい。本方法はさらに、出力されたファイルを暗号化することを含んでもよい。限度をメタデータとして格納することは、オーディオを空間オーディオオブジェクト符号化フォーマットで格納することを含んでもよい。限度をメタデータとして格納することは、オーディオを空間オーディオオブジェクト符号化フォーマットで格納して、ＭＰ４コンテナにメタデータを格納することを含んでもよい。

例示的な別の実施形態において、方法は、２つ以上の個別トラックを備えたオーディオファイルを受信することと、２つ以上の個別トラックのうちの少なくとも１つについて可能なリミックスに関する設定限度を判断するために２つ以上の個別トラックを分析することと、２つ以上の個別トラックのうちの少なくとも１つを編集することと、２つ以上の個別トラックのうちの少なくとも１つについて可能なリミックスに関して判断された設定限度に基づき２つ以上の個別トラックをリミックスすることとを含む。

本方法はさらに、分析前に、２つ以上の個別トラックを互いに分離することを含んでもよい。２つ以上の個別トラックを互いに分離することは、ブラインド信号分離フォーマットまたは空間オーディオオブジェクト符号化フォーマットに基づいてもよい。本方法はさらに、可能なリミックスに関して判断された設定限度を超過することを含んでもよい。受信されたオーディオファイルは、何らのメタデータも含まなくてもよい。２つ以上の個別トラックを分析することは、分離された２つ以上の個別トラック間の相関関係を計算することと、計算された相関関係に基づいて可能なリミックスの範囲に関する限度を設定することとを含んでもよい。

例示的な別の実施形態において、装置は、少なくとも１つのプロセッサと、コンピュータプログラムコードを含む少なくとも１つの非一時的メモリとを備え、コンピュータプログラムコードは、少なくとも１つのプロセッサとともに、装置に少なくとも、２つ以上の個別トラックを備えたオーディオファイルを受信することと、２つ以上の個別トラックを互いに分離することと、２つ以上の個別トラックのうちの少なくとも１つについて可能なリミックスに関する設定限度を判断するために２つ以上の個別トラックを分析することと、２つ以上の個別トラックのうちの少なくとも１つについて可能なリミックスに関して判断された設定限度に基づき２つ以上の個別トラックをユーザがリミックスできるようにすることとをさせるように構成される。

装置にはさらに、ブラインド信号分離フォーマットに基づいて２つ以上の個別トラックを互いに分離させてもよい。装置にはさらに、空間オーディオオブジェクト符号化フォーマットに基づいて２つ以上の個別トラックを互いに分離させてもよい。装置にはさらに、可能なリミックスに関して判断された設定限度をユーザが超過できるようにさせてもよい。２つ以上の個別トラックを分析することは、装置にさらに、分離された２つ以上の個別トラック間の相関関係を計算することと、計算された相関関係に基づいて可能なリミックスの範囲に関する限度を設定することと、をさせることを含んでもよい。

当然のことながら、前述の説明は例示でしかない。様々な選択肢および変更が当業者により考案され得る。例えば、様々な従属クレームに列挙される特徴は、任意の適切な組み合わせ（単数または複数）で相互に組み合わせ可能であろう。さらに、上述された種々の実施形態からの特徴を、新たな実施形態に選択的に組み合わせることができるであろう。よって、本記載は、添付の特許請求の範囲に記載の範囲内に入るそのような選択肢、変更、および変形物をすべて包含するものとする。

いくつかの例示的な実施形態が以下に列挙される。
［１］２つ以上の個別トラックを備えたオーディオファイルを準備することと、
２つ以上の個別トラックを分離することと、
２つ以上の個別トラックのうちの少なくとも１つが変更される量に関する限度を設定することと、
分離されて限度を設けられた個別トラックを最終ユーザによる使用のためのファイルとして出力することと、
を含む方法。

［２］２つ以上の個別トラックそれぞれが変更される量に関する限度を設定することは、限度をメタデータとして格納することを含む、［１］の方法。

［３］限度をメタデータとして格納することは、メタデータ内に限度を手動で設定することを含む、［２］の方法。

［４］限度をメタデータ内に手動で設定することは、許容可能な音の上限および下限を手動で決定することを含む、［３］の方法。

［５］限度をメタデータとして格納することは、オーディオファイル内の２つ以上の個別トラックの構成に基づいてメタデータ内に限度を自動的に設定することを含む、［２］の方法。

［６］メタデータ内に限度を自動的に設定することは、オーディオファイルの２つ以上の個別トラックと分離後の２つ以上の個別トラックとの間の相関関係に基づいて音質を判断することを含む、［５］の方法。

［７］出力されたファイルを暗号化することをさらに含む、［１］〜［６］のいずれかの方法。

［８］限度をメタデータとして格納することは、オーディオを空間オーディオオブジェクト符号化フォーマットで格納することを含む、［２］〜［７］のいずれかの方法。

［９］限度をメタデータとして格納することは、オーディオを空間オーディオオブジェクト符号化フォーマットで格納することと、メタデータをＭＰ４コンテナに格納することとを含む、［８］の方法。

［１０］２つ以上の個別トラックを備えたオーディオファイルを受信することと、
２つ以上の個別トラックのうちの少なくとも１つについて可能なリミックスに関する設定限度を判断するために２つ以上の個別トラックを分析することと、
２つ以上の個別トラックのうちの少なくとも１つを編集することと、
２つ以上の個別トラックのうちの少なくとも１つについて可能なリミックスに関して判断された設定限度に基づいて、２つ以上の個別トラックをリミックスすることと、
を含む方法。

［１１］分析前に、２つ以上の個別トラックを互いに分離することをさらに含む、［１０］の方法。

［１２］２つ以上の個別トラックを互いに分離することは、ブラインド信号分離フォーマットまたは空間オーディオオブジェクト符号化フォーマットに基づく、［１１］の方法。

［１３］可能なリミックスに関して判断された設定限度を超過することをさらに含む、［１０］〜［１２］のいずれかの方法。

［１４］受信されたオーディオファイルは、何らのメタデータも含まない、［１０］〜［１３］のいずれかの方法。

［１５］２つ以上の個別トラックを分析することは、分離された２つ以上の個別トラック間の相関関係を計算することを含み、判断された設定限度は、計算された相関関係に基づいて可能なリミックスの範囲に基づく、［１０］〜［１４］のいずれかの方法。

［１６］少なくとも１つのプロセッサと、
コンピュータプログラムコードを含む少なくとも１つの非一時的メモリと、
を備えた装置であって、コンピュータプログラムコードは、少なくとも１つのプロセッサとともに、装置に少なくとも
２つ以上の個別トラックを備えたオーディオファイルを受信することと、
２つ以上の個別トラックを互いに分離することと、
２つ以上の個別トラックのうちの少なくとも１つについて可能なリミックスに関する設定限度を判断するために２つ以上の個別トラックを分析することと、
２つ以上の個別トラックのうちの少なくとも１つについて可能なリミックスに関して判断された設定限度に基づいて、２つ以上の個別トラックをユーザがリミックスできるようにすることと、
をさせるように構成されている、装置。

［１７］装置にはさらに、ブラインド信号分離フォーマットに基づいて２つ以上の個別トラックを互いに分離させる、［１６］の装置。

［１８］装置にはさらに、空間オーディオオブジェクト符号化フォーマットに基づいて２つ以上の個別トラックを互いに分離させる、［１６］の装置。

［１９］装置にはさらに、可能なリミックスに関して判断された設定限度をユーザが超過できるようにさせる、［１６］〜［１８］のいずれかの装置。

［２０］２つ以上の個別トラックを分析することは、装置にさらに、分離された２つ以上の個別トラック間の相関関係を計算させることを含み、判断された設定限度は、計算された相関関係に基づいて可能なリミックスの範囲に関する、［１６］〜［１９］のいずれかの装置。

Claims

２つ以上の個別トラックを備えたオーディオファイルを準備することと、
前記２つ以上の個別トラックを分離することと、
視覚的オブジェクトを使用してエフェクトの量を変更する能力に関する限度を、前記２つ以上の個別トラックのうちの少なくとも１つに基づいて設定すること、ただし、前記視覚的オブジェクトは、操作されるようにディスプレイ上に提示されるように構成される、前記設定することと、
前記分離され、前記エフェクトの前記量の変更について限度を設けられた個別トラックを出力することと、
を含む方法。
前記エフェクトの前記量を変更する前記能力に関する前記限度を、前記２つ以上の個別トラックのうちの少なくとも１つに基づいて設定することは、限度をメタデータとして格納することを含む、請求項１に記載の方法。
前記限度をメタデータとして格納することは、前記メタデータ内に前記限度を手動で設定することを含む、請求項２に記載の方法。
前記メタデータ内に前記限度を手動で設定することは、前記２つ以上の個別トラックのうちの少なくとも１つの許容可能な音の上限および下限を手動で決定することを含む、請求項３に記載の方法。
前記限度をメタデータとして格納することは、前記オーディオファイルの前記２つ以上の個別トラックの構成に基づいて前記メタデータ内に前記限度を自動的に設定することを含む、請求項２に記載の方法。
前記メタデータ内に前記限度を自動的に設定することは、分離前の前記オーディオファイルの前記２つ以上の個別トラックと分離後の前記２つ以上の個別トラックとの間の相関関係に基づいてオーディオ品質を判断することを含む、請求項５に記載の方法。
前記分離されて限度を設けられた個別トラックをファイルとして出力することと、
前記出力されたファイルを暗号化することと、
のうちの少なくとも１つをさらに含む、請求項１に記載の方法。
前記限度をメタデータとして格納することは、オーディオを空間オーディオオブジェクト符号化フォーマットで格納することを含む、請求項２に記載の方法。
前記限度をメタデータとして格納することは、オーディオを空間オーディオオブジェクト符号化フォーマットで格納することと、前記メタデータをＭＰ４コンテナに格納することとを含む、請求項２に記載の方法。
２つ以上の個別トラックを備えたオーディオファイルを受信することと、
ディスプレイ上のイメージの操作に基づき視覚的オブジェクトを使用してエフェクトの量を変更する能力に関して、前記２つ以上の個別トラックのうちの少なくとも１つに基づいて設定限度を判断するために、前記２つ以上の個別トラックを分析することと、
前記２つ以上の個別トラックのうちの少なくとも１つを編集することと、
前記２つ以上の個別トラックのうちの前記少なくとも１つに対する前記エフェクトの前記量の変更について前記判断された設定限度に基づいて、前記２つ以上の個別トラックをリミックスすることと、
を含む方法。
分析前に、前記２つ以上の個別トラックを互いに分離することをさらに含む、請求項１０に記載の方法。
前記２つ以上の個別トラックを互いに分離することは、ブラインド信号分離フォーマットまたは空間オーディオオブジェクト符号化フォーマットに基づく、請求項１１に記載の方法。
前記エフェクトの前記量の変更について前記判断された設定限度を超過することをさらに含む、請求項１０に記載の方法。
前記受信されたオーディオファイルは、何らのメタデータも含まない、請求項１０に記載の方法。
前記２つ以上の個別トラックを分析することは、前記分離された２つ以上の個別トラック間の相関関係を計算することと、前記計算された相関関係に基づいてリミックスの範囲に関する限度を設定することとを含む、請求項１０に記載の方法。
２つ以上の個別トラックを備えたオーディオファイルを受信することと、
前記２つ以上の個別トラックを互いに分離することと、
ディスプレイ上のイメージとして制御可能な視覚的オブジェクトを使用してエフェクトの量を変更する能力に関して、前記２つ以上の個別トラックのうちの少なくとも１つに基づいて設定限度を判断するために、前記２つ以上の個別トラックを分析することと、
前記２つ以上の個別トラックのうちの前記少なくとも１つに対する前記エフェクトの前記量の変更について前記判断された設定限度に基づいて、前記２つ以上の個別トラックのリミックスをできるようにすることと、
を含む方法。
ブラインド信号分離フォーマットに基づいて前記２つ以上の個別トラックを互いに分離することを更に含む、請求項１６に記載の方法。
空間オーディオオブジェクト符号化フォーマットに基づいて前記２つ以上の個別トラックを互いに分離することを更に含む、請求項１６に記載の方法。
前記判断された設定限度を前記リミックスが超過できるようすることを更に含む、請求項１６に記載の方法。
前記２つ以上の個別トラックを分析することは、前記装置にさらに、前記分離された２つ以上の個別トラック間の相関関係を計算することと、前記計算された相関関係に基づいてリミックスの範囲に関する限度を設定することと、をさせることを含む、請求項１６に記載の方法。
処理手段及び記憶手段を備える装置であって、前記記憶手段はプログラム命令を格納し、前記プログラム命令は、前記処理手段に実行されると、前記装置に、請求項１から２０のいずれかに記載の方法を遂行させるように構成される、装置。
装置の処理手段に実行されると、前記装置に、請求項１から２０のいずれかに記載の方法を遂行させるように構成されるプログラム命令を備える、コンピュータプログラム。