JP2023516135A

JP2023516135A - 情動音楽の推薦および作曲のための方法、システム、および媒体

Info

Publication number: JP2023516135A
Application number: JP2022550664A
Authority: JP
Inventors: ラベー，アーロン
Original assignee: ルシードインコーポレイテッド
Priority date: 2020-02-24
Filing date: 2021-02-24
Publication date: 2023-04-18
Also published as: CN115428070A; KR20220146528A; IL295812A; CA3169171A1; AU2021228385A1; EP4111448A4; MX2022010358A; WO2021168563A1; US20230113072A1; EP4111448A1

Abstract

情動音楽の推薦および作曲のための方法、システム、および媒体。聴取者の現在の情動状態および目標の情動状態を識別し、そして現在の状態から目標の状態までの聴取者の情動状態の制御されたトラジェクトリを生じる意図で、例えば音楽プレイリストであるオーディオストリームを生成する。該オーディオストリームは、所望の情動トラジェクトリを生じる際に、特定のオーディオセグメント、すなわち特定の特徴量を有するオーディオセグメント、の有効性を示す聴取者および／または他のユーザからのデータを使用して訓練された機械学習システムにより生成する。オーディオストリームは、聴覚刺激としてユーザに提示される。機械学習システムは、聴覚刺激への曝露後に聴取者に誘発される情動状態の変化に基づいて更新され得る。経時的に、機械学習システムは、音楽とヒトの情動との間の関係の堅牢な解釈を獲得し、それにより機械学習システムはまた、聴取者に特定の情動応答を誘発するよう構成された音楽を作曲、マスタリング、および／または適応するためにも使用され得る。【選択図】図１７Ａ

Description

少なくとも一部の例示的な実施形態が、音楽の推薦および音楽の作曲のシステムに関し、特に聴取者の情動状態に特定の変化を誘発することを意図した音楽を作曲および推薦するためのシステムに関する。

情動（ａｆｆｅｃｔ）とは、心理学において、感情（ｅｍｏｔｉｏｎ）、気分（ｍｏｏｄ）、または感じ（ｆｅｅｌｉｎｇ）の体験を記述するために使用される概念である。人間は、異なる条件下で異なる情動状態を体験する。外的刺激が、ある人物の気分や情動に影響を与えることがある。

多くの人々は、様々な種類の音楽刺激に対して特に鋭敏な情動応答を示す。音楽は、聴取者に特定の情動状態を誘発する際におけるその有効性を理由に、主に人類文化において相当に大きな役割を果たす。個々の聴取者は通常、例えば活力に満ちた状態、リラックスした状態、メランコリックな状態、懐かしい状態、幸せな状態、または活動的な状態などである目標の情動状態を維持または達成したいという願望に基づいて聴取する音楽を選択する。

音楽推薦システムでは、聴取者が何を好む可能性があるかを推論することに基づいて、聴取者に音楽を推薦しようと試みる。これら推論は、通常、聴取者から収集したデータに基づく。このデータは、推薦の時点での聴取者とのインタラクションを通して、または全体的な聴取者の選好を示唆するそれまでのインタラクションの間に、収集され得る。推薦システムは、聴取者に対して一組のテーマを提示して、聴取者が選択したテーマに基づいて音楽を推薦してもよい。これらテーマは、ジャンル（クラシック、カントリー、ラップ）、季節または状況（クリスマスミュージック、ビーチミュージック）、または歴史的な年代（１９６０年代、１９８０年代、現代）を含む、いくつかの原則のうちのいずれかについて構成することができる。一部のテーマは、気分または他の情動状態の情報、例えば聴取者の情動状態（悲しみ、幸せ、リラックスしている、活力満ちている）を誘発またはそれに合致することを意図した音楽などを中心に構成され得る。テーマはまた、特定の情動状態を目指すことを示唆する活動を中心に構成されてもよい（調理または瞑想のための穏やかな音楽、トレーニングのための活動的な音楽、ダンスのためのアップビートでリズミカルな音楽）。

また一部の音楽推薦システムは、聴取者を特定の楽曲構成に関連付けるデータを通して、聴取者の選好を推論する。このシステムは、例えば、聴取者による以前の音楽鑑賞の選択、または聴取者による以前の音楽録音の購入に関するデータを収集し得る。これら選択または購入は、例えば聴取者が好むものと類似した特徴をもつ楽曲構成を識別することなどによって、他の利用可能な楽曲構成と相互参照され得る。一部のシステムは、協調フィルタリングを使用して、当該聴取者に対して、類似の嗜好又は類似の選択もしくは購入履歴を有する他のユーザが好む構成を識別することができる。一部のシステムは、システムの推薦に関して聴取者からフィードバックを収集し、そしてユーザの選好についての当該システムのモデルおよびそれに応じた当該システムの推論の信頼度を更新することができる。

情動に関連するテーマを含むシステムは、通常、個々の聴取者に固有ではない楽曲構成の全体的な特徴に基づいて、所与のテーマに合致する楽曲構成を識別する。ある楽曲構成の情動に関連する特徴は、典型的には、その楽曲構成全体を尊重して識別される。通常、楽曲を聴き、音楽情報検索（ＭＩＲ）と呼ばれるプロセスに従って該楽曲を特徴付けるために、音楽分類の訓練を受けた専門家が採用される。ＭＩＲは、音楽の特徴量の抽出と表現に関与する。ＭＩＲでの特徴量を表現するための基準は、ＩＲＣＡＭ（ＩｎｓｔｉｔｕｔｅｆｏｒＲｅｓｅａｒｃｈａｎｄＣｏｏｒｄｉｎａｔｉｏｎｉｎＡｃｏｕｓｔｉｃｓ／Ｍｕｓｉｃ）によって公布されており、また例えばＭａｔｌａｂ用のＭＩＲツールボックスソフトウェアパッケージなどである、ＭＩＲを支援するソフトウェアが存在する。ＭＩＲデータの既存の集合の一部には、特定の楽曲構成に関連付けられた情動関連のタグまたは特徴量が含まれるが、これは、専門家である聴取者が、ある楽曲構成の全体としての情動関連の特徴量を評価することに基づいている。

楽曲構成は通常、楽音的要素に関して、人間の情動についての洗練された形式的モデルが支援しているものではない。聴取者の特定の情動状態の変化を得ることを意図した音楽は、概して、作曲家がもつ主観的な基準に基づいて、人間である作曲家によって作曲されている。

本開示は、情動音楽の推薦および作曲のためのデバイス、方法、システム、および非一時的媒体の例を記載する。一部の実施形態では、聴取者の現在の情動状態および目標の情動状態を識別し、そして現在の状態から目標の状態までの聴取者の情動状態の制御されたトラジェクトリを生じる意図で、オーディオストリーム（例えば音楽プレイリスト、サウンドデザイン、またはアルゴリズム的に作曲された楽曲など）を生成する。オーディオストリームは、所望の情動トラジェクトリを生じる際に、特定のオーディオセグメント、すなわち特定の特徴量を有するオーディオセグメント、の有効性を示す聴取者および／または他のユーザからのデータを使用して訓練された機械学習モデルにより生成する。一部の実施形態では、曲は、特定の聴取者または聴取者集団が特定の楽音的要素に対してどのように情動的に応答するかについてのモデルに基づいて、特定の目標の情動状態または特定の情動トラジェクトリが得られるように作曲され得る。

例示的実施形態は、聴取者に情動状態変化を誘発するためのオーディオストリームを生成する方法に向けられる。本方法は、聴取者の現在の情動状態を識別するステップと、聴取者の目標の情動状態を識別するステップと、現在の情動状態から目標の情動状態までの情動トラジェクトリを識別するステップと、訓練されたセグメント識別機械学習モデルを使用して、第一のオーディオセグメントが聴覚刺激として聴取者に提示されたときに情動トラジェクトリの少なくとも初期部分に対応する所望の情動応答を聴取者に誘発する可能性が高い第一のオーディオセグメントを識別するステップと、第一のオーディオセグメントの少なくとも一部に基づいてオーディオストリームを生成するステップと、オーディオストリームに基づくオーディオストリームデータを聴取者デバイスに送信するステップとを含む。

第二の実施形態は、聴取者に情動状態の変化を誘発するためのオーディオストリームを生成するシステムに向けられる。当該システムは、プロセッサシステム、通信システム、および記憶装置を備える。記憶装置は、実行可能な訓練されたセグメント識別機械学習モデル、および実行可能な命令をそこに記憶している。プロセッサシステムにより実行される場合、実行可能な命令が、システムに対して、通信システムが受信した聴取者の状態データに基づいて聴取者の現在の情動状態を識別させ、通信システムが受信した目標の情動状態データに基づいて聴取者の目標の情動状態を識別させ、現在の情動状態から目標の情動状態までの情動トラジェクトリを識別させ、訓練されたセグメント識別機械学習モデルに対して、聴覚刺激として聴取者に提示されたときに聴取者の情動トラジェクトリの少なくとも初期部分に対応する所望の情動応答を聴取者に誘発する可能性が高い第一のオーディオセグメントを識別することを実行させ、第一のオーディオセグメントの少なくとも一部に基づいてオーディオストリームを生成させ、通信システムを用いてオーディオストリームに基づくオーディオストリームデータを聴取者デバイスに送信させる。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、訓練されたセグメント識別機械学習モデルを使用して第一のオーディオセグメントを識別した後、情動推論プロセスを使用して、現在の情動状態と第一のオーディオセグメントのオーディオ特徴量値セットとに基づいて、推論による新規情動状態を推論する。当該推論による新規情動状態のデータから目標の情動状態までの更新された情動トラジェクトリが識別される。ある後続のオーディオセグメントであって、該後続のオーディオセグメントが聴覚刺激として聴取者に提示されたときに上記更新された情動トラジェクトリの少なくとも初期部分に対応するものである後続の所望の情動応答を聴取者が誘発する可能性が高い後続のオーディオセグメントを識別するために、訓練されたセグメント識別機械学習モデルを使用する。当該オーディオストリームは、少なくとも部分的に第一のオーディオセグメントおよび後続オーディオセグメントに基づいて生成する。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、訓練されたセグメント識別機械学習モデルが、情動推論プロセスから受信した報酬データを使用して訓練され、そして情動推論プロセスは、オーディオストリームのオーディオ特徴量値セットに対する聴取者の推論された情動応答を推論することと、所望の情動応答に対して推論された情動応答を比較することに基づいて報酬データを生成することとによって、報酬データを生成する。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、情動推論プロセスが、訓練された情動推論機械学習モデルを備えて、また訓練された情動推論機械学習モデルは、複数の訓練オーディオセグメントに対応する訓練オーディオ特徴量データと、複数の訓練オーディオセグメントに対応する複数のオーディオ刺激の各々に対してヒト対象それぞれを曝露することと合わせて一または複数のヒト対象から収集した情動状態データとを含む訓練データを使用して訓練する。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、一または複数のヒト対象は、聴取者を含む。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、訓練されたセグメント識別機械学習モデルは、強化学習モデルを備える。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、訓練されたセグメント識別機械学習モデルは、深層学習ニューラルネットワークを備える。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、オーディオストリームデータは、オーディオストリームを推薦する推薦データを含む。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、オーディオストリームデータは、オーディオストリームを含む。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、オーディオストリームデータを聴取者デバイスに送信後、更新された現在の情動状態データを聴取者から受信する。訓練された情動推論機械学習モデルは、第一のオーディオセグメントおよび複数の後続オーディオセグメントのそれぞれに対応するオーディオ特徴量データと更新された現在の情動状態データとを含む実行時間訓練データを使用する。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、聴取者の目標の情動状態を識別することは、聴取者デバイスを介して聴取者から目標の情動状態データを受信することと、目標の情動状態データに基づいて聴取者の目標の情動状態を識別することとを含む。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、聴取者の現在の情動状態を識別することは、聴取者デバイスを介して聴取者から情動自己評価データを受信することと、情動自己評価データに基づいて聴取者の現在の情動状態を識別することとを含む。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、聴取者の現在の情動状態を識別することは、聴取者と関連付けられる生理学的データまたは聴取者のさらなる生理学的状態を受信することと、生理学的データに基づいて、聴取者の現在の情動状態を識別することとを含む。

さらなる実施形態は、上記方法のうちの一または複数を実行するための命令を含む、非一時的プロセッサ可読媒体に向けられる。

さらなる実施形態は、上記方法のうちの一または複数によって生成されるオーディオストリームを含む非一時的記憶媒体に向けられる。

さらなる実施形態は、音楽的特徴量に対する人間の情動応答を予測する機械学習モデルを訓練する方法であって、音楽的特徴量セットを有する音楽を聴取者に提示することと、当該音楽の提示に対する聴取者の情動応答を示す、聴取者からの情動応答データを取得することと、音楽の音楽的特徴量を、情動応答データでラベル付けして、ラベル付き音楽的特徴量データを生成することと、ラベル付き音楽的特徴量データを、機械学習モデルを訓練する訓練データとして使用して、当該音楽的特徴量データに基づいて情動応答データを予測することとを含む当該方法に向けられる。

さらなる実施形態は、音楽に対する人間の応答を予測するためのシステムであって、プロセッサシステムと、記憶装置であって、そこに、上記方法のうちの一つに従って訓練された機械学習モデルを記憶している記憶装置とを備える、システムに向けられる。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、機械学習モデルは、所望の情動応答を示す所望の情動応答データを受信し、そして機械学習モデルにより予測した音楽的特徴量を有する音楽を生成して、聴取者に所望の情動応答を誘発する生成モデルである。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、音楽を生成することは、所望の情動応答データを処理する生成モデルを使用して、音楽的特徴量を示す音楽的特徴量データを生成することと、該音楽的特徴量データに基づいて音楽を生成することとを含む。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、音楽的特徴量データは、音楽情報検索（ＭＩＲ）データである。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、ＭＩＲデータは、音楽用ＭＩＲブループリントである。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、生成モデルは、敵対的生成ネットワーク（ＧＡＮ（ｇｅｎｅｒａｔｉｖｅａｄｖｅｒｓａｒｉａｌｎｅｔｗｏｒｋ））である。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、ＧＡＮは、生成器ネットワーク、確率ネットワーク、および制御ネットワークを備える。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、ＧＡＮは、条件付きＧＡＮを備える。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、生成器ネットワークは、生成器ニューラルネットワークを備える。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、確率ネットワークは、識別器ニューラルネットワーク（ｄｉｓｃｒｉｍｉｎａｔｏｒｎｅｕｒａｌｎｅｔｗｏｒｋ）を備える。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、生成器ニューラルネットワークおよび識別器ニューラルネットワークはそれぞれ、ＬＳＴＭ（長短期メモリ（ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ））を有する回帰型ニューラルネットワーク（ＲＮＮ）を備える。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、音楽的特徴量データに基づいて音楽を生成することは、音楽的特徴量データに基づいてスコアを生成することと、スコアに基づいて音楽を生成することとを含む。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、スコアは、ＭＩＤＩ（ミュージカルインストルメントデジタルインターフェース）スコアである。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、スコアを生成することは、作曲意図情報を受信することと、音楽的特徴量データおよび作曲意図情報に基づいてスコアを生成することとを含む。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、作曲意図情報は、スコアタイプ情報、楽器編成情報、およびスコア長さ情報のうちの一または複数を含む。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、作曲意図情報は、ユーザから受信した作曲意図ユーザ入力により示される。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、メモリは、スコア生成機械学習モデルをさらに記憶し、またスコアを生成することが、スコア生成機械学習モデルを使用して、音楽的特徴量データを処理してスコアを生成することを含む。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、スコア生成機械学習モデルは、スコア生成敵対的生成ネットワーク（ＧＡＮ）である。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、スコア生成ＧＡＮは、生成器ネットワーク、確率ネットワーク、および制御ネットワークを備える。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、スコア生成ＧＡＮは、条件付きＧＡＮを備える。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、スコアに基づいて音楽を生成することは、スコアをユーザに提示することと、ユーザからラフミックスユーザ入力を受信することと、ラフミックスユーザ入力に基づいてラフミックスを生成することと、ラフミックスに基づいて音楽を生成することとを含む。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、スコアに基づいて音楽を生成することは、音楽的特徴量データに基づいて作曲リードシートを生成することと、作曲リードシートをユーザに提示することとをさらに含む。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、ラフミックスに基づいて音楽を生成することは、音楽的特徴量データおよびラフミックスに基づいて制作リードシートを生成することと、作曲リードシートをユーザに提示すること、ユーザから最終ミックスユーザ入力を受信することと、最終ミックスユーザ入力に基づいて最終ミックスを生成することと、最終ミックスに基づいて音楽を生成することとを含む。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、メモリは、マスタリング機械学習モデルをさらに記憶し、また最終ミックスを生成することは、マスタリング機械学習モデルを使用して音楽的特徴量データおよび最終ミックスを処理して、音楽を生成することを含む。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、マスタリング機械学習モデルは、既存の楽曲を受信して、音楽的特徴量データおよび既存の楽曲を処理して、当該音楽的特徴量を有する音楽を生成するようにさらに構成される。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、マスタリング機械学習モデルは、複数の既存の音楽ステムに基づいて音楽的特徴量を有する音楽を生成するようにさらに構成される。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、マスタリング機械学習モデルは、回帰型深層Ｑネットワーク（ＤＱＮ）を備える。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、マスタリング機械学習モデルは、分岐の回帰型ＤＱＮを備える。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、マスタリング機械学習モデルは、ＬＳＴＭ（長短期メモリ（ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ））を含む。

さらなる実施形態は、上記記載のシステムが生成したオーディオストリームを含む非一時的記憶媒体に向けられる。

本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、機械学習モデルは、複数の既存の楽曲を受信して、所望の情動応答データを受信し、聴取者に所望の情動応答を誘発する可能性が高い、複数の既存の楽曲のうちのある既存の楽曲を識別するようにさらに構成される。

ここで実施形態について、添付の図面を参照しながら例として説明していくが、同様の参照番号は、同様の特徴を指し示すために用いられ得る。

図１は、本明細書に記載の例示的な実施形態による、情動音楽推薦のための例示的なシステムのブロック図である。

図２Ａは、本明細書に記載の例示的な実施形態による、ストリーム生成モードで動作する情動音楽推薦のための例示的なシステムのシステム図である。

図２Ｂは、本明細書に記載の例示的な実施形態による、訓練モードで動作する情動音楽推薦のための例示的なシステムのシステム図である。

図３は、本明細書に記載の例示的な実施形態による情動音楽推薦のための例示的な方法のフローチャートである。

図４Ａは、本明細書に記載の例示的な実施形態による情動状態推論のための簡略化されたニューラルネットワークを示す概略図である。

図４Ｂは、本明細書に記載の例示的な実施形態による情動状態推論のための簡略化された回帰型ニューラルネットワークを示す概略図である。

図５は、本明細書に記載の例示的な実施形態による、目標の情動応答を達成する可能性が高いオーディオセグメントを識別するためのニューラルネットワークを示す概略図である。

図６は、本明細書に記載の例示的な実施形態による、刺激前の聴取者のインタラクションを示す聴取者デバイスの例示的な一連のユーザインターフェース画面である。

図７は、本明細書に記載の例示的な実施形態による、刺激後の聴取者のインタラクションを示す聴取者デバイスの例示的な一連のユーザインターフェース画面である。

図８は、本明細書に記載の例示的な実施形態による、パーソナライゼーションでの聴取者のインタラクションを示す聴取者デバイスの例示的な一連のユーザインターフェース画面である。

図９は、本明細書に記載の例示的な実施形態による、プロファイル作成プロセスの一部としてユーザに提示される聴取者デバイスの例示的なユーザインターフェース画面である。

図１０は、本明細書に記載の例示的な実施形態による、文脈情報収集インタラクションを示す聴取者デバイスの例示的な一連のユーザインターフェース画面である。

図１１は、本明細書に記載の例示的な実施形態による、情動音楽推薦のための例示的なマルチモデルシステムのブロック図である。

図１２は、本明細書に記載の例示的な実施形態による、音楽の楽しさを評価する例示的なユーザインターフェース画面１２０２である。

図１３は、本明細書に記載の例示的な実施形態による、例示的なＭＩＲ特徴量予測システムである。

図１４は、本明細書に記載の例示的な実施形態による、聴取者のために音楽モデルのデータベースを作成する例示的なプロセスのステップおよび構成要素を示すブロック図である。

図１５は、図１４のパーソナライズしたモデルの転移学習プロセスで用いるパーソナライゼーション因子を示す概略図である。

図１６は、本明細書に記載の例示的な実施形態による、情動音楽作曲のための例示的なシステムのブロック図である。

図１７Ａは、図１６の例示的な情動音楽作曲システムの第一の部分のプロセス間の関係を示すブロック図である。

図１７Ｂは、図１６の例示的な情動音楽作曲システムの第二の部分のプロセス間の関係を示すブロック図である。

図１７Ｃは、図１６の例示的な情動音楽作曲システムの第三の部分のプロセス間の関係を示すブロック図である。

図１７Ｄは、図１６の例示的な情動音楽作曲システムの第四の部分のプロセス間の関係を示すブロック図である。

図１８は、図１６の情動音楽作曲システムで用いる情動状態推論のための簡略化された回帰型ニューラルネットワークを示す概略図である。

図１９は、図１６の情動音楽作曲システムで用いるＭＩＲ生成器プロセスを示すブロック図である。

図２０は、図１６の情動音楽作曲システムで用いるスコア生成器プロセスを示すブロック図である。

図２１Ａは、図１６の情動音楽作曲システムで用いるマスタリングエージェントの第一の部分を示すブロック図である。

図２１Ｂは、図１６の情動音楽作曲システムで用いるマスタリングエージェントの第二の部分を示すブロック図である。

図２２Ａは、図１６の情動音楽作曲システムで用いる適応音楽エージェントの第一の部分を示すブロック図である。

図２２Ｂは、図１６の情動音楽作曲システムで用いる適応音楽エージェントの第二の部分を示すブロック図である。

図２２Ｃは、図１６の情動音楽作曲システムで用いる適応音楽エージェントの第三の部分を示すブロック図である。

図２３は、図１６の情動音楽作曲システムで用いる作曲リードシートプロセスを示すブロック図である。

図２４Ａは、図２３の作曲リードシートプロセスにより生成した作曲リードシートの例示的な情動空間インジケータである。

図２４Ｂは、図２３の作曲リードシートプロセスにより生成した例示的な作曲リードシートである。

図２５は、図１６の情動音楽作曲システムで用いる制作リードシートプロセスを示すブロック図である。

図２６は、図２５の制作リードシートプロセスにより生成した例示的な制作リードシートである。

図２７は、本明細書に記載の実施形態を使用した、アルバムのリミックスの例示的な使用事例のブロック図である。

図２８は、本明細書に記載の実施形態を使用して健康維持プレイリストを目標とする、音楽のリミックスの例示的な使用事例のブロック図である。

図２９は、本明細書に記載の実施形態を使用して別個の情動目標を有する複数のアルバムを生成するための、音楽集合のリミックスの例示的な使用事例のブロック図である。

図３０は、本明細書に記載の実施形態を使用した既存のステムのライブラリを使用して情動音楽を生成するための、音楽の適応の例示的な使用事例のブロック図である。

情動音楽の推薦および作曲のための方法、システム、および非一時的媒体に関して、実施形態の例を説明することとする。音楽推薦システムについては、図１～１５を参照して最初に説明することとする。次に、これら音楽推薦システムの構成要素を、図１６～３０を参照して音楽作曲システムを説明する際に参照することとする。

記載される音楽推薦システムおよび方法は、聴取者に情動状態の変化を誘発するためのオーディオストリームを生成する。一部の実施形態は、二つの別個の機械学習モデルを利用して、聴取者に望ましい情動応答を誘発する可能性が高い、例えば音楽プレイリストなどであるオーディオストリームを生成する。一方の機械学習モデルは、例えば音楽セグメントのＭＩＲ特徴量値などであるオーディオセグメントのオーディオ特徴量値セットに対する情動応答を推定する情動推論モデルである。もう一方の機械学習システムは、深層Ｑネットワーク（ＤＱＮ）とも呼ばれるディープラーニングニューラルネットワークを備えた強化学習モデルであり、これはオーディオセグメントのセット（例えば曲、または曲から抜粋されたエポック（ｅｐｏｃｈ）など）を使用して、またオーディオセグメントのオーディオ特徴量値（例えば、ＭＩＲ特徴量値）に基づく情動推論モデルからのフィードバックを使用して、オーディオセグメントへの情動応答を推定するように訓練される。

ここで、聴取者に情動状態変化を誘発するためのオーディオストリームを生成する情動音楽推薦システム１００の例示的な第一の実施形態を、図１を参照しながら説明することとする。

図１は、コンピュータプログラム命令を実行するプロセッサシステム１０２、実行可能な命令およびデータを記憶する記憶装置１０４、ならびにデータを他の装置または構成要素と通信する通信システム１０６を含む、情動音楽推薦システム１００を示す。

情動音楽推薦システム１００は、一つまたは複数のコンピュータシステムに実装され得る。これは、単一のコンピュータ、複数のコンピュータ、仮想マシン、分散コンピューティングプラットフォームもしくはクラウドコンピューティングプラットフォーム、または本明細書に記載される方法ステップを実施することができるプラットフォームの任意の他のプラットフォームによって具現化され得る。一部の実施形態においては、情動音楽推薦システム１００は、聴取者によって使用される一つまたは複数の電子デバイス（聴取者デバイス１９０）を包含してもよく、一方で他の実施形態では、情動音楽推薦システム１００は、当該デバイスと、通信システム１０６を使用して直接的または間接的（例えば、通信ネットワーク１７０を介して）に通信する。

プロセッサシステム１０２は、コンピュータまたはコンピューティングプラットフォーム上の、例えば一つ以上のプロセッサなどであるコンピュータプログラム命令を実行することができる任意の処理リソースとして具現化され得る。記憶装置１０４は、例えば一または複数のコンピューティングプラットフォーム上の一または複数のディスクドライブ、ランダムアクセスメモリ、または揮発性もしくは不揮発性のメモリなどである、任意のデータ記憶格納の資源として具現化され得る。通信システム１０６は、例えばイーサネット、Ｗｉｆｉ、またはＢｌｕｅｔｏｏｔｈのインターフェースなどである有線または無線通信インターフェースを含む、一または複数の通信リンクまたはインターフェースとして具現化され得る。一部の実施形態では、聴取者デバイス１９０の一つまたは複数を、情動音楽推薦システム１００と同じプラットフォーム上に実装することができる。こうした実施形態では、通信システム１０６は、内部通信バスまたは他のプラットフォーム内データ転送システムを備え得る。

記憶装置１０４は、実行可能な命令の形態で、いくつかのタイプのコンピュータプログラムをそこに記憶することができる。本明細書に記載される方法ステップを実施するための実行可能命令セット１１０を、そこに記憶してもよい。また、聴取者に特定の情動応答を誘発することを意図したオーディオセグメントを識別する一または複数の機械学習モデルが存在してもよく、これは複数の深層Ｑネットワーク（深層学習ニューラルネットワークとも呼ばれる）、すなわち第一の深層Ｑネットワーク１２２、第二の深層Ｑネットワーク１２４等から第Ｎの深層Ｑネットワーク１２６として、本明細書において示される。記憶装置１０４はまた、ここで情動推論ニューラルネットワーク１４０として示される、特定のオーディオ特徴量値セットを有するオーディオセグメントへの聴取者の曝露によって誘発される情動状態を推論する情動推論機械学習モデルをそこに記憶させておくこともできる。これら機械学習モデルは、以下でさらに説明するように訓練された後、情動音楽推薦システム１００上で展開され得る。

記憶装置１０４は、いくつかのタイプのデータ１８０をそこに記憶させておくことができる。データ１８０は、情動推薦システム１００での体験についての以前の記録に関連するデータ（例えば、情動データおよびセグメント選択）を含み得る。データ１８０はまた、複数のオーディオセグメント１８６と、複数のオーディオセグメント１８６の各々に対応するオーディオ特徴量データとを含む、オーディオライブラリ１８４を含んでもよい。オーディオセグメント１８６は、別個のオーディオクリップとして記憶したデジタルオーディオデータを含んでもよく、または当該セグメントは、例えば可変の継続時間の曲から抽出された固定継続時間のエポックなどであるオーディオライブラリ１８４に記憶したオーディオクリップから抽出されてもよい。オーディオ特徴量データは、ここではライブラリＭＩＲデータ１８２として示す。これは、対応する値を有するオーディオセグメント１８６のＭＩＲ特徴量を示す、各オーディオセグメント１８６に関連付けられたＭＩＲメタデータを含み得る。オーディオ特徴量データはまた、一部の実施形態では、非ＭＩＲデータまたはメタデータを含んでもよい。

聴取者デバイス１９０は、通信ネットワーク１７０を介して情動音楽推薦システム１００と通信する例えばコンピュータまたはスマートフォンなどである情動音楽推薦システム１００の聴取者またはエンドユーザによって操作される電子デバイスであり得る。情動音楽推薦システム１００は、複数のタイプの聴取者デバイス１９０を支援し得る。一部の聴取者デバイス１９０は、例えば視覚データを表示してユーザの入力を受けるタッチスクリーン１９４、ならびに例えばスピーカーおよび／またはヘッドフォンへの有線もしくは無線インターフェースなどであるオーディオ出力１９２など、ユーザインターフェース構成要素を含む。情動音楽推薦システム１００との通信は、通信ネットワーク１７０を介して通信し得る通信システム１９６によって実行される。

図２Ａは、情動音楽推薦システム１００の機能的システム図を示す。様々な機能的ステップは、プロセッサシステム１０２を使用することにより、記憶装置１０４に記憶した実行可能命令１１０が実行されるように、情動音楽推薦システム１００により実行される。

情動音楽推薦システム１００は、命令１１０を実行して、聴取者に情動状態の変化を誘発するオーディオストリーム２３４を生成する方法を実行する。方法ステップを実行するために、情動音楽推薦システム１００は、命令１１０、セグメント識別機械学習モデル（例えば、深層Ｑネットワーク１２２、１２４～１２６）、および情動推論機械学習モデル（例えば、情動推論ニューラルネットワーク１４０）の実行により実施されるいくつかの機能的ブロックを使用する。情動音楽推薦システム１００は、二つの異なるモード、すなわち典型的にはユーザセッション中に行われるオーディオストリーム生成モード、およびユーザセッションの間に行われ得る訓練モードで動作する。オーディオストリーム生成モードでの情動音楽推薦システム１００の動作について、図２Ａを参照しながら最初に説明することとし、続いて図２Ｂを参照しながら訓練モードの動作について説明することとする。

聴取者に関連する聴取者状態データが、通信システム１０６を介して受信され、現在の状態の識別プロセス２０２で使用されて、聴取者の現在の情動状態２１２が識別される。聴取者状態データは、様々な実施形態において、情動自己評価データ２０６、生理学的データ２０８、および／または聴取者の情動状態の識別に潜在的に関連する他のタイプのデータを含み得る。聴取者状態データは、聴取者デバイス１９０から、他のデバイスから、および／または情動音楽推薦システム１００の内部のソースからなどである、一または複数の供給源から受信され得る。以下でさらに詳細に説明するように、情動自己評価データ２０６が、聴取者デバイス１９０により生成され得る。生理学的データ２０８は、以下にさらに記載されるように、聴取者デバイス１９０、または聴取者から生理学的センサーデータを収集するように構成された別の装置から受信されてもよい。聴取者の情動状態を判定するために使用される他の聴取者状態データは、聴取者の表情または行動を示すカメラデータ、聴取者のイントネーションまたは発話内容を示す音声データ、または聴取者の情動状態の識別を支援するために使用され得る任意の他のデータを含み得る。

情動コンピューティングの分野では、生理学的データタイプ、自己報告によるデータタイプおよび／または他のデータタイプを使用して人間の情動状態を識別するため、ならびにデータ内で情動状態を表現するための、多くの公知の技術が存在する。情動状態を表現する通常のモデルの一つとして情動の二次元モデルがあるが、これは円環モデルとも呼ばれることがあり、所与の情動状態が、感情価（ｖａｌｅｎｃｅ）の値（プラスの感情またはマイナスの感情の程度を表現する）および覚醒度または活性度（ａｃｔｉｖａｔｉｏｎ）の値（感情的な俊敏さまたはエネルギーの程度を表現する）として表現される。二次元の情動の感情価－活性度（ｖａｌｅｎｃｅ－ａｃｔｉｖａｔｉｏｎ）モデルでは、例えば悲しみはマイナスの感情価かつ低活性度として表現されることがあり、怒りはマイナスの感情価かつ高活性度として表現されることがあり、熱意はプラスの感情価かつ高活性度として表現されることがあり、また息抜きはプラスの感情価かつ低活性度として表現されることがある。本明細書に記載される実施例は、概して、感情価および活性度の値を伴う情動の二次元モデルを指すこととなる。しかしながら、一部の実施形態では、情動状態を特徴付ける二以上または二未満の次元を使用するモデル、情動状態をモデル化するのに時間で変動する情動値を使用するモデル、および数値を使用することなく離散的情動状態のリストを使用するモデルをはじめとする、他の情動モデルを使用し得る。

現在の状態の識別プロセス２０２では、一部の実施形態では、聴取者の現在の情動状態を明示的に識別する聴取者状態データを受信し得る。他の実施形態では、現在の状態の識別プロセス２０２は、例えば特定の聴取者または概して人間における情動状態を識別するように訓練されたさらなる機械学習モデルなどである、情動識別エンジンを使用して、聴取者状態データに基づいて聴取者の情動状態を識別し得る。生理学的データから推論されるさらなる生物学的マーカーもまた、二次元の感情価および活性度値を超えたとしても現在の状態の識別プロセスへの入力として使用することができるものであり、例えば不安レベル、集中レベル、不穏レベルなどである。

一部の実施形態は、例えばユーザセッションの開始時点およびユーザセッションの終了時点などに、情動音楽推薦システム１００の動作中の特定の時間に聴取者状態データを受信し得る。他の実施形態では、聴取者状態データは、絶え間なく、またはユーザ入力のタイミングで決定される時点に受信してもよい。例えばいくつかの実施形態では、生理学的データ２０８の絶え間ない流れを受信してもよく、また他の実施形態では、聴取者が決めた時点にユーザが誘導した情動自己評価データ２０６を受信してもよい。

目標の状態の識別プロセス２０４は、例えば聴取者デバイス１９０などである供給源から受信された目標の情動状態データ２１０に基づいて、聴取者の目標の情動状態２１４を識別するために使用される。一部の実施形態では、目標の情動状態データ２１０は、意図される用途の性質によって予め決定することができる。例えば、息抜きのための用途では、低活性度、プラスの感情価状態を示す目標の情動状態データ２１０を常に提供することができ、一方で集中のための用途では、高活性度、プラス～ニュートラルの感情価状態を示す目標の情動状態データ２１０を提供することができる。他の実施形態では、ユーザセッションの前またはユーザセッション中に聴取者デバイス１９０から受信した聴取者選好データに基づいて、聴取者の目標の情動状態２１４を識別することができる。

一部の実施形態では、現在の情動状態２１２および目標の情動状態２１４に基づいて、情動トラジェクトリプロセス２１６は、現在の情動状態２１２から目標の情動状態２１４までの情動トラジェクトリ２１８を識別する。二次元情動モデルを用いる実施形態では、情動トラジェクトリ２１８は、二次元の曲線２５０として表現することができる。例示的な曲線２５０は、例えば水平次元に感情価（左＝マイナス、右＝プラス）と、垂直次元に活性度（能動的＝上、受動的＝下）とで規定される、例示的な情動空間にプロットされる。聴取者の現在の情動状態２１２は、曲線２５０の開始点２５２としてプロットされる。目標の情動状態２１４は、曲線２５０の終点２５４としてプロットされる。中間にある一つまたは複数の中間地点は、例えば第一の中間地点２５６および第二の中間地点２５８など、曲線２５０に沿ってプロットされてもよく、これは情動トラジェクトリ２１８上の中間の情動状態を示すものである。曲線２５０の初期部分２６０は、開始点２５２および第一の中間地点２５６により画定される。曲線２５０の後続の第二の部分２６２は、第一の中間地点２５６および第二の中間地点２５８により画定される。曲線２５０の後続の第三および最後の部分２６４は、第二の中間地点２５８および終点２５４により画定される。また、機械学習技術を実装して、システムを使用する個人にとっての最良のトラジェクトリを学習することにより、ユーザの目標の情動状態を達成する上で以前の成功に基づいてこれらトラジェクトリを動的にさせることができる。他の実施形態では、このトラジェクトリは、その全体を省略することができ、またユーザの現在の情動状態および目標の情動状態のみにより、セッションを動かすことができる。この情動トラジェクトリプロセスを使用する実施形態では、ＤＱＮ用の動きのある目標を通して、時間に沿って制御された情動状態変化を実施することを意図している。

オーディオセグメントであって、聴覚刺激として聴取者に提示されたときに聴取者の情動状態に情動トラジェクトリ２１８の少なくとも初期部分２６０を誘発する可能性が高いオーディオセグメントを選択または識別するために、オーディオセグメント識別プロセス２２２を使用する。オーディオセグメント２３０は、ＤＱＮ１２０として示される訓練されたセグメント識別機械学習モデルを使用して識別されるが、当該モデルは、オーディオライブラリ１８４に記憶したオーディオセグメント２２０のサブセットからオーディオセグメント２３０を選択する。オーディオセグメント２３０は、オーディオセグメント２３０がオーディオセグメント２２０のサブセット内の他のオーディオセグメントよりも情動トラジェクトリ２１８の少なくとも初期部分２６０を聴取者に誘発する可能性が高い、すなわち当該オーディオセグメント２３０が、聴覚刺激として聴取者に再生されたときに、情動トラジェクトリ２１８上の第一の中間地点２５６、または後続地点２５８、２５４のうちの一方により表される状態に近いものである聴取者の情動状態を誘発する可能性が高い、というＤＱＮ１２０による評価に基づいて選択される。

オーディオセグメント識別プロセス２２２はまた、聴取者デバイス１９０から受信した文脈手がかり１９１、例えば時刻、聴取者がプライベート環境にあるか否か、聴取者がノイズの多い環境にあるか否かなどを、入力として用いることもできる。

情動音楽推薦システム１００で使用するＤＱＮ１２０は、様々な状況下で、図１よりの様々なＤＱＮ（第一のＤＱＮ１２２～第ＮのＤＱＮ１２６）のいずれかであり得る。いくつかの実施形態では、複数のＤＱＮ１２２、１２４～１２６の各々は、オーディオライブラリ１８４からのオーディオセグメントの異なるサブセット２２０からの選択に使用される。オーディオセグメントのこれらサブセットは、様々な基準で生成され得る。オーディオセグメントのサブセットの例としては、聴取者が示す選好データに基づいて、音楽ジャンルに基づいて、または他のグループ化基準に基づいて選択された曲を含み得る。オーディオライブラリ１８４全体の代わりにサブセットを使用することの目的の一つとしては、オーディオセグメントのサブセット２２０に含まれるオーディオセグメントの数を、例えば１００個または１２０個のオーディオセグメントなどである最大のセットサイズに制限することによって、ＤＱＮ１２０により実行される計算を簡略化することがあり得る。複数のＤＱＮ（例えば、ＤＱＮ１２２、１２４～１２６）を様々なユーザセッションで互いを代替として用いて、文脈に応じて、様々なオーディオセグメントのサブセット２２０からオーディオセグメントを選択することができる。

一部の実施形態では、ＤＱＮ１２０は次に、聴覚刺激として聴取者に提示されたときに情動トラジェクトリ２１８の後続部分（例えば、部分２６２および／または２６４）に対応する、一または複数の後続の所望の情動応答を聴取者に誘発する可能性が高い一または複数の後続のオーディオセグメント２３０を識別し得る。

オーディオセグメント２３０を識別するプロセスの一回の反復を、一つの「ステップ」と呼び得る。各ステップの後（すなわち、第一のオーディオセグメントを識別した後、および複数の後続のオーディオセグメントの各々を識別した後）に、訓練された情動推論機械学習モデル（本明細書においては情動推論ニューラルネットワーク１４０として示す）を使用して、推論による新規情動状態データ２２６を生成して、ＤＱＮ１２０によってなされた決定を知らせるために当該推論による新規情動状態データ２２６をＤＱＮ１２０にフィードバックすることができる。これは情動推論プロセス２２４の一部として実施されるが、ここでオーディオセグメント２３０のオーディオ特徴量（例えば、セグメントＭＩＲデータ１８３）に合致するオーディオ特徴量を有するオーディオ刺激に聴取者を曝露することから生じる可能性が高い、聴取者の推論による新規情動状態２２６を推論するために、情動推論ニューラルネットワーク１４０を使用して、オーディオセグメント識別プロセス２２２によって識別されたオーディオセグメント２３０および目標の情動データ２１４が受信される。

一部の実施形態では、情動推論プロセス２２４は、例えば様々な機械学習モデルもしくは人工知能モデル、または所定の相関関係もしくは規則のセットなど、推定による新規情動状態２２６を生成するために様々な技術を使用することができる。

したがって、情動推論ニューラルネットワーク１４０は、ＤＱＮ１２０に対してフィードバックと強化を提供することによって、そこで動作する環境をシミュレートするものであり、すなわち情動推論ニューラルネットワーク１４０が、オーディオ特徴量データ（例えば、セグメントＭＩＲデータ１８３）と聴取者の一または複数の現在の情動状態２１２とを使用することによって情動推論ニューラルネットワーク１４０の以前の訓練により決定される、ユーザの可能性が高い情動応答を推論することによって、聴取者の情動応答をシミュレートする。例示的な情動推論ニューラルネットワーク１４０の訓練は、以下に詳細に説明される。

一部の実施形態においては、情動推論プロセス２２４は、実際のユーザからのリアルタイム情動データ測定のストリームで、完全にまたは部分的に置換することも可能である。これら実施形態では、当該データストリームは、ＤＱＮ１２０によってなされた意思決定プロセスの次の「ステップ」を知らせるために必要な情動状態データを提供するのに十分な信頼性である。

ストリーム生成プロセス２４０は、オーディオセグメント識別プロセス２２２により識別された一または複数のオーディオセグメント２３０に基づいて、オーディオストリーム２３４を生成する。オーディオストリームは、一部の実施形態において、一または複数のオーディオセグメント２３０に対応する一連の識別子および／またはその他のメタデータとして表現され得る、音楽プレイリストであり得る。ストリーム生成プロセス２４０はまた、通信システム１０６を介して聴取者デバイス１９０に送信するためのオーディオストリームデータ２３６を生成する。一部の実施形態では、オーディオストリームデータは、オーディオストリーム２３４に含まれる一または複数のオーディオセグメント２３０に対応するメタデータを含み得る。このメタデータは、聴取者が、提案されたプレイリストを見直し、タッチスクリーン１９４を介して入力を行ってプレイリストを再生または変更することができるように、聴取者デバイスに送信され得る。一部の実施形態では、オーディオストリームデータは、一または複数のオーディオセグメント２３０に対応するオーディオセグメントデータを含み得る。聴取者デバイスは、オーディオ出力１９２を介して、このオーディオデータを聴覚刺激として聴取者に提示するように構成され得る。異なる時点および異なる条件下での異なる種類のオーディオストリームデータ２３６の送信を含む、情動音楽推薦システム１００と聴取者デバイス１９０との間の通信は、様々な実施形態において、ユーザとオンラインでの音楽の推薦、キュレーション、またはプレイリストのサービスとの間の典型的なインタラクションを含み得る。

トラジェクトリ識別プロセス２１６によって識別される情動トラジェクトリ２１８の曲線２５０は、異なる実施形態および／または異なる状況では異なる特徴を有してもよい。一部の実施形態は、時間に沿って収集された情動フィードバックデータに基づいて、曲線２５０をユーザ依存的またはユーザ非依存的な形状に成形するために、例えばさらなる機械学習モデルなどのプロセスをさらに含み得る。曲線２５０は、第一の状態から第二の状態までの単純な直線トラジェクトリ（すなわち、二次元の傾斜直線）であってもよく、または科学文献もしくは情動データ解析から抽出された原理もしくはパターンに従って湾曲していてもよい。数値を使用する情動モデルを使用しない実施形態では、情動トラジェクトリ２１８は、情動空間にプロットされなくてもよいが、代わりに、現在の状態から目標の状態に移行するのに必要な中間の情動状態であると識別された一または複数の中間の情動状態を通過し得る。

本明細書に記載の実施形態は、最終的な目標の情動状態２１４を誘発する前に、情動トラジェクトリ２１８に沿って一または複数の中間情動状態（例えば、中間地点２５６、２５８）を誘発するように構成される。音楽刺激を使用した情動状態変化に対するこのアプローチは、気分管理のための音楽療法で使用される同質の原理（ｉｓｏｐｒｉｎｃｉｐｌｅ）に従う。この同質の原理は、音楽が最初は聴取者の現在の気分に合致していて、その後、時間に沿って所望の目標の気分に向かって徐々に移行する必要があると記述される。しかしながら、一部の実施形態は、例えば単一のオーディオセグメントを使用して情動エステート変化を誘発しようと試みる実施形態または非線形の情動トラジェクトリ曲線２５０を使用する実施形態など、情動応答を誘発するための様々なアプローチを取り得る。

上記の説明では、オーディオストリーム生成モードでの情動音楽推薦システム１００により使用される様々な機能ブロックおよびデータの動作の概要を提供している。訓練モードでは、図２Ａに示す様々な機能ブロックおよびデータが様々な目的で用いられ得、また図２Ｂを参照しながら以下に説明するように、さらなる機能ブロックおよびデータが補充され得る。

図２Ｂは、訓練モードで動作している図２Ａの情動音楽推薦システム１００を示す。例えば、訓練モードでは、推論による新規情動状態２２６を、推論訓練プロセス２２８によって目標の情動状態２１４と比較するが、この比較に基づいて報酬データ２７３が生成される。一部の実施形態では、報酬データ２７３は、推論による新規情動状態２２６が目標の情動状態２１４と類似している場合、ＤＱＮ１２０に正の報酬を提供するが、推論による新規情動状態２２６が目標の情動状態２１４と異なっている場合、負の報酬を提供する。

一部の実施形態では、推論訓練プロセス２２８によって報酬関数２７２を使用して、報酬データ２７３を生成することができる。報酬関数２７２は、複数のセッションの過程で変動し得る。直接訓練プロセス２７０では、報酬関数２７２が、セッションの最後に（またはユーザがオーディオストリーム２３４を聴取し終えた後に）、聴取者デバイス１９０から情動自己評価データ２０６および／または生理学的データ２０８を受信するが、これは聴取者の最後の情動状態を示している。報酬関数２７２は、セッションの最後の聴取者の現在の情動状態２１２（すなわち、オーディオセグメント２３０を聴取した後の聴取者の最後の情動状態）と目標の情動状態２１４との間の比較に基づいて、セッション全体を通してＤＱＮ１２０の決定に報酬を与えるか（すなわち、正の報酬）または罰するか（すなわち、負の報酬）のいずれかである、報酬データ２７３を生成する。

一部の実施形態では、最終的な情動状態データは、セッション全体を通して聴取者から収集されるすべての情動状態データ、およびセッション最後にまたはセッションの後に聴取者から収集される現在の情動状態データ２１２を含む。報酬データ２７３は、将来のセッションでより良い決定を行うようにＤＱＮ１２０を再訓練して、モデルを効果的にパーソナライズするために使用される。他の実施形態では、個々のステップで取られた行動に報酬を与えるだけでなく、完全なシーケンスに報酬を与えるために、中間の情動状態の目標および長期の情動状態の目標を設定してもよい。一部の実施形態はまた、聴取者デバイス１９０から収集された追加的なフィードバックデータ（図示せず）を使用し得る。一部の実施形態はまた、あるリピート選択に負の報酬を与えることによって同じオーディオセグメント２３０をリピートする選択を妨げてもよく、またはユーザがオーディオストリーム２３４を聴取している間にその特定のオーディオセグメントを「スキップ」する場合に、特定のオーディオセグメントの選択に負の報酬を与えてもよい。

一部の実施形態では、セッション全体を通じて再生されるオーディオセグメントのセグメントＭＩＲデータ１８３と相関する、最後の情動状態データ（すなわち、セッション最後に収集される現在の情動状態データ２１２）を使用して、将来のセッションでより良い予測を行うために、情動推論ニューラルネットワーク１４０を再訓練することもできる。

いくつかの実施形態では、情動トラジェクトリ２１８の形状は、トラジェクトリ形状生成機械学習モデルを使用して、情動トラジェクトリプロセス２１６を実施することによって、特定のユーザに対して適応させることができる。最後の情動状態データ（すなわち、セッション最後に収集される現在の情動状態データ２１２）およびトラジェクトリ報酬関数２６２は、トラジェクトリ形状生成フィードバックプロセス２６０によって使用され、以前のセッションからの良好な結果に基づいて、情動トラジェクトリ２１８を形状生成することができる。トラジェクトリ形状生成機械学習モデルが、特定のユーザに対して最良の情動トラジェクトリを最適化するために実施される実施形態では、最後の情動状態データおよび追加の報酬データ２６３を使用して、モデルを訓練および最適化して、ユーザに基づいてトラジェクトリをパーソナライズする。

一部の実施形態では、情動トラジェクトリ２１８は全体的に飛ばすことが可能であり、報酬関数２７２が、ユーザの最後の情動状態を目標の情動状態２１４と単純に比較することとそれに応じてＤＱＮ１２０によって予測される完全なシーケンスに報酬を与えることとによって、報酬データ２７３を生成することが可能である。

一部の実施形態では、ＤＱＮ１２０は、ユーザとの体験中に現実世界での試行錯誤を通じて（実行時間に）、およびシミュレーションされた環境を通じて（実行時間外に）学習する任意の機械学習アルゴリズムで置き換えられ得る。これは、任意のモデルベースまたはモデルフリーの強化学習アルゴリズムによって達成できる。本明細書に記載されるＤＱＮ１２０の機能のすべてのインスタンスは、一部の実施形態においては、異なるモデルフリーまたはモデルベースの強化学習エージェントで置き換えられてもよく、限定されるものではないが、ＭＢＡＣ（モデルベースのアクター・クリティック（ＡｃｔｏｒＣｒｉｔｉｃ））、アドバンテージ付きＡ３Ｃ（アドバンテージ付きモデルフリーのアクター・クリティック）、Ｑ－学習、深層Ｑ学習、およびＴＤＭ（時間的差分モデル（ｔｅｍｐｏｒａｌｄｉｆｆｅｒｅｎｃｅｍｏｄｅｌ））などのアプローチが挙げられる。

図３は、聴取者に情動状態変化を誘発するオーディオストリームを生成するための例示的な方法３００のフローチャートを示す。ステップ３０２では、上述のように、聴取者の現在の情動状態２１２が識別される。ステップ３０４では、上述のように、聴取者の目標の情動状態２１４が識別される。ステップ３０６では、上述のように、情動トラジェクトリ２１８が識別される。ステップ３０８では、訓練されたセグメント識別機械学習モデル（例えば、ＤＱＮ１２０）を使用して、上述のように、第一のオーディオセグメントが聴覚刺激として聴取者に提示されたときに情動トラジェクトリ２１８の少なくとも初期部分（例えば、初期部分２５６）に対応する所望の情動応答を聴取者に誘導する可能性が高い第一のオーディオセグメント（例えば、オーディオセグメント２３０）を識別する。

ステップ３１０では、情動推論プロセス２２４は、訓練された情動推論機械学習モデル１４０を使用して、ステップ３０８で深層学習ニューラルネットワーク１２０によって選択されるオーディオセグメントがユーザにどのように影響することとなるかを予測する。この推論による新規情動状態データ２２６は、ステップ３１０で情動推論機械学習モデル１４０によって生成されて、ステップ３１２で状態データ入力としてＤＱＮ１２０に送信される。

ステップ３１６では、情動音楽推薦システム１００は、方法３００が複数のこうしたステップのうち最後のオーディオセグメント識別ステップに到達したか否か、または一以上の後続するオーディオセグメントが、識別されてオーディオストリーム２３４に追加される対象のままであるか否かを判断し得る。いくつかの実施形態では、オーディオストリームは、固定長を有してもよく、および／または固定数のオーディオセグメント識別ステップを必要としてもよいものであり、すなわちオーディオストリーム２３４は、常に、第一の固定継続時間（例えば、継続時間が２４０秒）であってもよく、また各オーディオセグメントは、第二の固定継続時間（例えば、曲から抜粋された８０秒のエポック）であってもよく、それによって、オーディオストリーム２３４を生成するために三つのオーディオセグメント識別ステップを必要とする。方法３００が、ステップ３１６において最終ステップに到達していないと判断した場合、情動トラジェクトリの後続の部分を誘発する可能性が高い後続のオーディオセグメントは、図２Ａを参照しながら上記において記載したとおりに識別される。方法は、後続するオーディオセグメントを識別するためにステップ３０８に戻り、最終ステップが完了するまでステップ３１６に戻る。次に、深層ニューラルネットワークはステップ３０８において、ステップ３１０での情動推論モデル１４０からの推論された情動状態データ２２６を、次のオーディオセグメント予測のための「最新の」情動状態２１２として使用する。

最終ステップが完了すると、上述のように、オーディオストリーム２３４がステップ３１８で生成される。ステップ３２０で、オーディオストリームデータ２３６が生成され、上述のように聴取者デバイス１９０に送信される。これにより、オーディオストリームを生成し、そしてそれを聴覚刺激として可能性のある提示のために聴取者へ送信するプロセスが完了する。

一部の実施形態では、聴取者は、オーディオストリーム２３４のすべてまたは一部を聴取した後で、更新された現在の情動状態データを提供するオプションにより促されるかまたは提示され得る。この更新された現在の情動状態データを使用して、情動推論機械学習モデルを訓練し、そしてオーディオストリーム２３４を構成するオーディオセグメントのオーディオ特徴量に対する、可能性が高い聴取者の情動応答に関してその推論が改善され得る。このデータを使用して、報酬関数２７２を使用して報酬データ２７３を生成し、図３に概説する方法のステップ３０８でＤＱＮ１２０によってなされた選択を強化することもできる。

ステップ３２２において、例えば通信システム１０６を介して、聴取者デバイス１９０から、更新された現在の情動状態データを受信する。ステップ３２４において、情動推論機械学習モデル（例えば、情動推論ニューラルネットワーク１４０）は、以下で詳細に説明するように、更新された現在の情動状態データを使用して訓練される。このステップにより、通常、ユーザセッションが終了する。

本明細書に記載される実施形態では、セグメント識別機械学習モデル（例えば、ＤＱＮ１２０）はまた、推論訓練プロセス２２４および／または直接訓練プロセス２７０の一方または両方を使用して訓練される。この訓練は、ユーザセッションの終了時点で、または聴取者がシステム１００を使用していない時間であるアイドル時間中に行われて得る。ステップ３２６において、セグメント識別機械学習モデル（例えば、ＤＱＮ１２０）は、推論訓練プロセス２２８を使用して再訓練される。報酬データ２７３は、推論による新規情動状態２２６および目標の情動状態２１４に基づいて、報酬関数２７２によって生成される。この訓練ステップは、以下でさらに詳細に説明するように、ＤＱＮ１２０の初期の訓練を繰り返すことができる。この訓練は、非同期的におよび／またはオフラインで実施可能である。

ステップ３２８において、セグメント識別機械学習モデル（例えば、ＤＱＮ１２０）は、直接訓練プロセス２７０を使用して再訓練される。報酬データ２７３は、セッション終了時点に聴取者デバイス１９０を通して聴取者から受信した更新された現在の情動状態データ２１２を使用して、報酬関数２７２によって生成される。この訓練もまた、非同期的におよび／またはオフラインで実施可能である。

一部の実施形態では、ステップ３０８の直後にステップ３１８および３２０を実施して、３０８で行った第一の予測後にオーディオストリームを生成することができる。これら実施形態では、信頼できる現在の情動状態データ２１２の連続的なストリームがユーザから受信されて、推論された情動状態データ２２６の必要性がなくなる。これら実施形態では、ステップ３１８が、ステップ３０８の後に発生し、次いでステップ３２０およびステップ３２２が続き、ステップ３０８に戻り、直接のユーザフィードバックを経て新しい情動状態データ２２６を取得する。このプロセスは、所望の長さのオーディオ体験が完了するまで、複数回繰り返すことができる。これら実施形態では、ＤＱＮ１２０の訓練プロセスは、直接のユーザフィードバックのみを使用して行われて、ステップ３１０、３１２、３２４、および３２６の必要性が排除される。

ここで、情動推論機械学習モデルおよびセグメント識別機械学習モデルの実施例について、図４Ａ～Ｂおよび図５をそれぞれ参照しながら、各モデルを訓練するためのプロセスを含めて、より詳細に記述する。

図４Ａは、情動推論ニューラルネットワーク１４０としての、情動推論機械学習モデルの例示的実施形態の概略図を示す。情動推論ニューラルネットワーク１４０は、少なくとも、ニューロン４０８の入力層４０２、一または複数の中間層４０４、および出力層４０６を備える。入力層４０２は、データ入力値（本明細書においては第１のＭＩＲ特徴量値４１２から第ＭのＭＩＲ特徴量値４１４および一または複数の非ＭＩＲデータ値４１６として示す）を受信し、既知の技術を使用してこれら入力を変換して、第一の中間層４０４にあるニューロンに出力４１０を提供する。中間層４０４の各々のニューロン４０８は、前の層から受信した出力４１０のそれぞれを重み付けし、そして重み付けされた出力値を変換して、次の層に対して出力４１０のさらなるセットを生成する。出力層４０６のニューロン４０８は、それら受信した出力４１０を同様に重み付けし、重み付けされた出力を変換して出力値を生成する（本明細書においては感情価４２０および活性度４２２として示す）。訓練中に各ニューロン４０８の入力に適用される重みを調節することによって、情動推論ニューラルネットワーク１４０を、例えばＭＩＲ特徴量値４１２から４１４などであるオーディオ特徴量セットに対して、可能性が高い聴取者の情動応答（本明細書においては推論された感情価の値４２０及び活性度値４２２として規定する）を推論するように訓練することができる。追加的な非ＭＩＲ特徴量値または非オーディオ特徴量値を使用して、情動推論ニューラルネットワーク１４０を訓練および実行してもよい。すなわち、例えば一部の実施形態では、可能性の高いユーザの情動応答についての推論を行う際に情動推論ニューラルネットワーク１４０を補助するために、例えば時刻または聴取者環境などの変数を使用することができる。

他の実施形態では、異なる機械学習モデルを、図４Ａ～Ｂおよび５に示すニューラルネットワークに代わって使用することができる。情動推論ニューラルネットワーク１４０は、音楽および／またはオーディオの選択に基づいて、ユーザの情動状態を推論するために必要な同じコアの入力および出力を維持しながら、様々な形態の教師あり機械学習システムおよび教師なし機械学習システムで置換することができる。同様に、ＤＱＮ１２０は、聴取者に所望の情動トラジェクトリを誘導する際に推論した有効性に基づいて、オーディオセグメントを選択するために必要な同じコアの入力および出力を維持しながら、様々な形態の教師あり機械学習システムおよび非教師あり機械学習システムで置換することができる。

一部の実施形態においては、回帰型ニューラルネットワークは、情動推論ニューラルネットワーク１４０に使用されてもよく、それによって、一連の入力として時系列でのＭＩＲ特徴量が使用できるようになり、そして音楽のセグメント全体に対する時間ベースのＭＩＲ特徴量の平均表現の代わりに、音楽的特徴量のシーケンスに基づいて推論された状態の出力をもたらすことができる。これにより、情動推論ニューラルネットワーク１４０の予測が、より粒度が高く、時系列的であるようになされ、音楽体験のより現実的な表現を提供することが可能になり得る（人間の認知は、あるトラックをまとまりのある全体としてではなく、時間に沿って音楽を感知するので）。

図４Ｂは、回帰型情動推論ニューラルネットワーク（ＡＩＮＮ）４３０の例を示す。オーディオセグメント識別プロセス２２２によって選択されるオーディオセグメント２３０からセグメントＭＩＲ特徴量１８３を抽出するために、ＭＩＲ抽出プロセス２２５が使用されるものであり、当該特徴量は本明細書においてはオーディオセグメント２３０の全体ＭＩＲ特徴量の長さＮのアレイ４３３と呼び、第１の全体ＭＩＲ特徴量４３５から第Ｎの全体ＭＩＲ特徴量４３６として示す。全体ＭＩＲ特徴量は、例えばテンポなど、オーディオセグメント２３０全体の音楽的特徴量を表現し得る。オーディオセグメント２３０のうちの一連の短いサブセグメント（エポックとも呼ぶ）（例えば、３０秒ずつのサブセグメント）もそれぞれ、ＭＩＲ抽出プロセス２２５によってＭＩＲ特徴量について分析されて、複数の時系列ＭＩＲ特徴量アレイを生成するが、各時系列ＭＩＲ特徴量アレイ４３４が、サブセグメントに対応し、かつ現在のサブセグメントに関して第１の時系列ＭＩＲ特徴量４３８から第Ｎの時系列ＭＩＲ特徴量４４０を含む。時系列ＭＩＲ特徴量アレイ４３４のうちの時系列ＭＩＲ特徴量４３８～４４０はそれぞれ、オーディオセグメント２３０の現在のエポックの特徴量、例えばオーディオセグメント２３０の時間的な特定のエポックに関するメル周波数ケプストラム（ＭＦＣ）スペクトログラム値、を表現する。

各時間ステップで、全体ＭＩＲ特徴量アレイ４３３の各全体ＭＩＲ特徴量、および現在のエポック（例えば、第一の３０秒のサブセグメントで始まる）に対する時系列ＭＩＲ特徴量アレイ４３４の各ＭＩＲ特徴量が、例えば現在の情動状態２１２などである他の入力データおよび例えば文脈情報４３２などである他のデータとともに、回帰型情動推論ニューラルネットワーク４３０への入力として提供される。文脈情報４３２は、例えばユーザのプロファイル（例えば性格、年齢、性別など）、嗜好プロファイル（例えば、音楽の選好）、時刻、天候などを表現するために記憶した値を含み得る。後続する各時間ステップにおいて、後続するエポック（例えば、第二の３０秒のサブセグメント）の時系列ＭＩＲ特徴量アレイ４３４が、他の入力２１２、４３２、４３５・・・４３６と共に入力４３８・・・４４０として提供されて、時系列ニューロンの出力が、フィードバック入力のさらなるセットとして提供され、それによって時間ベースの反復を提供する。回帰型情動推論ニューラルネットワーク４３０は、これらの入力に基づいて、オーディオセグメント２３０を聴取することによって聴取者に誘発されることとなる、推論された情動状態４５０（例えば、感情価および活性度値）を予測する。

情動推論ニューラルネットワーク１４０は、情動音楽推薦システム１００の一部として展開される前に、はじめに初期訓練プロセスを受けてもよい。一部の実施形態では、以下の刊行物に記載されるものと同様の技術および／またはデータセットを使用して、初期訓練を実施することができる：Ｖｅｍｐａｌａ，Ｎａｒｅｓｈ＆Ｒｕｓｓｏ，Ｆｒａｎｋ．（２０１２）．Ｐｒｅｄｉｃｔｉｎｇｅｍｏｔｉｏｎｆｒｏｍｍｕｓｉｃａｕｄｉｏｆｅａｔｕｒｅｓｕｓｉｎｇｎｅｕｒａｌｎｅｔｗｏｒｋｓ．Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＣｏｍｐｕｔｅｒＭｕｓｉｃＭｏｄｅｌｉｎｇａｎｄＲｅｔｒｉｅｖａｌ（ＣＭＭＲ）（以下、Ｖｅｍｐａｌａ）。これは参照によりその全体が本明細書に組み込まれる。Ｖｅｍｐａｌａは、音楽集合のＭＩＲ特徴量の選択されたサブセットを使用して、ニューラルネットワークを訓練して、この音楽を聴取するヒト対象の情動応答を予測することを記述している。具体的には、Ｖｅｍｐａｌａは、ダイナミクス、リズム、音質（ｔｉｍｂｒｅ）、ピッチ、および調性に関係する１３種の低度および中度のＭＩＲ特徴量、ｒｍｓ（ＲＭＳ）、ｌｏｗｅｎｅｒｇｙ（ローエネルギー）、ｅｖｅｎｔｄｅｎｓｉｔｙ（イベント密度）、ｔｅｍｐｏ（テンポ）、ｐｕｌｓｅｃｌａｒｉｔｙ（拍明瞭性）、ｚｅｒｏｃｒｏｓｓ（零交差）、ｃｅｎｔｒｏｉｄ（重心）、ｓｐｒｅａｄ（スプレッド）、ｒｏｌｌｏｆｆ（ロールオフ）、ｂｒｉｇｈｔｎｅｓｓ（ブライトネス）、ｉｒｒｅｇｕｌａｒｉｔｙ（不規則性）、ｉｎｈａｒｍｏｎｉｃｉｔｙ（非調和性）、およびｍｏｄｅ（モード）、を使用する。音楽のこれらＭＩＲ特徴量は、フィードフォワードニューラルネットワークへの入力として使用されるが、これが感情価および覚醒（すなわち、活性度）の出力値を生成する。音楽の聴取後、対象から自己報告による情動の感情価および覚醒情報を収集する。次に、予測した感情価／覚醒の出力をユーザの自己報告データと比較する損失関数を使用してニューラルネットワークを訓練するために、誤差逆伝播法を使用する。

例示的実施形態では、Ｖｅｍｐａｌａで使用されている１３種の特徴量とは異なるオーディオ特徴量セットを使用して、情動推論ニューラルネットワーク１４０の初期訓練を実施してもよい。

Ｖｅｍｐａｌａでは、０～１の尺度で、関心の様々なＭＩＲ特徴量値を正規化している。同様に、例示的実施形態では、情動推論ニューラルネットワーク１４０で使用するＭＩＲデータおよび／または他のオーディオデータもしくは非オーディオデータを正規化してもよい。

初期訓練が完了すると、情動推論ニューラルネットワーク１４０は、オーディオ特徴量に対する聴取者の非依存的情動応答を予測するのに有効であるとみなされ得る。しかしながら、情動推論ニューラルネットワーク１４０を訓練して、特定の聴取者の情動応答を予測するために、その聴取者からの情動フィードバックを使用して訓練されてもよい。展開された情動推論ニューラルネットワーク１４０はまた、その聴取者の情動応答に対するより普遍的でない因子の影響を特定するために、より多くのオーディオ特徴量および非オーディオ特徴量を入力として使用することもできる。ステップ３１０でなされた情動推論を、ステップ３２２で聴取者から受信した更新された現在の情動状態データと比較することによって、情動推論ニューラルネットワーク１４０は、誤差逆伝播法または他の訓練技術を使用して、そのニューロン４０８が使用する重みを更新して、オーディオ特徴量値セットに対する聴取者の情動応答のモデル化を改善することができる。

一部の実施形態では、聴取者が、オーディオセグメントを聴取し、前後の情動状態データを提供することによって、自身のパーソナライズした情動推論ニューラルネットワーク１４０をオンデマンドで訓練することを可能にする、推論訓練プロセスを提供し得る。このデータは、上述のように、情動推論ニューラルネットワーク１４０を訓練するために使用され得る。

使用中または訓練中、情動推論ニューラルネットワーク１４０は、時として外れ値、すなわち情動推論ニューラルネットワーク１４０の予測と非常に類似しない聴取者の情動応答を引き出すオーディオ刺激、と遭遇する場合がある。過剰な適合を回避するために、これら外れ値による刺激からのフィードバックデータは、訓練に使用されるフィードバックデータから分離することができる。この分離されたデータは、聴取者固有のデータを抽出する別個の分析プロセスによって使用され得るが、当該データは、刺激に対する聴取者特有の応答におけるパターンの識別を支援し得る。例えば聴取者は、オーディオセグメントとは無関係の聴取者環境にある他のイベントを理由に、オーディオセグメントを聴取する間に極端な情動応答を有してもよく、または聴取者は、ある特定の曲との感情的な関連性であって当該曲のオーディオ特徴量とは無関係である感情的な関連性を有してもよい。これら非オーディオ特徴量関連の関連性は、情動推論ニューラルネットワーク１４０を訓練するために使用されなくてもよいが、例えばその代わりに、将来の予測の正確さを支援するために、情動推論ニューラルネットワーク１４０への入力として潜在的に使用できる非オーディオデータを識別するために使用され得る。

図５は、深層学習ニューラルネットワークまたは深層Ｑネットワーク（ＤＱＮ）１２０としてのオーディオセグメント識別機械学習モデルの例示的実施形態の概略図を示す。ＤＱＮ１２０は、少なくともニューロン５０８の入力層５０２、一または複数の中間層５０４、および出力層５０６を備える。図４Ａの情動推論ニューラルネットワーク１４０におけるように、入力層５０２はデータ入力値を受信し、そして既知の技術を使用してこれら入力を変換して、第一の中間層５０４のニューロンに出力５１０を提供する。中間層５０４の各々のニューロン５０８は、前の層から受信した出力５１０のそれぞれを重み付けし、そして重み付けされた出力値を変換して、次の層に対する出力５１０のさらなるセットを生成する。出力層５０６のニューロン５０８は、それら受信した出力５１０を同様に重み付けし、重み付けされた出力を変換して出力値を生成する。

ＤＱＮ１２０は、強化学習（ＲＬ）環境５３１を誘導する際の強化学習（ＲＬ）エージェント５３０のコアの予測成分として利用される、ＤＱＮ１２０の重要な微分を伴う標準的な深層学習ニューラルネットワークと事実上一致する。このタイプの深層学習ニューラルネットワークはまた、誤差逆伝播法などの訓練技術を使用するが、ＤＱＮモデルでは、報酬データ２７３を使用して訓練プロセスが推進されるが、これは情動推論ニューラルネットワーク１４０で使用される標準的な深層学習ニューラルネットワークの訓練プロセスに見られる相関データセットとは対照的である。このシステムは、Ｑ－学習システムの後でモデル化されて、標準Ｑテーブルを深層Ｑネットワークで置き換え、これにより強化学習（ＲＬ）エージェント５３０を飛躍的に速く訓練できるようになる。標準Ｑテーブルでは、環境の現在の状態に基づく全てのあり得る行動についてのＱ値を、訓練中の従前のセッションに基づいて表形式で示す。これは、ＲＬエージェント５３０がその性能を最適化できるまでに、各状態－行動間の関係を複数回反復することを必要とする。多数の状態及び行動が存在する場合、この訓練は高価で非効率的になる。Ｑテーブルを深層学習ニューラルネットワーク、すなわちＤＱＮ１２０で置換することにより、ネットワークの入力が、全てのあり得る状態の関係を表し、また出力が、全てのあり得る行動のＱ値を表す。これらネットワークは、各反復での全ての行動の値を近似するリレーショナル訓練を可能にし、ＲＬエージェントの性能を最適化するのにかかる時間を大幅に短縮する。例えば、ＬｅＣｕｎ，Ｙａｎｎ＆Ｂｅｎｇｉｏ，Ｙ．＆Ｈｉｎｔｏｎ，Ｇｅｏｆｆｒｅｙ．（２０１５）．ＤｅｅｐＬｅａｒｎｉｎｇ．Ｎａｔｕｒｅ．５２１．４３６－４４．１０．１０３８／ｎａｔｕｒｅ１４５３９、ならびにＭｎｉｈｅｔａｌ，２０１３，ＰｌａｙｉｎｇＡｔａｒｉｗｉｔｈＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ，Ｎａｔｕｒｅ．５１８．５２９－５３３．１０．１０３８／ｎａｔｕｒｅ１４５３６を参照されたく、この各々が参照によりその全体が本明細書に組み込まれる。

図５に示すように、Ｑ値５２０～５２２が強化学習エージェント５３０に供給されるが、これはオーディオセグメント５３０を選択することと、オーディオセグメント５３０を二つの代替的環境、すなわちユーザの実際の情動状態である実際の環境、または情動推論プロセス２２４であるシミュレーションされた環境、のうちの一方に供給することとによって、行動５３２が取られる。前者の場合、ストリーム生成プロセス２４０が、オーディオストリームを生成して、それを聴取者デバイス１９０に送信し、次いで聴取者デバイス１９０が、聴取者がオーディオストリームに曝露された後、更新した現在の情動状態データ２１２を提供する。後者の場合、オーディオセグメント２３４は、情動推論プロセス２２４に供給され、これが推測による新規情動状態２２６を生成する。

図５に示す入力（第１のＤＱＮ入力５１２、目標状態値５１４、および現在状態値５１６）は、例示的実施形態で使用される入力の一部かつ単純化されたリストである。いくつかの実施形態では、ＤＱＮ入力（例えば、第１のＤＱＮ入力５１２）は、図２Ａ～２Ｂを参照して上述した文脈手がかり１９１を含み得る。例示的な実施形態は、実行時間に以下の入力リストを使用してもよい。すなわちモード（例えば「穏やか」、「集中」または「活力に満ちた」などの目標の情動状態を示す）、ステップカウント（オーディオストリーム２３４のシーケンスに含まれるオーディオセグメント２３０の総数を示す）、現在のステップ（オーディオセグメント２３０のシーケンスのうち、現在識別されているものを示す）、初期状態の感情価（セッション開始時に識別された聴取者の現在の情動状態２１２の感情価の値）、初期状態の活性度（セッション開始時に識別された聴取者の現在の情動状態２１２の活性度値）、更新された状態の感情価（現在のステップの前に推測による新規情動状態２２６または更新された現在の情動状態２１２の感情価の値）、および更新された状態の活性度（現在のステップの前に推論による新規情動状態２２６または更新された現在の情動状態２１２の活性度値）である。

ユーザの感じ方や、現在の音楽選好が何であるかによって、ユーザの音楽に対する様々な反応は、日によって大きく変化する可能性がある。したがって、一部の実施形態では、システム１００は、深層Ｑネットワーク１２０および情動推論ニューラルネットワーク１４０に追加的な入力を提供して、他の因子が予測プロセスに影響を与えることを可能にすることによって、さらなるパーソナライゼーション方法を実施することができる。一部の実施形態では、ユーザがその瞬間に求めている所望の音楽的美観が識別されて、さらなる入力として提供されてもよい。例えば、ユーザが悲しみを感じていて騒がしく且つ反抗的な音楽（例えば、ロック音楽）を聴きたいと感じているならば、ＭＩＲ特徴量の組み合わせ、トラックのライブラリ、またはオーディオセグメントの選択に対して、ユーザが悲しみを感じていて思慮深く且つ複雑な音楽（例えば、クラシック音楽）を聴きたいと感じている場合とは異なる反応をする可能性が高い。現在の情動状態（例えば、悲しみ）と現在の所望の音楽の感情的内容との間のこの相違（例えば、騒がしく且つ反抗的に対して、思慮深く且つ複雑）は、データ値を使用して表現され得、図４Ａ～Ｂおよび／または図５のニューラルネットワーク１２０および１４０へのさらなる入力として提供する（例えば、入力層４０２または５０２への「現在の音楽選好」の入力）。

ユーザプロファイルデータはまた、図４Ａ～Ｂおよび図５に表すニューラルネットワーク１２０および１４０への入力の候補として利用され得る（例えば、入力層４０２または５０２への一または複数の「ユーザプロファイルデータ」の入力）。ユーザプロファイルデータには、例えばユーザの人口統計学のプロファイル、ベースラインの音楽嗜好プロファイル、ベースラインの気分プロファイル、および性格プロファイルなどのデータフィールドが含まれ得る。これらおよびその他のユーザプロファイルデータはすべて、現在の状態を考慮すると、ユーザが音楽トラックまたはＭＩＲ特徴量に対してどのように反応することとなるかを予測するときに、潜在的に価値を持つ可能性がある。このデータの一部は、図８および図９を参照して以下に記載されるユーザインターフェース画面を使用して、ユーザから収集され得る。こうしたデータの一部はまた、図６～７のユーザインターフェース画面を介してユーザによって提供されるユーザ入力に基づいて、システム１００によっても推論され得る。例えば、ユーザの音楽ジャンルの選好は、複数のセッションにわたって、図６のＵＩ画面６０８内でのユーザのジャンルの選び方から推論され得る。

例えば時刻およびユーザの周囲（例えば、ユーザが騒々しい場所にいるかまたは静かな場所にいるか）などである文脈情報は、システム１００によって関連データのソースとして使用されてもよく、また図４Ａ～Ｂおよび／または図５のニューラルネットワークの入力層４０２および／または５０２への一または複数の追加的データ入力として提供されてもよい。ユーザの現在の環境および文脈は、ユーザにより音楽がどのように認知的に受容されるかに大きな影響を有し得、また価値のある入力データをシステム１００に提供し得る。文脈データは、例えば図６の画面６０４および６１０、ならびに図１０の画面１００２に示すユーザインタラクションにより、システム１００により収集され得る。

ユーザの現在状態値５１６はまた、図４Ａの入力ニューロン４０２への入力として提供され得る。ユーザの現在状態値５１６を使用して、情動推論ニューラルネットワーク１４０の予測を通知することによって、システム１００は、ＭＩＲ特徴量の組み合わせへの曝露が、どのような情動的結果をもたらすかを予測する際に、ユーザの現在情動状態を計算に入れ得る。例えば、音楽のセグメントが、ユーザの最初の感情状態に応じて、二つの非常に異なる感情を呼び起こすことができる。

推論訓練モード中、入力層ニューロン５０２は、ＤＱＮ１２０に最初の重みを設定するために、情動推論ニューラルネットワーク１４０から出力データを受信することとなる。目標状態値５１４、ならびに他のすべての可変パラメータ（例えば、ステップ数）がランダムに生成され、そして出力されたオーディオセグメントＱ値５２０～５２２が、次にＲＬエージェント５３０によって使用されて、オーディオセグメント２３０を選択する。このオーディオセグメント２３０は、ＭＩＲ抽出プロセス２２５によってセグメントＭＩＲデータ１８３に変換され、そして情動推論ニューラルネットワーク１４０は、実質的にＲＬ環境５３１として動作するものであるが、ＲＬエージェント５３０が取る行動に基づいて次の情動状態がどうなるかを予測する。次に、この新しい状態（すなわち、推論による新規情動状態２２６）を、予測シーケンスの次のステップに対する現在の状態値５１６として使用し、そしてこのサイクルを、すべてのステップが完了するまで継続する。この完全なシーケンスは、新しい目標および新しいステップ数が毎回ランダムに生成される、数千回の反復で実行される。初期訓練中、このプロセスは概して、ＤＱＮ１２０を完全に最適化するために、２００，０００～５００，０００回の反復でなされる。

一部の実施形態では、ＭＩＲ抽出プロセス２２５は、リアルタイムでオーディオセグメント２３０からセグメントＭＩＲ特徴量１８３を抽出するか、または以前に抽出された特徴量のテーブルを参照する。オーディオセグメントからのＭＩＲ特徴量抽出は、公知の技術を使用して実行してもよい。

訓練中に各ニューロン５０８の入力に適用される重みを調節することによって、ＤＱＮ１２０は、他のオーディオセグメント候補に対して最適なＱ値５２０～５２２を有するオーディオセグメント２３０を選択または識別するように訓練することができ、当該候補は一連のステップにわたって、または情動トラジェクトリ２１８を利用する場合にはステップごとに短期間で、目標の情動状態を誘発する可能性が高いことを示す。訓練は、初期訓練およびアイドル時間中の再訓練または更新である二つのモードで実施することができる。

ＤＱＮ１２０の初期訓練は、各ＤＱＮ１２０の展開前に実施される。情動音楽推薦システム１００の各ユーザは、自身の個人アカウントに関連付けられた複数のＤＱＮ（例えば、ＤＱＮ１２２、１２４～１２６）、ならびに個人の情動推論ニューラルネットワーク１４０を有する。情動推論ニューラルネットワーク１４０は、上述のように、オーディオ特徴量および他の非オーディオ変数の様々な組み合わせに対する、ユーザ（聴取者）の情動応答をモデル化するように訓練される。次に、情動推論ニューラルネットワーク１４０は、各ＤＱＮ１２０が動作する環境をモデル化するように動作するものであり、すなわちそれがユーザの実際の情動応答の代わりとなる。情動推論ニューラルネットワーク１４０は、ＤＱＮ１２０を訓練するために使用される現在状態データ５１６として機能する、推論による新規情動状態２２６データのすべてを提供する。初期訓練では、報酬関数２７２はまた、情動推論ニューラルネットワーク１４０から推論による新規情動状態２２６データが与えられて、ユーザが最終的な情動状態データ（すなわち、セッションの最後に提供される現在の情動状態データ２１２）を提供する必要性がなくなる。初期訓練では、各ＤＱＮ１２０は、異なる入力変数の組み合わせを含む訓練レジメンを通過する。訓練レジメンは、例えば、各入力変数に対してランダムな値を生成することと、所定の数の強化反復に対してランダムな入力の様々なセットを反復することとによって、ランダムに生成され得る。他の実施形態では、訓練レジメンは、例えば情動空間全体をカバーする異なる入力値の系統的な調査を含み得、これは初期および目標の情動状態入力の両方の感情価および活性度値が、強化の各反復後に所定の量だけ変化している。一部の実施形態では、訓練中に使用されるＤＱＮ１２０への入力は、上述のように、実行時間中に使用されるものとは異なっており、例えば、ステップ数および最終的な目標の情動状態２１４に向かう進捗を追跡するのではなく、ＤＱＮ１２０が単に、独立に各オーディオセグメント選択ステップの精度を評価し得る。

一部の実施形態では、アイドル時間中にＤＱＮ１２０の再訓練または更新も、新しく更新した情動推論ニューラルネットワーク１４０を使用して行うことができる。情動推論ニューラルネットワーク１４０は、上述のように、聴取者からの実際の更新された現在の情動状態フィードバックを使用して、ユーザセッション後に更新される。情動推論ニューラルネットワーク１４０が更新されると、各ＤＱＮ１２０は、ユーザがシステムに関与していない時にシステムアイドル時間を使用して、更新された情動推論ニューラルネットワーク１４０を使用してそれ自体を再訓練することができる。各ＤＱＮ１２０に初期訓練レジメンが再び適用されて、その環境シミュレーションとして更新された情動推論ニューラルネットワーク１４０を使用して、各ＤＱＮ１２０を再訓練する。

ＤＱＮ１２０の代わりに異なる強化学習アプローチを使用する実施形態では、図５に示すＤＱＮ１２０は、異なる強化学習アルゴリズム表現である可能性があり、また入力層ニューロン５０２への入力５１２、．．．５１４、．．．５１６（例えばステップカウント値または目標状態値など）として提供されているすべてのデータは、選択された強化学習アルゴリズムによって使用される環境の状態を表す入力データのベクトルとして扱われ得る。この入力ベクトルは、ＤＱＮ１２０を置換するアルゴリズムの推論挙動を可能にするデータとしてなおも扱われるであろう。一部の実施形態では、ＤＱＮ１２０および強化学習エージェント２３０の機能は、入力ベクトル５１２、．．．５１４、．．．５１６を使用して、エージェントの行動５３２を予測し、その結果上述したようにオーディオセグメント２３０をもたらすこととなる、単一のモデルまたはアルゴリズムによって実施され得る。ＤＱＮ１２０および／またはＲＬエージェント２３０を置換するアルゴリズムは、異なるＤＱＮ、単純なＱ－テーブル、アクター／クリティックモデル、またはモデルベースのＲＬアルゴリズム内の環境モデル／プランナー実装であり得る。異なるアプローチは、様々な利点および欠点を提供する可能性があるが、それらはすべて理論上、同等の結果を提供することができる。

ユーザの現在の情動状態２１２を決定するための生理学的データ２０８の使用は、例えばウェアラブルセンサ、カメラ、および／または他のセンサなどである情動コンピューティングの分野で公知のセンサおよび技術を採用し得る。ガルバニック皮膚反応（ＧＳＲ）、脳波記録法（ＥＥＧ）シグナル、呼吸パターン、心拍数、瞳孔散大、皮下血流、筋緊張、および他の生物学的マーカーは、人間の様々な情動現象と相関し得る。これら生物学的マーカーは、例えばＧＳＲセンサ、呼吸センサ、心電図または脳波図の電極、可視光および／もしくは不可視光スペクトルを用いた能動的または受動的な視覚センサ、眼追跡システム、ならびに筋電図電極などであるバイオセンサを使用して検出され得る。一または複数のこうしたセンサは、システム１００と共に使用されて生理学的データ２０８を収集することができるが、これは、情動音楽推薦システム１００によって、またはシステム１００外部のプロセスによって処理されて、聴取者の情動状態を識別し得る。一部の事例では、生理学的データ２０８は、聴取者デバイス１９０によって収集および／または処理される。生理学的データ２０８の収集および／または処理は、例えばＳｈｕＬ，ＸｉｅＪ，ＹａｎｇＭ，ｅｔａｌ．ＡＲｅｖｉｅｗｏｆＥｍｏｔｉｏｎＲｅｃｏｇｎｉｔｉｏｎＵｓｉｎｇＰｈｙｓｉｏｌｏｇｉｃａｌＳｉｇｎａｌｓ．Ｓｅｎｓｏｒｓ（Ｂａｓｅｌ）．２０１８；１８（７）：２０７４．Ｐｕｂｌｉｓｈｅｄ２０１８Ｊｕｎ２８．ｄｏｉ：１０．３３９０／ｓ１８０７２０７４に記載のものなどである技術を用いて実施することができ、当該文献は、その全体として参照により本明細書に組み込まれる。他の実施形態では、このような生理学的データは、他の生物学的マーカーが、このシステムの使用からの所望の結果に紐付けられているとき、情動状態データに加えて、別個の入力として使用することができる。例えば、所望の結果として、目標の情動状態、ならびに目標の生理学的な結果（すなわち、１０％の心拍数減少）を含む実施形態では、生理学的データは、ユーザの現在の状態５１６および目標の状態５１４を表す要素としても使用され得る。

聴取者から収集した他のデータも、情動状態を推論するために使用できる。カメラデータを、情動状態または情動応答と相関する顔の表情または他の挙動パターンを分析するために使用することができる。発話の記録または録音で、情動状態または情動応答と相関する、プロソディー、イントネーション、または発話内容のパターンを明らかにすることができる。一部の実施形態では、聴取者デバイス１９０またはシステム１００の内部もしくは外部の別のプロセスを使用して、カメラ、発話、または他のユーザデータを収集および／または処理し、聴取者の現在の情動状態２１２を識別する際に支援してもよい。ユーザの顔を示すカメラデータは、例えば、Ｓａｍａｒａ，Ａ．，Ｇａｌｗａｙ，Ｌ．，Ｂｏｎｄ，Ｒ．ｅｔａｌ．Ａｆｆｅｃｔｉｖｅｓｔａｔｅｄｅｔｅｃｔｉｏｎｖｉａｆａｃｉａｌｅｘｐｒｅｓｓｉｏｎａｎａｌｙｓｉｓｗｉｔｈｉｎａｈｕｍａｎ－ｃｏｍｐｕｔｅｒｉｎｔｅｒａｃｔｉｏｎｃｏｎｔｅｘｔ．ＪＡｍｂｉｅｎｔＩｎｔｅｌｌＨｕｍａｎＣｏｍｐｕｔ１０，２１７５－２１８４（２０１９）ｄｏｉ：１０．１００７／ｓ１２６５２－０１７－０６３６－８に記載のものなどである技術に従って情動状態情報に関して解析することができるが、当該文献は参照によりその全体が本明細書に組み込まれる。

図６～１０は、例示的なユーザインターフェース（ＵＩ）画面を示す。これら画面は、聴取者デバイス１９０のタッチスクリーン１９４上でユーザに示すことができ、またユーザ入力を収集するだけでなく、ユーザに情報を提供する役目を果たすことができる。図６を参照すると、ＵＩ画面のセッション開始シーケンス６００が示されるが、当該ＵＩ画面は、情動音楽推薦システム１００とのインタラクションのセッションを開始するためにユーザに提示される。第一の画面６０２は、モード選択肢のセットをユーザに提示するが、各モードは目標の情動状態２１４に対応している。この画面６０２に示されるモードは、「集中」（例えば、高活性度に対応する）および「穏やか」（例えば、低活性度に対応する）である。選択されると、ユーザが上述のような情動推論ニューラルネットワーク１４０の推論訓練プロセスに入ることを可能にし得る、「あなたのＡＩを訓練」の入力領域も提示される。

ユーザが目標の情動モードを選択すると、システム１００が、この入力を使用して、ユーザセッション中に使用される目標の情動状態２１４を決定し得る。次に、第二の画面６０４がユーザに提示されるが、これはユーザが自身の現在の状況または環境の性質を特定できるようにするものであり、例えば環境が静か且つ私的であるか、騒がしい且つ私的であるか、静か且つ公衆であるか、騒がしい且つ公衆であるか、または移動により時間に沿って変化するかなどである。第三の画面６０６で、ユーザは、プレイリストモードと没入モードとの間で選択することができる。この画面６０６では、例えばユーザに対して、プレイリストを示すストリームデータ２３６が提示される（プレイリストモードで）、または単にストリームデータ２３６にオーディオストリーム２３４自体を含ませて、ユーザとのさらなるインタラクションなしに聴覚的提示のために聴取者デバイス１９０に直接送信することが可能になり得る。一部の実施形態では、このモード選択画面６０６によって、ユーザは、音楽ライブラリ１８４から、ユーザセッション用にどのオーディオセグメントのサブセット２２０を使用するかを特定できる（したがって、どのＤＱＮがＤＱＮ１２２、１２４～１２６から選択されるか）ようになり得る。

第四の画面６０８では、ユーザは、ユーザセッションに使用する音楽のジャンルを選択することができる。これにより、ユーザセッションに使用するオーディオセグメントの可能性のあるサブセット２２０を選択する、またはさらに絞り込むことができる。第五の画面６１０では、ユーザは、オーディオストリーム２３４の継続時間を選択することができる。ユーザが選択した継続時間は、オーディオストリーム２３４内に含まれるオーディオセグメント２３０の数を決定するために使用され得るが、これが次に、ＤＱＮ１２０でいくつのセグメント識別ステップが実行するかを決定する。一部の実施形態においては、ユーザはまた、この画面６１０を使用して、環境トラックを選択して、当該セッションの長さ（すなわち、ＤＱＮ１２０が講じるステップの数）またはオーディオストリーム２３４のその他のオーディオ特性を決定することができる。

第六の画面６１２では、ユーザは、自身の現在の情動状態２１２を識別することができる。図示した実施例では、垂直方向軸に活性度および水平方向軸に感情価を示した、情動空間の二次元表現を使用する。二次元空間はさらに、名前を付けた情動状態に対応する複数の領域で形成されており、例えば、この空間の右上四分円の緑色領域は「活力に満ちた」と名付けられ、左上四分円の赤色領域は「緊迫」と名付けられ、左下四分円の白色領域は「悲しみ」と名付けられ、右下四分円の青色領域は「穏やか」と名付けられ、左中央領域にある暗灰色または黒色の領域は、「恐れ」と名付けられ、また中央周辺の灰色領域は「ニュートラル」と名付けられている。ユーザは、当該空間の中心近くの白い円としてここに示す状態表示カーソルを、自身の自己評価による現在の情動状態または気分に対応する空間内の位置に移動させることができる。一部の実施形態はまた、例えば画面６１２の下部に示す不安メータスライダなどである追加的な入力部を含んで、上記二次元での情動状態の自己報告による表示を補完する第三の次元または追加的なデータを示してもよい。

第七の画面６１４では、ユーザが、第六の画面６１２からの自己報告によるデータを補完するために、またはその代替として、顔表情データを提供することを可能にする。ユーザが写真撮影を選択する場合には、聴取者デバイス１９０のカメラ制御インターフェースを使用して、第八の画面６１６が提示される。ユーザが第八の画面６１６で自身の顔の写真を撮影すると、例えばユーザの顔表情に基づいてシステムの情動分析により注釈が付けられた画像を、第九の画面６１８に示す。

一部の実施形態では、第六の画面６１２におけるものなどである、ユーザ入力から収集した自己報告によるデータを使用して、顔情動分析プロセスまたはユーザデータと関連する情動に関するその他のプロセス（例えば、上述のような生理学的信号、発話データなど）を訓練または較正することができる。

ユーザの現在の情動状態２１２が第六の画面６１２および／または第九の画面６１８からの入力に基づいて識別されると、システム１００は、オーディオストリーム２３４を生成して、上述のようにオーディオストリームデータ２３６を聴取者デバイス１９０に送信する。ユーザは、第十の画面６２０が提示され得、当該画面は、その画面６２０の一番下にある音楽コントロール表示内の第一のオーディオセグメントに対応するメタデータを示しており、ここでは音楽再生コントロールと一緒に、楽曲「ＦｅｅｌｉｎｇＧｏｏｄ（フィーリンググッド）」の曲名と継続時間として示される。画面６２０の上部および中央では、上述のように、ユーザセッション中にユーザの現在の情動状態の更新を開始するために、ユーザに、更新された現在の情動状態入力領域が提供される。

図７には、ＵＩ画面のセッション終了シーケンス７００が示されるが、当該ＵＩ画面は、情動音楽推薦システム１００とのインタラクションのセッションを終了するためにユーザに提示される。第一の画面７０２は、オーディオストリーム２３４聴取後に、ユーザセッション終了時点のユーザの更新された現在の情動状態を報告するための情動状態入力表示を提示する。この更新された現在の情動状態データは、上述のように情動推論ニューラルネットワーク１４０を更新するために使用される。第二の画面７０４は、第一の画面７０２からの自己報告によるデータを顔画像データで補完または置換するオプションを提示し、セッション前の第七の画面６１４から第九の画面６１８と同じプロセスに従って、このデータを収集および分析して、結果として第三の画面７０６をもたらす。次に、第四の画面７０８が、画面６１２および６１８からのユーザの最初に報告された現在の情動状態２１２と、画面６２０、７０２および７０６からのユーザのその後の更新された現在の情動状態とに基づいて、情動応答結果をユーザに示し得る。画面７０８の上部にあるグラフは、セッションにわたるユーザの情動トラジェクトリを示し得、また時間に沿った、名前が付いた一以上の情動状態の識別情報および／または大きさを含み得る。画面７０８の下部にある一連の棒グラフは、活性度および感情価によって、ならびに／または自己報告および顔分析によって、ユーザの情動応答を細分化し得る。

ユーザセッションが終了すると、システム１００は、アイドル時間を使用して、上述のようにＤＱＮ１２０を再訓練し得る。

図８は、新規ユーザに、またはシステムが記憶した自身の個人プロファイルを更新または増やすことを選択したユーザに提示される、ＵＩ画面のユーザカスタマイズシーケンス８００を示す。第一の画面８０２は、例えば生年月日および性別識別などである個人データを提供するようにユーザに促す。第二の画面８０４は、名前付きの複数の情動状態のそれぞれを体験する頻度を特定するようにユーザに促す。第三の画面６０６は、名前付きの情動状態の追加的なセットの頻度について、およびユーザが睡眠に問題を抱える頻度についてもユーザを促す。第四の画面８０８は、ストレスまたは不安を体験する頻度を特定するようにユーザに促す。システムは、このシーケンス８００におけるスライダおよび他のユーザ入力要素を通して提供されるユーザ入力に基づいて、システム１００の様々な部分の訓練および／または操作を較正またはカスタマイズし得る。例えば、頻繁に悲しみを感じるが、活力があると感じるのは稀であるユーザでは、ユーザに特有の情動状態値のベースラインまたは平均値のセットに基づいて、これら状態に対して与えられた重みを正規化するように較正された、ユーザの情動推論ニューラルネットワーク１４０を有し得る。システムはまた、このユーザ入力データを使用して、例えばメンタルヘルスまたは気分管理目標などであるユーザの目標を達成するためにシステムを使用する方法についてユーザに勧めることもできる。図９は、プロファイル作成プロセスの一部としてユーザに提示される、例示的なユーザプロファイルデータ収集ＵＩ画面９０２を示す。ＵＩ画面９０２の上部にある進捗バーは、ユーザがユーザプロファイル作成プロセスを通してどれだけ進捗したかを示す。ＵＩ画面９０２の下部は、通常ユーザが動揺を感じるのはどの程度かを示す、ユーザのための入力領域を示す。

図１０は、例示的な文脈情報収集ＵＩ画面１００２を示す。図４Ａ～Ｂおよび図５のニューラルネットワークまたは強化学習アルゴリズムへの入力として使用される文脈情報は、この画面１００２の文脈情報収集のインタラクションを使用して収集され得る。画面１００２の上部には、２次元の情動状態インジケータとしての現在の情動状態入力領域を示す。画面１００２の下部には、現在の環境が静かであるかまたは騒がしいか、ならびに現在の環境が私的であるかまたは公衆であるかを示す二つの切り替えとして、現在の環境の入力領域を示す。文脈情報は、タイムスタンプと関連付けて収集されてもよく、該タイムスタンプは、システム１００によって時刻を決定するために使用され得る。

一部の実施形態においては、複数のシステム１００、またはシステム１００の様々な構成要素（例えばＤＱＮ１２０または情動推論ネットワーク１４０など）の複数のバージョンを使用して、異なるユーザとインタラクションすることができる。様々なシステム１００または構成要素は、ユーザによって個人に合わせてもよく、記憶装置の機構を使用して、ユーザ識別子によってインデックス付けされた異なるシステムまたは異なるモデル（例えば、１２０または１４０）を記憶してもよい。

図１１は、例示的なマルチモデルシステム１１００を示す。こうしたマルチモデルシステム１１００の各ユーザは、個々のユーザが音楽にどのように反応するかの固有のダイナミクスを学習するように訓練され得る、自身の独自のモデルを所有することができる。マルチモデルシステム１１００では、聴取者デバイス１９０は、ユーザ識別子１１０４（例えば、ユーザＩＤ番号）を、例えば個人に合わせたＤＱＮ１２０および個別に訓練された情動推論アルゴリズム１４０などである個別ユーザ用の個人に合わせた機械学習モデルを記憶するデータベース１１０２に提供する。一部の実施形態においては、こうしたシステム１１００のユーザは、同様に、オーディオセグメント１８６の自身の独自の集合（すなわち、サブセット２２０）を作成でき、またこれらは、データベース１１０２によって記憶または識別されることもできる。ＤＱＮ１２２、１２４．．．１２６は、そのユーザに固有の行動（またはオーディオセグメント１８６のサブセット２２０）から構成することができ、またはそのユーザの音楽ライブラリからの選択であってもよい。

マルチモデルシステム１１００の一部の実施形態では、ＤＱＮ１２０および／またはオーディオセグメント１８６のサブセット２２０は、ユーザのベースラインの音楽嗜好に関する情報を収集することと（例えば、図８～９を参照して上述したユーザプロファイル作成プロセスの一部として）、それら嗜好と一致する音楽を含有するＤＱＮ１２０および／またはオーディオセグメント１８６のサブセット２２０とユーザを合致させることとによって、データベース１１０２から選択することができる。したがって、図１１に示すように、所与のマルチモデルシステム１１００は、特定のユーザおよびオーディオライブラリ１８４から選択されるオーディオセグメント１８６の特定のサブセット２２０に対して特有であり得る。オーディオセグメント１８６のサブセット２２０は、ユーザの選び方（例えば、ユーザの音楽ライブラリ）に基づくか、または現在の文脈において、どのセットがユーザにとって最善であるかを決定するアルゴリズムに基づくか（例えば、ユーザの現在の情動状態２１２、状況、および／または環境に基づいて）のいずれかで選択され得る。

一部の実施形態においては、マルチモデルシステム１１００の個々のパーソナライゼーションが、いくつかの段階で行われる。ユーザは、すべてのユーザに基づくか、または類似のプロファイルのユーザ（例えば、彼らの音楽の好み、ベースラインの気分プロファイル、性格プロファイルおよび／または人口統計を共有する）に基づくかのいずれかで訓練されたモデルから始めることができる。ゲート付きプロセスを使用して、これらのより全般的なモデルからユーザに開始させて、ユーザ自身の個別のモデルを徐々に訓練してもよい。これら個人に合わせたモデルがパフォーマンスの閾値に到達すると、実行時間での使用のためのより全般的なモデルに置き換えられることとなる。

パーソナライズされたモデルが使用される実施形態においては、ＤＱＮ訓練プロセスにおいて重要な入力データを提供するために、音楽の楽しさのメータを追加することもできる。ユーザがあるオーディオセグメントを好まない場合、そのオーディオセグメントを表すトラックに注釈を付けることができる。直接訓練プロセス２７０内の報酬関数２７２は、評価に応じて、報酬またはペナルティのいずれかを計算に入れることができる。これによりシステムは、ユーザが所与のオーディオセグメントを楽しんでいるか否かを迅速に学習することが可能になることとなり、これが、ある情動状態をそのユーザに誘発するときにオーディオセグメントの有効性に大きな影響を与え得る。

図１２は、再生されている現在のオーディオセグメントの楽しさに関してユーザが入力できるようにする、音楽の楽しさを評価する例示的なユーザインターフェース画面１２０２を示す。画面１２０２の上部には、情動状態更新入力領域を示す。画面１２０２の下部には、再生コントロールを示す。画面１２０２の中央部は、ユーザがスライダを動かして、再生されている現在のオーディオセグメントの楽しさのレベルを示すことができる、音楽の楽しさの入力領域を示す。

マルチモデルシステム１１００の構成要素は、文脈的パーソナライゼーションから始まり、プロファイルのパーソナライゼーション（各プロファイル群の十分なユーザがネットワークでアクティブになったら）、さらには独自のパーソナライゼーション（個々のユーザが十分なセッションを記録したら）へと進行してゆくことで、時間に沿って、深く高度に特有なパーソナライゼーションを可能にすることができる。文脈的パーソナライゼーションには、例えば初期情動状態、現在の音楽選好、および時刻などのデータが含まれ得る。プロファイルのパーソナライゼーションには、例えば性格、人口統計、ベースラインの音楽嗜好プロファイルなどのデータが含まれ得る。

いくつかの実施形態では、ＤＱＮ１２０および強化学習エージェント２３０の出力は、オーディオライブラリ１８４からのオーディオセグメント２３０の選択の代わりに、ライブラリＭＩＲデータ１８２からのＭＩＲ特徴量の選択である。

図１３は、例示的なＭＩＲ特徴量予測システム１３００を示す。一部のこうしたシステム１３００においては、ＤＱＮ１２０の出力ニューロン５０６は、ＭＩＲ特徴量当たり一つのニューロンを含むこととなるが、これは各ＭＩＲ特徴量のレベルまたは値を決定するために使用されることとなる。ＤＱＮ１２０出力のセットは、ＭＩＲベクトル１３０２を含めてクエリ１３０４をライブラリ１３０６に送信することによって、エージェント行動５３２の一部として、オーディオセグメント２３０（例えば、ユーザにより選択されたライブラリ１３０６などである所与のライブラリ内のＭＩＲ特徴量に最も適したオーディオセグメント）とその後合致し得るＭＩＲベクトル１３０２を表現することができる。次に、これらＭＩＲ特徴量（例えば、ＭＩＲベクトル１３０２）を、情動推論プロセス２２４に供給してもよく、および／またはＭＩＲ特徴量を、直接訓練プロセス２７０中にユーザが直接注釈付けしてもよい。こうした実施形態においては、ユーザは、一つのＤＱＮのみであってもよいが（ＤＱＮはこのとき、ＭＩＲ特徴量の組み合わせを決定しているところであるので）、代わりにユーザが、ＭＩＲ特徴量との適合性に基づいてそこからオーディオセグメント２３０を選択し得るものであるユーザ自身が作成の、ユーザの現在の音楽嗜好の要件、ベースラインのプロファイル、またはライブラリ（ライブラリ１３０６など）に応じて、オーディオセグメント１８６の一または複数のライブラリを有してもよい。

図１４は、所与の聴取者に特有な情動推論モデル（例えば、ＡＩＮＮ１４０）および／または深層Ｑネットワーク１２２、１２４、１２６のモデルデータベース１４０２を作成するための、例示的なモデルデータベース生成プロセス１４００のステップおよび構成要素を示す。モデルデータベース１４０２は、例えば、マルチモデルシステム１１００の各ユーザに対してモデルを生成および訓練するために使用され得る。

モデルデータベース生成プロセス１４００は、二つの段階、すなわちゼネラリストモデル訓練プロセス１４５０およびパーソナライズされたモデルの訓練プロセス１４６０を含む。モデルデータベース１４０２は、ゼネラリストモデルセット１４３２と、パーソナライズされたモデルのセット１４３４とで形成される。モデル１４３２、１４３４の各セットは、例えば、ＡＩＮＮ１４０および複数のＤＱＮ１２２、１２４、１２６を含み得る。ゼネラリストモデル１４３２は、パーソナライズされたモデル１４３４がパフォーマンス閾値を達成するまで、推論モードで音楽を推薦するために使用され得るが、当該パフォーマンス閾値の時点において、システム（例えば、マルチモデルシステム１１００）は、パーソナライズされたモデル１４３４を使用することに切り替えてユーザに音楽を推薦することができる。

ゼネラリストモデル訓練プロセス１４５０は、音楽トラックのＭＩＲデータを使用して、キュレーションプロセス１４２２に基づく音楽カタログ１４２０から音楽トラックのサブセットを抽出することで開始される。音楽カタログ１４２０は、一部の実施形態においては、音楽トラックからなるオーディオライブラリ１８４であり得る。音楽トラックは、一部の実施形態においては、オーディオセグメント２３０であり得る。各音楽トラックに関連付けられたＭＩＲデータは、一部の実施形態においては、音楽カタログ１４２０内にライブラリＭＩＲデータ１８２として記憶され得る。他の実施形態では、音楽トラックに関連付けられたＭＩＲデータが、例えばＭＩＲ抽出プロセス２２５を使用して、音楽トラックから抽出され得る。

したがって、一部の実施形態においては、キュレーションプロセス１４２２は、各トラックに関連付けられた主題のＭＩＲメタデータを記述する、ラベル付きデータセット（すなわち、オーディオライブラリ１８４）を必要とする。例えば音楽カタログ１４２０としては、愛に関する１９２０年代からのジャズ音楽のセット、および／または概して穏やかな活力のある１９６０年代からのロック音楽のセットが挙げられ得る。キュレーションプロセス１４２２は、例えば教師つきクラスタ化アルゴリズムなど、いくつかの既知の計算方法のいずれかを使用して、アルゴリズム的に実施することができる。

キュレーションプロセス１４２２で生成する音楽トラックのサブセットは、ＤＱＮプロセス１４２４によるグループで使用されて、訓練される対象である各ゼネラリスト深層Ｑネットワークに関連付けられた音楽トラックのグループを生成する。特定のＭＩＲ特徴量を有するオーディオセグメント２３０と所与のＤＱＮとの間の関係は、図２Ａを参照しながら上記している。

ゼネラリストモデル訓練プロセス１４５０はまた、上記の図２Ａ～２Ｂを参照して記載したように、聴取デバイス１９０から収集したユーザ集団全体からの既存のユーザデータ１４２６も使用する。既存のユーザデータ１４２６は、ユーザプロファイルデータ、ユーザの情動応答と相関する音楽を聴取するユーザの記録などを含み得る。ユーザグループ化プロセス１４２８は、既存のユーザデータ１４２６をクラスタ化またはセグメント化して、ユーザのタイプまたはユーザタイプのグループを識別し得る。ユーザのグループまたはタイプの識別の例は、ＦｅｉｙｕｎＺｈｕ，ＪｕｎＧｕｏ，ＺｈｅｎｇＸｕ，ＰｅｎｇＬｉａｏ，ＪｕｎｚｈｏｕＨｕａｎｇ，“Ｇｒｏｕｐ－ｄｒｉｖｅｎＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇｆｏｒＰｅｒｓｏｎａｌｉｚｅｄｍＨｅａｌｔｈＩｎｔｅｒｖｅｎｔｉｏｎ”，２０１７，ａｒＸｉｖ：１７０８．０４００１，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１７０８．０４００１に記載されており、その全体として参照により本明細書に組み込まれる。

ゼネラリストモデル転移学習プロセス１４０８は、ゼネラリストモデル１４３２の一または複数のセットを訓練するために使用される。ゼネラリストモデル転移学習プロセス１４０８は、ゼネラリストＡＩＮＮ１４０を訓練する情動推論ニューラルネットワーク（ＡＩＮＮ）ゼネラリストモデル訓練プロセス１４３０、およびゼネラリストＤＱＮ１２２、１２４、１２６のセットを訓練する深層Ｑネットワーク（ＤＱＮ）ゼネラリストモデル訓練プロセス１４３１を含み得る。機械学習の分野では、様々な転移学習技術が公知である。転移学習プロセスの例は、ＫｉｅｒａｎＷｏｏｄｗａｒｄａｎｄＥｉｍａｎＫａｎｊｏａｎｄＤａｖｉｄＪ．ＢｒｏｗｎａｎｄＴ．Ｍ．ＭｃＧｉｎｎｉｔｙ：“Ｏｎ－ＤｅｖｉｃｅＴｒａｎｓｆｅｒＬｅａｒｎｉｎｇｆｏｒＰｅｒｓｏｎａｌｉｓｉｎｇＰｓｙｃｈｏｌｏｇｉｃａｌＳｔｒｅｓｓＭｏｄｅｌｌｉｎｇｕｓｉｎｇａＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ”，２０２０，ａｒＸｉｖ：２００４．０１６０３，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２００４．０１６０３に記載されており、その全体として参照により本明細書に組み込まれる。

ＡＩＮＮゼネラリストモデル訓練プロセス１４３０は、様々なユーザのグループ（すなわち、ユーザグループ化プロセス１４２８によって出力されるユーザグループ）の中のユーザにＡＩＮＮ１４０を使用して、転移学習を用いるゼネラリストモデルセット１４３２のゼネラリストＡＩＮＮ１４０を訓練することができる。ＤＱＮゼネラリストモデル訓練プロセス１４３１は、ゼネラリストモデル１４３２のゼネラリストＡＩＮＮ１４０、およびＤＱＮプロセス１４２４によるグループによって出力されたＤＱＮがグループ化した音楽トラックを使用して、転移学習を使用してゼネラリストモデル１４３２のセットのゼネラリストＤＱＮ１２２、１２４、１２６を訓練することができる。例えば、ユーザグループ化プロセス１４２８で識別した特定のユーザグループは、特定のゼネラリストＡＩＮＮ１４０と関連付けることができ、またそれらユーザからの既存のユーザデータ１４２６は、所与のゼネラリストＡＩＮＮ１４０を訓練するために使用され得るが、その一方で、あるユーザグループと組み合わせた音楽トラックの特定のサブセットを、特定のゼネラリストＤＱＮと関連付けてもよく、またそのユーザグループのゼネラリストＡＩＮＮ１４０は、所与のＤＱＮを訓練するために使用することができる。

パーソナライズされたモデル訓練プロセス１４６０は、新規ユーザ１４０４がシステム１１００に追加されることで開始される。新規ユーザ１４０４は、例えば図１１を参照しながら上記に記載したユーザプロファイル生成プロセスを用いて、ユーザプロファイルを初期化するベースライン作成プロセス１４０６が提示され得る。ベースライン作成プロセス１４０６はまた、新規ユーザ１４０４の音楽選好を識別するのを支援するようにユーザに入力を誘発することもでき、例えば新規ユーザ１４０４は、ベースラインプロファイルを記入するように促され得、ならびに／またはシステム１１００が、新規ユーザ１４０４の音楽に対する嗜好および／もしくは挙動応答を理解するために、新規ユーザ１４０４に音楽クリップを急速に連続的に聴取させてもよい。

ベースライン作成プロセス１４０６中に収集された、音楽の嗜好、性格、ユーザプロファイル、および／またはその他の情報に基づいて、マッチングプロセス１４１０を実行する。マッチングプロセス１４１０は、一部の実施形態においては、機械学習技術または他のランク付けもしくはマッチングのアルゴリズムを使用してアルゴリズム的に行うことができる。ゼネラリストモデルのセット（例えば、ＡＩＮＮ１４０およびＤＱＮ１２２、１２４、１２６）は、例えばベースライン作成プロセス１４０６の出力に基づいて新規ユーザ１４０４と良好にマッチングするデータベース１１０２から、選択される。ユーザグループ（ユーザグループ化プロセス１４２８からの）および音楽トラックサブセット（ＤＱＮプロセス１４２４によるグループからの）に基づいて、ゼネラリストモデル１４３２をラベル付けすることによってマッチングプロセスを促進するために、ラベル付けプロセス１４３６を使用する。ラベル付けプロセス１４３６によって使用されるラベルデータは、任意の種類の識別ベクターであり得る。マッチングプロセス１４１０は、ベースライン作成プロセス１４０６によって出力されるデータ（例えば、ユーザプロファイルデータ）に基づいて、新規ユーザ１４０４を特定のユーザグループとマッチングさせることができ、またゼネラリストモデルのセット１４３２が、マッチングに基づいて選択されて、モデルデータベース１４０２を最初に形成するために使用することができる。

次に新規ユーザ１４０４に対して、パーソナライズされたモデルのセット１４３０が生成される。最初は、パーソナライズされたモデル１４３０は、マッチングプロセス１４１０に基づいて新規ユーザ１４０４のために選択されたゼネラリストモデル１４３２のコピーとすることができる。しかしながらパーソナライズされたモデル１４３０は、新規ユーザ１４０４からのデータを使用して訓練されて、それによってパーソナライズすることから、当該モデルがパフォーマンス閾値に到達し、上述のように推論のためにシステム１１０によって使用されるまで、その精度が向上することとなる。

音楽選択プロセス１４１２においては、新規ユーザ１４０４は、システム１１００にキュレーションしてほしい音楽のサブセットを手動で作成する。音楽選択プロセス１４１２は、例えば新規ユーザ１４０４が、ローカルもしくはリモートのカタログまたは音楽トラックのライブラリから音楽トラックを特定できるようにすることによって、ユーザ音楽カタログ１４１４を形成する。

パーソナライズされたモデルの訓練プロセス１４６０のＤＱＮプロセス１４１６によるグループは、上述のゼネラリストモデル訓練プロセス１４５０のＤＱＮプロセス１４２４によるグループと同様に動作する。ユーザ音楽カタログ１４１４から音楽トラックのサブセットが識別されて、訓練される対象であるパーソナライズされたモデル１４３０の深層Ｑネットワークのそれぞれに関連して音楽トラックをグループ化するために使用される。

新規ユーザ１４０４から収集したデータを、上述のゼネラリストモデル転送学習プロセス１４０８と同様に、パーソナライズされたモデルの転移学習プロセス１４１８を使用する各ユーザ体験の後で、パーソナライズされたモデル１４３０、特にパーソナライズモデル１４３０のＡＩＮＮ１４０、を訓練するために使用する。パーソナライズされたモデルの転移学習プロセス１４１８はまた、ベースライン作成プロセス１４０６から収集したデータも使用し得る。パーソナライズされたモデルの転移学習プロセス１４１８によって使用される因子は、以下で図１５を参照しながら説明する。

ＤＱＮパーソナライズモデル訓練プロセス１４１７は、上述のＤＱＮパーソナライズモデル訓練プロセス１４１７と同様に動作して、パーソナライズモデル１４３０のパーソナライズされたＡＩＮＮ１４０を使用して、パーソナライズモデル１４３０のＤＱＮ１２２、１２４、１２６を訓練する。

図１５は、図１４のパーソナライズモデル転移学習プロセス１４１８で用いるパーソナライズ化因子１５００を示す。パーソナライズモデル転移学習プロセス１４１８の目標は、文脈的パーソナライゼーション１５０４に対応するピラミッド１５０２の最上層から、プロファイルのパーソナライゼーション１５０６に対応するピラミッド１５０２の中間層を経て、ユーザごと（例えば、新規ユーザ１４０４）の個別モデル１５０８に対応するピラミッド１５０２の最下層に到達するまで、作業を行うことである。

文脈的パーソナライゼーション１５０４は、初期状態（例えば、ユーザの情動状態）、ユーザの現在表現された音楽選好、または他の環境変数（例えば、時刻）に基づく、モデル（例えば、ＡＩＮＮ１４０およびＤＱＮ１２２、１２４、１２６）のパーソナライゼーションを含み得る。したがって、文脈的パーソナライゼーション１５０４は、従来の音楽推薦システムで計算に入れられる因子に対応し得る。プロファイルのパーソナライゼーション１５０６は、ユーザの性格、人口統計メンバーシップ、ベースラインの音楽嗜好プロファイル、およびその他の全般的なユーザ特性に基づく、モデルのパーソナライゼーションを含み得る。一部の実施形態においては、プロファイルのパーソナライゼーション１５０６は、ユーザグループ化プロセス１４２８で決定したユーザグループ内のユーザのメンバーシップに基づいてもよい。個別モデル１５０８は、例えば図２Ａ～２Ｂを参照して上述したように、特定のユーザの音楽に対する情動応答を正確に推論するために、特定のユーザの情動応答を使用して訓練された個別のパーソナライズされたモデルである。

したがって、パーソナライズモデル１４３０の階層は、モデルデータベース生成プロセス１４００を使用して選択および訓練され得、文脈的パーソナライゼーション１５０４を使用してわずかにパーソナライズされたものから、プロファイルのパーソナライゼーション１５０６を使用してより詳細にパーソナライズされたもの、個別モデル１５０８を使用して非常に詳細にパーソナライズされたものに及ぶ。

本明細書に記載されるシステムの個々の構成要素は、情動音楽の推薦以外の用途にも使用され得る。情動推論ニューラルネットワーク１４０は、音楽の分析、マーケティング、または洞察の分野で使用することができ、それによって、その予測される情動影響に基づいて新規内容を評価することができるようになる。例えば、情動推論ニューラルネットワーク１４０の入力および出力を切り替えて、特定のユーザプロファイルを与えられた目標の気分状態を誘発する可能性が高い一連のＭＩＲ特徴量を提供することができる。本明細書に記載される様々なシステムによって生成されるデータは、例えば人口統計上のグループ、ユーザプロファイルグループ、および様々な嗜好プロファイルによってさらに分類され得る、ヒトの精神が音楽に対してどのように反応するかに関する新たな洞察を提供することなど、音楽業界内の様々な目的に有用であり得る。十分なデータがあれば、本明細書に記載のシステムの情動推論能力は、音楽の作曲に関する新しいメタデータを作成することが可能であり得、これにより機能的用途（例えば、映画の同期、音楽療法など）に対する確実性が増大し得る。

情動音楽の作曲のための方法、システム、および非一時的媒体の例を、図１６～３０を参照してこれから説明する。記載される音楽作曲システムは、音楽作曲プロセスの一または複数の段階で使用されて、聴取者に情動状態の変化を誘発することを意図した曲の、ＭＩＲブループリント、スコア、作曲リードシート、制作リードシート、ミックスおよび／またはマスターを生成することができる。例えば情動推論モデル（例えば、ＡＩＮＮ）およびＭＩＲ抽出プロセスなどである情動音楽推薦の文脈で上述した様々な構成要素を、本明細書に記載される音楽作曲システムの様々な実施形態で使用し得る。

図１６は、例示的な情動音楽作曲システム１６００を示す。情動音楽作曲システム１６００は、図１の情動音楽推薦システム１００に非常に類似したハードウェアおよびソフトウェア構成要素を備えたコンピューティングプラットフォームまたはシステムを用いて実施され得る。ここに示す例は、プロセッサシステム１６４０と通信する記憶装置１６３８を含み、該プロセッサシステム１６４０はまた同様に、ユーザとのインタラクションに使用されるユーザインターフェース１６４２と通信する。

記憶装置１６３８は、本明細書に記載の情動音楽作曲のための方法およびプロセスを実施するために使用される以下のソフトウェアおよびデータを記憶しているものであり、すなわち機械学習技術を使用した様々なモデルの訓練および動作をはじめとする本明細書に記載の技術を実施するプロセッサシステム１６４０によって実行されるソフトウェア命令１６１０；第１のＭＩＲ生成器ＧＡＮ１６１２～第ＮのＭＩＲ生成器ＧＡＮ１６１４として示される、様々な聴取者のプロファイル、ジャンルおよび／またはスタイルに関するＭＩＲデータを生成するために使用される複数のＭＩＲ生成器敵対的生成ネットワーク（ＧＡＮ）；第１のスコア生成器ＧＡＮ１６１６～第Ｎのスコア生成器ＧＡＮ１６１８として示される、様々なジャンルおよび／またはスタイルのスコアを生成するために使用される複数のスコア生成器ＧＡＮ；第１の情動推論ニューラルネットワーク１６２０～第Ｎの情動推論ニューラルネットワーク１６２２として示される、様々な聴取者プロファイルに関して情動応答を予測するために使用される複数の情動推論モデル；ならびに第１の適応音楽エージェントモデル１６２４～第Ｎの適応音楽エージェントモデル１６２６として示される、既存のトラックまたはオーディオステムライブラリ１６２８を改作して、様々な聴取者のプロファイル、ジャンルおよび／またはスタイルに関する目標の情動状態またはトラジェクトリを達成するために使用される複数の適応音楽エージェントモデルが含まれる。当然のことながら、モデルの各セットはＮ個のモデルを含むものとして示しているが、Ｎの値はセットごとに異なっていてもよい。

記憶装置１６３８はまた、オーディオステムライブラリ１６２８、一または複数のＭＩＲ生成器訓練データベース１６３０、スコア生成器訓練データベース１６３２、マスタリングエージェント訓練データベース１６３４、および適応音楽エージェント訓練データベース１６３６を含むデータを記憶している。

情動音楽作曲システム１６００の様々なソフトウェアとデータ構成要素との関係、およびユーザインターフェース１６４２を介したユーザとのそれらのインタラクションを、図１７Ａ～Ｄを参照しながら以下で説明する。次いで図１７Ａ～Ｄに示す様々なサブシステムの動作を、図１８～図２６を参照しながら説明する。

図１７Ａは、ＭＩＲ生成器プロセス１９００を含めて、図１６の例示的な情動音楽作曲システム１６００の第一の部分１７００ａのプロセス間の関係を示す。ＭＩＲ生成器プロセス１９００は、聴取者に特定の情動応答を誘発することを意図したオーディオセグメント（例えば、曲）のＭＩＲブループリントを生成するために使用する。ＭＩＲ生成器プロセス１９００で生成するＭＩＲブループリントは、典型的には、所望の情動応答を誘発することとなる、全体としての曲のＭＩＲ特徴量、ならびにオーディオセグメントの複数のエポック（すなわち、時間的なサブセグメント）のそれぞれについてのＭＩＲ特徴量の識別となる。ユーザ１７０２（アーティスト、制作者、または音楽の作曲または制作に関与する他のユーザであり得る者）が、ユーザインターフェース１６４２を介してシステム１６００とインタラクションする。ユーザ１７０２は、作曲意図設定プロセス１７０４とインタラクションすることができ、これが、作曲プロセス中に生成しようとする音楽データの所望の特性について、以下に記載されるシステム１６００の様々なサブシステムに通知する。図１７Ａに示すＭＩＲ生成器プロセス１９００は、例えば以下のような情報を提供することによって管理され得る：ユーザ１７０２は、完全なオーディオセグメント２３０（例えば、音楽トラック）または単にステム（すなわち、例えば曲の弦楽器成分またはリードボーカル成分などの同様の音源グループ）の作成を望んでいるか？ユーザ１７０２は、音楽のトラックまたはステムをどのぐらいの長さにしたいか？。作曲意図設定プロセス１７０４は、指定されたキー、テンポ、および／または曲構成など、ＭＩＲ生成を随意に制約するために使用される任意の条件１７０６を決定する。作曲意図設定プロセス１７０４はまた、セグメント長さ１７０８（例えば、音楽のトラックまたはステムの長さ）も決定する。

ユーザ１７０２はまた、情動意図設定プロセス１７１０とインタラクションすることもでき、これが、作曲プロセス中に生成しようとする音楽データの聴取者で誘発される所望の情動状態またはトラジェクトリについて、以下に記載するシステム１６００の様々なサブシステムに通知する。情動意図設定プロセス１７１０は、ユーザ１７０２が、作曲プロセス中に生成された音楽を聴取後の聴取者にどのように感じてほしいかを示す、目標の情動状態データ１７１２を生成し得る。

任意の条件１７０６、セグメント長さ１７０８、および目標の情動状態データ１７１２は、ＭＩＲ生成プロセス１９００への入力として使用されるが、これは図１９を参照しながら以下により詳細に説明する。

ＭＩＲ生成器プロセス１９００は、ここで第１のＭＩＲ生成器ＧＡＮ１６１２として示されるＭＩＲ生成器ＧＡＮを含む。一部の実施形態においては、ＭＩＲ生成器プロセス１９００は、制御ネットワークを有する条件付きＧＡＮとして実装され、任意の条件１７０６、セグメント長さ１７０８、および目標の情動状態データ１７１２が、ＭＩＲ生成器ＧＡＮ１６１２への条件付き入力として使用される。目標の情動状態データ１７１２はまた、以下でより詳細に説明するとおり、制御ネットワークへの入力として使用され得る。

ＭＩＲ生成器ＧＡＮ１６１２は、情動状態データおよび随意に他の条件でラベル付けしたＭＩＲデータのデータベース１７１６を訓練データとして使用して、ＭＩＲ生成器ＧＡＮ直接訓練プロセス１７１４によって訓練される。ＭＩＲデータのデータベース１７１６は、ユーザの集団のリスニングデバイス１９０から収集された既存のユーザデータ１４２６（図１４を参照して上述した）などである様々なデータソース、ならびに／またはＭＩＲデータを情動応答および／もしくは他の条件付きデータ（例えば、キー、テンポ、および／または曲構成などの任意の条件１７０６など）と関連付ける既存のデータ記録１７１８を使用して、形成されるか、またはそうでなければ生成され得る。一部の実施形態では、既存のユーザデータ１４２６は、上述のような情動音楽推薦システム１００を使用して収集され得る。

ＭＩＲ生成器ＧＡＮ１６１２はまた、図１８を参照しながら以下に説明するとおり、作曲ＡＩＮＮ１８００を用いて、ＭＩＲ生成器ＧＡＮ推論訓練プロセス１７２０によって訓練される。

ＭＩＲ生成器プロセス１９００は、ＭＩＲブループリント１７３０を生成するが、これは、潜在的に他のＭＩＲ特徴量と共に、一部の実施形態においてはメル周波数ケプストラム（ＭＦＣ）スペクトログラムを含み得る。ＭＩＲブループリント１７３０は、音楽データ（例えば、スコア、トラック、またはステム）の生成を支援するために、情動音楽作曲システム１６００の他の構成要素によって使用され得る。

図１８は、情動音楽作曲システム１６００によって使用される作曲ＡＩＮＮ１８００を表す簡略化した回帰型ニューラルネットワークを示す。作曲ＡＩＮＮ１８００は、図４Ｂを参照しながら上述したＡＩＮＮ１４０と非常に類似して動作する。しかしながら、個々のユーザの現在の情動状態２１２を入力として使用する代わりに、作曲ＡＩＮＮ１８００は、情動応答データでラベル付けしたＭＩＲデータ、ならびにＭＩＲデータに関連付けられた文脈情報４３２を含む、ＭＩＲデータ１７１６のデータベースからの訓練データを使用して訓練される。したがって、作曲ＡＩＮＮ１８００は、推論モードで動作して、ユーザの現在の情動状態に関係なく、ＭＩＲ特徴量のセット（全体ＭＩＲ特徴量４３３、ならびに時系列のエポック特有ＭＩＲ特徴量４３４を含む）に対する一般的ユーザの情動応答を予測する。

図１９は、情動音楽作曲システム１６００で用いる例示的なＭＩＲ生成器プロセス１９００を示す。ＭＩＲ生成器プロセス１９００は、ＭＩＲ生成器ＧＡＮ（生成器ネットワーク１９０２および確率ネットワーク１９０４からなる）として、制御ネットワーク１９０６を備えて構成され得、これはＣｏｎｇＪｉｎ，ＹｕｎＴｉｅ，ＹｏｎｇＢａｉ，ＸｉｎＬｖ，ＳｈｏｕｘｕｎＬｉｕ，“ＡＳｔｙｌｅ－ＳｐｅｃｉｆｉｃＭｕｓｉｃＣｏｍｐｏｓｉｔｉｏｎＮｅｕｒａｌＮｅｔｗｏｒｋ”，９Ｊｕｎｅ２０２０，ＮｅｕｒａｌＰｒｏｃｅｓｓｉｎｇＬｅｔｔｅｒｓ（２０２０）５２：１８９３－１９１２，ｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１００７／ｓ１１０６３－０２０－１０２４１－８（以下、「Ｊｉｎ」）に記載されるとおりであり、当該文献はその全体が参照により本明細書に援用される。ＭＩＲ生成器ＧＡＮ自体、特に生成器ネットワーク１９０２は、条件付きＧＡＮとして構成され得、これはＹｉＹｕ，ＳｉｍｏｎＣａｎａｌｅｓ，“ＣｏｎｄｉｔｉｏｎａｌＬＳＴＭ－ＧＡＮｆｏｒＭｅｌｏｄｙＧｅｎｅｒａｔｉｏｎｆｒｏｍＬｙｒｉｃｓ”，２０１９，ａｒＸｉｖ：１９０８．０５５５１，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１９０８．０５５５１に記載されるとおりであり、当該文献はその全体が参照により本明細書に援用される。生成器ネットワーク１９０２は、生成器ニューラルネットワーク１９０７を備え、また確率ネットワーク１９０４は、識別器ニューラルネットワーク１９０８を備え、各ニューラルネットワーク１９０７、１９０８は、ＬＳＴＭ（ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ）を有する回帰型ニューラルネットワーク（ＲＮＮ）、畳み込みニューラルネットワーク、標準多層パーセプトロンニューラルネットワーク、または何らかの他のタイプのニューラルネットワークもしくは機械学習モデルであり得る。ＭＩＲ生成プロセス１９００の機能性は、変分オートエンコーダ（ＶＡＥ）または単に回帰型ニューラルネットワーク（ＲＮＮ）自体などの他の生成深層学習様式によって達成することもできる。ＧＡＮモデルは、必要な機能性を実行する効果的な手段として評価されているが、特に機械学習の進歩に伴い、追加的な類似のアルゴリズムも効果的である可能性がある。

ＭＩＲ生成器プロセス１９００は、二つの訓練段階を有する訓練モード、またはＭＩＲブループリント生成モードで動作する。訓練モードの第一の訓練段階では、確率ネットワーク１９０４の識別器ニューラルネットワーク１９０８は、ＭＩＲデータ１７１６のデータベースからの実際の記憶されたＭＩＲブループリント１９１０（すなわち、人間であるアーティストが作曲した実際の曲に対応するＭＩＲブループリント）を使用して、ＭＩＲブループリントを認識するように訓練される。

第二の訓練段階では、生成ネットワーク１９０２は、ＭＩＲデータ１７１６のデータベースからの入力（すなわち、条件）として、任意の条件１７０６、セグメント長さ１７０８、および目標の情動状態データ１７１２を受信する。生成ネットワーク１９０２は、ＭＩＲブループリント（生成されたＭＩＲブループリント１９１２として示される）を生成するように構成された生成ニューラルネットワーク１９０７を備える。訓練プロセスの開始時においては、生成された各ＭＩＲブループリント１９１２は、本質的にランダムなデータである。しかしながら、確率ネットワーク１９０４は、制御ネットワーク１９０６が介在する生成ネットワーク１９０２にフィードバックを提供し、生成ネットワーク１９０２を訓練して、ますます妥当なＭＩＲブループリントを生成するために使用される。識別器ニューラルネットワーク１９０８は、各生成されたＭＩＲブループリント１９１２を、ＭＩＲデータのデータベース１７１６からの実際の記憶されたＭＩＲブループリント１９１０と比較する。この比較の結果は、確率値１９１６（例えば、０～１の値）であり、当該値は、生成されたＭＩＲブループリント１９１２が実際の曲のＭＩＲブループリントであるかどうかに関する識別器ニューラルネットワーク１９０８の推論の尤度を示す。

制御ネットワーク１９０６は、情動推論モデル（作曲ＡＩＮＮ１８００として示される）およびクリティック（Ｃｒｉｔｉｃ）１９１４（Ｊｉｎの文献に記載されるとおり）を備える。クリティック１９１４は、生成されたＭＩＲブループリント１９１２を、目標の情動基準を満たすものに制限するよう動作する。したがって、第二の訓練段階では、クリティック１９１４は、以下の三つの入力、すなわち生成されたＭＩＲブループリント１９１２に基づいて確率ネットワーク１９０４によって生成される確率値１９１６、生成されたＭＩＲブループリント１９１２に基づいて作曲ＡＩＮＮ１８００によって生成される予測された情動１９２０（すなわち、ＭＩＲブループリントに合致する音楽に対する聴取者の予測された情動応答）、およびＭＩＲデータのデータベース１７１６から受信された目標の情動状態データ１７１２、を受信する。クリティック１９１４は、生成されたＭＩＲブループリント１９１２がどの程度妥当であるか、および目標の情動状態データ１７１２を満たす可能性がどの程度高いかに基づいて報酬１９１８を生成するために、確率値１９１６、予測された情動１９２０、および目標の情動状態データ１７１２に報酬関数を適用する。報酬１９１８は、生成器ニューラルネットワーク１９０７を訓練するためのフィードバックとして使用され、それによって、報酬関数によって特定された目標の情動状態データ１７１２を満たす、妥当に生成されたＭＩＲブループリント１９１２を生成する能力を向上させる。クリティック１９１４の報酬関数は、例えば作曲ＡＩＮＮ１８００などである情動推論モデルによって駆動される。

生成ネットワーク１９０２および確率ネットワーク１９０４は、制御ネットワーク１９０６によって支援されるものであり、したがってＭＩＲ生成器ＧＡＮ（第１のＭＩＲ生成器ＧＡＮ１６１２など）を共同で構成する。ＭＩＲブループリント生成モードでは、任意の条件１７０６、セグメント長さ１７０８、および目標の情動状態データ１７１２は、ＭＩＲデータのデータベース１７１６によって提供される代わりに、作曲意図設定プロセス１７０４および情動意図設定プロセス１７１０を介して、ユーザ１７０２によって提供される。生成器ネットワーク１９０２を使用して、目標の情動状態データ１７１２に合致する、生成されたＭＩＲブループリント１９１２（例えば、図１７ＡのＭＩＲブループリント１７３０）を生成する。

図１７Ｂは、スコア生成器プロセス２０００を含めて、例示的な情動音楽作曲システム１６００の第二の部分１７００ｂのプロセス間の関係を示す。音楽の作曲とは、楽曲を書くことを指し、また作曲の最終的な結果物は、スコア、すなわち曲の記録のオーディオ特性を生成するために、どの時点にどの音符をどの楽器で、そしてどの方法で演奏すべきかを特定するドキュメント、の生成である。図１７Ａにあるように、ユーザ１７０２は、作曲意図設定プロセス１７０４とインタラクションして、例えば以下の情報を提供することによって、スコア生成器プロセス２０００を管理することができる：ユーザ１７０２は、和声進行、旋律、リズム、または総譜を望んでいるか？ユーザ１７０２は、どの楽器を望んでいるか？ユーザ１７０２は、どのぐらいの長さのスコアを望んでいるか？。したがって、作曲意図設定プロセス１７０４では、スコアタイプ１７３２、楽器１７３４、およびスコア長さ１７３６を決定する。スコアタイプ１７３２は、リズム、和声進行、および／または旋律を特定することができる。

スコア生成プロセス２０００は、スコアタイプ１７３２、楽器１７３４、およびスコア長さ１７３６を条件付き入力として受信する。スコア生成プロセス２０００はまた、生成しようとするスコアに必要なＭＩＲデータのセット１７３８を受信するが、これはスコア生成プロセス２０００の制御ネットワークへの条件付き入力および／または入力として使用される。必要なＭＩＲデータのセット１７３８は、一部の実施形態においては、ＭＩＲ生成プロセス１９００によって生成されたＭＩＲブループリント１７３０から抽出することができ、または別のＭＩＲブループリントもしくはＭＩＲデータのソースから抽出することができる。一部の実施形態においては、スコア生成プロセス２０００によって使用される必要なＭＩＲデータのセット１７３８は、ＭＩＲブループリント１７３０に含まれるＭＩＲデータの一部分のみであってもよく、他の実施形態においては、それは、ＭＩＲブループリント１７３０に含まれる全てのＭＩＲデータを含んでもよい。

スコア生成プロセス２０００は、スコア生成器ＧＡＮを含み、これは本明細書においては第１のスコア生成器ＧＡＮ１６１６として示される。スコア生成プロセス２０００は、その入力に対して、例えばミュージカルインストゥルメントデジタルインターフェース（ＭＩＤＩ）スコアなどであるスコア１７４２を出力として生成するように動作する。その出力を生成するためのその入力に対するスコア生成プロセス２０００の動作は、図２０を参照しながら以下により詳細に説明する。

スコア生成プロセス２０００は、ラベル付きスコアデータ１７４６のデータベースによって提供されるラベル付きスコアデータを使用して、スコア生成器訓練プロセス１７４４によって訓練モードで訓練される。当該ラベル付きスコアデータは、スコア生成器プロセス２００およびそのスコア生成器ニューラルネットワーク（例えば、第１のスコア生成器ニューラルネットワーク１６１６）の訓練で使用しようとするＭＩＲブループリントおよび／または他の条件付き入力でラベル付けした、人間が作曲したスコアを含み得る。

図２０は、上記図１７Ｂを参照して説明する例示的なスコア生成器プロセス２０００を示す。スコア生成器プロセス２０００は、ＭＩＲ生成器プロセス１９００と同様に構成することができ、すなわち生成器ネットワーク２００２および確率ネットワーク２００４を備え、制御ネットワーク２００６を有する、条件付きＧＡＮである。生成器ネットワーク２００２は、生成器ニューラルネットワーク２００７を備え、また確率ネットワーク２００４は、識別器ニューラルネットワーク２００８を備え、各ニューラルネットワーク２００７、２００８は、ＬＳＴＭ（長短期メモリ（ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ））を有する回帰型ニューラルネットワーク（ＲＮＮ）、畳み込みニューラルネットワーク、標準多層パーセプトロンニューラルネットワーク、または何らかの他のタイプのニューラルネットワークもしくは機械学習モデルであり得る。スコア生成プロセス２０００の機能性は、変分オートエンコーダ（ＶＡＥ）または単に回帰型ニューラルネットワーク（ＲＮＮ）自体などの他の生成深層学習様式によって達成することもできる。ＧＡＮモデルは、必要な機能性を実行する効果的な手段として評価されているが、特に機械学習の進歩に伴い、追加的な類似のアルゴリズムも効果的である可能性がある。

スコア生成器プロセス２０００は、二つの訓練段階を有する訓練モード、またはスコア生成モードで動作する。訓練モードの第一の訓練段階では、確率ネットワーク２００４の識別器ニューラルネットワーク２００８は、ラベル付きスコアデータ１７４６のデータベースからの実際の記憶されたスコア２０１０（すなわち、人間であるアーティストが作曲したスコア）を用いてスコアを認識するように訓練される。

第二の訓練段階では、生成ネットワーク２００２は、任意の必要なＭＩＲデータ１７３８、スコア長さ１７３６、楽器１７３４、およびスコアタイプ１７３２を、ラベル付きスコアデータのデータベース１７４６からの入力（すなわち、条件）として受信する。生成ネットワーク２００２は、スコア（生成されたスコア２０１２として示される）を生成するように構成された生成ニューラルネットワーク２００７を備える。訓練プロセスの開始時においては、生成された各スコア２０１２は、本質的にランダムなデータである。しかしながら、確率ネットワーク２００４は、制御ネットワーク２００６が介在する生成ネットワーク２００２にフィードバックを提供し、生成ネットワーク２００２を訓練して、ますます妥当なスコアを生成するために使用される。識別器ニューラルネットワーク２００８は、各生成されたスコア２０１２を、ラベル付きスコアデータのデータベース１７４６からの実際の記憶されたスコア２０１０と比較する。この比較の結果物は、確率値２０１６（例えば、０～１の値）であり、当該値は、生成されたスコア２０１２が実際のスコアであるかどうかに関する識別器ニューラルネットワーク２００８の推論の尤度を示す。

制御ネットワーク２００６は、クリティック２０１４を備える。クリティック２０１４は、生成されたスコア２０１２を、例えば音楽理論ルールのデータベースとして、記憶され得る音楽理論ルールのセット２０２０を満たすものに制限するよう動作する。したがって、第二の訓練段階では、クリティック２０１４は、以下の三つの入力を受信する：生成されたスコア２０１２に基づいて確率ネットワーク２００４によって生成された確率値２０１６、音楽理論ルール２０２０、およびラベル付きスコアデータのデータベース１７４６によって提供される必要なＭＩＲデータ１７３８。クリティック２０１４は、生成されたスコア２０１２がどの程度妥当であるか、音楽理論ルール２０２０を満たす可能性はどの程度高いか、および生成されたスコア２０１２が、ＭＩＲデータのセット（すなわち、ラベル付きスコアデータ１７４６のデータベースによって提供される必要なＭＩＲデータ１７３８）のマッチングにどの程度近いかに基づいて報酬２０１８を生成するために、報酬関数を確率値２０１６、音楽理論ルール２０２０、および必要なＭＩＲデータ１７３８に適用する。報酬２０１８は、生成器ニューラルネットワーク２００７を訓練するためのフィードバックとして使用され、それによって音楽理論ルール２０２０を満たし且つ必要なＭＩＲデータ１７３８に合致する、妥当に生成されたスコア２０１２を生成する能力が向上する。

生成ネットワーク２００２および確率ネットワーク２００４は、制御ネットワーク２００６によって支援されるものであり、したがってスコア生成器ＧＡＮ（第１のスコア生成器ＧＡＮ１６１６など）を共同で構成する。スコア生成モードでは、スコア長さ１７３６、楽器１７３４、およびスコアタイプ１７３２は、作曲意図設定プロセス１７０４を介してユーザ１７０２によって提供され、またＭＩＲデータ１７１６のデータベースによって提供される代わりに、必要なＭＩＲデータ抽出プロセス１７４０を介して、ＭＩＲブループリント１７３０によって随意に必要なＭＩＲデータ１７３８が提供される。生成器ネットワーク２００２を使用して、ＭＩＲブループリント１７３０に合致し且つ音楽理論ルール２０２０に従う妥当に生成されるスコア２０１２（例えば、図１７Ａのスコア１７４２）を生成する。

図１７Ｂに戻ると、スコア生成器プロセス２０００で生成したスコア１７４２は、後続の音楽制作プロセスのための人間であるアーティストによるスコアとして使用され得る。しかしながら、スコア１７４２はまた、音楽制作のその後のステップのうちの一または複数を自動化するために、情動音楽作曲システム１６００のその後のプロセスによって使用することもできる。一部の実施形態においては、ユーザ（例えば、スコア１７４２を生成するシステム１６００または別のユーザとインタラクションしたアーティストまたは制作者）が、音楽作曲プロセス１７４８とインタラクションして、スコア１７４２および／または作曲リードシート２４００に基づいて、音楽のトラックまたはステムのラフミックス１７５０を生成することができる。作曲リードシート２４００は、ＭＩＲブループリント１７３０に基づいて、作曲リードシートプロセス２３００によって生成され得る。作曲リードシートプロセス２３００は、図２３を参照して以下に詳細に記載し、また例示的な作曲リードシート２４００は、図２４Ａ～Ｂを参照しながら記載する。

ユーザ１７０２は、例えばデジタルオーディオワークステーション（ＤＡＷ）または他のオーディオワークステーションなどであるユーザインターフェース１６４２を介して、音楽作曲プロセス１７４８とインタラクションすることができる。

図２３は、図１６の情動音楽作曲システム１６００で使用され、図１７Ｂに示される、作曲リードシートプロセス２３００を示す。作曲リードシートプロセス２３００は、ＭＩＲブループリント１７３０に対してデータ変換２３０２を実施して、作曲リードシート２４００を生成する。

図２４Ａは、図２３の作曲リードシートプロセスにより生成した作曲リードシートの例示的な情動空間インジケータ２４２０である。情動空間インジケータ２４２０は、図６、７、１０、および１２のＵＩ画面によって使用される情動状態の２次元の視覚的インジケータと同様であり、すなわち当該インジケータが、水平方向軸２４３０が感情価（右に向けてプラス）であり、また垂直方向軸２４２８が活性度（上に向けて高い）である２次元情動空間内に位置する作曲リードシート（ＭＩＲブループリント１７３０に基づく）の情動状態２４２４を特定する。多数の気分が、例えば優しさ２４２２および平穏２４２６などである領域として示される。この例では、作曲リードシートの情動状態２４２４が、優しさ２４２２と平穏２４２６との間に位置しており、非常にプラスである感情価且つわずかに低い活性度を示している。

図２４Ｂは、図２３の作曲リードシートプロセス２３００により生成した例示的な作曲リードシート２４００を示す。作曲リードシート２４００は、音楽セグメント（例えば、音楽トラックまたはステム）を生成するために実行しようとする作曲プロセスに関連する様々なタイプの情報を示す。

種々のフィールドが、全体として音楽セグメントの特性を示す。ミックス音質フィールド２４０２は、「楽器の選択およびパフォーマンスが、強い低周波が存在する広いスペクトル領域を提供する必要がある（ＥＱ）（Ｉｎｓｔｒｕｍｅｎｔａｔｉｏｎｃｈｏｉｃｅｓａｎｄｐｅｒｆｏｒｍａｎｃｅｓｈｏｕｌｄｐｒｏｖｉｄｅｓａｗｉｄｅｓｐｅｃｔｒａｌｒａｎｇｅ（ＥＱ）ｗｉｔｈａｓｔｒｏｎｇｌｏｗ－ｆｒｅｑｕｅｎｃｙｐｒｅｓｅｎｃｅ）」というテキストとしてここに示される、ミックス音質に関連する情報を提供する。テンポフィールド２４１２は、「１１１」というテキストとしてここに示される、音楽のセグメント長さに関する情報を提供する。メータフィールド２４１４は、「シンプル」というテキストとしてここに示される、音楽のセグメント長さに関する情報を提供する。構成フィールド２４１６は、「５セクション」というテキストとしてここに示される、音楽のセグメント長さに関する情報を提供する。キーフィールド２４１８は、「Ａメジャー」というテキストとしてここに示される、音楽のセグメント長さに関する情報を提供する。キー明瞭性フィールド２４２０は、「低」というテキストとしてここに示される、音楽のセグメント長さに関する情報を提供する。和声複雑性フィールド２４２２は、「高」というテキストとしてここに示される、音楽のセグメント長さに関する情報を提供する。和声バランスフィールド２４２４は、「マイナー偏向」というテキストとしてここに示される、音楽のセグメント長さに関する情報を提供する。不協和音フィールド２４２６は、「中程度」というテキストとしてここに示される、音楽のセグメント長さに関する情報を提供する。

いくつかの時系列の音楽セグメントデータは、第一のエポック２４４２から第七のエポック２４５４までの、音楽セグメント内の異なる時点のエポック２４４２、２４４４、２４４６、２４４８、２４５０、２４５２、２４５４、またはサブセグメントにおける音楽セグメントの様々な特性を示す。リズム複雑性の時系列２４３４は、複雑（高い）からシンプル（低い）の間で各エポックのリズム複雑性をグラフ化している。ピッチ中心の時系列２４３６は、高（高い）から低（低い）の間で各エポックのピッチ中心をグラフ化している。強度の時系列２４３８は、高（高い）から低（低い）の間で各エポックの強度をグラフ化している。密度の時系列２４４０は、厚（高い）から薄（低い）の間で各エポックの密度をグラフ化している。

作曲リードシート２４００はまた、図２４Ａを参照しながら記載するとおり、情動空間インジケータ２４２０または他の情動状態データも含み得る。

図１７Ｂに戻ると、音楽作曲プロセス１７４８とインタラクションしているユーザ１７０２は、スコア１７４２の補助の有無に関わらず、ラフミックス１７５０の制作をガイドする作曲リードシート２４００で提供された情報を頼りにすることができる。あるいはユーザ１７０２は、ラフミックス１７５０を制作する際に、スコア１７４２自体を頼りにすることができる。

ラフミックス１７５０は、図１７Ｃ～Ｄに示すシステム１６００の第三の部分１７００ｃおよび第四の部分１７００ｄを参照して記載されるように、システム１６００のその後の動作によってさらに改良され得る。

図１７Ｃは、自動マスタリングプロセス２１００を含めて、例示的な情動音楽作曲システム１６００の第三の部分１７００ｃのプロセス間の関係を示す。マスタリングとは、マスター録音（マスターとも呼ぶ）、すなわち聴衆に提示する準備のできた曲の最終の正式な記録、を生成する、様々な楽器のトラック（すなわち、ステム）のサウンドレベルの設定および他のサウンドイコライゼーション設定を指す。マスターは、そこから曲のその後のコピーのすべてが作成される音源として使用される。ユーザ１７０２－音楽作曲プロセス１７４８、作曲意図設定プロセス１７０４、および／または情動意図設定プロセス１７１０とインタラクションしているユーザ１７０２と同じユーザまたは異なるユーザであり得る者－は、音楽制作プロセス１７５８とインタラクションして、ラフミックス１７５０または最終ミックス１７６０を生成する。音楽作曲プロセス１７４８による場合と同様に、ユーザ１７０２は、例えばデジタルオーディオワークステーション（ＤＡＷ）または他のオーディオワークステーションなどであるユーザインターフェース１６４２を介して、音楽制作プロセス１７５８とインタラクションすることができ、またユーザ１７０２は、制作リードシート２６００（図２６を参照しながら以下に記載する）および／または既存のラフミックス１７５０（音楽作曲プロセス１７４８によって生成されるラフミックス１７５０など）によって支援され得る。

制作リードシート２６００は、例えばシステム１６００のこれ以前の部分１７００ａ、１７００ｂで生成されたＭＩＲブループリント１７３０などであるＭＩＲブループリント１７３０に基づいて、制作リードシートプロセス２５００（図２５を参照しながら後述）によって生成され得る。

自動マスタリングプロセス２１００を使用して、音楽制作のマスタリング段階を自動化することができる。自動マスタリングプロセス２１００は、図２１Ａ～Ｂを参照して以下でより詳細に記載するように、強化学習モデルを使用して実施され得るマスタリングエージェント２１０２を含む。自動マスタリングプロセス２１００は、音楽制作プロセス１７５８によって生成される最終ミックス１７６０、ステレオ形式１７６２の既存のトラック（既存のトラックをリマスタリングするため）、または適応させた最終ミックス１７９０（以下に図１７Ｄを参照しながら記載）のいずれかに対して自動化されたマスタリングを実施し得る。自動マスタリングプロセス２１００は、一または複数の反復（以下に記載される）で、その入力に基づいて、最終マスター１７７０を生成することができるが、これは最終マスター音楽トラック（すなわち、オーディオセグメント）としてオーディオライブラリ１８４に保存され得る。一部の実施例においては、自動マスタリングプロセス２１００は、中盤の制作で使用され得る。すなわちユーザ１７０２は、音楽制作プロセス１７５８とインタラクションして、自動マスタリングプロセス２１００に対して、マスタリング段階に到達している人間が作曲した曲に対してマスタリングプロセスの一または複数の反復を実行させることができる。

マスタリングエージェント２１０２は、マスタリングエージェント訓練プロセス１７５４を使用して訓練されてもよく、これは訓練データを提供するマスタリング基準および／またはルールのデータベース１７５２を使用する。マスタリングエージェント訓練プロセス１７５４、および自動マスタリングプロセス２１００の動作は、以下の図２１Ａ～Ｂを参照してより詳細に記載する。

システム１６００の第二の部分１７００ｂにおけるように、必要なＭＩＲデータ抽出プロセス１７５６を使用して、ＭＩＲブループリント１７３０から、ＭＩＲデータのそれら部分、自動マスタリングプロセス２１００によって必要とされる必要なＭＩＲデータ１７５７を抽出し、そして必要なＭＩＲデータ１７５７をその中に提供することができる。

図２１Ａは、図１６の情動音楽作曲システムで用いる自動マスタリングプロセス２１００の第一の部分２１００ａを示すブロック図である。自動マスタリングプロセス２１００は、本明細書ではエピソードとも呼ばれる複数の反復にわたって動作する。入力として受信された元のオーディオセグメント２１０４（すなわち、最終ミックス１７６０、ステレオ形式の既存のトラック１７６２、または適応させた最終ミックス１７９０）は、エポック分割プロセス２１０６でｎ個のエポックに分解される。元の（プリマスタリングされた）エポック２１０８をそれぞれ、一回または複数回（「パス」または「反復」と呼ばれる）のマスタリングのためにエポックマスタリングプロセス２１５２に送信する。各パスにおいて、エポックマスタリングプロセス２１５２は、エポック２１０８がそのエポックのＭＩＲ目標を満たすまで、エポック２１０８にマスタリング行動（以下に記載する）を適用する。最初のエポック２１０８がそのそれぞれのＭＩＲ目標を満たすと、エポック２１０８のマスタリングは完了したとみなされ、また次のエポック２１０８が、そのそれぞれのＭＩＲ目標を満たすまで、一回または複数回エポックマスタリングプロセス２１５２を受ける。このサイクルは、セグメント２１０４の各エポック２１０８がマスタリングされるまで継続する。

ＭＩＲ抽出プロセス２１１０によって、元のオーディオエポック２１０８のそれぞれから、ＭＩＲ特徴量が抽出され、そのエポックの開始（すなわち、プリマスタリング）のＭＩＲ特徴量に関するリファレンスを提供する。抽出されたＭＩＲ特徴量は、現在のＭＩＲエポック２１１２と呼ばれる。現在のＭＩＲエポック２１１２はまた、マスタリングされたオーディオエポックに対して実施されるＭＩＲの抽出、予測または参照プロセス２１２４により生成された追加的なＭＩＲ情報も計算に入れ得る（以下に図２１Ｂを参照しながらより詳細に記載）。ＭＩＲの抽出、予測、または参照プロセス２１２４は、ＭＩＲツールボックスのようなツールを介してＭＩＲデータを抽出し得、以前に抽出されたＭＩＲ特徴量のテーブルからＭＩＲデータを参照し得、または未加工オーディオを入力として受信してＭＩＲデータ予測を出力するモデルを使用してＭＩＲデータを予測し得る。

自動マスタリングプロセス２１００によって必要とされるＭＩＲ特徴量は、必要なＭＩＲデータ１７５７として受信される。必要なＭＩＲデータ１７５７は、ＭＩＲエポック分割プロセス２１１４によってマスタリングされたオーディオセグメントのエポックごとに必要なＭＩＲ特徴量に対応するＭＩＲデータのエポック（すなわち、期間）に分割される。ＭＩＲデータのこれらエポックは、目標ＭＩＲエポック２１１６と呼ばれ、これは所与のエポックに対するマスタリングプロセスのＭＩＲ特徴量目標を示す。マスタリングプロセス全体を通して同じタイムラインを維持するために、エポックサイズは、エポック分割プロセス２１０６とＭＩＲエポック分割プロセス２１１４との間で同期させる。

マスタリングエージェント２１０２を訓練するための短期報酬２１２２を生成するために、短期報酬ネットワーク２１２０を使用する。短期報酬２１２２は、マスタリングエージェント２１０２を訓練する強化学習プロセスで使用される。短期報酬ネットワーク２１２０は、以下の三つの入力に報酬関数を適用するクリティック２１１８を備える：現在のエポックにおいて所望のＭＩＲ特徴量を示す目標のＭＩＲエポック２１１６、現在のエポックのプリマスタリングＭＩＲ特徴量を示す現在のＭＩＲエポック２１１２、ならびにマスタリング基準およびルールのデータベース１７５２からのマスタリング基準および／またはルール。クリティック２１１８が適用する報酬関数は、マスタリング規則および／または基準によって制限され且つ現在のＭＩＲエポック２１１２が目標のＭＩＲエポック２１１６のＭＩＲ特徴量を満たすか否かに基づく、短期報酬２１２２を生成する。

短期報酬２１１８は、マスタリングエージェント２１０２への入力として提供されるが、これは例えば分岐の回帰型深層Ｑネットワーク（ＤＱＮ）などである強化学習エージェントとして実施され得る。分岐の回帰型ＤＱＮは、ＬＳＴＭを含んで、各エポックに対して実行されるマスタリング行動のメモリを実装することができる。分岐Ｑ学習ネットワークの例は、ＡｒａｓｈＴａｖａｋｏｌｉ，ＦａｂｉｏＰａｒｄｏ，ａｎｄＰｅｔａｒＫｏｒｍｕｓｈｅｖ，“ＡｃｔｉｏｎＢｒａｎｃｈｉｎｇＡｒｃｈｉｔｅｃｔｕｒｅｓｆｏｒＤｅｅｐＲｅｉｎｆｏｒｃｅｍｅｎｔＬｅａｒｎｉｎｇ”，２０１８，ａｒＸｉｖ：１７１１．０８９４６，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１７１１．０８９４６に記載され、当該文献は、その全体として参照により本明細書に組み込まれる。回帰型深層Ｑ学習ネットワークの例は、ＭａｔｔｈｅｗＨａｕｓｋｎｅｃｈｔａｎｄＰｅｔｅｒＳｔｏｎｅ，“ＤｅｅｐＲｅｃｕｒｒｅｎｔＱ－ＬｅａｒｎｉｎｇｆｏｒＰａｒｔｉａｌｌｙＯｂｓｅｒｖａｂｌｅＭＤＰｓ”，２０１７，ａｒＸｉｖ：１５０７．０６５２７，ｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／１５０７．０６５２７に記載され、当該文献は、その全体として参照により本明細書に組み込まれる。自動マスタリングプロセス２１００に使用され得るさらなる強化学習アルゴリズムは、モデルベースのアクター・クリティックアルゴリズム、Ａ３Ｃアルゴリズム、または文脈的多腕バンディットアルゴリズムである。分岐の深層Ｑネットワークを回帰型深層Ｑ学習と組み合せることで、この機能性に対して効果的なアルゴリズム的な解決法が提供される。

図２１Ｂは、自動マスタリングプロセス２１００の第二の部分２１００ｂを示すブロック図である。マスタリングエージェント２１０２は、状態－行動ネットワーク２１３０に含まれる。マスタリングエージェント２１０２は、以下に記載される短期報酬２１２２および長期報酬２１４４を使用して訓練される。マスタリングエージェント２１０２はまた、目標ＭＩＲエポック２１１６および現在のＭＩＲエポック２１１２の形態の状態データも受信する。目標ＭＩＲエポック２１１６を現在のＭＩＲエポック２１１２と比較することによって、マスタリングエージェント２１０２は、現在のマスタリングパスにおいて現在の元のオーディオエポック２１０８に適用する複数のマスタリングツールのそれぞれについて使用する適切なパラメータ値について決定を行う。各マスタリングツールのパラメータ値に関する決定は、第１の行動ブランチ２１３２、第２の行動ブランチ２１３４、第３の行動ブランチ２１３６などから第ｎの行動ブランチ２１３８として示される、マスタリングエージェント２１０２のそれぞれの行動ブランチによって行われ、ここでｎは任意の正の整数であり得る。マスタリングツールが適用するマスタリング行動は、例えば制限およびイコライジングなどのマスタリング行動を含み得る。

エポックマスタリングプロセス２１５２が、各行動ブランチ２１３２～２１３８からのマスタリングツールパラメータ値を、マスタリングパス、すなわちオーディオマスタリングのパスを実行するために、マスタリングされる元のオーディオエポック２１０８に適用する。マスタリングパスが実行された後で、得られたオーディオエポックは、マスタリングの完了が確認される。オーディオエポックはいまや完全にマスタリングされたとみなされる場合、マスタリングしたエポックを、将来の参照用に記憶して、長期報酬ネットワーク２１４０のクリティック２１４２への入力として使用する。マスタリングしたエポックはまた、最終マスター２１７０、すなわちすべてのマスタリングしたエポックを一緒に連結して構成した最終マスタリング曲、を生成するために、オーディオ連結プロセス２１６２によって最終的な連結のために他のマスタリングしたエポックと連結するために記憶される。マスタリングしたエポックはまた、上述のように現在のＭＩＲエポック２１１２の生成に使用するために、ＭＩＲの抽出、予測または参照プロセス２１２４にも提供される。

長期報酬ネットワーク２１４０は、そのクリティック２１４２を使用して、一または複数の記憶されたマスタリングしたエポックならびにマスタリング標準および／またはマスタリング標準およびルールのデータベース１７５２からのルールのデータに報酬関数を適用して、長期報酬２１４４を生成するが、これは時間に沿った複数のエポックがマスタリング標準および／またはルールをどの程度満たしているかを示す。

最終マスター２１７０が生成されると、最終マスター２１７０は、例えば最終マスター１７７０としてオーディオライブラリ１８４にそれを記憶することによって、システム１６００の他のプロセスによって使用され得る。

図２５は、音楽制作プロセス１７５８によって使用される制作リードシート２６００を生成するために情動音楽作曲システム１６００によって使用される、制作リードシートプロセス２５００の例を示す。ＭＩＲデータは、ＭＩＲ抽出プロセス２５０６によって入力として受信された現在のミックス２５０４（例えば、ラフミックス１７５０）から抽出され、現在のミックスＭＩＲデータ２５０８を生成する。ＭＩＲブループリント１７３０を現在のミックスＭＩＲデータ２５０８と比較して、その間の差異を、差異計算プロセス２５１０で計算し、ＭＩＲブループリント１７３０と合致するために現在のミックスＭＩＲデータ２５０８の各ＭＩＲ特徴量に対して必要とされる変更のセット２５１２を生成する。制作リードシート２６００を生成するために必要な変更のセット２５１２に対して、データ変換プロセス２５１４を実施する。制作者（すなわち、ユーザ１７０２）の制作決定の際に制作者を方向付けるために、例えば音楽制作プロセス１７５８によって、制作リードシート２６００を使用することができる。ＭＩＲ精度モジュール２５０２によって実行されるこのプロセス２５００は、自動マスタリングプロセス２１００の複数の反復に対応する複数の反復で繰り返され得る。

図２６は、制作リードシートプロセス２５００により生成した例示的な制作リードシート２６００を示す。制作リードシート２６００は、オーディオセグメントに対する全体的なＭＩＲデータに必要とされる変化のセット２５１２を示すいくつかの全般的なフィールドを含み、ここではスペクトル変動フィールド２６０２、スペクトルバランスフィールド２６０４、スペクトル平坦性フィールド２６０６、および無音比率フィールド２６０８において必要とされる変化の百分率として示される。制作リードシート２６００はまた、オーディオセグメントの各エポックに対して、エポックごとのＭＩＲデータにおいて必要とされる変更のセット２５１２を示すいくつかの時系列グラフを含み、ここではブライトネス時系列グラフ２６１２、密度時系列グラフ２６１４（ラフさを示す）、ラウドネス時系列グラフ２６１６（平方根平均二乗（ｒｏｏｔ－ｍｅａｎ－ｓｑｕａｒｅｄ）ラウドネスの差として測定される）、および強度時系列グラフ２６１８（イベント密度を示す）として示される。各グラフ２６１２、２６１４、２６１６、２６１８は、実線でエポックの現在のＭＩＲデータを、また破線でＭＩＲ目標（ＭＩＲブループリント１７３０からの）を示し、エポックは左から右に経時的に示している。図示した例は、簡単のためにグラフごとに同じ値を示すが、実際の制作リードシート２６００は、グラフごとに異なる時系列値を有する可能性が高いことが理解されよう。

制作リードシート２６００はまた、図２４Ａを参照しながら記載するとおり、情動空間インジケータ２４２０または他の情動状態データも含み得る。

図１７Ｄは、適応プロセス２２００を含めて、例示的な情動音楽作曲システム１６００の第四の部分１７００ｄのプロセス間の関係を示す。適応（ａｄａｐｔａｔｉｏｎ）とは、それによって楽曲構成が、元々指定されていたものとは異なる楽器または声を用いたパフォーマンスに編曲されるものであるプロセスを意味する。したがって、適応により、既存のミックス、録音、または楽曲構成が入力として取り入れられ、該入力で指定される要素のうちの一または複数を新しい要素で置換する新しいミックスを、出力として生成し得る。第一の実施例では、「リミックス」の実施例と呼び、入力は、マルチトラック形態の既存のトラック１７７４、すなわち楽器トラックそれぞれが他のトラックから分離する（個々の楽器トラックが左チャネルおよび右チャネルに一緒に結合されるものであるステレオ形態でのトラックとは対照的に）ようにフォーマットされた、既存の楽曲記録（最終マスター１７７０など）であり得る。後述する第二の実施例では、「新規トラック」の実施例と呼び、ステムのライブラリ（すなわち、楽器トラックまたは楽器トラックの時間的サブセグメント）が、既存のスコアの適応を構築するための素材として使用される。

リミックスの例では、入力として受信されたＭＩＲデータ（適応プロセスによって必要とされるＭＩＲデータ１７８３としてここに示す）によって特定される特定の情動応答基準を満たすように既存のトラック１７７４の曲を編曲するために、適応プロセス２２００が、入力としてマルチトラック形態の既存のトラック１７７４を受信し、既存のトラック１７７４をその構成成分のステムに分解し、そして異なるステムに交換する。必要なＭＩＲデータ１７８３は、ＭＩＲデータ抽出プロセス１７８２によってＭＩＲブループリント１７３０から抽出することができる。いくつかの実施形態では、互いにＭＩＲデータ抽出プロセス１７５６、１７４０のように、ＭＩＲデータ抽出プロセス１７８２は省略されてもよく、また必要なＭＩＲデータ１７８３は、単に、ＭＩＲブループリント１７３０全体であってもよい。

前述の音楽理論ルールのデータベース２０２０を、図２２Ａ～Ｂを参照して以下でより詳細に記載するように、適応音楽エージェント訓練プロセス１７７２が使用して、適応プロセス２２００の適用音楽エージェント２２０２が訓練される。

適応プロセス２２００は、オーディオステムのライブラリ１７７６および楽器音質プロファイルのデータベース１７７８を利用して、ステムを識別および選択して、既存のトラック１７７４の元のステムを置き換えるようにステムを交換する。必要なＭＩＲデータ１７８３のＭＩＲ特徴量を満たすように既存のトラック１７７４を適応させるためにステムが交換されると、適応プロセス２２００が、適応させたラフミックス１７８０として新しいミックスを出力し、および／または、アーティストまたは制作者に、所望のまたは必要なＭＩＲ特徴量１７８３自体の指標を含む、指定されたＭＩＲ特徴量を達成するように既存のトラック１７７４を手動で適応させる方法を指令するミックステンプレート１７８６を出力する。

次にユーザ１７０２は、音楽制作プロセス１７５８とインタラクションして、適応させた最終ミックス１７９０を生成する。音楽作曲プロセス１７４８による場合のように、ユーザ１７０２は、例えばデジタルオーディオワークステーション（ＤＡＷ）または他のオーディオワークステーションなどであるユーザインターフェース１６４２を介して、音楽制作プロセス１７５８とインタラクションすることができる。ユーザ１７０２は、ミックステンプレート１７８６によって支援され得、および／または入力としての適応させたラフミックス１７８０とのインタラクションを開始し得る。

一部の実施例においては、適応プロセス２２００は、制作中に使用され得る。すなわちユーザ１７０２は、音楽制作プロセス１７５８とインタラクションして、適応プロセス２２００に対して、適応段階に到達している人間が作曲した曲に対して適用プロセスの一回または複数回の反復を実行させることができる。

図２２Ａは、適応プロセス２２００の第一の部分２２００ａを示すブロック図である。適応プロセス２２００は、トラックを生成する際に、音楽トラック（「トラック」の実施例と称する）、またはユーザもしくは別のシステムを導くＭＩＲテンプレート（「テンプレート」の実施例と称する）のいずれかを生成するために使用され得る。これら実施例のいずれかにおいて、生成されるトラックまたはテンプレートは、既存のトラックのリミックス（「リミックス」の実施と称する）または完全に新しいトラック（「新規トラック」の実施と称する）であってもよい。「リミックス」の実施例では、適応プロセス２２００は、既存のトラック１７７４をその構成要素ステム（第１ステム２２０４、第２ステム２２０６、および第３ステム２２０８として示される）に分割することから開始される。これら構成要素ステム２２０４、２２０６、２２０８は、ＭＩＲ抽出または予測プロセス２２１０によって、上述のＭＩＲの抽出または予測技術を使用して抽出または予測されたそれぞれのＭＩＲデータを有し、それによって、第１ステム２２１４のＭＩＲ、第２ステム２２１６のＭＩＲ、および第３ステム２２１８のＭＩＲである各ステムに関するＭＩＲデータの対応するセットが生成される。次いで、既存のトラックの各ステムのＭＩＲデータは、既存のステムのランク付けプロセス２２２０によってランク付けされるが、これは第二の部分２２００ｂを参照しながら以下に記載する。既存のトラック１７７４からの構成要素ステムはまた、オーディオステム１７７６のライブラリ（図示せず）に追加されてもよい。

図２２Ｂは、適応プロセス２２００の第二の部分２２００ｂを示すブロック図である。既存のステムランク付けプロセス２２２０は、各ステム２２１４、２２１６、２２１８のＭＩＲデータを使用して、既存のトラック１７７４のどのステムが、必要なＭＩＲデータ１７８３と緊密に合致するかを識別して、必要なＭＩＲデータ１７８３とのそれらの類似度についてステム２２０４、２２０６、２２０８をランク付けする。ランク付けプロセスは、ｈｔｔｐｓ：／／ｍｅｄｉｕｍ．ｃｏｍ／ｃａｐｉｔａｌ－ｏｎｅ－ｔｅｃｈ／ｋ－ｎｅａｒｅｓｔ－ｎｅｉｇｈｂｏｒｓ－ｋｎｎ－ａｌｇｏｒｉｔｈｍ－ｆｏｒ－ｍａｃｈｉｎｅ－ｌｅａｒｎｉｎｇ－ｅ８８３２１９ｃ８ｆ２６において、ＭａｄｉｓｏｎＳｃｈｏｔｔ，“Ｋ－ＮｅａｒｅｓｔＮｅｉｇｈｂｏｒｓ（ＫＮＮ）ＡｌｇｏｒｉｔｈｍｆｏｒＭａｃｈｉｎｅＬｅａｒｎｉｎｇ”に記載されるとおり、ｋ近傍法のベクトル類似度計算を使用し得、当該文献は、その全体として参照により本明細書に組み込まれる。ステム拒否プロセス２２２２は、既存のステムランク付けプロセス２２２０によって生成されるランク付けおよび音楽理論ルールのセットに基づいて、どのステムを拒否するかを決定する。ステム拒否プロセス２２２２は、一部の実施形態においてアルゴリズム的に実施することができるが（例えば、音楽理論ルールのデータベース２０２０（図示せず）を使用することによって）、他の実施形態においては、人間である制作者によって実施されてもよい。たとえ一部のステムがＭＩＲブループリント１７３０（または必要なＭＩＲデータ１７８３）と矛盾するとしても、曲の構成にとって不可欠である一部のステムを維持することが理にかなっている可能性があるため、音楽理論ルールを使用することはステム拒否プロセス２２２２にとって重要である。

拒否されていない既存のトラック１７７４のステム（ここでは第２ステム２２０６および第３ステム２２０８として示される）は、保持されたステム（すなわち、拒否されなかったステム）をステレオミックスに連結する連結プロセス２２３６にフィードフォワードされる。それらはまた、第三の部分２２００ｃを参照しながら以下に記載するように、「トラック」の実施例における最終リミックスされたトラックのラフミックス１７８０への連結のためにフィードフォワードされる。さらなるＭＩＲ抽出または予測プロセス２２３８を使用して、前述のように、連結プロセス２２３６によって生成されるステレオミックスのＭＩＲ特徴量を抽出または予測し、それによってトラックＭＩＲデータ２２３９を生成する。保持されたステムから抽出されたトラックＭＩＲデータ２２３９は、第三の部分２２００ｃを参照しながら以下に説明するように、「テンプレート」の実施例における最終リミックスされたトラックのミックステンプレート１７８６への連結のためにフィードフォワードされる。エポック分離プロセス２２４４は、トラックＭＩＲデータ２２３９のトラックＭＩＲエポック２２５０への分離を実行するが、各エポックの継続時間は元のトラック１７７４のセクションの継続時間（音楽理論ルールなどのルールによって規定される）によって規定される。

必要なＭＩＲデータ１７８３は、既存のステムランク付けプロセス２２２０への入力を提供することに加えて、既存のトラック１７７４のリミックス、またはステムのライブラリを使用してスコアを適応している新規トラックのいずれかに対するＭＩＲエポックを生成するために使用され得る。リミックス例では、必要なＭＩＲデータ１７８３は、リミックスされるトラックのセクションに基づいてエポックに分割され（すなわち、既存のトラック１７７４のエポック）、すなわち必要なＭＩＲデータ１７８３は、リミックスＭＩＲ分割プロセス２２４６によってエポックに分割されるが、各エポックの継続時間は元のトラック１７７４のセクションの継続時間によって規定される。「新規トラック」の実施例では、必要なＭＩＲデータ１７８３は、新規トラックＭＩＲ分割プロセス２２４８によって、既存のトラック１７７４のセクションの代わりに（この例では既存のトラック１７７４がないので）、ＭＩＲブループリント１７３０（または必要なＭＩＲデータ１７８３）のセクションに基づく継続時間を有するエポックに分解される。

次の段階では、一度に一つのエポックを進める。各トラックＭＩＲエポック２２５０および各対応する目標のＭＩＲエポック２２５２が、第三の部分２２００ｃを参照しながら以下に記載される適応音楽エージェント２２０２への状態データとして、一度に一つのエポックで提供される。図２１Ａの短期報酬ネットワーク２１２０と同様に、短期報酬ネットワーク２２６０は、クリティック２２６２を使用して、以下の三つの入力に対して報酬関数を適用する：従前のエポックからのＭＩＲ結合プロセス２２５１（以下に記載する）の出力、従前のエポックからの目標のＭＩＲエポック２２５２、および音楽理論ルールのデータベース２０２０からの音楽理論ルール。クリティック２２６２の報酬関数は、音楽理論ルール２０２０がどの程度厳密に遵守されているか、および目標ＭＩＲエポック２２５２がトラックＭＩＲエポック２２５０によってどの程度合致しているかに基づいて、短期報酬２２６４を生成する。ゆえにエポックｎを生成する際に入力として生成される短期報酬２２６４は、ＭＩＲ結合プロセス２２５１およびエポック（ｎ－１）の目標ＭＩＲエポック２２５２に基づく。

図２２Ｃは、適応プロセス２２００の第三の部分２２００ｃを示すブロック図である。状態－行動ネットワーク２２７０は、入力データの各エポック（すなわち各トラックＭＩＲエポック２２５０、各対応する目標ＭＩＲエポック２２５２、および各対応する短期報酬２２６４）に応じて、複数の行動ブランチ（第１の行動ブランチ、第２の行動ブランチ、第３の行動ブランチなどから第Ｎの行動ブランチとして示され、Ｎは任意の正の整数であり得る）のそれぞれについてステムを選択するように構成される、適応音楽エージェント２２０２を備える。各行動ブランチは、ミックス内のある層に対応し、つまり典型的には、例えばドラム、ベース、ギターなどである楽器層である。対応する楽器が既存のトラック１７７４から残っているステム内に既に存在していて、さらなる層が望ましくない場合には、分岐を省略することができる。各行動ブランチのステムは、オーディオステム１７７６のライブラリによって提供される利用可能なステムから選択される。

いくつかの実施形態では、適応音楽エージェント２２０２は、これまでのすべてのエポックに対して講じられた行動のメモリ（すなわち、選択されたステム）のための、ＬＳＴＭを有する分岐の回帰型深層Ｑ学習ネットワークとして実装することができる。ＬＳＴＭは、本明細書においてはｎ個の時間ステップとして示される、すなわちｎ個の従前の目標ＭＩＲエポック２２５２およびｎ個の従前のトラックＭＩＲエポック２２５０である、一または複数の従前の時間ステップ（例えば、エポック）からのトラックのＭＩＲ特徴量を記録するし、またこれら従前のＭＩＲ特徴量の状態ベクトルを、適応音楽エージェント２２０２の方策に提供する。適応音楽エージェント２２０２のプランナーは、この状態ベクトルおよび短期報酬２２６４を、講じられた従前の適応行動（すなわち、以下に記載するように、各ブランチに対して選択されたステム）と共に受信して、そして該プランナーは、それに応じて方策を更新する。プランナーは、従前の適応セッションからのデータを使用して訓練される。適応音楽エージェント２２０２は、強化学習を使用して訓練されるものであり、オーディオステムのライブラリ１７７６が行動空間を画定し、そして短期報酬２２６４および長期報酬２２８２（以下に記載）が、報酬フィードバックを提供する。適応音楽エージェント２２０２の時間ステップは、あるエポックに対応し得、例えば４小節の音楽などである。ＭＩＲ生成器ＧＡＮ１６１２、スコア生成器ＧＡＮ１６１６、およびマスタリングエージェント２１０２と同様に、適応音楽エージェント２２０２は、記載される実施形態における強化学習および深層学習のために、アクター－クリティック挙動を使用する。他の実施形態では、適応音楽エージェント２２０２は、モデルベースのアクター－クリティックモデル、Ａ３Ｃモデル、または任意の他の適切な機械学習モデルなどの他のモデルを使用して実施され得る。

「トラック」の実施例では、ステム連結プロセス２２７２は、オーディオステムのライブラリ１７７６によって提供される選択されたステムを連結して、既存のトラックの保持されたステム（「リミックス」の実施例の）に対して階層化されるように適応音楽エージェント２２０２によって選択された新しいステム、または曲の全体を構築するために選択された新しいステム（「新規トラック」の実施例の）からなる、生成されたオーディオエポック２２７４（すなわち、現在のエポックに関するステムのミックス）を生成する。あるいは、「テンプレート」の実施例では、ステム連結プロセス２２７２は、新規トラックまたはリミックステンプレートを作成するための様々な楽器の選択肢に関連付けられたＭＩＲデータを含む、楽器音質プロファイル１７７８のデータベースを使用して、その生成されたエポックに関して生成されたエポックテンプレート２２７６を作成するためのＭＩＲプロファイルを生成する。生成されたエポックテンプレート２２７６は、そのエポックに関するＭＩＲデータを含む。

生成されたオーディオエポック２２７４または生成されたエポックテンプレート２２７６が生成されると、生成されたオーディオまたはテンプレートの長さが、ステップ２２８２で、トラックまたはテンプレートの所望の全長（既存のトラック１７７４および／または必要なＭＩＲデータ１７８３のセクションに基づく）と比較される。所望の長さに達していた場合、生成されたエポックテンプレート２２７６を互いに、元のトラックの保持されたステムのＭＩＲデータ（第二の部分２２００ｂにおけるトラックＭＩＲデータ２２３９として示される）と結合してミックステンプレート１７８６を生成するか、または生成されたオーディオエポック２２７４を互いに、元のトラックの保持されたステム（第二の部分２２００ｂにおける第２ステム２２０６および第３ステム２２０８として示される）と結合して適応させたラフミックス１７８０を生成する。ミックステンプレート１７８６または適応させたラフミックス１７８０はまた、適応音楽エージェント２２０２を訓練するために、長期報酬ネットワーク２２８０（以下に記載）に提供される。適応されたラフミックス１７８０が提供される場合、最初にそのＭＩＲデータが、ＭＩＲ抽出プロセス２２８４によって抽出、予測、または検索される。上述のように、ＭＩＲデータは、以前に抽出されたＭＩＲ特徴量のテーブルから、ＭＩＲツールボックスのようなツールを介して、抽出されるか、参照（すなわち、検索）されるか、または未加工のオーディオを入力してＭＩＲ予測を出力するモデルを使用して予測されるかのいずれかが可能である。抽出（または予測、または検索）されたＭＩＲデータは、その後、長期報酬ネットワーク２２８０に提供される。適応プロセスはその後終了する。一部の実施形態では、現在のトラックまたはテンプレートが生成されている間に、これまで生成されたトラックまたはテンプレート全体（元のステムおよび生成されたステムの両方）が、適応プロセスが完了する前に適応音楽エージェント２２０２を訓練するために長期報酬ネットワーク２２８０に提供され得る。

ステップ２２８２で、トラックまたはテンプレートの所望の合計長さに達していなかった場合、現在の生成されたオーディオエポック２２７４または生成されたエポックテンプレート２２７６が、ＭＩＲ結合プロセス２２５１へのフィードバックとして提供される。「トラック」の実施例では、現在の生成されたオーディオエポック２２７４は、最初にＭＩＲ抽出プロセス２２８６を通過し、上述のように、現在の生成されたオーディオエポック２２７４のＭＩＲデータを抽出、予測、または検索して、現在の生成されたオーディオエポック２２７４に対応するＭＩＲデータを生成する。「リミックス」の実施例では、ＭＩＲ結合プロセス２２５１は、元のトラックの保持されたステム（すなわち、トラックＭＩＲデータ２２３９）から抽出されたＭＩＲをフィードバックＭＩＲデータ（ＭＩＲ抽出プロセス２２８６または生成されたエポックテンプレート２２７６から）と結合して、保持されたステムおよび新規ステムの両方を含む、そのエポックに関して結合されたＭＩＲデータを生成する。この結合したＭＩＲデータは、後続のエポックに対する短期報酬２２６４を生成するために、クリティック２２６２に提供される。すなわち、エポック（ｎ－１）に関して結合されたＭＩＲデータが、エポック（ｎ－１）に関する目標のＭＩＲエポック２２５２と共に、クリティック２２６２に提供されて、これによりエポック（ｎ）に関してステムを選択する際に適応エージェント２２０２で使用する短期報酬２２６４が生成される。当然のことながら、「新規トラック」の実施例では、リミックスされる元のトラックが存在しないため、保持されているステムは存在しない。したがって、ＭＩＲ結合プロセス２２５１の出力は、単に、ＭＩＲ抽出プロセス２２８６または生成されたエポックテンプレート２２７６から受信したフィードバックＭＩＲデータである。

長期報酬ネットワーク２２８０は、以下の三つの入力に報酬関数を適用するクリティック２２７８を備える：必要なＭＩＲデータ１７８３、音楽理論ルールのデータベース２０２０からの音楽理論ルール、およびＭＩＲ抽出ブロック２２８４により適応させたラフミックス１７８０から抽出されたＭＩＲデータ、またはミックステンプレート１７８６のいずれか。報酬関数は、音楽理論ルールおよび適応させたトラック全体（またはテンプレート全体）のＭＩＲデータに適用される必要なＭＩＲデータ１７８３に基づいて、長期報酬２２８２を生成する。

情動音楽推薦システム１００および／または情動音楽作曲システム１６００、ならびに／またはその態様および構成要素は、一または複数の聴取者に特定の情動応答を誘発するための音楽の選択または生成に関連する特定の使用事例に対処するために、様々な構成で再度組み合わされ得る。これら使用事例は、治療、エンターテイメント、またはライフスタイルの用途に関与し得る。ここで、本明細書に記載の例示的な実施形態のいくつかの例示的な使用事例を図２７～３０を参照しながら説明することとする。

図２７は、本明細書に記載の実施形態を使用した、アルバムリミックスの例示的な使用事例２７００を示す。曲が入った既存アルバムを持つアーティストであるクライアント２７３２は、制作者２７３４と一緒に、情動作曲プロセスおよび感情のフレームワーク（例えば、情動のＧＥＭＳ／ラッセル円環モデル（ＲｕｓｓｅｌＣｉｒｃｕｍｐｌｅｘＭｏｄｅｌ））を説明するオンボーディング文書２７３８を活用してアルバム曲に対する一連の健康維持目標２７３６を設定するように作業を行う。制作者２７３４は、クライアント２７３２から現在のアルバムミックス２７０２（すなわち、アルバムの曲のミックス）を受信し、そしてそれらをＭＩＲ抽出プロセス２７０４に提供して、ＭＩＲデータに変換する。例えば作曲ＡＩＮＮ１８００などである訓練された情動推論モデルを使用して、トラックの予測された情動ダイナミクス２７０６を生成する。当該予測された情動ダイナミクス２７０６は、曲の感情ダイナミクスの視覚化２７０８に変換される。クライアント２７３２は、視覚化２７０８を検討して、ステップ２７１０で選択されたトラックによって誘導される所望の情動トラジェクトリと共に最適化するために第一のトラックを選択し、それによって、トラック２７１２および情動目標２７１４（例えば、所望の情動トラジェクトリ）を、使用事例２７００の後続のプロセスへの入力として提供する。トラック２７１２のトラックＭＩＲデータ２７１６が、情動精度モデル２７２０（ＭＩＲ生成プロセス１９００など）への第一の入力として提供される。情動目標２７１４に対応するＭＩＲブループリント１７３０が、情動精度モデル２７２０への第二の入力として使用される。情動精度モデル２７２０は、ミキシング及びマスタリング処理を実施するエンジニア２７２４によって使用される（例えば情動音楽作曲システム１６００の音楽制作プロセス１７５８を介して）、文書２７２２として一緒に示す、制作リードシート（情動音楽作曲システム１６００が作成する制作リードシート２６００など）と変更する必要のあるＭＩＲ特徴量を特定するＭＩＲブループリントとを生成して、所望の情動目標を達成するよう構成される選択されたトラックの最終マスター２７３０を生成するために使用される。この例では、トラックのセグメントにマスタリング技術が適用されて（例えば、ピアノの音質を修正する）、ＭＩＲ目標をより良好に満たすためにアンビエントトラックがミックスに追加されて、またバイノーラルエントレインメント（２Ｈｚ）がトラックに追加される。

図２８は、本明細書に記載の実施形態を使用する健康維持プレイリストを目標とする、例示的な音楽作曲の使用事例２８００を示す。同じオンボーディングプロセスが使用事例２７００で使用されるが、この例では、目標設定ステップ２８３６は、クライアント２７３２のアルバムに関して健康維持目標とすることを目指して戦略とするプレイリスト（例えば、既存のオンライン音楽サービスのプレイリスト）を選択することを含み、トラックの感情的トラジェクトリが選択され、そしてトラック長さと必要なトラック数とが識別される。例えば、懐かしいトラックおよび平穏なトラックは、「チル」プレイリストを目指すように選択され、二つの「集中」トラックおよび一つのメランコリックなトラックは、「悲しいビート」プレイリストを目指すように選択され、それらすべてが３分±２０秒の継続時間である。

各選択されたトラックの作曲は、作曲システム１６００のＭＩＲ生成プロセス１９００を使用してトラックのＭＩＲブループリント１７３０を生成することから開始される。スコア（例えば、ＭＩＤＩスコア１７４２）および作曲リードシート２４００が生成され（例えば、作曲システム１６００を使用して）、そして制作者２７３４およびクライアント２７３２が、ＭＩＲブループリント１７３０に従って様々なパラメータを変更することによって、プロセスの一回または複数回の追加的な反復にわたって、スコア１７４２および作曲リードシート２４００を改良し得る。例えば、ＭＩＤＩスコア１７４２は、目標２８３６に沿ったトラックレベルのコード進行および旋律を提供するように調節され得る。

制作者２７３４およびクライアント２７３２は、協働して、様々なトラックのラフミックス１７５０を生成する。情動精度モデル２７２０は、ラフミックス１７５０およびＭＩＲブループリント１７３０を使用して、制作リードシート２６００を変更および作成するのに必要な音楽的特徴量のデータセットを生成する。次に、制作者２７３４は、最終ミックスのセット１７６０を生成するために、制作リードシートによって設定されたＭＩＲ目標をより良好に満たすために、ミキシング技術（例えば、音楽制作プロセス１７５８を使用して）をトラックに適用する。次いで、マスタリングエージェント２１０２を使用して、最終ミックス１７６０の自動マスタリングを実行し、最終マスター１７７０を生成することができる。

図２９は、本明細書に記載の実施形態を使用して別個の情動目標を有する複数のアルバムを生成するための、音楽集合の適応の例示的な使用事例２９００を示す。クライアント２７３２は、既存の曲の集合を持ち、曲を三枚のアルバムとしてリリースしたいと考えているアーティストであり、アルバムごとに、特定の情動目標セットがある。アーティスト２７３２は、制作者２７３４と協働して、使用時例２８００にあるように目標２８３６を設定する。クライアント２７３２からトラックの集合２９０２を受信して、使用事例２７００にあるようにＭＩＲ抽出プロセスに提供される。使用事例２９００は、トラックごとに使用事例２７００のように進めるが、クライアント１７３２はステップ２９１０において、概して所望の情動目標に近いトラックを選択することによって、複数のトラック２７１２を最適化するために選択する。

オンボーディング２８３６中でクライアント１７３２によって選択された情動目標２７１４を、トラックごとにＭＩＲブループリント１７３０を生成するために使用する。トラック２７１２ごとのトラックＭＩＲデータ２７１６は、各トラックのＭＩＲブループリント１７３０と共に情動精度モデル２７２０に提供されて、変更する必要のある音楽的特徴量を識別する各トラックの制作リードシート２６００を生成する。制作者２７３４は、制作リードシート２６００を使用して、ミキシング２９１２を行い、その出力（例えば、ラフミックスされたもの１７６０）は、マスタリングエージェント２１０２に提供されるが、その出力は、キュレーションエージェント２９１４によってキュレーションされて、最終マスター１７７０を生成する。キュレーションエージェント２９１４は、作曲ＡＩＮＮ１８００で訓練されている情動音楽推薦システム１００からの深層Ｑネットワークであり得る。

図３０は、本明細書に記載の実施形態を使用した既存のステムのライブラリを使用して情動音楽を生成するための、例示的な音楽の適応の使用事例３０００を示す。クライアント１７３２より、アルバム用の新しい曲を生成するために使用されることになる未使用のステムのライブラリ１７７６が提供される。ＭＩＲ生成プロセス１９００を用いて、情動目標２７１４に基づいてＭＩＲブループリント１７３０を生成する。適応音楽エージェント２２０２が、ステムのライブラリ１７７６を利用して、ＭＩＲブループリント１７３０に合致するように意図して生成されたトラック３００２を生成する。この段階では、承認のためにトラック３００２をクライアント２７３２と共有して、追加的な要素を追加する機会を与えることができる。次いで当該トラック３００２は、２７０４においてＭＩＲデータに変換されて、トラックＭＩＲデータ２７１６を生成する。ＭＩＲブループリント１７３０およびトラックＭＩＲデータ２７１６は、情動精度モデル２７２０によって使用され、トラックに関する制作リードシート２６００を生成する。制作者２７３４は、ミキシング２９１２を実行し、その後マスタリングエージェント２１０２およびキュレーションエージェント２９１４を使用して、最終マスター１７７０を生成する。

一部の実施形態においては、記載されるシステムおよび方法は、上述のオーディオデータおよび聴覚刺激の代わりに、またはそれらに加えて、非聴覚の刺激および非オーディオのデータを使用することができる。一部の実施形態においては、上記に類似した技術を使用して、触覚または視覚的刺激に対するユーザの情動応答を収集して予測するために、触覚または視覚的データが使用されてもよい。

一部の実施形態においては、オーディオセグメントは、それ自体で、または他の聴覚データと統合される、モノラルまたはバイノーラルのビートデータを含み得る。モノラルおよびバイノーラルのビートは、一部の条件下で、ヒトにおいて特定の情動応答を誘発する能力を有することが示されてきた。例えば、Ｃｈａｉｅｂｅｔａｌ．，“ＡｕｄｉｔｏｒｙＢｅａｔＳｔｉｍｕｌａｔｉｏｎａｎｄｉｔｓＥｆｆｅｃｔｓｏｎＣｏｇｎｉｔｉｏｎａｎｄＭｏｏｄＳｔａｔｅｓ”，ＦｒｏｎｔｉｅｒｓｉｎＰｓｙｃｈｉａｔｒｙ，Ｖｏｌ．６，２０１５，ｈｔｔｐｓ：／／ｗｗｗ．ｆｒｏｎｔｉｅｒｓｉｎ．ｏｒｇ／ａｒｔｉｃｌｅ／１０．３３８９／ｆｐｓｙｔ．２０１５．０００７０による匹敵する文献研究を参照されたく、当該文献はその全体として参照により本明細書に組み込まれる。

本開示は、少なくとも部分的には、方法および装置に関して記載され得るが、本開示は、ハードウェア構成要素、ソフトウェア、または二つの任意の組み合わせによって、記載される方法の態様および特徴の少なくとも一部を実施するための様々な構成要素にも向けられるということを、当業者は理解するであろう。したがって、本開示の技術的解決法は、ソフトウェア製品の形態で具現化することができる。適切なソフトウェア製品は、例えば、ＤＶＤ、ＣＤ－ＲＯＭ、ＵＳＢフラッシュディスク、リムーバブルハードディスク、または他の記憶媒体を含む、事前に記録された記憶装置または他の類似の不揮発性または非一時的なコンピュータ可読媒体またはプロセッサ可読媒体に記憶されてもよい。ソフトウェア製品には、処理装置（例えば、パーソナルコンピュータ、サーバ、またはネットワーク装置）に対して本明細書に開示される方法またはシステムの実施例を実行可能にさせる、その上に記憶された有形の命令が含まれる。

当業者はまた、上述の方法およびデバイスの出力、すなわちオーディオセグメント２３０自体を含むオーディオストリーム２３４が、ＤＶＤ、ＣＤ－ＲＯＭ、ＵＳＢフラッシュディスク、リムーバブルハードディスク、または他の記憶媒体を含む、例えば不揮発性または非一時的なコンピュータ可読媒体またはプロセッサ可読媒体などの記憶媒体上に、音楽データ（オーディオファイルなど）として記憶され得ることも理解するであろう。音楽はまた、例えばカセットテープ、ヴァイナルレコード、またはデジタルもしくはアナログの音楽データ用の任意の他の記憶媒体などであるオーディオアプリケーションまたはオーディオの再生もしくはブロードキャスト装置での使用に適した他のデジタルまたはアナログ記憶媒体に記憶され得る。一実施形態では、オーディオストリームが、ユーザ特有かまたはユーザに依存しないかのいずれかで、特定の情動トラジェクトリを誘発する可能性が高いと識別され得、そしてこのオーディオストリームは、ユーザが後で聴取するために記憶され得る。

記載する方法またはブロック図では、各ボックスは、イベント、ステップ、関数、プロセス、モジュール、メッセージ、および／または状態ベースの動作などを表し得る。上述の実施例のいくつかは、特定の順序で発生しているように記載されているが、任意の所与のステップの順序の変更の結果が、後続のステップの発生を妨げない、または損なわないことを条件に、ステップまたはプロセスの一部が異なる順序で実施されてもよいということは、当業者に理解されるであろう。さらに、上述のメッセージまたはステップの一部は、他の実施形態では削除または組み合わせられてもよく、上述のメッセージまたはステップの一部は、他の実施形態では、多数のサブメッセージまたはサブステップに分割されてもよい。さらに、必要に応じて、ステップの一部またはすべてを繰り返すことができる。方法またはステップとして記述された要素は、同様にシステムまたは下位の構成要素に適用され、逆も同様である。「送信すること」または「受信すること」という語句への言及は、特定のデバイスの視点に応じて交換可能である。

上述の実施形態は、例示であり、限定的でないものとみなす。方法として記載される例示的実施形態は、同様にシステムに適用されることとなり、その逆も同様である。

いくつかの例示的実施形態に対して、変形がなされてもよく、これは上記のいずれかの組み合わせおよび下位の組み合わせを含み得る。上述の様々な実施形態は、単に実施例であり、本開示の範囲を限定することを意図するものではない。本明細書に記載される発明の変形は、当業者に明らかであり、そのような変形は本開示の意図された範囲に存在する。特に、上述の実施形態のうちの一つまたは複数からの特徴は、上記に明示的に記載され得ない特徴の下位の組み合わせで構成される代替的な実施形態を作り出すために選択され得る。特に、上述の実施形態のうちの一つまたは複数からの特徴は、上記に明示的に記載され得ない特徴の組み合わせで構成される代替的な実施形態を作り出すために選択および組み合わされ得る。こうした組み合わせおよび下位の組み合わせに適した特徴は、本開示の全体を検討することで当業者に容易に明らかとなるであろう。本明細書に記載される主題は、技術的な適切な変更すべてを網羅し、包含することを意図している。

Claims

聴取者に情動状態変化を誘発するためのオーディオストリームを生成する方法であって、
前記聴取者の現在の情動状態を識別すること、
前記聴取者の目標の情動状態を識別すること、
前記現在の情動状態から前記目標の情動状態への情動トラジェクトリを識別すること、
訓練されたセグメント識別機械学習モデルを用いて、第一のオーディオセグメントであって、前記第一のオーディオセグメントが聴覚刺激として聴取者に提示されたときに前記情動トラジェクトリのうちの少なくとも初期部分に対応する所望の情動応答を前記聴取者に誘発する可能性が高いものである前記第一のオーディオセグメントを識別すること、
前記第一のオーディオセグメントに少なくとも一部基づいて前記オーディオストリームを生成すること、および
前記オーディオストリームに基づいて、オーディオストリームデータを聴取者デバイスに送信することを含む、方法。
前記訓練されたセグメント識別機械学習モデルを使用して、前記第一のオーディオセグメントを識別した後に、
情動推論プロセスを使用して、前記第一のオーディオセグメントの前記現在の情動状態およびオーディオ特徴量値セットに基づいて、推論による新規情動状態を推論すること、
前記推論による新規情動状態のデータから前記目標の情動状態までの更新された情動トラジェクトリを識別すること、および
前記訓練されたセグメント識別機械学習モデルを用いて、ある後続のオーディオセグメントであって、該後続のオーディオセグメントが聴覚刺激として前記聴取者に提示されるときに前記更新された情動トラジェクトリの少なくとも初期部分に対応するものである後続の所望の情動応答を前記聴取者が誘発する可能性が高い後続のオーディオセグメントを識別することをさらに含み、
前記オーディオストリームは、前記第一のオーディオセグメントおよび前記後続のオーディオセグメントに少なくとも一部基づいて生成される、請求項１に記載の方法。
前記訓練されたセグメント識別機械学習モデルが、前記情動推論プロセスから受信した報酬データを使用して訓練され、また
前記情動推論プロセスが、
前記オーディオストリームのオーディオ特徴量値セットに対する前記聴取者の推論による情動応答を推論すること、および
前記推論による情動応答と前記所望の情動応答との比較に基づいて前記報酬データを生成することによって、前記報酬データを生成する、請求項２に記載の方法。
前記情動推論プロセスが、訓練された情動推論機械学習モデルを備え、また
前記訓練された情動推論機械学習モデルが、
複数の訓練オーディオセグメントに対応する訓練オーディオ特徴量データと、
前記複数の訓練オーディオセグメントに対応する複数のオーディオ刺激の各々に各ヒト対象を曝露することに関連づけて一または複数のヒト対象から収集した情動状態データとを含む訓練データを用いて訓練される、請求項３に記載の方法。
前記一または複数のヒト対象が、前記聴取者を含む、請求項４に記載の方法。
前記訓練されたセグメント識別機械学習モデルは、強化学習モデルを備える、請求項５に記載の方法。
前記訓練されたセグメント識別機械学習モデルは、深層学習ニューラルネットワークを備える、請求項６に記載の方法。
前記オーディオストリームデータが、前記オーディオストリームを推薦する推薦データを含む、請求項７に記載の方法。
前記オーディオストリームデータが、前記オーディオストリームを含む、請求項７に記載の方法。
前記オーディオストリームデータを前記聴取者デバイスに送信した後に、
前記聴取者から更新された現在の情動状態データを受信すること、ならびに
前記訓練された情動推論機械学習モデルを、
前記第一のオーディオセグメントおよび前記複数の後続のオーディオセグメントのそれぞれに対応するオーディオ特徴量データと、
前記更新された現在の情動状態データとを含む実行時間訓練データを用いて訓練することをさらに備える、請求項９に記載の方法。
前記聴取者の目標の情動状態を識別することが、
前記聴取者デバイスを介して前記聴取者から目標の情動状態データを受信すること、および
前記目標の情動状態データに基づいて、前記聴取者の前記目標の情動状態を識別することを含む、請求項１に記載の方法。
前記聴取者の現在の情動状態を識別することが、
前記聴取者デバイスを介して前記聴取者から情動自己評価データを受信すること、および
前記情動自己評価データに基づいて、前記聴取者の現在の情動状態を識別することを含む、請求項１に記載の方法。
前記聴取者の現在の情動状態を識別することが、
前記聴取者のより生理学的状態と相関する生理学的データを受信すること、および
前記生理学的データに基づいて、前記聴取者の現在の情動状態を識別することを含む、請求項１に記載の方法。
聴取者に情動状態変化を誘発するためのオーディオストリームを生成するシステムであって、
プロセッサシステム、
通信システム、ならびに
記憶装置であって、そこに
実行可能な訓練されたセグメント識別機械学習モデル、および
前記プロセッサシステムによって実行されるとき、前記システムに、
前記通信システムによって受信された聴取者状態データに基づいて、前記聴取者の現在の情動状態を識別することと、
前記通信システムによって受信した目標の情動状態データに基づいて、前記聴取者の目標の情動状態を識別することと、
前記現在の情動状態から前記目標の情動状態への情動トラジェクトリを識別することと、
訓練されたセグメント識別機械学習モデルに対して、第一のオーディオセグメントであって、前記第一のオーディオセグメントが聴覚刺激として前記聴取者に提示されたときに前記情動トラジェクトリのうちの少なくとも初期部分に対応する所望の情動応答を前記聴取者に誘発する可能性が高いものである前記第一のオーディオセグメントの識別を実行させることと、
前記第一のオーディオセグメントに少なくとも一部基づいて前記オーディオストリームを生成することと、
前記通信システムを用いて、前記オーディオストリームに基づいて、オーディオストリームデータを聴取者デバイスに送信することとを引き起こすものである実施可能な命令を記憶している、前記記憶装置を備える、システム。
前記記憶装置が、そこに実行可能で訓練された情動推論機械学習モデルをさらに記憶し、また
前記プロセッサシステムによって実行された前記実行可能命令は、前記システムに対して、前記訓練されたセグメント識別機械学習モデルを使用して前記第一のオーディオセグメントを識別した後に、
前記情動推論機械学習モデルを使用して、前記第一のオーディオセグメントの前記現在の情動状態およびオーディオ特徴量値セットに基づいて、推論による新規情動状態を推論すること、
当該推論による新規情動状態のデータから前記目標の情動状態までの更新された情動トラジェクトリを識別すること、ならびに
前記訓練されたセグメント識別機械学習モデルを用いて、ある後続のオーディオセグメントであって、該後続のオーディオセグメントが聴覚刺激として前記聴取者に提示されたときに前記更新された情動トラジェクトリの少なくとも初期部分に対応するものである後続の所望の情動応答を前記聴取者が誘発する可能性が高い後続のオーディオセグメントを識別することをさらに引き起こし、
前記オーディオストリームは、前記第一のオーディオセグメントおよび前記後続のオーディオセグメントに少なくとも一部基づいて生成される、請求項１４に記載のシステム。
前記訓練されたセグメント識別機械学習モデルが、前記情動推論プロセスから受信した報酬データを使用して訓練され、また
前記情動推論プロセスが、
前記オーディオストリームのオーディオ特徴量値セットに対する前記聴取者の推論による情動応答を推論すること、および
前記推論による情動応答と前記所望の情動応答との比較に基づいて前記報酬データを生成することによって、前記報酬データを生成する、請求項１５に記載のシステム。
前記訓練された情動推論機械学習モデルが、
複数の訓練オーディオセグメントに対応する訓練オーディオ特徴量データと、
前記複数の訓練オーディオセグメントに対応する複数のオーディオ刺激の各々に各ヒト対象を曝露することに関連づけて一または複数のヒト対象から収集した情動状態データとを含む訓練データを用いて訓練される、請求項１６に記載の方法。
請求項１から１４に記載の方法のうちの一または複数を実行するための命令を含む、非一時的プロセッサ可読媒体。
請求項１から１４に記載の方法のうちの一または複数によって生成される前記オーディオストリームを含む、非一時的記憶媒体。
機械学習モデルを訓練して、音楽的特徴量に対するヒトの情動応答を予測するための方法であって、
音楽的特徴量セットを有する音楽を聴取者に提示することと、
前記音楽の提示に対する前記聴取者の情動応答を示す、前記聴取者からの情動応答データを取得することと、
前記音楽の前記音楽的特徴量を、前記情動応答データでラベル付けして、ラベル付き音楽的特徴量データを生成することと、
前記ラベル付き音楽的特徴量データを、前記機械学習モデルを訓練する訓練データとして使用して、当該音楽的特徴量データに基づいて前記情動応答データを予測することとを含む、方法。
音楽に対するヒトの応答を予測するシステムであって、
プロセッサシステム、および
記憶装置であって、そこに
請求項２０に記載の方法に従って訓練された機械学習モデルを記憶している、前記記憶装置を備える、システム。
前記機械学習モデルが、
所望の情動応答を示す所望の情動応答データを受信すること、および
前記機械学習モデルにより予測した音楽的特徴量を有する音楽を生成して、聴取者に所望の情動応答を誘発することを行う生成モデルである、請求項２１に記載のシステム。
前記音楽を生成することが、
前記生成モデルを使用して、前記所望の情動応答データを処理して、前記音楽的特徴量を示す音楽的特徴量データを生成すること、および
前記音楽的特徴量データに基づいて前記音楽を生成することを含む、請求項２２に記載のシステム。
前記音楽的特徴量データは、音楽情報検索（ＭＩＲ）データである、請求項２３に記載のシステム。
当該ＭＩＲデータが、前記音楽に関するＭＩＲブループリントである、請求項２４に記載のシステム。
前記生成モデルが、敵対的生成ネットワーク（ＧＡＮ）である、請求項２３に記載のシステム。
前記ＧＡＮが、生成器ネットワーク、確率ネットワーク、および制御ネットワークを含む、請求項２６に記載のシステム。
前記ＧＡＮが条件付きＧＡＮを備える、請求項２７に記載のシステム。
前記生成器ネットワークが生成器ニューラルネットワークを備える、請求項２８に記載のシステム。
前記確率ネットワークが、識別器ニューラルネットワーク（ｄｉｓｃｒｉｍｉｎａｔｏｒｎｅｕｒａｌｎｅｔｗｏｒｋ）を備える、請求項２９に記載のシステム。
前記生成器ニューラルネットワークおよび前記識別器ニューラルネットワークが、それぞれ、ＬＳＴＭ（長期短期メモリ（ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ））を有する回帰型ニューラルネットワーク（ＲＮＮ）を備える、請求項３０に記載のシステム。
前記音楽的特徴量データに基づいて前記音楽を生成することが、
前記音楽的特徴量データに基づいてスコアを生成すること、および
前記スコアに基づいて前記音楽を生成することを含む、請求項２３に記載のシステム。
前記スコアが、ミュージカルインストゥルメントデジタルインターフェース（ＭＩＤＩ）スコアである、請求項３２に記載のシステム。
前記スコアを生成することが、
作曲意図情報を受信すること、および
前記音楽的特徴量データと前記作曲意図情報とに基づいて前記スコアを生成することを含む、請求項３２に記載のシステム。
前記作曲意図情報が、スコアタイプ情報、楽器情報、およびスコア長さ情報のうちの一または複数を含む、請求項３４に記載のシステム。
前記作曲意図情報が、ユーザから受信した作曲意図ユーザ入力によって示される、請求項３４に記載のシステム。
前記メモリが、スコア生成機械学習モデルをさらに記憶し、また
前記スコアを生成することが、前記スコア生成機械学習モデルを使用して、前記音楽的特徴量データを処理して前記スコアを生成することを含む、請求項３２に記載のシステム。
前記スコア生成機械学習モデルが、スコア生成敵対的生成ネットワーク（ＧＡＮ）である、請求項３７に記載のシステム。
当該スコア生成ＧＡＮが、生成器ネットワーク、確率ネットワーク、および制御ネットワークを備える、請求項３８に記載のシステム。
前記スコア生成ＧＡＮが条件付きＧＡＮを備える、請求項３９に記載のシステム。
前記生成器ネットワークが生成器ニューラルネットワークを備える、請求項４０に記載のシステム。
前記確率ネットワークが、識別器ニューラルネットワーク（ｄｉｓｃｒｉｍｉｎａｔｏｒｎｅｕｒａｌｎｅｔｗｏｒｋ）を備える、請求項４１に記載のシステム。
前記生成器ニューラルネットワークおよび前記識別器ニューラルネットワークが、それぞれ、ＬＳＴＭ（長期短期メモリ（ｌｏｎｇｓｈｏｒｔ－ｔｅｒｍｍｅｍｏｒｙ））を有する回帰型ニューラルネットワーク（ＲＮＮ）を備える、請求項４２に記載のシステム。
前記スコアに基づいて前記音楽を生成することが、
前記スコアをユーザに提示すること、
前記ユーザからラフミックスユーザ入力を受信すること、
前記ラフミックスユーザ入力に基づいてラフミックスを生成すること、および
前記ラフミックスに基づいて前記音楽を生成することを含む、請求項３２に記載のシステム。
前記音楽的特徴量データに基づいて前記音楽を生成することに基づいて前記音楽を生成することが、
前記音楽的特徴量データに基づいて、作曲リードシートを生成すること、
前記作曲リードシートを前記ユーザに提示すること、
前記ユーザからラフミックスユーザ入力を受信すること、
前記ラフミックスユーザ入力に基づいてラフミックスを生成すること、および
前記ラフミックスに基づいて前記音楽を生成することを含む、請求項２３に記載のシステム。
前記ラフミックスに基づいて前記音楽を生成することが、
前記音楽的特徴量データおよび前記ラフミックスに基づいて、制作リードシートを生成すること、
前記作曲リードシートを前記ユーザに提示すること、
前記ユーザから最終ミックスユーザ入力を受信すること、
前記最終ミックスユーザ入力に基づいて最終ミックスを生成すること、および
前記最終ミックスに基づいて前記音楽を生成することを含む、請求項４４または４５に記載のシステム。
前記メモリが、マスタリング機械学習モデルをさらに記憶し、また
前記最終ミックスを生成することは、前記マスタリング機械学習モデルを使用して前記音楽的特徴量データおよび前記最終ミックスを処理して、前記音楽を生成することを含む、請求項４６に記載のシステム。
前記マスタリング機械学習モデルが、
既存の楽曲を受信して、
音楽的特徴量データおよび前記既存の楽曲を処理して、前記音楽的特徴量を有する前記音楽を生成するようにさらに構成される、請求項４７に記載のシステム。
前記マスタリング機械学習モデルが、複数の既存の音楽ステムに基づいて、前記音楽的特徴量を有する前記音楽を生成するようにさらに構成される、請求項４８に記載のシステム。
前記マスタリング機械学習モデルが、回帰型の深層Ｑネットワーク（ＤＱＮ）を含む、請求項４７に記載のシステム。
前記マスタリング機械学習モデルが、分岐の回帰型ＤＱＮを備える、請求項５０に記載のシステム。
前記マスタリング機械学習モデルが、ＬＳＴＭ（長期短期メモリ（ｌｏｎｇｓｈｏｒｔｔｅｒｍｍｅｍｏｒｙ））を含む、請求項５１に記載のシステム。
請求項２０から５２のいずれか一項に記載のシステムによって生成される前記オーディオストリームを含む、非一時的記憶媒体。
前記機械学習モデルが、
複数の既存の楽曲を受信し、
所望の情動応答データを受信して、
聴取者に当該所望の情動応答を誘発する可能性が高い、複数の既存の楽曲のうちのある既存の楽曲を識別するようにさらに構成される、請求項２１に記載のシステム。