JP2023516135A - 情動音楽の推薦および作曲のための方法、システム、および媒体 - Google Patents

情動音楽の推薦および作曲のための方法、システム、および媒体 Download PDF

Info

Publication number
JP2023516135A
JP2023516135A JP2022550664A JP2022550664A JP2023516135A JP 2023516135 A JP2023516135 A JP 2023516135A JP 2022550664 A JP2022550664 A JP 2022550664A JP 2022550664 A JP2022550664 A JP 2022550664A JP 2023516135 A JP2023516135 A JP 2023516135A
Authority
JP
Japan
Prior art keywords
emotional
data
listener
music
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022550664A
Other languages
English (en)
Inventor
ラベー,アーロン
Original Assignee
ルシード インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ルシード インコーポレイテッド filed Critical ルシード インコーポレイテッド
Publication of JP2023516135A publication Critical patent/JP2023516135A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61MDEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
    • A61M21/00Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
    • A61M21/02Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis for inducing sleep or relaxation, e.g. by direct nerve stimulation, hypnosis, analgesia
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10GREPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
    • G10G1/00Means for the representation of music
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • G10H1/0025Automatic or semi-automatic music composition, e.g. producing random music, applying rules from music theory or modifying a musical piece
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/70ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to mental therapies, e.g. psychological therapy or autogenous training
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61MDEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
    • A61M21/00Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis
    • A61M2021/0005Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus
    • A61M2021/0027Other devices or methods to cause a change in the state of consciousness; Devices for producing or ending sleep by mechanical, optical, or acoustical means, e.g. for hypnosis by the use of a particular sense, or stimulus by the hearing sense
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61MDEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
    • A61M2205/00General characteristics of the apparatus
    • A61M2205/33Controlling, regulating or measuring
    • A61M2205/3303Using a biosensor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61MDEVICES FOR INTRODUCING MEDIA INTO, OR ONTO, THE BODY; DEVICES FOR TRANSDUCING BODY MEDIA OR FOR TAKING MEDIA FROM THE BODY; DEVICES FOR PRODUCING OR ENDING SLEEP OR STUPOR
    • A61M2205/00General characteristics of the apparatus
    • A61M2205/50General characteristics of the apparatus with microprocessors or computers
    • A61M2205/502User interfaces, e.g. screens or keyboards
    • A61M2205/505Touch-screens; Virtual keyboard or keypads; Virtual buttons; Soft keys; Mouse touches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/111Automatic composing, i.e. using predefined musical rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/101Music Composition or musical creation; Tools or processes therefor
    • G10H2210/125Medley, i.e. linking parts of different musical pieces in one single piece, e.g. sound collage, DJ mix
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/091Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith
    • G10H2220/101Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters
    • G10H2220/116Graphical user interface [GUI] specifically adapted for electrophonic musical instruments, e.g. interactive musical displays, musical instrument icons or menus; Details of user interactions therewith for graphical creation, edition or control of musical data or parameters for graphical editing of sound parameters or waveforms, e.g. by graphical interactive control of timbre, partials or envelope
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2220/00Input/output interfacing specifically adapted for electrophonic musical tools or instruments
    • G10H2220/155User input interfaces for electrophonic musical instruments
    • G10H2220/371Vital parameter control, i.e. musical instrument control based on body signals, e.g. brainwaves, pulsation, temperature, perspiration; biometric information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/075Musical metadata derived from musical analysis or for use in electrophonic musical instruments
    • G10H2240/085Mood, i.e. generation, detection or selection of a particular emotional content or atmosphere in a musical piece
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/121Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
    • G10H2240/131Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Anesthesiology (AREA)
  • Psychology (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Biomedical Technology (AREA)
  • Pain & Pain Management (AREA)
  • Hematology (AREA)
  • Developmental Disabilities (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Medical Informatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Surgery (AREA)
  • Molecular Biology (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Medicines Containing Plant Substances (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

情動音楽の推薦および作曲のための方法、システム、および媒体。聴取者の現在の情動状態および目標の情動状態を識別し、そして現在の状態から目標の状態までの聴取者の情動状態の制御されたトラジェクトリを生じる意図で、例えば音楽プレイリストであるオーディオストリームを生成する。該オーディオストリームは、所望の情動トラジェクトリを生じる際に、特定のオーディオセグメント、すなわち特定の特徴量を有するオーディオセグメント、の有効性を示す聴取者および/または他のユーザからのデータを使用して訓練された機械学習システムにより生成する。オーディオストリームは、聴覚刺激としてユーザに提示される。機械学習システムは、聴覚刺激への曝露後に聴取者に誘発される情動状態の変化に基づいて更新され得る。経時的に、機械学習システムは、音楽とヒトの情動との間の関係の堅牢な解釈を獲得し、それにより機械学習システムはまた、聴取者に特定の情動応答を誘発するよう構成された音楽を作曲、マスタリング、および/または適応するためにも使用され得る。【選択図】図17A

Description

少なくとも一部の例示的な実施形態が、音楽の推薦および音楽の作曲のシステムに関し、特に聴取者の情動状態に特定の変化を誘発することを意図した音楽を作曲および推薦するためのシステムに関する。
情動(affect)とは、心理学において、感情(emotion)、気分(mood)、または感じ(feeling)の体験を記述するために使用される概念である。人間は、異なる条件下で異なる情動状態を体験する。外的刺激が、ある人物の気分や情動に影響を与えることがある。
多くの人々は、様々な種類の音楽刺激に対して特に鋭敏な情動応答を示す。音楽は、聴取者に特定の情動状態を誘発する際におけるその有効性を理由に、主に人類文化において相当に大きな役割を果たす。個々の聴取者は通常、例えば活力に満ちた状態、リラックスした状態、メランコリックな状態、懐かしい状態、幸せな状態、または活動的な状態などである目標の情動状態を維持または達成したいという願望に基づいて聴取する音楽を選択する。
音楽推薦システムでは、聴取者が何を好む可能性があるかを推論することに基づいて、聴取者に音楽を推薦しようと試みる。これら推論は、通常、聴取者から収集したデータに基づく。このデータは、推薦の時点での聴取者とのインタラクションを通して、または全体的な聴取者の選好を示唆するそれまでのインタラクションの間に、収集され得る。推薦システムは、聴取者に対して一組のテーマを提示して、聴取者が選択したテーマに基づいて音楽を推薦してもよい。これらテーマは、ジャンル(クラシック、カントリー、ラップ)、季節または状況(クリスマスミュージック、ビーチミュージック)、または歴史的な年代(1960年代、1980年代、現代)を含む、いくつかの原則のうちのいずれかについて構成することができる。一部のテーマは、気分または他の情動状態の情報、例えば聴取者の情動状態(悲しみ、幸せ、リラックスしている、活力満ちている)を誘発またはそれに合致することを意図した音楽などを中心に構成され得る。テーマはまた、特定の情動状態を目指すことを示唆する活動を中心に構成されてもよい(調理または瞑想のための穏やかな音楽、トレーニングのための活動的な音楽、ダンスのためのアップビートでリズミカルな音楽)。
また一部の音楽推薦システムは、聴取者を特定の楽曲構成に関連付けるデータを通して、聴取者の選好を推論する。このシステムは、例えば、聴取者による以前の音楽鑑賞の選択、または聴取者による以前の音楽録音の購入に関するデータを収集し得る。これら選択または購入は、例えば聴取者が好むものと類似した特徴をもつ楽曲構成を識別することなどによって、他の利用可能な楽曲構成と相互参照され得る。一部のシステムは、協調フィルタリングを使用して、当該聴取者に対して、類似の嗜好又は類似の選択もしくは購入履歴を有する他のユーザが好む構成を識別することができる。一部のシステムは、システムの推薦に関して聴取者からフィードバックを収集し、そしてユーザの選好についての当該システムのモデルおよびそれに応じた当該システムの推論の信頼度を更新することができる。
情動に関連するテーマを含むシステムは、通常、個々の聴取者に固有ではない楽曲構成の全体的な特徴に基づいて、所与のテーマに合致する楽曲構成を識別する。ある楽曲構成の情動に関連する特徴は、典型的には、その楽曲構成全体を尊重して識別される。通常、楽曲を聴き、音楽情報検索(MIR)と呼ばれるプロセスに従って該楽曲を特徴付けるために、音楽分類の訓練を受けた専門家が採用される。MIRは、音楽の特徴量の抽出と表現に関与する。MIRでの特徴量を表現するための基準は、IRCAM(Institute for Research and Coordination in Acoustics/Music)によって公布されており、また例えばMatlab用のMIRツールボックスソフトウェアパッケージなどである、MIRを支援するソフトウェアが存在する。MIRデータの既存の集合の一部には、特定の楽曲構成に関連付けられた情動関連のタグまたは特徴量が含まれるが、これは、専門家である聴取者が、ある楽曲構成の全体としての情動関連の特徴量を評価することに基づいている。
楽曲構成は通常、楽音的要素に関して、人間の情動についての洗練された形式的モデルが支援しているものではない。聴取者の特定の情動状態の変化を得ることを意図した音楽は、概して、作曲家がもつ主観的な基準に基づいて、人間である作曲家によって作曲されている。
本開示は、情動音楽の推薦および作曲のためのデバイス、方法、システム、および非一時的媒体の例を記載する。一部の実施形態では、聴取者の現在の情動状態および目標の情動状態を識別し、そして現在の状態から目標の状態までの聴取者の情動状態の制御されたトラジェクトリを生じる意図で、オーディオストリーム(例えば音楽プレイリスト、サウンドデザイン、またはアルゴリズム的に作曲された楽曲など)を生成する。オーディオストリームは、所望の情動トラジェクトリを生じる際に、特定のオーディオセグメント、すなわち特定の特徴量を有するオーディオセグメント、の有効性を示す聴取者および/または他のユーザからのデータを使用して訓練された機械学習モデルにより生成する。一部の実施形態では、曲は、特定の聴取者または聴取者集団が特定の楽音的要素に対してどのように情動的に応答するかについてのモデルに基づいて、特定の目標の情動状態または特定の情動トラジェクトリが得られるように作曲され得る。
例示的実施形態は、聴取者に情動状態変化を誘発するためのオーディオストリームを生成する方法に向けられる。本方法は、聴取者の現在の情動状態を識別するステップと、聴取者の目標の情動状態を識別するステップと、現在の情動状態から目標の情動状態までの情動トラジェクトリを識別するステップと、訓練されたセグメント識別機械学習モデルを使用して、第一のオーディオセグメントが聴覚刺激として聴取者に提示されたときに情動トラジェクトリの少なくとも初期部分に対応する所望の情動応答を聴取者に誘発する可能性が高い第一のオーディオセグメントを識別するステップと、第一のオーディオセグメントの少なくとも一部に基づいてオーディオストリームを生成するステップと、オーディオストリームに基づくオーディオストリームデータを聴取者デバイスに送信するステップとを含む。
第二の実施形態は、聴取者に情動状態の変化を誘発するためのオーディオストリームを生成するシステムに向けられる。当該システムは、プロセッサシステム、通信システム、および記憶装置を備える。記憶装置は、実行可能な訓練されたセグメント識別機械学習モデル、および実行可能な命令をそこに記憶している。プロセッサシステムにより実行される場合、実行可能な命令が、システムに対して、通信システムが受信した聴取者の状態データに基づいて聴取者の現在の情動状態を識別させ、通信システムが受信した目標の情動状態データに基づいて聴取者の目標の情動状態を識別させ、現在の情動状態から目標の情動状態までの情動トラジェクトリを識別させ、訓練されたセグメント識別機械学習モデルに対して、聴覚刺激として聴取者に提示されたときに聴取者の情動トラジェクトリの少なくとも初期部分に対応する所望の情動応答を聴取者に誘発する可能性が高い第一のオーディオセグメントを識別することを実行させ、第一のオーディオセグメントの少なくとも一部に基づいてオーディオストリームを生成させ、通信システムを用いてオーディオストリームに基づくオーディオストリームデータを聴取者デバイスに送信させる。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、訓練されたセグメント識別機械学習モデルを使用して第一のオーディオセグメントを識別した後、情動推論プロセスを使用して、現在の情動状態と第一のオーディオセグメントのオーディオ特徴量値セットとに基づいて、推論による新規情動状態を推論する。当該推論による新規情動状態のデータから目標の情動状態までの更新された情動トラジェクトリが識別される。ある後続のオーディオセグメントであって、該後続のオーディオセグメントが聴覚刺激として聴取者に提示されたときに上記更新された情動トラジェクトリの少なくとも初期部分に対応するものである後続の所望の情動応答を聴取者が誘発する可能性が高い後続のオーディオセグメントを識別するために、訓練されたセグメント識別機械学習モデルを使用する。当該オーディオストリームは、少なくとも部分的に第一のオーディオセグメントおよび後続オーディオセグメントに基づいて生成する。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、訓練されたセグメント識別機械学習モデルが、情動推論プロセスから受信した報酬データを使用して訓練され、そして情動推論プロセスは、オーディオストリームのオーディオ特徴量値セットに対する聴取者の推論された情動応答を推論することと、所望の情動応答に対して推論された情動応答を比較することに基づいて報酬データを生成することとによって、報酬データを生成する。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、情動推論プロセスが、訓練された情動推論機械学習モデルを備えて、また訓練された情動推論機械学習モデルは、複数の訓練オーディオセグメントに対応する訓練オーディオ特徴量データと、複数の訓練オーディオセグメントに対応する複数のオーディオ刺激の各々に対してヒト対象それぞれを曝露することと合わせて一または複数のヒト対象から収集した情動状態データとを含む訓練データを使用して訓練する。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、一または複数のヒト対象は、聴取者を含む。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、訓練されたセグメント識別機械学習モデルは、強化学習モデルを備える。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、訓練されたセグメント識別機械学習モデルは、深層学習ニューラルネットワークを備える。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、オーディオストリームデータは、オーディオストリームを推薦する推薦データを含む。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、オーディオストリームデータは、オーディオストリームを含む。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、オーディオストリームデータを聴取者デバイスに送信後、更新された現在の情動状態データを聴取者から受信する。訓練された情動推論機械学習モデルは、第一のオーディオセグメントおよび複数の後続オーディオセグメントのそれぞれに対応するオーディオ特徴量データと更新された現在の情動状態データとを含む実行時間訓練データを使用する。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、聴取者の目標の情動状態を識別することは、聴取者デバイスを介して聴取者から目標の情動状態データを受信することと、目標の情動状態データに基づいて聴取者の目標の情動状態を識別することとを含む。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、聴取者の現在の情動状態を識別することは、聴取者デバイスを介して聴取者から情動自己評価データを受信することと、情動自己評価データに基づいて聴取者の現在の情動状態を識別することとを含む。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、聴取者の現在の情動状態を識別することは、聴取者と関連付けられる生理学的データまたは聴取者のさらなる生理学的状態を受信することと、生理学的データに基づいて、聴取者の現在の情動状態を識別することとを含む。
さらなる実施形態は、上記方法のうちの一または複数を実行するための命令を含む、非一時的プロセッサ可読媒体に向けられる。
さらなる実施形態は、上記方法のうちの一または複数によって生成されるオーディオストリームを含む非一時的記憶媒体に向けられる。
さらなる実施形態は、音楽的特徴量に対する人間の情動応答を予測する機械学習モデルを訓練する方法であって、音楽的特徴量セットを有する音楽を聴取者に提示することと、当該音楽の提示に対する聴取者の情動応答を示す、聴取者からの情動応答データを取得することと、音楽の音楽的特徴量を、情動応答データでラベル付けして、ラベル付き音楽的特徴量データを生成することと、ラベル付き音楽的特徴量データを、機械学習モデルを訓練する訓練データとして使用して、当該音楽的特徴量データに基づいて情動応答データを予測することとを含む当該方法に向けられる。
さらなる実施形態は、音楽に対する人間の応答を予測するためのシステムであって、プロセッサシステムと、記憶装置であって、そこに、上記方法のうちの一つに従って訓練された機械学習モデルを記憶している記憶装置とを備える、システムに向けられる。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、機械学習モデルは、所望の情動応答を示す所望の情動応答データを受信し、そして機械学習モデルにより予測した音楽的特徴量を有する音楽を生成して、聴取者に所望の情動応答を誘発する生成モデルである。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、音楽を生成することは、所望の情動応答データを処理する生成モデルを使用して、音楽的特徴量を示す音楽的特徴量データを生成することと、該音楽的特徴量データに基づいて音楽を生成することとを含む。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、音楽的特徴量データは、音楽情報検索(MIR)データである。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、MIRデータは、音楽用MIRブループリントである。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、生成モデルは、敵対的生成ネットワーク(GAN(generative adversarial network))である。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、GANは、生成器ネットワーク、確率ネットワーク、および制御ネットワークを備える。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、GANは、条件付きGANを備える。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、生成器ネットワークは、生成器ニューラルネットワークを備える。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、確率ネットワークは、識別器ニューラルネットワーク(discriminator neural network)を備える。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、生成器ニューラルネットワークおよび識別器ニューラルネットワークはそれぞれ、LSTM(長短期メモリ(long short-term memory))を有する回帰型ニューラルネットワーク(RNN)を備える。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、音楽的特徴量データに基づいて音楽を生成することは、音楽的特徴量データに基づいてスコアを生成することと、スコアに基づいて音楽を生成することとを含む。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、スコアは、MIDI(ミュージカルインストルメントデジタルインターフェース)スコアである。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、スコアを生成することは、作曲意図情報を受信することと、音楽的特徴量データおよび作曲意図情報に基づいてスコアを生成することとを含む。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、作曲意図情報は、スコアタイプ情報、楽器編成情報、およびスコア長さ情報のうちの一または複数を含む。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、作曲意図情報は、ユーザから受信した作曲意図ユーザ入力により示される。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、メモリは、スコア生成機械学習モデルをさらに記憶し、またスコアを生成することが、スコア生成機械学習モデルを使用して、音楽的特徴量データを処理してスコアを生成することを含む。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、スコア生成機械学習モデルは、スコア生成敵対的生成ネットワーク(GAN)である。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、スコア生成GANは、生成器ネットワーク、確率ネットワーク、および制御ネットワークを備える。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、スコア生成GANは、条件付きGANを備える。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、生成器ネットワークは、生成器ニューラルネットワークを備える。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、確率ネットワークは、識別器ニューラルネットワーク(discriminator neural network)を備える。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、生成器ニューラルネットワークおよび識別器ニューラルネットワークはそれぞれ、LSTM(長短期メモリ(long short-term memory))を有する回帰型ニューラルネットワーク(RNN)を備える。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、スコアに基づいて音楽を生成することは、スコアをユーザに提示することと、ユーザからラフミックスユーザ入力を受信することと、ラフミックスユーザ入力に基づいてラフミックスを生成することと、ラフミックスに基づいて音楽を生成することとを含む。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、スコアに基づいて音楽を生成することは、音楽的特徴量データに基づいて作曲リードシートを生成することと、作曲リードシートをユーザに提示することとをさらに含む。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、ラフミックスに基づいて音楽を生成することは、音楽的特徴量データおよびラフミックスに基づいて制作リードシートを生成することと、作曲リードシートをユーザに提示すること、ユーザから最終ミックスユーザ入力を受信することと、最終ミックスユーザ入力に基づいて最終ミックスを生成することと、最終ミックスに基づいて音楽を生成することとを含む。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、メモリは、マスタリング機械学習モデルをさらに記憶し、また最終ミックスを生成することは、マスタリング機械学習モデルを使用して音楽的特徴量データおよび最終ミックスを処理して、音楽を生成することを含む。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、マスタリング機械学習モデルは、既存の楽曲を受信して、音楽的特徴量データおよび既存の楽曲を処理して、当該音楽的特徴量を有する音楽を生成するようにさらに構成される。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、マスタリング機械学習モデルは、複数の既存の音楽ステムに基づいて音楽的特徴量を有する音楽を生成するようにさらに構成される。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、マスタリング機械学習モデルは、回帰型深層Qネットワーク(DQN)を備える。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、マスタリング機械学習モデルは、分岐の回帰型DQNを備える。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、マスタリング機械学習モデルは、LSTM(長短期メモリ(long short-term memory))を含む。
さらなる実施形態は、上記記載のシステムが生成したオーディオストリームを含む非一時的記憶媒体に向けられる。
本明細書に開示される他の実施形態と組み合わせることができるさらなる態様によれば、機械学習モデルは、複数の既存の楽曲を受信して、所望の情動応答データを受信し、聴取者に所望の情動応答を誘発する可能性が高い、複数の既存の楽曲のうちのある既存の楽曲を識別するようにさらに構成される。
ここで実施形態について、添付の図面を参照しながら例として説明していくが、同様の参照番号は、同様の特徴を指し示すために用いられ得る。
図1は、本明細書に記載の例示的な実施形態による、情動音楽推薦のための例示的なシステムのブロック図である。
図2Aは、本明細書に記載の例示的な実施形態による、ストリーム生成モードで動作する情動音楽推薦のための例示的なシステムのシステム図である。
図2Bは、本明細書に記載の例示的な実施形態による、訓練モードで動作する情動音楽推薦のための例示的なシステムのシステム図である。
図3は、本明細書に記載の例示的な実施形態による情動音楽推薦のための例示的な方法のフローチャートである。
図4Aは、本明細書に記載の例示的な実施形態による情動状態推論のための簡略化されたニューラルネットワークを示す概略図である。
図4Bは、本明細書に記載の例示的な実施形態による情動状態推論のための簡略化された回帰型ニューラルネットワークを示す概略図である。
図5は、本明細書に記載の例示的な実施形態による、目標の情動応答を達成する可能性が高いオーディオセグメントを識別するためのニューラルネットワークを示す概略図である。
図6は、本明細書に記載の例示的な実施形態による、刺激前の聴取者のインタラクションを示す聴取者デバイスの例示的な一連のユーザインターフェース画面である。
図7は、本明細書に記載の例示的な実施形態による、刺激後の聴取者のインタラクションを示す聴取者デバイスの例示的な一連のユーザインターフェース画面である。
図8は、本明細書に記載の例示的な実施形態による、パーソナライゼーションでの聴取者のインタラクションを示す聴取者デバイスの例示的な一連のユーザインターフェース画面である。
図9は、本明細書に記載の例示的な実施形態による、プロファイル作成プロセスの一部としてユーザに提示される聴取者デバイスの例示的なユーザインターフェース画面である。
図10は、本明細書に記載の例示的な実施形態による、文脈情報収集インタラクションを示す聴取者デバイスの例示的な一連のユーザインターフェース画面である。
図11は、本明細書に記載の例示的な実施形態による、情動音楽推薦のための例示的なマルチモデルシステムのブロック図である。
図12は、本明細書に記載の例示的な実施形態による、音楽の楽しさを評価する例示的なユーザインターフェース画面1202である。
図13は、本明細書に記載の例示的な実施形態による、例示的なMIR特徴量予測システムである。
図14は、本明細書に記載の例示的な実施形態による、聴取者のために音楽モデルのデータベースを作成する例示的なプロセスのステップおよび構成要素を示すブロック図である。
図15は、図14のパーソナライズしたモデルの転移学習プロセスで用いるパーソナライゼーション因子を示す概略図である。
図16は、本明細書に記載の例示的な実施形態による、情動音楽作曲のための例示的なシステムのブロック図である。
図17Aは、図16の例示的な情動音楽作曲システムの第一の部分のプロセス間の関係を示すブロック図である。
図17Bは、図16の例示的な情動音楽作曲システムの第二の部分のプロセス間の関係を示すブロック図である。
図17Cは、図16の例示的な情動音楽作曲システムの第三の部分のプロセス間の関係を示すブロック図である。
図17Dは、図16の例示的な情動音楽作曲システムの第四の部分のプロセス間の関係を示すブロック図である。
図18は、図16の情動音楽作曲システムで用いる情動状態推論のための簡略化された回帰型ニューラルネットワークを示す概略図である。
図19は、図16の情動音楽作曲システムで用いるMIR生成器プロセスを示すブロック図である。
図20は、図16の情動音楽作曲システムで用いるスコア生成器プロセスを示すブロック図である。
図21Aは、図16の情動音楽作曲システムで用いるマスタリングエージェントの第一の部分を示すブロック図である。
図21Bは、図16の情動音楽作曲システムで用いるマスタリングエージェントの第二の部分を示すブロック図である。
図22Aは、図16の情動音楽作曲システムで用いる適応音楽エージェントの第一の部分を示すブロック図である。
図22Bは、図16の情動音楽作曲システムで用いる適応音楽エージェントの第二の部分を示すブロック図である。
図22Cは、図16の情動音楽作曲システムで用いる適応音楽エージェントの第三の部分を示すブロック図である。
図23は、図16の情動音楽作曲システムで用いる作曲リードシートプロセスを示すブロック図である。
図24Aは、図23の作曲リードシートプロセスにより生成した作曲リードシートの例示的な情動空間インジケータである。
図24Bは、図23の作曲リードシートプロセスにより生成した例示的な作曲リードシートである。
図25は、図16の情動音楽作曲システムで用いる制作リードシートプロセスを示すブロック図である。
図26は、図25の制作リードシートプロセスにより生成した例示的な制作リードシートである。
図27は、本明細書に記載の実施形態を使用した、アルバムのリミックスの例示的な使用事例のブロック図である。
図28は、本明細書に記載の実施形態を使用して健康維持プレイリストを目標とする、音楽のリミックスの例示的な使用事例のブロック図である。
図29は、本明細書に記載の実施形態を使用して別個の情動目標を有する複数のアルバムを生成するための、音楽集合のリミックスの例示的な使用事例のブロック図である。
図30は、本明細書に記載の実施形態を使用した既存のステムのライブラリを使用して情動音楽を生成するための、音楽の適応の例示的な使用事例のブロック図である。
情動音楽の推薦および作曲のための方法、システム、および非一時的媒体に関して、実施形態の例を説明することとする。音楽推薦システムについては、図1~15を参照して最初に説明することとする。次に、これら音楽推薦システムの構成要素を、図16~30を参照して音楽作曲システムを説明する際に参照することとする。
記載される音楽推薦システムおよび方法は、聴取者に情動状態の変化を誘発するためのオーディオストリームを生成する。一部の実施形態は、二つの別個の機械学習モデルを利用して、聴取者に望ましい情動応答を誘発する可能性が高い、例えば音楽プレイリストなどであるオーディオストリームを生成する。一方の機械学習モデルは、例えば音楽セグメントのMIR特徴量値などであるオーディオセグメントのオーディオ特徴量値セットに対する情動応答を推定する情動推論モデルである。もう一方の機械学習システムは、深層Qネットワーク(DQN)とも呼ばれるディープラーニングニューラルネットワークを備えた強化学習モデルであり、これはオーディオセグメントのセット(例えば曲、または曲から抜粋されたエポック(epoch)など)を使用して、またオーディオセグメントのオーディオ特徴量値(例えば、MIR特徴量値)に基づく情動推論モデルからのフィードバックを使用して、オーディオセグメントへの情動応答を推定するように訓練される。
ここで、聴取者に情動状態変化を誘発するためのオーディオストリームを生成する情動音楽推薦システム100の例示的な第一の実施形態を、図1を参照しながら説明することとする。
図1は、コンピュータプログラム命令を実行するプロセッサシステム102、実行可能な命令およびデータを記憶する記憶装置104、ならびにデータを他の装置または構成要素と通信する通信システム106を含む、情動音楽推薦システム100を示す。
情動音楽推薦システム100は、一つまたは複数のコンピュータシステムに実装され得る。これは、単一のコンピュータ、複数のコンピュータ、仮想マシン、分散コンピューティングプラットフォームもしくはクラウドコンピューティングプラットフォーム、または本明細書に記載される方法ステップを実施することができるプラットフォームの任意の他のプラットフォームによって具現化され得る。一部の実施形態においては、情動音楽推薦システム100は、聴取者によって使用される一つまたは複数の電子デバイス(聴取者デバイス190)を包含してもよく、一方で他の実施形態では、情動音楽推薦システム100は、当該デバイスと、通信システム106を使用して直接的または間接的(例えば、通信ネットワーク170を介して)に通信する。
プロセッサシステム102は、コンピュータまたはコンピューティングプラットフォーム上の、例えば一つ以上のプロセッサなどであるコンピュータプログラム命令を実行することができる任意の処理リソースとして具現化され得る。記憶装置104は、例えば一または複数のコンピューティングプラットフォーム上の一または複数のディスクドライブ、ランダムアクセスメモリ、または揮発性もしくは不揮発性のメモリなどである、任意のデータ記憶格納の資源として具現化され得る。通信システム106は、例えばイーサネット、Wifi、またはBluetoothのインターフェースなどである有線または無線通信インターフェースを含む、一または複数の通信リンクまたはインターフェースとして具現化され得る。一部の実施形態では、聴取者デバイス190の一つまたは複数を、情動音楽推薦システム100と同じプラットフォーム上に実装することができる。こうした実施形態では、通信システム106は、内部通信バスまたは他のプラットフォーム内データ転送システムを備え得る。
記憶装置104は、実行可能な命令の形態で、いくつかのタイプのコンピュータプログラムをそこに記憶することができる。本明細書に記載される方法ステップを実施するための実行可能命令セット110を、そこに記憶してもよい。また、聴取者に特定の情動応答を誘発することを意図したオーディオセグメントを識別する一または複数の機械学習モデルが存在してもよく、これは複数の深層Qネットワーク(深層学習ニューラルネットワークとも呼ばれる)、すなわち第一の深層Qネットワーク122、第二の深層Qネットワーク124等から第Nの深層Qネットワーク126として、本明細書において示される。記憶装置104はまた、ここで情動推論ニューラルネットワーク140として示される、特定のオーディオ特徴量値セットを有するオーディオセグメントへの聴取者の曝露によって誘発される情動状態を推論する情動推論機械学習モデルをそこに記憶させておくこともできる。これら機械学習モデルは、以下でさらに説明するように訓練された後、情動音楽推薦システム100上で展開され得る。
記憶装置104は、いくつかのタイプのデータ180をそこに記憶させておくことができる。データ180は、情動推薦システム100での体験についての以前の記録に関連するデータ(例えば、情動データおよびセグメント選択)を含み得る。データ180はまた、複数のオーディオセグメント186と、複数のオーディオセグメント186の各々に対応するオーディオ特徴量データとを含む、オーディオライブラリ184を含んでもよい。オーディオセグメント186は、別個のオーディオクリップとして記憶したデジタルオーディオデータを含んでもよく、または当該セグメントは、例えば可変の継続時間の曲から抽出された固定継続時間のエポックなどであるオーディオライブラリ184に記憶したオーディオクリップから抽出されてもよい。オーディオ特徴量データは、ここではライブラリMIRデータ182として示す。これは、対応する値を有するオーディオセグメント186のMIR特徴量を示す、各オーディオセグメント186に関連付けられたMIRメタデータを含み得る。オーディオ特徴量データはまた、一部の実施形態では、非MIRデータまたはメタデータを含んでもよい。
聴取者デバイス190は、通信ネットワーク170を介して情動音楽推薦システム100と通信する例えばコンピュータまたはスマートフォンなどである情動音楽推薦システム100の聴取者またはエンドユーザによって操作される電子デバイスであり得る。情動音楽推薦システム100は、複数のタイプの聴取者デバイス190を支援し得る。一部の聴取者デバイス190は、例えば視覚データを表示してユーザの入力を受けるタッチスクリーン194、ならびに例えばスピーカーおよび/またはヘッドフォンへの有線もしくは無線インターフェースなどであるオーディオ出力192など、ユーザインターフェース構成要素を含む。情動音楽推薦システム100との通信は、通信ネットワーク170を介して通信し得る通信システム196によって実行される。
図2Aは、情動音楽推薦システム100の機能的システム図を示す。様々な機能的ステップは、プロセッサシステム102を使用することにより、記憶装置104に記憶した実行可能命令110が実行されるように、情動音楽推薦システム100により実行される。
情動音楽推薦システム100は、命令110を実行して、聴取者に情動状態の変化を誘発するオーディオストリーム234を生成する方法を実行する。方法ステップを実行するために、情動音楽推薦システム100は、命令110、セグメント識別機械学習モデル(例えば、深層Qネットワーク122、124~126)、および情動推論機械学習モデル(例えば、情動推論ニューラルネットワーク140)の実行により実施されるいくつかの機能的ブロックを使用する。情動音楽推薦システム100は、二つの異なるモード、すなわち典型的にはユーザセッション中に行われるオーディオストリーム生成モード、およびユーザセッションの間に行われ得る訓練モードで動作する。オーディオストリーム生成モードでの情動音楽推薦システム100の動作について、図2Aを参照しながら最初に説明することとし、続いて図2Bを参照しながら訓練モードの動作について説明することとする。
聴取者に関連する聴取者状態データが、通信システム106を介して受信され、現在の状態の識別プロセス202で使用されて、聴取者の現在の情動状態212が識別される。聴取者状態データは、様々な実施形態において、情動自己評価データ206、生理学的データ208、および/または聴取者の情動状態の識別に潜在的に関連する他のタイプのデータを含み得る。聴取者状態データは、聴取者デバイス190から、他のデバイスから、および/または情動音楽推薦システム100の内部のソースからなどである、一または複数の供給源から受信され得る。以下でさらに詳細に説明するように、情動自己評価データ206が、聴取者デバイス190により生成され得る。生理学的データ208は、以下にさらに記載されるように、聴取者デバイス190、または聴取者から生理学的センサーデータを収集するように構成された別の装置から受信されてもよい。聴取者の情動状態を判定するために使用される他の聴取者状態データは、聴取者の表情または行動を示すカメラデータ、聴取者のイントネーションまたは発話内容を示す音声データ、または聴取者の情動状態の識別を支援するために使用され得る任意の他のデータを含み得る。
情動コンピューティングの分野では、生理学的データタイプ、自己報告によるデータタイプおよび/または他のデータタイプを使用して人間の情動状態を識別するため、ならびにデータ内で情動状態を表現するための、多くの公知の技術が存在する。情動状態を表現する通常のモデルの一つとして情動の二次元モデルがあるが、これは円環モデルとも呼ばれることがあり、所与の情動状態が、感情価(valence)の値(プラスの感情またはマイナスの感情の程度を表現する)および覚醒度または活性度(activation)の値(感情的な俊敏さまたはエネルギーの程度を表現する)として表現される。二次元の情動の感情価-活性度(valence-activation)モデルでは、例えば悲しみはマイナスの感情価かつ低活性度として表現されることがあり、怒りはマイナスの感情価かつ高活性度として表現されることがあり、熱意はプラスの感情価かつ高活性度として表現されることがあり、また息抜きはプラスの感情価かつ低活性度として表現されることがある。本明細書に記載される実施例は、概して、感情価および活性度の値を伴う情動の二次元モデルを指すこととなる。しかしながら、一部の実施形態では、情動状態を特徴付ける二以上または二未満の次元を使用するモデル、情動状態をモデル化するのに時間で変動する情動値を使用するモデル、および数値を使用することなく離散的情動状態のリストを使用するモデルをはじめとする、他の情動モデルを使用し得る。
現在の状態の識別プロセス202では、一部の実施形態では、聴取者の現在の情動状態を明示的に識別する聴取者状態データを受信し得る。他の実施形態では、現在の状態の識別プロセス202は、例えば特定の聴取者または概して人間における情動状態を識別するように訓練されたさらなる機械学習モデルなどである、情動識別エンジンを使用して、聴取者状態データに基づいて聴取者の情動状態を識別し得る。生理学的データから推論されるさらなる生物学的マーカーもまた、二次元の感情価および活性度値を超えたとしても現在の状態の識別プロセスへの入力として使用することができるものであり、例えば不安レベル、集中レベル、不穏レベルなどである。
一部の実施形態は、例えばユーザセッションの開始時点およびユーザセッションの終了時点などに、情動音楽推薦システム100の動作中の特定の時間に聴取者状態データを受信し得る。他の実施形態では、聴取者状態データは、絶え間なく、またはユーザ入力のタイミングで決定される時点に受信してもよい。例えばいくつかの実施形態では、生理学的データ208の絶え間ない流れを受信してもよく、また他の実施形態では、聴取者が決めた時点にユーザが誘導した情動自己評価データ206を受信してもよい。
目標の状態の識別プロセス204は、例えば聴取者デバイス190などである供給源から受信された目標の情動状態データ210に基づいて、聴取者の目標の情動状態214を識別するために使用される。一部の実施形態では、目標の情動状態データ210は、意図される用途の性質によって予め決定することができる。例えば、息抜きのための用途では、低活性度、プラスの感情価状態を示す目標の情動状態データ210を常に提供することができ、一方で集中のための用途では、高活性度、プラス~ニュートラルの感情価状態を示す目標の情動状態データ210を提供することができる。他の実施形態では、ユーザセッションの前またはユーザセッション中に聴取者デバイス190から受信した聴取者選好データに基づいて、聴取者の目標の情動状態214を識別することができる。
一部の実施形態では、現在の情動状態212および目標の情動状態214に基づいて、情動トラジェクトリプロセス216は、現在の情動状態212から目標の情動状態214までの情動トラジェクトリ218を識別する。二次元情動モデルを用いる実施形態では、情動トラジェクトリ218は、二次元の曲線250として表現することができる。例示的な曲線250は、例えば水平次元に感情価(左=マイナス、右=プラス)と、垂直次元に活性度(能動的=上、受動的=下)とで規定される、例示的な情動空間にプロットされる。聴取者の現在の情動状態212は、曲線250の開始点252としてプロットされる。目標の情動状態214は、曲線250の終点254としてプロットされる。中間にある一つまたは複数の中間地点は、例えば第一の中間地点256および第二の中間地点258など、曲線250に沿ってプロットされてもよく、これは情動トラジェクトリ218上の中間の情動状態を示すものである。曲線250の初期部分260は、開始点252および第一の中間地点256により画定される。曲線250の後続の第二の部分262は、第一の中間地点256および第二の中間地点258により画定される。曲線250の後続の第三および最後の部分264は、第二の中間地点258および終点254により画定される。また、機械学習技術を実装して、システムを使用する個人にとっての最良のトラジェクトリを学習することにより、ユーザの目標の情動状態を達成する上で以前の成功に基づいてこれらトラジェクトリを動的にさせることができる。他の実施形態では、このトラジェクトリは、その全体を省略することができ、またユーザの現在の情動状態および目標の情動状態のみにより、セッションを動かすことができる。この情動トラジェクトリプロセスを使用する実施形態では、DQN用の動きのある目標を通して、時間に沿って制御された情動状態変化を実施することを意図している。
オーディオセグメントであって、聴覚刺激として聴取者に提示されたときに聴取者の情動状態に情動トラジェクトリ218の少なくとも初期部分260を誘発する可能性が高いオーディオセグメントを選択または識別するために、オーディオセグメント識別プロセス222を使用する。オーディオセグメント230は、DQN120として示される訓練されたセグメント識別機械学習モデルを使用して識別されるが、当該モデルは、オーディオライブラリ184に記憶したオーディオセグメント220のサブセットからオーディオセグメント230を選択する。オーディオセグメント230は、オーディオセグメント230がオーディオセグメント220のサブセット内の他のオーディオセグメントよりも情動トラジェクトリ218の少なくとも初期部分260を聴取者に誘発する可能性が高い、すなわち当該オーディオセグメント230が、聴覚刺激として聴取者に再生されたときに、情動トラジェクトリ218上の第一の中間地点256、または後続地点258、254のうちの一方により表される状態に近いものである聴取者の情動状態を誘発する可能性が高い、というDQN120による評価に基づいて選択される。
オーディオセグメント識別プロセス222はまた、聴取者デバイス190から受信した文脈手がかり191、例えば時刻、聴取者がプライベート環境にあるか否か、聴取者がノイズの多い環境にあるか否かなどを、入力として用いることもできる。
情動音楽推薦システム100で使用するDQN120は、様々な状況下で、図1よりの様々なDQN(第一のDQN122~第NのDQN126)のいずれかであり得る。いくつかの実施形態では、複数のDQN122、124~126の各々は、オーディオライブラリ184からのオーディオセグメントの異なるサブセット220からの選択に使用される。オーディオセグメントのこれらサブセットは、様々な基準で生成され得る。オーディオセグメントのサブセットの例としては、聴取者が示す選好データに基づいて、音楽ジャンルに基づいて、または他のグループ化基準に基づいて選択された曲を含み得る。オーディオライブラリ184全体の代わりにサブセットを使用することの目的の一つとしては、オーディオセグメントのサブセット220に含まれるオーディオセグメントの数を、例えば100個または120個のオーディオセグメントなどである最大のセットサイズに制限することによって、DQN120により実行される計算を簡略化することがあり得る。複数のDQN(例えば、DQN122、124~126)を様々なユーザセッションで互いを代替として用いて、文脈に応じて、様々なオーディオセグメントのサブセット220からオーディオセグメントを選択することができる。
一部の実施形態では、DQN120は次に、聴覚刺激として聴取者に提示されたときに情動トラジェクトリ218の後続部分(例えば、部分262および/または264)に対応する、一または複数の後続の所望の情動応答を聴取者に誘発する可能性が高い一または複数の後続のオーディオセグメント230を識別し得る。
オーディオセグメント230を識別するプロセスの一回の反復を、一つの「ステップ」と呼び得る。各ステップの後(すなわち、第一のオーディオセグメントを識別した後、および複数の後続のオーディオセグメントの各々を識別した後)に、訓練された情動推論機械学習モデル(本明細書においては情動推論ニューラルネットワーク140として示す)を使用して、推論による新規情動状態データ226を生成して、DQN120によってなされた決定を知らせるために当該推論による新規情動状態データ226をDQN120にフィードバックすることができる。これは情動推論プロセス224の一部として実施されるが、ここでオーディオセグメント230のオーディオ特徴量(例えば、セグメントMIRデータ183)に合致するオーディオ特徴量を有するオーディオ刺激に聴取者を曝露することから生じる可能性が高い、聴取者の推論による新規情動状態226を推論するために、情動推論ニューラルネットワーク140を使用して、オーディオセグメント識別プロセス222によって識別されたオーディオセグメント230および目標の情動データ214が受信される。
一部の実施形態では、情動推論プロセス224は、例えば様々な機械学習モデルもしくは人工知能モデル、または所定の相関関係もしくは規則のセットなど、推定による新規情動状態226を生成するために様々な技術を使用することができる。
したがって、情動推論ニューラルネットワーク140は、DQN120に対してフィードバックと強化を提供することによって、そこで動作する環境をシミュレートするものであり、すなわち情動推論ニューラルネットワーク140が、オーディオ特徴量データ(例えば、セグメントMIRデータ183)と聴取者の一または複数の現在の情動状態212とを使用することによって情動推論ニューラルネットワーク140の以前の訓練により決定される、ユーザの可能性が高い情動応答を推論することによって、聴取者の情動応答をシミュレートする。例示的な情動推論ニューラルネットワーク140の訓練は、以下に詳細に説明される。
一部の実施形態においては、情動推論プロセス224は、実際のユーザからのリアルタイム情動データ測定のストリームで、完全にまたは部分的に置換することも可能である。これら実施形態では、当該データストリームは、DQN120によってなされた意思決定プロセスの次の「ステップ」を知らせるために必要な情動状態データを提供するのに十分な信頼性である。
ストリーム生成プロセス240は、オーディオセグメント識別プロセス222により識別された一または複数のオーディオセグメント230に基づいて、オーディオストリーム234を生成する。オーディオストリームは、一部の実施形態において、一または複数のオーディオセグメント230に対応する一連の識別子および/またはその他のメタデータとして表現され得る、音楽プレイリストであり得る。ストリーム生成プロセス240はまた、通信システム106を介して聴取者デバイス190に送信するためのオーディオストリームデータ236を生成する。一部の実施形態では、オーディオストリームデータは、オーディオストリーム234に含まれる一または複数のオーディオセグメント230に対応するメタデータを含み得る。このメタデータは、聴取者が、提案されたプレイリストを見直し、タッチスクリーン194を介して入力を行ってプレイリストを再生または変更することができるように、聴取者デバイスに送信され得る。一部の実施形態では、オーディオストリームデータは、一または複数のオーディオセグメント230に対応するオーディオセグメントデータを含み得る。聴取者デバイスは、オーディオ出力192を介して、このオーディオデータを聴覚刺激として聴取者に提示するように構成され得る。異なる時点および異なる条件下での異なる種類のオーディオストリームデータ236の送信を含む、情動音楽推薦システム100と聴取者デバイス190との間の通信は、様々な実施形態において、ユーザとオンラインでの音楽の推薦、キュレーション、またはプレイリストのサービスとの間の典型的なインタラクションを含み得る。
トラジェクトリ識別プロセス216によって識別される情動トラジェクトリ218の曲線250は、異なる実施形態および/または異なる状況では異なる特徴を有してもよい。一部の実施形態は、時間に沿って収集された情動フィードバックデータに基づいて、曲線250をユーザ依存的またはユーザ非依存的な形状に成形するために、例えばさらなる機械学習モデルなどのプロセスをさらに含み得る。曲線250は、第一の状態から第二の状態までの単純な直線トラジェクトリ(すなわち、二次元の傾斜直線)であってもよく、または科学文献もしくは情動データ解析から抽出された原理もしくはパターンに従って湾曲していてもよい。数値を使用する情動モデルを使用しない実施形態では、情動トラジェクトリ218は、情動空間にプロットされなくてもよいが、代わりに、現在の状態から目標の状態に移行するのに必要な中間の情動状態であると識別された一または複数の中間の情動状態を通過し得る。
本明細書に記載の実施形態は、最終的な目標の情動状態214を誘発する前に、情動トラジェクトリ218に沿って一または複数の中間情動状態(例えば、中間地点256、258)を誘発するように構成される。音楽刺激を使用した情動状態変化に対するこのアプローチは、気分管理のための音楽療法で使用される同質の原理(iso principle)に従う。この同質の原理は、音楽が最初は聴取者の現在の気分に合致していて、その後、時間に沿って所望の目標の気分に向かって徐々に移行する必要があると記述される。しかしながら、一部の実施形態は、例えば単一のオーディオセグメントを使用して情動エステート変化を誘発しようと試みる実施形態または非線形の情動トラジェクトリ曲線250を使用する実施形態など、情動応答を誘発するための様々なアプローチを取り得る。
上記の説明では、オーディオストリーム生成モードでの情動音楽推薦システム100により使用される様々な機能ブロックおよびデータの動作の概要を提供している。訓練モードでは、図2Aに示す様々な機能ブロックおよびデータが様々な目的で用いられ得、また図2Bを参照しながら以下に説明するように、さらなる機能ブロックおよびデータが補充され得る。
図2Bは、訓練モードで動作している図2Aの情動音楽推薦システム100を示す。例えば、訓練モードでは、推論による新規情動状態226を、推論訓練プロセス228によって目標の情動状態214と比較するが、この比較に基づいて報酬データ273が生成される。一部の実施形態では、報酬データ273は、推論による新規情動状態226が目標の情動状態214と類似している場合、DQN120に正の報酬を提供するが、推論による新規情動状態226が目標の情動状態214と異なっている場合、負の報酬を提供する。
一部の実施形態では、推論訓練プロセス228によって報酬関数272を使用して、報酬データ273を生成することができる。報酬関数272は、複数のセッションの過程で変動し得る。直接訓練プロセス270では、報酬関数272が、セッションの最後に(またはユーザがオーディオストリーム234を聴取し終えた後に)、聴取者デバイス190から情動自己評価データ206および/または生理学的データ208を受信するが、これは聴取者の最後の情動状態を示している。報酬関数272は、セッションの最後の聴取者の現在の情動状態212(すなわち、オーディオセグメント230を聴取した後の聴取者の最後の情動状態)と目標の情動状態214との間の比較に基づいて、セッション全体を通してDQN120の決定に報酬を与えるか(すなわち、正の報酬)または罰するか(すなわち、負の報酬)のいずれかである、報酬データ273を生成する。
一部の実施形態では、最終的な情動状態データは、セッション全体を通して聴取者から収集されるすべての情動状態データ、およびセッション最後にまたはセッションの後に聴取者から収集される現在の情動状態データ212を含む。報酬データ273は、将来のセッションでより良い決定を行うようにDQN120を再訓練して、モデルを効果的にパーソナライズするために使用される。他の実施形態では、個々のステップで取られた行動に報酬を与えるだけでなく、完全なシーケンスに報酬を与えるために、中間の情動状態の目標および長期の情動状態の目標を設定してもよい。一部の実施形態はまた、聴取者デバイス190から収集された追加的なフィードバックデータ(図示せず)を使用し得る。一部の実施形態はまた、あるリピート選択に負の報酬を与えることによって同じオーディオセグメント230をリピートする選択を妨げてもよく、またはユーザがオーディオストリーム234を聴取している間にその特定のオーディオセグメントを「スキップ」する場合に、特定のオーディオセグメントの選択に負の報酬を与えてもよい。
一部の実施形態では、セッション全体を通じて再生されるオーディオセグメントのセグメントMIRデータ183と相関する、最後の情動状態データ(すなわち、セッション最後に収集される現在の情動状態データ212)を使用して、将来のセッションでより良い予測を行うために、情動推論ニューラルネットワーク140を再訓練することもできる。
いくつかの実施形態では、情動トラジェクトリ218の形状は、トラジェクトリ形状生成機械学習モデルを使用して、情動トラジェクトリプロセス216を実施することによって、特定のユーザに対して適応させることができる。最後の情動状態データ(すなわち、セッション最後に収集される現在の情動状態データ212)およびトラジェクトリ報酬関数262は、トラジェクトリ形状生成フィードバックプロセス260によって使用され、以前のセッションからの良好な結果に基づいて、情動トラジェクトリ218を形状生成することができる。トラジェクトリ形状生成機械学習モデルが、特定のユーザに対して最良の情動トラジェクトリを最適化するために実施される実施形態では、最後の情動状態データおよび追加の報酬データ263を使用して、モデルを訓練および最適化して、ユーザに基づいてトラジェクトリをパーソナライズする。
一部の実施形態では、情動トラジェクトリ218は全体的に飛ばすことが可能であり、報酬関数272が、ユーザの最後の情動状態を目標の情動状態214と単純に比較することとそれに応じてDQN120によって予測される完全なシーケンスに報酬を与えることとによって、報酬データ273を生成することが可能である。
一部の実施形態では、DQN120は、ユーザとの体験中に現実世界での試行錯誤を通じて(実行時間に)、およびシミュレーションされた環境を通じて(実行時間外に)学習する任意の機械学習アルゴリズムで置き換えられ得る。これは、任意のモデルベースまたはモデルフリーの強化学習アルゴリズムによって達成できる。本明細書に記載されるDQN120の機能のすべてのインスタンスは、一部の実施形態においては、異なるモデルフリーまたはモデルベースの強化学習エージェントで置き換えられてもよく、限定されるものではないが、MBAC(モデルベースのアクター・クリティック(Actor Critic))、アドバンテージ付きA3C(アドバンテージ付きモデルフリーのアクター・クリティック)、Q-学習、深層Q学習、およびTDM(時間的差分モデル(temporal difference model))などのアプローチが挙げられる。
図3は、聴取者に情動状態変化を誘発するオーディオストリームを生成するための例示的な方法300のフローチャートを示す。ステップ302では、上述のように、聴取者の現在の情動状態212が識別される。ステップ304では、上述のように、聴取者の目標の情動状態214が識別される。ステップ306では、上述のように、情動トラジェクトリ218が識別される。ステップ308では、訓練されたセグメント識別機械学習モデル(例えば、DQN120)を使用して、上述のように、第一のオーディオセグメントが聴覚刺激として聴取者に提示されたときに情動トラジェクトリ218の少なくとも初期部分(例えば、初期部分256)に対応する所望の情動応答を聴取者に誘導する可能性が高い第一のオーディオセグメント(例えば、オーディオセグメント230)を識別する。
ステップ310では、情動推論プロセス224は、訓練された情動推論機械学習モデル140を使用して、ステップ308で深層学習ニューラルネットワーク120によって選択されるオーディオセグメントがユーザにどのように影響することとなるかを予測する。この推論による新規情動状態データ226は、ステップ310で情動推論機械学習モデル140によって生成されて、ステップ312で状態データ入力としてDQN120に送信される。
ステップ316では、情動音楽推薦システム100は、方法300が複数のこうしたステップのうち最後のオーディオセグメント識別ステップに到達したか否か、または一以上の後続するオーディオセグメントが、識別されてオーディオストリーム234に追加される対象のままであるか否かを判断し得る。いくつかの実施形態では、オーディオストリームは、固定長を有してもよく、および/または固定数のオーディオセグメント識別ステップを必要としてもよいものであり、すなわちオーディオストリーム234は、常に、第一の固定継続時間(例えば、継続時間が240秒)であってもよく、また各オーディオセグメントは、第二の固定継続時間(例えば、曲から抜粋された80秒のエポック)であってもよく、それによって、オーディオストリーム234を生成するために三つのオーディオセグメント識別ステップを必要とする。方法300が、ステップ316において最終ステップに到達していないと判断した場合、情動トラジェクトリの後続の部分を誘発する可能性が高い後続のオーディオセグメントは、図2Aを参照しながら上記において記載したとおりに識別される。方法は、後続するオーディオセグメントを識別するためにステップ308に戻り、最終ステップが完了するまでステップ316に戻る。次に、深層ニューラルネットワークはステップ308において、ステップ310での情動推論モデル140からの推論された情動状態データ226を、次のオーディオセグメント予測のための「最新の」情動状態212として使用する。
最終ステップが完了すると、上述のように、オーディオストリーム234がステップ318で生成される。ステップ320で、オーディオストリームデータ236が生成され、上述のように聴取者デバイス190に送信される。これにより、オーディオストリームを生成し、そしてそれを聴覚刺激として可能性のある提示のために聴取者へ送信するプロセスが完了する。
一部の実施形態では、聴取者は、オーディオストリーム234のすべてまたは一部を聴取した後で、更新された現在の情動状態データを提供するオプションにより促されるかまたは提示され得る。この更新された現在の情動状態データを使用して、情動推論機械学習モデルを訓練し、そしてオーディオストリーム234を構成するオーディオセグメントのオーディオ特徴量に対する、可能性が高い聴取者の情動応答に関してその推論が改善され得る。このデータを使用して、報酬関数272を使用して報酬データ273を生成し、図3に概説する方法のステップ308でDQN120によってなされた選択を強化することもできる。
ステップ322において、例えば通信システム106を介して、聴取者デバイス190から、更新された現在の情動状態データを受信する。ステップ324において、情動推論機械学習モデル(例えば、情動推論ニューラルネットワーク140)は、以下で詳細に説明するように、更新された現在の情動状態データを使用して訓練される。このステップにより、通常、ユーザセッションが終了する。
本明細書に記載される実施形態では、セグメント識別機械学習モデル(例えば、DQN120)はまた、推論訓練プロセス224および/または直接訓練プロセス270の一方または両方を使用して訓練される。この訓練は、ユーザセッションの終了時点で、または聴取者がシステム100を使用していない時間であるアイドル時間中に行われて得る。ステップ326において、セグメント識別機械学習モデル(例えば、DQN120)は、推論訓練プロセス228を使用して再訓練される。報酬データ273は、推論による新規情動状態226および目標の情動状態214に基づいて、報酬関数272によって生成される。この訓練ステップは、以下でさらに詳細に説明するように、DQN120の初期の訓練を繰り返すことができる。この訓練は、非同期的におよび/またはオフラインで実施可能である。
ステップ328において、セグメント識別機械学習モデル(例えば、DQN120)は、直接訓練プロセス270を使用して再訓練される。報酬データ273は、セッション終了時点に聴取者デバイス190を通して聴取者から受信した更新された現在の情動状態データ212を使用して、報酬関数272によって生成される。この訓練もまた、非同期的におよび/またはオフラインで実施可能である。
一部の実施形態では、ステップ308の直後にステップ318および320を実施して、308で行った第一の予測後にオーディオストリームを生成することができる。これら実施形態では、信頼できる現在の情動状態データ212の連続的なストリームがユーザから受信されて、推論された情動状態データ226の必要性がなくなる。これら実施形態では、ステップ318が、ステップ308の後に発生し、次いでステップ320およびステップ322が続き、ステップ308に戻り、直接のユーザフィードバックを経て新しい情動状態データ226を取得する。このプロセスは、所望の長さのオーディオ体験が完了するまで、複数回繰り返すことができる。これら実施形態では、DQN120の訓練プロセスは、直接のユーザフィードバックのみを使用して行われて、ステップ310、312、324、および326の必要性が排除される。
ここで、情動推論機械学習モデルおよびセグメント識別機械学習モデルの実施例について、図4A~Bおよび図5をそれぞれ参照しながら、各モデルを訓練するためのプロセスを含めて、より詳細に記述する。
図4Aは、情動推論ニューラルネットワーク140としての、情動推論機械学習モデルの例示的実施形態の概略図を示す。情動推論ニューラルネットワーク140は、少なくとも、ニューロン408の入力層402、一または複数の中間層404、および出力層406を備える。入力層402は、データ入力値(本明細書においては第1のMIR特徴量値412から第MのMIR特徴量値414および一または複数の非MIRデータ値416として示す)を受信し、既知の技術を使用してこれら入力を変換して、第一の中間層404にあるニューロンに出力410を提供する。中間層404の各々のニューロン408は、前の層から受信した出力410のそれぞれを重み付けし、そして重み付けされた出力値を変換して、次の層に対して出力410のさらなるセットを生成する。出力層406のニューロン408は、それら受信した出力410を同様に重み付けし、重み付けされた出力を変換して出力値を生成する(本明細書においては感情価420および活性度422として示す)。訓練中に各ニューロン408の入力に適用される重みを調節することによって、情動推論ニューラルネットワーク140を、例えばMIR特徴量値412から414などであるオーディオ特徴量セットに対して、可能性が高い聴取者の情動応答(本明細書においては推論された感情価の値420及び活性度値422として規定する)を推論するように訓練することができる。追加的な非MIR特徴量値または非オーディオ特徴量値を使用して、情動推論ニューラルネットワーク140を訓練および実行してもよい。すなわち、例えば一部の実施形態では、可能性の高いユーザの情動応答についての推論を行う際に情動推論ニューラルネットワーク140を補助するために、例えば時刻または聴取者環境などの変数を使用することができる。
他の実施形態では、異なる機械学習モデルを、図4A~Bおよび5に示すニューラルネットワークに代わって使用することができる。情動推論ニューラルネットワーク140は、音楽および/またはオーディオの選択に基づいて、ユーザの情動状態を推論するために必要な同じコアの入力および出力を維持しながら、様々な形態の教師あり機械学習システムおよび教師なし機械学習システムで置換することができる。同様に、DQN120は、聴取者に所望の情動トラジェクトリを誘導する際に推論した有効性に基づいて、オーディオセグメントを選択するために必要な同じコアの入力および出力を維持しながら、様々な形態の教師あり機械学習システムおよび非教師あり機械学習システムで置換することができる。
一部の実施形態においては、回帰型ニューラルネットワークは、情動推論ニューラルネットワーク140に使用されてもよく、それによって、一連の入力として時系列でのMIR特徴量が使用できるようになり、そして音楽のセグメント全体に対する時間ベースのMIR特徴量の平均表現の代わりに、音楽的特徴量のシーケンスに基づいて推論された状態の出力をもたらすことができる。これにより、情動推論ニューラルネットワーク140の予測が、より粒度が高く、時系列的であるようになされ、音楽体験のより現実的な表現を提供することが可能になり得る(人間の認知は、あるトラックをまとまりのある全体としてではなく、時間に沿って音楽を感知するので)。
図4Bは、回帰型情動推論ニューラルネットワーク(AINN)430の例を示す。オーディオセグメント識別プロセス222によって選択されるオーディオセグメント230からセグメントMIR特徴量183を抽出するために、MIR抽出プロセス225が使用されるものであり、当該特徴量は本明細書においてはオーディオセグメント230の全体MIR特徴量の長さNのアレイ433と呼び、第1の全体MIR特徴量435から第Nの全体MIR特徴量436として示す。全体MIR特徴量は、例えばテンポなど、オーディオセグメント230全体の音楽的特徴量を表現し得る。オーディオセグメント230のうちの一連の短いサブセグメント(エポックとも呼ぶ)(例えば、30秒ずつのサブセグメント)もそれぞれ、MIR抽出プロセス225によってMIR特徴量について分析されて、複数の時系列MIR特徴量アレイを生成するが、各時系列MIR特徴量アレイ434が、サブセグメントに対応し、かつ現在のサブセグメントに関して第1の時系列MIR特徴量438から第Nの時系列MIR特徴量440を含む。時系列MIR特徴量アレイ434のうちの時系列MIR特徴量438~440はそれぞれ、オーディオセグメント230の現在のエポックの特徴量、例えばオーディオセグメント230の時間的な特定のエポックに関するメル周波数ケプストラム(MFC)スペクトログラム値、を表現する。
各時間ステップで、全体MIR特徴量アレイ433の各全体MIR特徴量、および現在のエポック(例えば、第一の30秒のサブセグメントで始まる)に対する時系列MIR特徴量アレイ434の各MIR特徴量が、例えば現在の情動状態212などである他の入力データおよび例えば文脈情報432などである他のデータとともに、回帰型情動推論ニューラルネットワーク430への入力として提供される。文脈情報432は、例えばユーザのプロファイル(例えば性格、年齢、性別など)、嗜好プロファイル(例えば、音楽の選好)、時刻、天候などを表現するために記憶した値を含み得る。後続する各時間ステップにおいて、後続するエポック(例えば、第二の30秒のサブセグメント)の時系列MIR特徴量アレイ434が、他の入力212、432、435・・・436と共に入力438・・・440として提供されて、時系列ニューロンの出力が、フィードバック入力のさらなるセットとして提供され、それによって時間ベースの反復を提供する。回帰型情動推論ニューラルネットワーク430は、これらの入力に基づいて、オーディオセグメント230を聴取することによって聴取者に誘発されることとなる、推論された情動状態450(例えば、感情価および活性度値)を予測する。
情動推論ニューラルネットワーク140は、情動音楽推薦システム100の一部として展開される前に、はじめに初期訓練プロセスを受けてもよい。一部の実施形態では、以下の刊行物に記載されるものと同様の技術および/またはデータセットを使用して、初期訓練を実施することができる:Vempala, Naresh & Russo, Frank. (2012). Predicting emotion from music audio features using neural networks. Proceedings of the 9th International Symposium on Computer Music Modeling and Retrieval (CMMR)(以下、Vempala)。これは参照によりその全体が本明細書に組み込まれる。Vempalaは、音楽集合のMIR特徴量の選択されたサブセットを使用して、ニューラルネットワークを訓練して、この音楽を聴取するヒト対象の情動応答を予測することを記述している。具体的には、Vempalaは、ダイナミクス、リズム、音質(timbre)、ピッチ、および調性に関係する13種の低度および中度のMIR特徴量、rms(RMS)、lowenergy(ローエネルギー)、eventdensity(イベント密度)、tempo(テンポ)、pulseclarity(拍明瞭性)、zerocross(零交差)、centroid(重心)、spread(スプレッド)、rolloff(ロールオフ)、brightness(ブライトネス)、irregularity(不規則性)、inharmonicity(非調和性)、およびmode(モード)、を使用する。音楽のこれらMIR特徴量は、フィードフォワードニューラルネットワークへの入力として使用されるが、これが感情価および覚醒(すなわち、活性度)の出力値を生成する。音楽の聴取後、対象から自己報告による情動の感情価および覚醒情報を収集する。次に、予測した感情価/覚醒の出力をユーザの自己報告データと比較する損失関数を使用してニューラルネットワークを訓練するために、誤差逆伝播法を使用する。
例示的実施形態では、Vempalaで使用されている13種の特徴量とは異なるオーディオ特徴量セットを使用して、情動推論ニューラルネットワーク140の初期訓練を実施してもよい。
Vempalaでは、0~1の尺度で、関心の様々なMIR特徴量値を正規化している。同様に、例示的実施形態では、情動推論ニューラルネットワーク140で使用するMIRデータおよび/または他のオーディオデータもしくは非オーディオデータを正規化してもよい。
初期訓練が完了すると、情動推論ニューラルネットワーク140は、オーディオ特徴量に対する聴取者の非依存的情動応答を予測するのに有効であるとみなされ得る。しかしながら、情動推論ニューラルネットワーク140を訓練して、特定の聴取者の情動応答を予測するために、その聴取者からの情動フィードバックを使用して訓練されてもよい。展開された情動推論ニューラルネットワーク140はまた、その聴取者の情動応答に対するより普遍的でない因子の影響を特定するために、より多くのオーディオ特徴量および非オーディオ特徴量を入力として使用することもできる。ステップ310でなされた情動推論を、ステップ322で聴取者から受信した更新された現在の情動状態データと比較することによって、情動推論ニューラルネットワーク140は、誤差逆伝播法または他の訓練技術を使用して、そのニューロン408が使用する重みを更新して、オーディオ特徴量値セットに対する聴取者の情動応答のモデル化を改善することができる。
一部の実施形態では、聴取者が、オーディオセグメントを聴取し、前後の情動状態データを提供することによって、自身のパーソナライズした情動推論ニューラルネットワーク140をオンデマンドで訓練することを可能にする、推論訓練プロセスを提供し得る。このデータは、上述のように、情動推論ニューラルネットワーク140を訓練するために使用され得る。
使用中または訓練中、情動推論ニューラルネットワーク140は、時として外れ値、すなわち情動推論ニューラルネットワーク140の予測と非常に類似しない聴取者の情動応答を引き出すオーディオ刺激、と遭遇する場合がある。過剰な適合を回避するために、これら外れ値による刺激からのフィードバックデータは、訓練に使用されるフィードバックデータから分離することができる。この分離されたデータは、聴取者固有のデータを抽出する別個の分析プロセスによって使用され得るが、当該データは、刺激に対する聴取者特有の応答におけるパターンの識別を支援し得る。例えば聴取者は、オーディオセグメントとは無関係の聴取者環境にある他のイベントを理由に、オーディオセグメントを聴取する間に極端な情動応答を有してもよく、または聴取者は、ある特定の曲との感情的な関連性であって当該曲のオーディオ特徴量とは無関係である感情的な関連性を有してもよい。これら非オーディオ特徴量関連の関連性は、情動推論ニューラルネットワーク140を訓練するために使用されなくてもよいが、例えばその代わりに、将来の予測の正確さを支援するために、情動推論ニューラルネットワーク140への入力として潜在的に使用できる非オーディオデータを識別するために使用され得る。
図5は、深層学習ニューラルネットワークまたは深層Qネットワーク(DQN)120としてのオーディオセグメント識別機械学習モデルの例示的実施形態の概略図を示す。DQN120は、少なくともニューロン508の入力層502、一または複数の中間層504、および出力層506を備える。図4Aの情動推論ニューラルネットワーク140におけるように、入力層502はデータ入力値を受信し、そして既知の技術を使用してこれら入力を変換して、第一の中間層504のニューロンに出力510を提供する。中間層504の各々のニューロン508は、前の層から受信した出力510のそれぞれを重み付けし、そして重み付けされた出力値を変換して、次の層に対する出力510のさらなるセットを生成する。出力層506のニューロン508は、それら受信した出力510を同様に重み付けし、重み付けされた出力を変換して出力値を生成する。
DQN120は、強化学習(RL)環境531を誘導する際の強化学習(RL)エージェント530のコアの予測成分として利用される、DQN120の重要な微分を伴う標準的な深層学習ニューラルネットワークと事実上一致する。このタイプの深層学習ニューラルネットワークはまた、誤差逆伝播法などの訓練技術を使用するが、DQNモデルでは、報酬データ273を使用して訓練プロセスが推進されるが、これは情動推論ニューラルネットワーク140で使用される標準的な深層学習ニューラルネットワークの訓練プロセスに見られる相関データセットとは対照的である。このシステムは、Q-学習システムの後でモデル化されて、標準Qテーブルを深層Qネットワークで置き換え、これにより強化学習(RL)エージェント530を飛躍的に速く訓練できるようになる。標準Qテーブルでは、環境の現在の状態に基づく全てのあり得る行動についてのQ値を、訓練中の従前のセッションに基づいて表形式で示す。これは、RLエージェント530がその性能を最適化できるまでに、各状態-行動間の関係を複数回反復することを必要とする。多数の状態及び行動が存在する場合、この訓練は高価で非効率的になる。Qテーブルを深層学習ニューラルネットワーク、すなわちDQN120で置換することにより、ネットワークの入力が、全てのあり得る状態の関係を表し、また出力が、全てのあり得る行動のQ値を表す。これらネットワークは、各反復での全ての行動の値を近似するリレーショナル訓練を可能にし、RLエージェントの性能を最適化するのにかかる時間を大幅に短縮する。例えば、LeCun, Yann & Bengio,Y.& Hinton,Geoffrey.(2015).Deep Learning.Nature.521.436-44.10.1038/nature14539、ならびにMnih et al,2013,Playing Atari with Deep Reinforcement Learning,Nature.518.529-533.10.1038/nature14536を参照されたく、この各々が参照によりその全体が本明細書に組み込まれる。
図5に示すように、Q値520~522が強化学習エージェント530に供給されるが、これはオーディオセグメント530を選択することと、オーディオセグメント530を二つの代替的環境、すなわちユーザの実際の情動状態である実際の環境、または情動推論プロセス224であるシミュレーションされた環境、のうちの一方に供給することとによって、行動532が取られる。前者の場合、ストリーム生成プロセス240が、オーディオストリームを生成して、それを聴取者デバイス190に送信し、次いで聴取者デバイス190が、聴取者がオーディオストリームに曝露された後、更新した現在の情動状態データ212を提供する。後者の場合、オーディオセグメント234は、情動推論プロセス224に供給され、これが推測による新規情動状態226を生成する。
図5に示す入力(第1のDQN入力512、目標状態値514、および現在状態値516)は、例示的実施形態で使用される入力の一部かつ単純化されたリストである。いくつかの実施形態では、DQN入力(例えば、第1のDQN入力512)は、図2A~2Bを参照して上述した文脈手がかり191を含み得る。例示的な実施形態は、実行時間に以下の入力リストを使用してもよい。すなわちモード(例えば「穏やか」、「集中」または「活力に満ちた」などの目標の情動状態を示す)、ステップカウント(オーディオストリーム234のシーケンスに含まれるオーディオセグメント230の総数を示す)、現在のステップ(オーディオセグメント230のシーケンスのうち、現在識別されているものを示す)、初期状態の感情価(セッション開始時に識別された聴取者の現在の情動状態212の感情価の値)、初期状態の活性度(セッション開始時に識別された聴取者の現在の情動状態212の活性度値)、更新された状態の感情価(現在のステップの前に推測による新規情動状態226または更新された現在の情動状態212の感情価の値)、および更新された状態の活性度(現在のステップの前に推論による新規情動状態226または更新された現在の情動状態212の活性度値)である。
ユーザの感じ方や、現在の音楽選好が何であるかによって、ユーザの音楽に対する様々な反応は、日によって大きく変化する可能性がある。したがって、一部の実施形態では、システム100は、深層Qネットワーク120および情動推論ニューラルネットワーク140に追加的な入力を提供して、他の因子が予測プロセスに影響を与えることを可能にすることによって、さらなるパーソナライゼーション方法を実施することができる。一部の実施形態では、ユーザがその瞬間に求めている所望の音楽的美観が識別されて、さらなる入力として提供されてもよい。例えば、ユーザが悲しみを感じていて騒がしく且つ反抗的な音楽(例えば、ロック音楽)を聴きたいと感じているならば、MIR特徴量の組み合わせ、トラックのライブラリ、またはオーディオセグメントの選択に対して、ユーザが悲しみを感じていて思慮深く且つ複雑な音楽(例えば、クラシック音楽)を聴きたいと感じている場合とは異なる反応をする可能性が高い。現在の情動状態(例えば、悲しみ)と現在の所望の音楽の感情的内容との間のこの相違(例えば、騒がしく且つ反抗的に対して、思慮深く且つ複雑)は、データ値を使用して表現され得、図4A~Bおよび/または図5のニューラルネットワーク120および140へのさらなる入力として提供する(例えば、入力層402または502への「現在の音楽選好」の入力)。
ユーザプロファイルデータはまた、図4A~Bおよび図5に表すニューラルネットワーク120および140への入力の候補として利用され得る(例えば、入力層402または502への一または複数の「ユーザプロファイルデータ」の入力)。ユーザプロファイルデータには、例えばユーザの人口統計学のプロファイル、ベースラインの音楽嗜好プロファイル、ベースラインの気分プロファイル、および性格プロファイルなどのデータフィールドが含まれ得る。これらおよびその他のユーザプロファイルデータはすべて、現在の状態を考慮すると、ユーザが音楽トラックまたはMIR特徴量に対してどのように反応することとなるかを予測するときに、潜在的に価値を持つ可能性がある。このデータの一部は、図8および図9を参照して以下に記載されるユーザインターフェース画面を使用して、ユーザから収集され得る。こうしたデータの一部はまた、図6~7のユーザインターフェース画面を介してユーザによって提供されるユーザ入力に基づいて、システム100によっても推論され得る。例えば、ユーザの音楽ジャンルの選好は、複数のセッションにわたって、図6のUI画面608内でのユーザのジャンルの選び方から推論され得る。
例えば時刻およびユーザの周囲(例えば、ユーザが騒々しい場所にいるかまたは静かな場所にいるか)などである文脈情報は、システム100によって関連データのソースとして使用されてもよく、また図4A~Bおよび/または図5のニューラルネットワークの入力層402および/または502への一または複数の追加的データ入力として提供されてもよい。ユーザの現在の環境および文脈は、ユーザにより音楽がどのように認知的に受容されるかに大きな影響を有し得、また価値のある入力データをシステム100に提供し得る。文脈データは、例えば図6の画面604および610、ならびに図10の画面1002に示すユーザインタラクションにより、システム100により収集され得る。
ユーザの現在状態値516はまた、図4Aの入力ニューロン402への入力として提供され得る。ユーザの現在状態値516を使用して、情動推論ニューラルネットワーク140の予測を通知することによって、システム100は、MIR特徴量の組み合わせへの曝露が、どのような情動的結果をもたらすかを予測する際に、ユーザの現在情動状態を計算に入れ得る。例えば、音楽のセグメントが、ユーザの最初の感情状態に応じて、二つの非常に異なる感情を呼び起こすことができる。
推論訓練モード中、入力層ニューロン502は、DQN120に最初の重みを設定するために、情動推論ニューラルネットワーク140から出力データを受信することとなる。目標状態値514、ならびに他のすべての可変パラメータ(例えば、ステップ数)がランダムに生成され、そして出力されたオーディオセグメントQ値520~522が、次にRLエージェント530によって使用されて、オーディオセグメント230を選択する。このオーディオセグメント230は、MIR抽出プロセス225によってセグメントMIRデータ183に変換され、そして情動推論ニューラルネットワーク140は、実質的にRL環境531として動作するものであるが、RLエージェント530が取る行動に基づいて次の情動状態がどうなるかを予測する。次に、この新しい状態(すなわち、推論による新規情動状態226)を、予測シーケンスの次のステップに対する現在の状態値516として使用し、そしてこのサイクルを、すべてのステップが完了するまで継続する。この完全なシーケンスは、新しい目標および新しいステップ数が毎回ランダムに生成される、数千回の反復で実行される。初期訓練中、このプロセスは概して、DQN120を完全に最適化するために、200,000~500,000回の反復でなされる。
一部の実施形態では、MIR抽出プロセス225は、リアルタイムでオーディオセグメント230からセグメントMIR特徴量183を抽出するか、または以前に抽出された特徴量のテーブルを参照する。オーディオセグメントからのMIR特徴量抽出は、公知の技術を使用して実行してもよい。
訓練中に各ニューロン508の入力に適用される重みを調節することによって、DQN120は、他のオーディオセグメント候補に対して最適なQ値520~522を有するオーディオセグメント230を選択または識別するように訓練することができ、当該候補は一連のステップにわたって、または情動トラジェクトリ218を利用する場合にはステップごとに短期間で、目標の情動状態を誘発する可能性が高いことを示す。訓練は、初期訓練およびアイドル時間中の再訓練または更新である二つのモードで実施することができる。
DQN120の初期訓練は、各DQN120の展開前に実施される。情動音楽推薦システム100の各ユーザは、自身の個人アカウントに関連付けられた複数のDQN(例えば、DQN122、124~126)、ならびに個人の情動推論ニューラルネットワーク140を有する。情動推論ニューラルネットワーク140は、上述のように、オーディオ特徴量および他の非オーディオ変数の様々な組み合わせに対する、ユーザ(聴取者)の情動応答をモデル化するように訓練される。次に、情動推論ニューラルネットワーク140は、各DQN120が動作する環境をモデル化するように動作するものであり、すなわちそれがユーザの実際の情動応答の代わりとなる。情動推論ニューラルネットワーク140は、DQN120を訓練するために使用される現在状態データ516として機能する、推論による新規情動状態226データのすべてを提供する。初期訓練では、報酬関数272はまた、情動推論ニューラルネットワーク140から推論による新規情動状態226データが与えられて、ユーザが最終的な情動状態データ(すなわち、セッションの最後に提供される現在の情動状態データ212)を提供する必要性がなくなる。初期訓練では、各DQN120は、異なる入力変数の組み合わせを含む訓練レジメンを通過する。訓練レジメンは、例えば、各入力変数に対してランダムな値を生成することと、所定の数の強化反復に対してランダムな入力の様々なセットを反復することとによって、ランダムに生成され得る。他の実施形態では、訓練レジメンは、例えば情動空間全体をカバーする異なる入力値の系統的な調査を含み得、これは初期および目標の情動状態入力の両方の感情価および活性度値が、強化の各反復後に所定の量だけ変化している。一部の実施形態では、訓練中に使用されるDQN120への入力は、上述のように、実行時間中に使用されるものとは異なっており、例えば、ステップ数および最終的な目標の情動状態214に向かう進捗を追跡するのではなく、DQN120が単に、独立に各オーディオセグメント選択ステップの精度を評価し得る。
一部の実施形態では、アイドル時間中にDQN120の再訓練または更新も、新しく更新した情動推論ニューラルネットワーク140を使用して行うことができる。情動推論ニューラルネットワーク140は、上述のように、聴取者からの実際の更新された現在の情動状態フィードバックを使用して、ユーザセッション後に更新される。情動推論ニューラルネットワーク140が更新されると、各DQN120は、ユーザがシステムに関与していない時にシステムアイドル時間を使用して、更新された情動推論ニューラルネットワーク140を使用してそれ自体を再訓練することができる。各DQN120に初期訓練レジメンが再び適用されて、その環境シミュレーションとして更新された情動推論ニューラルネットワーク140を使用して、各DQN120を再訓練する。
DQN120の代わりに異なる強化学習アプローチを使用する実施形態では、図5に示すDQN120は、異なる強化学習アルゴリズム表現である可能性があり、また入力層ニューロン502への入力512、...514、...516(例えばステップカウント値または目標状態値など)として提供されているすべてのデータは、選択された強化学習アルゴリズムによって使用される環境の状態を表す入力データのベクトルとして扱われ得る。この入力ベクトルは、DQN120を置換するアルゴリズムの推論挙動を可能にするデータとしてなおも扱われるであろう。一部の実施形態では、DQN120および強化学習エージェント230の機能は、入力ベクトル512、...514、...516を使用して、エージェントの行動532を予測し、その結果上述したようにオーディオセグメント230をもたらすこととなる、単一のモデルまたはアルゴリズムによって実施され得る。DQN120および/またはRLエージェント230を置換するアルゴリズムは、異なるDQN、単純なQ-テーブル、アクター/クリティックモデル、またはモデルベースのRLアルゴリズム内の環境モデル/プランナー実装であり得る。異なるアプローチは、様々な利点および欠点を提供する可能性があるが、それらはすべて理論上、同等の結果を提供することができる。
ユーザの現在の情動状態212を決定するための生理学的データ208の使用は、例えばウェアラブルセンサ、カメラ、および/または他のセンサなどである情動コンピューティングの分野で公知のセンサおよび技術を採用し得る。ガルバニック皮膚反応(GSR)、脳波記録法(EEG)シグナル、呼吸パターン、心拍数、瞳孔散大、皮下血流、筋緊張、および他の生物学的マーカーは、人間の様々な情動現象と相関し得る。これら生物学的マーカーは、例えばGSRセンサ、呼吸センサ、心電図または脳波図の電極、可視光および/もしくは不可視光スペクトルを用いた能動的または受動的な視覚センサ、眼追跡システム、ならびに筋電図電極などであるバイオセンサを使用して検出され得る。一または複数のこうしたセンサは、システム100と共に使用されて生理学的データ208を収集することができるが、これは、情動音楽推薦システム100によって、またはシステム100外部のプロセスによって処理されて、聴取者の情動状態を識別し得る。一部の事例では、生理学的データ208は、聴取者デバイス190によって収集および/または処理される。生理学的データ208の収集および/または処理は、例えばShu L,Xie J,Yang M,et al.A Review of Emotion Recognition Using Physiological Signals.Sensors(Basel).2018;18(7):2074.Published 2018 Jun 28.doi:10.3390/s18072074に記載のものなどである技術を用いて実施することができ、当該文献は、その全体として参照により本明細書に組み込まれる。他の実施形態では、このような生理学的データは、他の生物学的マーカーが、このシステムの使用からの所望の結果に紐付けられているとき、情動状態データに加えて、別個の入力として使用することができる。例えば、所望の結果として、目標の情動状態、ならびに目標の生理学的な結果(すなわち、10%の心拍数減少)を含む実施形態では、生理学的データは、ユーザの現在の状態516および目標の状態514を表す要素としても使用され得る。
聴取者から収集した他のデータも、情動状態を推論するために使用できる。カメラデータを、情動状態または情動応答と相関する顔の表情または他の挙動パターンを分析するために使用することができる。発話の記録または録音で、情動状態または情動応答と相関する、プロソディー、イントネーション、または発話内容のパターンを明らかにすることができる。一部の実施形態では、聴取者デバイス190またはシステム100の内部もしくは外部の別のプロセスを使用して、カメラ、発話、または他のユーザデータを収集および/または処理し、聴取者の現在の情動状態212を識別する際に支援してもよい。ユーザの顔を示すカメラデータは、例えば、Samara, A.,Galway,L.,Bond,R.et al.Affective state detection via facial expression analysis within a human-computer interaction context.J Ambient Intell Human Comput 10,2175-2184(2019)doi:10.1007/s12652-017-0636-8に記載のものなどである技術に従って情動状態情報に関して解析することができるが、当該文献は参照によりその全体が本明細書に組み込まれる。
図6~10は、例示的なユーザインターフェース(UI)画面を示す。これら画面は、聴取者デバイス190のタッチスクリーン194上でユーザに示すことができ、またユーザ入力を収集するだけでなく、ユーザに情報を提供する役目を果たすことができる。図6を参照すると、UI画面のセッション開始シーケンス600が示されるが、当該UI画面は、情動音楽推薦システム100とのインタラクションのセッションを開始するためにユーザに提示される。第一の画面602は、モード選択肢のセットをユーザに提示するが、各モードは目標の情動状態214に対応している。この画面602に示されるモードは、「集中」(例えば、高活性度に対応する)および「穏やか」(例えば、低活性度に対応する)である。選択されると、ユーザが上述のような情動推論ニューラルネットワーク140の推論訓練プロセスに入ることを可能にし得る、「あなたのAIを訓練」の入力領域も提示される。
ユーザが目標の情動モードを選択すると、システム100が、この入力を使用して、ユーザセッション中に使用される目標の情動状態214を決定し得る。次に、第二の画面604がユーザに提示されるが、これはユーザが自身の現在の状況または環境の性質を特定できるようにするものであり、例えば環境が静か且つ私的であるか、騒がしい且つ私的であるか、静か且つ公衆であるか、騒がしい且つ公衆であるか、または移動により時間に沿って変化するかなどである。第三の画面606で、ユーザは、プレイリストモードと没入モードとの間で選択することができる。この画面606では、例えばユーザに対して、プレイリストを示すストリームデータ236が提示される(プレイリストモードで)、または単にストリームデータ236にオーディオストリーム234自体を含ませて、ユーザとのさらなるインタラクションなしに聴覚的提示のために聴取者デバイス190に直接送信することが可能になり得る。一部の実施形態では、このモード選択画面606によって、ユーザは、音楽ライブラリ184から、ユーザセッション用にどのオーディオセグメントのサブセット220を使用するかを特定できる(したがって、どのDQNがDQN122、124~126から選択されるか)ようになり得る。
第四の画面608では、ユーザは、ユーザセッションに使用する音楽のジャンルを選択することができる。これにより、ユーザセッションに使用するオーディオセグメントの可能性のあるサブセット220を選択する、またはさらに絞り込むことができる。第五の画面610では、ユーザは、オーディオストリーム234の継続時間を選択することができる。ユーザが選択した継続時間は、オーディオストリーム234内に含まれるオーディオセグメント230の数を決定するために使用され得るが、これが次に、DQN120でいくつのセグメント識別ステップが実行するかを決定する。一部の実施形態においては、ユーザはまた、この画面610を使用して、環境トラックを選択して、当該セッションの長さ(すなわち、DQN120が講じるステップの数)またはオーディオストリーム234のその他のオーディオ特性を決定することができる。
第六の画面612では、ユーザは、自身の現在の情動状態212を識別することができる。図示した実施例では、垂直方向軸に活性度および水平方向軸に感情価を示した、情動空間の二次元表現を使用する。二次元空間はさらに、名前を付けた情動状態に対応する複数の領域で形成されており、例えば、この空間の右上四分円の緑色領域は「活力に満ちた」と名付けられ、左上四分円の赤色領域は「緊迫」と名付けられ、左下四分円の白色領域は「悲しみ」と名付けられ、右下四分円の青色領域は「穏やか」と名付けられ、左中央領域にある暗灰色または黒色の領域は、「恐れ」と名付けられ、また中央周辺の灰色領域は「ニュートラル」と名付けられている。ユーザは、当該空間の中心近くの白い円としてここに示す状態表示カーソルを、自身の自己評価による現在の情動状態または気分に対応する空間内の位置に移動させることができる。一部の実施形態はまた、例えば画面612の下部に示す不安メータスライダなどである追加的な入力部を含んで、上記二次元での情動状態の自己報告による表示を補完する第三の次元または追加的なデータを示してもよい。
第七の画面614では、ユーザが、第六の画面612からの自己報告によるデータを補完するために、またはその代替として、顔表情データを提供することを可能にする。ユーザが写真撮影を選択する場合には、聴取者デバイス190のカメラ制御インターフェースを使用して、第八の画面616が提示される。ユーザが第八の画面616で自身の顔の写真を撮影すると、例えばユーザの顔表情に基づいてシステムの情動分析により注釈が付けられた画像を、第九の画面618に示す。
一部の実施形態では、第六の画面612におけるものなどである、ユーザ入力から収集した自己報告によるデータを使用して、顔情動分析プロセスまたはユーザデータと関連する情動に関するその他のプロセス(例えば、上述のような生理学的信号、発話データなど)を訓練または較正することができる。
ユーザの現在の情動状態212が第六の画面612および/または第九の画面618からの入力に基づいて識別されると、システム100は、オーディオストリーム234を生成して、上述のようにオーディオストリームデータ236を聴取者デバイス190に送信する。ユーザは、第十の画面620が提示され得、当該画面は、その画面620の一番下にある音楽コントロール表示内の第一のオーディオセグメントに対応するメタデータを示しており、ここでは音楽再生コントロールと一緒に、楽曲「Feeling Good(フィーリンググッド)」の曲名と継続時間として示される。画面620の上部および中央では、上述のように、ユーザセッション中にユーザの現在の情動状態の更新を開始するために、ユーザに、更新された現在の情動状態入力領域が提供される。
図7には、UI画面のセッション終了シーケンス700が示されるが、当該UI画面は、情動音楽推薦システム100とのインタラクションのセッションを終了するためにユーザに提示される。第一の画面702は、オーディオストリーム234聴取後に、ユーザセッション終了時点のユーザの更新された現在の情動状態を報告するための情動状態入力表示を提示する。この更新された現在の情動状態データは、上述のように情動推論ニューラルネットワーク140を更新するために使用される。第二の画面704は、第一の画面702からの自己報告によるデータを顔画像データで補完または置換するオプションを提示し、セッション前の第七の画面614から第九の画面618と同じプロセスに従って、このデータを収集および分析して、結果として第三の画面706をもたらす。次に、第四の画面708が、画面612および618からのユーザの最初に報告された現在の情動状態212と、画面620、702および706からのユーザのその後の更新された現在の情動状態とに基づいて、情動応答結果をユーザに示し得る。画面708の上部にあるグラフは、セッションにわたるユーザの情動トラジェクトリを示し得、また時間に沿った、名前が付いた一以上の情動状態の識別情報および/または大きさを含み得る。画面708の下部にある一連の棒グラフは、活性度および感情価によって、ならびに/または自己報告および顔分析によって、ユーザの情動応答を細分化し得る。
ユーザセッションが終了すると、システム100は、アイドル時間を使用して、上述のようにDQN120を再訓練し得る。
図8は、新規ユーザに、またはシステムが記憶した自身の個人プロファイルを更新または増やすことを選択したユーザに提示される、UI画面のユーザカスタマイズシーケンス800を示す。第一の画面802は、例えば生年月日および性別識別などである個人データを提供するようにユーザに促す。第二の画面804は、名前付きの複数の情動状態のそれぞれを体験する頻度を特定するようにユーザに促す。第三の画面606は、名前付きの情動状態の追加的なセットの頻度について、およびユーザが睡眠に問題を抱える頻度についてもユーザを促す。第四の画面808は、ストレスまたは不安を体験する頻度を特定するようにユーザに促す。システムは、このシーケンス800におけるスライダおよび他のユーザ入力要素を通して提供されるユーザ入力に基づいて、システム100の様々な部分の訓練および/または操作を較正またはカスタマイズし得る。例えば、頻繁に悲しみを感じるが、活力があると感じるのは稀であるユーザでは、ユーザに特有の情動状態値のベースラインまたは平均値のセットに基づいて、これら状態に対して与えられた重みを正規化するように較正された、ユーザの情動推論ニューラルネットワーク140を有し得る。システムはまた、このユーザ入力データを使用して、例えばメンタルヘルスまたは気分管理目標などであるユーザの目標を達成するためにシステムを使用する方法についてユーザに勧めることもできる。図9は、プロファイル作成プロセスの一部としてユーザに提示される、例示的なユーザプロファイルデータ収集UI画面902を示す。UI画面902の上部にある進捗バーは、ユーザがユーザプロファイル作成プロセスを通してどれだけ進捗したかを示す。UI画面902の下部は、通常ユーザが動揺を感じるのはどの程度かを示す、ユーザのための入力領域を示す。
図10は、例示的な文脈情報収集UI画面1002を示す。図4A~Bおよび図5のニューラルネットワークまたは強化学習アルゴリズムへの入力として使用される文脈情報は、この画面1002の文脈情報収集のインタラクションを使用して収集され得る。画面1002の上部には、2次元の情動状態インジケータとしての現在の情動状態入力領域を示す。画面1002の下部には、現在の環境が静かであるかまたは騒がしいか、ならびに現在の環境が私的であるかまたは公衆であるかを示す二つの切り替えとして、現在の環境の入力領域を示す。文脈情報は、タイムスタンプと関連付けて収集されてもよく、該タイムスタンプは、システム100によって時刻を決定するために使用され得る。
一部の実施形態においては、複数のシステム100、またはシステム100の様々な構成要素(例えばDQN120または情動推論ネットワーク140など)の複数のバージョンを使用して、異なるユーザとインタラクションすることができる。様々なシステム100または構成要素は、ユーザによって個人に合わせてもよく、記憶装置の機構を使用して、ユーザ識別子によってインデックス付けされた異なるシステムまたは異なるモデル(例えば、120または140)を記憶してもよい。
図11は、例示的なマルチモデルシステム1100を示す。こうしたマルチモデルシステム1100の各ユーザは、個々のユーザが音楽にどのように反応するかの固有のダイナミクスを学習するように訓練され得る、自身の独自のモデルを所有することができる。マルチモデルシステム1100では、聴取者デバイス190は、ユーザ識別子1104(例えば、ユーザID番号)を、例えば個人に合わせたDQN120および個別に訓練された情動推論アルゴリズム140などである個別ユーザ用の個人に合わせた機械学習モデルを記憶するデータベース1102に提供する。一部の実施形態においては、こうしたシステム1100のユーザは、同様に、オーディオセグメント186の自身の独自の集合(すなわち、サブセット220)を作成でき、またこれらは、データベース1102によって記憶または識別されることもできる。DQN122、124...126は、そのユーザに固有の行動(またはオーディオセグメント186のサブセット220)から構成することができ、またはそのユーザの音楽ライブラリからの選択であってもよい。
マルチモデルシステム1100の一部の実施形態では、DQN120および/またはオーディオセグメント186のサブセット220は、ユーザのベースラインの音楽嗜好に関する情報を収集することと(例えば、図8~9を参照して上述したユーザプロファイル作成プロセスの一部として)、それら嗜好と一致する音楽を含有するDQN120および/またはオーディオセグメント186のサブセット220とユーザを合致させることとによって、データベース1102から選択することができる。したがって、図11に示すように、所与のマルチモデルシステム1100は、特定のユーザおよびオーディオライブラリ184から選択されるオーディオセグメント186の特定のサブセット220に対して特有であり得る。オーディオセグメント186のサブセット220は、ユーザの選び方(例えば、ユーザの音楽ライブラリ)に基づくか、または現在の文脈において、どのセットがユーザにとって最善であるかを決定するアルゴリズムに基づくか(例えば、ユーザの現在の情動状態212、状況、および/または環境に基づいて)のいずれかで選択され得る。
一部の実施形態においては、マルチモデルシステム1100の個々のパーソナライゼーションが、いくつかの段階で行われる。ユーザは、すべてのユーザに基づくか、または類似のプロファイルのユーザ(例えば、彼らの音楽の好み、ベースラインの気分プロファイル、性格プロファイルおよび/または人口統計を共有する)に基づくかのいずれかで訓練されたモデルから始めることができる。ゲート付きプロセスを使用して、これらのより全般的なモデルからユーザに開始させて、ユーザ自身の個別のモデルを徐々に訓練してもよい。これら個人に合わせたモデルがパフォーマンスの閾値に到達すると、実行時間での使用のためのより全般的なモデルに置き換えられることとなる。
パーソナライズされたモデルが使用される実施形態においては、DQN訓練プロセスにおいて重要な入力データを提供するために、音楽の楽しさのメータを追加することもできる。ユーザがあるオーディオセグメントを好まない場合、そのオーディオセグメントを表すトラックに注釈を付けることができる。直接訓練プロセス270内の報酬関数272は、評価に応じて、報酬またはペナルティのいずれかを計算に入れることができる。これによりシステムは、ユーザが所与のオーディオセグメントを楽しんでいるか否かを迅速に学習することが可能になることとなり、これが、ある情動状態をそのユーザに誘発するときにオーディオセグメントの有効性に大きな影響を与え得る。
図12は、再生されている現在のオーディオセグメントの楽しさに関してユーザが入力できるようにする、音楽の楽しさを評価する例示的なユーザインターフェース画面1202を示す。画面1202の上部には、情動状態更新入力領域を示す。画面1202の下部には、再生コントロールを示す。画面1202の中央部は、ユーザがスライダを動かして、再生されている現在のオーディオセグメントの楽しさのレベルを示すことができる、音楽の楽しさの入力領域を示す。
マルチモデルシステム1100の構成要素は、文脈的パーソナライゼーションから始まり、プロファイルのパーソナライゼーション(各プロファイル群の十分なユーザがネットワークでアクティブになったら)、さらには独自のパーソナライゼーション(個々のユーザが十分なセッションを記録したら)へと進行してゆくことで、時間に沿って、深く高度に特有なパーソナライゼーションを可能にすることができる。文脈的パーソナライゼーションには、例えば初期情動状態、現在の音楽選好、および時刻などのデータが含まれ得る。プロファイルのパーソナライゼーションには、例えば性格、人口統計、ベースラインの音楽嗜好プロファイルなどのデータが含まれ得る。
いくつかの実施形態では、DQN120および強化学習エージェント230の出力は、オーディオライブラリ184からのオーディオセグメント230の選択の代わりに、ライブラリMIRデータ182からのMIR特徴量の選択である。
図13は、例示的なMIR特徴量予測システム1300を示す。一部のこうしたシステム1300においては、DQN120の出力ニューロン506は、MIR特徴量当たり一つのニューロンを含むこととなるが、これは各MIR特徴量のレベルまたは値を決定するために使用されることとなる。DQN120出力のセットは、MIRベクトル1302を含めてクエリ1304をライブラリ1306に送信することによって、エージェント行動532の一部として、オーディオセグメント230(例えば、ユーザにより選択されたライブラリ1306などである所与のライブラリ内のMIR特徴量に最も適したオーディオセグメント)とその後合致し得るMIRベクトル1302を表現することができる。次に、これらMIR特徴量(例えば、MIRベクトル1302)を、情動推論プロセス224に供給してもよく、および/またはMIR特徴量を、直接訓練プロセス270中にユーザが直接注釈付けしてもよい。こうした実施形態においては、ユーザは、一つのDQNのみであってもよいが(DQNはこのとき、MIR特徴量の組み合わせを決定しているところであるので)、代わりにユーザが、MIR特徴量との適合性に基づいてそこからオーディオセグメント230を選択し得るものであるユーザ自身が作成の、ユーザの現在の音楽嗜好の要件、ベースラインのプロファイル、またはライブラリ(ライブラリ1306など)に応じて、オーディオセグメント186の一または複数のライブラリを有してもよい。
図14は、所与の聴取者に特有な情動推論モデル(例えば、AINN140)および/または深層Qネットワーク122、124、126のモデルデータベース1402を作成するための、例示的なモデルデータベース生成プロセス1400のステップおよび構成要素を示す。モデルデータベース1402は、例えば、マルチモデルシステム1100の各ユーザに対してモデルを生成および訓練するために使用され得る。
モデルデータベース生成プロセス1400は、二つの段階、すなわちゼネラリストモデル訓練プロセス1450およびパーソナライズされたモデルの訓練プロセス1460を含む。モデルデータベース1402は、ゼネラリストモデルセット1432と、パーソナライズされたモデルのセット1434とで形成される。モデル1432、1434の各セットは、例えば、AINN140および複数のDQN122、124、126を含み得る。ゼネラリストモデル1432は、パーソナライズされたモデル1434がパフォーマンス閾値を達成するまで、推論モードで音楽を推薦するために使用され得るが、当該パフォーマンス閾値の時点において、システム(例えば、マルチモデルシステム1100)は、パーソナライズされたモデル1434を使用することに切り替えてユーザに音楽を推薦することができる。
ゼネラリストモデル訓練プロセス1450は、音楽トラックのMIRデータを使用して、キュレーションプロセス1422に基づく音楽カタログ1420から音楽トラックのサブセットを抽出することで開始される。音楽カタログ1420は、一部の実施形態においては、音楽トラックからなるオーディオライブラリ184であり得る。音楽トラックは、一部の実施形態においては、オーディオセグメント230であり得る。各音楽トラックに関連付けられたMIRデータは、一部の実施形態においては、音楽カタログ1420内にライブラリMIRデータ182として記憶され得る。他の実施形態では、音楽トラックに関連付けられたMIRデータが、例えばMIR抽出プロセス225を使用して、音楽トラックから抽出され得る。
したがって、一部の実施形態においては、キュレーションプロセス1422は、各トラックに関連付けられた主題のMIRメタデータを記述する、ラベル付きデータセット(すなわち、オーディオライブラリ184)を必要とする。例えば音楽カタログ1420としては、愛に関する1920年代からのジャズ音楽のセット、および/または概して穏やかな活力のある1960年代からのロック音楽のセットが挙げられ得る。キュレーションプロセス1422は、例えば教師つきクラスタ化アルゴリズムなど、いくつかの既知の計算方法のいずれかを使用して、アルゴリズム的に実施することができる。
キュレーションプロセス1422で生成する音楽トラックのサブセットは、DQNプロセス1424によるグループで使用されて、訓練される対象である各ゼネラリスト深層Qネットワークに関連付けられた音楽トラックのグループを生成する。特定のMIR特徴量を有するオーディオセグメント230と所与のDQNとの間の関係は、図2Aを参照しながら上記している。
ゼネラリストモデル訓練プロセス1450はまた、上記の図2A~2Bを参照して記載したように、聴取デバイス190から収集したユーザ集団全体からの既存のユーザデータ1426も使用する。既存のユーザデータ1426は、ユーザプロファイルデータ、ユーザの情動応答と相関する音楽を聴取するユーザの記録などを含み得る。ユーザグループ化プロセス1428は、既存のユーザデータ1426をクラスタ化またはセグメント化して、ユーザのタイプまたはユーザタイプのグループを識別し得る。ユーザのグループまたはタイプの識別の例は、Feiyun Zhu,Jun Guo,Zheng Xu,Peng Liao,Junzhou Huang,“Group-driven Reinforcement Learning for Personalized mHealth Intervention”,2017,arXiv:1708.04001,https://arxiv.org/abs/1708.04001に記載されており、その全体として参照により本明細書に組み込まれる。
ゼネラリストモデル転移学習プロセス1408は、ゼネラリストモデル1432の一または複数のセットを訓練するために使用される。ゼネラリストモデル転移学習プロセス1408は、ゼネラリストAINN140を訓練する情動推論ニューラルネットワーク(AINN)ゼネラリストモデル訓練プロセス1430、およびゼネラリストDQN122、124、126のセットを訓練する深層Qネットワーク(DQN)ゼネラリストモデル訓練プロセス1431を含み得る。機械学習の分野では、様々な転移学習技術が公知である。転移学習プロセスの例は、Kieran Woodward and Eiman Kanjo and David J.Brown and T.M.McGinnity:“On-Device Transfer Learning for Personalising Psychological Stress Modelling using a Convolutional Neural Network”,2020,arXiv:2004.01603,https://arxiv.org/abs/2004.01603に記載されており、その全体として参照により本明細書に組み込まれる。
AINNゼネラリストモデル訓練プロセス1430は、様々なユーザのグループ(すなわち、ユーザグループ化プロセス1428によって出力されるユーザグループ)の中のユーザにAINN140を使用して、転移学習を用いるゼネラリストモデルセット1432のゼネラリストAINN140を訓練することができる。DQNゼネラリストモデル訓練プロセス1431は、ゼネラリストモデル1432のゼネラリストAINN140、およびDQNプロセス1424によるグループによって出力されたDQNがグループ化した音楽トラックを使用して、転移学習を使用してゼネラリストモデル1432のセットのゼネラリストDQN122、124、126を訓練することができる。例えば、ユーザグループ化プロセス1428で識別した特定のユーザグループは、特定のゼネラリストAINN140と関連付けることができ、またそれらユーザからの既存のユーザデータ1426は、所与のゼネラリストAINN140を訓練するために使用され得るが、その一方で、あるユーザグループと組み合わせた音楽トラックの特定のサブセットを、特定のゼネラリストDQNと関連付けてもよく、またそのユーザグループのゼネラリストAINN140は、所与のDQNを訓練するために使用することができる。
パーソナライズされたモデル訓練プロセス1460は、新規ユーザ1404がシステム1100に追加されることで開始される。新規ユーザ1404は、例えば図11を参照しながら上記に記載したユーザプロファイル生成プロセスを用いて、ユーザプロファイルを初期化するベースライン作成プロセス1406が提示され得る。ベースライン作成プロセス1406はまた、新規ユーザ1404の音楽選好を識別するのを支援するようにユーザに入力を誘発することもでき、例えば新規ユーザ1404は、ベースラインプロファイルを記入するように促され得、ならびに/またはシステム1100が、新規ユーザ1404の音楽に対する嗜好および/もしくは挙動応答を理解するために、新規ユーザ1404に音楽クリップを急速に連続的に聴取させてもよい。
ベースライン作成プロセス1406中に収集された、音楽の嗜好、性格、ユーザプロファイル、および/またはその他の情報に基づいて、マッチングプロセス1410を実行する。マッチングプロセス1410は、一部の実施形態においては、機械学習技術または他のランク付けもしくはマッチングのアルゴリズムを使用してアルゴリズム的に行うことができる。ゼネラリストモデルのセット(例えば、AINN140およびDQN122、124、126)は、例えばベースライン作成プロセス1406の出力に基づいて新規ユーザ1404と良好にマッチングするデータベース1102から、選択される。ユーザグループ(ユーザグループ化プロセス1428からの)および音楽トラックサブセット(DQNプロセス1424によるグループからの)に基づいて、ゼネラリストモデル1432をラベル付けすることによってマッチングプロセスを促進するために、ラベル付けプロセス1436を使用する。ラベル付けプロセス1436によって使用されるラベルデータは、任意の種類の識別ベクターであり得る。マッチングプロセス1410は、ベースライン作成プロセス1406によって出力されるデータ(例えば、ユーザプロファイルデータ)に基づいて、新規ユーザ1404を特定のユーザグループとマッチングさせることができ、またゼネラリストモデルのセット1432が、マッチングに基づいて選択されて、モデルデータベース1402を最初に形成するために使用することができる。
次に新規ユーザ1404に対して、パーソナライズされたモデルのセット1430が生成される。最初は、パーソナライズされたモデル1430は、マッチングプロセス1410に基づいて新規ユーザ1404のために選択されたゼネラリストモデル1432のコピーとすることができる。しかしながらパーソナライズされたモデル1430は、新規ユーザ1404からのデータを使用して訓練されて、それによってパーソナライズすることから、当該モデルがパフォーマンス閾値に到達し、上述のように推論のためにシステム110によって使用されるまで、その精度が向上することとなる。
音楽選択プロセス1412においては、新規ユーザ1404は、システム1100にキュレーションしてほしい音楽のサブセットを手動で作成する。音楽選択プロセス1412は、例えば新規ユーザ1404が、ローカルもしくはリモートのカタログまたは音楽トラックのライブラリから音楽トラックを特定できるようにすることによって、ユーザ音楽カタログ1414を形成する。
パーソナライズされたモデルの訓練プロセス1460のDQNプロセス1416によるグループは、上述のゼネラリストモデル訓練プロセス1450のDQNプロセス1424によるグループと同様に動作する。ユーザ音楽カタログ1414から音楽トラックのサブセットが識別されて、訓練される対象であるパーソナライズされたモデル1430の深層Qネットワークのそれぞれに関連して音楽トラックをグループ化するために使用される。
新規ユーザ1404から収集したデータを、上述のゼネラリストモデル転送学習プロセス1408と同様に、パーソナライズされたモデルの転移学習プロセス1418を使用する各ユーザ体験の後で、パーソナライズされたモデル1430、特にパーソナライズモデル1430のAINN140、を訓練するために使用する。パーソナライズされたモデルの転移学習プロセス1418はまた、ベースライン作成プロセス1406から収集したデータも使用し得る。パーソナライズされたモデルの転移学習プロセス1418によって使用される因子は、以下で図15を参照しながら説明する。
DQNパーソナライズモデル訓練プロセス1417は、上述のDQNパーソナライズモデル訓練プロセス1417と同様に動作して、パーソナライズモデル1430のパーソナライズされたAINN140を使用して、パーソナライズモデル1430のDQN122、124、126を訓練する。
図15は、図14のパーソナライズモデル転移学習プロセス1418で用いるパーソナライズ化因子1500を示す。パーソナライズモデル転移学習プロセス1418の目標は、文脈的パーソナライゼーション1504に対応するピラミッド1502の最上層から、プロファイルのパーソナライゼーション1506に対応するピラミッド1502の中間層を経て、ユーザごと(例えば、新規ユーザ1404)の個別モデル1508に対応するピラミッド1502の最下層に到達するまで、作業を行うことである。
文脈的パーソナライゼーション1504は、初期状態(例えば、ユーザの情動状態)、ユーザの現在表現された音楽選好、または他の環境変数(例えば、時刻)に基づく、モデル(例えば、AINN140およびDQN122、124、126)のパーソナライゼーションを含み得る。したがって、文脈的パーソナライゼーション1504は、従来の音楽推薦システムで計算に入れられる因子に対応し得る。プロファイルのパーソナライゼーション1506は、ユーザの性格、人口統計メンバーシップ、ベースラインの音楽嗜好プロファイル、およびその他の全般的なユーザ特性に基づく、モデルのパーソナライゼーションを含み得る。一部の実施形態においては、プロファイルのパーソナライゼーション1506は、ユーザグループ化プロセス1428で決定したユーザグループ内のユーザのメンバーシップに基づいてもよい。個別モデル1508は、例えば図2A~2Bを参照して上述したように、特定のユーザの音楽に対する情動応答を正確に推論するために、特定のユーザの情動応答を使用して訓練された個別のパーソナライズされたモデルである。
したがって、パーソナライズモデル1430の階層は、モデルデータベース生成プロセス1400を使用して選択および訓練され得、文脈的パーソナライゼーション1504を使用してわずかにパーソナライズされたものから、プロファイルのパーソナライゼーション1506を使用してより詳細にパーソナライズされたもの、個別モデル1508を使用して非常に詳細にパーソナライズされたものに及ぶ。
本明細書に記載されるシステムの個々の構成要素は、情動音楽の推薦以外の用途にも使用され得る。情動推論ニューラルネットワーク140は、音楽の分析、マーケティング、または洞察の分野で使用することができ、それによって、その予測される情動影響に基づいて新規内容を評価することができるようになる。例えば、情動推論ニューラルネットワーク140の入力および出力を切り替えて、特定のユーザプロファイルを与えられた目標の気分状態を誘発する可能性が高い一連のMIR特徴量を提供することができる。本明細書に記載される様々なシステムによって生成されるデータは、例えば人口統計上のグループ、ユーザプロファイルグループ、および様々な嗜好プロファイルによってさらに分類され得る、ヒトの精神が音楽に対してどのように反応するかに関する新たな洞察を提供することなど、音楽業界内の様々な目的に有用であり得る。十分なデータがあれば、本明細書に記載のシステムの情動推論能力は、音楽の作曲に関する新しいメタデータを作成することが可能であり得、これにより機能的用途(例えば、映画の同期、音楽療法など)に対する確実性が増大し得る。
情動音楽の作曲のための方法、システム、および非一時的媒体の例を、図16~30を参照してこれから説明する。記載される音楽作曲システムは、音楽作曲プロセスの一または複数の段階で使用されて、聴取者に情動状態の変化を誘発することを意図した曲の、MIRブループリント、スコア、作曲リードシート、制作リードシート、ミックスおよび/またはマスターを生成することができる。例えば情動推論モデル(例えば、AINN)およびMIR抽出プロセスなどである情動音楽推薦の文脈で上述した様々な構成要素を、本明細書に記載される音楽作曲システムの様々な実施形態で使用し得る。
図16は、例示的な情動音楽作曲システム1600を示す。情動音楽作曲システム1600は、図1の情動音楽推薦システム100に非常に類似したハードウェアおよびソフトウェア構成要素を備えたコンピューティングプラットフォームまたはシステムを用いて実施され得る。ここに示す例は、プロセッサシステム1640と通信する記憶装置1638を含み、該プロセッサシステム1640はまた同様に、ユーザとのインタラクションに使用されるユーザインターフェース1642と通信する。
記憶装置1638は、本明細書に記載の情動音楽作曲のための方法およびプロセスを実施するために使用される以下のソフトウェアおよびデータを記憶しているものであり、すなわち機械学習技術を使用した様々なモデルの訓練および動作をはじめとする本明細書に記載の技術を実施するプロセッサシステム1640によって実行されるソフトウェア命令1610;第1のMIR生成器GAN1612~第NのMIR生成器GAN1614として示される、様々な聴取者のプロファイル、ジャンルおよび/またはスタイルに関するMIRデータを生成するために使用される複数のMIR生成器敵対的生成ネットワーク(GAN);第1のスコア生成器GAN1616~第Nのスコア生成器GAN1618として示される、様々なジャンルおよび/またはスタイルのスコアを生成するために使用される複数のスコア生成器GAN;第1の情動推論ニューラルネットワーク1620~第Nの情動推論ニューラルネットワーク1622として示される、様々な聴取者プロファイルに関して情動応答を予測するために使用される複数の情動推論モデル;ならびに第1の適応音楽エージェントモデル1624~第Nの適応音楽エージェントモデル1626として示される、既存のトラックまたはオーディオステムライブラリ1628を改作して、様々な聴取者のプロファイル、ジャンルおよび/またはスタイルに関する目標の情動状態またはトラジェクトリを達成するために使用される複数の適応音楽エージェントモデルが含まれる。当然のことながら、モデルの各セットはN個のモデルを含むものとして示しているが、Nの値はセットごとに異なっていてもよい。
記憶装置1638はまた、オーディオステムライブラリ1628、一または複数のMIR生成器訓練データベース1630、スコア生成器訓練データベース1632、マスタリングエージェント訓練データベース1634、および適応音楽エージェント訓練データベース1636を含むデータを記憶している。
情動音楽作曲システム1600の様々なソフトウェアとデータ構成要素との関係、およびユーザインターフェース1642を介したユーザとのそれらのインタラクションを、図17A~Dを参照しながら以下で説明する。次いで図17A~Dに示す様々なサブシステムの動作を、図18~図26を参照しながら説明する。
図17Aは、MIR生成器プロセス1900を含めて、図16の例示的な情動音楽作曲システム1600の第一の部分1700aのプロセス間の関係を示す。MIR生成器プロセス1900は、聴取者に特定の情動応答を誘発することを意図したオーディオセグメント(例えば、曲)のMIRブループリントを生成するために使用する。MIR生成器プロセス1900で生成するMIRブループリントは、典型的には、所望の情動応答を誘発することとなる、全体としての曲のMIR特徴量、ならびにオーディオセグメントの複数のエポック(すなわち、時間的なサブセグメント)のそれぞれについてのMIR特徴量の識別となる。ユーザ1702(アーティスト、制作者、または音楽の作曲または制作に関与する他のユーザであり得る者)が、ユーザインターフェース1642を介してシステム1600とインタラクションする。ユーザ1702は、作曲意図設定プロセス1704とインタラクションすることができ、これが、作曲プロセス中に生成しようとする音楽データの所望の特性について、以下に記載されるシステム1600の様々なサブシステムに通知する。図17Aに示すMIR生成器プロセス1900は、例えば以下のような情報を提供することによって管理され得る:ユーザ1702は、完全なオーディオセグメント230(例えば、音楽トラック)または単にステム(すなわち、例えば曲の弦楽器成分またはリードボーカル成分などの同様の音源グループ)の作成を望んでいるか? ユーザ1702は、音楽のトラックまたはステムをどのぐらいの長さにしたいか?。作曲意図設定プロセス1704は、指定されたキー、テンポ、および/または曲構成など、MIR生成を随意に制約するために使用される任意の条件1706を決定する。作曲意図設定プロセス1704はまた、セグメント長さ1708(例えば、音楽のトラックまたはステムの長さ)も決定する。
ユーザ1702はまた、情動意図設定プロセス1710とインタラクションすることもでき、これが、作曲プロセス中に生成しようとする音楽データの聴取者で誘発される所望の情動状態またはトラジェクトリについて、以下に記載するシステム1600の様々なサブシステムに通知する。情動意図設定プロセス1710は、ユーザ1702が、作曲プロセス中に生成された音楽を聴取後の聴取者にどのように感じてほしいかを示す、目標の情動状態データ1712を生成し得る。
任意の条件1706、セグメント長さ1708、および目標の情動状態データ1712は、MIR生成プロセス1900への入力として使用されるが、これは図19を参照しながら以下により詳細に説明する。
MIR生成器プロセス1900は、ここで第1のMIR生成器GAN1612として示されるMIR生成器GANを含む。一部の実施形態においては、MIR生成器プロセス1900は、制御ネットワークを有する条件付きGANとして実装され、任意の条件1706、セグメント長さ1708、および目標の情動状態データ1712が、MIR生成器GAN1612への条件付き入力として使用される。目標の情動状態データ1712はまた、以下でより詳細に説明するとおり、制御ネットワークへの入力として使用され得る。
MIR生成器GAN1612は、情動状態データおよび随意に他の条件でラベル付けしたMIRデータのデータベース1716を訓練データとして使用して、MIR生成器GAN直接訓練プロセス1714によって訓練される。MIRデータのデータベース1716は、ユーザの集団のリスニングデバイス190から収集された既存のユーザデータ1426(図14を参照して上述した)などである様々なデータソース、ならびに/またはMIRデータを情動応答および/もしくは他の条件付きデータ(例えば、キー、テンポ、および/または曲構成などの任意の条件1706など)と関連付ける既存のデータ記録1718を使用して、形成されるか、またはそうでなければ生成され得る。一部の実施形態では、既存のユーザデータ1426は、上述のような情動音楽推薦システム100を使用して収集され得る。
MIR生成器GAN1612はまた、図18を参照しながら以下に説明するとおり、作曲AINN1800を用いて、MIR生成器GAN推論訓練プロセス1720によって訓練される。
MIR生成器プロセス1900は、MIRブループリント1730を生成するが、これは、潜在的に他のMIR特徴量と共に、一部の実施形態においてはメル周波数ケプストラム(MFC)スペクトログラムを含み得る。MIRブループリント1730は、音楽データ(例えば、スコア、トラック、またはステム)の生成を支援するために、情動音楽作曲システム1600の他の構成要素によって使用され得る。
図18は、情動音楽作曲システム1600によって使用される作曲AINN1800を表す簡略化した回帰型ニューラルネットワークを示す。作曲AINN1800は、図4Bを参照しながら上述したAINN140と非常に類似して動作する。しかしながら、個々のユーザの現在の情動状態212を入力として使用する代わりに、作曲AINN1800は、情動応答データでラベル付けしたMIRデータ、ならびにMIRデータに関連付けられた文脈情報432を含む、MIRデータ1716のデータベースからの訓練データを使用して訓練される。したがって、作曲AINN1800は、推論モードで動作して、ユーザの現在の情動状態に関係なく、MIR特徴量のセット(全体MIR特徴量433、ならびに時系列のエポック特有MIR特徴量434を含む)に対する一般的ユーザの情動応答を予測する。
図19は、情動音楽作曲システム1600で用いる例示的なMIR生成器プロセス1900を示す。MIR生成器プロセス1900は、MIR生成器GAN(生成器ネットワーク1902および確率ネットワーク1904からなる)として、制御ネットワーク1906を備えて構成され得、これはCong Jin,Yun Tie,Yong Bai,Xin Lv,Shouxun Liu,“A Style-Specific Music Composition Neural Network”,9 June 2020,Neural Processing Letters(2020)52:1893-1912, https://doi.org/10.1007/s11063-020-10241-8(以下、「Jin」)に記載されるとおりであり、当該文献はその全体が参照により本明細書に援用される。MIR生成器GAN自体、特に生成器ネットワーク1902は、条件付きGANとして構成され得、これはYi Yu,Simon Canales,“Conditional LSTM-GAN for Melody Generation from Lyrics”,2019,arXiv:1908.05551,https://arxiv.org/abs/1908.05551に記載されるとおりであり、当該文献はその全体が参照により本明細書に援用される。生成器ネットワーク1902は、生成器ニューラルネットワーク1907を備え、また確率ネットワーク1904は、識別器ニューラルネットワーク1908を備え、各ニューラルネットワーク1907、1908は、LSTM(long short-term memory)を有する回帰型ニューラルネットワーク(RNN)、畳み込みニューラルネットワーク、標準多層パーセプトロンニューラルネットワーク、または何らかの他のタイプのニューラルネットワークもしくは機械学習モデルであり得る。MIR生成プロセス1900の機能性は、変分オートエンコーダ(VAE)または単に回帰型ニューラルネットワーク(RNN)自体などの他の生成深層学習様式によって達成することもできる。GANモデルは、必要な機能性を実行する効果的な手段として評価されているが、特に機械学習の進歩に伴い、追加的な類似のアルゴリズムも効果的である可能性がある。
MIR生成器プロセス1900は、二つの訓練段階を有する訓練モード、またはMIRブループリント生成モードで動作する。訓練モードの第一の訓練段階では、確率ネットワーク1904の識別器ニューラルネットワーク1908は、MIRデータ1716のデータベースからの実際の記憶されたMIRブループリント1910(すなわち、人間であるアーティストが作曲した実際の曲に対応するMIRブループリント)を使用して、MIRブループリントを認識するように訓練される。
第二の訓練段階では、生成ネットワーク1902は、MIRデータ1716のデータベースからの入力(すなわち、条件)として、任意の条件1706、セグメント長さ1708、および目標の情動状態データ1712を受信する。生成ネットワーク1902は、MIRブループリント(生成されたMIRブループリント1912として示される)を生成するように構成された生成ニューラルネットワーク1907を備える。訓練プロセスの開始時においては、生成された各MIRブループリント1912は、本質的にランダムなデータである。しかしながら、確率ネットワーク1904は、制御ネットワーク1906が介在する生成ネットワーク1902にフィードバックを提供し、生成ネットワーク1902を訓練して、ますます妥当なMIRブループリントを生成するために使用される。識別器ニューラルネットワーク1908は、各生成されたMIRブループリント1912を、MIRデータのデータベース1716からの実際の記憶されたMIRブループリント1910と比較する。この比較の結果は、確率値1916(例えば、0~1の値)であり、当該値は、生成されたMIRブループリント1912が実際の曲のMIRブループリントであるかどうかに関する識別器ニューラルネットワーク1908の推論の尤度を示す。
制御ネットワーク1906は、情動推論モデル(作曲AINN1800として示される)およびクリティック(Critic)1914(Jinの文献に記載されるとおり)を備える。クリティック1914は、生成されたMIRブループリント1912を、目標の情動基準を満たすものに制限するよう動作する。したがって、第二の訓練段階では、クリティック1914は、以下の三つの入力、すなわち生成されたMIRブループリント1912に基づいて確率ネットワーク1904によって生成される確率値1916、生成されたMIRブループリント1912に基づいて作曲AINN1800によって生成される予測された情動1920(すなわち、MIRブループリントに合致する音楽に対する聴取者の予測された情動応答)、およびMIRデータのデータベース1716から受信された目標の情動状態データ1712、を受信する。クリティック1914は、生成されたMIRブループリント1912がどの程度妥当であるか、および目標の情動状態データ1712を満たす可能性がどの程度高いかに基づいて報酬1918を生成するために、確率値1916、予測された情動1920、および目標の情動状態データ1712に報酬関数を適用する。報酬1918は、生成器ニューラルネットワーク1907を訓練するためのフィードバックとして使用され、それによって、報酬関数によって特定された目標の情動状態データ1712を満たす、妥当に生成されたMIRブループリント1912を生成する能力を向上させる。クリティック1914の報酬関数は、例えば作曲AINN1800などである情動推論モデルによって駆動される。
生成ネットワーク1902および確率ネットワーク1904は、制御ネットワーク1906によって支援されるものであり、したがってMIR生成器GAN(第1のMIR生成器GAN1612など)を共同で構成する。MIRブループリント生成モードでは、任意の条件1706、セグメント長さ1708、および目標の情動状態データ1712は、MIRデータのデータベース1716によって提供される代わりに、作曲意図設定プロセス1704および情動意図設定プロセス1710を介して、ユーザ1702によって提供される。生成器ネットワーク1902を使用して、目標の情動状態データ1712に合致する、生成されたMIRブループリント1912(例えば、図17AのMIRブループリント1730)を生成する。
図17Bは、スコア生成器プロセス2000を含めて、例示的な情動音楽作曲システム1600の第二の部分1700bのプロセス間の関係を示す。音楽の作曲とは、楽曲を書くことを指し、また作曲の最終的な結果物は、スコア、すなわち曲の記録のオーディオ特性を生成するために、どの時点にどの音符をどの楽器で、そしてどの方法で演奏すべきかを特定するドキュメント、の生成である。図17Aにあるように、ユーザ1702は、作曲意図設定プロセス1704とインタラクションして、例えば以下の情報を提供することによって、スコア生成器プロセス2000を管理することができる:ユーザ1702は、和声進行、旋律、リズム、または総譜を望んでいるか? ユーザ1702は、どの楽器を望んでいるか? ユーザ1702は、どのぐらいの長さのスコアを望んでいるか?。したがって、作曲意図設定プロセス1704では、スコアタイプ1732、楽器1734、およびスコア長さ1736を決定する。スコアタイプ1732は、リズム、和声進行、および/または旋律を特定することができる。
スコア生成プロセス2000は、スコアタイプ1732、楽器1734、およびスコア長さ1736を条件付き入力として受信する。スコア生成プロセス2000はまた、生成しようとするスコアに必要なMIRデータのセット1738を受信するが、これはスコア生成プロセス2000の制御ネットワークへの条件付き入力および/または入力として使用される。必要なMIRデータのセット1738は、一部の実施形態においては、MIR生成プロセス1900によって生成されたMIRブループリント1730から抽出することができ、または別のMIRブループリントもしくはMIRデータのソースから抽出することができる。一部の実施形態においては、スコア生成プロセス2000によって使用される必要なMIRデータのセット1738は、MIRブループリント1730に含まれるMIRデータの一部分のみであってもよく、他の実施形態においては、それは、MIRブループリント1730に含まれる全てのMIRデータを含んでもよい。
スコア生成プロセス2000は、スコア生成器GANを含み、これは本明細書においては第1のスコア生成器GAN1616として示される。スコア生成プロセス2000は、その入力に対して、例えばミュージカルインストゥルメントデジタルインターフェース(MIDI)スコアなどであるスコア1742を出力として生成するように動作する。その出力を生成するためのその入力に対するスコア生成プロセス2000の動作は、図20を参照しながら以下により詳細に説明する。
スコア生成プロセス2000は、ラベル付きスコアデータ1746のデータベースによって提供されるラベル付きスコアデータを使用して、スコア生成器訓練プロセス1744によって訓練モードで訓練される。当該ラベル付きスコアデータは、スコア生成器プロセス200およびそのスコア生成器ニューラルネットワーク(例えば、第1のスコア生成器ニューラルネットワーク1616)の訓練で使用しようとするMIRブループリントおよび/または他の条件付き入力でラベル付けした、人間が作曲したスコアを含み得る。
図20は、上記図17Bを参照して説明する例示的なスコア生成器プロセス2000を示す。スコア生成器プロセス2000は、MIR生成器プロセス1900と同様に構成することができ、すなわち生成器ネットワーク2002および確率ネットワーク2004を備え、制御ネットワーク2006を有する、条件付きGANである。生成器ネットワーク2002は、生成器ニューラルネットワーク2007を備え、また確率ネットワーク2004は、識別器ニューラルネットワーク2008を備え、各ニューラルネットワーク2007、2008は、LSTM(長短期メモリ(long short-term memory))を有する回帰型ニューラルネットワーク(RNN)、畳み込みニューラルネットワーク、標準多層パーセプトロンニューラルネットワーク、または何らかの他のタイプのニューラルネットワークもしくは機械学習モデルであり得る。スコア生成プロセス2000の機能性は、変分オートエンコーダ(VAE)または単に回帰型ニューラルネットワーク(RNN)自体などの他の生成深層学習様式によって達成することもできる。GANモデルは、必要な機能性を実行する効果的な手段として評価されているが、特に機械学習の進歩に伴い、追加的な類似のアルゴリズムも効果的である可能性がある。
スコア生成器プロセス2000は、二つの訓練段階を有する訓練モード、またはスコア生成モードで動作する。訓練モードの第一の訓練段階では、確率ネットワーク2004の識別器ニューラルネットワーク2008は、ラベル付きスコアデータ1746のデータベースからの実際の記憶されたスコア2010(すなわち、人間であるアーティストが作曲したスコア)を用いてスコアを認識するように訓練される。
第二の訓練段階では、生成ネットワーク2002は、任意の必要なMIRデータ1738、スコア長さ1736、楽器1734、およびスコアタイプ1732を、ラベル付きスコアデータのデータベース1746からの入力(すなわち、条件)として受信する。生成ネットワーク2002は、スコア(生成されたスコア2012として示される)を生成するように構成された生成ニューラルネットワーク2007を備える。訓練プロセスの開始時においては、生成された各スコア2012は、本質的にランダムなデータである。しかしながら、確率ネットワーク2004は、制御ネットワーク2006が介在する生成ネットワーク2002にフィードバックを提供し、生成ネットワーク2002を訓練して、ますます妥当なスコアを生成するために使用される。識別器ニューラルネットワーク2008は、各生成されたスコア2012を、ラベル付きスコアデータのデータベース1746からの実際の記憶されたスコア2010と比較する。この比較の結果物は、確率値2016(例えば、0~1の値)であり、当該値は、生成されたスコア2012が実際のスコアであるかどうかに関する識別器ニューラルネットワーク2008の推論の尤度を示す。
制御ネットワーク2006は、クリティック2014を備える。クリティック2014は、生成されたスコア2012を、例えば音楽理論ルールのデータベースとして、記憶され得る音楽理論ルールのセット2020を満たすものに制限するよう動作する。したがって、第二の訓練段階では、クリティック2014は、以下の三つの入力を受信する:生成されたスコア2012に基づいて確率ネットワーク2004によって生成された確率値2016、音楽理論ルール2020、およびラベル付きスコアデータのデータベース1746によって提供される必要なMIRデータ1738。クリティック2014は、生成されたスコア2012がどの程度妥当であるか、音楽理論ルール2020を満たす可能性はどの程度高いか、および生成されたスコア2012が、MIRデータのセット(すなわち、ラベル付きスコアデータ1746のデータベースによって提供される必要なMIRデータ1738)のマッチングにどの程度近いかに基づいて報酬2018を生成するために、報酬関数を確率値2016、音楽理論ルール2020、および必要なMIRデータ1738に適用する。報酬2018は、生成器ニューラルネットワーク2007を訓練するためのフィードバックとして使用され、それによって音楽理論ルール2020を満たし且つ必要なMIRデータ1738に合致する、妥当に生成されたスコア2012を生成する能力が向上する。
生成ネットワーク2002および確率ネットワーク2004は、制御ネットワーク2006によって支援されるものであり、したがってスコア生成器GAN(第1のスコア生成器GAN1616など)を共同で構成する。スコア生成モードでは、スコア長さ1736、楽器1734、およびスコアタイプ1732は、作曲意図設定プロセス1704を介してユーザ1702によって提供され、またMIRデータ1716のデータベースによって提供される代わりに、必要なMIRデータ抽出プロセス1740を介して、MIRブループリント1730によって随意に必要なMIRデータ1738が提供される。生成器ネットワーク2002を使用して、MIRブループリント1730に合致し且つ音楽理論ルール2020に従う妥当に生成されるスコア2012(例えば、図17Aのスコア1742)を生成する。
図17Bに戻ると、スコア生成器プロセス2000で生成したスコア1742は、後続の音楽制作プロセスのための人間であるアーティストによるスコアとして使用され得る。しかしながら、スコア1742はまた、音楽制作のその後のステップのうちの一または複数を自動化するために、情動音楽作曲システム1600のその後のプロセスによって使用することもできる。一部の実施形態においては、ユーザ(例えば、スコア1742を生成するシステム1600または別のユーザとインタラクションしたアーティストまたは制作者)が、音楽作曲プロセス1748とインタラクションして、スコア1742および/または作曲リードシート2400に基づいて、音楽のトラックまたはステムのラフミックス1750を生成することができる。作曲リードシート2400は、MIRブループリント1730に基づいて、作曲リードシートプロセス2300によって生成され得る。作曲リードシートプロセス2300は、図23を参照して以下に詳細に記載し、また例示的な作曲リードシート2400は、図24A~Bを参照しながら記載する。
ユーザ1702は、例えばデジタルオーディオワークステーション(DAW)または他のオーディオワークステーションなどであるユーザインターフェース1642を介して、音楽作曲プロセス1748とインタラクションすることができる。
図23は、図16の情動音楽作曲システム1600で使用され、図17Bに示される、作曲リードシートプロセス2300を示す。作曲リードシートプロセス2300は、MIRブループリント1730に対してデータ変換2302を実施して、作曲リードシート2400を生成する。
図24Aは、図23の作曲リードシートプロセスにより生成した作曲リードシートの例示的な情動空間インジケータ2420である。情動空間インジケータ2420は、図6、7、10、および12のUI画面によって使用される情動状態の2次元の視覚的インジケータと同様であり、すなわち当該インジケータが、水平方向軸2430が感情価(右に向けてプラス)であり、また垂直方向軸2428が活性度(上に向けて高い)である2次元情動空間内に位置する作曲リードシート(MIRブループリント1730に基づく)の情動状態2424を特定する。多数の気分が、例えば優しさ2422および平穏2426などである領域として示される。この例では、作曲リードシートの情動状態2424が、優しさ2422と平穏2426との間に位置しており、非常にプラスである感情価且つわずかに低い活性度を示している。
図24Bは、図23の作曲リードシートプロセス2300により生成した例示的な作曲リードシート2400を示す。作曲リードシート2400は、音楽セグメント(例えば、音楽トラックまたはステム)を生成するために実行しようとする作曲プロセスに関連する様々なタイプの情報を示す。
種々のフィールドが、全体として音楽セグメントの特性を示す。ミックス音質フィールド2402は、「楽器の選択およびパフォーマンスが、強い低周波が存在する広いスペクトル領域を提供する必要がある(EQ)(Instrumentation choices and performance should provides a wide spectral range(EQ)with a strong low-frequency presence)」というテキストとしてここに示される、ミックス音質に関連する情報を提供する。テンポフィールド2412は、「111」というテキストとしてここに示される、音楽のセグメント長さに関する情報を提供する。メータフィールド2414は、「シンプル」というテキストとしてここに示される、音楽のセグメント長さに関する情報を提供する。構成フィールド2416は、「5セクション」というテキストとしてここに示される、音楽のセグメント長さに関する情報を提供する。キーフィールド2418は、「Aメジャー」というテキストとしてここに示される、音楽のセグメント長さに関する情報を提供する。キー明瞭性フィールド2420は、「低」というテキストとしてここに示される、音楽のセグメント長さに関する情報を提供する。和声複雑性フィールド2422は、「高」というテキストとしてここに示される、音楽のセグメント長さに関する情報を提供する。和声バランスフィールド2424は、「マイナー偏向」というテキストとしてここに示される、音楽のセグメント長さに関する情報を提供する。不協和音フィールド2426は、「中程度」というテキストとしてここに示される、音楽のセグメント長さに関する情報を提供する。
いくつかの時系列の音楽セグメントデータは、第一のエポック2442から第七のエポック2454までの、音楽セグメント内の異なる時点のエポック2442、2444、2446、2448、2450、2452、2454、またはサブセグメントにおける音楽セグメントの様々な特性を示す。リズム複雑性の時系列2434は、複雑(高い)からシンプル(低い)の間で各エポックのリズム複雑性をグラフ化している。ピッチ中心の時系列2436は、高(高い)から低(低い)の間で各エポックのピッチ中心をグラフ化している。強度の時系列2438は、高(高い)から低(低い)の間で各エポックの強度をグラフ化している。密度の時系列2440は、厚(高い)から薄(低い)の間で各エポックの密度をグラフ化している。
作曲リードシート2400はまた、図24Aを参照しながら記載するとおり、情動空間インジケータ2420または他の情動状態データも含み得る。
図17Bに戻ると、音楽作曲プロセス1748とインタラクションしているユーザ1702は、スコア1742の補助の有無に関わらず、ラフミックス1750の制作をガイドする作曲リードシート2400で提供された情報を頼りにすることができる。あるいはユーザ1702は、ラフミックス1750を制作する際に、スコア1742自体を頼りにすることができる。
ラフミックス1750は、図17C~Dに示すシステム1600の第三の部分1700cおよび第四の部分1700dを参照して記載されるように、システム1600のその後の動作によってさらに改良され得る。
図17Cは、自動マスタリングプロセス2100を含めて、例示的な情動音楽作曲システム1600の第三の部分1700cのプロセス間の関係を示す。マスタリングとは、マスター録音(マスターとも呼ぶ)、すなわち聴衆に提示する準備のできた曲の最終の正式な記録、を生成する、様々な楽器のトラック(すなわち、ステム)のサウンドレベルの設定および他のサウンドイコライゼーション設定を指す。マスターは、そこから曲のその後のコピーのすべてが作成される音源として使用される。ユーザ1702-音楽作曲プロセス1748、作曲意図設定プロセス1704、および/または情動意図設定プロセス1710とインタラクションしているユーザ1702と同じユーザまたは異なるユーザであり得る者-は、音楽制作プロセス1758とインタラクションして、ラフミックス1750または最終ミックス1760を生成する。音楽作曲プロセス1748による場合と同様に、ユーザ1702は、例えばデジタルオーディオワークステーション(DAW)または他のオーディオワークステーションなどであるユーザインターフェース1642を介して、音楽制作プロセス1758とインタラクションすることができ、またユーザ1702は、制作リードシート2600(図26を参照しながら以下に記載する)および/または既存のラフミックス1750(音楽作曲プロセス1748によって生成されるラフミックス1750など)によって支援され得る。
制作リードシート2600は、例えばシステム1600のこれ以前の部分1700a、1700bで生成されたMIRブループリント1730などであるMIRブループリント1730に基づいて、制作リードシートプロセス2500(図25を参照しながら後述)によって生成され得る。
自動マスタリングプロセス2100を使用して、音楽制作のマスタリング段階を自動化することができる。自動マスタリングプロセス2100は、図21A~Bを参照して以下でより詳細に記載するように、強化学習モデルを使用して実施され得るマスタリングエージェント2102を含む。自動マスタリングプロセス2100は、音楽制作プロセス1758によって生成される最終ミックス1760、ステレオ形式1762の既存のトラック(既存のトラックをリマスタリングするため)、または適応させた最終ミックス1790(以下に図17Dを参照しながら記載)のいずれかに対して自動化されたマスタリングを実施し得る。自動マスタリングプロセス2100は、一または複数の反復(以下に記載される)で、その入力に基づいて、最終マスター1770を生成することができるが、これは最終マスター音楽トラック(すなわち、オーディオセグメント)としてオーディオライブラリ184に保存され得る。一部の実施例においては、自動マスタリングプロセス2100は、中盤の制作で使用され得る。すなわちユーザ1702は、音楽制作プロセス1758とインタラクションして、自動マスタリングプロセス2100に対して、マスタリング段階に到達している人間が作曲した曲に対してマスタリングプロセスの一または複数の反復を実行させることができる。
マスタリングエージェント2102は、マスタリングエージェント訓練プロセス1754を使用して訓練されてもよく、これは訓練データを提供するマスタリング基準および/またはルールのデータベース1752を使用する。マスタリングエージェント訓練プロセス1754、および自動マスタリングプロセス2100の動作は、以下の図21A~Bを参照してより詳細に記載する。
システム1600の第二の部分1700bにおけるように、必要なMIRデータ抽出プロセス1756を使用して、MIRブループリント1730から、MIRデータのそれら部分、自動マスタリングプロセス2100によって必要とされる必要なMIRデータ1757を抽出し、そして必要なMIRデータ1757をその中に提供することができる。
図21Aは、図16の情動音楽作曲システムで用いる自動マスタリングプロセス2100の第一の部分2100aを示すブロック図である。自動マスタリングプロセス2100は、本明細書ではエピソードとも呼ばれる複数の反復にわたって動作する。入力として受信された元のオーディオセグメント2104(すなわち、最終ミックス1760、ステレオ形式の既存のトラック1762、または適応させた最終ミックス1790)は、エポック分割プロセス2106でn個のエポックに分解される。元の(プリマスタリングされた)エポック2108をそれぞれ、一回または複数回(「パス」または「反復」と呼ばれる)のマスタリングのためにエポックマスタリングプロセス2152に送信する。各パスにおいて、エポックマスタリングプロセス2152は、エポック2108がそのエポックのMIR目標を満たすまで、エポック2108にマスタリング行動(以下に記載する)を適用する。最初のエポック2108がそのそれぞれのMIR目標を満たすと、エポック2108のマスタリングは完了したとみなされ、また次のエポック2108が、そのそれぞれのMIR目標を満たすまで、一回または複数回エポックマスタリングプロセス2152を受ける。このサイクルは、セグメント2104の各エポック2108がマスタリングされるまで継続する。
MIR抽出プロセス2110によって、元のオーディオエポック2108のそれぞれから、MIR特徴量が抽出され、そのエポックの開始(すなわち、プリマスタリング)のMIR特徴量に関するリファレンスを提供する。抽出されたMIR特徴量は、現在のMIRエポック2112と呼ばれる。現在のMIRエポック2112はまた、マスタリングされたオーディオエポックに対して実施されるMIRの抽出、予測または参照プロセス2124により生成された追加的なMIR情報も計算に入れ得る(以下に図21Bを参照しながらより詳細に記載)。MIRの抽出、予測、または参照プロセス2124は、MIRツールボックスのようなツールを介してMIRデータを抽出し得、以前に抽出されたMIR特徴量のテーブルからMIRデータを参照し得、または未加工オーディオを入力として受信してMIRデータ予測を出力するモデルを使用してMIRデータを予測し得る。
自動マスタリングプロセス2100によって必要とされるMIR特徴量は、必要なMIRデータ1757として受信される。必要なMIRデータ1757は、MIRエポック分割プロセス2114によってマスタリングされたオーディオセグメントのエポックごとに必要なMIR特徴量に対応するMIRデータのエポック(すなわち、期間)に分割される。MIRデータのこれらエポックは、目標MIRエポック2116と呼ばれ、これは所与のエポックに対するマスタリングプロセスのMIR特徴量目標を示す。マスタリングプロセス全体を通して同じタイムラインを維持するために、エポックサイズは、エポック分割プロセス2106とMIRエポック分割プロセス2114との間で同期させる。
マスタリングエージェント2102を訓練するための短期報酬2122を生成するために、短期報酬ネットワーク2120を使用する。短期報酬2122は、マスタリングエージェント2102を訓練する強化学習プロセスで使用される。短期報酬ネットワーク2120は、以下の三つの入力に報酬関数を適用するクリティック2118を備える:現在のエポックにおいて所望のMIR特徴量を示す目標のMIRエポック2116、現在のエポックのプリマスタリングMIR特徴量を示す現在のMIRエポック2112、ならびにマスタリング基準およびルールのデータベース1752からのマスタリング基準および/またはルール。クリティック2118が適用する報酬関数は、マスタリング規則および/または基準によって制限され且つ現在のMIRエポック2112が目標のMIRエポック2116のMIR特徴量を満たすか否かに基づく、短期報酬2122を生成する。
短期報酬2118は、マスタリングエージェント2102への入力として提供されるが、これは例えば分岐の回帰型深層Qネットワーク(DQN)などである強化学習エージェントとして実施され得る。分岐の回帰型DQNは、LSTMを含んで、各エポックに対して実行されるマスタリング行動のメモリを実装することができる。分岐Q学習ネットワークの例は、Arash Tavakoli,Fabio Pardo,and Petar Kormushev,“Action Branching Architectures for Deep Reinforcement Learning”,2018,arXiv:1711.08946,https://arxiv.org/abs/1711.08946に記載され、当該文献は、その全体として参照により本明細書に組み込まれる。回帰型深層Q学習ネットワークの例は、Matthew Hausknecht and Peter Stone,“Deep Recurrent Q-Learning for Partially Observable MDPs”,2017,arXiv:1507.06527,https://arxiv.org/abs/1507.06527に記載され、当該文献は、その全体として参照により本明細書に組み込まれる。自動マスタリングプロセス2100に使用され得るさらなる強化学習アルゴリズムは、モデルベースのアクター・クリティックアルゴリズム、A3Cアルゴリズム、または文脈的多腕バンディットアルゴリズムである。分岐の深層Qネットワークを回帰型深層Q学習と組み合せることで、この機能性に対して効果的なアルゴリズム的な解決法が提供される。
図21Bは、自動マスタリングプロセス2100の第二の部分2100bを示すブロック図である。マスタリングエージェント2102は、状態-行動ネットワーク2130に含まれる。マスタリングエージェント2102は、以下に記載される短期報酬2122および長期報酬2144を使用して訓練される。マスタリングエージェント2102はまた、目標MIRエポック2116および現在のMIRエポック2112の形態の状態データも受信する。目標MIRエポック2116を現在のMIRエポック2112と比較することによって、マスタリングエージェント2102は、現在のマスタリングパスにおいて現在の元のオーディオエポック2108に適用する複数のマスタリングツールのそれぞれについて使用する適切なパラメータ値について決定を行う。各マスタリングツールのパラメータ値に関する決定は、第1の行動ブランチ2132、第2の行動ブランチ2134、第3の行動ブランチ2136などから第nの行動ブランチ2138として示される、マスタリングエージェント2102のそれぞれの行動ブランチによって行われ、ここでnは任意の正の整数であり得る。マスタリングツールが適用するマスタリング行動は、例えば制限およびイコライジングなどのマスタリング行動を含み得る。
エポックマスタリングプロセス2152が、各行動ブランチ2132~2138からのマスタリングツールパラメータ値を、マスタリングパス、すなわちオーディオマスタリングのパスを実行するために、マスタリングされる元のオーディオエポック2108に適用する。マスタリングパスが実行された後で、得られたオーディオエポックは、マスタリングの完了が確認される。オーディオエポックはいまや完全にマスタリングされたとみなされる場合、マスタリングしたエポックを、将来の参照用に記憶して、長期報酬ネットワーク2140のクリティック2142への入力として使用する。マスタリングしたエポックはまた、最終マスター2170、すなわちすべてのマスタリングしたエポックを一緒に連結して構成した最終マスタリング曲、を生成するために、オーディオ連結プロセス2162によって最終的な連結のために他のマスタリングしたエポックと連結するために記憶される。マスタリングしたエポックはまた、上述のように現在のMIRエポック2112の生成に使用するために、MIRの抽出、予測または参照プロセス2124にも提供される。
長期報酬ネットワーク2140は、そのクリティック2142を使用して、一または複数の記憶されたマスタリングしたエポックならびにマスタリング標準および/またはマスタリング標準およびルールのデータベース1752からのルールのデータに報酬関数を適用して、長期報酬2144を生成するが、これは時間に沿った複数のエポックがマスタリング標準および/またはルールをどの程度満たしているかを示す。
最終マスター2170が生成されると、最終マスター2170は、例えば最終マスター1770としてオーディオライブラリ184にそれを記憶することによって、システム1600の他のプロセスによって使用され得る。
図25は、音楽制作プロセス1758によって使用される制作リードシート2600を生成するために情動音楽作曲システム1600によって使用される、制作リードシートプロセス2500の例を示す。MIRデータは、MIR抽出プロセス2506によって入力として受信された現在のミックス2504(例えば、ラフミックス1750)から抽出され、現在のミックスMIRデータ2508を生成する。MIRブループリント1730を現在のミックスMIRデータ2508と比較して、その間の差異を、差異計算プロセス2510で計算し、MIRブループリント1730と合致するために現在のミックスMIRデータ2508の各MIR特徴量に対して必要とされる変更のセット2512を生成する。制作リードシート2600を生成するために必要な変更のセット2512に対して、データ変換プロセス2514を実施する。制作者(すなわち、ユーザ1702)の制作決定の際に制作者を方向付けるために、例えば音楽制作プロセス1758によって、制作リードシート2600を使用することができる。MIR精度モジュール2502によって実行されるこのプロセス2500は、自動マスタリングプロセス2100の複数の反復に対応する複数の反復で繰り返され得る。
図26は、制作リードシートプロセス2500により生成した例示的な制作リードシート2600を示す。制作リードシート2600は、オーディオセグメントに対する全体的なMIRデータに必要とされる変化のセット2512を示すいくつかの全般的なフィールドを含み、ここではスペクトル変動フィールド2602、スペクトルバランスフィールド2604、スペクトル平坦性フィールド2606、および無音比率フィールド2608において必要とされる変化の百分率として示される。制作リードシート2600はまた、オーディオセグメントの各エポックに対して、エポックごとのMIRデータにおいて必要とされる変更のセット2512を示すいくつかの時系列グラフを含み、ここではブライトネス時系列グラフ2612、密度時系列グラフ2614(ラフさを示す)、ラウドネス時系列グラフ2616(平方根平均二乗(root-mean-squared)ラウドネスの差として測定される)、および強度時系列グラフ2618(イベント密度を示す)として示される。各グラフ2612、2614、2616、2618は、実線でエポックの現在のMIRデータを、また破線でMIR目標(MIRブループリント1730からの)を示し、エポックは左から右に経時的に示している。図示した例は、簡単のためにグラフごとに同じ値を示すが、実際の制作リードシート2600は、グラフごとに異なる時系列値を有する可能性が高いことが理解されよう。
制作リードシート2600はまた、図24Aを参照しながら記載するとおり、情動空間インジケータ2420または他の情動状態データも含み得る。
図17Dは、適応プロセス2200を含めて、例示的な情動音楽作曲システム1600の第四の部分1700dのプロセス間の関係を示す。適応(adaptation)とは、それによって楽曲構成が、元々指定されていたものとは異なる楽器または声を用いたパフォーマンスに編曲されるものであるプロセスを意味する。したがって、適応により、既存のミックス、録音、または楽曲構成が入力として取り入れられ、該入力で指定される要素のうちの一または複数を新しい要素で置換する新しいミックスを、出力として生成し得る。第一の実施例では、「リミックス」の実施例と呼び、入力は、マルチトラック形態の既存のトラック1774、すなわち楽器トラックそれぞれが他のトラックから分離する(個々の楽器トラックが左チャネルおよび右チャネルに一緒に結合されるものであるステレオ形態でのトラックとは対照的に)ようにフォーマットされた、既存の楽曲記録(最終マスター1770など)であり得る。後述する第二の実施例では、「新規トラック」の実施例と呼び、ステムのライブラリ(すなわち、楽器トラックまたは楽器トラックの時間的サブセグメント)が、既存のスコアの適応を構築するための素材として使用される。
リミックスの例では、入力として受信されたMIRデータ(適応プロセスによって必要とされるMIRデータ1783としてここに示す)によって特定される特定の情動応答基準を満たすように既存のトラック1774の曲を編曲するために、適応プロセス2200が、入力としてマルチトラック形態の既存のトラック1774を受信し、既存のトラック1774をその構成成分のステムに分解し、そして異なるステムに交換する。必要なMIRデータ1783は、MIRデータ抽出プロセス1782によってMIRブループリント1730から抽出することができる。いくつかの実施形態では、互いにMIRデータ抽出プロセス1756、1740のように、MIRデータ抽出プロセス1782は省略されてもよく、また必要なMIRデータ1783は、単に、MIRブループリント1730全体であってもよい。
前述の音楽理論ルールのデータベース2020を、図22A~Bを参照して以下でより詳細に記載するように、適応音楽エージェント訓練プロセス1772が使用して、適応プロセス2200の適用音楽エージェント2202が訓練される。
適応プロセス2200は、オーディオステムのライブラリ1776および楽器音質プロファイルのデータベース1778を利用して、ステムを識別および選択して、既存のトラック1774の元のステムを置き換えるようにステムを交換する。必要なMIRデータ1783のMIR特徴量を満たすように既存のトラック1774を適応させるためにステムが交換されると、適応プロセス2200が、適応させたラフミックス1780として新しいミックスを出力し、および/または、アーティストまたは制作者に、所望のまたは必要なMIR特徴量1783自体の指標を含む、指定されたMIR特徴量を達成するように既存のトラック1774を手動で適応させる方法を指令するミックステンプレート1786を出力する。
次にユーザ1702は、音楽制作プロセス1758とインタラクションして、適応させた最終ミックス1790を生成する。音楽作曲プロセス1748による場合のように、ユーザ1702は、例えばデジタルオーディオワークステーション(DAW)または他のオーディオワークステーションなどであるユーザインターフェース1642を介して、音楽制作プロセス1758とインタラクションすることができる。ユーザ1702は、ミックステンプレート1786によって支援され得、および/または入力としての適応させたラフミックス1780とのインタラクションを開始し得る。
一部の実施例においては、適応プロセス2200は、制作中に使用され得る。すなわちユーザ1702は、音楽制作プロセス1758とインタラクションして、適応プロセス2200に対して、適応段階に到達している人間が作曲した曲に対して適用プロセスの一回または複数回の反復を実行させることができる。
図22Aは、適応プロセス2200の第一の部分2200aを示すブロック図である。適応プロセス2200は、トラックを生成する際に、音楽トラック(「トラック」の実施例と称する)、またはユーザもしくは別のシステムを導くMIRテンプレート(「テンプレート」の実施例と称する)のいずれかを生成するために使用され得る。これら実施例のいずれかにおいて、生成されるトラックまたはテンプレートは、既存のトラックのリミックス(「リミックス」の実施と称する)または完全に新しいトラック(「新規トラック」の実施と称する)であってもよい。「リミックス」の実施例では、適応プロセス2200は、既存のトラック1774をその構成要素ステム(第1ステム2204、第2ステム2206、および第3ステム2208として示される)に分割することから開始される。これら構成要素ステム2204、2206、2208は、MIR抽出または予測プロセス2210によって、上述のMIRの抽出または予測技術を使用して抽出または予測されたそれぞれのMIRデータを有し、それによって、第1ステム2214のMIR、第2ステム2216のMIR、および第3ステム2218のMIRである各ステムに関するMIRデータの対応するセットが生成される。次いで、既存のトラックの各ステムのMIRデータは、既存のステムのランク付けプロセス2220によってランク付けされるが、これは第二の部分2200bを参照しながら以下に記載する。既存のトラック1774からの構成要素ステムはまた、オーディオステム1776のライブラリ(図示せず)に追加されてもよい。
図22Bは、適応プロセス2200の第二の部分2200bを示すブロック図である。既存のステムランク付けプロセス2220は、各ステム2214、2216、2218のMIRデータを使用して、既存のトラック1774のどのステムが、必要なMIRデータ1783と緊密に合致するかを識別して、必要なMIRデータ1783とのそれらの類似度についてステム2204、2206、2208をランク付けする。ランク付けプロセスは、https://medium.com/capital-one-tech/k-nearest-neighbors-knn-algorithm-for-machine-learning-e883219c8f26において、Madison Schott,“K-Nearest Neighbors(KNN)Algorithm for Machine Learning”に記載されるとおり、k近傍法のベクトル類似度計算を使用し得、当該文献は、その全体として参照により本明細書に組み込まれる。ステム拒否プロセス2222は、既存のステムランク付けプロセス2220によって生成されるランク付けおよび音楽理論ルールのセットに基づいて、どのステムを拒否するかを決定する。ステム拒否プロセス2222は、一部の実施形態においてアルゴリズム的に実施することができるが(例えば、音楽理論ルールのデータベース2020(図示せず)を使用することによって)、他の実施形態においては、人間である制作者によって実施されてもよい。たとえ一部のステムがMIRブループリント1730(または必要なMIRデータ1783)と矛盾するとしても、曲の構成にとって不可欠である一部のステムを維持することが理にかなっている可能性があるため、音楽理論ルールを使用することはステム拒否プロセス2222にとって重要である。
拒否されていない既存のトラック1774のステム(ここでは第2ステム2206および第3ステム2208として示される)は、保持されたステム(すなわち、拒否されなかったステム)をステレオミックスに連結する連結プロセス2236にフィードフォワードされる。それらはまた、第三の部分2200cを参照しながら以下に記載するように、「トラック」の実施例における最終リミックスされたトラックのラフミックス1780への連結のためにフィードフォワードされる。さらなるMIR抽出または予測プロセス2238を使用して、前述のように、連結プロセス2236によって生成されるステレオミックスのMIR特徴量を抽出または予測し、それによってトラックMIRデータ2239を生成する。保持されたステムから抽出されたトラックMIRデータ2239は、第三の部分2200cを参照しながら以下に説明するように、「テンプレート」の実施例における最終リミックスされたトラックのミックステンプレート1786への連結のためにフィードフォワードされる。エポック分離プロセス2244は、トラックMIRデータ2239のトラックMIRエポック2250への分離を実行するが、各エポックの継続時間は元のトラック1774のセクションの継続時間(音楽理論ルールなどのルールによって規定される)によって規定される。
必要なMIRデータ1783は、既存のステムランク付けプロセス2220への入力を提供することに加えて、既存のトラック1774のリミックス、またはステムのライブラリを使用してスコアを適応している新規トラックのいずれかに対するMIRエポックを生成するために使用され得る。リミックス例では、必要なMIRデータ1783は、リミックスされるトラックのセクションに基づいてエポックに分割され(すなわち、既存のトラック1774のエポック)、すなわち必要なMIRデータ1783は、リミックスMIR分割プロセス2246によってエポックに分割されるが、各エポックの継続時間は元のトラック1774のセクションの継続時間によって規定される。「新規トラック」の実施例では、必要なMIRデータ1783は、新規トラックMIR分割プロセス2248によって、既存のトラック1774のセクションの代わりに(この例では既存のトラック1774がないので)、MIRブループリント1730(または必要なMIRデータ1783)のセクションに基づく継続時間を有するエポックに分解される。
次の段階では、一度に一つのエポックを進める。各トラックMIRエポック2250および各対応する目標のMIRエポック2252が、第三の部分2200cを参照しながら以下に記載される適応音楽エージェント2202への状態データとして、一度に一つのエポックで提供される。図21Aの短期報酬ネットワーク2120と同様に、短期報酬ネットワーク2260は、クリティック2262を使用して、以下の三つの入力に対して報酬関数を適用する:従前のエポックからのMIR結合プロセス2251(以下に記載する)の出力、従前のエポックからの目標のMIRエポック2252、および音楽理論ルールのデータベース2020からの音楽理論ルール。クリティック2262の報酬関数は、音楽理論ルール2020がどの程度厳密に遵守されているか、および目標MIRエポック2252がトラックMIRエポック2250によってどの程度合致しているかに基づいて、短期報酬2264を生成する。ゆえにエポックnを生成する際に入力として生成される短期報酬2264は、MIR結合プロセス2251およびエポック(n-1)の目標MIRエポック2252に基づく。
図22Cは、適応プロセス2200の第三の部分2200cを示すブロック図である。状態-行動ネットワーク2270は、入力データの各エポック(すなわち各トラックMIRエポック2250、各対応する目標MIRエポック2252、および各対応する短期報酬2264)に応じて、複数の行動ブランチ(第1の行動ブランチ、第2の行動ブランチ、第3の行動ブランチなどから第Nの行動ブランチとして示され、Nは任意の正の整数であり得る)のそれぞれについてステムを選択するように構成される、適応音楽エージェント2202を備える。各行動ブランチは、ミックス内のある層に対応し、つまり典型的には、例えばドラム、ベース、ギターなどである楽器層である。対応する楽器が既存のトラック1774から残っているステム内に既に存在していて、さらなる層が望ましくない場合には、分岐を省略することができる。各行動ブランチのステムは、オーディオステム1776のライブラリによって提供される利用可能なステムから選択される。
いくつかの実施形態では、適応音楽エージェント2202は、これまでのすべてのエポックに対して講じられた行動のメモリ(すなわち、選択されたステム)のための、LSTMを有する分岐の回帰型深層Q学習ネットワークとして実装することができる。LSTMは、本明細書においてはn個の時間ステップとして示される、すなわちn個の従前の目標MIRエポック2252およびn個の従前のトラックMIRエポック2250である、一または複数の従前の時間ステップ(例えば、エポック)からのトラックのMIR特徴量を記録するし、またこれら従前のMIR特徴量の状態ベクトルを、適応音楽エージェント2202の方策に提供する。適応音楽エージェント2202のプランナーは、この状態ベクトルおよび短期報酬2264を、講じられた従前の適応行動(すなわち、以下に記載するように、各ブランチに対して選択されたステム)と共に受信して、そして該プランナーは、それに応じて方策を更新する。プランナーは、従前の適応セッションからのデータを使用して訓練される。適応音楽エージェント2202は、強化学習を使用して訓練されるものであり、オーディオステムのライブラリ1776が行動空間を画定し、そして短期報酬2264および長期報酬2282(以下に記載)が、報酬フィードバックを提供する。適応音楽エージェント2202の時間ステップは、あるエポックに対応し得、例えば4小節の音楽などである。MIR生成器GAN1612、スコア生成器GAN1616、およびマスタリングエージェント2102と同様に、適応音楽エージェント2202は、記載される実施形態における強化学習および深層学習のために、アクター-クリティック挙動を使用する。他の実施形態では、適応音楽エージェント2202は、モデルベースのアクター-クリティックモデル、A3Cモデル、または任意の他の適切な機械学習モデルなどの他のモデルを使用して実施され得る。
「トラック」の実施例では、ステム連結プロセス2272は、オーディオステムのライブラリ1776によって提供される選択されたステムを連結して、既存のトラックの保持されたステム(「リミックス」の実施例の)に対して階層化されるように適応音楽エージェント2202によって選択された新しいステム、または曲の全体を構築するために選択された新しいステム(「新規トラック」の実施例の)からなる、生成されたオーディオエポック2274(すなわち、現在のエポックに関するステムのミックス)を生成する。あるいは、「テンプレート」の実施例では、ステム連結プロセス2272は、新規トラックまたはリミックステンプレートを作成するための様々な楽器の選択肢に関連付けられたMIRデータを含む、楽器音質プロファイル1778のデータベースを使用して、その生成されたエポックに関して生成されたエポックテンプレート2276を作成するためのMIRプロファイルを生成する。生成されたエポックテンプレート2276は、そのエポックに関するMIRデータを含む。
生成されたオーディオエポック2274または生成されたエポックテンプレート2276が生成されると、生成されたオーディオまたはテンプレートの長さが、ステップ2282で、トラックまたはテンプレートの所望の全長(既存のトラック1774および/または必要なMIRデータ1783のセクションに基づく)と比較される。所望の長さに達していた場合、生成されたエポックテンプレート2276を互いに、元のトラックの保持されたステムのMIRデータ(第二の部分2200bにおけるトラックMIRデータ2239として示される)と結合してミックステンプレート1786を生成するか、または生成されたオーディオエポック2274を互いに、元のトラックの保持されたステム(第二の部分2200bにおける第2ステム2206および第3ステム2208として示される)と結合して適応させたラフミックス1780を生成する。ミックステンプレート1786または適応させたラフミックス1780はまた、適応音楽エージェント2202を訓練するために、長期報酬ネットワーク2280(以下に記載)に提供される。適応されたラフミックス1780が提供される場合、最初にそのMIRデータが、MIR抽出プロセス2284によって抽出、予測、または検索される。上述のように、MIRデータは、以前に抽出されたMIR特徴量のテーブルから、MIRツールボックスのようなツールを介して、抽出されるか、参照(すなわち、検索)されるか、または未加工のオーディオを入力してMIR予測を出力するモデルを使用して予測されるかのいずれかが可能である。抽出(または予測、または検索)されたMIRデータは、その後、長期報酬ネットワーク2280に提供される。適応プロセスはその後終了する。一部の実施形態では、現在のトラックまたはテンプレートが生成されている間に、これまで生成されたトラックまたはテンプレート全体(元のステムおよび生成されたステムの両方)が、適応プロセスが完了する前に適応音楽エージェント2202を訓練するために長期報酬ネットワーク2280に提供され得る。
ステップ2282で、トラックまたはテンプレートの所望の合計長さに達していなかった場合、現在の生成されたオーディオエポック2274または生成されたエポックテンプレート2276が、MIR結合プロセス2251へのフィードバックとして提供される。「トラック」の実施例では、現在の生成されたオーディオエポック2274は、最初にMIR抽出プロセス2286を通過し、上述のように、現在の生成されたオーディオエポック2274のMIRデータを抽出、予測、または検索して、現在の生成されたオーディオエポック2274に対応するMIRデータを生成する。「リミックス」の実施例では、MIR結合プロセス2251は、元のトラックの保持されたステム(すなわち、トラックMIRデータ2239)から抽出されたMIRをフィードバックMIRデータ(MIR抽出プロセス2286または生成されたエポックテンプレート2276から)と結合して、保持されたステムおよび新規ステムの両方を含む、そのエポックに関して結合されたMIRデータを生成する。この結合したMIRデータは、後続のエポックに対する短期報酬2264を生成するために、クリティック2262に提供される。すなわち、エポック(n-1)に関して結合されたMIRデータが、エポック(n-1)に関する目標のMIRエポック2252と共に、クリティック2262に提供されて、これによりエポック(n)に関してステムを選択する際に適応エージェント2202で使用する短期報酬2264が生成される。当然のことながら、「新規トラック」の実施例では、リミックスされる元のトラックが存在しないため、保持されているステムは存在しない。したがって、MIR結合プロセス2251の出力は、単に、MIR抽出プロセス2286または生成されたエポックテンプレート2276から受信したフィードバックMIRデータである。
長期報酬ネットワーク2280は、以下の三つの入力に報酬関数を適用するクリティック2278を備える:必要なMIRデータ1783、音楽理論ルールのデータベース2020からの音楽理論ルール、およびMIR抽出ブロック2284により適応させたラフミックス1780から抽出されたMIRデータ、またはミックステンプレート1786のいずれか。報酬関数は、音楽理論ルールおよび適応させたトラック全体(またはテンプレート全体)のMIRデータに適用される必要なMIRデータ1783に基づいて、長期報酬2282を生成する。
情動音楽推薦システム100および/または情動音楽作曲システム1600、ならびに/またはその態様および構成要素は、一または複数の聴取者に特定の情動応答を誘発するための音楽の選択または生成に関連する特定の使用事例に対処するために、様々な構成で再度組み合わされ得る。これら使用事例は、治療、エンターテイメント、またはライフスタイルの用途に関与し得る。ここで、本明細書に記載の例示的な実施形態のいくつかの例示的な使用事例を図27~30を参照しながら説明することとする。
図27は、本明細書に記載の実施形態を使用した、アルバムリミックスの例示的な使用事例2700を示す。曲が入った既存アルバムを持つアーティストであるクライアント2732は、制作者2734と一緒に、情動作曲プロセスおよび感情のフレームワーク(例えば、情動のGEMS/ラッセル円環モデル(Russel Circumplex Model))を説明するオンボーディング文書2738を活用してアルバム曲に対する一連の健康維持目標2736を設定するように作業を行う。制作者2734は、クライアント2732から現在のアルバムミックス2702(すなわち、アルバムの曲のミックス)を受信し、そしてそれらをMIR抽出プロセス2704に提供して、MIRデータに変換する。例えば作曲AINN1800などである訓練された情動推論モデルを使用して、トラックの予測された情動ダイナミクス2706を生成する。当該予測された情動ダイナミクス2706は、曲の感情ダイナミクスの視覚化2708に変換される。クライアント2732は、視覚化2708を検討して、ステップ2710で選択されたトラックによって誘導される所望の情動トラジェクトリと共に最適化するために第一のトラックを選択し、それによって、トラック2712および情動目標2714(例えば、所望の情動トラジェクトリ)を、使用事例2700の後続のプロセスへの入力として提供する。トラック2712のトラックMIRデータ2716が、情動精度モデル2720(MIR生成プロセス1900など)への第一の入力として提供される。情動目標2714に対応するMIRブループリント1730が、情動精度モデル2720への第二の入力として使用される。情動精度モデル2720は、ミキシング及びマスタリング処理を実施するエンジニア2724によって使用される(例えば情動音楽作曲システム1600の音楽制作プロセス1758を介して)、文書2722として一緒に示す、制作リードシート(情動音楽作曲システム1600が作成する制作リードシート2600など)と変更する必要のあるMIR特徴量を特定するMIRブループリントとを生成して、所望の情動目標を達成するよう構成される選択されたトラックの最終マスター2730を生成するために使用される。この例では、トラックのセグメントにマスタリング技術が適用されて(例えば、ピアノの音質を修正する)、MIR目標をより良好に満たすためにアンビエントトラックがミックスに追加されて、またバイノーラルエントレインメント(2Hz)がトラックに追加される。
図28は、本明細書に記載の実施形態を使用する健康維持プレイリストを目標とする、例示的な音楽作曲の使用事例2800を示す。同じオンボーディングプロセスが使用事例2700で使用されるが、この例では、目標設定ステップ2836は、クライアント2732のアルバムに関して健康維持目標とすることを目指して戦略とするプレイリスト(例えば、既存のオンライン音楽サービスのプレイリスト)を選択することを含み、トラックの感情的トラジェクトリが選択され、そしてトラック長さと必要なトラック数とが識別される。例えば、懐かしいトラックおよび平穏なトラックは、「チル」プレイリストを目指すように選択され、二つの「集中」トラックおよび一つのメランコリックなトラックは、「悲しいビート」プレイリストを目指すように選択され、それらすべてが3分±20秒の継続時間である。
各選択されたトラックの作曲は、作曲システム1600のMIR生成プロセス1900を使用してトラックのMIRブループリント1730を生成することから開始される。スコア(例えば、MIDIスコア1742)および作曲リードシート2400が生成され(例えば、作曲システム1600を使用して)、そして制作者2734およびクライアント2732が、MIRブループリント1730に従って様々なパラメータを変更することによって、プロセスの一回または複数回の追加的な反復にわたって、スコア1742および作曲リードシート2400を改良し得る。例えば、MIDIスコア1742は、目標2836に沿ったトラックレベルのコード進行および旋律を提供するように調節され得る。
制作者2734およびクライアント2732は、協働して、様々なトラックのラフミックス1750を生成する。情動精度モデル2720は、ラフミックス1750およびMIRブループリント1730を使用して、制作リードシート2600を変更および作成するのに必要な音楽的特徴量のデータセットを生成する。次に、制作者2734は、最終ミックスのセット1760を生成するために、制作リードシートによって設定されたMIR目標をより良好に満たすために、ミキシング技術(例えば、音楽制作プロセス1758を使用して)をトラックに適用する。次いで、マスタリングエージェント2102を使用して、最終ミックス1760の自動マスタリングを実行し、最終マスター1770を生成することができる。
図29は、本明細書に記載の実施形態を使用して別個の情動目標を有する複数のアルバムを生成するための、音楽集合の適応の例示的な使用事例2900を示す。クライアント2732は、既存の曲の集合を持ち、曲を三枚のアルバムとしてリリースしたいと考えているアーティストであり、アルバムごとに、特定の情動目標セットがある。アーティスト2732は、制作者2734と協働して、使用時例2800にあるように目標2836を設定する。クライアント2732からトラックの集合2902を受信して、使用事例2700にあるようにMIR抽出プロセスに提供される。使用事例2900は、トラックごとに使用事例2700のように進めるが、クライアント1732はステップ2910において、概して所望の情動目標に近いトラックを選択することによって、複数のトラック2712を最適化するために選択する。
オンボーディング2836中でクライアント1732によって選択された情動目標2714を、トラックごとにMIRブループリント1730を生成するために使用する。トラック2712ごとのトラックMIRデータ2716は、各トラックのMIRブループリント1730と共に情動精度モデル2720に提供されて、変更する必要のある音楽的特徴量を識別する各トラックの制作リードシート2600を生成する。制作者2734は、制作リードシート2600を使用して、ミキシング2912を行い、その出力(例えば、ラフミックスされたもの1760)は、マスタリングエージェント2102に提供されるが、その出力は、キュレーションエージェント2914によってキュレーションされて、最終マスター1770を生成する。キュレーションエージェント2914は、作曲AINN1800で訓練されている情動音楽推薦システム100からの深層Qネットワークであり得る。
図30は、本明細書に記載の実施形態を使用した既存のステムのライブラリを使用して情動音楽を生成するための、例示的な音楽の適応の使用事例3000を示す。クライアント1732より、アルバム用の新しい曲を生成するために使用されることになる未使用のステムのライブラリ1776が提供される。MIR生成プロセス1900を用いて、情動目標2714に基づいてMIRブループリント1730を生成する。適応音楽エージェント2202が、ステムのライブラリ1776を利用して、MIRブループリント1730に合致するように意図して生成されたトラック3002を生成する。この段階では、承認のためにトラック3002をクライアント2732と共有して、追加的な要素を追加する機会を与えることができる。次いで当該トラック3002は、2704においてMIRデータに変換されて、トラックMIRデータ2716を生成する。MIRブループリント1730およびトラックMIRデータ2716は、情動精度モデル2720によって使用され、トラックに関する制作リードシート2600を生成する。制作者2734は、ミキシング2912を実行し、その後マスタリングエージェント2102およびキュレーションエージェント2914を使用して、最終マスター1770を生成する。
一部の実施形態においては、記載されるシステムおよび方法は、上述のオーディオデータおよび聴覚刺激の代わりに、またはそれらに加えて、非聴覚の刺激および非オーディオのデータを使用することができる。一部の実施形態においては、上記に類似した技術を使用して、触覚または視覚的刺激に対するユーザの情動応答を収集して予測するために、触覚または視覚的データが使用されてもよい。
一部の実施形態においては、オーディオセグメントは、それ自体で、または他の聴覚データと統合される、モノラルまたはバイノーラルのビートデータを含み得る。モノラルおよびバイノーラルのビートは、一部の条件下で、ヒトにおいて特定の情動応答を誘発する能力を有することが示されてきた。例えば、Chaieb et al.,“Auditory Beat Stimulation and its Effects on Cognition and Mood States”,Frontiers in Psychiatry,Vol.6,2015,https://www.frontiersin.org/article/10.3389/fpsyt.2015.00070による匹敵する文献研究を参照されたく、当該文献はその全体として参照により本明細書に組み込まれる。
本開示は、少なくとも部分的には、方法および装置に関して記載され得るが、本開示は、ハードウェア構成要素、ソフトウェア、または二つの任意の組み合わせによって、記載される方法の態様および特徴の少なくとも一部を実施するための様々な構成要素にも向けられるということを、当業者は理解するであろう。したがって、本開示の技術的解決法は、ソフトウェア製品の形態で具現化することができる。適切なソフトウェア製品は、例えば、DVD、CD-ROM、USBフラッシュディスク、リムーバブルハードディスク、または他の記憶媒体を含む、事前に記録された記憶装置または他の類似の不揮発性または非一時的なコンピュータ可読媒体またはプロセッサ可読媒体に記憶されてもよい。ソフトウェア製品には、処理装置(例えば、パーソナルコンピュータ、サーバ、またはネットワーク装置)に対して本明細書に開示される方法またはシステムの実施例を実行可能にさせる、その上に記憶された有形の命令が含まれる。
当業者はまた、上述の方法およびデバイスの出力、すなわちオーディオセグメント230自体を含むオーディオストリーム234が、DVD、CD-ROM、USBフラッシュディスク、リムーバブルハードディスク、または他の記憶媒体を含む、例えば不揮発性または非一時的なコンピュータ可読媒体またはプロセッサ可読媒体などの記憶媒体上に、音楽データ(オーディオファイルなど)として記憶され得ることも理解するであろう。音楽はまた、例えばカセットテープ、ヴァイナルレコード、またはデジタルもしくはアナログの音楽データ用の任意の他の記憶媒体などであるオーディオアプリケーションまたはオーディオの再生もしくはブロードキャスト装置での使用に適した他のデジタルまたはアナログ記憶媒体に記憶され得る。一実施形態では、オーディオストリームが、ユーザ特有かまたはユーザに依存しないかのいずれかで、特定の情動トラジェクトリを誘発する可能性が高いと識別され得、そしてこのオーディオストリームは、ユーザが後で聴取するために記憶され得る。
記載する方法またはブロック図では、各ボックスは、イベント、ステップ、関数、プロセス、モジュール、メッセージ、および/または状態ベースの動作などを表し得る。上述の実施例のいくつかは、特定の順序で発生しているように記載されているが、任意の所与のステップの順序の変更の結果が、後続のステップの発生を妨げない、または損なわないことを条件に、ステップまたはプロセスの一部が異なる順序で実施されてもよいということは、当業者に理解されるであろう。さらに、上述のメッセージまたはステップの一部は、他の実施形態では削除または組み合わせられてもよく、上述のメッセージまたはステップの一部は、他の実施形態では、多数のサブメッセージまたはサブステップに分割されてもよい。さらに、必要に応じて、ステップの一部またはすべてを繰り返すことができる。方法またはステップとして記述された要素は、同様にシステムまたは下位の構成要素に適用され、逆も同様である。「送信すること」または「受信すること」という語句への言及は、特定のデバイスの視点に応じて交換可能である。
上述の実施形態は、例示であり、限定的でないものとみなす。方法として記載される例示的実施形態は、同様にシステムに適用されることとなり、その逆も同様である。
いくつかの例示的実施形態に対して、変形がなされてもよく、これは上記のいずれかの組み合わせおよび下位の組み合わせを含み得る。上述の様々な実施形態は、単に実施例であり、本開示の範囲を限定することを意図するものではない。本明細書に記載される発明の変形は、当業者に明らかであり、そのような変形は本開示の意図された範囲に存在する。特に、上述の実施形態のうちの一つまたは複数からの特徴は、上記に明示的に記載され得ない特徴の下位の組み合わせで構成される代替的な実施形態を作り出すために選択され得る。特に、上述の実施形態のうちの一つまたは複数からの特徴は、上記に明示的に記載され得ない特徴の組み合わせで構成される代替的な実施形態を作り出すために選択および組み合わされ得る。こうした組み合わせおよび下位の組み合わせに適した特徴は、本開示の全体を検討することで当業者に容易に明らかとなるであろう。本明細書に記載される主題は、技術的な適切な変更すべてを網羅し、包含することを意図している。

Claims (54)

  1. 聴取者に情動状態変化を誘発するためのオーディオストリームを生成する方法であって、
    前記聴取者の現在の情動状態を識別すること、
    前記聴取者の目標の情動状態を識別すること、
    前記現在の情動状態から前記目標の情動状態への情動トラジェクトリを識別すること、
    訓練されたセグメント識別機械学習モデルを用いて、第一のオーディオセグメントであって、前記第一のオーディオセグメントが聴覚刺激として聴取者に提示されたときに前記情動トラジェクトリのうちの少なくとも初期部分に対応する所望の情動応答を前記聴取者に誘発する可能性が高いものである前記第一のオーディオセグメントを識別すること、
    前記第一のオーディオセグメントに少なくとも一部基づいて前記オーディオストリームを生成すること、および
    前記オーディオストリームに基づいて、オーディオストリームデータを聴取者デバイスに送信することを含む、方法。
  2. 前記訓練されたセグメント識別機械学習モデルを使用して、前記第一のオーディオセグメントを識別した後に、
    情動推論プロセスを使用して、前記第一のオーディオセグメントの前記現在の情動状態およびオーディオ特徴量値セットに基づいて、推論による新規情動状態を推論すること、
    前記推論による新規情動状態のデータから前記目標の情動状態までの更新された情動トラジェクトリを識別すること、および
    前記訓練されたセグメント識別機械学習モデルを用いて、ある後続のオーディオセグメントであって、該後続のオーディオセグメントが聴覚刺激として前記聴取者に提示されるときに前記更新された情動トラジェクトリの少なくとも初期部分に対応するものである後続の所望の情動応答を前記聴取者が誘発する可能性が高い後続のオーディオセグメントを識別することをさらに含み、
    前記オーディオストリームは、前記第一のオーディオセグメントおよび前記後続のオーディオセグメントに少なくとも一部基づいて生成される、請求項1に記載の方法。
  3. 前記訓練されたセグメント識別機械学習モデルが、前記情動推論プロセスから受信した報酬データを使用して訓練され、また
    前記情動推論プロセスが、
    前記オーディオストリームのオーディオ特徴量値セットに対する前記聴取者の推論による情動応答を推論すること、および
    前記推論による情動応答と前記所望の情動応答との比較に基づいて前記報酬データを生成することによって、前記報酬データを生成する、請求項2に記載の方法。
  4. 前記情動推論プロセスが、訓練された情動推論機械学習モデルを備え、また
    前記訓練された情動推論機械学習モデルが、
    複数の訓練オーディオセグメントに対応する訓練オーディオ特徴量データと、
    前記複数の訓練オーディオセグメントに対応する複数のオーディオ刺激の各々に各ヒト対象を曝露することに関連づけて一または複数のヒト対象から収集した情動状態データとを含む訓練データを用いて訓練される、請求項3に記載の方法。
  5. 前記一または複数のヒト対象が、前記聴取者を含む、請求項4に記載の方法。
  6. 前記訓練されたセグメント識別機械学習モデルは、強化学習モデルを備える、請求項5に記載の方法。
  7. 前記訓練されたセグメント識別機械学習モデルは、深層学習ニューラルネットワークを備える、請求項6に記載の方法。
  8. 前記オーディオストリームデータが、前記オーディオストリームを推薦する推薦データを含む、請求項7に記載の方法。
  9. 前記オーディオストリームデータが、前記オーディオストリームを含む、請求項7に記載の方法。
  10. 前記オーディオストリームデータを前記聴取者デバイスに送信した後に、
    前記聴取者から更新された現在の情動状態データを受信すること、ならびに
    前記訓練された情動推論機械学習モデルを、
    前記第一のオーディオセグメントおよび前記複数の後続のオーディオセグメントのそれぞれに対応するオーディオ特徴量データと、
    前記更新された現在の情動状態データとを含む実行時間訓練データを用いて訓練することをさらに備える、請求項9に記載の方法。
  11. 前記聴取者の目標の情動状態を識別することが、
    前記聴取者デバイスを介して前記聴取者から目標の情動状態データを受信すること、および
    前記目標の情動状態データに基づいて、前記聴取者の前記目標の情動状態を識別することを含む、請求項1に記載の方法。
  12. 前記聴取者の現在の情動状態を識別することが、
    前記聴取者デバイスを介して前記聴取者から情動自己評価データを受信すること、および
    前記情動自己評価データに基づいて、前記聴取者の現在の情動状態を識別することを含む、請求項1に記載の方法。
  13. 前記聴取者の現在の情動状態を識別することが、
    前記聴取者のより生理学的状態と相関する生理学的データを受信すること、および
    前記生理学的データに基づいて、前記聴取者の現在の情動状態を識別することを含む、請求項1に記載の方法。
  14. 聴取者に情動状態変化を誘発するためのオーディオストリームを生成するシステムであって、
    プロセッサシステム、
    通信システム、ならびに
    記憶装置であって、そこに
    実行可能な訓練されたセグメント識別機械学習モデル、および
    前記プロセッサシステムによって実行されるとき、前記システムに、
    前記通信システムによって受信された聴取者状態データに基づいて、前記聴取者の現在の情動状態を識別することと、
    前記通信システムによって受信した目標の情動状態データに基づいて、前記聴取者の目標の情動状態を識別することと、
    前記現在の情動状態から前記目標の情動状態への情動トラジェクトリを識別することと、
    訓練されたセグメント識別機械学習モデルに対して、第一のオーディオセグメントであって、前記第一のオーディオセグメントが聴覚刺激として前記聴取者に提示されたときに前記情動トラジェクトリのうちの少なくとも初期部分に対応する所望の情動応答を前記聴取者に誘発する可能性が高いものである前記第一のオーディオセグメントの識別を実行させることと、
    前記第一のオーディオセグメントに少なくとも一部基づいて前記オーディオストリームを生成することと、
    前記通信システムを用いて、前記オーディオストリームに基づいて、オーディオストリームデータを聴取者デバイスに送信することとを引き起こすものである実施可能な命令を記憶している、前記記憶装置を備える、システム。
  15. 前記記憶装置が、そこに実行可能で訓練された情動推論機械学習モデルをさらに記憶し、また
    前記プロセッサシステムによって実行された前記実行可能命令は、前記システムに対して、前記訓練されたセグメント識別機械学習モデルを使用して前記第一のオーディオセグメントを識別した後に、
    前記情動推論機械学習モデルを使用して、前記第一のオーディオセグメントの前記現在の情動状態およびオーディオ特徴量値セットに基づいて、推論による新規情動状態を推論すること、
    当該推論による新規情動状態のデータから前記目標の情動状態までの更新された情動トラジェクトリを識別すること、ならびに
    前記訓練されたセグメント識別機械学習モデルを用いて、ある後続のオーディオセグメントであって、該後続のオーディオセグメントが聴覚刺激として前記聴取者に提示されたときに前記更新された情動トラジェクトリの少なくとも初期部分に対応するものである後続の所望の情動応答を前記聴取者が誘発する可能性が高い後続のオーディオセグメントを識別することをさらに引き起こし、
    前記オーディオストリームは、前記第一のオーディオセグメントおよび前記後続のオーディオセグメントに少なくとも一部基づいて生成される、請求項14に記載のシステム。
  16. 前記訓練されたセグメント識別機械学習モデルが、前記情動推論プロセスから受信した報酬データを使用して訓練され、また
    前記情動推論プロセスが、
    前記オーディオストリームのオーディオ特徴量値セットに対する前記聴取者の推論による情動応答を推論すること、および
    前記推論による情動応答と前記所望の情動応答との比較に基づいて前記報酬データを生成することによって、前記報酬データを生成する、請求項15に記載のシステム。
  17. 前記訓練された情動推論機械学習モデルが、
    複数の訓練オーディオセグメントに対応する訓練オーディオ特徴量データと、
    前記複数の訓練オーディオセグメントに対応する複数のオーディオ刺激の各々に各ヒト対象を曝露することに関連づけて一または複数のヒト対象から収集した情動状態データとを含む訓練データを用いて訓練される、請求項16に記載の方法。
  18. 請求項1から14に記載の方法のうちの一または複数を実行するための命令を含む、非一時的プロセッサ可読媒体。
  19. 請求項1から14に記載の方法のうちの一または複数によって生成される前記オーディオストリームを含む、非一時的記憶媒体。
  20. 機械学習モデルを訓練して、音楽的特徴量に対するヒトの情動応答を予測するための方法であって、
    音楽的特徴量セットを有する音楽を聴取者に提示することと、
    前記音楽の提示に対する前記聴取者の情動応答を示す、前記聴取者からの情動応答データを取得することと、
    前記音楽の前記音楽的特徴量を、前記情動応答データでラベル付けして、ラベル付き音楽的特徴量データを生成することと、
    前記ラベル付き音楽的特徴量データを、前記機械学習モデルを訓練する訓練データとして使用して、当該音楽的特徴量データに基づいて前記情動応答データを予測することとを含む、方法。
  21. 音楽に対するヒトの応答を予測するシステムであって、
    プロセッサシステム、および
    記憶装置であって、そこに
    請求項20に記載の方法に従って訓練された機械学習モデルを記憶している、前記記憶装置を備える、システム。
  22. 前記機械学習モデルが、
    所望の情動応答を示す所望の情動応答データを受信すること、および
    前記機械学習モデルにより予測した音楽的特徴量を有する音楽を生成して、聴取者に所望の情動応答を誘発することを行う生成モデルである、請求項21に記載のシステム。
  23. 前記音楽を生成することが、
    前記生成モデルを使用して、前記所望の情動応答データを処理して、前記音楽的特徴量を示す音楽的特徴量データを生成すること、および
    前記音楽的特徴量データに基づいて前記音楽を生成することを含む、請求項22に記載のシステム。
  24. 前記音楽的特徴量データは、音楽情報検索(MIR)データである、請求項23に記載のシステム。
  25. 当該MIRデータが、前記音楽に関するMIRブループリントである、請求項24に記載のシステム。
  26. 前記生成モデルが、敵対的生成ネットワーク(GAN)である、請求項23に記載のシステム。
  27. 前記GANが、生成器ネットワーク、確率ネットワーク、および制御ネットワークを含む、請求項26に記載のシステム。
  28. 前記GANが条件付きGANを備える、請求項27に記載のシステム。
  29. 前記生成器ネットワークが生成器ニューラルネットワークを備える、請求項28に記載のシステム。
  30. 前記確率ネットワークが、識別器ニューラルネットワーク(discriminator neural network)を備える、請求項29に記載のシステム。
  31. 前記生成器ニューラルネットワークおよび前記識別器ニューラルネットワークが、それぞれ、LSTM(長期短期メモリ(long short-term memory))を有する回帰型ニューラルネットワーク(RNN)を備える、請求項30に記載のシステム。
  32. 前記音楽的特徴量データに基づいて前記音楽を生成することが、
    前記音楽的特徴量データに基づいてスコアを生成すること、および
    前記スコアに基づいて前記音楽を生成することを含む、請求項23に記載のシステム。
  33. 前記スコアが、ミュージカルインストゥルメントデジタルインターフェース(MIDI)スコアである、請求項32に記載のシステム。
  34. 前記スコアを生成することが、
    作曲意図情報を受信すること、および
    前記音楽的特徴量データと前記作曲意図情報とに基づいて前記スコアを生成することを含む、請求項32に記載のシステム。
  35. 前記作曲意図情報が、スコアタイプ情報、楽器情報、およびスコア長さ情報のうちの一または複数を含む、請求項34に記載のシステム。
  36. 前記作曲意図情報が、ユーザから受信した作曲意図ユーザ入力によって示される、請求項34に記載のシステム。
  37. 前記メモリが、スコア生成機械学習モデルをさらに記憶し、また
    前記スコアを生成することが、前記スコア生成機械学習モデルを使用して、前記音楽的特徴量データを処理して前記スコアを生成することを含む、請求項32に記載のシステム。
  38. 前記スコア生成機械学習モデルが、スコア生成敵対的生成ネットワーク(GAN)である、請求項37に記載のシステム。
  39. 当該スコア生成GANが、生成器ネットワーク、確率ネットワーク、および制御ネットワークを備える、請求項38に記載のシステム。
  40. 前記スコア生成GANが条件付きGANを備える、請求項39に記載のシステム。
  41. 前記生成器ネットワークが生成器ニューラルネットワークを備える、請求項40に記載のシステム。
  42. 前記確率ネットワークが、識別器ニューラルネットワーク(discriminator neural network)を備える、請求項41に記載のシステム。
  43. 前記生成器ニューラルネットワークおよび前記識別器ニューラルネットワークが、それぞれ、LSTM(長期短期メモリ(long short-term memory))を有する回帰型ニューラルネットワーク(RNN)を備える、請求項42に記載のシステム。
  44. 前記スコアに基づいて前記音楽を生成することが、
    前記スコアをユーザに提示すること、
    前記ユーザからラフミックスユーザ入力を受信すること、
    前記ラフミックスユーザ入力に基づいてラフミックスを生成すること、および
    前記ラフミックスに基づいて前記音楽を生成することを含む、請求項32に記載のシステム。
  45. 前記音楽的特徴量データに基づいて前記音楽を生成することに基づいて前記音楽を生成することが、
    前記音楽的特徴量データに基づいて、作曲リードシートを生成すること、
    前記作曲リードシートを前記ユーザに提示すること、
    前記ユーザからラフミックスユーザ入力を受信すること、
    前記ラフミックスユーザ入力に基づいてラフミックスを生成すること、および
    前記ラフミックスに基づいて前記音楽を生成することを含む、請求項23に記載のシステム。
  46. 前記ラフミックスに基づいて前記音楽を生成することが、
    前記音楽的特徴量データおよび前記ラフミックスに基づいて、制作リードシートを生成すること、
    前記作曲リードシートを前記ユーザに提示すること、
    前記ユーザから最終ミックスユーザ入力を受信すること、
    前記最終ミックスユーザ入力に基づいて最終ミックスを生成すること、および
    前記最終ミックスに基づいて前記音楽を生成することを含む、請求項44または45に記載のシステム。
  47. 前記メモリが、マスタリング機械学習モデルをさらに記憶し、また
    前記最終ミックスを生成することは、前記マスタリング機械学習モデルを使用して前記音楽的特徴量データおよび前記最終ミックスを処理して、前記音楽を生成することを含む、請求項46に記載のシステム。
  48. 前記マスタリング機械学習モデルが、
    既存の楽曲を受信して、
    音楽的特徴量データおよび前記既存の楽曲を処理して、前記音楽的特徴量を有する前記音楽を生成するようにさらに構成される、請求項47に記載のシステム。
  49. 前記マスタリング機械学習モデルが、複数の既存の音楽ステムに基づいて、前記音楽的特徴量を有する前記音楽を生成するようにさらに構成される、請求項48に記載のシステム。
  50. 前記マスタリング機械学習モデルが、回帰型の深層Qネットワーク(DQN)を含む、請求項47に記載のシステム。
  51. 前記マスタリング機械学習モデルが、分岐の回帰型DQNを備える、請求項50に記載のシステム。
  52. 前記マスタリング機械学習モデルが、LSTM(長期短期メモリ(long short term memory))を含む、請求項51に記載のシステム。
  53. 請求項20から52のいずれか一項に記載のシステムによって生成される前記オーディオストリームを含む、非一時的記憶媒体。
  54. 前記機械学習モデルが、
    複数の既存の楽曲を受信し、
    所望の情動応答データを受信して、
    聴取者に当該所望の情動応答を誘発する可能性が高い、複数の既存の楽曲のうちのある既存の楽曲を識別するようにさらに構成される、請求項21に記載のシステム。
JP2022550664A 2020-02-24 2021-02-24 情動音楽の推薦および作曲のための方法、システム、および媒体 Pending JP2023516135A (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US202062980979P 2020-02-24 2020-02-24
US62/980,979 2020-02-24
US202063073252P 2020-09-01 2020-09-01
US63/073,252 2020-09-01
US202063074109P 2020-09-03 2020-09-03
US63/074,109 2020-09-03
US202163144307P 2021-02-01 2021-02-01
US63/144,307 2021-02-01
PCT/CA2021/050220 WO2021168563A1 (en) 2020-02-24 2021-02-24 Method, system, and medium for affective music recommendation and composition

Publications (1)

Publication Number Publication Date
JP2023516135A true JP2023516135A (ja) 2023-04-18

Family

ID=77489715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022550664A Pending JP2023516135A (ja) 2020-02-24 2021-02-24 情動音楽の推薦および作曲のための方法、システム、および媒体

Country Status (10)

Country Link
US (1) US20230113072A1 (ja)
EP (1) EP4111448A4 (ja)
JP (1) JP2023516135A (ja)
KR (1) KR20220146528A (ja)
CN (1) CN115428070A (ja)
AU (1) AU2021228385A1 (ja)
CA (1) CA3169171A1 (ja)
IL (1) IL295812A (ja)
MX (1) MX2022010358A (ja)
WO (1) WO2021168563A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112189193A (zh) * 2018-05-24 2021-01-05 艾米有限公司 音乐生成器
US11593059B2 (en) * 2020-08-26 2023-02-28 Spotify Ab Systems and methods for generating recommendations in a digital audio workstation
WO2022266202A1 (en) * 2021-06-15 2022-12-22 Miir Audio Technologies, Inc Systems and methods for identifying segments of music having characteristics suitable for inducing autonomic physiological responses
US20230394080A1 (en) * 2022-06-03 2023-12-07 Xandrie SA Electronic system for digital and physical media
CN114999611B (zh) * 2022-07-29 2022-12-20 支付宝(杭州)信息技术有限公司 一种模型训练和信息推荐的方法及装置
WO2024044239A1 (en) * 2022-08-23 2024-02-29 Vital Neuro, Inc. Distributed feed-forward psychoacoustic control
CN116030777B (zh) * 2023-03-13 2023-08-18 南京邮电大学 一种特定情感音乐生成方法及系统
KR102608935B1 (ko) * 2023-04-06 2023-12-04 뉴튠(주) 사용자 정보에 기초한 실시간 오디오 믹싱 서비스 제공 방법 및 장치
CN116545860B (zh) * 2023-07-07 2023-10-03 Tcl通讯科技(成都)有限公司 校准数据读取方法、装置、存储介质及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005113099A2 (en) * 2003-05-30 2005-12-01 America Online, Inc. Personalizing content
WO2010027509A1 (en) * 2008-09-05 2010-03-11 Sourcetone, Llc Music classification system and method
TW201022968A (en) * 2008-12-10 2010-06-16 Univ Nat Taiwan A multimedia searching system, a method of building the system and associate searching method thereof
WO2012019637A1 (en) 2010-08-09 2012-02-16 Jadhav, Shubhangi Mahadeo Visual music playlist creation and visual music track exploration
CN110795944A (zh) * 2019-10-11 2020-02-14 腾讯科技(深圳)有限公司 推荐内容处理方法及装置、情感属性确定方法及装置

Also Published As

Publication number Publication date
CN115428070A (zh) 2022-12-02
KR20220146528A (ko) 2022-11-01
IL295812A (en) 2022-10-01
CA3169171A1 (en) 2021-09-02
AU2021228385A1 (en) 2022-09-08
EP4111448A4 (en) 2023-12-13
MX2022010358A (es) 2022-11-30
WO2021168563A1 (en) 2021-09-02
US20230113072A1 (en) 2023-04-13
EP4111448A1 (en) 2023-01-04

Similar Documents

Publication Publication Date Title
US20230113072A1 (en) Method, system, and medium for affective music recommendation and composition
US11342062B2 (en) Method and system for analysing sound
Williams et al. Investigating affect in algorithmic composition systems
US20200286505A1 (en) Method and system for categorizing musical sound according to emotions
Eerola et al. A comparison of the discrete and dimensional models of emotion in music
Abboud et al. Integration of nonparametric fuzzy classification with an evolutionary-developmental framework to perform music sentiment-based analysis and composition
Vuust et al. Neural underpinnings of music: the polyrhythmic brain
Laurier et al. Automatic detection of emotion in music: Interaction with emotionally sensitive machines
Coorevits et al. Exploring the effect of tempo changes on violinists’ body movements
Robinson Empathy in music
WO2019166591A1 (fr) Système interactif de diffusion de contenu multimédia
Dalida et al. Music Mood Prediction Based on Spotify’s Audio Features Using Logistic Regression
Kirke et al. Learning to make feelings: Expressive performance as a part of a machine learning tool for sound-based emotion therapy and control
US20230281244A1 (en) Audio Content Serving and Creation Based on Modulation Characteristics and Closed Loop Monitoring
Griffiths et al. A self-report study that gauges perceived and induced emotion with music
US11635934B2 (en) Systems and methods for identifying segments of music having characteristics suitable for inducing autonomic physiological responses
KR102623459B1 (ko) 사용자의 보컬 평가에 기반한 오디션 이벤트 서비스 제공 방법, 장치 및 시스템
KR102623446B1 (ko) 사용자 보컬 평가 기반 사용자 맞춤 오디션 곡 선정 방법
MERGE Audio: Music Emotion Recognition next Generation–Audio Classification with Deep Learning
Kooi Beating Spotify's algorithm: towards an improved emotion label for Billboard songs
Wang Fuzzy logical system for personalized vocal music instruction and psychological awareness in colleges using big data
Rust Transfer Learning in Emotion Recognition of the Singing vs Speaking Voice
Gómez-Vilda et al. Data-Driven Vs Model-Driven Approaches in Cognitive Speech Processing
Rozhevskii et al. Psychologically-Inspired Music Recommendation System
Micallef-Grimaud Towards a Better Understanding of Emotion Communication in Music: An Interactive Production Approach.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240222