JP2022528564A - 感情的知覚を反映するようにニューラルネットワークを訓練する方法、関連付けられたコンテンツと、多次元プロパティベクトルを埋め込まれた関連するデジタル媒体ファイルとを分類及び発見するための関連するシステム及び方法 - Google Patents

感情的知覚を反映するようにニューラルネットワークを訓練する方法、関連付けられたコンテンツと、多次元プロパティベクトルを埋め込まれた関連するデジタル媒体ファイルとを分類及び発見するための関連するシステム及び方法 Download PDF

Info

Publication number
JP2022528564A
JP2022528564A JP2021560426A JP2021560426A JP2022528564A JP 2022528564 A JP2022528564 A JP 2022528564A JP 2021560426 A JP2021560426 A JP 2021560426A JP 2021560426 A JP2021560426 A JP 2021560426A JP 2022528564 A JP2022528564 A JP 2022528564A
Authority
JP
Japan
Prior art keywords
property
file
vector
semantic
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021560426A
Other languages
English (en)
Other versions
JPWO2020201746A5 (ja
Inventor
ジョセフ マイケル ウィリアム リスケ
ナディーネ クローエル
アンゲロス ピクラキス
Original Assignee
エモーショナル パーセプション エーアイ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GB1904716.6A external-priority patent/GB2583696A/en
Priority claimed from GB1904713.3A external-priority patent/GB2583455A/en
Priority claimed from GB1904719.0A external-priority patent/GB2584598B/en
Application filed by エモーショナル パーセプション エーアイ リミテッド filed Critical エモーショナル パーセプション エーアイ リミテッド
Publication of JP2022528564A publication Critical patent/JP2022528564A/ja
Publication of JPWO2020201746A5 publication Critical patent/JPWO2020201746A5/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0008Associated control or indicating means
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/071Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/081Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Algebra (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

ファイルの音楽的プロパティ等の抽出可能な測定可能プロパティを表すプロパティベクトルは、ファイルの意味論的プロパティにマッピングされる。これは、重み及びバイアスが、ペア毎の比較のためのファイルのプロパティ空間内における距離非類似性測度を、それらの同じファイルの意味論的空間内における対応する意味論的距離非類似性測度に逆向きに整合させるように訓練される人工ニューラルネットワーク「ANN」を使用して達成される。その結果、最適化されると、ANNは、それらのプロパティで構文解析された任意のファイルを処理して、感情的知覚を反映する共通の特徴を共有する他のファイルを識別し、それにより、類似性/非類似性のより信頼性が高く且つ現実感のある結果をもたらすことができる。これは、信頼性の高いコンテキストを有する関係を現実世界に単独で提供しない抽出可能な測定可能プロパティを考慮するように単にニューラルネットワークを訓練することと対照的である。【選択図】図7

Description

本発明は、概して、特に音楽又は画像データ(静的又はビデオを問わず)の形式の音声等の感覚刺激及び/又は香りの記述若しくはテキストの断片等の主観的なコンテキストを有する入力に対する人間の主観的反応を反映するように訓練される人工知能及びニューラルネットワークの能力に関する。より具体的には、但し非限定的に、本発明は、楽曲又は画像のコンテキストを有するプロパティ間の知覚された共通性又は非類似性を - 感情的に知覚される意味論的意味において - 分類し、且つ高い信頼性で識別して、典型的にはマルチメディア装置のユーザーが、膨大なカタログから、共通性を共有するデータファイルのランク付けされた順序を探索し、且つ特定することを可能にすることができる識別システムを実現する人工知能に関する。更により具体的には、本発明は、選択可能な音声コンテンツを特定し、トラック(又はその一部)の初期の主観的評価を客観的に分類又は批評し、且つコンテンツを選択的に「プッシュする」意味において、音楽の主題に関するユーザー選択可能な知覚を共通して共有する分類されたコンテンツへのアクセスを促進するシステム及び動作方法論に関する。
典型的には人工ニューラルネットワークアーキテクチャに基づく人工知能「AI」における最も挑戦的な長期目標の1つは、人間の知的行動を模倣することである。これは、複雑な課題であり、なぜなら、特に、人間の意見が刺激への主観的反応に基づき、既存のAI的アプローチが、よく感情的に知覚される反応と良好に相関しないからである。むしろ、AIにおける計算アーキテクチャの合理性は、客観的に識別可能な特性を有する大量のデータの同化に基づく最も可能性が高い反応を示唆することである。
ディープニューラルネットワーク「DNN」の改良、すなわち訓練は、以下で理解されるように、多くの場合、「バックプロパゲーション」、すなわち誤差の後方伝播の概念に基づいて、ネットワークで用いられる重みをDNNが計算する際に必要とされる勾配を計算する。DNNは、従って、以下で理解されるように、その層間を移動して、入力を出力に変換する正しい数学的操作を線形関係又は非線形関係に関わらず見出すことを試みて各出力の確率を計算する。
AIにおける音楽解釈への現在の限定的なアプローチの実際的な例として、異なる楽曲間で知覚される類似性の識別は、意味論的に知覚される類似性に関するものではなく、絶対的類似性に制約される。これは、最初の調査では問題に見えないことがあり得るが、「人間の心の中で創作、知覚及び体験されるもの以外に音楽は存在しないため、知的且つ現実的な立場から基本的な問題が残る。換言すれば、「音楽は、それ自体では存在しない...なぜなら、音楽又は言語のいずれも、それらの認識が表面的な形式に含まれない情報を生成するため、純粋な表面的形式として研究することができないからである」。この提唱は、Gerant A.Wigginsらによる論文「On the non-existence of music:why music theory is a figment of the imagination」(ESCOM European Society for the Cognitive Sciences of Music,Musicae Scientiae,Discussion Form 5,2010,pages 231-255)において確立されている。
従って、初期段階から(測定されたパラメータの解釈に基づく)ある程度の絶対性に基づく既存のAIモデリングは、致命的な欠陥を有し、音楽検索ツールに例示的に関連して矛盾及び/又は誤った結果が生じる恐れがある。
同じ問題は、絵画若しくは写真又は医療CTスキャン等の画像の実際の解釈又は他の純粋に記述的表現(香りの記述、医療レポート又は小説の粗筋の概要など)等、他の形式の表現を識別及び分類して、定義された開始点(例えば、音楽作品の香り又は調性、リズム及び音色の特定の記述)に対して、主観的属性、特性又は特徴の受容可能な程度に近い集合を有するとの観点から、完全に無関係であるか、又はさもなければ潜在的に互いに関連する検索可能な電子画像及び/又はデータの関連度を特定及び評価する際に存在する。
実際、既存のAIシステムは、意味論的に関連する属性を解明できず、従って意味論的な類似性を見逃すと共に、知覚的に明瞭な差違が密接に関係することを受容又は示唆する可能性がある。
音楽、映画及びゲーム産業並びに特にコンテンツ提供に関する態様が進化している。この点に関して、(例えば)音楽又はサウンドトラックのストリーミング又はダウンロードされたデジタルファイルとしての販売又は配信は、それらの市場で支配的になりつつある。これは、確立されているが、現在衰退しつつある一般顧客向け小売店を通したコンパクトディスク若しくはDVD技術(又は歴史的にレコード盤)の販売と対照的である。
音楽販売が商業的であり、本来、コンテンツ知覚的且つ審美的であるのに対して、個人の特定の好みに絞り込んだ共通の音楽的特徴を共有するトラックを特定する直接的且つ信頼性が高い仕組みは、存在しない。この意見を裏付けるために、音楽は、そのジャンル、例えば数例としてジャズ、ロック、クラシック及びブルース等に大まかに分類されるが、これらの各ジャンルには、通常、膨大な数のサブカテゴリ又は亜種が存在する。例えば、ジャズには、フリーファンク、クロスオーバー、ハードバップ及びスイングを含めて、明らかに少なくとも30の異なる形式がある。これらの亜種は、属を定義する、ユーザーに識別可能な作曲アーキテクチャにおける何らかの類似性を共有する場合があるが、十分に可聴的又は音楽的に発揮された顕著な差違が存在することも多い。更なる状況を提示すると、2つの異なる種類のジャズが、特定のリスナーが一方を好きであるが、他方を好きでないと結論付ける程度に知覚的に極めて音声的に異なる場合がある。同じ(しかし、逆の)根拠により、実際、これらの2つの異なる音声トラックが音楽空間における近さの観点から実質的に同一である場合、クラシック音楽の[音楽空間及び音楽的意味での]聴取特徴が、ハードロックの曲をオーケストラのために編曲したものと全く異なるはずであるとの誤った認識に基づいて、クラシック音楽の曲をリスナーが尚早に拒否する(又は単に認識しない)場合がある。
それぞれ数百万曲を含む、典型的にはオンラインの音楽ライブラリ、例えば伝えられるところではそれぞれ約5000万トラックを含むiTunes(登録商標)、Tidal(登録商標)音楽ライブラリにおいて、潜在的に全く異なるジャンルにわたる無数のトラック間でユーザーが知覚する共通の音楽主題、特色又は特徴を識別するために、これらのデータベースを効果的に検索し得る方法に関して問題が存在する。結果的に、類似する音楽の検索し、且つ現在まで全てのジャンル[又は少なくともジャンルの亜種]を考慮から除外し、且つ/又は異なるジャンルからの異なるトラック内で極めて関連性の高い音楽コンテンツを互いに関連付けし損なうことが実際に頻繁に生じる。市販ライブラリは、同じ曲を聴いた他のユーザーのプレイリストに基づいて推奨がなされる「共同フィルタリング」を利用することができるが、この方式は、保存されたユーザーデータ及び統計的使用量に大きく依存する。共同フィルタリングは、リスナー/ライブラリのユーザーの個人的嗜好を反映することができるが、利用できるユーザーデータの量によって制約され、従って本質的に完全な解決策ではない。
また、(無名又はほぼ無名という意味での)新人アーティスト[すなわち潜在的にレコーディングスタジオ又はラベルによって署名された初心者、新顔又は「新人」]が最初の音声トラック又はファーストアルバムをリリースした際に生じる「コールドスタート」の問題もある。問題は、アーティストが無名であり、従ってオンライン又は他の媒体のいずれにしてもフォロー、例えばラジオ放送又はテレビジョンを介したプロモーションから獲得されたリスナーが実質的に存在しないことである。換言すれば、聴取履歴の欠如は、例えば、共同フィルタリングを介して推奨を行うこと又は評判を確立して新星を後押しすることの両方の障害となる。ディストリビュータ、例えばレコードレーベルにおける問題は、どのように新人アーティストの認知度を上げるか、どのように新人アーティストの音楽の性質[ユーザー知覚可能であるために恐らく変化し得る]を分類するか、及び実際にその音楽が商業的理由で聴取、ダウンロード又はストリーミングされて確実に露出が最大化されるには、どのように既存の音楽ライブラリに紐付け/挿入するかである。聴取及び/又はストリーミングする大衆又はラジオ局にとっての問題は、これらの新人に関連して、「新人は、自らが何を知らないかを知らない」ため、音楽界への新人の最初の進出をランダムに見出す確率が低く、判断よりも運に基づく場合の方が多い。
ディストリビュータにとって、アーティストの音楽トラックへの効果的な露出及びアクセスは、販売量が増加する可能性と同等である。実際、商業的観点から「遅咲き」を避け、従って新人アーティストの評判を急激に高めることも望まれる。
要するに、新人アーティストは、実績がない新作で市場に参入しなければならない。対照的に、既存のアーティストのファンは、常にフォローし、すなわち新たにリリースされた曲に注目すると共に、そのような新たにリリースされた曲が良い又は悪いによらず、一般に既存のアーティストから購入しがちである。実際、批評家からの評価が低くても、人気アーティストから新たにリリースされた曲は、ストリーミング、聴取及び/又は購入されるため、確立したフォロワー及びリスナー基盤を有する既存のアーティストには、「コールドスタート」問題が存在しない。コールドスタート問題は、従って、音楽の普及、更に新たな形式の音楽の潜在的進化を妨げる。
また、ユーザー知覚及び音楽鑑賞の性質は、最近取り入れられている個人的特質である。特に、リスナーは、あるトラックが好みに合うか否か及び好適には再生/聴取されるトラック(又はその一部)の個人的好みを数秒以内に評価する。結果的に、例えば、ダウンロード可能なアプリとして実現されるトラック探索推奨スキームのいずれも(推奨を識別する観点から)本質的に高速でなければならず、スキームが与えるいかなる推奨も、ユーザーが知覚する音楽的価値、すなわち個人的な音楽の趣味を満たす必要がある点で信頼性が高くなければならない。共通の趣味又は環境(例えば、年齢の範囲が30~40歳、既婚で子供2人、会計士として勤務し、ニューヨーク州スタテン島のローンで購入した物件に居住)を有すると識別された他のユーザーの人口統計データの統計解析を利用する既存のシステムのように、一見ランダムなトラックを出力する任意のトラック探索推奨ツールは、結局、貧弱であり、その利用は、無視又は軽視される。音楽学に類似する音声トラックの知覚的分類は、ジャンルによらないため、効果的な音声トラック探索技術の重要な考慮点である。
上記で紹介した問題は、Shazam(登録商標)及びSoundHound(登録商標)等の既存のアプリでは解決されない。その理由は、これらのアプリが、リアルタイムでサンプリングされた音声トラックの識別に注力するか、又は逆にこれらのアプリが、コミュニティ内の他人が発見しているトラックを列挙するからである。
SoundHound(登録商標)を用いて、楽曲を歌うか又はハミングして識別を試みることができる。これらのアプリは、従って、再生/サンプリングされるトラックを識別するか、又は報告されたハード番号に基づいて更に聴き込むように推奨することもあるが、多くの場合、あまり識別に関係しない。これらの既存のアプリによって音楽ライブラリの無数のトラックで音楽学的類似性が知覚されることはない。
音楽業界が直面する別の問題は、どのようにリスナー/ユーザー体験を特に個人/個別レベルで最良に増大させられるかである。実際、楽曲と事象とのコンテキスト面での関連度若しくは関係は、認識をもたらすか、又は補完的な感情的反応、例えば映画鑑賞中の恐怖若しくはサスペンス又はテレビコマーシャルで生じる製品に対する親近感を誘発すると長らく認識されてきた。
共通の音楽的特徴の識別が望ましい理由は、音楽コンテンツの適切な使用がリスナーの感情的、生理的及び/又は心理的関わり合いを支え、従ってリスナーの感覚的体験を促進すると認識されているためである。これは、関連する音楽主題、例えば増大する音楽的強度(ドラマの展開及び緊迫感が増大する意味であり、必ずしも絶対的な音声出力レベルの意味ではない)を映像出力と整合させる適当なマルチメディア製品を迅速に編集することを仕事とする例えばゲーム開発者及び/又は広告若しくは映画予告編の制作者/編集者に関連する。少なくとも1つの結果的に生じるレビューのための「プルーフ」を提供する際、開発者又は編集者は、潜在的に適した音楽を識別し、次いで選択された音楽を映像に適合/整合させることに既に相当な時間を費やしている。商業的に使用可能な音声トラックを識別する必要性を低下させるために、コンテンツ開発者は、現在、取得が容易でない権利を有する公知のトラックである場合が多い、いわゆる「テンプトラック」を利用することができるが、これは、使用権利を取得できる適当な商業的に生き残れるトラックの識別に検索を要するため、一時しのぎの処置に過ぎない。次いで、更なる時間遅延は、編集が当初の予告に合致するか否かを判断しなければならない指示側クライアントに起因して生じる。従って、効果的トラック検索ツールは、例えば、(音楽に合わせてサイクリング運動の振付けをして、運動量を高める「スピン」クラスで生じるような)音楽プログラムの視覚的シーケンス又は構築と整合させるための代替的な音楽トラックの選択の識別を容易にするであろう。
同一の又は関連する画像を表すウェブサイトの識別を含む、同一又は同様の視覚的特徴を有する画像を検索する技術がウェブに存在する。例えば、Google(登録商標)は、「逆画像検索」(https://support.google.com/websearch/answer/1325808?hl=enを参照されたい)と呼ばれるコンピュータプログラムアプリケーション[用語「アプリ」と略す場合がある]をサポートし、アップロードされた画像がサーバ側で構成ビットのグループに明らかに分解され、ビットグループが検索されて、所定のパラメータ空間内の何らかの形式の論理距離測度に従って関連画像を識別する。識別された関連画像は、次いで、アプリを利用して元の画像をアップロードしたユーザーに提供される。
画像の比較は、(典型的にはニューラルネットワークに基づく)複雑な計算を必要とするが、基本的なソースドキュメントは、形状、色及び/又は角度若しくは長さ等の寸法に分割できることが分かっている。これらの係数の1つ以上を対比することで、例えば相対スケーリングを通して関連付けを確立することができる。対照的に、音楽的特徴の批評は、再びニューラルネットワークを利用するものの、音楽的構造のより微妙な差違を知覚的に解決することの困難さによって現在まで一般に妨げられてきた。
本発明の第1の態様によれば、第1のデータファイルのコンテンツの、異なるデータファイルのコンテンツに対する類似性又は非類似性を識別するように構成されたシステムにおいて、人工ニューラルネットワーク「ANN」を訓練する方法が提供され、本方法は、異なるデータファイルの選択されたペアについて、第1のデータファイル及び異なるデータファイルの各々から測定可能信号特性を抽出して、且つこれらの測定可能信号特性から複数のプロパティを識別すること、プロパティを処理することをタスクとされたANNの出力において、選択されたペアの第1のデータファイル及び異なるデータファイルの各プロパティについて、対応するプロパティベクトルをプロパティ空間内で生成すること、第1のデータファイルのための第1の多次元ベクトル及び異なるデータファイルのための別個の第2の多次元ベクトルを組み立てること、ここで各多次元ベクトルは、ANNの出力からのそれぞれのプロパティベクトルを組み立てることから得られる、第1の多次元ベクトルと第2の多次元ベクトルとの間の距離測度を判定すること、前記判定された距離測度に応じて、プロパティ空間内の前記判定された距離測度と、異なるデータファイルに対して第1のデータファイルについて意味論的空間内で評価された定量化意味論的非類似性距離測度との間で生じる識別された不一致を考慮するバックプロパゲーション処理により、ANN内の重み及び/又はバイアス値を調整し、それにより、第1の多次元ベクトルと第2の多次元ベクトルとの間の距離測度によって反映されるプロパティ評価にわたり、定量化意味論的非類似性距離測度に反映される意味論的知覚を評価することによってシステムを訓練することを含む。
意味論的空間内で評価された定量化意味論的非類似性距離測度は、第1のデータ及び異なるデータファイルの各々に関連付けられたテキスト形式の説明のベクトル表現に基づき得る。テキスト形式の説明は、それぞれのファイルのメタデータに符号化され得る。
好適な実施形態において、定量化意味論的非類似性距離測度の評価は、自然言語処理「NLP」をテキスト記述に適用して、訓練集合内の複数のN個のデータファイルのための意味論的ベクトルを生成すること、訓練集合について且つペア毎に、各意味論的ベクトル間の分離距離を計算すること、訓練集合内のファイルの各々について、訓練集合内の他のファイルに対する最小及び最大分離距離を識別すること、訓練集合内の各ファイルについて、第1のペアが最小分離距離を有し、及び第2のペアが最大分離距離を有するペアの集合を生成すること、意味論的近さを表す第1の値を第1のペアに割り当て、且つ意味論的非類似性を表す第2の値を第2のペアに割り当てること、ここで第2の値は、第1の値と異なる、を含む。
第1のペアは、第1のデータファイル及び異なるデータファイルであり得る。
訓練の方法は、小さい方からm個の分離距離及び大きい方からm個の分離距離を含む部分集合について、第1の値をm番目に小さいものに、且つ第2の値をm番目に大きいものに割り当てることを含み得、ここで、mは、N未満の正の整数である。
本発明の第2の態様において、1つ以上の音声コンテンツ及び画像コンテンツを含むデータファイル間のコンテンツの類似性又は非類似性を識別するように構成された人工ニューラルネットワーク「ANN」を訓練し且つ動作させる方法が提供され、本方法は、意味論的空間内における前記データファイルの前記コンテンツの定量化意味論的非類似性測度を、コンテンツについて抽出された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離に関連付けることと、測定可能プロパティにわたり、意味論的非類似性測度を評価するようにシステムを訓練し且つ動作させることと、を含む。
意味論的空間内で評価される定量化意味論的非類似性測度は、異なるデータファイルに関連付けられたテキスト形式の説明のベクトル表現に基づき得る。
好適な実施形態において、データファイルは、音声ファイルであり、及び測定可能プロパティは、リズム、調性、音質及び音楽的テクスチュアに関連するプロパティによって定義される音楽的プロパティである。
定量化意味論的非類似性測度は、自然言語処理「NLP」をテキスト記述に適用して、訓練集合内の複数のN個のデータファイルのための意味論的ベクトルを生成すること、訓練集合について且つペア毎に、各意味論的ベクトル間の分離距離を計算すること、訓練集合内のファイルの各々について、訓練集合内の他のファイルに対する最小及び最大分離距離を識別すること、訓練集合内の各ファイルについて、第1のペアが最小分離距離を有し、及び第2のペアが最大分離距離を有するペアの集合を生成すること、意味論的近さを表す第1の値を第1のペアに割り当て、且つ意味論的非類似性を表す第2の値を第2のペアに割り当てること、ここで第2の値は、第1の値と異なる、によって得られる。
第1のペアは、第1のデータファイル及び異なるデータファイルであり得る。
特定の一実施形態において、小さい方からm個の分離距離及び大きい方からm個の分離距離を含む部分集合について、本方法は、第1の値をm番目に小さいものに、且つ第2の値をm番目に大きいものに割り当てることを含み得る。ここで、mは、N未満の正の整数である。
ANNを訓練し且つ動作させる方法は、先行する請求項のいずれかに記載の方法に従って非類似性が評価された個々のファイルの識別を可能にするファイル識別子をデータベースに保存することと、保存されたファイル識別子に対して、データベース内の他の識別されたファイルとの距離関係及び個々のファイルのための計算されたプロパティベクトルの少なくとも1つを記録することとを更に含む。
データベースは、ネットワークアクセス可能なデータベース又はユーザー機器にローカルなメモリ若しくは記憶装置におけるものであり得る。
いくつかの実施形態において、本方法は、複数の処理分岐を有するニューラルネットワークの訓練中、プロパティ空間内のそれぞれのプロパティベクトルを生成するために、ファイルの異なるプロパティを処理するために割り当てられた異なる処理分岐を区別することを更に含み、区別することは、ペア毎の比較を受けるペア毎に対比されるファイルについて、それぞれのプロパティベクトルの相対的な類似性及び非類似性を識別することと、最大の非類似性がペア毎の比較の生成されたプロパティベクトルに見られる特定の処理分岐内のバイアス値及び重みの少なくとも1つの調整を促進することと、を含む。
ペア毎の比較におけるプロパティが、相対的に非類似よりも、相対的に類似すると評価される場合、相対的により大きい重要度は、複数の処理分岐の特定の処理分岐に割り当てられ得る。
定量化意味論的非類似性距離測度は、ファイルの関連する記述的コンテンツの自然言語処理から得られる。記述的コンテンツは、ファイルのメタデータに含まれ得る。
各種の態様の特定の実施形態において、データファイルは、音声を含み、及びプロパティは、音楽的プロパティであり、及び測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示すプロパティを定義する。
本発明の別の態様において、共通のユーザー知覚可能な特性を共有するファイルを識別する方法が提供され、本方法は、関連付けられたプロパティベクトルを有する複数の一意に識別されたファイルを含むファイルライブラリにおける保存されたファイルへの近さについて対象ファイルを評価することを含み、本方法は、ニューラルネットワークにおいて、対象ファイルを処理して、プロパティ空間内の多次元プロパティベクトルを生成すること、ここで多次元プロパティベクトルは、対象ファイルから選択的に抽出された測定可能信号特性の複数の異なる集合から導出された複数のプロパティベクトルから構成され、複数のプロパティベクトルは、それぞれニューラルネットワークによって意味論的非類似性の測度に重み付けされる;及び、対象ファイルの多次元プロパティベクトルと、ライブラリ内のファイルのプロパティベクトルとの間の近さに基づいて、ライブラリからファイルの順序付けられたリストを生成すること、を含む。
本発明の第3の態様において、ニューラルネットワークを使用して、意味論的に近いデータファイルを識別する方法が提供され、本方法は、意味論的に近いファイルの識別において、定量化意味論的非類似性距離測度に反映される意味論的知覚を、抽出された測定可能信号特性の距離測度(330)によって反映されるプロパティ評価よりも重要であるとニューラルネットワークにおいて評価することを含む。
本発明の更なる態様において、プロセッサ知能によって実行されると、本明細書、特に請求項に記載された各種の態様の方法を実行するコードを含むコンピュータプログラムが提供される。
本発明の別の態様において、人工ニューラルネットワーク「ANN」であって、少なくとも1つの音声コンテンツ及び画像コンテンツの形式でANNに提示されるコンテンツに対して、バックプロパゲーションによって構成可能に選択された重み及びバイアスを適用するように配置された相互接続されたニューロンの層を含む人工ニューラルネットワーク「ANN」が提供され、ANNは、意味論的空間内における前記コンテンツの定量化意味論的非類似性測度を、コンテンツについて抽出された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離と相関させて、プロパティ空間内の結果を意味論的空間内の結果に整合させるように経時的に適合される出力を提供し、ANNは、前記重み及びバイアスの適合中、測定可能プロパティにわたって意味論的非類似性測度を評価するように構成される。
本発明の更に別の態様において、人工ニューラルネットワーク「ANN」であって、相互接続されたニューロンの層であって、少なくとも1つの音声コンテンツ及び画像コンテンツの形式でANNに提示されるコンテンツに対して、意味論的空間内における前記コンテンツの定量化意味論的非類似性測度を、コンテンツについて抽出され、且つANNの前記ニューロンによって処理された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離と相関させるようにバックプロパゲーションによって選択的に構成される重み及びバイアスを適用するように配置された相互接続されたニューロンの層を含み、それにより、前記重み及びバイアスのその適用において、測定可能プロパティにわたって意味論的非類似性測度を評価するように構成される、人工ニューラルネットワーク「ANN」が提供される。
本発明のまた更に別の態様において、ニューロンの出力層に結合されたニューロンの入力層を含む人工ニューラルネットワーク「ANN」が提供され、前記ニューロンは、重み及びバイアスを、それによって受信されたデータに適用するように配置され、ANNは、プロパティ空間内のANNの出力の整合性を、意味論的空間内の基準比較用記述的コンテンツについて事前に測定された基準意味論的非類似性測度と相関をさせために、ニューロンのための重み及びバイアスを生成するように構成され、プロパティ空間は、入力に適用されるファイルの音声及び/又は画像コンテンツから抽出された測定可能プロパティをANNによって処理することによって決定される。
入力層は、典型的には、少なくとも1つの隠れ層によって出力層から分離される。
本発明の更なる態様において、a)複数のプロパティベクトルを提供するように配置された複数の人工ニューラルネットワーク出力であって、前記プロパティベクトルは、第1のデータファイルのコンテンツからの抽出された測定可能信号特性である、複数の人工ニューラルネットワーク出力と、b)更なるプロパティベクトルを提供するように配置された少なくとも1つの畳み込みニューラルネットワークであって、更なるプロパティベクトルは、第1のデータファイルのコンテンツの2次元表現から導出される、少なくとも1つの畳み込みニューラルネットワークと、c)それぞれ基準ベクトルを有する複数の一意に識別可能なデータファイルを含むデータベースであって、各基準ベクトルは、(a)そのデータファイルのコンテンツから得られた抽出された測定可能信号特性、及び(b)そのデータファイルのコンテンツの2次元表現から得られた更なるプロパティベクトルから得られたプロパティベクトルから組み立てられる、データベースと、d)処理知能であって、第1のデータファイルについて、複数のプロパティベクトル及び更なるプロパティベクトルから多次元プロパティベクトルを生成することと、多次元プロパティベクトルをデータベース内の前記複数の基準ベクトルと比較することと、第1のファイルの多次元プロパティベクトルのものと測定可能に類似すると識別された基準ベクトルを有する少なくとも1つの一意のファイル識別子を識別し、それにより、第1のデータファイルに意味論的に近い、データベース内の異なる第2のデータファイルを識別することとを行うように構成された処理知能とを含むシステムが提供される。
複数のプロパティベクトルは、それぞれニューラルネットワークによって重み付けされて、意味論的非類似性を反映する。
本システムは、ネットワーク接続及び通信ユニットを含み得、処理知能は、通信ユニットに、ネットワーク接続にわたって異なる第2のデータファイルを対話型ユーザー機器に送信させる。検察についてユーザーが優先する特性を選択するためのユーザーインターフェースが提供され得る。
本発明の別の態様において、a)データファイルのための複数のプロパティベクトルを提供するように配置された複数の人工ニューラルネットワーク出力であって、前記プロパティベクトルは、データファイルのコンテンツからの抽出された測定可能信号特性である、複数の人工ニューラルネットワーク出力と、b)多次元プロパティベクトルを生成するために、複数のプロパティベクトルで組み立てられる更なるベクトルを提供するように配置された少なくとも1つの畳み込みニューラルネットワークと、c)第1のデータファイル及び異なるデータファイルを含むデータファイルのペアについて、第1及び第2の異なる多次元プロパティベクトルを受信し、且つそれに応じて、第1及び第2の異なる多次元プロパティベクトル間の距離測度を生成するように配置された処理知能と、d)プロパティ空間内における距離測度が、意味論的空間内における第1及び第2のベクトルについて生成された基準距離と相関するか否かを解決するように構成された処理知能であって、基準距離は、データファイルのペアの基準比較用記述的コンテンツの意味論的非類似性測度に基づく、処理知能とを含むシステムが提供される。
処理知能は、意味論的空間内における前記コンテンツの定量化意味論的非類似性測度を、コンテンツについて抽出された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離に関連付けるように機能する。
本発明の更に別の態様において、人間によって知覚された特性を表す独立ベクトル及び電子ソースファイルの測定可能な特性の複数のペアを生成することによって訓練される予測システムが提供され、第1のベクトルは、意味論的空間内において、且つソースファイルのペア間の、人間によって生成された記述における測定された非類似性に基づいて、第1のベクトルがペア毎の近さのユーザー主体の知覚を提供するように生成され、及び第2のベクトルは、ソースファイルの同じペアのコンテンツから抽出された測定可能プロパティのペア毎の比較から得られ、及び予測システムは、第1のベクトルのペア毎の距離が第2のベクトルのペア毎の距離に近づくように、第2のベクトルの生成処理を適合させるように配置された処理知能を含む。
電子ソースファイルは、デジタル音声、画像データ及びコンテキストを有する文献データの少なくとも1つを含む。
本発明のまた更に別の態様において、デジタル音声ファイルであって、デジタル音声ファイルの信号特性の量子化表現の複数の集合から導出された音楽的プロパティにそれぞれ関連する複数の組み立てられたプロパティベクトル成分を含む多次元プロパティベクトルを埋め込まれたデジタル音声ファイルが提供される。
埋め込まれた多次元ベクトルは、リズム、調性、音質及び音楽的テクスチュアを示す測定可能信号特性によって定義される音楽的プロパティと相関されたベクトルである。
組み立てられたベクトル成分(ORx、OTOx、OTIx及びOTXx)の各々は、意味論的距離分離空間内の基準ベクトルに対して評価される音楽的プロパティのベクトル非類似性空間内における測度を反映する。
デジタル画像ファイルであって、デジタル画像ファイルの信号特性の量子化表現の複数の集合から導出された視覚的プロパティにそれぞれ関連する複数の組み立てられたプロパティベクトル成分を含む多次元プロパティベクトルを埋め込まれたデジタル画像ファイルも提供される。
直接的に埋め込まれるのではなく、多次元プロパティベクトル(音声又は画像/映像ファイルのいずれでも)は、デジタル音声ファイルのファイル名又は国際トラック識別番号等の一意の属性と紐付け又は照合することができる。
別の態様において、請求項41~43のいずれか一項に記載の複数のデジタル音声ファイル又は請求項44に記載の複数のデジタル画像ファイルを含むデータベースが提供される。
基本的に、本アプローチは、ハード及び/又は絶対データまで遡るアプローチである現在のデータ科学的アプローチと異なる。むしろ、本発明は、ペア毎に対比されたソースファイルの抽出された測定可能プロパティの非類似性を、同じペア毎に対比されたソースファイル間の意味論的空間で表された類似性/非類似性の人間による知覚まで戻ってベクトル空間内で評価することをタスクとするニューラルネットワークからの出力結果を重視する。この意味論的空間は、コンテキストを表現するが、ここで、操作可能な数学的形式で表された測定可能なベクトルに主観的記述的コンテキストがマッピングされる異なるベクトル空間である。換言すれば、埋め込み処理は、意味論的に類似する主観的記述が、結果的に得られたベクトル(意味論的)空間内で対応して類似すると見なされるように設計される。
有利には、本発明は、データ分類の斬新な方法論、より具体的には元データと関連を有し得る検索データとの間のユーザー知覚可能な特性の高速な同化、例えばリスナーの関心に合致しそうな音声又は音声ファイルの断片の検出を可能にするシステム及び方法を提供する。
好適な実施形態は、特に、楽曲の断片内で識別可能な音楽的プロパティを抽出することにより、サンプリングされた音楽作品を整合的に特徴付け、次いで音楽的特徴及び/又は主観的音楽学的特色を共有する他の音楽作品を識別することが可能なトラックファインダ又はトラック推奨ツールを提供する。
(数百若しくは数千の音声トラックを含む個人ライブラリ又は商業ストリーミング若しくはダウンロードのために数百万トラックを有する商業ライブラリであるかによらず)音楽ライブラリ内で元の音楽作品を僅かに又は大幅に変更可能なトラックのリミックスを含む、アクセス可能な音楽ファイルの数を前提として、本発明は、知覚された音楽学的類似性のランキングに基づいてトラックの検索結果を絞り込み、従って無作為のジャンル分類を除外して、知覚される音声特性/類似性に焦点を合わせることができる有用且つ効果的な推奨ツールを提供する。
各種の実施形態のトラック探索ツールは、従って、ユーザーの特定の且つ主観的な好みに合う音楽を識別するために、リスナーが集中してトラックを聴く必要性を有益に減らし、すなわち、トラック探索ツールは、ユーザー向けに知覚的に関連するトラックを識別することにより探索空間を狭める。更に、音楽学の客観的且つ技術的に保証された評価を通して、本発明の実施形態は、音楽ライブラリ、特に加入者がアクセスできるオンラインライブラリ若しくはサーバストアに保存されるか、又はライブラリ経由でアクセス可能なより広い範囲の楽曲によって頻繁且つ高速にアクセス可能にすることにより、保証された推奨を通した音楽のエンドユーザー選択及びエンドユーザーアクセスの向上を目指す。本発明の実施形態は、従って、知覚的に類似する音楽的プロパティに基づいて、新たな音声トラック及びアーティストをより選択的且つ恐らくより受容し易い聴取ベースに格上げすることによってコールドスタートの問題を緩和する。
同じ原理は、コンピュータ実装されたデータ解析のソースとして機能する、画像、テキスト及び/又は映像を含む他のコンテキストに沿って記述可能な主観的作品の識別にも当てはまる。
添付の請求項及び以下の説明で概説する本発明の各種の態様及び実施形態は、ハードウェアソリューション及び/又はダウンロード可能なコード若しくはウェブベースのアプリを含むソフトウェアとして実装可能である。
ここで、本発明の例示的な実施形態について添付の図面を参照しながら以下に記載する。
本発明による、ファイル、特に音声ファイルの非類似性を評価する好適な処理及び人工ニューラルネットワークを訓練することができる処理のフロー図を示す。 好適な実施形態による、人工ニューラルネットワークを訓練するシステムアーキテクチャの概略図である。 ソースファイル間のプロパティ類似性及びプロパティ非類似性を識別するために、意味論的ベクトル空間をプロパティベクトル空間と同化するように図2のニューラルネットワークを訓練する好適な処理に関するフロー図である。 音声トラックの典型的なメルスペクトルの提示である。 メルスペクトル解釈に割り当てられた人工ニューラルネットワーク内の畳み込み及びプーリング層を示す。 図2の各種のANNチェーン内で用いられる人工ニューラルネットワークの表現である。 感情的に知覚されるファイル非類似性の測度を特に音声ファイルに関連して評価するために好適な実施形態によって使用されるフロー処理である。 好適な実施形態によるベクトル表現を含むアクセス可能なデータベースを含むネットワークアーキテクチャである。
ウェブブラウザ又はローカルアプリを介してアクセスされて、(例えば)音声トラック間の意味論的類似性又は非類似性を評価するツールを提供するには、深層学習及び人工知能を利用して、意味論的空間における第1の尺度を提供するために処理され、且つユークリッド空間(他の次元空間を用い得る)等の異なる測定可能な空間内の同じデータソースのコンテンツの測定可能プロパティが抽出された意味論的意味間の類似性を識別する必要があることが分かっている。この処理は、1つの空間内における意味論的意味の類似性と、別の空間内で抽出された測定可能プロパティの類似性との間の並進マッピングを効果的に提供する。
より具体的には、感情的に知覚される類似性又は非類似性(特にデジタル音声ファイル、画像ファイル又はデジタル形式の他の知覚される美的創作物の例示的意味での)の測度が例えば信号特性の量子化表現等、ハードデータフィールドのみから導けないことが分かっており、なぜなら、このようなハードデータは、人間の批評家、例えばリスナーが体験するいかなる解釈も提供しないためである。換言すれば、特徴抽出のみでは、信号特性の(単独の又はグループ化された)量子化表現が感情的な現実世界に一切の関係をもたらさないため、感情的に知覚される類似性又は非類似性の十分に正確且つ客観的な評価を与えない。
本発明は、従って、最初に、意味論的空間内で表された主観的に導出されたコンテンツ記述を、ユークリッド空間内で表されたものと同じペアの対比ファイルについて抽出された測定可能プロパティにマッピング、すなわち関連付け又は結合することより、特に主観的に評価/知覚されたデータ、例えば音楽における類似性又は非類似性の特徴抽出と、人間の直観及び/又は人間の感情的知覚との間に現在存在する乖離を[不十分な従来の全く乖離した客観的に評価されたアプローチよりも]改善するように機能的に構成された1つ以上の訓練された人工ニューラルネットワークANNに関連して機能する。
ニューラルネットワーク機能の効果は、デジタル音声、及び/又は画像データ、及び/又は文学作品における感情的に知覚可能又は文書化された非類似性を共に、但し異なるベクトル空間内で表す2つの独立ベクトルを生成することである。意味論的空間内の第1のベクトルは、ソースファイルの人間によって生成された記述に基づき、従って顕著に高いコンテキストの重みを有する。第1のベクトルは、従って、例えばユークリッド空間の第2のベクトルの評価及び修正に用いられるため、ANN内の重みを変えることを通して異なるニューラルネットワークの出力を第1のニューラルネットワークの意味論的結果に収束させることができる。ユークリッドのベクトルは、人工ニューラルネットワークの深層学習中、例えば曲のペア毎の比較のように、元のソースデータから抽出された選択された主観的プロパティからも導出される。
訓練に続いて、収束処理は、最終的に、意味論的及び感情的に知覚可能なコンテンツの類似性を評価するために、任意のデータファイルを他の予め評価されたデータファイルに関して評価できるようにする可変な機能をANN内に設ける。
このように、少なくとも人工ニューラルネットワークの訓練フェーズ中、共通ソースに対して2つの独立ベクトルが生成される。第1のベクトルは、意味論に基づき、ソースデータ/ファイルの(典型的に)関連メタデータから導出され、第2のベクトルは、ソース/データファイルの主コンテンツ(例えば、ペイロード)から抽出される。これらの2つのベクトルは、第1のベクトルが人間による判断に基づき、第2のベクトルがハード、識別可能且つ絶対測定可能プロパティから抽出され、同一であるべきであるが、同一でなくてもよい。結果的に、感情的/知覚される非類似性又は近さを評価する真に代表的な予測ツールを生成するには、絶対測定可能プロパティの処理が最終的に人間による判断、すなわち意味論的特性の処理と同一の結果につながることが必要である。真の感情的知覚を反映するために、人間による判断に関する評価は、より重要度が高く、共に共通ソースから得られる識別可能且つ測定可能な有形プロパティの絶対評価を上回る。識別可能且つ測定可能な有形プロパティを処理する人工ニューラルネットワークにおいて適用された重み及びバイアス値に変化を強いることで、人間の知能、判断及び知覚による推理が反映されるように現実により近づけることができる。
1.意味論的空間内におけるコンテキスト説明の類似性/非類似性評価
ファイルの性質の初期の意味論的記述、例えば文中にコンテキストを含むコンテキストの記述及び特定の単語の使用は、最初に、例えば自然言語処理「NLP」技術等を用いて多次元意味論的ベクトルに変換されるか又は「埋め込まれる」。コンテキストに沿って書かれた記述は、主観、知覚及び/又は感情に基づく人間による判断の尺度となる。
(例えば)Google(登録商標)のユニバーサルセンテンスエンコーダがサポートするNLP及び特にTensorflow(商標)ハブは、テキスト分類、意味論的類似性、クラスタリング及び他の自然言語処理タスクに使用可能な高次元ベクトルにテキストを符号化する。現実的には、2つの意味論的に類似した記述のNLP処理は、類似したベクトル表現を生成する。
異なる注釈者からのテキスト形式の記述に幾分の差違が有り得るが、実行される処理の性質を考慮すれば、これらは、統計的に有意と考えられない。
テキスト及びベクトル表現の変換処理の選択は、設計上の選択肢であり、例えば、Tensorflow(商標)を用いる処理は、トランスフォーマエンコーダ又は代わりに深層平均化ネットワーク(DAN)による訓練に基づき得る。意味論的空間内で関連付けられたベクトルは、全体的な訓練の観点から技術的に重要である。
意味論的ベクトル化処理は、意味論的プロパティを有する絵画又は映画の形式の画像データ及び数値表現に変換可能な対応する美的記述子等、他の形式の媒体データに適用できる。
訓練シーケンス中、NLPから導出された多次元ベクトルは、ペア毎に他のNLPから導出されたベクトルと比較されて、意味論的ベクトル空間におけるペア毎の意味論的近さの分離距離表現を識別する。これは、最初に、ペア毎の近さのユーザー主体の知覚を確立する。この意味において、用語「意味論的」及び「意味論的空間」等の使用は、任意の対応するベクトル又は値の起源が、ファイル、例えば音声トラックのコンテンツの人間の知覚的又は感情的(すなわち意味論的)特性の主観的に用意された記述から生じることを反映することが認識されるであろう。
NPLの好適な使用は、テキスト形式の記述子と、意味論的空間内のベクトル値との初期マッピングを提供する。同じ原理は、他の媒体、例えば映像、映画、絵画、衣類及び装飾の例示的な意味でのファッション(プロパティは、色及びパターン及びカバー等のテクスチュアである)だけでなく、画像を含む医療記録の分類にも適用可能であろう。
音楽学の観点からコンテキストを提供するために、リムスキーコルサコフの「熊蜂の飛行」を第1の音声訓練トラックとして取り上げるが、この音声トラックは、2つの単語「騒がしい」及び「軽い」の次元で記述することができ、NLPは、1004512112のベクトル表現を、これらの2つのNLPによって解決された用語のみを含むトラックに紐付ける。当然のことながら、言語次元の数は、2より多いことができるため、音声トラックの記述を、例えば、(i)夕暮れ、復活祭、曇り等の時間的事象、及び/又は(ii)感情、及び/又は(iii)主題、例えば寓話若しくは事実、及び/又は(iv)環境等と共に生じる他の意味論的関連付けを含めるように拡張できる。
ベクトル「1004512112」は、単に任意の例として提供され、実際には、特に単語/文次元の数は、音声トラックの記述的な文から導出することができる意味論的関連付けのみによって制限されるため、生成される多次元ベクトルは、全く異なる形式を取り得る。
この処理は、例えば、典型的には数千及び好適には少なくとも約1万以上の非常に多くの独立サンプルについて繰り返されて、コンテキストの例を提供するために用いられる音声トラック探索アプリケーションの多次元マトリクスを組み立てる。従って、上述の「熊蜂の飛行」及び例えばデルタヘビーによる電子楽曲「ホワイトフラッグ」又はグリーンデイが演奏する「ブールヴァードオブブロークンドリームズ」等、全ての訓練トラック間の意味論的類似性/非類似性が確立される。しかし、訓練集合のサイズは、処理能力、時間及び所望のレベルの達成可能な信頼性/正確さに応じた設計上の選択肢である。全てのペアを評価するのではなく、ペア毎の距離測度の極端な変化を選択してANNを訓練することも選択肢である。
結果的に得られる意味論的第1のベクトルは、好適な実施形態において、64の別々の次元成分(但し、正確な数は、実装上の選択及び所望の正確さを反映する)の少なくとも倍数から組み立てられる。Tensorflow(商標)ユニバーサルセンテンスエンコーダを用いる場合、意味論的記述の処理によって(意味論的空間内で)512次元のベクトルが生じる。結果的に、正確な意味論的ベクトル長は、設計上の選択肢であり、変化し得る。
意味論的ベクトルと、(以下により詳細に記述する)プロパティベクトルとが同じサイズであるか否かは、非類似性がペア毎に評価されるとシステムが見なすため、重要ではない。
2.抽出されたプロパティに基づく距離評価
(直前に概説し、以下の第3章で詳述するペア毎の意味論的近さに用いるファイルの意味論的記述とは対照的に)導出された「プロパティ」に基づいて第2の訓練処理で第2の独立ベクトルを生成する際、ニューラルネットワークの層内のノードに適用される重み付け係数は、バックプロパゲーションによって変化して、プロパティ距離空間(典型的にはユークリッド)内の結果を、(典型的にはユークリッド)意味論的分離距離(意味論的空間内の)の結果、従って本質的に元の意味論的記述に戻るように収束させる。
先に示したように、第1及び第2のベクトルのベクトル空間は、共通のソース及び1つのファイル由来であるにも関わらず、処理対象である入力データの入力特性が異なるという意味で異なる。NLPによる主観的記述題材の処理は、従って、意味論的空間(又は意味論的距離空間)内の第1のベクトルを生じるものと考えられるのに対して、識別されたプロパティに関する絶対値の処理から(たとえこれらのプロパティが選択可能な異なる数の信号プロパティとして表され得るとしても)、ANNの出力として「プロパティ空間」内の第2のベクトルが生じる。
好適な実施形態において、容易に理解できる変形形態、すなわち非ユークリッド幾何学ではなく、ユークリッド空間を用いる。
人工ニューラルネットワークは、ソースファイルの測定可能プロパティを操作可能なベクトル表現に変換するように機能する。変換は、第2の独立に生成されたベクトル、すなわち第2のベクトルを生成する。変換は、「特徴抽出」であると考えられる。(音声処理の例示的な場合における)好適な実施形態において、特徴抽出物、Pomepu Fabra University(https://essentia.upf.edu/documentation/streaming_extractor_music.htmlを参照されたい)のMusic Technology Groupによって開発されたEssentia(商標)アプリを用いて実現される。
Essentia(商標)(又はその機能的均等物)は、複数の音声記述子、例えば帯域エネルギー、帯域ヒストグラム及びソーストラックの他の測定可能な音楽プロパティを識別するためのソース音声ファイルの解析のための基盤を提供する既存のライブラリである。Essentia(商標)において、最大で127のこれらの音声記述子が存在する。音声記述子は、それぞれ音声信号の測定可能なパラメータの量子化表現であると考えられる。
音声ファイルの例示的コンテキストに戻り、Essentia(商標)をサポートする処理知能は、均等な分類メカニズムと同様に、ソースファイルからの特徴抽出を行う。部分集合内の音声記述子の適当なものを選択することは、より広範な音楽的態様又は各音声トラックの特性を定義し、例えば(Essentia内の127の音声記述子の可能な全体集合からの)音声記述子ビン1、15、32、33及び108からの測定された量子化表現[名目的]の第1の部分集合をプログラマが組み合わせて「リズム」を定義することができる一方、音声記述子5~21、43、45、50、71~77及び123~127からの測定された量子化表現の部分集合は、「音質」を定義し、第3の異なる部分集合は、調性、すなわちパフォーマンスの調特性を定義することができる。これらの部分集合は、従って、サンプリングされたソース音声トラックの更なる音楽学的意味論的プロパティを提供する。
映像又は画像ファイル等の他の形式のソースファイルについて、代替的な測定可能パラメータがソースファイルから構文解析されて、使用可能な代替的プロパティを定義する。
上述のように、音声及び特に音声プロパティに関連して、音質、リズム、調性及びテクスチュアを用いて楽曲を記述することができる。音質、リズム及び調性のプロパティは、特に重要である。
3.測定可能な音楽的プロパティ
この点に関して、以下が認識されるであろう。「テクスチュア」は、一般に、スペクトルコンテンツの時間的進化に関する時間周波数空間内の2次元のパターンによって反映される。テクスチュアは、従って、周波数領域を時間領域に対してプロットするメルスペクトグラフ又はメルスペクトルに見られる。このようなメルスペクトル内では、進化するテクスチュアは、時間に伴って進化するパターン、例えば(i)高/中周波数範囲で中断された水平スペクトル線、(ii)中及び高周波数範囲全体にわたり伸長する平行な垂直スペクトル線、及び(iii)低~中周波数範囲における上昇又は下降段階を識別することにより、(後述するように)ニューラルネットワークによって学習することができる。テクスチュアは、従って、プロパティ空間内で更に測定可能な尺度の提供を通して、本発明に関連してトラックの類似性/非類似性の評価に利用できる更なる補完的意味論的プロパティを提供する。
「リズム」は、音符の相対的持続期間及び相対的アクセント(https://www.naxos.com/education/glossary.asp?char=P-R#を参照されたい)に従う音符の配列と考えられる。明らかなように、リズムは、以下のように表すことができる(但し、これらに限定されない)。
i)ビート及び音楽的スペクトログラムから計算され、集計値が平均及び分散を反映するビート音量(https://essentia.upf.edu/documentation/reference/std_BeatsLoudness.html、及び
https://essentia.upf.edu/documentation/reference/std_BeatTrackerMultiFeature.htmlを参照されたい)、
ii)毎分ビート「BPM」(https://see essentia.upf.edu/documentation/reference/std_BpmHistogramDescriptors.html、及び
https://essentia.upf.edu/documentation/reference/std_BeatTrackerMultiFeature.htmlを参照されたい)、
iii)信号から計算され、集計値が第1及び第2のピークの高さ及び幅を反映するBPMヒストグラム(https://essentia.upf.edu/documentation/reference/std_BpmHistogramDescriptors.html、及び
https://essentia.upf.edu/documentation/reference/std_BeatTrackerMultiFeature.htmlを参照されたい)、
iv)踊り易さ(https://essentia.upf.edu/documentation/reference/std_Danceability.htmlを参照されたい)、
v)オンセットレート(https://essentia.upf.edu/documentation/reference/std_OnsetRate.htmlを参照されたい)、
vi)ビート及び音楽的スペクトログラムから計算され、6帯域にわたる平均値及び分散によって反映される帯域毎のビート音量(https://essentia.upf.edu/documentation/reference/std_BeatsLoudness.html及びhttps://essentia.upf.edu/documentation/reference/std_BeatTrackerMultiFeature.htmlを参照されたい)。
リズムのプロパティは、Essentiaの観点から6つの測定可能な属性の集合として示唆されるが、実際には、(例えば)特定の音楽学的属性の平均及び分散への言及によって反映されて、7つ以上の測定可能な属性がプロパティに寄与し得ることが認識されるであろう。「リズム」プロパティのために編集された多次元ベクトルは、従って、示唆されるEssentiaパラメータと異なり、リズムの音楽学的に有用な定義を与える他の測定可能な属性から形成できることが当業者に理解されるであろう。好適な実施形態において、名目的に19の測定可能な属性がリズムの概念に割り当てられるが、他の数の属性を用い得る。
「調性」は、知覚される関係、安定性、魅力及び指向性の階層における音楽作品のピッチ及び/又は和音の配列である。この階層において、最大の安定性を有する単一ピッチ又は3和音をトニックと呼ぶ。調性は、従って、1つのトーン(トニック)が残りのトーンの中心位置となり、残りのトーンがトーンとの関係の観点から定義できる、トーンの集合織化された系統である(例えば、長又は短音階のトーン)。ハーモニーは、知覚的な調性の特性である。
以下で認識されるように、調性は、以下のように表すことができる(但し、これらに限定されない)。
i)スペクトルの調和ピッチクラスプロファイル(HPCP)から計算される和音変化率(https://essentia.upf.edu/documentation/reference/std_ChordsDescriptors.htmlを参照されたい)、
ii)HPCPから計算される和音数レート(https://essentia.upf.edu/documentation/reference/std_ChordsDescriptors.htmlを参照されたい)、
iii)HPCPから計算され、集計値が平均及び分散を反映する和音強度(https://essentia.upf.edu/documentation/reference/std_ChordsDescriptors.htmlを参照されたい)、
iv)HPCPから計算され、集計値が平均及び分散を反映するHCPCエントロピー(https://essentia.upf.edu/documentation/reference/std_HPCP.html、及び
https://essentia.upf.edu/documentation/reference/std_Entropy.htmlを参照されたい、
v)HPCPから計算されるキー強度(https://essentia.upf.edu/documentation/reference/std_KeyExtractor.htmlを参照されたい)、
vi)HPCPから計算されるダイアトニック強度の調律(https://essentia.upf.edu/documentation/reference/std_TuningFrequency.htmlを参照されたい)、
vii)HPCPから計算される平均律偏差の調律(https://essentia.upf.edu/documentation/reference/std_TuningFrequency.htmlを参照されたい)、
viii)HPCPから計算される無調律エネルギー率の調律(https://essentia.upf.edu/documentation/reference/std_TuningFrequency.htmlを参照されたい)、及び
ix)HPCPから計算される和音ヒストグラム(https://essentia.upf.edu/documentation/reference/std_ChordsDescriptors.htmlを参照されたい)。
調性のプロパティは、Essentiaの観点から、10の測定可能な属性の集団として示唆されるが、特定の音楽学的属性の平均及び分散値への言及によって反映されるように、実際には11以上の測定可能な属性がプロパティに寄与し得ることが認識されるであろう。調性プロパティのために編集された多次元ベクトルは、従って、示唆されたEssentiaパラメータと異なり、調性の音楽学的に有用な定義を与える他の測定可能な属性から形成され得ることが当業者に理解されるであろう。好適な実施形態において、名目的に33の測定可能な属性が調性の概念に割り当てられるが、他の数の属性を用い得、これらは、量子化された測度のより大きい又は小さい粒度を適用することによって得られる。例えば、「和音ヒストグラム」は、23次元ベクトルとして実装される。
別の測定可能な属性「和音強度」のEssentiaによる扱いの観点から、これは、移動ウインドウ(フレーム)による音声ファイルを構文解析して、各ウインドウ(フレーム)から値を抽出して数値のシーケンス(フレーム毎に1つの数値)を生成することによって計算される。次いで、シーケンスを用いてその平均及び分散を計算する。従って、好適な実施形態において、測度「和音強度」は、ちょうど2つの数値、すなわち上述のシーケンスの平均及び分散に割り当てられる。本例は、例えば、リズム又は調性等のプロパティを反映するように生成された多次元ベクトルが、ユーザーに受け入れられるプロパティの定義を与えるのに十分なスペクトル情報を含むとしても、識別されたプロパティの評価に用いる測定値が、Essentiaでなされた推奨からどの程度逸脱し得るかを示す。
「音質」は、比較的難解な測度であり、音声のスペクトログラムを介して測定可能な音声の複雑度に現われる。音質は、楽音、音声又はトーンの知覚された音声特性である。音質は、合唱の声及び弦楽器、管楽器及び打楽器等の楽器等、異なる種類の音声生成を区別する。また、同じカテゴリの異なる楽器(例えば、共に木管楽器であるオーボエ及びクラリネット)をリスナーが区別できるようにする。音質の知覚を表す音声の物理的特徴は、音声スペクトル及び信号エンベロープを含み、音質は、音声が同じピッチ及び音量を有したとしても、音声を識別する能力を与える。
以下で認識されるように、音質は、以下のように表すことができる(但し、これに限定されない)。
i)バーク帯域フィルタリングされたスペクトログラムから計算され、識別されたバーク周波数範囲の平均及び分散を集計したバーク帯域頂部(https://essentia.upf.edu/documentation/reference/streaming_Crest.html、及び
https://en.wikipedia.org/wiki/Bark_scale#Bark_scale_critical_bandsを参照されたい)、
ii)バーク帯域フィルタリングされたスペクトログラムから計算され、識別されたバーク周波数範囲の平均及び分散を集計したバーク帯域平坦度db(https://essentia.upf.edu/documentation/reference/std_FlatnessDB.htmlを参照されたい)、
iii)バーク帯域フィルタリングされたスペクトログラムから計算され、識別されたバーク周波数範囲の平均を集計したバーク帯域尖度(https://essentia.upf.edu/documentation/reference/std_DistributionShape.htmlを参照されたい)、
iv)バーク帯域フィルタリングされたスペクトログラムから計算され、識別されたバーク周波数範囲の平均及び分散を集計したバーク帯域歪度(https://essentia.upf.edu/documentation/reference/std_DistributionShape.htmlを参照されたい)、
v)バーク帯域フィルタリングされたスペクトログラムから計算され、識別されたバーク周波数範囲の平均を集計したバーク帯域幅(集計値が平均及び分散を反映する音声信号のスペクトログラムから計算されるスペクトル複雑度を参照されたい)(https://essentia.upf.edu/documentation/reference/std_DistributionShape.htmlを参照されたい)、
vi)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトル不協和音(https://essentia.upf.edu/documentation/reference/std_Dissonance.htmlを参照されたい)、
vii)音声信号のRMSエンベロープから計算される動的複雑度(https://essentia.upf.edu/documentation/reference/std_DynamicComplexity.htmlを参照されたい)、
viii)音声信号のスペクトログラムから計算され、平均を集計した高周波コンテンツ(https://essentia.upf.edu/documentation/reference/std_HFC.htmlを参照されたい)、
ix)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するピッチ顕現性(https://essentia.upf.edu/documentation/reference/std_PitchSalience.htmlを参照されたい)、
x)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトル複雑度(https://essentia.upf.edu/documentation/reference/std_SpectralComplexity.htmlを参照されたい)、
xi)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトルエネルギー高周波(https://essentia.upf.edu/documentation/reference/std_EnergyBand.htmlを参照されたい)、
xii)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトルエネルギー低周波(https://essentia.upf.edu/documentation/reference/std_EnergyBand.htmlを参照されたい)、
xiii)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトルエネルギー中高周波(https://essentia.upf.edu/documentation/reference/std_EnergyBand.htmlを参照されたい)、
xiv)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトルエネルギー中低周波(https://essentia.upf.edu/documentation/reference/std_EnergyBand.htmlを参照されたい)、
xv)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトルエントロピー(https://essentia.upf.edu/documentation/reference/std_Entropy.htmlを参照されたい)、
xvi)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトル束(https://essentia.upf.edu/documentation/reference/streaming_Flux.htmlを参照されたい)、
xvii)音声信号のスペクトログラムから計算され、平均値を集計したスペクトル尖度(https://essentia.upf.edu/documentation/reference/std_DistributionShape.htmlを参照されたい)、
xviii)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトル強ピーク(https://essentia.upf.edu/documentation/reference/std_StrongPeak.htmlを参照されたい)、
xix)音声信号から計算され、平均及び分散を集計したゼロ交差率(https://essentia.upf.edu/documentation/reference/std_ZeroCrossingRate.htmlを参照されたい)、
xx)音声信号のスペクトログラムから計算され、平均を集計したMFCC(https://essentia.upf.edu/documentation/reference/std_MFCC.htmlを参照されたい)、及び
xxi)音声信号から計算され、ピーク及び谷の両方の平均及び分散を集計したスペクトルコントラスト(https://essentia.upf.edu/documentation/reference/std_SpectralContrast.htmlを参照されたい)。
音質のプロパティは、Essentiaの観点から、21の測定可能な属性の集団として示唆されるが、特定の音楽学的属性の平均及び分散値への言及によって反映されるように、実際には22以上の測定可能な属性がプロパティに寄与し得ることが認識されるであろう。「音質」プロパティのために編集された多次元ベクトルは、従って、示唆されたEssentiaパラメータと異なり、音質の音楽学的に有用な定義を与える他の測定可能な属性から形成され得ることが当業者に理解されるであろう。好適な実施形態において、名目的に75の測定可能な属性が音質の概念に割り当てられるが、上記の通り且つ音楽学者に理解されるように、他の数の属性を用い得、これらは、量子化された測度のより大きい粒度を適用することによって得られる。
音声トラック評価及びトラック探索に関連して、調性、リズム及び音質のプロパティは、ソースファイルの主観的特性の測定を客観的に評価できる基礎を与える点で重要である。これらのプロパティは、上述のように、Essentia(商標)属性若しくはこれらのEssentia(商標)信号属性の部分集合又は適当な音声記述子を識別する均等なライブラリから導出することができる。実際、以下で認識されるように、本発明は、リズム、調性及び音質のプロパティのために19、33及び75の量子化表現を選択し、これらの一部がEsssentia(商標)ツールボックスと重なるのに対して、他のものは、変型又は異なる信号測度である。結果的に、量子化表現の数は、一定ではなく、評価対象である特定のプロパティの定義にいずれの信号属性が必要とされるかについて音楽学者が考えるところによれば可変である。
上記を前提として、当業者がどのように又は実際に同化処理で用いるのに適したプロパティの定義にいずれの測定可能な属性を選択するかは、設計上の選択肢である。リズムのプロパティは、例えば、Essentia測定のあるものを含めるか又は除外するために確認できるため、ある面では、評価対象のプロパティは、本来、技術的であり、既存の技術的処理によって測定可能であるのに対して、どのようなものが「プロパティ」に該当するかの一貫した定義が欠如することは、意外ではないにしても、技術的に整合しないことが理解されるであろう。むしろ、ファイルのコンテンツのプロパティは、ある程度難解且つ主観的である。しかし、重要であるのは、プロパティ空間内の決定的であるが、主観的に組み立てられた測定可能対象の、独立であるが、完全に関連且つ対応する意味論的空間内の意味論的評価へのマッピングである。
4.人工ニューラルネットワーク(ANN)
本発明の各種の態様及び実施形態の概念に従い、プロパティ空間内でのペア毎の類似性/非類似性は、意味論的空間内の初期の意味論的類似性/非類似性(例えば、表現的且つ主観的言語記述)に逆マッピングされる。これは、並列動作する複数のニューラルネットワークを含み得る多段階処理である。複数の並列ANNの使用によって音楽的モダリティの制御が可能になるが、単一のANNを用いることも可能である。本発明の態様は、抽出されたプロパティを処理して、プロパティ空間内の非類似性を評価するニューラルネットワークの訓練に関する。
図1は、ファイル(特に音声ファイル)の非類似性を評価する好適な処理100及び本発明によって人工ニューラルネットワークを訓練することができる処理のフロー図を示す。図1は、従って、第1章「意味論的空間内におけるコンテキスト説明の類似性/非類似性評価」に関して上記で述べた処理に対応し、且つ拡張するものである。
音声ファイルは、根本的な処理の例として用いられ、なぜなら、音声ファイル、特に音楽ファイルは、個々の人間の知覚から主観的に解釈できるからである。
数百(好適には数千)のソースファイルの訓練集合としてファイルのペアが選択(102)されて、ANN評価を通して意味論的に対比される。第1の経路において、NLPを用いて、人工ニューラルネットワークは、各ファイル、例えばペアの音声トラック毎に関連するテキスト形式のメタデータに含まれる(又は付随する記述としての)意味論的意味のための表現ベクトルを抽出(104)、すなわち生成する/埋め込む処理を実行する。その結果、典型的に、導出された意味論的意味を、評価対象になり得る操作可能な値として表すTensorflow(商標)(など)から512次元ベクトルが生成(106)される。
ANNは、従って、訓練集合内の全てのNファイル間のベクトル形式の分離距離を効果的に表形式し得、ここで、Nは、典型的に、500、一般に数千よりも多いファイルである。サンプル数が増えると処理の複雑度が増大するものの、訓練シーケンスのサンプルが多いほど、粒度及び付随する信頼度が高くなる。要するに、サンプルが多いほどよい。しかし、ANNの訓練選択肢として、この処理は、距離分離が極めて類似又は極めて非類似であることを示すペアの副次選択を行うことができ、すなわち、訓練は、極端な状況に基づき得る。
この時点において、相対的な距離分離を表形式にすることは、絶対距離が分離距離値(例えば、5測定単位、57測定単位又は1013単位)の観点から存在するものの、多次元空間内の類似性/意味論的近さのスケーリングされた値を反映しない点で抽象的である。Nが十分に大きいと仮定すれば、ファイル(トラック)毎に、N個のファイルの少なくとも合理的に特定の数m(正の整数であり、m<<N)が類似又は非類似であることが分かる。
好適な実施形態において、訓練集合内の各ソースファイル、例えば楽曲「A」に対して、意味論的距離ベクトル空間内で任意の数、例えば10の最も近いベクトルが選択される。これにより、密接に意味論的に関連する楽曲のグループ又はクラスタが形成される。統計的に、数千又は恐らく数万のソースファイルの訓練集合内で全体の0.1%を[均等物として]クラスタリングすることは、可能な意味論的近さの観点から統計的に受容可能である。実際、合理的な訓練シーケンス内の楽曲全体に関して、近さとは、約0.05%~約1%の範囲にあると見なすことができるが、パーセンテージ値の増大に伴ってユーザーが知覚する音声非類似性も増大する可能性が高い。
楽曲「A」に対して、システム知能は、「m」(例えば、10且つm≧1)個の最も近い楽曲が、ユーザーが近いと知覚する意味で意味論的に類似すると見なすように構成される。これは、楽曲「A」のベクトルの周辺のm個の楽曲間の距離をゼロに設定し、次いでデータレコード内に記録することによって反映される。m個の最も近いもの以外の全ての楽曲に対して、システム知能は、これらの曲が非類似的、すなわちこれらの他の(m個でない)楽曲がかけ離れているとユーザーが知覚する意味で意味論的に非類似的であると見なすように構成される。結果的に、楽曲「A」に対して非類似的な楽曲が距離1を有するとして識別される。従って、評価された各音声トラックに対して、システムによって検索可能且つアクセス可能なレコードとして2*mペアのレコードが生成及び保存される。mに等しい値を選択することにより、ニューラルネットワークの訓練が(類似性又は非類似性の観点から)一方又は他方の極端値に偏らないことが保証される。
ANNの処理負荷は、以下で理解されるように、殆どの場合、訓練処理のある時点で合理化(114)することができる。具体的には、ANNの最適化された訓練は、類似した値が大量にある場合よりも、極端な場合を用いる訓練を通して実現される。結果的に、任意のペア毎の関連付けに対して、最も遠く離れた及び最も近い分離距離を用いることで、ANNのニューロンに適用される適用重みを改良する時間が短縮される。
上記の第1章「意味論的空間内におけるコンテキスト説明の類似性/非類似性評価」で概説したように、「第1のベクトル」の形式での第1の意味論的基準は、従って、ANN訓練の基準として確立される。
元のソースファイル(例えば、音声トラック)に戻り、査定及び評価のための第2の経路126は、再びN個のファイル(例えば、N個の音声トラック)の全訓練空間にわたる象徴的パターンをペア毎に探索する。特に、上述の第2章「抽出されたプロパティに基づく距離評価」で述べたように、この処理は、ソース(音声)ファイルペアを構文解析して、上述の[音声/音楽の特定の例示的コンテキストにおける]第3章「意味論的プロパティ」で説明したように信号特性の量子化表現のビンを生成することにより、信号属性の特徴抽出130を実行する。信号特性の量子化表現の個々のビンは、次いで、適切に識別及び選択的にグループ分け(132)されて、プロパティ空間内でより絶対的に評価及び操作可能な意味論的/主観的音楽学的プロパティ、すなわちリズム、調性、音質及びテクスチュアを定義することができる。
図2及び図3の処理を参照する。
図2は、好適な実施形態による人工ニューラルネットワークを含むシステムを訓練するシステムアーキテクチャの概略図である。図3は、ソースファイル間のプロパティ類似性及びプロパティ非類似性を識別するために、意味論的ベクトル空間をプロパティベクトル空間と同化するように図2のニューラルネットワークを訓練する好適な処理に関するフロー図である。
ペア毎に、N個のファイルの2つのファイル(例えば、デジタル音声ファイル302、304)がファイルの訓練データベース306から選択されて、システム300による評価及び解釈に供される。システム300は、サーバ又は対話型プロセッサの分散処理システムによってサポートされるより一般的なシステム知能内に実装され得、複数の人工ニューラルネットワークを含む。
上述のように、(音声ファイル処理の例示的な場合のコンテキスト又は画像等の異なる形式のソースファイルであるかによらず、Essentia又はその機能的均等物等の)特徴抽出器301内における各々の選択された音声ファイルの初期処理により、信号特性の量子化表現のビンが生成され、これらのビンは、選択可能にグループ分けされて、異なる意味論的プロパティP、例えば音質「PTi」、調性「PTo」及びリズムPRを数値的に表す複数の出力の各々を定義する。音声トラック毎のこれらの主観的プロパティの数値表現(例えば、PTo2は、トラック2から抽出された調性のプロパティである)は、各プロパティの評価処理における重みを最適化する専用の並列ニューラルネットワークへの入力として共通に適用される。
音声ファイル及びトラック探索システムに例示的に関連して、リズム「NNR」310、調性NNTO312、音質NNTI314及び音楽的テクスチュアNNTX318に対して独立したANNが存在する。
音楽的テクスチュアは、特殊な場合であり、異なる処理フローを必要とする。音楽的テクスチュアについて以下により詳細に記述する。
画像等の他の訓練データの処理及び評価に対してより多い又は少ない並列ANNチェーンが存在し得る。図2に番号4で示すANNチェーンは、独立した処理経路、分岐又は経路、従ってネットワークのサブネットワークと見なすことができる)。数は、意味論的に区別可能なプロパティの数のみに関係する。システムは、実際には、複数パスでデータを処理して、評価に適した合成結果に至る単一のチェーンのみで動作することができる。
リズム「NNR」310のためのANNは、従って、「リズム」プロパティのみの入力表現を受信するが、これは、(好適な実施形態において)19の成分、すなわち19の抽出された信号属性のベクトルから組み立てられる。調性「NNTO」312のためのANNは、従って、「調性」プロパティのみの入力表現を受信するが、これは、(好適な実施形態において)33の成分、すなわち33の抽出された信号属性のベクトルから組み立てられる。音質「NNTI」314のためのANNは、従って、「調性」プロパティのみの入力表現を受信するが、これは、(好適な実施形態において)75の成分、すなわち75の抽出された信号属性のベクトルから組み立てられる。
上述のように、各プロパティの定義は、各ビンの抽出された信号表現の数及び/又は属性の性質の観点から変化し得る。従って、音声ファイルの明示的コンテキスト及びEssentiaの使用において、利用可能な属性信号ビン(例えば、音質のバーク帯域平坦度db及び動的複雑度を含む)の全てを用い得、一部を用いるか、又は上記で言及しなかった他のものを代わりに若しくは別途数を拡張して用いることができる。「プロパティ」の定義は、従って、(ある程度)主観的であるが、この主観性は、プロパティの定義への一貫したアプローチが採用される場合に無関係である。換言すれば、プログラマは、信号属性の所望の測度を識別及び選択することによって主観的プロパティをどのように定義するかを決定することができる。
リズム「NNR」310、調性NNTO312、音質NNTI314及び音楽的テクスチュアNNTX318のためのANNは、従って、これらのプロパティの差違の要因である重み値を判定及び改良し、重み及びバイアスは、訓練集合全体及び各々の訓練可能なパラメータの適当な調整の探索をタスクとするバックプロパゲーションアルゴリズムを含む反復的処理によって改良される。バックプロパゲーションの処理は、当業者に理解されるため、何を整合させるかの意図並びに本明細書に記述するアーキテクチャ及び処理によって実現される目的及び利点を指摘することが重要である。
音楽的テクスチュアの課題も、コンテンツプロパティ尺度(ペア毎の比較によって各トラックの測定可能プロパティのベクトル表現から導出される)を意味論的尺度(ペア毎の比較によって各トラックの意味論的記述のベクトル表現から導出される)に同化させるうえで果たす役割があることが分かっている。
本発明のいくつかの実施形態によって採用されたアプローチは、従って、厳密な機械学習よりも人間の感情的知覚が重要であることを強調するため、ANNの動作に際して絶対的数値データの解釈に基づく統計的マッピングよりも人間の知覚に重点を置く。
図4を簡単に参照すると、音声トラックの典型的なメルスペクトル500が示されている。以下で理解されるように、メルスペクトグラフ(メルスペクトルとしても知られるか又は言及される)は、人間の聴覚系の解像度に概ね類似する疑似対数間隔であり、従って音楽的なより「生物学的に影響された」知覚測度である。メルスペクトルは、周波数の非線形メルスケールで示す対数パワースペクトルの線形余弦変換に基づく、周波数スペクトル全体にわたる音声の短期パワースペクトルの表現である。メルスペクトルにおいて、(名目的に)50Hz~100Hzの周波数ビンにおけるパワースペクトルを考慮することは、より高い周波数でより広い周波数範囲、例えば400Hz~800Hzだけでなく、10kHz~20kHzにわたるパワースペクトルを考慮することと同等であろう。どのようにメルスペクトルが生成されるかの処理は、これらの周波数ビンが音楽的解釈の観点から知覚的に等しく重要であるために公知である。
更に、断片毎に変化し、従ってメルスペクトルに影響を及ぼし得る音楽的主題を音声トラックが有し得ることに留意しながら、好適な実施形態を説明するために、音声、従って抜粋されたウインドウ内での主題は、比較的一定であると仮定される。当然のことながら、代わりに、クイーンの「ボヘミアンラプソディ」等の音声トラックを、それぞれ意味論的空間内の離散的評価処理に供される断片に分割し得る。
メルスペクトルは、単に部分的サンプルであるだけでなく、時間領域及び周波数領域の両方に次元を有する点で複雑な性質も有する。時間領域及び周波数領域成分の結果的に得られる2次元マトリクス内において、注目するパターンの隔離によって主題を識別することができる。このような注目するパターンは、時間(横座標)に対して周波数(縦座標)をプロットしたスペクトル成分に見ることができる。すなわち、i)中高周波数範囲全体にわたり伸長する平行な垂直線502、ii)中高周波数範囲で中断された水平線504、iii)低中周波数範囲で上昇(506)又は下降(508)する段階。他のパターンも、以下で理解されるように、これらの発見可能事象を有するメルスペクトルと共に存在する。
プロパティテクスチュアは、従って、メルスペクトルの解析及び特に図2のシステム300の訓練で用いるプロパティ空間内の追加的なベクトル成分を提供するANNによるパターン及び傾向の識別から導出することができる。
テクスチュアへの寄与を含む、各ANNからの出力は、次いで、訓練シーケンス/訓練データ集合で用いられたトラック毎に、各トラックのプロパティ毎に複数の出力ORx、OTOx、OTIx及びOTXx(xは、関連するトラック番号、すなわちトラック1又はトラック2を表す)から連結又は他の方法で組み立てられた多次元出力ベクトルにプロパティ空間内の出力として組み立てられる。各出力ベクトルの厳密な長さは、ある程度の設計上の自由度を有し、その長さは、プロパティ空間内での客観的な評価及び区別が可能な程度に十分であるように選択される点に留意されたい。好適な実施形態において、各々の本質的に並列処理された各ANNチェーンからの出力は、リズム、調性、音質及びテクスチュア(後者は、以下に述べるように異なる処理を要する)のプロパティ毎に64次元の出力ベクトルORx、OTOx、OTIx及びOTXxに寄与する。
再び図2を参照すると、選択されたファイルのペア(この例示的な場合にはデジタル音声トラック)302、304の各々に対してメルスペクトル500が生成される。この処理は、当業者によく理解されるであろう。両方のトラックは、最初に畳み込みニューラルネットワーク「CNN」320内で処理されてトラック毎に個々のベクトル出力が得られ、次いでテクスチュア評価のために、割り当てられたANN(NNTx316)によって処理及び解釈される。NNTx316は、従って、リズム、調性及び音質のベクトルを評価及び埋め込む役割を有する他のニューラルネットワークと並列である。NNTx316からのトラック1、2に対する各ベクトル出力OTX1、OTX2は、好適な形式において64次元ベクトルでもあり、これらの出力の各々が次いで各トラック(ORx、OTOx、OTIxとラベル付けされた)の他の3つのベクトルと連結又は他の方法で組み立てられて、各トラック1、2に対して256次元ベクトルが生成される。この256次元ベクトルは、再び厳密な長さが上述のように設計上の選択肢であり、上述の「ユークリッド空間内の第2のベクトル」である。
システム知能は、意味論的空間内の距離測度(4つの出力ORx、OTOx、OTIx及びOTXxから組み立てられた各々のトラックのペア毎に組み立てられた合成の第2のベクトル間で生じた)を、プロパティ空間の対応する距離測度と共に評価するように機能する比較器330を含む。システム知能は、従って、2つの空間の間の関連を確立する。システムがベクトル間の距離を比較するように動作する方法の一例として、システム知能は、二乗絶対距離計算を利用することができる。
システム知能は、次いで、第1のベクトル及び第2のベクトルを動作ビューと対比して、第2のベクトルを第1のベクトルの近さの評価に整合させるように機能する。換言すれば、システム知能は、(テキスト形式の評価に基づく)意味論的距離をプロパティ距離と対比する。異なる言い方をすれば、(ソースファイルの人間によって生成された記述に基づく)意味論的空間の第1のベクトルを用いて、プロパティ空間内の(コンテンツの抽出された測定可能プロパティに関連付けられた)第2のベクトルを評価することにより、ANN内の重みを変えることを通して第2のニューラルネットワークの出力を第1のニューラルネットワークの意味論的結果に収束させることができる。その目的は、再結合された連結出力[及び特に訓練トラック間の差違330に関して評価されたユークリッドプロパティベクトル]も0~1のスケールで表すことができ、リズム「NNR」310、調性NNTO312、音質NNTI314及び音楽的テクスチュアNNTX318)のためのANNの各々のニューラルネットワーク重みが調整されて、ユークリッドプロパティ距離測度330が意味論的量子化距離を複製する傾向があり、すなわち好適には複製することである。量子化アプローチにおいて、ハードレベルではなく、他のスケーリングが適用され得る。
特に、リズム「NNR」310、調性NNTO312、音質NNTI314及び音楽的テクスチュアNNTX318の各ANNで適用される重み係数がバックプロパゲーションの既知の処理によって調整されることにより、比較されるペア毎のトラック/ファイル間のユークリッドのプロパティ距離測度330の結果は、意味論的空間内の距離測度に収束し、理想的且つ最終的に高い正確度で相関を示す。以下で理解されるように、バックプロパゲーション処理は、従って、識別可能なファイルプロパティの定義に用いられる客観的に測定可能な信号属性を対比することに基づいて適用された重みを調整することにより、各ニューラルネットワークを訓練する。
第1の経路全体が意味論的空間内で処理され、第2の経路が、主観的に評価されたプロパティの測定可能な特性に基づいて測定されたプロパティ空間に押し込まれた2つの独立経路を評価する効果により、人間による近さ又は非類似性のいずれかの知覚とより密接に整合する感情的に知覚されるシステムが生成される。異なるジャンルの音楽間のトラックを探索することに例示的に関連する効果は、初期調査で異なるトラックの差違が際立っているため、無関係な音楽ジャンルであるように客観的に見えたとしても、これらのトラック間に定量的により多くの且つ定性的により良好な関連付けがなされることである。これは、関連コンテンツを新規又は既存のユーザーに推奨できる改良され且つ信頼性が高い推奨ツールを提供する際のコールドスタート等の問題解決が前進したことを表す。実際、処理及びシステムのアーキテクチャは、意味論的意味の言語から独立した埋め込みを可能にする程度まで感情的に知覚される。これは、例えば、意味論的解釈又は結果に影響を及ぼすことなく、中国語と英語との重ね合わせが可能であることを意味する。
客観的ユークリッド空間内での音声作品の意味論的プロパティの評価の更なる要素として、メルスペクトグラフが畳み込み状のニューラルネットワーク「CNN」を通して処理されて、音楽的「テクスチュア」の、主観的であるが、補完的な概念のベクトル成分表現を生成する。
図5は、メルスペクトル解釈に割り当てられた人工ニューラルネットワーク内の畳み込み及びプーリング層、特に評価対象のトラック内の重要な音楽的パターン及び傾向の識別に必要な深層学習を示す。畳み込み処理は、スペクトル入力マトリクス600の2次元的性質を対象とする。
上述のように、メルスペクトルは、プロパティ空間内でのプロパティの類似性/非類似性評価のための更なる成分の役割を果たすテクスチュアを反映する時間と共に変化するパターンを含む。2次元のメルスペクトログラムにおけるこれらのテクスチャ的傾向を識別するために、畳み込みニューラルネットワーク内のフィルタは、メルスペクトログラムのパターンを識別するために、特に入力マトリクス内のパターン/傾向の識別において高い信頼度を表すフィルタ出力を生成する、これらの各フィルタ内で最適化されたパラメータ値を識別するように訓練される。このように、各フィルタ内のパラメータは、ANNの動作の性質から理解されるように、各フィルタが、望ましい主観的プロパティ、例えば調査対象のトラックのメルスペクトルに含まれるリズム及び/又はメロディのパターンに関連する特定の入力を検出できるように調整される。
この点に関して、テクスチュアのためのANNの処理の連鎖は、連続的な畳み込み層を含む。例えば、層1、3及び5は、それぞれ128、128及び64のニューロンを有すると共に、各フィルタのカーネルサイズ[すなわちフィルタマトリクスの大きさ]が3である畳み込み層として実装され得る。訓練中、スペクトル入力マトリクス600にわたり段階的に[最初に未訓練の、次いで改良されたパラメータの集合を有する]フィルタ602が発展する。フィルタ602を入力データに適用することにより、出力マトリクス604は、重なりマトリクス内の入力値間で肯定的なマッチング結果を与える。例えば、簡単な例として以下の通りである。
Figure 2022528564000002
反復的な段階において、フィルタ内のパラメータの値が次いで変更され、2D入力が再実行されて、新たなフィルタ係数が同じ入力データに対してより良好な又は劣ったマッチング結果をもたらすか否かを判定する。例えば、以下の通りである。
Figure 2022528564000003
2D入力データ内の全ての可能なフィルタ位置を通過することで、肯定的結果の更なる結果マトリクス604が得られ、これは、ANNがマッチングを最大化するためにフィルタ係数/パラメータの最適化を試みることを表す。図5において、結果マトリクスは、0及び1が示す劣悪なマッチング率に比べて値が4であり、フィルタ602との相関が高い、従ってマッチング率が高く、入力データ内に興味深いパターンが識別される可能性が高くなることを示す。
任意のCNNと同様に、フィルタが多いほど、より多くのパターンを識別できるが、代償としてより多くのパラメータ及びより多くの訓練データが必要となる。
好適には、便宜上の理由により、各々の畳み込み後、適当なカーネルサイズ、例えば2×2マトリクス/カーネルを有する最大プーリング層が続く。最大プーリングアプローチの効果を図5の下側に示し、結果マトリクス606が間引かれて、連続的な畳み込みフェーズで処理される新たなより小さい入力マトリクスが生成される。以下で理解されるように、最大プーリングは、出力の1ブロックに注目し、より小さい値は、統計的に後続処理に無関係であるとの仮定に基づいて解析されたブロック内で最大値以外の全ての値を拒否する。図5において、2×2最大プーリングアプローチを先の畳み込み段階からの4×4入力マトリクスに適用することで4つの独立ブロックが得られ、これらのブロックの各々が4つの(結果)値を含む。最大プーリング結果は、従って、得られた最大値のみが保持される第1の2×2最大プーリング済みマトリクス608である。この第1の2×2最大プーリング済みマトリクス608は、次いで、連続的な畳み込み層に入力される。結果的に、最大プーリングは、マトリクスの動作次元を下げて、ANNの異なる(連続的な)層全体にわたり次元を下げる。
最大プーリングアプローチを用いることで、各ニューロンが学習を必要とするパラメータを導入し、入力マトリクスサイズの制約がデータの量を減らす(さもなければパラメータ/重みを計算する際の不適当な粒度及び不正確さを緩和することが必要になる)ため、計算効率が向上する。
CNNは、従って、典型的には最大プーリング層によって分散されたいくつかの畳み込み層を含む。
最後の最大プーリング済み層の出力は、平坦化、すなわち全てのマトリクス列が連結されて、テクスチュア評価、すなわち音楽的テクスチュアNNTX318のための専用ニューラルネットワークへの入力として機能する単一のベクトルを形成する。
特に図6に関連して示すANNの一般的な形式及び動作を議論する前に、CNN230からの平坦化された出力は、好適には最適化された深層学習の修正された線形装置(「ReLU」)活性化関数を有する専用テクスチュアニューラルネットワークNNTX318の256のニューロン隠れ層に入力される(例えば)64次元のベクトルとして適用されることに留意されたい。テクスチュアニューラルネットワークNNTX318は、その出力において、メルスペクトル成分OTX1、OTX2の各々を表す64次元ベクトルを(活性化された一次関数の形式で)提供し、ベクトルOTX1、OTX2は、各々のファイルの評価されたプロパティ、すなわち調性、音質及びリズムを表す他の出力ベクトルと組み立てられる。2つのペアをなすファイルの各々について結果的に得られた256次元ベクトルは、次いで、上記で述べ、且つ図2に示すように、ユークリッド空間内の距離評価の対象となる。
CNNの初期/上部畳み込み層は、メルスペクトル[すなわちCNNの入力]内で注目するこれらのパターンの識別を可能にするために使用可能なパラメータ機能を定義するためにニューラルノード全体にわたり適用されるフィルタ重み付けを識別するように機能する。フィルタマトリクスのパラメータ612~620の値は、従って、代替値の実行可能性を試験して出力を最適化する反復及びバックプロパゲーションによって学習され、最適化は、ソース入力データ及び訓練集合の変化するソース入力全体にわたる連続的なパスを通して実行される。
図6は、図2の各種のANNプロパティ処理チェーン内で用いられる人工ニューラルネットワーク700の表現である。
リズム「NNR」310、調性NNTO312、音質NNTI314及び音楽的テクスチュア(畳み込み処理後の)NNTX318のためのANNの各々は、マルチニューロン入力層又はレベル702に続いて少なくとも同数の個別ニューロン704~718をマルチニューロン入力層又はレベル702として含む少なくとも1つ且つ通常複数(第1~第k)の隠れニューロン層を含む。第kの隠れ層は、出力レベル720を提供し、出力でのニューロンの数は、一般に、先行する第kの隠れレベル内のニューロンの数よりも少ない。
基本ニューロンマッピングの観点から、(例えば、第1の入力層内の)各ニューラルからの出力は、直後の(例えば、第1の隠れ)層内の各ニューラルへの入力として多対多マッピングされる。第kの隠れ層、すなわち各ANNの最後から2番目の層は、出力O1~Omが一次関数になるように複数の入力をその各出力(O1~Om)に多対1マッピングする(https://towardsdatascience.com/activation-functions-neural-networks-1cbd9f8d91d6に記載されるものなど)。
(リズム、調性及び音質の場合に)識別された各々のプロパティについて抽出された各量子化信号表現又はCNN機能からの平坦化された出力(テクスチュアの場合)は、入力層702のニューロンの1つへの入力(i1~in)として与えられる。
一例としてニューロン712を挙げれば、図6(左側の枠で囲まれた表現)では、ニューロンは、複数の重み付け入力wi,1、wi,2、wi,3、wi,rを受信し、総和関数730で合算することが分かる。総和関数は、実際には、一般に各層内の各ニューロンの学習された定数に過ぎない第2のバイアス入力biを含む。処理知能は、重みwi及びバイアスbiを推定し、次いでペア毎のユークリッドプロパティ距離測度330を、特に対応する意味論的空間内のペア毎の目標距離にどのように同化/マッピングするかの影響因子として採用するバックプロパゲーション処理を介して修正する。総和関数730からの出力aiは、非線形活性化関数f(参照番号734)に委ねられる。ニューロンyiの出力は、次の層に伝播される。
ペア毎の音声データ信号の比較の例示的な意味において、入力i1~inは、音質、調性、リズムに関して上記で述べたEssentia機能の集合から導出することができるのに対して、CNNメルスペクトルは、テクスチュア専用の人工ニューラルネットワークNNTXへのニューロン入力を提供する。最後の出力o1~omは、各々の特定プロパティ、例えば音質OTI1及びテクスチュアOTX2のための64次元の埋め込みベクトルを形成する。
図6の好適な実装形態に関して、少なくとも2つの隠れ層が存在する。第1の隠れ層は、512ニューロンを含む。第2の隠れ層は、1024のニューロンを含む。これらの隠れ層の両方の活性化関数は、好適には、https://en.wikipedia.org/wiki/Rectifier_(neural_networks)に記述されるようなReLU機能である。
ここで、図3を詳細に参照すると、図2のシステムが訓練される訓練処理が一般的な観点から開示されている。
音声トラックの全体訓練集合(又はペアの選択された部分集合)から、意味論的及び音楽的プロパティ比較のためのトラックのペアが選択(402)される。両方のトラックは、次いで、プロパティ、例えばリズム等の定義に使用できる測定可能な記述子の複数の集合を識別するために特徴抽出404に供される。テクスチャは、上述のように、メルスペクトルの性質を前提として修正された処理に従う。ペア毎に、プロパティがシステム知能によって共通に処理されてネットワークを訓練して、リズム「NNR」310、調性NNTO312、音質NNTI314及び音楽的テクスチュアNNTX318のための並列人工ニューラルネットワークの各々で適用(406)された重み及びバイアス値を改良する。ANN処理がCNNを含むか否かによらず、複数の並列ニューラルネットワークの各々は、考慮対象のファイルのペア毎に(典型的にユークリッドの)プロパティ空間内において、埋め込みベクトル出力350、352[寄与ベクトルORx、OTOx、OTIx及びOTXxから組み立てられた]に寄与(408)するように動作する。次いで、ベクトル出力350、352間のユークリッドプロパティ距離の評価/判定(410)がファイル毎に行われる。ニューラルネットワークによって計算された判定済みユークリッド距離は、次いで、(図1に関して述べたように)同じファイル間の(意味論的空間内における)意味論的距離とマッピング/対比される。
最初に数十/数百回のペア毎の比較を行う訓練の開始時点での初期重み及びバイアス値ではありそうもないが、プロパティ距離と量子化意味論的距離との間に一般的な数値的対応(416)が存在すると評価(418)された場合、寄与するANNの重み及びバイアスが、合意可能な規則を満たすか否かの判定が行われ得る。これにより、各NNにおける最適化は、ペア毎の評価並びに重み及びバイアスの修正回数が増大し続けるために向上するが、全てのペア毎の比較選択肢を網羅することなく、ANN訓練をショートカットすることができる。
実用的な観点から、システムは、典型的には、訓練集合全体を通してラン又は「エポック」を数回実行するように構成される。訓練を停止できるのは、(a)訓練損失が数回のエポックにわたり改善しない場合、又は(b)(未見データの)検証損失が改善しない場合である。また、訓練損失が改善したが、検証損失が改善しない場合に過剰適合を示すことに留意されたい。
しかし、訓練の開始時点では、恐らく顕著な差違並びに改良されたフィルタ重みwi及びバイアスbiを用いてパラメータ識別の観点からANNの動作を向上させる必要があるであろう。これは、訓練データの集合全体の使用を通してANNの性能を最適化することによって実現される。結果的に、訓練処理は、訓練集合内の全要素をペア毎に評価する経路を繰り返し辿る。これは、判定ブロック414及びそれからの否定的又は肯定的経路によって表される。
連続するファイルについて反復される近い対応(量子化意味論的距離と、ベクトル出力350、352から得られた(典型的に用いられる)プロパティ距離との間の肯定的経路)が存在する場合、(少なくとも評価及び受容可能な程度に)重み及びバイアスの最適化が実現されると仮定することができる。
意味論的及びプロパティ空間の距離測度間に顕著な数の不一致が存在する経路(すなわち否定的結果420)に戻り、フィルタパラメータ及び特に1つ以上のニューラルネットワークに適用された重み及びバイアスを調整する必要がある。この調整の目的は、関連付けられるプロパティ空間内でのベクトル距離非類似性測度、すなわち意味論的空間内で対応する距離非類似性測度間の数値的収束を実現することである。この点に関して、(比較されたトラックが同じ楽曲のカバーバージョンであったとしても)トラックの非類似ペア間で知覚的差違及び絶対的差違が存在するため、プロパティ空間内の値は、意味論的距離空間内の0~1のハード値から常に変化することに留意されたい。各エポック後の損失又は過剰適合を調べることが典型的なアプローチである。
システムの処理知能は、従って、バックプロパゲーションを通して重み及びバイアスを調整(422)して、(数値的な)意味論的及びプロパティ距離間の収束を求める。これらの調整された重みは、次いで、訓練集合内の次のファイルペアの整合性を向上させるために、図2に示すように各種のニューラルネットワークのニューロンに適用される。
ANNの訓練により、ペア毎の比較に基づくトラック非類似性を反映したプロパティ距離空間内の距離値が得られる。結果的に、訓練された場合、プロパティ距離空間内のいかなる距離も意味論的空間内の実際の知覚可能な差違に正確且つ高い信頼性でマッピングされる。ANNのニューロン内での重み及びバイアスの変更は、プロパティ空間を抽象的な意味論的空間にマッピングする変換関数又は機構である。
訓練集合が尽きた場合、ニューラルネットワークが最適化されたことを評価する。これは、判定ブロック414からの肯定経路424によって反映される。
以下で理解されるように、各々の抽出されたプロパティの各処理チェーンは、機械である。音声評価の例示的な場合、4つの機械がリズム、調性、音質及びテクスチュアのために1つずつある。訓練処理を最適化するために、独立機械は、それぞれプロパティ空間内の最終的ベクトル表現350、352に対して独立に分離された寄与を行うことが分かっている。結果的に、意味論的空間内の意味論的評価に関するペア毎の評価に基づく好適なアプローチは、これらのほぼ並列な個別機械の各々の間の重要度の重み付けを採用するものである。換言すれば、訓練処理は、各ANNへの各入力内の(各プロパティに関連付けられた)特定の音声記述子間の相対的重要度を判定する。これは、特定の寄与する抽出された測定可能値のいずれが、(意味論的空間における)所望の人間による主観的評価を反映した最終結果の変更に際して最大の影響を及ぼすかを各機械が学習することを意味する。これを実現するために、システムは、各機械内の2つのトラックを評価するように動作する。各機械は、次いで、特定の機械によって評価される各プロパティの定義に用いられる量子化表現の集合間の類似性又は非類似性を識別するように構成される。機械は、バックプロパゲーション処理におけるそのバイアス及び重み因子の調整に際して、好適な実施形態において、意味論的空間内の特定のペア毎の比較で同時に評価される対応するプロパティとの(プロパティ距離空間内での)非類似性が存在する場合、プロパティ(例えば、リズム)の相対的な重要度をダウンプレイ、すなわち下げるように動作する。換言すれば、識別された非類似性は、意味論的評価とのより良好な整合並びに意味論的空間内で評価されたペア毎の音声トラック間の意味論的差違をもたらすバイアス及び重みの集合の生成に寄与しない。このように、全ての機械にわたり、システム知能は、特定の機械の(両方のトラックの)他のプロパティを暗黙的に重視し、なぜなら、他のプロパティが、意味論的評価との整合に大きく影響を及ぼすと評価され、すなわちリズムベクトル成分ORxが、調性ベクトル成分OTOxよりも人間による音声コンテンツの知覚への寄与が大きいとシステムによって評価され得るからである。実際、この原理を個々の量子化表現まで拡張することで、比較対象のペア毎にトラック内で機械が識別した個々の量子化表現(Essentiaでプロパティ音質に寄与するバーク帯域頂部値等)間の非類似性は、このような個々の量子化表現が、プロパティに基づくベクトルを意味論に基づく値に整合させる際の重要性が低いことを意味する。
結果的に得られるニューラルネットワークの変換関数の正確さが訓練データの堅牢性、特にマトリクスのサイズによって表され、従って1万の音声ファイルが評価され、対応して1万のベクトルが生成され得ることが理解され、顕著に少ない又は顕著に多くのファイルがNLPによって批評されて埋め込みを行うことが認識されるであろう。
ここで、比較のためのライブラリを構築するために、ANNを通して、訓練集合内の各ファイルを非比較的に単純に処理(426)して、トラックのユークリッドベクトルを生成することが必要である。ベクトルは、次いで、ファイル名、例えば楽曲タイトル及びアーティスト又は他の形式の識別子と照合された値としてデータベースに保存(430)することができる。ベクトルは、特定のファイルプロパティに起因し得る異なる成分を含むため、ベクトル自体を構文解析して、特定の識別されたプロパティを検索可能にすることができる。例えば、リズムの共通性が優先的な要件である場合、特定の(好適であるが、例示的な場合に)寄与する64次元出力ORxのソースと基準ファイルとの間に何らかの数値的近さがある場合、リズムの意味論的近さは、決定的である。
換言すれば、リズム「NNR」310、調性NNTO312、音質NNTI314及び音楽的テクスチュアNNTX318のための個々の人工ニューラルネットワークが最適化される場合、(例示的)音声トラックの測定可能プロパティは、最適化された重み及びバイアスが設定された各種のNNを通して音声トラックのサンプル(例えば、楽曲の一部又は全体)を処理することによって生成された多次元ベクトルに高い信頼性で反映される。結果的に、絶対値スケールに基づいて、実際に知覚可能な非類似性又は類似性を、訓練データ集合で使用されなかった新たなトラックを含むトラック毎に評価することができる。この時点において、従って訓練に用いる意味論的距離を無視することができ、なぜなら、近い数値がコンテキストの類似性を正確に表すのに対して、大きい数値的距離は、ユーザー識別可能な非類似性を表す絶対スケールに意味論的空間がマッピングされるからである。
図7は、特に音声ファイルのコンテキストにおける、感情的に知覚されるファイル非類似性の測度の評価に好適な実施形態によって用いられるフロー処理800である。
図2のニューラルネットワークが訓練された場合、音声トラック(又は適当なカテゴリのファイル)が選択(802)される。選択は、典型的には、音楽ライブラリ又はサービスの所有者又は加入者等のユーザーによってなされる。代わりに、選択は、オリジナル作品を含む楽曲又はファイルのアップロードの形式でなされ得る。選択又はアップロードされた「最初の」音声ファイルは、次いで、調性等の識別可能なプロパティの特徴抽出804を行うために処理される。図2のニューラルネットワークは、次いで、最適化された重み及びバイアスを用いて抽出された特徴を処理(806)して、特定のファイルの複数のユーザー識別可能又はユーザー選択可能な、システム測定可能プロパティを表す(ユークリッドプロパティ空間又は他の適当な何らかのプロパティ空間内の)第1のファイルベクトルVFILEを生成(808)する。ファイルベクトルVFILEにより、ファイル識別子及び付随する(それらの他のファイルの)ファイルベクトルの両方によって索引付けられたライブラリ内の第1の音声ファイルを照会(810)することにより、ライブラリに登録されたファイルを第1の音声ファイルとの意味論的類似性の降順にリスト表示(812)することができる。これは、kNN解析を用いて実現又は補足することができる。
図8は、本発明の態様によるファイル類似性/非類似性測度を反映するベクトル表現を含むアクセス可能なデータベース902を含むシステム又はネットワークアーキテクチャ900である。
典型的には、(インターネット等の)ネットワーク902は、サーバ904、ホームコンピュータ906及びスマートフォン908等の機器間で通信を授受可能にする。これらの3種類の機器は、限定的でなく、システム900内での知能の処理及びシステム900の/へのアクセスポイントの両方を表す。サーバ904は、典型的には、特に図2及び6に関して上記で述べた人工ニューラルネットワーク905をサポートする。しかし、システム知能は、クラウドベース又は複数の相互接続されたサーバ間での分散を含めてより分散的であり得る。分かり易さのみを目的として、システム知能を単にサーバ内の1ブロックとして示すが、スマートフォン及びコンピュータ内にも計算能力があることが容易に認識されるであろう。サーバは、他の対話型装置と同様に、例えばウェブベースのアクセスをサポートし、且つ/又はサーバ若しくは他のサービスプロバイダ912が管理するサービスへのユーザーの登録を制御し、且つ/又は通信プロトコルをサポートする一般的な制御ファームウェア及びソフトウェア914を含む。サーバは、例えば、LAN又はWANを介して、サーバに結合されたソースデータベース306をロードされた又はそれから抽出された情報へのアクセスを制限することができる。このアクセスは、コンピュータ906、スマートフォン908等に行われ得る。
ソースデータベースは、実際には、音声ファイルのカタログ等の既存のファイルライブラリであり得る。ソースデータベース内のファイルは、従って、時間経過に伴ってサーバによって抽出及び処理されて、(トラック名及びアーティスト等の)ファイル属性922と、感情的に知覚された意味論的特性に整合するファイルプロパティを表す生成されたユークリッドベクトル測度(VFILE)920との照合を行う。
例えば、スマートフォン上のグラフィックユーザーインターフェース「GUI」のタッチスクリーン等のユーザーインターフェース930を提供することにより、本発明による意味論的に近いプロパティを共有するトラックを検索可能にする検索するツールソフトウェアアプリケーションへのアクセスが可能になる。ソフトウェアは、ローカルであるか、又は別途サーバ904、データベース306若しくは(コンテンツにアクセス可能なソーシャルメディア企業等の)サービスプロバイダとの対話を可能にするウェブブラウザを介してアクセスされ得る。代わりに、ソフトウェアは、ウェブベースのサービスとしてホスティングされ得る。好適には、GUI930は、選択可能なプロパティ又は聴取/検索の嗜好に関する多数の「柔らかい」スライダコントロールをユーザーに提示し、例えば、第1のスライダは、リズムに関するものであり得る。スライダの位置は、従って、ユーザーにより、最終的に埋め込まれたベクトル出力350、352内の個々の寄与する多次元ベクトルORx、OTOx、OTIx及びOTXxに相関する検索パラメータを反映するように変更することができる。従って、GUIでのスライダの設定は、システム内に保存された処理済みトラック920の特定のベクトル態様を対象とする。
特定の構成が互いに排他的でない限り、本明細書に記述する各種の実施形態を組み合わせてシステムの機能性を強化し、且つ/又はユーザー知覚可能な類似性及び非類似性の効果的識別を支援する補完的な機能若しくはシステムを生成することができる。このような組み合わせは、上記の記述全体を前提として当業者に容易に認識されるであろう。同様に、好適な実施形態の態様は、より限られた機能構成が適した独立構成で実装することができる。実際、特定の好適な実施形態の特徴が互いに非互換であると明示的に確認されるか、又は互いに排他的であり、補完的及び/若しくは支援的な意味で容易に組み合わされ得ないことを周囲の状況が示唆しない限り、本開示全体が、これらの補完的実施形態の特定の特徴を選択的に組み合わせて、1つ以上の、包括的であるが、僅かに異なる技術的解決策を提供できることを考慮及び想定することが理解されるであろう。添付図面に示唆する処理フローの観点から、これらの特徴は、全体的な効果又は再順序付けが、次の論理ステップへの前進を可能にする同じ客観的な結果を実現する限り、処理内のステップの正確な実行点の観点から変化する場合がある。フローの処理の性質は、従って、絶対的ではなく、論理的である。
本発明の態様は、ダウンロード可能な形式において又はインスタンス化された場合にはウェブサーバ等でリンク埋め込み機能を実行するプログラムコードを含むCD-ROM等の計算機可読媒体で別途提供され得る。
当然のことながら、上記の記述が例示目的で与えられるものに過ぎず、本発明の範囲内で詳細における変更形態がなされ得ることが認識されるであろう。例えば、ニューラルネットワークを訓練する原理及び意味論的ベクトル空間内のスケーリングされた距離で示す意味論的に評価された特性が、プロパティ空間内の客観的に生成された(典型的にはユークリッド)ベクトルにマッピングされ得る方法は、音声、視覚及び/又は映画、文学及び科学的レポート(傾向解析に照合を必要とする医療レポート)を含む複数の形式の検索可能なデータに適用できる。
このような異なるソースデータのために抽出可能なプロパティは、明るさ、コントラスト、色、強度、形状及び相対サイズだけでなく、これらのプロパティの一部又は全部の相対的な特徴位置及び変化率を含む。このようなファイルには、(テキスト解析の場合)単語の出現頻度又は(センサから導出された)運動関連測度を含む他の測定可能プロパティが存在するため、上記の記述は、プロパティ空間を、意味論的空間に提示するものと対比及び整合することができる[プロパティ空間内の]有意味論的ベクトルでどのように充実させることができるかの非限定的な例として提供される。画像又は映像の場合、ピクセル化された画像全体又は一連のフレームを用いて音楽的「テクスチュア」に対応させることでき、サンプリングされた画像の全てのピクセルが畳み込み処理のための2次元マトリクスを提供する。実際、上記の詳細であるが例示的な実施形態で説明したように、静的画像又は映像から導出され得るプロパティと音楽モダリティとの間にある程度の重なりがあることが認識されるであろう。

Claims (52)

  1. 第1のデータファイル(302)のコンテンツの、異なるデータファイル(304)のコンテンツに対する類似性又は非類似性を識別するように構成されたシステム(300)において、人工ニューラルネットワーク「ANN」(NNR310、NNTO312、NNTI314、NNTX318)を訓練する方法であって、
    異なるデータファイルの選択されたペアについて、前記第1のデータファイル及び前記異なるデータファイルの各々から測定可能信号特性を抽出し、且つ前記測定可能信号特性から複数のプロパティを識別すること、
    プロパティを処理することをタスクとされた前記ANNの出力において、前記選択されたペアの前記第1のデータファイル及び前記異なるデータファイルの各プロパティについて、対応するプロパティベクトル(ORx、OTOx、OTIx及びOTXx)をプロパティ空間内で生成すること、
    前記第1のデータファイルのための第1の多次元ベクトル(350)及び前記異なるデータファイルのための別個の第2の多次元ベクトル(352)を組み立てること、ここで各多次元ベクトルは、前記ANNの出力からのそれぞれのプロパティベクトルを組み立てることから得られる、
    前記第1の多次元ベクトル(350)と前記第2の多次元ベクトル(352)との間の距離測度(330)を判定すること、
    前記判定された距離測度に応じて、プロパティ空間内の前記判定された距離測度と、前記異なるデータファイルに対して前記第1のデータファイルについて意味論的空間内で評価された定量化意味論的非類似性距離測度との間で生じる識別された不一致を考慮するバックプロパゲーション処理により、前記ANN(NNR310、NNTO312、NNTI314、NNTX318)内の重み及び/又はバイアス値を調整し、それにより、前記第1の多次元ベクトル(350)と前記第2の多次元ベクトル(352)との間の前記距離測度(330)によって反映されるプロパティ評価にわたり、前記定量化意味論的非類似性距離測度に反映される意味論的知覚を評価することによって前記システムを訓練すること
    を含む方法。
  2. 意味論的空間内で評価された前記定量化意味論的非類似性距離測度は、前記第1のデータ及び前記異なるデータファイルの各々に関連付けられたテキスト形式の説明のベクトル表現に基づく、請求項1に記載の人工ニューラルネットワークを訓練する方法。
  3. 前記テキスト形式の説明は、前記それぞれのファイルのメタデータに符号化される、請求項2に記載の人工ニューラルネットワークを訓練する方法。
  4. 前記データファイルは、音声を含み、及び前記プロパティは、音楽的プロパティであり、及び前記測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアに関連するプロパティを定義する、請求項1、2または3に記載の人工ニューラルネットワークを訓練する方法。
  5. 前記定量化意味論的非類似性距離測度の評価は、
    自然言語処理「NLP」をテキスト記述に適用して、訓練集合内の複数のN個のデータファイルのための意味論的ベクトルを生成すること、
    前記訓練集合について且つペア毎に、各意味論的ベクトル間の分離距離を計算すること、
    前記訓練集合内の前記ファイルの各々について、前記訓練集合内の他のファイルに対する最小及び最大分離距離を識別すること、
    前記訓練集合内の各ファイルについて、第1のペアが前記最小分離距離を有し、及び第2のペアが前記最大分離距離を有するペアの集合を生成すること、
    意味論的近さを表す第1の値を前記第1のペアに割り当て、且つ意味論的非類似性を表す第2の値を前記第2のペアに割り当てること、ここで前記第2の値は、前記第1の値と異なる、
    を含む、請求項1又は4に記載の人工ニューラルネットワークを訓練する方法。
  6. 前記第1のペアは、前記第1のデータファイル及び前記異なるデータファイルである、請求項5に記載の人工ニューラルネットワークを訓練する方法。
  7. 小さい方からm個の分離距離及び大きい方からm個の分離距離を含む部分集合について、前記第1の値をm番目に小さいものに、且つ前記第2の値をm番目に大きいものに割り当てることを含み、ここで、mは、N未満の正の整数である、請求項5に記載の人工ニューラルネットワークを訓練する方法。
  8. 1つ以上の音声コンテンツ及び画像コンテンツを含むデータファイル間のコンテンツの類似性又は非類似性を識別するように構成された人工ニューラルネットワーク「ANN」(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法であって、
    意味論的空間内における前記データファイルの前記コンテンツの定量化意味論的非類似性測度を、前記コンテンツについて抽出された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離に関連付けること、及び
    測定可能プロパティにわたり、意味論的非類似性測度を評価するように前記システムを訓練し且つ動作させること、
    を含む方法。
  9. 意味論的空間内で評価される前記定量化意味論的非類似性測度は、異なるデータファイルに関連付けられたテキスト形式の説明のベクトル表現に基づく、請求項8に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
  10. テキスト形式の説明は、前記データファイルのメタデータから導出される、請求項9に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
  11. 前記データファイルは、音声ファイルであり、及び前記測定可能プロパティは、リズム、調性、音質及び音楽的テクスチュアに関連するプロパティによって定義される音楽的プロパティである、請求項8、9または10に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
  12. 前記定量化意味論的非類似性測度は、
    自然言語処理「NLP」をテキスト記述に適用して、訓練集合内の複数のN個のデータファイルのための意味論的ベクトルを生成すること、
    前記訓練集合について且つペア毎に、各意味論的ベクトル間の分離距離を計算すること、
    前記訓練集合内の前記ファイルの各々について、前記訓練集合内の他のファイルに対する最小及び最大分離距離を識別すること、
    前記訓練集合内の各ファイルについて、第1のペアが前記最小分離距離を有し、及び第2のペアが前記最大分離距離を有するペアの集合を生成すること、
    意味論的近さを表す第1の値を前記第1のペアに割り当て、且つ意味論的非類似性を表す第2の値を前記第2のペアに割り当てること、ここで前記第2の値は、前記第1の値と異なる、
    によって得られる、請求項8~11のいずれか一項に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
  13. 前記第1のペアは、前記第1のデータファイル及び前記異なるデータファイルである、請求項12に記載の人工ニューラルネットワークを訓練する方法。
  14. 小さい方からm個の分離距離及び大きい方からm個の分離距離を含む部分集合について、前記第1の値をm番目に小さいものに、且つ前記第2の値をm番目に大きいものに割り当てることを含み、ここで、mは、N未満の正の整数である、請求項12に記載の人工ニューラルネットワークを訓練する方法。
  15. 先行する請求項のいずれかに記載の方法に従って非類似性が評価された個々のファイルの識別を可能にするファイル識別子をデータベースに保存すること、及び
    保存されたファイル識別子に対して、前記データベース内の他の識別されたファイルとの距離関係及び前記個々のファイルのための計算されたプロパティベクトルの少なくとも1つを記録すること、
    を更に含む、請求項8~14のいずれか一項に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
  16. 前記データベースは、ネットワークアクセス可能なデータベースである、請求項15に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
  17. 前記データベースは、ユーザー機器にローカルである、請求項15に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
  18. 複数の処理分岐を有する前記ニューラルネットワークの訓練中、プロパティ空間内のそれぞれのプロパティベクトルを生成するために、ファイルの異なるプロパティを処理するために割り当てられた異なる処理分岐を区別することを更に含み、
    前記区別することは、
    ペア毎の比較を受けるペア毎に対比されるファイルについて、それぞれのプロパティベクトルの相対的な類似性及び非類似性を識別すること、及び
    最大の非類似性が前記ペア毎の比較の生成されたプロパティベクトルに見られる特定の処理分岐内のバイアス値及び重みの少なくとも1つの調整を促進すること、
    を含む、請求項8~17のいずれか一項に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
  19. 前記ペア毎の比較におけるプロパティが、相対的に非類似よりも、相対的に類似すると評価される場合、相対的により大きい重要度は、前記複数の処理分岐の特定の処理分岐に割り当てられる、請求項18に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
  20. 前記定量化意味論的非類似性距離測度は、前記ファイルの関連する記述的コンテンツの自然言語処理から得られる、請求項8~19のいずれか一項に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
  21. 前記記述的コンテンツは、前記ファイルのメタデータに含まれる、請求項20に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
  22. 前記データファイルは、音声を含み、及び前記プロパティは、音楽的プロパティであり、及び測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示す測定可能プロパティである、請求項8~21のいずれか一項に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
  23. 共通のユーザー知覚可能な特性を共有するファイルを識別する方法であって、
    関連付けられたプロパティベクトルを有する複数の一意に識別されたファイルを含むファイルライブラリにおける保存されたファイルへの近さについて対象ファイルを評価することを含み、
    ニューラルネットワークにおいて、前記対象ファイルを処理して、プロパティ空間内の多次元プロパティベクトル(350、352)を生成すること、ここで前記多次元プロパティベクトル(350、352)は、前記対象ファイルから選択的に抽出された測定可能信号特性の複数の異なる集合から導出された複数のプロパティベクトル(ORx、OTOx、OTIx及びOTXx)から構成され、前記複数のプロパティベクトル(350、352)は、それぞれニューラルネットワークによって意味論的非類似性の測度に重み付けされる、及び
    前記対象ファイルの前記多次元プロパティベクトル(350、352)と、前記ライブラリ内のファイルの前記プロパティベクトルとの間の近さに基づいて、前記ライブラリからファイルの順序付けられたリストを生成すること
    を含む方法。
  24. ニューラルネットワークを使用して、意味論的に近いデータファイルを識別する方法であって、
    意味論的に近いファイルの前記識別において、定量化意味論的非類似性距離測度に反映される意味論的知覚を、抽出された測定可能信号特性の距離測度(330)によって反映されるプロパティ評価よりも重要であると前記ニューラルネットワークにおいて評価すること
    を含む方法。
  25. プロセッサ知能によって実行されると、請求項1~24のいずれか一項に記載の方法を実行するコードを含む、コンピュータプログラム。
  26. 人工ニューラルネットワーク「ANN」(NNR310、NNTO312、NNTI314、NNTX318)であって、少なくとも1つの音声コンテンツ及び画像コンテンツの形式で前記ANNに提示されるコンテンツに対して、バックプロパゲーションによって構成可能に選択された重み及びバイアスを適用するように配置された相互接続されたニューロンの層を含み、
    意味論的空間内における前記コンテンツの定量化意味論的非類似性測度を、前記コンテンツについて抽出された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離と相関させて、プロパティ空間内の結果を意味論的空間内の結果に整合させるように経時的に適合される出力を提供し、前記重み及びバイアスの適合中、測定可能プロパティにわたって意味論的非類似性測度を評価するように構成される、人工ニューラルネットワーク「ANN」(NNR310、NNTO312、NNTI314、NNTX318)。
  27. 人工ニューラルネットワーク「ANN」(NNR310、NNTO312、NNTI314、NNTX318)であって、相互接続されたニューロンの層であって、少なくとも1つの音声コンテンツ及び画像コンテンツの形式で前記ANNに提示されるコンテンツに対して、意味論的空間内における前記コンテンツの定量化意味論的非類似性測度を、前記コンテンツについて抽出され、且つ前記ANNの前記ニューロンによって処理された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離と相関させるようにバックプロパゲーションによって選択的に構成される重み及びバイアスを適用するように配置された相互接続されたニューロンの層を含み、それにより、前記重み及びバイアスのその適用において、測定可能プロパティにわたって意味論的非類似性測度を評価するように構成される、人工ニューラルネットワーク「ANN」(NNR310、NNTO312、NNTI314、NNTX318)。
  28. ニューロンの出力層に結合されたニューロンの入力層を含む人工ニューラルネットワーク「ANN」(NNR310、NNTO312、NNTI314、NNTX318)であって、前記ニューロンは、重み及びバイアスを、それによって受信されたデータに適用するように配置され、
    前記ANNは、
    プロパティ空間内の前記ANNの出力の整合性を、意味論的空間内の基準比較用記述的コンテンツについて事前に測定された基準意味論的非類似性測度と相関させるために、ニューロンのための重み及びバイアスを生成するように構成され、
    前記プロパティ空間は、入力に適用されるファイルの音声及び/又は画像コンテンツから抽出された測定可能プロパティを前記ANNによって処理することによって決定される、人工ニューラルネットワーク「ANN」(NNR310、NNTO312、NNTI314、NNTX318)。
  29. 前記入力層は、少なくとも1つの隠れ層によって前記出力層から分離される、請求項28に記載のANN。
  30. 前記データファイルは、音声を含み、及び前記プロパティは、音楽的プロパティであり、及び測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示す測定可能プロパティである、請求項26~29のいずれか一項に記載のANN。
  31. a)複数のプロパティベクトルを提供するように配置された複数の人工ニューラルネットワーク出力であって、前記プロパティベクトルは、第1のデータファイルのコンテンツからの抽出された測定可能信号特性である、複数の人工ニューラルネットワーク出力と、
    b)更なるプロパティベクトルを提供するように配置された少なくとも1つの畳み込みニューラルネットワークであって、前記更なるプロパティベクトルは、前記第1のデータファイルの前記コンテンツの2次元表現から導出される、少なくとも1つの畳み込みニューラルネットワークと、
    c)それぞれ基準ベクトルを有する複数の一意に識別可能なデータファイルを含むデータベースであって、各基準ベクトルは、(a)そのデータファイルのコンテンツから得られた抽出された測定可能信号特性、及び(b)そのデータファイルの前記コンテンツの2次元表現から得られた更なるプロパティベクトルから得られたプロパティベクトルから組み立てられる、データベースと、
    d)処理知能であって、
    前記第1のデータファイルについて、前記複数のプロパティベクトル及び前記更なるプロパティベクトルから多次元プロパティベクトル(350、352)を生成することと、
    前記多次元プロパティベクトル(350、352)を前記データベース内の前記複数の基準ベクトルと比較することと、
    前記第1のファイルの前記多次元プロパティベクトル(350、352)のものと測定可能に類似すると識別された基準ベクトルを有する少なくとも1つの一意のファイル識別子を識別し、それにより、前記第1のデータファイルに意味論的に近い、前記データベース内の異なる第2のデータファイルを識別することと
    を行うように構成された処理知能と
    を含むシステム(300)。
  32. 前記複数のプロパティベクトル(350、352)は、それぞれニューラルネットワークによって重み付けされて、意味論的非類似性を反映する、請求項31に記載のシステム。
  33. ネットワーク接続及び通信ユニットを更に含み、前記処理知能は、前記通信ユニットに、前記ネットワーク接続にわたって前記異なる第2のデータファイルを対話型ユーザー機器に送信させる、請求項31又は32に記載のシステム。
  34. 前記データファイルは、音声を含み、及びプロパティは、音楽的プロパティであり、及び前記測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示す測定可能プロパティである、請求項31~33のいずれか一項に記載のシステム。
  35. 検索についてユーザーが優先する特性を選択するように構成されたユーザーインターフェースを含む、請求項31~34のいずれか一項に記載のシステム。
  36. a)データファイルのための複数のプロパティベクトルを提供するように配置された複数の人工ニューラルネットワーク出力であって、前記プロパティベクトルは、前記データファイルのコンテンツからの抽出された測定可能信号特性である、複数の人工ニューラルネットワーク出力と、
    b)多次元プロパティベクトル(350、352)を生成するために、複数のプロパティベクトルで組み立てられる更なるベクトルを提供するように配置された少なくとも1つの畳み込みニューラルネットワークと、
    c)前記第1のデータファイル及び異なるデータファイルを含むデータファイルのペアについて、第1及び第2の異なる多次元プロパティベクトルを受信し、且つそれに応じて、前記第1及び第2の異なる多次元プロパティベクトル間の距離測度を生成するように配置された処理知能と、
    d)プロパティ空間内における前記距離測度が、意味論的空間内における前記第1及び第2のベクトルについて生成された基準距離と相関するか否かを解決するように構成された処理知能であって、前記基準距離は、前記データファイルのペアの基準比較用記述的コンテンツの意味論的非類似性測度に基づく、処理知能と
    を含むシステム(300)。
  37. 前記処理知能は、意味論的空間内における前記コンテンツの定量化意味論的非類似性測度を、前記コンテンツについて抽出された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離に関連付ける、請求項36に記載のシステム。
  38. 人間によって知覚された特性を表す独立ベクトル及び電子ソースファイルの測定可能な特性の複数のペアを生成することによって訓練される予測システムであって、
    第1のベクトルは、意味論的空間内において、且つソースファイルのペア間の、人間によって生成された記述における測定された非類似性に基づいて、前記第1のベクトルがペア毎の近さのユーザー主体の知覚を提供するように生成され、及び
    各ペアの第2のベクトルは、ソースファイルの同じペアのコンテンツから抽出された測定可能プロパティのペア毎の比較から得られ、及び
    前記予測システムは、前記第1のベクトルのペア毎の距離が前記第2のベクトルのペア毎の距離に近づくように、前記第2のベクトルの生成処理を適合させるように配置された処理知能を含む、予測システム。
  39. 前記電子ソースファイルは、
    デジタル音声、
    画像データ、及び
    コンテキストを有する文献データ
    の少なくとも1つ含む、請求項38に記載の予測システム。
  40. 前記電子ソースファイルは、音声を含み、及び前記プロパティは、音楽的プロパティであり、及び前記測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示す測定可能プロパティである、請求項38又は39に記載の予測システム。
  41. デジタル音声ファイル(302、304)であって、前記デジタル音声ファイルの信号特性の量子化表現(PRx、PTox、PTix、PTxx)の複数の集合から導出された音楽的プロパティにそれぞれ関連する複数の組み立てられたプロパティベクトル成分(ORx、OTOx、OTIx及びOTXx)を含む多次元プロパティベクトル(350、352)を埋め込まれたデジタル音声ファイル(302、304)。
  42. 前記埋め込まれた多次元ベクトルは、リズム、調性、音質及び音楽的テクスチュアを示す測定可能信号特性によって定義される音楽的プロパティと相関されたベクトルである、請求項41に記載のデジタル音声ファイル。
  43. 前記組み立てられたベクトル成分(ORx、OTOx、OTIx及びOTXx)の各々は、意味論的距離分離空間内の基準ベクトルに対して評価される前記音楽的プロパティのベクトル非類似性空間内における測度を反映する、請求項41又は42に記載のデジタル音声ファイル。
  44. デジタル画像ファイル(302、304)であって、前記デジタル画像ファイルの信号特性の量子化表現(PRx、PTox、PTix)の複数の集合から導出された視覚的プロパティにそれぞれ関連する複数の組み立てられたプロパティベクトル成分(ORx、OTOx、OTIx及びOTXx)を含む多次元プロパティベクトル(350、352)を埋め込まれたデジタル画像ファイル(302、304)。
  45. デジタルファイル(302、304)であって、前記デジタルファイルの特性の知覚を明瞭に表現する、コンテキストを有するプロパティの共通性又は非類似性を表す多次元プロパティベクトルを埋め込まれ、
    ニューラルネットワークにおいて、対象ファイルを処理して、プロパティ空間内における多次元プロパティベクトル(350、352)を生成する処理であって、前記多次元プロパティベクトル(350、352)は、前記対象ファイルから選択的に抽出された測定可能信号特性の複数の異なる集合から導出された複数のプロパティベクトル(ORx、OTOx、OTIx及びOTXx)から構成され、前記複数のプロパティベクトル(350、352)は、それぞれ前記ニューラルネットワークによって意味論的非類似性の測度に整合するように重み付けされる、処理
    によって生成される、デジタルファイル(302、304)。
  46. 音楽又は画像データにおけるそれである、請求項45に記載のデジタルファイル(302、304)。
  47. 類似性又は非類似性値を評価する処理は、定量化意味論的非類似性距離測度に反映される意味論的知覚を、抽出された測定可能信号特性の距離測度(330)によって反映されるプロパティ評価よりも重要であると評価する、請求項45又は46に記載のデジタルファイル(302、304)。
  48. デジタルファイル(302、304)であって、前記デジタルファイルの人間によって知覚された特性を反映する、コンテキストを有するプロパティの共通性又は非類似性を表す多次元プロパティベクトルを埋め込まれ、人間によって知覚された特性及び電子ソースファイルの測定可能な量を表す独立ベクトルの複数のペアを生成することによって訓練される処理から生成され、
    前記複数のペアを生成する前記処理は、
    第1のベクトルを、意味論的空間内において、ソースファイルのペア間の、人間によって生成された記述における測定された非類似性に基づいて、前記第1のベクトルがペア毎の近さのユーザー主体の知覚を提供するように生成すること、
    ソースファイルの同じペアのコンテンツから抽出された測定可能プロパティのペア毎の比較から第2のベクトルを生成すること、及び
    前記第1のベクトルのペア毎の距離が前記第2のベクトルのペア毎の距離に近づくように、前記第2のベクトルが生成される処理を適合させること、
    を更に含む、デジタルファイル(302、304)。
  49. 前記デジタルファイルを得るために処理されるソースファイルは、
    デジタル音声、
    画像データ、及び
    コンテキストを有する文献データ
    の少なくとも1つを含む、請求項48に記載のデジタルファイル(302、304)。
  50. 前記ソースファイルは、音声を含み、及び前記プロパティは、音楽的プロパティであり、及び前記測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示す測定可能プロパティである、請求項48又は49に記載のデジタルファイル(302、304)。
  51. 関連する記述的コンテンツの自然言語処理から定量化意味論的非類似性距離測度が得られる処理から得られる、請求項8、9又は10に記載のデジタルファイル(302、304)。
  52. 請求項41~43若しくは45~51のいずれか一項に記載の複数のデジタル音声ファイル又は請求項44に記載の複数のデジタル画像ファイルを含むデータベース。
JP2021560426A 2019-04-03 2020-04-01 感情的知覚を反映するようにニューラルネットワークを訓練する方法、関連付けられたコンテンツと、多次元プロパティベクトルを埋め込まれた関連するデジタル媒体ファイルとを分類及び発見するための関連するシステム及び方法 Pending JP2022528564A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
GB1904716.6A GB2583696A (en) 2019-04-03 2019-04-03 System for categoring and finding associated content and embedded vector therefor
GB1904713.3 2019-04-03
GB1904716.6 2019-04-03
GB1904713.3A GB2583455A (en) 2019-04-03 2019-04-03 Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
GB1904719.0 2019-04-03
GB1904719.0A GB2584598B (en) 2019-04-03 2019-04-03 Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
PCT/GB2020/050865 WO2020201746A1 (en) 2019-04-03 2020-04-01 Method of training a neural network to reflect emotional perception, related system and method for categorizing and finding associated content and related digital media file embedded with a multi-dimensional property vector

Publications (2)

Publication Number Publication Date
JP2022528564A true JP2022528564A (ja) 2022-06-14
JPWO2020201746A5 JPWO2020201746A5 (ja) 2023-04-10

Family

ID=70285718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021560426A Pending JP2022528564A (ja) 2019-04-03 2020-04-01 感情的知覚を反映するようにニューラルネットワークを訓練する方法、関連付けられたコンテンツと、多次元プロパティベクトルを埋め込まれた関連するデジタル媒体ファイルとを分類及び発見するための関連するシステム及び方法

Country Status (10)

Country Link
US (6) US11080601B2 (ja)
EP (1) EP3931721A1 (ja)
JP (1) JP2022528564A (ja)
KR (1) KR20220002939A (ja)
AU (1) AU2020251747A1 (ja)
BR (1) BR112021019764A2 (ja)
CA (1) CA3135936A1 (ja)
MX (1) MX2021012091A (ja)
TW (1) TW202101431A (ja)
WO (1) WO2020201746A1 (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2571340A (en) * 2018-02-26 2019-08-28 Ai Music Ltd Method of combining audio signals
US11080601B2 (en) 2019-04-03 2021-08-03 Mashtraxx Limited Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
US11049481B1 (en) * 2019-11-27 2021-06-29 Amazon Technologies, Inc. Music generation system
US11468294B2 (en) 2020-02-21 2022-10-11 Adobe Inc. Projecting images to a generative model based on gradient-free latent vector determination
US11322133B2 (en) * 2020-07-21 2022-05-03 Adobe Inc. Expressive text-to-speech utilizing contextual word-level style tokens
GB2599441B (en) * 2020-10-02 2024-02-28 Emotional Perception Ai Ltd System and method for recommending semantically relevant content
US11567812B2 (en) 2020-10-07 2023-01-31 Dropbox, Inc. Utilizing a natural language model to determine a predicted activity event based on a series of sequential tokens
CN112446432B (zh) * 2020-11-30 2023-06-30 西安电子科技大学 基于量子自学习自训练网络的手写体图片分类方法
US11315589B1 (en) * 2020-12-07 2022-04-26 Victoria Balthazor Deep-learning spectral analysis system
US11568018B2 (en) 2020-12-22 2023-01-31 Dropbox, Inc. Utilizing machine-learning models to generate identifier embeddings and determine digital connections between digital content items
US20220208217A1 (en) * 2020-12-31 2022-06-30 Gracenote, Inc. Cover song identification method and system
CN112988964B (zh) * 2021-02-20 2024-03-08 平安科技(深圳)有限公司 文本韵律边界预测的方法、装置、设备及存储介质
US20220309578A1 (en) * 2021-03-23 2022-09-29 Zensar Technologies Limited System and method for autonomously generating service proposal response
CN112915525B (zh) * 2021-03-26 2023-06-16 平安科技(深圳)有限公司 游戏音乐生成方法、装置、设备及存储介质
MX2023011535A (es) 2021-03-31 2023-12-14 Daaci Ltd Sistemas y metodos para generar automaticamente una composicion musical que tiene una forma audiblemente correcta.
TWI818259B (zh) * 2021-05-19 2023-10-11 國立臺灣大學 基於深度學習方法之推播封鎖意圖預測方法與系統
US11809521B2 (en) * 2021-06-08 2023-11-07 Fanuc Corporation Network modularization to learn high dimensional robot tasks
US12017355B2 (en) * 2021-06-08 2024-06-25 Fanuc Corporation Grasp learning using modularized neural networks
CN113628640A (zh) * 2021-07-15 2021-11-09 河南工业大学 一种基于样本均衡和最大均值差异的跨库语音情感识别方法
CN113823250B (zh) * 2021-11-25 2022-02-22 广州酷狗计算机科技有限公司 音频播放方法、装置、终端及存储介质
CN114925742B (zh) * 2022-03-24 2024-05-14 华南理工大学 基于辅助任务的符号音乐情感分类系统及方法
US11934523B1 (en) * 2022-12-01 2024-03-19 Flexxon Pte. Ltd. System and method for securing data files

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050038819A1 (en) 2000-04-21 2005-02-17 Hicken Wendell T. Music Recommendation system and method
US20020133499A1 (en) * 2001-03-13 2002-09-19 Sean Ward System and method for acoustic fingerprinting
US7777125B2 (en) 2004-11-19 2010-08-17 Microsoft Corporation Constructing a table of music similarity vectors from a music similarity graph
CA2612404C (en) * 2005-06-17 2014-05-27 National Research Council Of Canada Means and method for adapted language translation
WO2010027509A1 (en) 2008-09-05 2010-03-11 Sourcetone, Llc Music classification system and method
US20100332404A1 (en) 2009-06-29 2010-12-30 David Valin Method and mechanism for protection, sharing, storage, accessing, authentication, certification, attachment and tracking anything in an electronic network
US8712157B2 (en) 2011-04-19 2014-04-29 Xerox Corporation Image quality assessment
US10055493B2 (en) 2011-05-09 2018-08-21 Google Llc Generating a playlist
US9098579B2 (en) 2011-06-07 2015-08-04 Kodak Alaris Inc. Automatically selecting thematically representative music
US9576050B1 (en) * 2011-12-07 2017-02-21 Google Inc. Generating a playlist based on input acoustic information
US8938089B1 (en) 2012-06-26 2015-01-20 Google Inc. Detection of inactive broadcasts during live stream ingestion
US8484022B1 (en) 2012-07-27 2013-07-09 Google Inc. Adaptive auto-encoders
US9509705B2 (en) 2014-08-07 2016-11-29 Wells Fargo Bank, N.A. Automated secondary linking for fraud detection systems
US9836671B2 (en) 2015-08-28 2017-12-05 Microsoft Technology Licensing, Llc Discovery of semantic similarities between images and text
US10635727B2 (en) 2016-08-16 2020-04-28 Ebay Inc. Semantic forward search indexing of publication corpus
EP3336774B1 (en) 2016-12-13 2020-11-25 Axis AB Method, computer program product and device for training a neural network
US20180276540A1 (en) 2017-03-22 2018-09-27 NextEv USA, Inc. Modeling of the latent embedding of music using deep neural network
US11197036B2 (en) 2017-04-26 2021-12-07 Piksel, Inc. Multimedia stream analysis and retrieval
CA3062700A1 (en) 2017-05-25 2018-11-29 J. W. Pepper & Son, Inc. Sheet music search and discovery system
US10936653B2 (en) * 2017-06-02 2021-03-02 Apple Inc. Automatically predicting relevant contexts for media items
CN108334617A (zh) 2018-02-07 2018-07-27 大连大学 基于语义的音乐检索的方法
CN108648767B (zh) 2018-04-08 2021-11-05 中国传媒大学 一种流行歌曲情感综合与分类方法
US11531698B2 (en) 2018-09-06 2022-12-20 Spotify Ab System and method for selecting media content
US11163777B2 (en) 2018-10-18 2021-11-02 Oracle International Corporation Smart content recommendations for content authors
US11080601B2 (en) 2019-04-03 2021-08-03 Mashtraxx Limited Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
US20210012200A1 (en) 2019-04-03 2021-01-14 Mashtraxx Limited Method of training a neural network and related system and method for categorizing and recommending associated content
US11281734B2 (en) 2019-07-03 2022-03-22 International Business Machines Corporation Personalized recommender with limited data availability
GB2599441B (en) 2020-10-02 2024-02-28 Emotional Perception Ai Ltd System and method for recommending semantically relevant content

Also Published As

Publication number Publication date
BR112021019764A2 (pt) 2022-01-04
CA3135936A1 (en) 2020-10-08
US11080601B2 (en) 2021-08-03
TW202101431A (zh) 2021-01-01
US11494652B2 (en) 2022-11-08
AU2020251747A1 (en) 2021-11-25
US11645532B2 (en) 2023-05-09
WO2020201746A1 (en) 2020-10-08
US20220292355A1 (en) 2022-09-15
KR20220002939A (ko) 2022-01-07
MX2021012091A (es) 2022-05-10
US20210383230A1 (en) 2021-12-09
US20230274149A1 (en) 2023-08-31
US20210326707A1 (en) 2021-10-21
US20200320398A1 (en) 2020-10-08
EP3931721A1 (en) 2022-01-05
US20200320388A1 (en) 2020-10-08
US11068782B2 (en) 2021-07-20

Similar Documents

Publication Publication Date Title
JP2022528564A (ja) 感情的知覚を反映するようにニューラルネットワークを訓練する方法、関連付けられたコンテンツと、多次元プロパティベクトルを埋め込まれた関連するデジタル媒体ファイルとを分類及び発見するための関連するシステム及び方法
US20210012200A1 (en) Method of training a neural network and related system and method for categorizing and recommending associated content
US11544565B2 (en) Processing system for generating a playlist from candidate files and method for generating a playlist
GB2584598A (en) Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
WO2022043643A1 (en) Method of training a neural network and related system and method for categorizing and recommending associated content
Kostek et al. Creating a reliable music discovery and recommendation system
GB2583455A (en) Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content
GB2583696A (en) System for categoring and finding associated content and embedded vector therefor
Yeh et al. Popular music representation: chorus detection & emotion recognition
Mirza et al. Residual LSTM neural network for time dependent consecutive pitch string recognition from spectrograms: a study on Turkish classical music makams
Özseven et al. A Content Analysis of the Research Approaches in Music Genre Recognition
Castillo et al. Predicting spotify audio features from Last. fm tags
Tian et al. Homepage and Search Personalization at Spotify
US11315589B1 (en) Deep-learning spectral analysis system
Chemeque Rabel Content-based music recommendation system: A comparison of supervised Machine Learning models and music features
Fellenor Artificial Intelligence Incorporated into Audio Analysis of Electronic Music
Endrjukaite et al. Emotions recognition system for acoustic music data based on human perception features
Prezja Developing and testing sub-band spectral features in music genre and music mood machine learning
Ramires Automatic characterization and generation of music loops and instrument samples for electronic music production
Clemente Using Features of Groove in Music Recommendation Systems
Horsburgh Integrating content and semantic representations for music recommendation.
Reddy et al. Enhancing Music Genre Classification Accuracy using Machine Learning Models
Italiano et al. Machine Learning and Music: Predicting the level of energy conveyed by a soundtrack

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230331

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230331

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20240325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240423