JP2022528564A

JP2022528564A - 感情的知覚を反映するようにニューラルネットワークを訓練する方法、関連付けられたコンテンツと、多次元プロパティベクトルを埋め込まれた関連するデジタル媒体ファイルとを分類及び発見するための関連するシステム及び方法

Info

Publication number: JP2022528564A
Application number: JP2021560426A
Authority: JP
Inventors: ジョセフマイケルウィリアムリスケ; ナディーネクローエル; アンゲロスピクラキス
Original assignee: エモーショナルパーセプションエーアイリミテッド
Priority date: 2019-04-03
Filing date: 2020-04-01
Publication date: 2022-06-14
Also published as: BR112021019764A2; CA3135936A1; US11080601B2; TW202101431A; US11494652B2; AU2020251747A1; US11645532B2; WO2020201746A1; US20220292355A1; KR20220002939A; MX2021012091A; US20210383230A1; US20230274149A1; US20210326707A1; US20200320398A1; EP3931721A1; US20200320388A1; US11068782B2

Abstract

ファイルの音楽的プロパティ等の抽出可能な測定可能プロパティを表すプロパティベクトルは、ファイルの意味論的プロパティにマッピングされる。これは、重み及びバイアスが、ペア毎の比較のためのファイルのプロパティ空間内における距離非類似性測度を、それらの同じファイルの意味論的空間内における対応する意味論的距離非類似性測度に逆向きに整合させるように訓練される人工ニューラルネットワーク「ＡＮＮ」を使用して達成される。その結果、最適化されると、ＡＮＮは、それらのプロパティで構文解析された任意のファイルを処理して、感情的知覚を反映する共通の特徴を共有する他のファイルを識別し、それにより、類似性／非類似性のより信頼性が高く且つ現実感のある結果をもたらすことができる。これは、信頼性の高いコンテキストを有する関係を現実世界に単独で提供しない抽出可能な測定可能プロパティを考慮するように単にニューラルネットワークを訓練することと対照的である。【選択図】図７

Description

本発明は、概して、特に音楽又は画像データ（静的又はビデオを問わず）の形式の音声等の感覚刺激及び／又は香りの記述若しくはテキストの断片等の主観的なコンテキストを有する入力に対する人間の主観的反応を反映するように訓練される人工知能及びニューラルネットワークの能力に関する。より具体的には、但し非限定的に、本発明は、楽曲又は画像のコンテキストを有するプロパティ間の知覚された共通性又は非類似性を－感情的に知覚される意味論的意味において－分類し、且つ高い信頼性で識別して、典型的にはマルチメディア装置のユーザーが、膨大なカタログから、共通性を共有するデータファイルのランク付けされた順序を探索し、且つ特定することを可能にすることができる識別システムを実現する人工知能に関する。更により具体的には、本発明は、選択可能な音声コンテンツを特定し、トラック（又はその一部）の初期の主観的評価を客観的に分類又は批評し、且つコンテンツを選択的に「プッシュする」意味において、音楽の主題に関するユーザー選択可能な知覚を共通して共有する分類されたコンテンツへのアクセスを促進するシステム及び動作方法論に関する。

典型的には人工ニューラルネットワークアーキテクチャに基づく人工知能「ＡＩ」における最も挑戦的な長期目標の１つは、人間の知的行動を模倣することである。これは、複雑な課題であり、なぜなら、特に、人間の意見が刺激への主観的反応に基づき、既存のＡＩ的アプローチが、よく感情的に知覚される反応と良好に相関しないからである。むしろ、ＡＩにおける計算アーキテクチャの合理性は、客観的に識別可能な特性を有する大量のデータの同化に基づく最も可能性が高い反応を示唆することである。

ディープニューラルネットワーク「ＤＮＮ」の改良、すなわち訓練は、以下で理解されるように、多くの場合、「バックプロパゲーション」、すなわち誤差の後方伝播の概念に基づいて、ネットワークで用いられる重みをＤＮＮが計算する際に必要とされる勾配を計算する。ＤＮＮは、従って、以下で理解されるように、その層間を移動して、入力を出力に変換する正しい数学的操作を線形関係又は非線形関係に関わらず見出すことを試みて各出力の確率を計算する。

ＡＩにおける音楽解釈への現在の限定的なアプローチの実際的な例として、異なる楽曲間で知覚される類似性の識別は、意味論的に知覚される類似性に関するものではなく、絶対的類似性に制約される。これは、最初の調査では問題に見えないことがあり得るが、「人間の心の中で創作、知覚及び体験されるもの以外に音楽は存在しないため、知的且つ現実的な立場から基本的な問題が残る。換言すれば、「音楽は、それ自体では存在しない．．．なぜなら、音楽又は言語のいずれも、それらの認識が表面的な形式に含まれない情報を生成するため、純粋な表面的形式として研究することができないからである」。この提唱は、ＧｅｒａｎｔＡ．Ｗｉｇｇｉｎｓらによる論文「Ｏｎｔｈｅｎｏｎ－ｅｘｉｓｔｅｎｃｅｏｆｍｕｓｉｃ：ｗｈｙｍｕｓｉｃｔｈｅｏｒｙｉｓａｆｉｇｍｅｎｔｏｆｔｈｅｉｍａｇｉｎａｔｉｏｎ」（ＥＳＣＯＭＥｕｒｏｐｅａｎＳｏｃｉｅｔｙｆｏｒｔｈｅＣｏｇｎｉｔｉｖｅＳｃｉｅｎｃｅｓｏｆＭｕｓｉｃ，ＭｕｓｉｃａｅＳｃｉｅｎｔｉａｅ，ＤｉｓｃｕｓｓｉｏｎＦｏｒｍ５，２０１０，ｐａｇｅｓ２３１－２５５）において確立されている。

従って、初期段階から（測定されたパラメータの解釈に基づく）ある程度の絶対性に基づく既存のＡＩモデリングは、致命的な欠陥を有し、音楽検索ツールに例示的に関連して矛盾及び／又は誤った結果が生じる恐れがある。

同じ問題は、絵画若しくは写真又は医療ＣＴスキャン等の画像の実際の解釈又は他の純粋に記述的表現（香りの記述、医療レポート又は小説の粗筋の概要など）等、他の形式の表現を識別及び分類して、定義された開始点（例えば、音楽作品の香り又は調性、リズム及び音色の特定の記述）に対して、主観的属性、特性又は特徴の受容可能な程度に近い集合を有するとの観点から、完全に無関係であるか、又はさもなければ潜在的に互いに関連する検索可能な電子画像及び／又はデータの関連度を特定及び評価する際に存在する。

実際、既存のＡＩシステムは、意味論的に関連する属性を解明できず、従って意味論的な類似性を見逃すと共に、知覚的に明瞭な差違が密接に関係することを受容又は示唆する可能性がある。

音楽、映画及びゲーム産業並びに特にコンテンツ提供に関する態様が進化している。この点に関して、（例えば）音楽又はサウンドトラックのストリーミング又はダウンロードされたデジタルファイルとしての販売又は配信は、それらの市場で支配的になりつつある。これは、確立されているが、現在衰退しつつある一般顧客向け小売店を通したコンパクトディスク若しくはＤＶＤ技術（又は歴史的にレコード盤）の販売と対照的である。

音楽販売が商業的であり、本来、コンテンツ知覚的且つ審美的であるのに対して、個人の特定の好みに絞り込んだ共通の音楽的特徴を共有するトラックを特定する直接的且つ信頼性が高い仕組みは、存在しない。この意見を裏付けるために、音楽は、そのジャンル、例えば数例としてジャズ、ロック、クラシック及びブルース等に大まかに分類されるが、これらの各ジャンルには、通常、膨大な数のサブカテゴリ又は亜種が存在する。例えば、ジャズには、フリーファンク、クロスオーバー、ハードバップ及びスイングを含めて、明らかに少なくとも３０の異なる形式がある。これらの亜種は、属を定義する、ユーザーに識別可能な作曲アーキテクチャにおける何らかの類似性を共有する場合があるが、十分に可聴的又は音楽的に発揮された顕著な差違が存在することも多い。更なる状況を提示すると、２つの異なる種類のジャズが、特定のリスナーが一方を好きであるが、他方を好きでないと結論付ける程度に知覚的に極めて音声的に異なる場合がある。同じ（しかし、逆の）根拠により、実際、これらの２つの異なる音声トラックが音楽空間における近さの観点から実質的に同一である場合、クラシック音楽の［音楽空間及び音楽的意味での］聴取特徴が、ハードロックの曲をオーケストラのために編曲したものと全く異なるはずであるとの誤った認識に基づいて、クラシック音楽の曲をリスナーが尚早に拒否する（又は単に認識しない）場合がある。

それぞれ数百万曲を含む、典型的にはオンラインの音楽ライブラリ、例えば伝えられるところではそれぞれ約５０００万トラックを含むｉＴｕｎｅｓ（登録商標）、Ｔｉｄａｌ（登録商標）音楽ライブラリにおいて、潜在的に全く異なるジャンルにわたる無数のトラック間でユーザーが知覚する共通の音楽主題、特色又は特徴を識別するために、これらのデータベースを効果的に検索し得る方法に関して問題が存在する。結果的に、類似する音楽の検索し、且つ現在まで全てのジャンル［又は少なくともジャンルの亜種］を考慮から除外し、且つ／又は異なるジャンルからの異なるトラック内で極めて関連性の高い音楽コンテンツを互いに関連付けし損なうことが実際に頻繁に生じる。市販ライブラリは、同じ曲を聴いた他のユーザーのプレイリストに基づいて推奨がなされる「共同フィルタリング」を利用することができるが、この方式は、保存されたユーザーデータ及び統計的使用量に大きく依存する。共同フィルタリングは、リスナー／ライブラリのユーザーの個人的嗜好を反映することができるが、利用できるユーザーデータの量によって制約され、従って本質的に完全な解決策ではない。

また、（無名又はほぼ無名という意味での）新人アーティスト［すなわち潜在的にレコーディングスタジオ又はラベルによって署名された初心者、新顔又は「新人」］が最初の音声トラック又はファーストアルバムをリリースした際に生じる「コールドスタート」の問題もある。問題は、アーティストが無名であり、従ってオンライン又は他の媒体のいずれにしてもフォロー、例えばラジオ放送又はテレビジョンを介したプロモーションから獲得されたリスナーが実質的に存在しないことである。換言すれば、聴取履歴の欠如は、例えば、共同フィルタリングを介して推奨を行うこと又は評判を確立して新星を後押しすることの両方の障害となる。ディストリビュータ、例えばレコードレーベルにおける問題は、どのように新人アーティストの認知度を上げるか、どのように新人アーティストの音楽の性質［ユーザー知覚可能であるために恐らく変化し得る］を分類するか、及び実際にその音楽が商業的理由で聴取、ダウンロード又はストリーミングされて確実に露出が最大化されるには、どのように既存の音楽ライブラリに紐付け／挿入するかである。聴取及び／又はストリーミングする大衆又はラジオ局にとっての問題は、これらの新人に関連して、「新人は、自らが何を知らないかを知らない」ため、音楽界への新人の最初の進出をランダムに見出す確率が低く、判断よりも運に基づく場合の方が多い。

ディストリビュータにとって、アーティストの音楽トラックへの効果的な露出及びアクセスは、販売量が増加する可能性と同等である。実際、商業的観点から「遅咲き」を避け、従って新人アーティストの評判を急激に高めることも望まれる。

要するに、新人アーティストは、実績がない新作で市場に参入しなければならない。対照的に、既存のアーティストのファンは、常にフォローし、すなわち新たにリリースされた曲に注目すると共に、そのような新たにリリースされた曲が良い又は悪いによらず、一般に既存のアーティストから購入しがちである。実際、批評家からの評価が低くても、人気アーティストから新たにリリースされた曲は、ストリーミング、聴取及び／又は購入されるため、確立したフォロワー及びリスナー基盤を有する既存のアーティストには、「コールドスタート」問題が存在しない。コールドスタート問題は、従って、音楽の普及、更に新たな形式の音楽の潜在的進化を妨げる。

また、ユーザー知覚及び音楽鑑賞の性質は、最近取り入れられている個人的特質である。特に、リスナーは、あるトラックが好みに合うか否か及び好適には再生／聴取されるトラック（又はその一部）の個人的好みを数秒以内に評価する。結果的に、例えば、ダウンロード可能なアプリとして実現されるトラック探索推奨スキームのいずれも（推奨を識別する観点から）本質的に高速でなければならず、スキームが与えるいかなる推奨も、ユーザーが知覚する音楽的価値、すなわち個人的な音楽の趣味を満たす必要がある点で信頼性が高くなければならない。共通の趣味又は環境（例えば、年齢の範囲が３０～４０歳、既婚で子供２人、会計士として勤務し、ニューヨーク州スタテン島のローンで購入した物件に居住）を有すると識別された他のユーザーの人口統計データの統計解析を利用する既存のシステムのように、一見ランダムなトラックを出力する任意のトラック探索推奨ツールは、結局、貧弱であり、その利用は、無視又は軽視される。音楽学に類似する音声トラックの知覚的分類は、ジャンルによらないため、効果的な音声トラック探索技術の重要な考慮点である。

上記で紹介した問題は、Ｓｈａｚａｍ（登録商標）及びＳｏｕｎｄＨｏｕｎｄ（登録商標）等の既存のアプリでは解決されない。その理由は、これらのアプリが、リアルタイムでサンプリングされた音声トラックの識別に注力するか、又は逆にこれらのアプリが、コミュニティ内の他人が発見しているトラックを列挙するからである。

ＳｏｕｎｄＨｏｕｎｄ（登録商標）を用いて、楽曲を歌うか又はハミングして識別を試みることができる。これらのアプリは、従って、再生／サンプリングされるトラックを識別するか、又は報告されたハード番号に基づいて更に聴き込むように推奨することもあるが、多くの場合、あまり識別に関係しない。これらの既存のアプリによって音楽ライブラリの無数のトラックで音楽学的類似性が知覚されることはない。

音楽業界が直面する別の問題は、どのようにリスナー／ユーザー体験を特に個人／個別レベルで最良に増大させられるかである。実際、楽曲と事象とのコンテキスト面での関連度若しくは関係は、認識をもたらすか、又は補完的な感情的反応、例えば映画鑑賞中の恐怖若しくはサスペンス又はテレビコマーシャルで生じる製品に対する親近感を誘発すると長らく認識されてきた。

共通の音楽的特徴の識別が望ましい理由は、音楽コンテンツの適切な使用がリスナーの感情的、生理的及び／又は心理的関わり合いを支え、従ってリスナーの感覚的体験を促進すると認識されているためである。これは、関連する音楽主題、例えば増大する音楽的強度（ドラマの展開及び緊迫感が増大する意味であり、必ずしも絶対的な音声出力レベルの意味ではない）を映像出力と整合させる適当なマルチメディア製品を迅速に編集することを仕事とする例えばゲーム開発者及び／又は広告若しくは映画予告編の制作者／編集者に関連する。少なくとも１つの結果的に生じるレビューのための「プルーフ」を提供する際、開発者又は編集者は、潜在的に適した音楽を識別し、次いで選択された音楽を映像に適合／整合させることに既に相当な時間を費やしている。商業的に使用可能な音声トラックを識別する必要性を低下させるために、コンテンツ開発者は、現在、取得が容易でない権利を有する公知のトラックである場合が多い、いわゆる「テンプトラック」を利用することができるが、これは、使用権利を取得できる適当な商業的に生き残れるトラックの識別に検索を要するため、一時しのぎの処置に過ぎない。次いで、更なる時間遅延は、編集が当初の予告に合致するか否かを判断しなければならない指示側クライアントに起因して生じる。従って、効果的トラック検索ツールは、例えば、（音楽に合わせてサイクリング運動の振付けをして、運動量を高める「スピン」クラスで生じるような）音楽プログラムの視覚的シーケンス又は構築と整合させるための代替的な音楽トラックの選択の識別を容易にするであろう。

同一の又は関連する画像を表すウェブサイトの識別を含む、同一又は同様の視覚的特徴を有する画像を検索する技術がウェブに存在する。例えば、Ｇｏｏｇｌｅ（登録商標）は、「逆画像検索」（ｈｔｔｐｓ：／／ｓｕｐｐｏｒｔ．ｇｏｏｇｌｅ．ｃｏｍ／ｗｅｂｓｅａｒｃｈ／ａｎｓｗｅｒ／１３２５８０８？ｈｌ＝ｅｎを参照されたい）と呼ばれるコンピュータプログラムアプリケーション［用語「アプリ」と略す場合がある］をサポートし、アップロードされた画像がサーバ側で構成ビットのグループに明らかに分解され、ビットグループが検索されて、所定のパラメータ空間内の何らかの形式の論理距離測度に従って関連画像を識別する。識別された関連画像は、次いで、アプリを利用して元の画像をアップロードしたユーザーに提供される。

画像の比較は、（典型的にはニューラルネットワークに基づく）複雑な計算を必要とするが、基本的なソースドキュメントは、形状、色及び／又は角度若しくは長さ等の寸法に分割できることが分かっている。これらの係数の１つ以上を対比することで、例えば相対スケーリングを通して関連付けを確立することができる。対照的に、音楽的特徴の批評は、再びニューラルネットワークを利用するものの、音楽的構造のより微妙な差違を知覚的に解決することの困難さによって現在まで一般に妨げられてきた。

本発明の第１の態様によれば、第１のデータファイルのコンテンツの、異なるデータファイルのコンテンツに対する類似性又は非類似性を識別するように構成されたシステムにおいて、人工ニューラルネットワーク「ＡＮＮ」を訓練する方法が提供され、本方法は、異なるデータファイルの選択されたペアについて、第１のデータファイル及び異なるデータファイルの各々から測定可能信号特性を抽出して、且つこれらの測定可能信号特性から複数のプロパティを識別すること、プロパティを処理することをタスクとされたＡＮＮの出力において、選択されたペアの第１のデータファイル及び異なるデータファイルの各プロパティについて、対応するプロパティベクトルをプロパティ空間内で生成すること、第１のデータファイルのための第１の多次元ベクトル及び異なるデータファイルのための別個の第２の多次元ベクトルを組み立てること、ここで各多次元ベクトルは、ＡＮＮの出力からのそれぞれのプロパティベクトルを組み立てることから得られる、第１の多次元ベクトルと第２の多次元ベクトルとの間の距離測度を判定すること、前記判定された距離測度に応じて、プロパティ空間内の前記判定された距離測度と、異なるデータファイルに対して第１のデータファイルについて意味論的空間内で評価された定量化意味論的非類似性距離測度との間で生じる識別された不一致を考慮するバックプロパゲーション処理により、ＡＮＮ内の重み及び／又はバイアス値を調整し、それにより、第１の多次元ベクトルと第２の多次元ベクトルとの間の距離測度によって反映されるプロパティ評価にわたり、定量化意味論的非類似性距離測度に反映される意味論的知覚を評価することによってシステムを訓練することを含む。

意味論的空間内で評価された定量化意味論的非類似性距離測度は、第１のデータ及び異なるデータファイルの各々に関連付けられたテキスト形式の説明のベクトル表現に基づき得る。テキスト形式の説明は、それぞれのファイルのメタデータに符号化され得る。

好適な実施形態において、定量化意味論的非類似性距離測度の評価は、自然言語処理「ＮＬＰ」をテキスト記述に適用して、訓練集合内の複数のＮ個のデータファイルのための意味論的ベクトルを生成すること、訓練集合について且つペア毎に、各意味論的ベクトル間の分離距離を計算すること、訓練集合内のファイルの各々について、訓練集合内の他のファイルに対する最小及び最大分離距離を識別すること、訓練集合内の各ファイルについて、第１のペアが最小分離距離を有し、及び第２のペアが最大分離距離を有するペアの集合を生成すること、意味論的近さを表す第１の値を第１のペアに割り当て、且つ意味論的非類似性を表す第２の値を第２のペアに割り当てること、ここで第２の値は、第１の値と異なる、を含む。

第１のペアは、第１のデータファイル及び異なるデータファイルであり得る。

訓練の方法は、小さい方からｍ個の分離距離及び大きい方からｍ個の分離距離を含む部分集合について、第１の値をｍ番目に小さいものに、且つ第２の値をｍ番目に大きいものに割り当てることを含み得、ここで、ｍは、Ｎ未満の正の整数である。

本発明の第２の態様において、１つ以上の音声コンテンツ及び画像コンテンツを含むデータファイル間のコンテンツの類似性又は非類似性を識別するように構成された人工ニューラルネットワーク「ＡＮＮ」を訓練し且つ動作させる方法が提供され、本方法は、意味論的空間内における前記データファイルの前記コンテンツの定量化意味論的非類似性測度を、コンテンツについて抽出された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離に関連付けることと、測定可能プロパティにわたり、意味論的非類似性測度を評価するようにシステムを訓練し且つ動作させることと、を含む。

意味論的空間内で評価される定量化意味論的非類似性測度は、異なるデータファイルに関連付けられたテキスト形式の説明のベクトル表現に基づき得る。

好適な実施形態において、データファイルは、音声ファイルであり、及び測定可能プロパティは、リズム、調性、音質及び音楽的テクスチュアに関連するプロパティによって定義される音楽的プロパティである。

定量化意味論的非類似性測度は、自然言語処理「ＮＬＰ」をテキスト記述に適用して、訓練集合内の複数のＮ個のデータファイルのための意味論的ベクトルを生成すること、訓練集合について且つペア毎に、各意味論的ベクトル間の分離距離を計算すること、訓練集合内のファイルの各々について、訓練集合内の他のファイルに対する最小及び最大分離距離を識別すること、訓練集合内の各ファイルについて、第１のペアが最小分離距離を有し、及び第２のペアが最大分離距離を有するペアの集合を生成すること、意味論的近さを表す第１の値を第１のペアに割り当て、且つ意味論的非類似性を表す第２の値を第２のペアに割り当てること、ここで第２の値は、第１の値と異なる、によって得られる。

特定の一実施形態において、小さい方からｍ個の分離距離及び大きい方からｍ個の分離距離を含む部分集合について、本方法は、第１の値をｍ番目に小さいものに、且つ第２の値をｍ番目に大きいものに割り当てることを含み得る。ここで、ｍは、Ｎ未満の正の整数である。

ＡＮＮを訓練し且つ動作させる方法は、先行する請求項のいずれかに記載の方法に従って非類似性が評価された個々のファイルの識別を可能にするファイル識別子をデータベースに保存することと、保存されたファイル識別子に対して、データベース内の他の識別されたファイルとの距離関係及び個々のファイルのための計算されたプロパティベクトルの少なくとも１つを記録することとを更に含む。

データベースは、ネットワークアクセス可能なデータベース又はユーザー機器にローカルなメモリ若しくは記憶装置におけるものであり得る。

いくつかの実施形態において、本方法は、複数の処理分岐を有するニューラルネットワークの訓練中、プロパティ空間内のそれぞれのプロパティベクトルを生成するために、ファイルの異なるプロパティを処理するために割り当てられた異なる処理分岐を区別することを更に含み、区別することは、ペア毎の比較を受けるペア毎に対比されるファイルについて、それぞれのプロパティベクトルの相対的な類似性及び非類似性を識別することと、最大の非類似性がペア毎の比較の生成されたプロパティベクトルに見られる特定の処理分岐内のバイアス値及び重みの少なくとも１つの調整を促進することと、を含む。

ペア毎の比較におけるプロパティが、相対的に非類似よりも、相対的に類似すると評価される場合、相対的により大きい重要度は、複数の処理分岐の特定の処理分岐に割り当てられ得る。

定量化意味論的非類似性距離測度は、ファイルの関連する記述的コンテンツの自然言語処理から得られる。記述的コンテンツは、ファイルのメタデータに含まれ得る。

各種の態様の特定の実施形態において、データファイルは、音声を含み、及びプロパティは、音楽的プロパティであり、及び測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示すプロパティを定義する。

本発明の別の態様において、共通のユーザー知覚可能な特性を共有するファイルを識別する方法が提供され、本方法は、関連付けられたプロパティベクトルを有する複数の一意に識別されたファイルを含むファイルライブラリにおける保存されたファイルへの近さについて対象ファイルを評価することを含み、本方法は、ニューラルネットワークにおいて、対象ファイルを処理して、プロパティ空間内の多次元プロパティベクトルを生成すること、ここで多次元プロパティベクトルは、対象ファイルから選択的に抽出された測定可能信号特性の複数の異なる集合から導出された複数のプロパティベクトルから構成され、複数のプロパティベクトルは、それぞれニューラルネットワークによって意味論的非類似性の測度に重み付けされる；及び、対象ファイルの多次元プロパティベクトルと、ライブラリ内のファイルのプロパティベクトルとの間の近さに基づいて、ライブラリからファイルの順序付けられたリストを生成すること、を含む。

本発明の第３の態様において、ニューラルネットワークを使用して、意味論的に近いデータファイルを識別する方法が提供され、本方法は、意味論的に近いファイルの識別において、定量化意味論的非類似性距離測度に反映される意味論的知覚を、抽出された測定可能信号特性の距離測度（３３０）によって反映されるプロパティ評価よりも重要であるとニューラルネットワークにおいて評価することを含む。

本発明の更なる態様において、プロセッサ知能によって実行されると、本明細書、特に請求項に記載された各種の態様の方法を実行するコードを含むコンピュータプログラムが提供される。

本発明の別の態様において、人工ニューラルネットワーク「ＡＮＮ」であって、少なくとも１つの音声コンテンツ及び画像コンテンツの形式でＡＮＮに提示されるコンテンツに対して、バックプロパゲーションによって構成可能に選択された重み及びバイアスを適用するように配置された相互接続されたニューロンの層を含む人工ニューラルネットワーク「ＡＮＮ」が提供され、ＡＮＮは、意味論的空間内における前記コンテンツの定量化意味論的非類似性測度を、コンテンツについて抽出された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離と相関させて、プロパティ空間内の結果を意味論的空間内の結果に整合させるように経時的に適合される出力を提供し、ＡＮＮは、前記重み及びバイアスの適合中、測定可能プロパティにわたって意味論的非類似性測度を評価するように構成される。

本発明の更に別の態様において、人工ニューラルネットワーク「ＡＮＮ」であって、相互接続されたニューロンの層であって、少なくとも１つの音声コンテンツ及び画像コンテンツの形式でＡＮＮに提示されるコンテンツに対して、意味論的空間内における前記コンテンツの定量化意味論的非類似性測度を、コンテンツについて抽出され、且つＡＮＮの前記ニューロンによって処理された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離と相関させるようにバックプロパゲーションによって選択的に構成される重み及びバイアスを適用するように配置された相互接続されたニューロンの層を含み、それにより、前記重み及びバイアスのその適用において、測定可能プロパティにわたって意味論的非類似性測度を評価するように構成される、人工ニューラルネットワーク「ＡＮＮ」が提供される。

本発明のまた更に別の態様において、ニューロンの出力層に結合されたニューロンの入力層を含む人工ニューラルネットワーク「ＡＮＮ」が提供され、前記ニューロンは、重み及びバイアスを、それによって受信されたデータに適用するように配置され、ＡＮＮは、プロパティ空間内のＡＮＮの出力の整合性を、意味論的空間内の基準比較用記述的コンテンツについて事前に測定された基準意味論的非類似性測度と相関をさせために、ニューロンのための重み及びバイアスを生成するように構成され、プロパティ空間は、入力に適用されるファイルの音声及び／又は画像コンテンツから抽出された測定可能プロパティをＡＮＮによって処理することによって決定される。

入力層は、典型的には、少なくとも１つの隠れ層によって出力層から分離される。

本発明の更なる態様において、ａ）複数のプロパティベクトルを提供するように配置された複数の人工ニューラルネットワーク出力であって、前記プロパティベクトルは、第１のデータファイルのコンテンツからの抽出された測定可能信号特性である、複数の人工ニューラルネットワーク出力と、ｂ）更なるプロパティベクトルを提供するように配置された少なくとも１つの畳み込みニューラルネットワークであって、更なるプロパティベクトルは、第１のデータファイルのコンテンツの２次元表現から導出される、少なくとも１つの畳み込みニューラルネットワークと、ｃ）それぞれ基準ベクトルを有する複数の一意に識別可能なデータファイルを含むデータベースであって、各基準ベクトルは、（ａ）そのデータファイルのコンテンツから得られた抽出された測定可能信号特性、及び（ｂ）そのデータファイルのコンテンツの２次元表現から得られた更なるプロパティベクトルから得られたプロパティベクトルから組み立てられる、データベースと、ｄ）処理知能であって、第１のデータファイルについて、複数のプロパティベクトル及び更なるプロパティベクトルから多次元プロパティベクトルを生成することと、多次元プロパティベクトルをデータベース内の前記複数の基準ベクトルと比較することと、第１のファイルの多次元プロパティベクトルのものと測定可能に類似すると識別された基準ベクトルを有する少なくとも１つの一意のファイル識別子を識別し、それにより、第１のデータファイルに意味論的に近い、データベース内の異なる第２のデータファイルを識別することとを行うように構成された処理知能とを含むシステムが提供される。

複数のプロパティベクトルは、それぞれニューラルネットワークによって重み付けされて、意味論的非類似性を反映する。

本システムは、ネットワーク接続及び通信ユニットを含み得、処理知能は、通信ユニットに、ネットワーク接続にわたって異なる第２のデータファイルを対話型ユーザー機器に送信させる。検察についてユーザーが優先する特性を選択するためのユーザーインターフェースが提供され得る。

本発明の別の態様において、ａ）データファイルのための複数のプロパティベクトルを提供するように配置された複数の人工ニューラルネットワーク出力であって、前記プロパティベクトルは、データファイルのコンテンツからの抽出された測定可能信号特性である、複数の人工ニューラルネットワーク出力と、ｂ）多次元プロパティベクトルを生成するために、複数のプロパティベクトルで組み立てられる更なるベクトルを提供するように配置された少なくとも１つの畳み込みニューラルネットワークと、ｃ）第１のデータファイル及び異なるデータファイルを含むデータファイルのペアについて、第１及び第２の異なる多次元プロパティベクトルを受信し、且つそれに応じて、第１及び第２の異なる多次元プロパティベクトル間の距離測度を生成するように配置された処理知能と、ｄ）プロパティ空間内における距離測度が、意味論的空間内における第１及び第２のベクトルについて生成された基準距離と相関するか否かを解決するように構成された処理知能であって、基準距離は、データファイルのペアの基準比較用記述的コンテンツの意味論的非類似性測度に基づく、処理知能とを含むシステムが提供される。

処理知能は、意味論的空間内における前記コンテンツの定量化意味論的非類似性測度を、コンテンツについて抽出された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離に関連付けるように機能する。

本発明の更に別の態様において、人間によって知覚された特性を表す独立ベクトル及び電子ソースファイルの測定可能な特性の複数のペアを生成することによって訓練される予測システムが提供され、第１のベクトルは、意味論的空間内において、且つソースファイルのペア間の、人間によって生成された記述における測定された非類似性に基づいて、第１のベクトルがペア毎の近さのユーザー主体の知覚を提供するように生成され、及び第２のベクトルは、ソースファイルの同じペアのコンテンツから抽出された測定可能プロパティのペア毎の比較から得られ、及び予測システムは、第１のベクトルのペア毎の距離が第２のベクトルのペア毎の距離に近づくように、第２のベクトルの生成処理を適合させるように配置された処理知能を含む。

電子ソースファイルは、デジタル音声、画像データ及びコンテキストを有する文献データの少なくとも１つを含む。

本発明のまた更に別の態様において、デジタル音声ファイルであって、デジタル音声ファイルの信号特性の量子化表現の複数の集合から導出された音楽的プロパティにそれぞれ関連する複数の組み立てられたプロパティベクトル成分を含む多次元プロパティベクトルを埋め込まれたデジタル音声ファイルが提供される。

埋め込まれた多次元ベクトルは、リズム、調性、音質及び音楽的テクスチュアを示す測定可能信号特性によって定義される音楽的プロパティと相関されたベクトルである。

組み立てられたベクトル成分（ＯＲ_x、ＯＴＯ_x、ＯＴＩ_x及びＯＴＸ_x）の各々は、意味論的距離分離空間内の基準ベクトルに対して評価される音楽的プロパティのベクトル非類似性空間内における測度を反映する。

デジタル画像ファイルであって、デジタル画像ファイルの信号特性の量子化表現の複数の集合から導出された視覚的プロパティにそれぞれ関連する複数の組み立てられたプロパティベクトル成分を含む多次元プロパティベクトルを埋め込まれたデジタル画像ファイルも提供される。

直接的に埋め込まれるのではなく、多次元プロパティベクトル（音声又は画像／映像ファイルのいずれでも）は、デジタル音声ファイルのファイル名又は国際トラック識別番号等の一意の属性と紐付け又は照合することができる。

別の態様において、請求項４１～４３のいずれか一項に記載の複数のデジタル音声ファイル又は請求項４４に記載の複数のデジタル画像ファイルを含むデータベースが提供される。

基本的に、本アプローチは、ハード及び／又は絶対データまで遡るアプローチである現在のデータ科学的アプローチと異なる。むしろ、本発明は、ペア毎に対比されたソースファイルの抽出された測定可能プロパティの非類似性を、同じペア毎に対比されたソースファイル間の意味論的空間で表された類似性／非類似性の人間による知覚まで戻ってベクトル空間内で評価することをタスクとするニューラルネットワークからの出力結果を重視する。この意味論的空間は、コンテキストを表現するが、ここで、操作可能な数学的形式で表された測定可能なベクトルに主観的記述的コンテキストがマッピングされる異なるベクトル空間である。換言すれば、埋め込み処理は、意味論的に類似する主観的記述が、結果的に得られたベクトル（意味論的）空間内で対応して類似すると見なされるように設計される。

有利には、本発明は、データ分類の斬新な方法論、より具体的には元データと関連を有し得る検索データとの間のユーザー知覚可能な特性の高速な同化、例えばリスナーの関心に合致しそうな音声又は音声ファイルの断片の検出を可能にするシステム及び方法を提供する。

好適な実施形態は、特に、楽曲の断片内で識別可能な音楽的プロパティを抽出することにより、サンプリングされた音楽作品を整合的に特徴付け、次いで音楽的特徴及び／又は主観的音楽学的特色を共有する他の音楽作品を識別することが可能なトラックファインダ又はトラック推奨ツールを提供する。

（数百若しくは数千の音声トラックを含む個人ライブラリ又は商業ストリーミング若しくはダウンロードのために数百万トラックを有する商業ライブラリであるかによらず）音楽ライブラリ内で元の音楽作品を僅かに又は大幅に変更可能なトラックのリミックスを含む、アクセス可能な音楽ファイルの数を前提として、本発明は、知覚された音楽学的類似性のランキングに基づいてトラックの検索結果を絞り込み、従って無作為のジャンル分類を除外して、知覚される音声特性／類似性に焦点を合わせることができる有用且つ効果的な推奨ツールを提供する。

各種の実施形態のトラック探索ツールは、従って、ユーザーの特定の且つ主観的な好みに合う音楽を識別するために、リスナーが集中してトラックを聴く必要性を有益に減らし、すなわち、トラック探索ツールは、ユーザー向けに知覚的に関連するトラックを識別することにより探索空間を狭める。更に、音楽学の客観的且つ技術的に保証された評価を通して、本発明の実施形態は、音楽ライブラリ、特に加入者がアクセスできるオンラインライブラリ若しくはサーバストアに保存されるか、又はライブラリ経由でアクセス可能なより広い範囲の楽曲によって頻繁且つ高速にアクセス可能にすることにより、保証された推奨を通した音楽のエンドユーザー選択及びエンドユーザーアクセスの向上を目指す。本発明の実施形態は、従って、知覚的に類似する音楽的プロパティに基づいて、新たな音声トラック及びアーティストをより選択的且つ恐らくより受容し易い聴取ベースに格上げすることによってコールドスタートの問題を緩和する。

同じ原理は、コンピュータ実装されたデータ解析のソースとして機能する、画像、テキスト及び／又は映像を含む他のコンテキストに沿って記述可能な主観的作品の識別にも当てはまる。

添付の請求項及び以下の説明で概説する本発明の各種の態様及び実施形態は、ハードウェアソリューション及び／又はダウンロード可能なコード若しくはウェブベースのアプリを含むソフトウェアとして実装可能である。

ここで、本発明の例示的な実施形態について添付の図面を参照しながら以下に記載する。

本発明による、ファイル、特に音声ファイルの非類似性を評価する好適な処理及び人工ニューラルネットワークを訓練することができる処理のフロー図を示す。好適な実施形態による、人工ニューラルネットワークを訓練するシステムアーキテクチャの概略図である。ソースファイル間のプロパティ類似性及びプロパティ非類似性を識別するために、意味論的ベクトル空間をプロパティベクトル空間と同化するように図２のニューラルネットワークを訓練する好適な処理に関するフロー図である。音声トラックの典型的なメルスペクトルの提示である。メルスペクトル解釈に割り当てられた人工ニューラルネットワーク内の畳み込み及びプーリング層を示す。図２の各種のＡＮＮチェーン内で用いられる人工ニューラルネットワークの表現である。感情的に知覚されるファイル非類似性の測度を特に音声ファイルに関連して評価するために好適な実施形態によって使用されるフロー処理である。好適な実施形態によるベクトル表現を含むアクセス可能なデータベースを含むネットワークアーキテクチャである。

ウェブブラウザ又はローカルアプリを介してアクセスされて、（例えば）音声トラック間の意味論的類似性又は非類似性を評価するツールを提供するには、深層学習及び人工知能を利用して、意味論的空間における第１の尺度を提供するために処理され、且つユークリッド空間（他の次元空間を用い得る）等の異なる測定可能な空間内の同じデータソースのコンテンツの測定可能プロパティが抽出された意味論的意味間の類似性を識別する必要があることが分かっている。この処理は、１つの空間内における意味論的意味の類似性と、別の空間内で抽出された測定可能プロパティの類似性との間の並進マッピングを効果的に提供する。

より具体的には、感情的に知覚される類似性又は非類似性（特にデジタル音声ファイル、画像ファイル又はデジタル形式の他の知覚される美的創作物の例示的意味での）の測度が例えば信号特性の量子化表現等、ハードデータフィールドのみから導けないことが分かっており、なぜなら、このようなハードデータは、人間の批評家、例えばリスナーが体験するいかなる解釈も提供しないためである。換言すれば、特徴抽出のみでは、信号特性の（単独の又はグループ化された）量子化表現が感情的な現実世界に一切の関係をもたらさないため、感情的に知覚される類似性又は非類似性の十分に正確且つ客観的な評価を与えない。

本発明は、従って、最初に、意味論的空間内で表された主観的に導出されたコンテンツ記述を、ユークリッド空間内で表されたものと同じペアの対比ファイルについて抽出された測定可能プロパティにマッピング、すなわち関連付け又は結合することより、特に主観的に評価／知覚されたデータ、例えば音楽における類似性又は非類似性の特徴抽出と、人間の直観及び／又は人間の感情的知覚との間に現在存在する乖離を［不十分な従来の全く乖離した客観的に評価されたアプローチよりも］改善するように機能的に構成された１つ以上の訓練された人工ニューラルネットワークＡＮＮに関連して機能する。

ニューラルネットワーク機能の効果は、デジタル音声、及び／又は画像データ、及び／又は文学作品における感情的に知覚可能又は文書化された非類似性を共に、但し異なるベクトル空間内で表す２つの独立ベクトルを生成することである。意味論的空間内の第１のベクトルは、ソースファイルの人間によって生成された記述に基づき、従って顕著に高いコンテキストの重みを有する。第１のベクトルは、従って、例えばユークリッド空間の第２のベクトルの評価及び修正に用いられるため、ＡＮＮ内の重みを変えることを通して異なるニューラルネットワークの出力を第１のニューラルネットワークの意味論的結果に収束させることができる。ユークリッドのベクトルは、人工ニューラルネットワークの深層学習中、例えば曲のペア毎の比較のように、元のソースデータから抽出された選択された主観的プロパティからも導出される。

訓練に続いて、収束処理は、最終的に、意味論的及び感情的に知覚可能なコンテンツの類似性を評価するために、任意のデータファイルを他の予め評価されたデータファイルに関して評価できるようにする可変な機能をＡＮＮ内に設ける。

このように、少なくとも人工ニューラルネットワークの訓練フェーズ中、共通ソースに対して２つの独立ベクトルが生成される。第１のベクトルは、意味論に基づき、ソースデータ／ファイルの（典型的に）関連メタデータから導出され、第２のベクトルは、ソース／データファイルの主コンテンツ（例えば、ペイロード）から抽出される。これらの２つのベクトルは、第１のベクトルが人間による判断に基づき、第２のベクトルがハード、識別可能且つ絶対測定可能プロパティから抽出され、同一であるべきであるが、同一でなくてもよい。結果的に、感情的／知覚される非類似性又は近さを評価する真に代表的な予測ツールを生成するには、絶対測定可能プロパティの処理が最終的に人間による判断、すなわち意味論的特性の処理と同一の結果につながることが必要である。真の感情的知覚を反映するために、人間による判断に関する評価は、より重要度が高く、共に共通ソースから得られる識別可能且つ測定可能な有形プロパティの絶対評価を上回る。識別可能且つ測定可能な有形プロパティを処理する人工ニューラルネットワークにおいて適用された重み及びバイアス値に変化を強いることで、人間の知能、判断及び知覚による推理が反映されるように現実により近づけることができる。

１．意味論的空間内におけるコンテキスト説明の類似性／非類似性評価
ファイルの性質の初期の意味論的記述、例えば文中にコンテキストを含むコンテキストの記述及び特定の単語の使用は、最初に、例えば自然言語処理「ＮＬＰ」技術等を用いて多次元意味論的ベクトルに変換されるか又は「埋め込まれる」。コンテキストに沿って書かれた記述は、主観、知覚及び／又は感情に基づく人間による判断の尺度となる。

（例えば）Ｇｏｏｇｌｅ（登録商標）のユニバーサルセンテンスエンコーダがサポートするＮＬＰ及び特にＴｅｎｓｏｒｆｌｏｗ（商標）ハブは、テキスト分類、意味論的類似性、クラスタリング及び他の自然言語処理タスクに使用可能な高次元ベクトルにテキストを符号化する。現実的には、２つの意味論的に類似した記述のＮＬＰ処理は、類似したベクトル表現を生成する。

異なる注釈者からのテキスト形式の記述に幾分の差違が有り得るが、実行される処理の性質を考慮すれば、これらは、統計的に有意と考えられない。

テキスト及びベクトル表現の変換処理の選択は、設計上の選択肢であり、例えば、Ｔｅｎｓｏｒｆｌｏｗ（商標）を用いる処理は、トランスフォーマエンコーダ又は代わりに深層平均化ネットワーク（ＤＡＮ）による訓練に基づき得る。意味論的空間内で関連付けられたベクトルは、全体的な訓練の観点から技術的に重要である。

意味論的ベクトル化処理は、意味論的プロパティを有する絵画又は映画の形式の画像データ及び数値表現に変換可能な対応する美的記述子等、他の形式の媒体データに適用できる。

訓練シーケンス中、ＮＬＰから導出された多次元ベクトルは、ペア毎に他のＮＬＰから導出されたベクトルと比較されて、意味論的ベクトル空間におけるペア毎の意味論的近さの分離距離表現を識別する。これは、最初に、ペア毎の近さのユーザー主体の知覚を確立する。この意味において、用語「意味論的」及び「意味論的空間」等の使用は、任意の対応するベクトル又は値の起源が、ファイル、例えば音声トラックのコンテンツの人間の知覚的又は感情的（すなわち意味論的）特性の主観的に用意された記述から生じることを反映することが認識されるであろう。

ＮＰＬの好適な使用は、テキスト形式の記述子と、意味論的空間内のベクトル値との初期マッピングを提供する。同じ原理は、他の媒体、例えば映像、映画、絵画、衣類及び装飾の例示的な意味でのファッション（プロパティは、色及びパターン及びカバー等のテクスチュアである）だけでなく、画像を含む医療記録の分類にも適用可能であろう。

音楽学の観点からコンテキストを提供するために、リムスキーコルサコフの「熊蜂の飛行」を第１の音声訓練トラックとして取り上げるが、この音声トラックは、２つの単語「騒がしい」及び「軽い」の次元で記述することができ、ＮＬＰは、１００４５１２１１２のベクトル表現を、これらの２つのＮＬＰによって解決された用語のみを含むトラックに紐付ける。当然のことながら、言語次元の数は、２より多いことができるため、音声トラックの記述を、例えば、（ｉ）夕暮れ、復活祭、曇り等の時間的事象、及び／又は（ｉｉ）感情、及び／又は（ｉｉｉ）主題、例えば寓話若しくは事実、及び／又は（ｉｖ）環境等と共に生じる他の意味論的関連付けを含めるように拡張できる。

ベクトル「１００４５１２１１２」は、単に任意の例として提供され、実際には、特に単語／文次元の数は、音声トラックの記述的な文から導出することができる意味論的関連付けのみによって制限されるため、生成される多次元ベクトルは、全く異なる形式を取り得る。

この処理は、例えば、典型的には数千及び好適には少なくとも約１万以上の非常に多くの独立サンプルについて繰り返されて、コンテキストの例を提供するために用いられる音声トラック探索アプリケーションの多次元マトリクスを組み立てる。従って、上述の「熊蜂の飛行」及び例えばデルタヘビーによる電子楽曲「ホワイトフラッグ」又はグリーンデイが演奏する「ブールヴァードオブブロークンドリームズ」等、全ての訓練トラック間の意味論的類似性／非類似性が確立される。しかし、訓練集合のサイズは、処理能力、時間及び所望のレベルの達成可能な信頼性／正確さに応じた設計上の選択肢である。全てのペアを評価するのではなく、ペア毎の距離測度の極端な変化を選択してＡＮＮを訓練することも選択肢である。

結果的に得られる意味論的第１のベクトルは、好適な実施形態において、６４の別々の次元成分（但し、正確な数は、実装上の選択及び所望の正確さを反映する）の少なくとも倍数から組み立てられる。Ｔｅｎｓｏｒｆｌｏｗ（商標）ユニバーサルセンテンスエンコーダを用いる場合、意味論的記述の処理によって（意味論的空間内で）５１２次元のベクトルが生じる。結果的に、正確な意味論的ベクトル長は、設計上の選択肢であり、変化し得る。

意味論的ベクトルと、（以下により詳細に記述する）プロパティベクトルとが同じサイズであるか否かは、非類似性がペア毎に評価されるとシステムが見なすため、重要ではない。

２．抽出されたプロパティに基づく距離評価
（直前に概説し、以下の第３章で詳述するペア毎の意味論的近さに用いるファイルの意味論的記述とは対照的に）導出された「プロパティ」に基づいて第２の訓練処理で第２の独立ベクトルを生成する際、ニューラルネットワークの層内のノードに適用される重み付け係数は、バックプロパゲーションによって変化して、プロパティ距離空間（典型的にはユークリッド）内の結果を、（典型的にはユークリッド）意味論的分離距離（意味論的空間内の）の結果、従って本質的に元の意味論的記述に戻るように収束させる。

先に示したように、第１及び第２のベクトルのベクトル空間は、共通のソース及び１つのファイル由来であるにも関わらず、処理対象である入力データの入力特性が異なるという意味で異なる。ＮＬＰによる主観的記述題材の処理は、従って、意味論的空間（又は意味論的距離空間）内の第１のベクトルを生じるものと考えられるのに対して、識別されたプロパティに関する絶対値の処理から（たとえこれらのプロパティが選択可能な異なる数の信号プロパティとして表され得るとしても）、ＡＮＮの出力として「プロパティ空間」内の第２のベクトルが生じる。

好適な実施形態において、容易に理解できる変形形態、すなわち非ユークリッド幾何学ではなく、ユークリッド空間を用いる。

人工ニューラルネットワークは、ソースファイルの測定可能プロパティを操作可能なベクトル表現に変換するように機能する。変換は、第２の独立に生成されたベクトル、すなわち第２のベクトルを生成する。変換は、「特徴抽出」であると考えられる。（音声処理の例示的な場合における）好適な実施形態において、特徴抽出物、ＰｏｍｅｐｕＦａｂｒａＵｎｉｖｅｒｓｉｔｙ（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｓｔｒｅａｍｉｎｇ＿ｅｘｔｒａｃｔｏｒ＿ｍｕｓｉｃ．ｈｔｍｌを参照されたい）のＭｕｓｉｃＴｅｃｈｎｏｌｏｇｙＧｒｏｕｐによって開発されたＥｓｓｅｎｔｉａ（商標）アプリを用いて実現される。

Ｅｓｓｅｎｔｉａ（商標）（又はその機能的均等物）は、複数の音声記述子、例えば帯域エネルギー、帯域ヒストグラム及びソーストラックの他の測定可能な音楽プロパティを識別するためのソース音声ファイルの解析のための基盤を提供する既存のライブラリである。Ｅｓｓｅｎｔｉａ（商標）において、最大で１２７のこれらの音声記述子が存在する。音声記述子は、それぞれ音声信号の測定可能なパラメータの量子化表現であると考えられる。

音声ファイルの例示的コンテキストに戻り、Ｅｓｓｅｎｔｉａ（商標）をサポートする処理知能は、均等な分類メカニズムと同様に、ソースファイルからの特徴抽出を行う。部分集合内の音声記述子の適当なものを選択することは、より広範な音楽的態様又は各音声トラックの特性を定義し、例えば（Ｅｓｓｅｎｔｉａ内の１２７の音声記述子の可能な全体集合からの）音声記述子ビン１、１５、３２、３３及び１０８からの測定された量子化表現［名目的］の第１の部分集合をプログラマが組み合わせて「リズム」を定義することができる一方、音声記述子５～２１、４３、４５、５０、７１～７７及び１２３～１２７からの測定された量子化表現の部分集合は、「音質」を定義し、第３の異なる部分集合は、調性、すなわちパフォーマンスの調特性を定義することができる。これらの部分集合は、従って、サンプリングされたソース音声トラックの更なる音楽学的意味論的プロパティを提供する。

映像又は画像ファイル等の他の形式のソースファイルについて、代替的な測定可能パラメータがソースファイルから構文解析されて、使用可能な代替的プロパティを定義する。

上述のように、音声及び特に音声プロパティに関連して、音質、リズム、調性及びテクスチュアを用いて楽曲を記述することができる。音質、リズム及び調性のプロパティは、特に重要である。

３．測定可能な音楽的プロパティ
この点に関して、以下が認識されるであろう。「テクスチュア」は、一般に、スペクトルコンテンツの時間的進化に関する時間周波数空間内の２次元のパターンによって反映される。テクスチュアは、従って、周波数領域を時間領域に対してプロットするメルスペクトグラフ又はメルスペクトルに見られる。このようなメルスペクトル内では、進化するテクスチュアは、時間に伴って進化するパターン、例えば（ｉ）高／中周波数範囲で中断された水平スペクトル線、（ｉｉ）中及び高周波数範囲全体にわたり伸長する平行な垂直スペクトル線、及び（ｉｉｉ）低～中周波数範囲における上昇又は下降段階を識別することにより、（後述するように）ニューラルネットワークによって学習することができる。テクスチュアは、従って、プロパティ空間内で更に測定可能な尺度の提供を通して、本発明に関連してトラックの類似性／非類似性の評価に利用できる更なる補完的意味論的プロパティを提供する。

「リズム」は、音符の相対的持続期間及び相対的アクセント（ｈｔｔｐｓ：／／ｗｗｗ．ｎａｘｏｓ．ｃｏｍ／ｅｄｕｃａｔｉｏｎ／ｇｌｏｓｓａｒｙ．ａｓｐ？ｃｈａｒ＝Ｐ－Ｒ＃を参照されたい）に従う音符の配列と考えられる。明らかなように、リズムは、以下のように表すことができる（但し、これらに限定されない）。
ｉ）ビート及び音楽的スペクトログラムから計算され、集計値が平均及び分散を反映するビート音量（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＢｅａｔｓＬｏｕｄｎｅｓｓ．ｈｔｍｌ、及び
ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＢｅａｔＴｒａｃｋｅｒＭｕｌｔｉＦｅａｔｕｒｅ．ｈｔｍｌを参照されたい）、
ｉｉ）毎分ビート「ＢＰＭ」（ｈｔｔｐｓ：／／ｓｅｅｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＢｐｍＨｉｓｔｏｇｒａｍＤｅｓｃｒｉｐｔｏｒｓ．ｈｔｍｌ、及び
ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＢｅａｔＴｒａｃｋｅｒＭｕｌｔｉＦｅａｔｕｒｅ．ｈｔｍｌを参照されたい）、
ｉｉｉ）信号から計算され、集計値が第１及び第２のピークの高さ及び幅を反映するＢＰＭヒストグラム（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＢｐｍＨｉｓｔｏｇｒａｍＤｅｓｃｒｉｐｔｏｒｓ．ｈｔｍｌ、及び
ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＢｅａｔＴｒａｃｋｅｒＭｕｌｔｉＦｅａｔｕｒｅ．ｈｔｍｌを参照されたい）、
ｉｖ）踊り易さ（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿Ｄａｎｃｅａｂｉｌｉｔｙ．ｈｔｍｌを参照されたい）、
ｖ）オンセットレート（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＯｎｓｅｔＲａｔｅ．ｈｔｍｌを参照されたい）、
ｖｉ）ビート及び音楽的スペクトログラムから計算され、６帯域にわたる平均値及び分散によって反映される帯域毎のビート音量（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＢｅａｔｓＬｏｕｄｎｅｓｓ．ｈｔｍｌ及びｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＢｅａｔＴｒａｃｋｅｒＭｕｌｔｉＦｅａｔｕｒｅ．ｈｔｍｌを参照されたい）。

リズムのプロパティは、Ｅｓｓｅｎｔｉａの観点から６つの測定可能な属性の集合として示唆されるが、実際には、（例えば）特定の音楽学的属性の平均及び分散への言及によって反映されて、７つ以上の測定可能な属性がプロパティに寄与し得ることが認識されるであろう。「リズム」プロパティのために編集された多次元ベクトルは、従って、示唆されるＥｓｓｅｎｔｉａパラメータと異なり、リズムの音楽学的に有用な定義を与える他の測定可能な属性から形成できることが当業者に理解されるであろう。好適な実施形態において、名目的に１９の測定可能な属性がリズムの概念に割り当てられるが、他の数の属性を用い得る。

「調性」は、知覚される関係、安定性、魅力及び指向性の階層における音楽作品のピッチ及び／又は和音の配列である。この階層において、最大の安定性を有する単一ピッチ又は３和音をトニックと呼ぶ。調性は、従って、１つのトーン（トニック）が残りのトーンの中心位置となり、残りのトーンがトーンとの関係の観点から定義できる、トーンの集合織化された系統である（例えば、長又は短音階のトーン）。ハーモニーは、知覚的な調性の特性である。

以下で認識されるように、調性は、以下のように表すことができる（但し、これらに限定されない）。
ｉ）スペクトルの調和ピッチクラスプロファイル（ＨＰＣＰ）から計算される和音変化率（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＣｈｏｒｄｓＤｅｓｃｒｉｐｔｏｒｓ．ｈｔｍｌを参照されたい）、
ｉｉ）ＨＰＣＰから計算される和音数レート（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＣｈｏｒｄｓＤｅｓｃｒｉｐｔｏｒｓ．ｈｔｍｌを参照されたい）、
ｉｉｉ）ＨＰＣＰから計算され、集計値が平均及び分散を反映する和音強度（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＣｈｏｒｄｓＤｅｓｃｒｉｐｔｏｒｓ．ｈｔｍｌを参照されたい）、
ｉｖ）ＨＰＣＰから計算され、集計値が平均及び分散を反映するＨＣＰＣエントロピー（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＨＰＣＰ．ｈｔｍｌ、及び
ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿Ｅｎｔｒｏｐｙ．ｈｔｍｌを参照されたい、
ｖ）ＨＰＣＰから計算されるキー強度（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＫｅｙＥｘｔｒａｃｔｏｒ．ｈｔｍｌを参照されたい）、
ｖｉ）ＨＰＣＰから計算されるダイアトニック強度の調律（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＴｕｎｉｎｇＦｒｅｑｕｅｎｃｙ．ｈｔｍｌを参照されたい）、
ｖｉｉ）ＨＰＣＰから計算される平均律偏差の調律（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＴｕｎｉｎｇＦｒｅｑｕｅｎｃｙ．ｈｔｍｌを参照されたい）、
ｖｉｉｉ）ＨＰＣＰから計算される無調律エネルギー率の調律（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＴｕｎｉｎｇＦｒｅｑｕｅｎｃｙ．ｈｔｍｌを参照されたい）、及び
ｉｘ）ＨＰＣＰから計算される和音ヒストグラム（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＣｈｏｒｄｓＤｅｓｃｒｉｐｔｏｒｓ．ｈｔｍｌを参照されたい）。

調性のプロパティは、Ｅｓｓｅｎｔｉａの観点から、１０の測定可能な属性の集団として示唆されるが、特定の音楽学的属性の平均及び分散値への言及によって反映されるように、実際には１１以上の測定可能な属性がプロパティに寄与し得ることが認識されるであろう。調性プロパティのために編集された多次元ベクトルは、従って、示唆されたＥｓｓｅｎｔｉａパラメータと異なり、調性の音楽学的に有用な定義を与える他の測定可能な属性から形成され得ることが当業者に理解されるであろう。好適な実施形態において、名目的に３３の測定可能な属性が調性の概念に割り当てられるが、他の数の属性を用い得、これらは、量子化された測度のより大きい又は小さい粒度を適用することによって得られる。例えば、「和音ヒストグラム」は、２３次元ベクトルとして実装される。

別の測定可能な属性「和音強度」のＥｓｓｅｎｔｉａによる扱いの観点から、これは、移動ウインドウ（フレーム）による音声ファイルを構文解析して、各ウインドウ（フレーム）から値を抽出して数値のシーケンス（フレーム毎に１つの数値）を生成することによって計算される。次いで、シーケンスを用いてその平均及び分散を計算する。従って、好適な実施形態において、測度「和音強度」は、ちょうど２つの数値、すなわち上述のシーケンスの平均及び分散に割り当てられる。本例は、例えば、リズム又は調性等のプロパティを反映するように生成された多次元ベクトルが、ユーザーに受け入れられるプロパティの定義を与えるのに十分なスペクトル情報を含むとしても、識別されたプロパティの評価に用いる測定値が、Ｅｓｓｅｎｔｉａでなされた推奨からどの程度逸脱し得るかを示す。

「音質」は、比較的難解な測度であり、音声のスペクトログラムを介して測定可能な音声の複雑度に現われる。音質は、楽音、音声又はトーンの知覚された音声特性である。音質は、合唱の声及び弦楽器、管楽器及び打楽器等の楽器等、異なる種類の音声生成を区別する。また、同じカテゴリの異なる楽器（例えば、共に木管楽器であるオーボエ及びクラリネット）をリスナーが区別できるようにする。音質の知覚を表す音声の物理的特徴は、音声スペクトル及び信号エンベロープを含み、音質は、音声が同じピッチ及び音量を有したとしても、音声を識別する能力を与える。

以下で認識されるように、音質は、以下のように表すことができる（但し、これに限定されない）。
ｉ）バーク帯域フィルタリングされたスペクトログラムから計算され、識別されたバーク周波数範囲の平均及び分散を集計したバーク帯域頂部（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｒｅａｍｉｎｇ＿Ｃｒｅｓｔ．ｈｔｍｌ、及び
ｈｔｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｂａｒｋ＿ｓｃａｌｅ＃Ｂａｒｋ＿ｓｃａｌｅ＿ｃｒｉｔｉｃａｌ＿ｂａｎｄｓを参照されたい）、
ｉｉ）バーク帯域フィルタリングされたスペクトログラムから計算され、識別されたバーク周波数範囲の平均及び分散を集計したバーク帯域平坦度ｄｂ（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＦｌａｔｎｅｓｓＤＢ．ｈｔｍｌを参照されたい）、
ｉｉｉ）バーク帯域フィルタリングされたスペクトログラムから計算され、識別されたバーク周波数範囲の平均を集計したバーク帯域尖度（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＤｉｓｔｒｉｂｕｔｉｏｎＳｈａｐｅ．ｈｔｍｌを参照されたい）、
ｉｖ）バーク帯域フィルタリングされたスペクトログラムから計算され、識別されたバーク周波数範囲の平均及び分散を集計したバーク帯域歪度（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＤｉｓｔｒｉｂｕｔｉｏｎＳｈａｐｅ．ｈｔｍｌを参照されたい）、
ｖ）バーク帯域フィルタリングされたスペクトログラムから計算され、識別されたバーク周波数範囲の平均を集計したバーク帯域幅（集計値が平均及び分散を反映する音声信号のスペクトログラムから計算されるスペクトル複雑度を参照されたい）（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＤｉｓｔｒｉｂｕｔｉｏｎＳｈａｐｅ．ｈｔｍｌを参照されたい）、
ｖｉ）音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトル不協和音（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿Ｄｉｓｓｏｎａｎｃｅ．ｈｔｍｌを参照されたい）、
ｖｉｉ）音声信号のＲＭＳエンベロープから計算される動的複雑度（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＤｙｎａｍｉｃＣｏｍｐｌｅｘｉｔｙ．ｈｔｍｌを参照されたい）、
ｖｉｉｉ）音声信号のスペクトログラムから計算され、平均を集計した高周波コンテンツ（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＨＦＣ．ｈｔｍｌを参照されたい）、
ｉｘ）音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するピッチ顕現性（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＰｉｔｃｈＳａｌｉｅｎｃｅ．ｈｔｍｌを参照されたい）、
ｘ）音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトル複雑度（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＳｐｅｃｔｒａｌＣｏｍｐｌｅｘｉｔｙ．ｈｔｍｌを参照されたい）、
ｘｉ）音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトルエネルギー高周波（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＥｎｅｒｇｙＢａｎｄ．ｈｔｍｌを参照されたい）、
ｘｉｉ）音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトルエネルギー低周波（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＥｎｅｒｇｙＢａｎｄ．ｈｔｍｌを参照されたい）、
ｘｉｉｉ）音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトルエネルギー中高周波（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＥｎｅｒｇｙＢａｎｄ．ｈｔｍｌを参照されたい）、
ｘｉｖ）音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトルエネルギー中低周波（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＥｎｅｒｇｙＢａｎｄ．ｈｔｍｌを参照されたい）、
ｘｖ）音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトルエントロピー（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿Ｅｎｔｒｏｐｙ．ｈｔｍｌを参照されたい）、
ｘｖｉ）音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトル束（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｒｅａｍｉｎｇ＿Ｆｌｕｘ．ｈｔｍｌを参照されたい）、
ｘｖｉｉ）音声信号のスペクトログラムから計算され、平均値を集計したスペクトル尖度（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＤｉｓｔｒｉｂｕｔｉｏｎＳｈａｐｅ．ｈｔｍｌを参照されたい）、
ｘｖｉｉｉ）音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトル強ピーク（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＳｔｒｏｎｇＰｅａｋ．ｈｔｍｌを参照されたい）、
ｘｉｘ）音声信号から計算され、平均及び分散を集計したゼロ交差率（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＺｅｒｏＣｒｏｓｓｉｎｇＲａｔｅ．ｈｔｍｌを参照されたい）、
ｘｘ）音声信号のスペクトログラムから計算され、平均を集計したＭＦＣＣ（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＭＦＣＣ．ｈｔｍｌを参照されたい）、及び
ｘｘｉ）音声信号から計算され、ピーク及び谷の両方の平均及び分散を集計したスペクトルコントラスト（ｈｔｔｐｓ：／／ｅｓｓｅｎｔｉａ．ｕｐｆ．ｅｄｕ／ｄｏｃｕｍｅｎｔａｔｉｏｎ／ｒｅｆｅｒｅｎｃｅ／ｓｔｄ＿ＳｐｅｃｔｒａｌＣｏｎｔｒａｓｔ．ｈｔｍｌを参照されたい）。

音質のプロパティは、Ｅｓｓｅｎｔｉａの観点から、２１の測定可能な属性の集団として示唆されるが、特定の音楽学的属性の平均及び分散値への言及によって反映されるように、実際には２２以上の測定可能な属性がプロパティに寄与し得ることが認識されるであろう。「音質」プロパティのために編集された多次元ベクトルは、従って、示唆されたＥｓｓｅｎｔｉａパラメータと異なり、音質の音楽学的に有用な定義を与える他の測定可能な属性から形成され得ることが当業者に理解されるであろう。好適な実施形態において、名目的に７５の測定可能な属性が音質の概念に割り当てられるが、上記の通り且つ音楽学者に理解されるように、他の数の属性を用い得、これらは、量子化された測度のより大きい粒度を適用することによって得られる。

音声トラック評価及びトラック探索に関連して、調性、リズム及び音質のプロパティは、ソースファイルの主観的特性の測定を客観的に評価できる基礎を与える点で重要である。これらのプロパティは、上述のように、Ｅｓｓｅｎｔｉａ（商標）属性若しくはこれらのＥｓｓｅｎｔｉａ（商標）信号属性の部分集合又は適当な音声記述子を識別する均等なライブラリから導出することができる。実際、以下で認識されるように、本発明は、リズム、調性及び音質のプロパティのために１９、３３及び７５の量子化表現を選択し、これらの一部がＥｓｓｓｅｎｔｉａ（商標）ツールボックスと重なるのに対して、他のものは、変型又は異なる信号測度である。結果的に、量子化表現の数は、一定ではなく、評価対象である特定のプロパティの定義にいずれの信号属性が必要とされるかについて音楽学者が考えるところによれば可変である。

上記を前提として、当業者がどのように又は実際に同化処理で用いるのに適したプロパティの定義にいずれの測定可能な属性を選択するかは、設計上の選択肢である。リズムのプロパティは、例えば、Ｅｓｓｅｎｔｉａ測定のあるものを含めるか又は除外するために確認できるため、ある面では、評価対象のプロパティは、本来、技術的であり、既存の技術的処理によって測定可能であるのに対して、どのようなものが「プロパティ」に該当するかの一貫した定義が欠如することは、意外ではないにしても、技術的に整合しないことが理解されるであろう。むしろ、ファイルのコンテンツのプロパティは、ある程度難解且つ主観的である。しかし、重要であるのは、プロパティ空間内の決定的であるが、主観的に組み立てられた測定可能対象の、独立であるが、完全に関連且つ対応する意味論的空間内の意味論的評価へのマッピングである。

４．人工ニューラルネットワーク（ＡＮＮ）
本発明の各種の態様及び実施形態の概念に従い、プロパティ空間内でのペア毎の類似性／非類似性は、意味論的空間内の初期の意味論的類似性／非類似性（例えば、表現的且つ主観的言語記述）に逆マッピングされる。これは、並列動作する複数のニューラルネットワークを含み得る多段階処理である。複数の並列ＡＮＮの使用によって音楽的モダリティの制御が可能になるが、単一のＡＮＮを用いることも可能である。本発明の態様は、抽出されたプロパティを処理して、プロパティ空間内の非類似性を評価するニューラルネットワークの訓練に関する。

図１は、ファイル（特に音声ファイル）の非類似性を評価する好適な処理１００及び本発明によって人工ニューラルネットワークを訓練することができる処理のフロー図を示す。図１は、従って、第１章「意味論的空間内におけるコンテキスト説明の類似性／非類似性評価」に関して上記で述べた処理に対応し、且つ拡張するものである。

音声ファイルは、根本的な処理の例として用いられ、なぜなら、音声ファイル、特に音楽ファイルは、個々の人間の知覚から主観的に解釈できるからである。

数百（好適には数千）のソースファイルの訓練集合としてファイルのペアが選択（１０２）されて、ＡＮＮ評価を通して意味論的に対比される。第１の経路において、ＮＬＰを用いて、人工ニューラルネットワークは、各ファイル、例えばペアの音声トラック毎に関連するテキスト形式のメタデータに含まれる（又は付随する記述としての）意味論的意味のための表現ベクトルを抽出（１０４）、すなわち生成する／埋め込む処理を実行する。その結果、典型的に、導出された意味論的意味を、評価対象になり得る操作可能な値として表すＴｅｎｓｏｒｆｌｏｗ（商標）（など）から５１２次元ベクトルが生成（１０６）される。

ＡＮＮは、従って、訓練集合内の全てのＮファイル間のベクトル形式の分離距離を効果的に表形式し得、ここで、Ｎは、典型的に、５００、一般に数千よりも多いファイルである。サンプル数が増えると処理の複雑度が増大するものの、訓練シーケンスのサンプルが多いほど、粒度及び付随する信頼度が高くなる。要するに、サンプルが多いほどよい。しかし、ＡＮＮの訓練選択肢として、この処理は、距離分離が極めて類似又は極めて非類似であることを示すペアの副次選択を行うことができ、すなわち、訓練は、極端な状況に基づき得る。

この時点において、相対的な距離分離を表形式にすることは、絶対距離が分離距離値（例えば、５測定単位、５７測定単位又は１０１３単位）の観点から存在するものの、多次元空間内の類似性／意味論的近さのスケーリングされた値を反映しない点で抽象的である。Ｎが十分に大きいと仮定すれば、ファイル（トラック）毎に、Ｎ個のファイルの少なくとも合理的に特定の数ｍ（正の整数であり、ｍ＜＜Ｎ）が類似又は非類似であることが分かる。

好適な実施形態において、訓練集合内の各ソースファイル、例えば楽曲「Ａ」に対して、意味論的距離ベクトル空間内で任意の数、例えば１０の最も近いベクトルが選択される。これにより、密接に意味論的に関連する楽曲のグループ又はクラスタが形成される。統計的に、数千又は恐らく数万のソースファイルの訓練集合内で全体の０．１％を［均等物として］クラスタリングすることは、可能な意味論的近さの観点から統計的に受容可能である。実際、合理的な訓練シーケンス内の楽曲全体に関して、近さとは、約０．０５％～約１％の範囲にあると見なすことができるが、パーセンテージ値の増大に伴ってユーザーが知覚する音声非類似性も増大する可能性が高い。

楽曲「Ａ」に対して、システム知能は、「ｍ」（例えば、１０且つｍ≧１）個の最も近い楽曲が、ユーザーが近いと知覚する意味で意味論的に類似すると見なすように構成される。これは、楽曲「Ａ」のベクトルの周辺のｍ個の楽曲間の距離をゼロに設定し、次いでデータレコード内に記録することによって反映される。ｍ個の最も近いもの以外の全ての楽曲に対して、システム知能は、これらの曲が非類似的、すなわちこれらの他の（ｍ個でない）楽曲がかけ離れているとユーザーが知覚する意味で意味論的に非類似的であると見なすように構成される。結果的に、楽曲「Ａ」に対して非類似的な楽曲が距離１を有するとして識別される。従って、評価された各音声トラックに対して、システムによって検索可能且つアクセス可能なレコードとして２＊ｍペアのレコードが生成及び保存される。ｍに等しい値を選択することにより、ニューラルネットワークの訓練が（類似性又は非類似性の観点から）一方又は他方の極端値に偏らないことが保証される。

ＡＮＮの処理負荷は、以下で理解されるように、殆どの場合、訓練処理のある時点で合理化（１１４）することができる。具体的には、ＡＮＮの最適化された訓練は、類似した値が大量にある場合よりも、極端な場合を用いる訓練を通して実現される。結果的に、任意のペア毎の関連付けに対して、最も遠く離れた及び最も近い分離距離を用いることで、ＡＮＮのニューロンに適用される適用重みを改良する時間が短縮される。

上記の第１章「意味論的空間内におけるコンテキスト説明の類似性／非類似性評価」で概説したように、「第１のベクトル」の形式での第１の意味論的基準は、従って、ＡＮＮ訓練の基準として確立される。

元のソースファイル（例えば、音声トラック）に戻り、査定及び評価のための第２の経路１２６は、再びＮ個のファイル（例えば、Ｎ個の音声トラック）の全訓練空間にわたる象徴的パターンをペア毎に探索する。特に、上述の第２章「抽出されたプロパティに基づく距離評価」で述べたように、この処理は、ソース（音声）ファイルペアを構文解析して、上述の［音声／音楽の特定の例示的コンテキストにおける］第３章「意味論的プロパティ」で説明したように信号特性の量子化表現のビンを生成することにより、信号属性の特徴抽出１３０を実行する。信号特性の量子化表現の個々のビンは、次いで、適切に識別及び選択的にグループ分け（１３２）されて、プロパティ空間内でより絶対的に評価及び操作可能な意味論的／主観的音楽学的プロパティ、すなわちリズム、調性、音質及びテクスチュアを定義することができる。

図２及び図３の処理を参照する。

図２は、好適な実施形態による人工ニューラルネットワークを含むシステムを訓練するシステムアーキテクチャの概略図である。図３は、ソースファイル間のプロパティ類似性及びプロパティ非類似性を識別するために、意味論的ベクトル空間をプロパティベクトル空間と同化するように図２のニューラルネットワークを訓練する好適な処理に関するフロー図である。

ペア毎に、Ｎ個のファイルの２つのファイル（例えば、デジタル音声ファイル３０２、３０４）がファイルの訓練データベース３０６から選択されて、システム３００による評価及び解釈に供される。システム３００は、サーバ又は対話型プロセッサの分散処理システムによってサポートされるより一般的なシステム知能内に実装され得、複数の人工ニューラルネットワークを含む。

上述のように、（音声ファイル処理の例示的な場合のコンテキスト又は画像等の異なる形式のソースファイルであるかによらず、Ｅｓｓｅｎｔｉａ又はその機能的均等物等の）特徴抽出器３０１内における各々の選択された音声ファイルの初期処理により、信号特性の量子化表現のビンが生成され、これらのビンは、選択可能にグループ分けされて、異なる意味論的プロパティＰ、例えば音質「ＰＴｉ」、調性「ＰＴｏ」及びリズムＰＲを数値的に表す複数の出力の各々を定義する。音声トラック毎のこれらの主観的プロパティの数値表現（例えば、ＰＴｏ₂は、トラック２から抽出された調性のプロパティである）は、各プロパティの評価処理における重みを最適化する専用の並列ニューラルネットワークへの入力として共通に適用される。

音声ファイル及びトラック探索システムに例示的に関連して、リズム「ＮＮ_R」３１０、調性ＮＮ_TO３１２、音質ＮＮ_TI３１４及び音楽的テクスチュアＮＮ_TX３１８に対して独立したＡＮＮが存在する。

音楽的テクスチュアは、特殊な場合であり、異なる処理フローを必要とする。音楽的テクスチュアについて以下により詳細に記述する。

画像等の他の訓練データの処理及び評価に対してより多い又は少ない並列ＡＮＮチェーンが存在し得る。図２に番号４で示すＡＮＮチェーンは、独立した処理経路、分岐又は経路、従ってネットワークのサブネットワークと見なすことができる）。数は、意味論的に区別可能なプロパティの数のみに関係する。システムは、実際には、複数パスでデータを処理して、評価に適した合成結果に至る単一のチェーンのみで動作することができる。

リズム「ＮＮ_R」３１０のためのＡＮＮは、従って、「リズム」プロパティのみの入力表現を受信するが、これは、（好適な実施形態において）１９の成分、すなわち１９の抽出された信号属性のベクトルから組み立てられる。調性「ＮＮ_TO」３１２のためのＡＮＮは、従って、「調性」プロパティのみの入力表現を受信するが、これは、（好適な実施形態において）３３の成分、すなわち３３の抽出された信号属性のベクトルから組み立てられる。音質「ＮＮ_TI」３１４のためのＡＮＮは、従って、「調性」プロパティのみの入力表現を受信するが、これは、（好適な実施形態において）７５の成分、すなわち７５の抽出された信号属性のベクトルから組み立てられる。

上述のように、各プロパティの定義は、各ビンの抽出された信号表現の数及び／又は属性の性質の観点から変化し得る。従って、音声ファイルの明示的コンテキスト及びＥｓｓｅｎｔｉａの使用において、利用可能な属性信号ビン（例えば、音質のバーク帯域平坦度ｄｂ及び動的複雑度を含む）の全てを用い得、一部を用いるか、又は上記で言及しなかった他のものを代わりに若しくは別途数を拡張して用いることができる。「プロパティ」の定義は、従って、（ある程度）主観的であるが、この主観性は、プロパティの定義への一貫したアプローチが採用される場合に無関係である。換言すれば、プログラマは、信号属性の所望の測度を識別及び選択することによって主観的プロパティをどのように定義するかを決定することができる。

リズム「ＮＮ_R」３１０、調性ＮＮ_TO３１２、音質ＮＮ_TI３１４及び音楽的テクスチュアＮＮ_TX３１８のためのＡＮＮは、従って、これらのプロパティの差違の要因である重み値を判定及び改良し、重み及びバイアスは、訓練集合全体及び各々の訓練可能なパラメータの適当な調整の探索をタスクとするバックプロパゲーションアルゴリズムを含む反復的処理によって改良される。バックプロパゲーションの処理は、当業者に理解されるため、何を整合させるかの意図並びに本明細書に記述するアーキテクチャ及び処理によって実現される目的及び利点を指摘することが重要である。

音楽的テクスチュアの課題も、コンテンツプロパティ尺度（ペア毎の比較によって各トラックの測定可能プロパティのベクトル表現から導出される）を意味論的尺度（ペア毎の比較によって各トラックの意味論的記述のベクトル表現から導出される）に同化させるうえで果たす役割があることが分かっている。

本発明のいくつかの実施形態によって採用されたアプローチは、従って、厳密な機械学習よりも人間の感情的知覚が重要であることを強調するため、ＡＮＮの動作に際して絶対的数値データの解釈に基づく統計的マッピングよりも人間の知覚に重点を置く。

図４を簡単に参照すると、音声トラックの典型的なメルスペクトル５００が示されている。以下で理解されるように、メルスペクトグラフ（メルスペクトルとしても知られるか又は言及される）は、人間の聴覚系の解像度に概ね類似する疑似対数間隔であり、従って音楽的なより「生物学的に影響された」知覚測度である。メルスペクトルは、周波数の非線形メルスケールで示す対数パワースペクトルの線形余弦変換に基づく、周波数スペクトル全体にわたる音声の短期パワースペクトルの表現である。メルスペクトルにおいて、（名目的に）５０Ｈｚ～１００Ｈｚの周波数ビンにおけるパワースペクトルを考慮することは、より高い周波数でより広い周波数範囲、例えば４００Ｈｚ～８００Ｈｚだけでなく、１０ｋＨｚ～２０ｋＨｚにわたるパワースペクトルを考慮することと同等であろう。どのようにメルスペクトルが生成されるかの処理は、これらの周波数ビンが音楽的解釈の観点から知覚的に等しく重要であるために公知である。

更に、断片毎に変化し、従ってメルスペクトルに影響を及ぼし得る音楽的主題を音声トラックが有し得ることに留意しながら、好適な実施形態を説明するために、音声、従って抜粋されたウインドウ内での主題は、比較的一定であると仮定される。当然のことながら、代わりに、クイーンの「ボヘミアンラプソディ」等の音声トラックを、それぞれ意味論的空間内の離散的評価処理に供される断片に分割し得る。

メルスペクトルは、単に部分的サンプルであるだけでなく、時間領域及び周波数領域の両方に次元を有する点で複雑な性質も有する。時間領域及び周波数領域成分の結果的に得られる２次元マトリクス内において、注目するパターンの隔離によって主題を識別することができる。このような注目するパターンは、時間（横座標）に対して周波数（縦座標）をプロットしたスペクトル成分に見ることができる。すなわち、ｉ）中高周波数範囲全体にわたり伸長する平行な垂直線５０２、ｉｉ）中高周波数範囲で中断された水平線５０４、ｉｉｉ）低中周波数範囲で上昇（５０６）又は下降（５０８）する段階。他のパターンも、以下で理解されるように、これらの発見可能事象を有するメルスペクトルと共に存在する。

プロパティテクスチュアは、従って、メルスペクトルの解析及び特に図２のシステム３００の訓練で用いるプロパティ空間内の追加的なベクトル成分を提供するＡＮＮによるパターン及び傾向の識別から導出することができる。

テクスチュアへの寄与を含む、各ＡＮＮからの出力は、次いで、訓練シーケンス／訓練データ集合で用いられたトラック毎に、各トラックのプロパティ毎に複数の出力ＯＲ_x、ＯＴＯ_x、ＯＴＩ_x及びＯＴＸ_x（ｘは、関連するトラック番号、すなわちトラック１又はトラック２を表す）から連結又は他の方法で組み立てられた多次元出力ベクトルにプロパティ空間内の出力として組み立てられる。各出力ベクトルの厳密な長さは、ある程度の設計上の自由度を有し、その長さは、プロパティ空間内での客観的な評価及び区別が可能な程度に十分であるように選択される点に留意されたい。好適な実施形態において、各々の本質的に並列処理された各ＡＮＮチェーンからの出力は、リズム、調性、音質及びテクスチュア（後者は、以下に述べるように異なる処理を要する）のプロパティ毎に６４次元の出力ベクトルＯＲ_x、ＯＴＯ_x、ＯＴＩ_x及びＯＴＸ_xに寄与する。

再び図２を参照すると、選択されたファイルのペア（この例示的な場合にはデジタル音声トラック）３０２、３０４の各々に対してメルスペクトル５００が生成される。この処理は、当業者によく理解されるであろう。両方のトラックは、最初に畳み込みニューラルネットワーク「ＣＮＮ」３２０内で処理されてトラック毎に個々のベクトル出力が得られ、次いでテクスチュア評価のために、割り当てられたＡＮＮ（ＮＮ_Tx３１６）によって処理及び解釈される。ＮＮ_Tx３１６は、従って、リズム、調性及び音質のベクトルを評価及び埋め込む役割を有する他のニューラルネットワークと並列である。ＮＮ_Tx３１６からのトラック１、２に対する各ベクトル出力ＯＴＸ₁、ＯＴＸ₂は、好適な形式において６４次元ベクトルでもあり、これらの出力の各々が次いで各トラック（ＯＲ_x、ＯＴＯ_x、ＯＴＩ_xとラベル付けされた）の他の３つのベクトルと連結又は他の方法で組み立てられて、各トラック１、２に対して２５６次元ベクトルが生成される。この２５６次元ベクトルは、再び厳密な長さが上述のように設計上の選択肢であり、上述の「ユークリッド空間内の第２のベクトル」である。

システム知能は、意味論的空間内の距離測度（４つの出力ＯＲ_x、ＯＴＯ_x、ＯＴＩ_x及びＯＴＸ_xから組み立てられた各々のトラックのペア毎に組み立てられた合成の第２のベクトル間で生じた）を、プロパティ空間の対応する距離測度と共に評価するように機能する比較器３３０を含む。システム知能は、従って、２つの空間の間の関連を確立する。システムがベクトル間の距離を比較するように動作する方法の一例として、システム知能は、二乗絶対距離計算を利用することができる。

システム知能は、次いで、第１のベクトル及び第２のベクトルを動作ビューと対比して、第２のベクトルを第１のベクトルの近さの評価に整合させるように機能する。換言すれば、システム知能は、（テキスト形式の評価に基づく）意味論的距離をプロパティ距離と対比する。異なる言い方をすれば、（ソースファイルの人間によって生成された記述に基づく）意味論的空間の第１のベクトルを用いて、プロパティ空間内の（コンテンツの抽出された測定可能プロパティに関連付けられた）第２のベクトルを評価することにより、ＡＮＮ内の重みを変えることを通して第２のニューラルネットワークの出力を第１のニューラルネットワークの意味論的結果に収束させることができる。その目的は、再結合された連結出力［及び特に訓練トラック間の差違３３０に関して評価されたユークリッドプロパティベクトル］も０～１のスケールで表すことができ、リズム「ＮＮ_R」３１０、調性ＮＮ_TO３１２、音質ＮＮ_TI３１４及び音楽的テクスチュアＮＮ_TX３１８）のためのＡＮＮの各々のニューラルネットワーク重みが調整されて、ユークリッドプロパティ距離測度３３０が意味論的量子化距離を複製する傾向があり、すなわち好適には複製することである。量子化アプローチにおいて、ハードレベルではなく、他のスケーリングが適用され得る。

特に、リズム「ＮＮ_R」３１０、調性ＮＮ_TO３１２、音質ＮＮ_TI３１４及び音楽的テクスチュアＮＮ_TX３１８の各ＡＮＮで適用される重み係数がバックプロパゲーションの既知の処理によって調整されることにより、比較されるペア毎のトラック／ファイル間のユークリッドのプロパティ距離測度３３０の結果は、意味論的空間内の距離測度に収束し、理想的且つ最終的に高い正確度で相関を示す。以下で理解されるように、バックプロパゲーション処理は、従って、識別可能なファイルプロパティの定義に用いられる客観的に測定可能な信号属性を対比することに基づいて適用された重みを調整することにより、各ニューラルネットワークを訓練する。

第１の経路全体が意味論的空間内で処理され、第２の経路が、主観的に評価されたプロパティの測定可能な特性に基づいて測定されたプロパティ空間に押し込まれた２つの独立経路を評価する効果により、人間による近さ又は非類似性のいずれかの知覚とより密接に整合する感情的に知覚されるシステムが生成される。異なるジャンルの音楽間のトラックを探索することに例示的に関連する効果は、初期調査で異なるトラックの差違が際立っているため、無関係な音楽ジャンルであるように客観的に見えたとしても、これらのトラック間に定量的により多くの且つ定性的により良好な関連付けがなされることである。これは、関連コンテンツを新規又は既存のユーザーに推奨できる改良され且つ信頼性が高い推奨ツールを提供する際のコールドスタート等の問題解決が前進したことを表す。実際、処理及びシステムのアーキテクチャは、意味論的意味の言語から独立した埋め込みを可能にする程度まで感情的に知覚される。これは、例えば、意味論的解釈又は結果に影響を及ぼすことなく、中国語と英語との重ね合わせが可能であることを意味する。

客観的ユークリッド空間内での音声作品の意味論的プロパティの評価の更なる要素として、メルスペクトグラフが畳み込み状のニューラルネットワーク「ＣＮＮ」を通して処理されて、音楽的「テクスチュア」の、主観的であるが、補完的な概念のベクトル成分表現を生成する。

図５は、メルスペクトル解釈に割り当てられた人工ニューラルネットワーク内の畳み込み及びプーリング層、特に評価対象のトラック内の重要な音楽的パターン及び傾向の識別に必要な深層学習を示す。畳み込み処理は、スペクトル入力マトリクス６００の２次元的性質を対象とする。

上述のように、メルスペクトルは、プロパティ空間内でのプロパティの類似性／非類似性評価のための更なる成分の役割を果たすテクスチュアを反映する時間と共に変化するパターンを含む。２次元のメルスペクトログラムにおけるこれらのテクスチャ的傾向を識別するために、畳み込みニューラルネットワーク内のフィルタは、メルスペクトログラムのパターンを識別するために、特に入力マトリクス内のパターン／傾向の識別において高い信頼度を表すフィルタ出力を生成する、これらの各フィルタ内で最適化されたパラメータ値を識別するように訓練される。このように、各フィルタ内のパラメータは、ＡＮＮの動作の性質から理解されるように、各フィルタが、望ましい主観的プロパティ、例えば調査対象のトラックのメルスペクトルに含まれるリズム及び／又はメロディのパターンに関連する特定の入力を検出できるように調整される。

この点に関して、テクスチュアのためのＡＮＮの処理の連鎖は、連続的な畳み込み層を含む。例えば、層１、３及び５は、それぞれ１２８、１２８及び６４のニューロンを有すると共に、各フィルタのカーネルサイズ［すなわちフィルタマトリクスの大きさ］が３である畳み込み層として実装され得る。訓練中、スペクトル入力マトリクス６００にわたり段階的に［最初に未訓練の、次いで改良されたパラメータの集合を有する］フィルタ６０２が発展する。フィルタ６０２を入力データに適用することにより、出力マトリクス６０４は、重なりマトリクス内の入力値間で肯定的なマッチング結果を与える。例えば、簡単な例として以下の通りである。

反復的な段階において、フィルタ内のパラメータの値が次いで変更され、２Ｄ入力が再実行されて、新たなフィルタ係数が同じ入力データに対してより良好な又は劣ったマッチング結果をもたらすか否かを判定する。例えば、以下の通りである。

２Ｄ入力データ内の全ての可能なフィルタ位置を通過することで、肯定的結果の更なる結果マトリクス６０４が得られ、これは、ＡＮＮがマッチングを最大化するためにフィルタ係数／パラメータの最適化を試みることを表す。図５において、結果マトリクスは、０及び１が示す劣悪なマッチング率に比べて値が４であり、フィルタ６０２との相関が高い、従ってマッチング率が高く、入力データ内に興味深いパターンが識別される可能性が高くなることを示す。

任意のＣＮＮと同様に、フィルタが多いほど、より多くのパターンを識別できるが、代償としてより多くのパラメータ及びより多くの訓練データが必要となる。

好適には、便宜上の理由により、各々の畳み込み後、適当なカーネルサイズ、例えば２×２マトリクス／カーネルを有する最大プーリング層が続く。最大プーリングアプローチの効果を図５の下側に示し、結果マトリクス６０６が間引かれて、連続的な畳み込みフェーズで処理される新たなより小さい入力マトリクスが生成される。以下で理解されるように、最大プーリングは、出力の１ブロックに注目し、より小さい値は、統計的に後続処理に無関係であるとの仮定に基づいて解析されたブロック内で最大値以外の全ての値を拒否する。図５において、２×２最大プーリングアプローチを先の畳み込み段階からの４×４入力マトリクスに適用することで４つの独立ブロックが得られ、これらのブロックの各々が４つの（結果）値を含む。最大プーリング結果は、従って、得られた最大値のみが保持される第１の２×２最大プーリング済みマトリクス６０８である。この第１の２×２最大プーリング済みマトリクス６０８は、次いで、連続的な畳み込み層に入力される。結果的に、最大プーリングは、マトリクスの動作次元を下げて、ＡＮＮの異なる（連続的な）層全体にわたり次元を下げる。

最大プーリングアプローチを用いることで、各ニューロンが学習を必要とするパラメータを導入し、入力マトリクスサイズの制約がデータの量を減らす（さもなければパラメータ／重みを計算する際の不適当な粒度及び不正確さを緩和することが必要になる）ため、計算効率が向上する。

ＣＮＮは、従って、典型的には最大プーリング層によって分散されたいくつかの畳み込み層を含む。

最後の最大プーリング済み層の出力は、平坦化、すなわち全てのマトリクス列が連結されて、テクスチュア評価、すなわち音楽的テクスチュアＮＮ_TX３１８のための専用ニューラルネットワークへの入力として機能する単一のベクトルを形成する。

特に図６に関連して示すＡＮＮの一般的な形式及び動作を議論する前に、ＣＮＮ２３０からの平坦化された出力は、好適には最適化された深層学習の修正された線形装置（「ＲｅＬＵ」）活性化関数を有する専用テクスチュアニューラルネットワークＮＮ_TX３１８の２５６のニューロン隠れ層に入力される（例えば）６４次元のベクトルとして適用されることに留意されたい。テクスチュアニューラルネットワークＮＮ_TX３１８は、その出力において、メルスペクトル成分Ｏ_TX1、Ｏ_TX2の各々を表す６４次元ベクトルを（活性化された一次関数の形式で）提供し、ベクトルＯ_TX1、Ｏ_TX2は、各々のファイルの評価されたプロパティ、すなわち調性、音質及びリズムを表す他の出力ベクトルと組み立てられる。２つのペアをなすファイルの各々について結果的に得られた２５６次元ベクトルは、次いで、上記で述べ、且つ図２に示すように、ユークリッド空間内の距離評価の対象となる。

ＣＮＮの初期／上部畳み込み層は、メルスペクトル［すなわちＣＮＮの入力］内で注目するこれらのパターンの識別を可能にするために使用可能なパラメータ機能を定義するためにニューラルノード全体にわたり適用されるフィルタ重み付けを識別するように機能する。フィルタマトリクスのパラメータ６１２～６２０の値は、従って、代替値の実行可能性を試験して出力を最適化する反復及びバックプロパゲーションによって学習され、最適化は、ソース入力データ及び訓練集合の変化するソース入力全体にわたる連続的なパスを通して実行される。

図６は、図２の各種のＡＮＮプロパティ処理チェーン内で用いられる人工ニューラルネットワーク７００の表現である。

リズム「ＮＮ_R」３１０、調性ＮＮ_TO３１２、音質ＮＮ_TI３１４及び音楽的テクスチュア（畳み込み処理後の）ＮＮ_TX３１８のためのＡＮＮの各々は、マルチニューロン入力層又はレベル７０２に続いて少なくとも同数の個別ニューロン７０４～７１８をマルチニューロン入力層又はレベル７０２として含む少なくとも１つ且つ通常複数（第１～第ｋ）の隠れニューロン層を含む。第ｋの隠れ層は、出力レベル７２０を提供し、出力でのニューロンの数は、一般に、先行する第ｋの隠れレベル内のニューロンの数よりも少ない。

基本ニューロンマッピングの観点から、（例えば、第１の入力層内の）各ニューラルからの出力は、直後の（例えば、第１の隠れ）層内の各ニューラルへの入力として多対多マッピングされる。第ｋの隠れ層、すなわち各ＡＮＮの最後から２番目の層は、出力Ｏ₁～Ｏ_mが一次関数になるように複数の入力をその各出力（Ｏ₁～Ｏ_m）に多対１マッピングする（ｈｔｔｐｓ：／／ｔｏｗａｒｄｓｄａｔａｓｃｉｅｎｃｅ．ｃｏｍ／ａｃｔｉｖａｔｉｏｎ－ｆｕｎｃｔｉｏｎｓ－ｎｅｕｒａｌ－ｎｅｔｗｏｒｋｓ－１ｃｂｄ９ｆ８ｄ９１ｄ６に記載されるものなど）。

（リズム、調性及び音質の場合に）識別された各々のプロパティについて抽出された各量子化信号表現又はＣＮＮ機能からの平坦化された出力（テクスチュアの場合）は、入力層７０２のニューロンの１つへの入力（ｉ₁～ｉ_n）として与えられる。

一例としてニューロン７１２を挙げれば、図６（左側の枠で囲まれた表現）では、ニューロンは、複数の重み付け入力ｗ_i,1、ｗ_i,2、ｗ_i,3、ｗ_i,rを受信し、総和関数７３０で合算することが分かる。総和関数は、実際には、一般に各層内の各ニューロンの学習された定数に過ぎない第２のバイアス入力ｂ_iを含む。処理知能は、重みｗ_i及びバイアスｂ_iを推定し、次いでペア毎のユークリッドプロパティ距離測度３３０を、特に対応する意味論的空間内のペア毎の目標距離にどのように同化／マッピングするかの影響因子として採用するバックプロパゲーション処理を介して修正する。総和関数７３０からの出力ａ_iは、非線形活性化関数ｆ（参照番号７３４）に委ねられる。ニューロンｙ_iの出力は、次の層に伝播される。

ペア毎の音声データ信号の比較の例示的な意味において、入力ｉ₁～ｉ_nは、音質、調性、リズムに関して上記で述べたＥｓｓｅｎｔｉａ機能の集合から導出することができるのに対して、ＣＮＮメルスペクトルは、テクスチュア専用の人工ニューラルネットワークＮＮ_TXへのニューロン入力を提供する。最後の出力ｏ₁～ｏ_mは、各々の特定プロパティ、例えば音質ＯＴＩ₁及びテクスチュアＯＴＸ₂のための６４次元の埋め込みベクトルを形成する。

図６の好適な実装形態に関して、少なくとも２つの隠れ層が存在する。第１の隠れ層は、５１２ニューロンを含む。第２の隠れ層は、１０２４のニューロンを含む。これらの隠れ層の両方の活性化関数は、好適には、ｈｔｔｐｓ：／／ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ／ｗｉｋｉ／Ｒｅｃｔｉｆｉｅｒ＿（ｎｅｕｒａｌ＿ｎｅｔｗｏｒｋｓ）に記述されるようなＲｅＬＵ機能である。

ここで、図３を詳細に参照すると、図２のシステムが訓練される訓練処理が一般的な観点から開示されている。

音声トラックの全体訓練集合（又はペアの選択された部分集合）から、意味論的及び音楽的プロパティ比較のためのトラックのペアが選択（４０２）される。両方のトラックは、次いで、プロパティ、例えばリズム等の定義に使用できる測定可能な記述子の複数の集合を識別するために特徴抽出４０４に供される。テクスチャは、上述のように、メルスペクトルの性質を前提として修正された処理に従う。ペア毎に、プロパティがシステム知能によって共通に処理されてネットワークを訓練して、リズム「ＮＮ_R」３１０、調性ＮＮ_TO３１２、音質ＮＮ_TI３１４及び音楽的テクスチュアＮＮ_TX３１８のための並列人工ニューラルネットワークの各々で適用（４０６）された重み及びバイアス値を改良する。ＡＮＮ処理がＣＮＮを含むか否かによらず、複数の並列ニューラルネットワークの各々は、考慮対象のファイルのペア毎に（典型的にユークリッドの）プロパティ空間内において、埋め込みベクトル出力３５０、３５２［寄与ベクトルＯＲ_x、ＯＴＯ_x、ＯＴＩ_x及びＯＴＸｘから組み立てられた］に寄与（４０８）するように動作する。次いで、ベクトル出力３５０、３５２間のユークリッドプロパティ距離の評価／判定（４１０）がファイル毎に行われる。ニューラルネットワークによって計算された判定済みユークリッド距離は、次いで、（図１に関して述べたように）同じファイル間の（意味論的空間内における）意味論的距離とマッピング／対比される。

最初に数十／数百回のペア毎の比較を行う訓練の開始時点での初期重み及びバイアス値ではありそうもないが、プロパティ距離と量子化意味論的距離との間に一般的な数値的対応（４１６）が存在すると評価（４１８）された場合、寄与するＡＮＮの重み及びバイアスが、合意可能な規則を満たすか否かの判定が行われ得る。これにより、各ＮＮにおける最適化は、ペア毎の評価並びに重み及びバイアスの修正回数が増大し続けるために向上するが、全てのペア毎の比較選択肢を網羅することなく、ＡＮＮ訓練をショートカットすることができる。

実用的な観点から、システムは、典型的には、訓練集合全体を通してラン又は「エポック」を数回実行するように構成される。訓練を停止できるのは、（ａ）訓練損失が数回のエポックにわたり改善しない場合、又は（ｂ）（未見データの）検証損失が改善しない場合である。また、訓練損失が改善したが、検証損失が改善しない場合に過剰適合を示すことに留意されたい。

しかし、訓練の開始時点では、恐らく顕著な差違並びに改良されたフィルタ重みｗ_i及びバイアスｂ_iを用いてパラメータ識別の観点からＡＮＮの動作を向上させる必要があるであろう。これは、訓練データの集合全体の使用を通してＡＮＮの性能を最適化することによって実現される。結果的に、訓練処理は、訓練集合内の全要素をペア毎に評価する経路を繰り返し辿る。これは、判定ブロック４１４及びそれからの否定的又は肯定的経路によって表される。

連続するファイルについて反復される近い対応（量子化意味論的距離と、ベクトル出力３５０、３５２から得られた（典型的に用いられる）プロパティ距離との間の肯定的経路）が存在する場合、（少なくとも評価及び受容可能な程度に）重み及びバイアスの最適化が実現されると仮定することができる。

意味論的及びプロパティ空間の距離測度間に顕著な数の不一致が存在する経路（すなわち否定的結果４２０）に戻り、フィルタパラメータ及び特に１つ以上のニューラルネットワークに適用された重み及びバイアスを調整する必要がある。この調整の目的は、関連付けられるプロパティ空間内でのベクトル距離非類似性測度、すなわち意味論的空間内で対応する距離非類似性測度間の数値的収束を実現することである。この点に関して、（比較されたトラックが同じ楽曲のカバーバージョンであったとしても）トラックの非類似ペア間で知覚的差違及び絶対的差違が存在するため、プロパティ空間内の値は、意味論的距離空間内の０～１のハード値から常に変化することに留意されたい。各エポック後の損失又は過剰適合を調べることが典型的なアプローチである。

システムの処理知能は、従って、バックプロパゲーションを通して重み及びバイアスを調整（４２２）して、（数値的な）意味論的及びプロパティ距離間の収束を求める。これらの調整された重みは、次いで、訓練集合内の次のファイルペアの整合性を向上させるために、図２に示すように各種のニューラルネットワークのニューロンに適用される。

ＡＮＮの訓練により、ペア毎の比較に基づくトラック非類似性を反映したプロパティ距離空間内の距離値が得られる。結果的に、訓練された場合、プロパティ距離空間内のいかなる距離も意味論的空間内の実際の知覚可能な差違に正確且つ高い信頼性でマッピングされる。ＡＮＮのニューロン内での重み及びバイアスの変更は、プロパティ空間を抽象的な意味論的空間にマッピングする変換関数又は機構である。

訓練集合が尽きた場合、ニューラルネットワークが最適化されたことを評価する。これは、判定ブロック４１４からの肯定経路４２４によって反映される。

以下で理解されるように、各々の抽出されたプロパティの各処理チェーンは、機械である。音声評価の例示的な場合、４つの機械がリズム、調性、音質及びテクスチュアのために１つずつある。訓練処理を最適化するために、独立機械は、それぞれプロパティ空間内の最終的ベクトル表現３５０、３５２に対して独立に分離された寄与を行うことが分かっている。結果的に、意味論的空間内の意味論的評価に関するペア毎の評価に基づく好適なアプローチは、これらのほぼ並列な個別機械の各々の間の重要度の重み付けを採用するものである。換言すれば、訓練処理は、各ＡＮＮへの各入力内の（各プロパティに関連付けられた）特定の音声記述子間の相対的重要度を判定する。これは、特定の寄与する抽出された測定可能値のいずれが、（意味論的空間における）所望の人間による主観的評価を反映した最終結果の変更に際して最大の影響を及ぼすかを各機械が学習することを意味する。これを実現するために、システムは、各機械内の２つのトラックを評価するように動作する。各機械は、次いで、特定の機械によって評価される各プロパティの定義に用いられる量子化表現の集合間の類似性又は非類似性を識別するように構成される。機械は、バックプロパゲーション処理におけるそのバイアス及び重み因子の調整に際して、好適な実施形態において、意味論的空間内の特定のペア毎の比較で同時に評価される対応するプロパティとの（プロパティ距離空間内での）非類似性が存在する場合、プロパティ（例えば、リズム）の相対的な重要度をダウンプレイ、すなわち下げるように動作する。換言すれば、識別された非類似性は、意味論的評価とのより良好な整合並びに意味論的空間内で評価されたペア毎の音声トラック間の意味論的差違をもたらすバイアス及び重みの集合の生成に寄与しない。このように、全ての機械にわたり、システム知能は、特定の機械の（両方のトラックの）他のプロパティを暗黙的に重視し、なぜなら、他のプロパティが、意味論的評価との整合に大きく影響を及ぼすと評価され、すなわちリズムベクトル成分ＯＲ_xが、調性ベクトル成分ＯＴＯ_xよりも人間による音声コンテンツの知覚への寄与が大きいとシステムによって評価され得るからである。実際、この原理を個々の量子化表現まで拡張することで、比較対象のペア毎にトラック内で機械が識別した個々の量子化表現（Ｅｓｓｅｎｔｉａでプロパティ音質に寄与するバーク帯域頂部値等）間の非類似性は、このような個々の量子化表現が、プロパティに基づくベクトルを意味論に基づく値に整合させる際の重要性が低いことを意味する。

結果的に得られるニューラルネットワークの変換関数の正確さが訓練データの堅牢性、特にマトリクスのサイズによって表され、従って１万の音声ファイルが評価され、対応して１万のベクトルが生成され得ることが理解され、顕著に少ない又は顕著に多くのファイルがＮＬＰによって批評されて埋め込みを行うことが認識されるであろう。

ここで、比較のためのライブラリを構築するために、ＡＮＮを通して、訓練集合内の各ファイルを非比較的に単純に処理（４２６）して、トラックのユークリッドベクトルを生成することが必要である。ベクトルは、次いで、ファイル名、例えば楽曲タイトル及びアーティスト又は他の形式の識別子と照合された値としてデータベースに保存（４３０）することができる。ベクトルは、特定のファイルプロパティに起因し得る異なる成分を含むため、ベクトル自体を構文解析して、特定の識別されたプロパティを検索可能にすることができる。例えば、リズムの共通性が優先的な要件である場合、特定の（好適であるが、例示的な場合に）寄与する６４次元出力ＯＲ_xのソースと基準ファイルとの間に何らかの数値的近さがある場合、リズムの意味論的近さは、決定的である。

換言すれば、リズム「ＮＮ_R」３１０、調性ＮＮ_TO３１２、音質ＮＮ_TI３１４及び音楽的テクスチュアＮＮ_TX３１８のための個々の人工ニューラルネットワークが最適化される場合、（例示的）音声トラックの測定可能プロパティは、最適化された重み及びバイアスが設定された各種のＮＮを通して音声トラックのサンプル（例えば、楽曲の一部又は全体）を処理することによって生成された多次元ベクトルに高い信頼性で反映される。結果的に、絶対値スケールに基づいて、実際に知覚可能な非類似性又は類似性を、訓練データ集合で使用されなかった新たなトラックを含むトラック毎に評価することができる。この時点において、従って訓練に用いる意味論的距離を無視することができ、なぜなら、近い数値がコンテキストの類似性を正確に表すのに対して、大きい数値的距離は、ユーザー識別可能な非類似性を表す絶対スケールに意味論的空間がマッピングされるからである。

図７は、特に音声ファイルのコンテキストにおける、感情的に知覚されるファイル非類似性の測度の評価に好適な実施形態によって用いられるフロー処理８００である。

図２のニューラルネットワークが訓練された場合、音声トラック（又は適当なカテゴリのファイル）が選択（８０２）される。選択は、典型的には、音楽ライブラリ又はサービスの所有者又は加入者等のユーザーによってなされる。代わりに、選択は、オリジナル作品を含む楽曲又はファイルのアップロードの形式でなされ得る。選択又はアップロードされた「最初の」音声ファイルは、次いで、調性等の識別可能なプロパティの特徴抽出８０４を行うために処理される。図２のニューラルネットワークは、次いで、最適化された重み及びバイアスを用いて抽出された特徴を処理（８０６）して、特定のファイルの複数のユーザー識別可能又はユーザー選択可能な、システム測定可能プロパティを表す（ユークリッドプロパティ空間又は他の適当な何らかのプロパティ空間内の）第１のファイルベクトルＶ_FILEを生成（８０８）する。ファイルベクトルＶ_FILEにより、ファイル識別子及び付随する（それらの他のファイルの）ファイルベクトルの両方によって索引付けられたライブラリ内の第１の音声ファイルを照会（８１０）することにより、ライブラリに登録されたファイルを第１の音声ファイルとの意味論的類似性の降順にリスト表示（８１２）することができる。これは、ｋＮＮ解析を用いて実現又は補足することができる。

図８は、本発明の態様によるファイル類似性／非類似性測度を反映するベクトル表現を含むアクセス可能なデータベース９０２を含むシステム又はネットワークアーキテクチャ９００である。

典型的には、（インターネット等の）ネットワーク９０２は、サーバ９０４、ホームコンピュータ９０６及びスマートフォン９０８等の機器間で通信を授受可能にする。これらの３種類の機器は、限定的でなく、システム９００内での知能の処理及びシステム９００の／へのアクセスポイントの両方を表す。サーバ９０４は、典型的には、特に図２及び６に関して上記で述べた人工ニューラルネットワーク９０５をサポートする。しかし、システム知能は、クラウドベース又は複数の相互接続されたサーバ間での分散を含めてより分散的であり得る。分かり易さのみを目的として、システム知能を単にサーバ内の１ブロックとして示すが、スマートフォン及びコンピュータ内にも計算能力があることが容易に認識されるであろう。サーバは、他の対話型装置と同様に、例えばウェブベースのアクセスをサポートし、且つ／又はサーバ若しくは他のサービスプロバイダ９１２が管理するサービスへのユーザーの登録を制御し、且つ／又は通信プロトコルをサポートする一般的な制御ファームウェア及びソフトウェア９１４を含む。サーバは、例えば、ＬＡＮ又はＷＡＮを介して、サーバに結合されたソースデータベース３０６をロードされた又はそれから抽出された情報へのアクセスを制限することができる。このアクセスは、コンピュータ９０６、スマートフォン９０８等に行われ得る。

ソースデータベースは、実際には、音声ファイルのカタログ等の既存のファイルライブラリであり得る。ソースデータベース内のファイルは、従って、時間経過に伴ってサーバによって抽出及び処理されて、（トラック名及びアーティスト等の）ファイル属性９２２と、感情的に知覚された意味論的特性に整合するファイルプロパティを表す生成されたユークリッドベクトル測度（Ｖ_FILE）９２０との照合を行う。

例えば、スマートフォン上のグラフィックユーザーインターフェース「ＧＵＩ」のタッチスクリーン等のユーザーインターフェース９３０を提供することにより、本発明による意味論的に近いプロパティを共有するトラックを検索可能にする検索するツールソフトウェアアプリケーションへのアクセスが可能になる。ソフトウェアは、ローカルであるか、又は別途サーバ９０４、データベース３０６若しくは（コンテンツにアクセス可能なソーシャルメディア企業等の）サービスプロバイダとの対話を可能にするウェブブラウザを介してアクセスされ得る。代わりに、ソフトウェアは、ウェブベースのサービスとしてホスティングされ得る。好適には、ＧＵＩ９３０は、選択可能なプロパティ又は聴取／検索の嗜好に関する多数の「柔らかい」スライダコントロールをユーザーに提示し、例えば、第１のスライダは、リズムに関するものであり得る。スライダの位置は、従って、ユーザーにより、最終的に埋め込まれたベクトル出力３５０、３５２内の個々の寄与する多次元ベクトルＯＲ_x、ＯＴＯ_x、ＯＴＩ_x及びＯＴＸ_xに相関する検索パラメータを反映するように変更することができる。従って、ＧＵＩでのスライダの設定は、システム内に保存された処理済みトラック９２０の特定のベクトル態様を対象とする。

特定の構成が互いに排他的でない限り、本明細書に記述する各種の実施形態を組み合わせてシステムの機能性を強化し、且つ／又はユーザー知覚可能な類似性及び非類似性の効果的識別を支援する補完的な機能若しくはシステムを生成することができる。このような組み合わせは、上記の記述全体を前提として当業者に容易に認識されるであろう。同様に、好適な実施形態の態様は、より限られた機能構成が適した独立構成で実装することができる。実際、特定の好適な実施形態の特徴が互いに非互換であると明示的に確認されるか、又は互いに排他的であり、補完的及び／若しくは支援的な意味で容易に組み合わされ得ないことを周囲の状況が示唆しない限り、本開示全体が、これらの補完的実施形態の特定の特徴を選択的に組み合わせて、１つ以上の、包括的であるが、僅かに異なる技術的解決策を提供できることを考慮及び想定することが理解されるであろう。添付図面に示唆する処理フローの観点から、これらの特徴は、全体的な効果又は再順序付けが、次の論理ステップへの前進を可能にする同じ客観的な結果を実現する限り、処理内のステップの正確な実行点の観点から変化する場合がある。フローの処理の性質は、従って、絶対的ではなく、論理的である。

本発明の態様は、ダウンロード可能な形式において又はインスタンス化された場合にはウェブサーバ等でリンク埋め込み機能を実行するプログラムコードを含むＣＤ－ＲＯＭ等の計算機可読媒体で別途提供され得る。

当然のことながら、上記の記述が例示目的で与えられるものに過ぎず、本発明の範囲内で詳細における変更形態がなされ得ることが認識されるであろう。例えば、ニューラルネットワークを訓練する原理及び意味論的ベクトル空間内のスケーリングされた距離で示す意味論的に評価された特性が、プロパティ空間内の客観的に生成された（典型的にはユークリッド）ベクトルにマッピングされ得る方法は、音声、視覚及び／又は映画、文学及び科学的レポート（傾向解析に照合を必要とする医療レポート）を含む複数の形式の検索可能なデータに適用できる。

このような異なるソースデータのために抽出可能なプロパティは、明るさ、コントラスト、色、強度、形状及び相対サイズだけでなく、これらのプロパティの一部又は全部の相対的な特徴位置及び変化率を含む。このようなファイルには、（テキスト解析の場合）単語の出現頻度又は（センサから導出された）運動関連測度を含む他の測定可能プロパティが存在するため、上記の記述は、プロパティ空間を、意味論的空間に提示するものと対比及び整合することができる［プロパティ空間内の］有意味論的ベクトルでどのように充実させることができるかの非限定的な例として提供される。画像又は映像の場合、ピクセル化された画像全体又は一連のフレームを用いて音楽的「テクスチュア」に対応させることでき、サンプリングされた画像の全てのピクセルが畳み込み処理のための２次元マトリクスを提供する。実際、上記の詳細であるが例示的な実施形態で説明したように、静的画像又は映像から導出され得るプロパティと音楽モダリティとの間にある程度の重なりがあることが認識されるであろう。

Claims

第１のデータファイル（３０２）のコンテンツの、異なるデータファイル（３０４）のコンテンツに対する類似性又は非類似性を識別するように構成されたシステム（３００）において、人工ニューラルネットワーク「ＡＮＮ」（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）を訓練する方法であって、
異なるデータファイルの選択されたペアについて、前記第１のデータファイル及び前記異なるデータファイルの各々から測定可能信号特性を抽出し、且つ前記測定可能信号特性から複数のプロパティを識別すること、
プロパティを処理することをタスクとされた前記ＡＮＮの出力において、前記選択されたペアの前記第１のデータファイル及び前記異なるデータファイルの各プロパティについて、対応するプロパティベクトル（ＯＲ_x、ＯＴＯ_x、ＯＴＩ_x及びＯＴＸ_x）をプロパティ空間内で生成すること、
前記第１のデータファイルのための第１の多次元ベクトル（３５０）及び前記異なるデータファイルのための別個の第２の多次元ベクトル（３５２）を組み立てること、ここで各多次元ベクトルは、前記ＡＮＮの出力からのそれぞれのプロパティベクトルを組み立てることから得られる、
前記第１の多次元ベクトル（３５０）と前記第２の多次元ベクトル（３５２）との間の距離測度（３３０）を判定すること、
前記判定された距離測度に応じて、プロパティ空間内の前記判定された距離測度と、前記異なるデータファイルに対して前記第１のデータファイルについて意味論的空間内で評価された定量化意味論的非類似性距離測度との間で生じる識別された不一致を考慮するバックプロパゲーション処理により、前記ＡＮＮ（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）内の重み及び／又はバイアス値を調整し、それにより、前記第１の多次元ベクトル（３５０）と前記第２の多次元ベクトル（３５２）との間の前記距離測度（３３０）によって反映されるプロパティ評価にわたり、前記定量化意味論的非類似性距離測度に反映される意味論的知覚を評価することによって前記システムを訓練すること
を含む方法。
意味論的空間内で評価された前記定量化意味論的非類似性距離測度は、前記第１のデータ及び前記異なるデータファイルの各々に関連付けられたテキスト形式の説明のベクトル表現に基づく、請求項１に記載の人工ニューラルネットワークを訓練する方法。
前記テキスト形式の説明は、前記それぞれのファイルのメタデータに符号化される、請求項２に記載の人工ニューラルネットワークを訓練する方法。
前記データファイルは、音声を含み、及び前記プロパティは、音楽的プロパティであり、及び前記測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアに関連するプロパティを定義する、請求項１、２または３に記載の人工ニューラルネットワークを訓練する方法。
前記定量化意味論的非類似性距離測度の評価は、
自然言語処理「ＮＬＰ」をテキスト記述に適用して、訓練集合内の複数のＮ個のデータファイルのための意味論的ベクトルを生成すること、
前記訓練集合について且つペア毎に、各意味論的ベクトル間の分離距離を計算すること、
前記訓練集合内の前記ファイルの各々について、前記訓練集合内の他のファイルに対する最小及び最大分離距離を識別すること、
前記訓練集合内の各ファイルについて、第１のペアが前記最小分離距離を有し、及び第２のペアが前記最大分離距離を有するペアの集合を生成すること、
意味論的近さを表す第１の値を前記第１のペアに割り当て、且つ意味論的非類似性を表す第２の値を前記第２のペアに割り当てること、ここで前記第２の値は、前記第１の値と異なる、
を含む、請求項１又は４に記載の人工ニューラルネットワークを訓練する方法。
前記第１のペアは、前記第１のデータファイル及び前記異なるデータファイルである、請求項５に記載の人工ニューラルネットワークを訓練する方法。
小さい方からｍ個の分離距離及び大きい方からｍ個の分離距離を含む部分集合について、前記第１の値をｍ番目に小さいものに、且つ前記第２の値をｍ番目に大きいものに割り当てることを含み、ここで、ｍは、Ｎ未満の正の整数である、請求項５に記載の人工ニューラルネットワークを訓練する方法。
１つ以上の音声コンテンツ及び画像コンテンツを含むデータファイル間のコンテンツの類似性又は非類似性を識別するように構成された人工ニューラルネットワーク「ＡＮＮ」（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）を訓練し且つ動作させる方法であって、
意味論的空間内における前記データファイルの前記コンテンツの定量化意味論的非類似性測度を、前記コンテンツについて抽出された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離に関連付けること、及び
測定可能プロパティにわたり、意味論的非類似性測度を評価するように前記システムを訓練し且つ動作させること、
を含む方法。
意味論的空間内で評価される前記定量化意味論的非類似性測度は、異なるデータファイルに関連付けられたテキスト形式の説明のベクトル表現に基づく、請求項８に記載のＡＮＮ（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）を訓練し且つ動作させる方法。
テキスト形式の説明は、前記データファイルのメタデータから導出される、請求項９に記載のＡＮＮ（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）を訓練し且つ動作させる方法。
前記データファイルは、音声ファイルであり、及び前記測定可能プロパティは、リズム、調性、音質及び音楽的テクスチュアに関連するプロパティによって定義される音楽的プロパティである、請求項８、９または１０に記載のＡＮＮ（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）を訓練し且つ動作させる方法。
前記定量化意味論的非類似性測度は、
自然言語処理「ＮＬＰ」をテキスト記述に適用して、訓練集合内の複数のＮ個のデータファイルのための意味論的ベクトルを生成すること、
前記訓練集合について且つペア毎に、各意味論的ベクトル間の分離距離を計算すること、
前記訓練集合内の前記ファイルの各々について、前記訓練集合内の他のファイルに対する最小及び最大分離距離を識別すること、
前記訓練集合内の各ファイルについて、第１のペアが前記最小分離距離を有し、及び第２のペアが前記最大分離距離を有するペアの集合を生成すること、
意味論的近さを表す第１の値を前記第１のペアに割り当て、且つ意味論的非類似性を表す第２の値を前記第２のペアに割り当てること、ここで前記第２の値は、前記第１の値と異なる、
によって得られる、請求項８～１１のいずれか一項に記載のＡＮＮ（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）を訓練し且つ動作させる方法。
前記第１のペアは、前記第１のデータファイル及び前記異なるデータファイルである、請求項１２に記載の人工ニューラルネットワークを訓練する方法。
小さい方からｍ個の分離距離及び大きい方からｍ個の分離距離を含む部分集合について、前記第１の値をｍ番目に小さいものに、且つ前記第２の値をｍ番目に大きいものに割り当てることを含み、ここで、ｍは、Ｎ未満の正の整数である、請求項１２に記載の人工ニューラルネットワークを訓練する方法。
先行する請求項のいずれかに記載の方法に従って非類似性が評価された個々のファイルの識別を可能にするファイル識別子をデータベースに保存すること、及び
保存されたファイル識別子に対して、前記データベース内の他の識別されたファイルとの距離関係及び前記個々のファイルのための計算されたプロパティベクトルの少なくとも１つを記録すること、
を更に含む、請求項８～１４のいずれか一項に記載のＡＮＮ（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）を訓練し且つ動作させる方法。
前記データベースは、ネットワークアクセス可能なデータベースである、請求項１５に記載のＡＮＮ（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）を訓練し且つ動作させる方法。
前記データベースは、ユーザー機器にローカルである、請求項１５に記載のＡＮＮ（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）を訓練し且つ動作させる方法。
複数の処理分岐を有する前記ニューラルネットワークの訓練中、プロパティ空間内のそれぞれのプロパティベクトルを生成するために、ファイルの異なるプロパティを処理するために割り当てられた異なる処理分岐を区別することを更に含み、
前記区別することは、
ペア毎の比較を受けるペア毎に対比されるファイルについて、それぞれのプロパティベクトルの相対的な類似性及び非類似性を識別すること、及び
最大の非類似性が前記ペア毎の比較の生成されたプロパティベクトルに見られる特定の処理分岐内のバイアス値及び重みの少なくとも１つの調整を促進すること、
を含む、請求項８～１７のいずれか一項に記載のＡＮＮ（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）を訓練し且つ動作させる方法。
前記ペア毎の比較におけるプロパティが、相対的に非類似よりも、相対的に類似すると評価される場合、相対的により大きい重要度は、前記複数の処理分岐の特定の処理分岐に割り当てられる、請求項１８に記載のＡＮＮ（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）を訓練し且つ動作させる方法。
前記定量化意味論的非類似性距離測度は、前記ファイルの関連する記述的コンテンツの自然言語処理から得られる、請求項８～１９のいずれか一項に記載のＡＮＮ（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）を訓練し且つ動作させる方法。
前記記述的コンテンツは、前記ファイルのメタデータに含まれる、請求項２０に記載のＡＮＮ（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）を訓練し且つ動作させる方法。
前記データファイルは、音声を含み、及び前記プロパティは、音楽的プロパティであり、及び測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示す測定可能プロパティである、請求項８～２１のいずれか一項に記載のＡＮＮ（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）を訓練し且つ動作させる方法。
共通のユーザー知覚可能な特性を共有するファイルを識別する方法であって、
関連付けられたプロパティベクトルを有する複数の一意に識別されたファイルを含むファイルライブラリにおける保存されたファイルへの近さについて対象ファイルを評価することを含み、
ニューラルネットワークにおいて、前記対象ファイルを処理して、プロパティ空間内の多次元プロパティベクトル（３５０、３５２）を生成すること、ここで前記多次元プロパティベクトル（３５０、３５２）は、前記対象ファイルから選択的に抽出された測定可能信号特性の複数の異なる集合から導出された複数のプロパティベクトル（ＯＲ_x、ＯＴＯ_x、ＯＴＩ_x及びＯＴＸ_x）から構成され、前記複数のプロパティベクトル（３５０、３５２）は、それぞれニューラルネットワークによって意味論的非類似性の測度に重み付けされる、及び
前記対象ファイルの前記多次元プロパティベクトル（３５０、３５２）と、前記ライブラリ内のファイルの前記プロパティベクトルとの間の近さに基づいて、前記ライブラリからファイルの順序付けられたリストを生成すること
を含む方法。
ニューラルネットワークを使用して、意味論的に近いデータファイルを識別する方法であって、
意味論的に近いファイルの前記識別において、定量化意味論的非類似性距離測度に反映される意味論的知覚を、抽出された測定可能信号特性の距離測度（３３０）によって反映されるプロパティ評価よりも重要であると前記ニューラルネットワークにおいて評価すること
を含む方法。
プロセッサ知能によって実行されると、請求項１～２４のいずれか一項に記載の方法を実行するコードを含む、コンピュータプログラム。
人工ニューラルネットワーク「ＡＮＮ」（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）であって、少なくとも１つの音声コンテンツ及び画像コンテンツの形式で前記ＡＮＮに提示されるコンテンツに対して、バックプロパゲーションによって構成可能に選択された重み及びバイアスを適用するように配置された相互接続されたニューロンの層を含み、
意味論的空間内における前記コンテンツの定量化意味論的非類似性測度を、前記コンテンツについて抽出された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離と相関させて、プロパティ空間内の結果を意味論的空間内の結果に整合させるように経時的に適合される出力を提供し、前記重み及びバイアスの適合中、測定可能プロパティにわたって意味論的非類似性測度を評価するように構成される、人工ニューラルネットワーク「ＡＮＮ」（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）。
人工ニューラルネットワーク「ＡＮＮ」（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）であって、相互接続されたニューロンの層であって、少なくとも１つの音声コンテンツ及び画像コンテンツの形式で前記ＡＮＮに提示されるコンテンツに対して、意味論的空間内における前記コンテンツの定量化意味論的非類似性測度を、前記コンテンツについて抽出され、且つ前記ＡＮＮの前記ニューロンによって処理された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離と相関させるようにバックプロパゲーションによって選択的に構成される重み及びバイアスを適用するように配置された相互接続されたニューロンの層を含み、それにより、前記重み及びバイアスのその適用において、測定可能プロパティにわたって意味論的非類似性測度を評価するように構成される、人工ニューラルネットワーク「ＡＮＮ」（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）。
ニューロンの出力層に結合されたニューロンの入力層を含む人工ニューラルネットワーク「ＡＮＮ」（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）であって、前記ニューロンは、重み及びバイアスを、それによって受信されたデータに適用するように配置され、
前記ＡＮＮは、
プロパティ空間内の前記ＡＮＮの出力の整合性を、意味論的空間内の基準比較用記述的コンテンツについて事前に測定された基準意味論的非類似性測度と相関させるために、ニューロンのための重み及びバイアスを生成するように構成され、
前記プロパティ空間は、入力に適用されるファイルの音声及び／又は画像コンテンツから抽出された測定可能プロパティを前記ＡＮＮによって処理することによって決定される、人工ニューラルネットワーク「ＡＮＮ」（ＮＮ_R３１０、ＮＮ_TO３１２、ＮＮ_TI３１４、ＮＮ_TX３１８）。
前記入力層は、少なくとも１つの隠れ層によって前記出力層から分離される、請求項２８に記載のＡＮＮ。
前記データファイルは、音声を含み、及び前記プロパティは、音楽的プロパティであり、及び測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示す測定可能プロパティである、請求項２６～２９のいずれか一項に記載のＡＮＮ。
ａ）複数のプロパティベクトルを提供するように配置された複数の人工ニューラルネットワーク出力であって、前記プロパティベクトルは、第１のデータファイルのコンテンツからの抽出された測定可能信号特性である、複数の人工ニューラルネットワーク出力と、
ｂ）更なるプロパティベクトルを提供するように配置された少なくとも１つの畳み込みニューラルネットワークであって、前記更なるプロパティベクトルは、前記第１のデータファイルの前記コンテンツの２次元表現から導出される、少なくとも１つの畳み込みニューラルネットワークと、
ｃ）それぞれ基準ベクトルを有する複数の一意に識別可能なデータファイルを含むデータベースであって、各基準ベクトルは、（ａ）そのデータファイルのコンテンツから得られた抽出された測定可能信号特性、及び（ｂ）そのデータファイルの前記コンテンツの２次元表現から得られた更なるプロパティベクトルから得られたプロパティベクトルから組み立てられる、データベースと、
ｄ）処理知能であって、
前記第１のデータファイルについて、前記複数のプロパティベクトル及び前記更なるプロパティベクトルから多次元プロパティベクトル（３５０、３５２）を生成することと、
前記多次元プロパティベクトル（３５０、３５２）を前記データベース内の前記複数の基準ベクトルと比較することと、
前記第１のファイルの前記多次元プロパティベクトル（３５０、３５２）のものと測定可能に類似すると識別された基準ベクトルを有する少なくとも１つの一意のファイル識別子を識別し、それにより、前記第１のデータファイルに意味論的に近い、前記データベース内の異なる第２のデータファイルを識別することと
を行うように構成された処理知能と
を含むシステム（３００）。
前記複数のプロパティベクトル（３５０、３５２）は、それぞれニューラルネットワークによって重み付けされて、意味論的非類似性を反映する、請求項３１に記載のシステム。
ネットワーク接続及び通信ユニットを更に含み、前記処理知能は、前記通信ユニットに、前記ネットワーク接続にわたって前記異なる第２のデータファイルを対話型ユーザー機器に送信させる、請求項３１又は３２に記載のシステム。
前記データファイルは、音声を含み、及びプロパティは、音楽的プロパティであり、及び前記測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示す測定可能プロパティである、請求項３１～３３のいずれか一項に記載のシステム。
検索についてユーザーが優先する特性を選択するように構成されたユーザーインターフェースを含む、請求項３１～３４のいずれか一項に記載のシステム。
ａ）データファイルのための複数のプロパティベクトルを提供するように配置された複数の人工ニューラルネットワーク出力であって、前記プロパティベクトルは、前記データファイルのコンテンツからの抽出された測定可能信号特性である、複数の人工ニューラルネットワーク出力と、
ｂ）多次元プロパティベクトル（３５０、３５２）を生成するために、複数のプロパティベクトルで組み立てられる更なるベクトルを提供するように配置された少なくとも１つの畳み込みニューラルネットワークと、
ｃ）前記第１のデータファイル及び異なるデータファイルを含むデータファイルのペアについて、第１及び第２の異なる多次元プロパティベクトルを受信し、且つそれに応じて、前記第１及び第２の異なる多次元プロパティベクトル間の距離測度を生成するように配置された処理知能と、
ｄ）プロパティ空間内における前記距離測度が、意味論的空間内における前記第１及び第２のベクトルについて生成された基準距離と相関するか否かを解決するように構成された処理知能であって、前記基準距離は、前記データファイルのペアの基準比較用記述的コンテンツの意味論的非類似性測度に基づく、処理知能と
を含むシステム（３００）。
前記処理知能は、意味論的空間内における前記コンテンツの定量化意味論的非類似性測度を、前記コンテンツについて抽出された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離に関連付ける、請求項３６に記載のシステム。
人間によって知覚された特性を表す独立ベクトル及び電子ソースファイルの測定可能な特性の複数のペアを生成することによって訓練される予測システムであって、
第１のベクトルは、意味論的空間内において、且つソースファイルのペア間の、人間によって生成された記述における測定された非類似性に基づいて、前記第１のベクトルがペア毎の近さのユーザー主体の知覚を提供するように生成され、及び
各ペアの第２のベクトルは、ソースファイルの同じペアのコンテンツから抽出された測定可能プロパティのペア毎の比較から得られ、及び
前記予測システムは、前記第１のベクトルのペア毎の距離が前記第２のベクトルのペア毎の距離に近づくように、前記第２のベクトルの生成処理を適合させるように配置された処理知能を含む、予測システム。
前記電子ソースファイルは、
デジタル音声、
画像データ、及び
コンテキストを有する文献データ
の少なくとも１つ含む、請求項３８に記載の予測システム。
前記電子ソースファイルは、音声を含み、及び前記プロパティは、音楽的プロパティであり、及び前記測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示す測定可能プロパティである、請求項３８又は３９に記載の予測システム。
デジタル音声ファイル（３０２、３０４）であって、前記デジタル音声ファイルの信号特性の量子化表現（ＰＲ_x、ＰＴｏ_x、ＰＴｉ_x、ＰＴｘ_x）の複数の集合から導出された音楽的プロパティにそれぞれ関連する複数の組み立てられたプロパティベクトル成分（ＯＲ_x、ＯＴＯ_x、ＯＴＩ_x及びＯＴＸ_x）を含む多次元プロパティベクトル（３５０、３５２）を埋め込まれたデジタル音声ファイル（３０２、３０４）。
前記埋め込まれた多次元ベクトルは、リズム、調性、音質及び音楽的テクスチュアを示す測定可能信号特性によって定義される音楽的プロパティと相関されたベクトルである、請求項４１に記載のデジタル音声ファイル。
前記組み立てられたベクトル成分（ＯＲ_x、ＯＴＯ_x、ＯＴＩ_x及びＯＴＸ_x）の各々は、意味論的距離分離空間内の基準ベクトルに対して評価される前記音楽的プロパティのベクトル非類似性空間内における測度を反映する、請求項４１又は４２に記載のデジタル音声ファイル。
デジタル画像ファイル（３０２、３０４）であって、前記デジタル画像ファイルの信号特性の量子化表現（ＰＲ_x、ＰＴｏ_x、ＰＴｉ_x）の複数の集合から導出された視覚的プロパティにそれぞれ関連する複数の組み立てられたプロパティベクトル成分（ＯＲ_x、ＯＴＯ_x、ＯＴＩ_x及びＯＴＸ_x）を含む多次元プロパティベクトル（３５０、３５２）を埋め込まれたデジタル画像ファイル（３０２、３０４）。
デジタルファイル（３０２、３０４）であって、前記デジタルファイルの特性の知覚を明瞭に表現する、コンテキストを有するプロパティの共通性又は非類似性を表す多次元プロパティベクトルを埋め込まれ、
ニューラルネットワークにおいて、対象ファイルを処理して、プロパティ空間内における多次元プロパティベクトル（３５０、３５２）を生成する処理であって、前記多次元プロパティベクトル（３５０、３５２）は、前記対象ファイルから選択的に抽出された測定可能信号特性の複数の異なる集合から導出された複数のプロパティベクトル（ＯＲ_x、ＯＴＯ_x、ＯＴＩ_x及びＯＴＸ_x）から構成され、前記複数のプロパティベクトル（３５０、３５２）は、それぞれ前記ニューラルネットワークによって意味論的非類似性の測度に整合するように重み付けされる、処理
によって生成される、デジタルファイル（３０２、３０４）。
音楽又は画像データにおけるそれである、請求項４５に記載のデジタルファイル（３０２、３０４）。
類似性又は非類似性値を評価する処理は、定量化意味論的非類似性距離測度に反映される意味論的知覚を、抽出された測定可能信号特性の距離測度（３３０）によって反映されるプロパティ評価よりも重要であると評価する、請求項４５又は４６に記載のデジタルファイル（３０２、３０４）。
デジタルファイル（３０２、３０４）であって、前記デジタルファイルの人間によって知覚された特性を反映する、コンテキストを有するプロパティの共通性又は非類似性を表す多次元プロパティベクトルを埋め込まれ、人間によって知覚された特性及び電子ソースファイルの測定可能な量を表す独立ベクトルの複数のペアを生成することによって訓練される処理から生成され、
前記複数のペアを生成する前記処理は、
第１のベクトルを、意味論的空間内において、ソースファイルのペア間の、人間によって生成された記述における測定された非類似性に基づいて、前記第１のベクトルがペア毎の近さのユーザー主体の知覚を提供するように生成すること、
ソースファイルの同じペアのコンテンツから抽出された測定可能プロパティのペア毎の比較から第２のベクトルを生成すること、及び
前記第１のベクトルのペア毎の距離が前記第２のベクトルのペア毎の距離に近づくように、前記第２のベクトルが生成される処理を適合させること、
を更に含む、デジタルファイル（３０２、３０４）。
前記デジタルファイルを得るために処理されるソースファイルは、
デジタル音声、
画像データ、及び
コンテキストを有する文献データ
の少なくとも１つを含む、請求項４８に記載のデジタルファイル（３０２、３０４）。
前記ソースファイルは、音声を含み、及び前記プロパティは、音楽的プロパティであり、及び前記測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示す測定可能プロパティである、請求項４８又は４９に記載のデジタルファイル（３０２、３０４）。
関連する記述的コンテンツの自然言語処理から定量化意味論的非類似性距離測度が得られる処理から得られる、請求項８、９又は１０に記載のデジタルファイル（３０２、３０４）。
請求項４１～４３若しくは４５～５１のいずれか一項に記載の複数のデジタル音声ファイル又は請求項４４に記載の複数のデジタル画像ファイルを含むデータベース。