JP2022528564A - 感情的知覚を反映するようにニューラルネットワークを訓練する方法、関連付けられたコンテンツと、多次元プロパティベクトルを埋め込まれた関連するデジタル媒体ファイルとを分類及び発見するための関連するシステム及び方法 - Google Patents
感情的知覚を反映するようにニューラルネットワークを訓練する方法、関連付けられたコンテンツと、多次元プロパティベクトルを埋め込まれた関連するデジタル媒体ファイルとを分類及び発見するための関連するシステム及び方法 Download PDFInfo
- Publication number
- JP2022528564A JP2022528564A JP2021560426A JP2021560426A JP2022528564A JP 2022528564 A JP2022528564 A JP 2022528564A JP 2021560426 A JP2021560426 A JP 2021560426A JP 2021560426 A JP2021560426 A JP 2021560426A JP 2022528564 A JP2022528564 A JP 2022528564A
- Authority
- JP
- Japan
- Prior art keywords
- property
- file
- vector
- semantic
- files
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 title claims abstract description 262
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 168
- 238000000034 method Methods 0.000 title claims abstract description 103
- 230000008447 perception Effects 0.000 title claims abstract description 25
- 230000002996 emotional effect Effects 0.000 title abstract description 9
- 238000012549 training Methods 0.000 claims abstract description 110
- 230000008569 process Effects 0.000 claims abstract description 53
- 238000012545 processing Methods 0.000 claims description 72
- 230000033764 rhythmic process Effects 0.000 claims description 48
- 238000000926 separation method Methods 0.000 claims description 41
- 238000011156 evaluation Methods 0.000 claims description 35
- 210000002569 neuron Anatomy 0.000 claims description 34
- 238000003058 natural language processing Methods 0.000 claims description 22
- 238000013459 approach Methods 0.000 claims description 17
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 238000005259 measurement Methods 0.000 claims description 12
- 230000000875 corresponding effect Effects 0.000 claims description 9
- 238000004891 communication Methods 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims description 5
- 230000000007 visual effect Effects 0.000 claims description 5
- 230000002730 additional effect Effects 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000006978 adaptation Effects 0.000 claims description 2
- 238000011002 quantification Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 7
- 239000011159 matrix material Substances 0.000 description 22
- 230000006870 function Effects 0.000 description 21
- 238000001228 spectrum Methods 0.000 description 21
- 230000003595 spectral effect Effects 0.000 description 19
- 230000005236 sound signal Effects 0.000 description 17
- 238000011176 pooling Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 238000000605 extraction Methods 0.000 description 7
- 230000000295 complement effect Effects 0.000 description 6
- 238000013461 design Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000013139 quantization Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 239000012634 fragment Substances 0.000 description 5
- 230000001537 neural effect Effects 0.000 description 5
- 239000011295 pitch Substances 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 235000019640 taste Nutrition 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000010422 painting Methods 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 241000256837 Apidae Species 0.000 description 2
- 241000282412 Homo Species 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 230000008451 emotion Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000001256 tonic effect Effects 0.000 description 2
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241001419253 Spathiphyllum cochlearispathum Species 0.000 description 1
- ZYXYTGQFPZEUFX-UHFFFAOYSA-N benzpyrimoxan Chemical compound O1C(OCCC1)C=1C(=NC=NC=1)OCC1=CC=C(C=C1)C(F)(F)F ZYXYTGQFPZEUFX-UHFFFAOYSA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000002591 computed tomography Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006397 emotional response Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 239000013604 expression vector Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000001020 rhythmical effect Effects 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000003319 supportive effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 125000000391 vinyl group Chemical group [H]C([*])=C([H])[H] 0.000 description 1
- 229920002554 vinyl polymer Polymers 0.000 description 1
- 238000009941 weaving Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
- G06V30/274—Syntactic or semantic context, e.g. balancing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/071—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for rhythm pattern analysis or rhythm style recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/081—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for automatic key or tonality recognition, e.g. using musical rules or a knowledge base
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Multimedia (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Algebra (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
Description
ファイルの性質の初期の意味論的記述、例えば文中にコンテキストを含むコンテキストの記述及び特定の単語の使用は、最初に、例えば自然言語処理「NLP」技術等を用いて多次元意味論的ベクトルに変換されるか又は「埋め込まれる」。コンテキストに沿って書かれた記述は、主観、知覚及び/又は感情に基づく人間による判断の尺度となる。
(直前に概説し、以下の第3章で詳述するペア毎の意味論的近さに用いるファイルの意味論的記述とは対照的に)導出された「プロパティ」に基づいて第2の訓練処理で第2の独立ベクトルを生成する際、ニューラルネットワークの層内のノードに適用される重み付け係数は、バックプロパゲーションによって変化して、プロパティ距離空間(典型的にはユークリッド)内の結果を、(典型的にはユークリッド)意味論的分離距離(意味論的空間内の)の結果、従って本質的に元の意味論的記述に戻るように収束させる。
この点に関して、以下が認識されるであろう。「テクスチュア」は、一般に、スペクトルコンテンツの時間的進化に関する時間周波数空間内の2次元のパターンによって反映される。テクスチュアは、従って、周波数領域を時間領域に対してプロットするメルスペクトグラフ又はメルスペクトルに見られる。このようなメルスペクトル内では、進化するテクスチュアは、時間に伴って進化するパターン、例えば(i)高/中周波数範囲で中断された水平スペクトル線、(ii)中及び高周波数範囲全体にわたり伸長する平行な垂直スペクトル線、及び(iii)低~中周波数範囲における上昇又は下降段階を識別することにより、(後述するように)ニューラルネットワークによって学習することができる。テクスチュアは、従って、プロパティ空間内で更に測定可能な尺度の提供を通して、本発明に関連してトラックの類似性/非類似性の評価に利用できる更なる補完的意味論的プロパティを提供する。
i)ビート及び音楽的スペクトログラムから計算され、集計値が平均及び分散を反映するビート音量(https://essentia.upf.edu/documentation/reference/std_BeatsLoudness.html、及び
https://essentia.upf.edu/documentation/reference/std_BeatTrackerMultiFeature.htmlを参照されたい)、
ii)毎分ビート「BPM」(https://see essentia.upf.edu/documentation/reference/std_BpmHistogramDescriptors.html、及び
https://essentia.upf.edu/documentation/reference/std_BeatTrackerMultiFeature.htmlを参照されたい)、
iii)信号から計算され、集計値が第1及び第2のピークの高さ及び幅を反映するBPMヒストグラム(https://essentia.upf.edu/documentation/reference/std_BpmHistogramDescriptors.html、及び
https://essentia.upf.edu/documentation/reference/std_BeatTrackerMultiFeature.htmlを参照されたい)、
iv)踊り易さ(https://essentia.upf.edu/documentation/reference/std_Danceability.htmlを参照されたい)、
v)オンセットレート(https://essentia.upf.edu/documentation/reference/std_OnsetRate.htmlを参照されたい)、
vi)ビート及び音楽的スペクトログラムから計算され、6帯域にわたる平均値及び分散によって反映される帯域毎のビート音量(https://essentia.upf.edu/documentation/reference/std_BeatsLoudness.html及びhttps://essentia.upf.edu/documentation/reference/std_BeatTrackerMultiFeature.htmlを参照されたい)。
i)スペクトルの調和ピッチクラスプロファイル(HPCP)から計算される和音変化率(https://essentia.upf.edu/documentation/reference/std_ChordsDescriptors.htmlを参照されたい)、
ii)HPCPから計算される和音数レート(https://essentia.upf.edu/documentation/reference/std_ChordsDescriptors.htmlを参照されたい)、
iii)HPCPから計算され、集計値が平均及び分散を反映する和音強度(https://essentia.upf.edu/documentation/reference/std_ChordsDescriptors.htmlを参照されたい)、
iv)HPCPから計算され、集計値が平均及び分散を反映するHCPCエントロピー(https://essentia.upf.edu/documentation/reference/std_HPCP.html、及び
https://essentia.upf.edu/documentation/reference/std_Entropy.htmlを参照されたい、
v)HPCPから計算されるキー強度(https://essentia.upf.edu/documentation/reference/std_KeyExtractor.htmlを参照されたい)、
vi)HPCPから計算されるダイアトニック強度の調律(https://essentia.upf.edu/documentation/reference/std_TuningFrequency.htmlを参照されたい)、
vii)HPCPから計算される平均律偏差の調律(https://essentia.upf.edu/documentation/reference/std_TuningFrequency.htmlを参照されたい)、
viii)HPCPから計算される無調律エネルギー率の調律(https://essentia.upf.edu/documentation/reference/std_TuningFrequency.htmlを参照されたい)、及び
ix)HPCPから計算される和音ヒストグラム(https://essentia.upf.edu/documentation/reference/std_ChordsDescriptors.htmlを参照されたい)。
i)バーク帯域フィルタリングされたスペクトログラムから計算され、識別されたバーク周波数範囲の平均及び分散を集計したバーク帯域頂部(https://essentia.upf.edu/documentation/reference/streaming_Crest.html、及び
https://en.wikipedia.org/wiki/Bark_scale#Bark_scale_critical_bandsを参照されたい)、
ii)バーク帯域フィルタリングされたスペクトログラムから計算され、識別されたバーク周波数範囲の平均及び分散を集計したバーク帯域平坦度db(https://essentia.upf.edu/documentation/reference/std_FlatnessDB.htmlを参照されたい)、
iii)バーク帯域フィルタリングされたスペクトログラムから計算され、識別されたバーク周波数範囲の平均を集計したバーク帯域尖度(https://essentia.upf.edu/documentation/reference/std_DistributionShape.htmlを参照されたい)、
iv)バーク帯域フィルタリングされたスペクトログラムから計算され、識別されたバーク周波数範囲の平均及び分散を集計したバーク帯域歪度(https://essentia.upf.edu/documentation/reference/std_DistributionShape.htmlを参照されたい)、
v)バーク帯域フィルタリングされたスペクトログラムから計算され、識別されたバーク周波数範囲の平均を集計したバーク帯域幅(集計値が平均及び分散を反映する音声信号のスペクトログラムから計算されるスペクトル複雑度を参照されたい)(https://essentia.upf.edu/documentation/reference/std_DistributionShape.htmlを参照されたい)、
vi)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトル不協和音(https://essentia.upf.edu/documentation/reference/std_Dissonance.htmlを参照されたい)、
vii)音声信号のRMSエンベロープから計算される動的複雑度(https://essentia.upf.edu/documentation/reference/std_DynamicComplexity.htmlを参照されたい)、
viii)音声信号のスペクトログラムから計算され、平均を集計した高周波コンテンツ(https://essentia.upf.edu/documentation/reference/std_HFC.htmlを参照されたい)、
ix)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するピッチ顕現性(https://essentia.upf.edu/documentation/reference/std_PitchSalience.htmlを参照されたい)、
x)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトル複雑度(https://essentia.upf.edu/documentation/reference/std_SpectralComplexity.htmlを参照されたい)、
xi)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトルエネルギー高周波(https://essentia.upf.edu/documentation/reference/std_EnergyBand.htmlを参照されたい)、
xii)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトルエネルギー低周波(https://essentia.upf.edu/documentation/reference/std_EnergyBand.htmlを参照されたい)、
xiii)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトルエネルギー中高周波(https://essentia.upf.edu/documentation/reference/std_EnergyBand.htmlを参照されたい)、
xiv)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトルエネルギー中低周波(https://essentia.upf.edu/documentation/reference/std_EnergyBand.htmlを参照されたい)、
xv)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトルエントロピー(https://essentia.upf.edu/documentation/reference/std_Entropy.htmlを参照されたい)、
xvi)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトル束(https://essentia.upf.edu/documentation/reference/streaming_Flux.htmlを参照されたい)、
xvii)音声信号のスペクトログラムから計算され、平均値を集計したスペクトル尖度(https://essentia.upf.edu/documentation/reference/std_DistributionShape.htmlを参照されたい)、
xviii)音声信号のスペクトログラムから計算され、集計値が平均及び分散を反映するスペクトル強ピーク(https://essentia.upf.edu/documentation/reference/std_StrongPeak.htmlを参照されたい)、
xix)音声信号から計算され、平均及び分散を集計したゼロ交差率(https://essentia.upf.edu/documentation/reference/std_ZeroCrossingRate.htmlを参照されたい)、
xx)音声信号のスペクトログラムから計算され、平均を集計したMFCC(https://essentia.upf.edu/documentation/reference/std_MFCC.htmlを参照されたい)、及び
xxi)音声信号から計算され、ピーク及び谷の両方の平均及び分散を集計したスペクトルコントラスト(https://essentia.upf.edu/documentation/reference/std_SpectralContrast.htmlを参照されたい)。
本発明の各種の態様及び実施形態の概念に従い、プロパティ空間内でのペア毎の類似性/非類似性は、意味論的空間内の初期の意味論的類似性/非類似性(例えば、表現的且つ主観的言語記述)に逆マッピングされる。これは、並列動作する複数のニューラルネットワークを含み得る多段階処理である。複数の並列ANNの使用によって音楽的モダリティの制御が可能になるが、単一のANNを用いることも可能である。本発明の態様は、抽出されたプロパティを処理して、プロパティ空間内の非類似性を評価するニューラルネットワークの訓練に関する。
Claims (52)
- 第1のデータファイル(302)のコンテンツの、異なるデータファイル(304)のコンテンツに対する類似性又は非類似性を識別するように構成されたシステム(300)において、人工ニューラルネットワーク「ANN」(NNR310、NNTO312、NNTI314、NNTX318)を訓練する方法であって、
異なるデータファイルの選択されたペアについて、前記第1のデータファイル及び前記異なるデータファイルの各々から測定可能信号特性を抽出し、且つ前記測定可能信号特性から複数のプロパティを識別すること、
プロパティを処理することをタスクとされた前記ANNの出力において、前記選択されたペアの前記第1のデータファイル及び前記異なるデータファイルの各プロパティについて、対応するプロパティベクトル(ORx、OTOx、OTIx及びOTXx)をプロパティ空間内で生成すること、
前記第1のデータファイルのための第1の多次元ベクトル(350)及び前記異なるデータファイルのための別個の第2の多次元ベクトル(352)を組み立てること、ここで各多次元ベクトルは、前記ANNの出力からのそれぞれのプロパティベクトルを組み立てることから得られる、
前記第1の多次元ベクトル(350)と前記第2の多次元ベクトル(352)との間の距離測度(330)を判定すること、
前記判定された距離測度に応じて、プロパティ空間内の前記判定された距離測度と、前記異なるデータファイルに対して前記第1のデータファイルについて意味論的空間内で評価された定量化意味論的非類似性距離測度との間で生じる識別された不一致を考慮するバックプロパゲーション処理により、前記ANN(NNR310、NNTO312、NNTI314、NNTX318)内の重み及び/又はバイアス値を調整し、それにより、前記第1の多次元ベクトル(350)と前記第2の多次元ベクトル(352)との間の前記距離測度(330)によって反映されるプロパティ評価にわたり、前記定量化意味論的非類似性距離測度に反映される意味論的知覚を評価することによって前記システムを訓練すること
を含む方法。 - 意味論的空間内で評価された前記定量化意味論的非類似性距離測度は、前記第1のデータ及び前記異なるデータファイルの各々に関連付けられたテキスト形式の説明のベクトル表現に基づく、請求項1に記載の人工ニューラルネットワークを訓練する方法。
- 前記テキスト形式の説明は、前記それぞれのファイルのメタデータに符号化される、請求項2に記載の人工ニューラルネットワークを訓練する方法。
- 前記データファイルは、音声を含み、及び前記プロパティは、音楽的プロパティであり、及び前記測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアに関連するプロパティを定義する、請求項1、2または3に記載の人工ニューラルネットワークを訓練する方法。
- 前記定量化意味論的非類似性距離測度の評価は、
自然言語処理「NLP」をテキスト記述に適用して、訓練集合内の複数のN個のデータファイルのための意味論的ベクトルを生成すること、
前記訓練集合について且つペア毎に、各意味論的ベクトル間の分離距離を計算すること、
前記訓練集合内の前記ファイルの各々について、前記訓練集合内の他のファイルに対する最小及び最大分離距離を識別すること、
前記訓練集合内の各ファイルについて、第1のペアが前記最小分離距離を有し、及び第2のペアが前記最大分離距離を有するペアの集合を生成すること、
意味論的近さを表す第1の値を前記第1のペアに割り当て、且つ意味論的非類似性を表す第2の値を前記第2のペアに割り当てること、ここで前記第2の値は、前記第1の値と異なる、
を含む、請求項1又は4に記載の人工ニューラルネットワークを訓練する方法。 - 前記第1のペアは、前記第1のデータファイル及び前記異なるデータファイルである、請求項5に記載の人工ニューラルネットワークを訓練する方法。
- 小さい方からm個の分離距離及び大きい方からm個の分離距離を含む部分集合について、前記第1の値をm番目に小さいものに、且つ前記第2の値をm番目に大きいものに割り当てることを含み、ここで、mは、N未満の正の整数である、請求項5に記載の人工ニューラルネットワークを訓練する方法。
- 1つ以上の音声コンテンツ及び画像コンテンツを含むデータファイル間のコンテンツの類似性又は非類似性を識別するように構成された人工ニューラルネットワーク「ANN」(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法であって、
意味論的空間内における前記データファイルの前記コンテンツの定量化意味論的非類似性測度を、前記コンテンツについて抽出された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離に関連付けること、及び
測定可能プロパティにわたり、意味論的非類似性測度を評価するように前記システムを訓練し且つ動作させること、
を含む方法。 - 意味論的空間内で評価される前記定量化意味論的非類似性測度は、異なるデータファイルに関連付けられたテキスト形式の説明のベクトル表現に基づく、請求項8に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
- テキスト形式の説明は、前記データファイルのメタデータから導出される、請求項9に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
- 前記データファイルは、音声ファイルであり、及び前記測定可能プロパティは、リズム、調性、音質及び音楽的テクスチュアに関連するプロパティによって定義される音楽的プロパティである、請求項8、9または10に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
- 前記定量化意味論的非類似性測度は、
自然言語処理「NLP」をテキスト記述に適用して、訓練集合内の複数のN個のデータファイルのための意味論的ベクトルを生成すること、
前記訓練集合について且つペア毎に、各意味論的ベクトル間の分離距離を計算すること、
前記訓練集合内の前記ファイルの各々について、前記訓練集合内の他のファイルに対する最小及び最大分離距離を識別すること、
前記訓練集合内の各ファイルについて、第1のペアが前記最小分離距離を有し、及び第2のペアが前記最大分離距離を有するペアの集合を生成すること、
意味論的近さを表す第1の値を前記第1のペアに割り当て、且つ意味論的非類似性を表す第2の値を前記第2のペアに割り当てること、ここで前記第2の値は、前記第1の値と異なる、
によって得られる、請求項8~11のいずれか一項に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。 - 前記第1のペアは、前記第1のデータファイル及び前記異なるデータファイルである、請求項12に記載の人工ニューラルネットワークを訓練する方法。
- 小さい方からm個の分離距離及び大きい方からm個の分離距離を含む部分集合について、前記第1の値をm番目に小さいものに、且つ前記第2の値をm番目に大きいものに割り当てることを含み、ここで、mは、N未満の正の整数である、請求項12に記載の人工ニューラルネットワークを訓練する方法。
- 先行する請求項のいずれかに記載の方法に従って非類似性が評価された個々のファイルの識別を可能にするファイル識別子をデータベースに保存すること、及び
保存されたファイル識別子に対して、前記データベース内の他の識別されたファイルとの距離関係及び前記個々のファイルのための計算されたプロパティベクトルの少なくとも1つを記録すること、
を更に含む、請求項8~14のいずれか一項に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。 - 前記データベースは、ネットワークアクセス可能なデータベースである、請求項15に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
- 前記データベースは、ユーザー機器にローカルである、請求項15に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
- 複数の処理分岐を有する前記ニューラルネットワークの訓練中、プロパティ空間内のそれぞれのプロパティベクトルを生成するために、ファイルの異なるプロパティを処理するために割り当てられた異なる処理分岐を区別することを更に含み、
前記区別することは、
ペア毎の比較を受けるペア毎に対比されるファイルについて、それぞれのプロパティベクトルの相対的な類似性及び非類似性を識別すること、及び
最大の非類似性が前記ペア毎の比較の生成されたプロパティベクトルに見られる特定の処理分岐内のバイアス値及び重みの少なくとも1つの調整を促進すること、
を含む、請求項8~17のいずれか一項に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。 - 前記ペア毎の比較におけるプロパティが、相対的に非類似よりも、相対的に類似すると評価される場合、相対的により大きい重要度は、前記複数の処理分岐の特定の処理分岐に割り当てられる、請求項18に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
- 前記定量化意味論的非類似性距離測度は、前記ファイルの関連する記述的コンテンツの自然言語処理から得られる、請求項8~19のいずれか一項に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
- 前記記述的コンテンツは、前記ファイルのメタデータに含まれる、請求項20に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
- 前記データファイルは、音声を含み、及び前記プロパティは、音楽的プロパティであり、及び測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示す測定可能プロパティである、請求項8~21のいずれか一項に記載のANN(NNR310、NNTO312、NNTI314、NNTX318)を訓練し且つ動作させる方法。
- 共通のユーザー知覚可能な特性を共有するファイルを識別する方法であって、
関連付けられたプロパティベクトルを有する複数の一意に識別されたファイルを含むファイルライブラリにおける保存されたファイルへの近さについて対象ファイルを評価することを含み、
ニューラルネットワークにおいて、前記対象ファイルを処理して、プロパティ空間内の多次元プロパティベクトル(350、352)を生成すること、ここで前記多次元プロパティベクトル(350、352)は、前記対象ファイルから選択的に抽出された測定可能信号特性の複数の異なる集合から導出された複数のプロパティベクトル(ORx、OTOx、OTIx及びOTXx)から構成され、前記複数のプロパティベクトル(350、352)は、それぞれニューラルネットワークによって意味論的非類似性の測度に重み付けされる、及び
前記対象ファイルの前記多次元プロパティベクトル(350、352)と、前記ライブラリ内のファイルの前記プロパティベクトルとの間の近さに基づいて、前記ライブラリからファイルの順序付けられたリストを生成すること
を含む方法。 - ニューラルネットワークを使用して、意味論的に近いデータファイルを識別する方法であって、
意味論的に近いファイルの前記識別において、定量化意味論的非類似性距離測度に反映される意味論的知覚を、抽出された測定可能信号特性の距離測度(330)によって反映されるプロパティ評価よりも重要であると前記ニューラルネットワークにおいて評価すること
を含む方法。 - プロセッサ知能によって実行されると、請求項1~24のいずれか一項に記載の方法を実行するコードを含む、コンピュータプログラム。
- 人工ニューラルネットワーク「ANN」(NNR310、NNTO312、NNTI314、NNTX318)であって、少なくとも1つの音声コンテンツ及び画像コンテンツの形式で前記ANNに提示されるコンテンツに対して、バックプロパゲーションによって構成可能に選択された重み及びバイアスを適用するように配置された相互接続されたニューロンの層を含み、
意味論的空間内における前記コンテンツの定量化意味論的非類似性測度を、前記コンテンツについて抽出された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離と相関させて、プロパティ空間内の結果を意味論的空間内の結果に整合させるように経時的に適合される出力を提供し、前記重み及びバイアスの適合中、測定可能プロパティにわたって意味論的非類似性測度を評価するように構成される、人工ニューラルネットワーク「ANN」(NNR310、NNTO312、NNTI314、NNTX318)。 - 人工ニューラルネットワーク「ANN」(NNR310、NNTO312、NNTI314、NNTX318)であって、相互接続されたニューロンの層であって、少なくとも1つの音声コンテンツ及び画像コンテンツの形式で前記ANNに提示されるコンテンツに対して、意味論的空間内における前記コンテンツの定量化意味論的非類似性測度を、前記コンテンツについて抽出され、且つ前記ANNの前記ニューロンによって処理された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離と相関させるようにバックプロパゲーションによって選択的に構成される重み及びバイアスを適用するように配置された相互接続されたニューロンの層を含み、それにより、前記重み及びバイアスのその適用において、測定可能プロパティにわたって意味論的非類似性測度を評価するように構成される、人工ニューラルネットワーク「ANN」(NNR310、NNTO312、NNTI314、NNTX318)。
- ニューロンの出力層に結合されたニューロンの入力層を含む人工ニューラルネットワーク「ANN」(NNR310、NNTO312、NNTI314、NNTX318)であって、前記ニューロンは、重み及びバイアスを、それによって受信されたデータに適用するように配置され、
前記ANNは、
プロパティ空間内の前記ANNの出力の整合性を、意味論的空間内の基準比較用記述的コンテンツについて事前に測定された基準意味論的非類似性測度と相関させるために、ニューロンのための重み及びバイアスを生成するように構成され、
前記プロパティ空間は、入力に適用されるファイルの音声及び/又は画像コンテンツから抽出された測定可能プロパティを前記ANNによって処理することによって決定される、人工ニューラルネットワーク「ANN」(NNR310、NNTO312、NNTI314、NNTX318)。 - 前記入力層は、少なくとも1つの隠れ層によって前記出力層から分離される、請求項28に記載のANN。
- 前記データファイルは、音声を含み、及び前記プロパティは、音楽的プロパティであり、及び測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示す測定可能プロパティである、請求項26~29のいずれか一項に記載のANN。
- a)複数のプロパティベクトルを提供するように配置された複数の人工ニューラルネットワーク出力であって、前記プロパティベクトルは、第1のデータファイルのコンテンツからの抽出された測定可能信号特性である、複数の人工ニューラルネットワーク出力と、
b)更なるプロパティベクトルを提供するように配置された少なくとも1つの畳み込みニューラルネットワークであって、前記更なるプロパティベクトルは、前記第1のデータファイルの前記コンテンツの2次元表現から導出される、少なくとも1つの畳み込みニューラルネットワークと、
c)それぞれ基準ベクトルを有する複数の一意に識別可能なデータファイルを含むデータベースであって、各基準ベクトルは、(a)そのデータファイルのコンテンツから得られた抽出された測定可能信号特性、及び(b)そのデータファイルの前記コンテンツの2次元表現から得られた更なるプロパティベクトルから得られたプロパティベクトルから組み立てられる、データベースと、
d)処理知能であって、
前記第1のデータファイルについて、前記複数のプロパティベクトル及び前記更なるプロパティベクトルから多次元プロパティベクトル(350、352)を生成することと、
前記多次元プロパティベクトル(350、352)を前記データベース内の前記複数の基準ベクトルと比較することと、
前記第1のファイルの前記多次元プロパティベクトル(350、352)のものと測定可能に類似すると識別された基準ベクトルを有する少なくとも1つの一意のファイル識別子を識別し、それにより、前記第1のデータファイルに意味論的に近い、前記データベース内の異なる第2のデータファイルを識別することと
を行うように構成された処理知能と
を含むシステム(300)。 - 前記複数のプロパティベクトル(350、352)は、それぞれニューラルネットワークによって重み付けされて、意味論的非類似性を反映する、請求項31に記載のシステム。
- ネットワーク接続及び通信ユニットを更に含み、前記処理知能は、前記通信ユニットに、前記ネットワーク接続にわたって前記異なる第2のデータファイルを対話型ユーザー機器に送信させる、請求項31又は32に記載のシステム。
- 前記データファイルは、音声を含み、及びプロパティは、音楽的プロパティであり、及び前記測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示す測定可能プロパティである、請求項31~33のいずれか一項に記載のシステム。
- 検索についてユーザーが優先する特性を選択するように構成されたユーザーインターフェースを含む、請求項31~34のいずれか一項に記載のシステム。
- a)データファイルのための複数のプロパティベクトルを提供するように配置された複数の人工ニューラルネットワーク出力であって、前記プロパティベクトルは、前記データファイルのコンテンツからの抽出された測定可能信号特性である、複数の人工ニューラルネットワーク出力と、
b)多次元プロパティベクトル(350、352)を生成するために、複数のプロパティベクトルで組み立てられる更なるベクトルを提供するように配置された少なくとも1つの畳み込みニューラルネットワークと、
c)前記第1のデータファイル及び異なるデータファイルを含むデータファイルのペアについて、第1及び第2の異なる多次元プロパティベクトルを受信し、且つそれに応じて、前記第1及び第2の異なる多次元プロパティベクトル間の距離測度を生成するように配置された処理知能と、
d)プロパティ空間内における前記距離測度が、意味論的空間内における前記第1及び第2のベクトルについて生成された基準距離と相関するか否かを解決するように構成された処理知能であって、前記基準距離は、前記データファイルのペアの基準比較用記述的コンテンツの意味論的非類似性測度に基づく、処理知能と
を含むシステム(300)。 - 前記処理知能は、意味論的空間内における前記コンテンツの定量化意味論的非類似性測度を、前記コンテンツについて抽出された測定可能プロパティのプロパティ空間内における関連するプロパティ分離距離に関連付ける、請求項36に記載のシステム。
- 人間によって知覚された特性を表す独立ベクトル及び電子ソースファイルの測定可能な特性の複数のペアを生成することによって訓練される予測システムであって、
第1のベクトルは、意味論的空間内において、且つソースファイルのペア間の、人間によって生成された記述における測定された非類似性に基づいて、前記第1のベクトルがペア毎の近さのユーザー主体の知覚を提供するように生成され、及び
各ペアの第2のベクトルは、ソースファイルの同じペアのコンテンツから抽出された測定可能プロパティのペア毎の比較から得られ、及び
前記予測システムは、前記第1のベクトルのペア毎の距離が前記第2のベクトルのペア毎の距離に近づくように、前記第2のベクトルの生成処理を適合させるように配置された処理知能を含む、予測システム。 - 前記電子ソースファイルは、
デジタル音声、
画像データ、及び
コンテキストを有する文献データ
の少なくとも1つ含む、請求項38に記載の予測システム。 - 前記電子ソースファイルは、音声を含み、及び前記プロパティは、音楽的プロパティであり、及び前記測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示す測定可能プロパティである、請求項38又は39に記載の予測システム。
- デジタル音声ファイル(302、304)であって、前記デジタル音声ファイルの信号特性の量子化表現(PRx、PTox、PTix、PTxx)の複数の集合から導出された音楽的プロパティにそれぞれ関連する複数の組み立てられたプロパティベクトル成分(ORx、OTOx、OTIx及びOTXx)を含む多次元プロパティベクトル(350、352)を埋め込まれたデジタル音声ファイル(302、304)。
- 前記埋め込まれた多次元ベクトルは、リズム、調性、音質及び音楽的テクスチュアを示す測定可能信号特性によって定義される音楽的プロパティと相関されたベクトルである、請求項41に記載のデジタル音声ファイル。
- 前記組み立てられたベクトル成分(ORx、OTOx、OTIx及びOTXx)の各々は、意味論的距離分離空間内の基準ベクトルに対して評価される前記音楽的プロパティのベクトル非類似性空間内における測度を反映する、請求項41又は42に記載のデジタル音声ファイル。
- デジタル画像ファイル(302、304)であって、前記デジタル画像ファイルの信号特性の量子化表現(PRx、PTox、PTix)の複数の集合から導出された視覚的プロパティにそれぞれ関連する複数の組み立てられたプロパティベクトル成分(ORx、OTOx、OTIx及びOTXx)を含む多次元プロパティベクトル(350、352)を埋め込まれたデジタル画像ファイル(302、304)。
- デジタルファイル(302、304)であって、前記デジタルファイルの特性の知覚を明瞭に表現する、コンテキストを有するプロパティの共通性又は非類似性を表す多次元プロパティベクトルを埋め込まれ、
ニューラルネットワークにおいて、対象ファイルを処理して、プロパティ空間内における多次元プロパティベクトル(350、352)を生成する処理であって、前記多次元プロパティベクトル(350、352)は、前記対象ファイルから選択的に抽出された測定可能信号特性の複数の異なる集合から導出された複数のプロパティベクトル(ORx、OTOx、OTIx及びOTXx)から構成され、前記複数のプロパティベクトル(350、352)は、それぞれ前記ニューラルネットワークによって意味論的非類似性の測度に整合するように重み付けされる、処理
によって生成される、デジタルファイル(302、304)。 - 音楽又は画像データにおけるそれである、請求項45に記載のデジタルファイル(302、304)。
- 類似性又は非類似性値を評価する処理は、定量化意味論的非類似性距離測度に反映される意味論的知覚を、抽出された測定可能信号特性の距離測度(330)によって反映されるプロパティ評価よりも重要であると評価する、請求項45又は46に記載のデジタルファイル(302、304)。
- デジタルファイル(302、304)であって、前記デジタルファイルの人間によって知覚された特性を反映する、コンテキストを有するプロパティの共通性又は非類似性を表す多次元プロパティベクトルを埋め込まれ、人間によって知覚された特性及び電子ソースファイルの測定可能な量を表す独立ベクトルの複数のペアを生成することによって訓練される処理から生成され、
前記複数のペアを生成する前記処理は、
第1のベクトルを、意味論的空間内において、ソースファイルのペア間の、人間によって生成された記述における測定された非類似性に基づいて、前記第1のベクトルがペア毎の近さのユーザー主体の知覚を提供するように生成すること、
ソースファイルの同じペアのコンテンツから抽出された測定可能プロパティのペア毎の比較から第2のベクトルを生成すること、及び
前記第1のベクトルのペア毎の距離が前記第2のベクトルのペア毎の距離に近づくように、前記第2のベクトルが生成される処理を適合させること、
を更に含む、デジタルファイル(302、304)。 - 前記デジタルファイルを得るために処理されるソースファイルは、
デジタル音声、
画像データ、及び
コンテキストを有する文献データ
の少なくとも1つを含む、請求項48に記載のデジタルファイル(302、304)。 - 前記ソースファイルは、音声を含み、及び前記プロパティは、音楽的プロパティであり、及び前記測定可能信号特性は、リズム、調性、音質及び音楽的テクスチュアを示す測定可能プロパティである、請求項48又は49に記載のデジタルファイル(302、304)。
- 関連する記述的コンテンツの自然言語処理から定量化意味論的非類似性距離測度が得られる処理から得られる、請求項8、9又は10に記載のデジタルファイル(302、304)。
- 請求項41~43若しくは45~51のいずれか一項に記載の複数のデジタル音声ファイル又は請求項44に記載の複数のデジタル画像ファイルを含むデータベース。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB1904716.6A GB2583696A (en) | 2019-04-03 | 2019-04-03 | System for categoring and finding associated content and embedded vector therefor |
GB1904713.3 | 2019-04-03 | ||
GB1904716.6 | 2019-04-03 | ||
GB1904713.3A GB2583455A (en) | 2019-04-03 | 2019-04-03 | Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content |
GB1904719.0 | 2019-04-03 | ||
GB1904719.0A GB2584598B (en) | 2019-04-03 | 2019-04-03 | Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content |
PCT/GB2020/050865 WO2020201746A1 (en) | 2019-04-03 | 2020-04-01 | Method of training a neural network to reflect emotional perception, related system and method for categorizing and finding associated content and related digital media file embedded with a multi-dimensional property vector |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022528564A true JP2022528564A (ja) | 2022-06-14 |
JPWO2020201746A5 JPWO2020201746A5 (ja) | 2023-04-10 |
Family
ID=70285718
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021560426A Pending JP2022528564A (ja) | 2019-04-03 | 2020-04-01 | 感情的知覚を反映するようにニューラルネットワークを訓練する方法、関連付けられたコンテンツと、多次元プロパティベクトルを埋め込まれた関連するデジタル媒体ファイルとを分類及び発見するための関連するシステム及び方法 |
Country Status (10)
Country | Link |
---|---|
US (6) | US11080601B2 (ja) |
EP (1) | EP3931721A1 (ja) |
JP (1) | JP2022528564A (ja) |
KR (1) | KR20220002939A (ja) |
AU (1) | AU2020251747A1 (ja) |
BR (1) | BR112021019764A2 (ja) |
CA (1) | CA3135936A1 (ja) |
MX (1) | MX2021012091A (ja) |
TW (1) | TW202101431A (ja) |
WO (1) | WO2020201746A1 (ja) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2571340A (en) * | 2018-02-26 | 2019-08-28 | Ai Music Ltd | Method of combining audio signals |
US11080601B2 (en) | 2019-04-03 | 2021-08-03 | Mashtraxx Limited | Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content |
US11049481B1 (en) * | 2019-11-27 | 2021-06-29 | Amazon Technologies, Inc. | Music generation system |
US11468294B2 (en) | 2020-02-21 | 2022-10-11 | Adobe Inc. | Projecting images to a generative model based on gradient-free latent vector determination |
US11322133B2 (en) * | 2020-07-21 | 2022-05-03 | Adobe Inc. | Expressive text-to-speech utilizing contextual word-level style tokens |
GB2599441B (en) * | 2020-10-02 | 2024-02-28 | Emotional Perception Ai Ltd | System and method for recommending semantically relevant content |
US11567812B2 (en) | 2020-10-07 | 2023-01-31 | Dropbox, Inc. | Utilizing a natural language model to determine a predicted activity event based on a series of sequential tokens |
CN112446432B (zh) * | 2020-11-30 | 2023-06-30 | 西安电子科技大学 | 基于量子自学习自训练网络的手写体图片分类方法 |
US11315589B1 (en) * | 2020-12-07 | 2022-04-26 | Victoria Balthazor | Deep-learning spectral analysis system |
US11568018B2 (en) | 2020-12-22 | 2023-01-31 | Dropbox, Inc. | Utilizing machine-learning models to generate identifier embeddings and determine digital connections between digital content items |
US20220208217A1 (en) * | 2020-12-31 | 2022-06-30 | Gracenote, Inc. | Cover song identification method and system |
CN112988964B (zh) * | 2021-02-20 | 2024-03-08 | 平安科技(深圳)有限公司 | 文本韵律边界预测的方法、装置、设备及存储介质 |
US20220309578A1 (en) * | 2021-03-23 | 2022-09-29 | Zensar Technologies Limited | System and method for autonomously generating service proposal response |
CN112915525B (zh) * | 2021-03-26 | 2023-06-16 | 平安科技(深圳)有限公司 | 游戏音乐生成方法、装置、设备及存储介质 |
MX2023011535A (es) | 2021-03-31 | 2023-12-14 | Daaci Ltd | Sistemas y metodos para generar automaticamente una composicion musical que tiene una forma audiblemente correcta. |
TWI818259B (zh) * | 2021-05-19 | 2023-10-11 | 國立臺灣大學 | 基於深度學習方法之推播封鎖意圖預測方法與系統 |
US11809521B2 (en) * | 2021-06-08 | 2023-11-07 | Fanuc Corporation | Network modularization to learn high dimensional robot tasks |
US12017355B2 (en) * | 2021-06-08 | 2024-06-25 | Fanuc Corporation | Grasp learning using modularized neural networks |
CN113628640A (zh) * | 2021-07-15 | 2021-11-09 | 河南工业大学 | 一种基于样本均衡和最大均值差异的跨库语音情感识别方法 |
CN113823250B (zh) * | 2021-11-25 | 2022-02-22 | 广州酷狗计算机科技有限公司 | 音频播放方法、装置、终端及存储介质 |
CN114925742B (zh) * | 2022-03-24 | 2024-05-14 | 华南理工大学 | 基于辅助任务的符号音乐情感分类系统及方法 |
US11934523B1 (en) * | 2022-12-01 | 2024-03-19 | Flexxon Pte. Ltd. | System and method for securing data files |
Family Cites Families (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050038819A1 (en) | 2000-04-21 | 2005-02-17 | Hicken Wendell T. | Music Recommendation system and method |
US20020133499A1 (en) * | 2001-03-13 | 2002-09-19 | Sean Ward | System and method for acoustic fingerprinting |
US7777125B2 (en) | 2004-11-19 | 2010-08-17 | Microsoft Corporation | Constructing a table of music similarity vectors from a music similarity graph |
CA2612404C (en) * | 2005-06-17 | 2014-05-27 | National Research Council Of Canada | Means and method for adapted language translation |
WO2010027509A1 (en) | 2008-09-05 | 2010-03-11 | Sourcetone, Llc | Music classification system and method |
US20100332404A1 (en) | 2009-06-29 | 2010-12-30 | David Valin | Method and mechanism for protection, sharing, storage, accessing, authentication, certification, attachment and tracking anything in an electronic network |
US8712157B2 (en) | 2011-04-19 | 2014-04-29 | Xerox Corporation | Image quality assessment |
US10055493B2 (en) | 2011-05-09 | 2018-08-21 | Google Llc | Generating a playlist |
US9098579B2 (en) | 2011-06-07 | 2015-08-04 | Kodak Alaris Inc. | Automatically selecting thematically representative music |
US9576050B1 (en) * | 2011-12-07 | 2017-02-21 | Google Inc. | Generating a playlist based on input acoustic information |
US8938089B1 (en) | 2012-06-26 | 2015-01-20 | Google Inc. | Detection of inactive broadcasts during live stream ingestion |
US8484022B1 (en) | 2012-07-27 | 2013-07-09 | Google Inc. | Adaptive auto-encoders |
US9509705B2 (en) | 2014-08-07 | 2016-11-29 | Wells Fargo Bank, N.A. | Automated secondary linking for fraud detection systems |
US9836671B2 (en) | 2015-08-28 | 2017-12-05 | Microsoft Technology Licensing, Llc | Discovery of semantic similarities between images and text |
US10635727B2 (en) | 2016-08-16 | 2020-04-28 | Ebay Inc. | Semantic forward search indexing of publication corpus |
EP3336774B1 (en) | 2016-12-13 | 2020-11-25 | Axis AB | Method, computer program product and device for training a neural network |
US20180276540A1 (en) | 2017-03-22 | 2018-09-27 | NextEv USA, Inc. | Modeling of the latent embedding of music using deep neural network |
US11197036B2 (en) | 2017-04-26 | 2021-12-07 | Piksel, Inc. | Multimedia stream analysis and retrieval |
CA3062700A1 (en) | 2017-05-25 | 2018-11-29 | J. W. Pepper & Son, Inc. | Sheet music search and discovery system |
US10936653B2 (en) * | 2017-06-02 | 2021-03-02 | Apple Inc. | Automatically predicting relevant contexts for media items |
CN108334617A (zh) | 2018-02-07 | 2018-07-27 | 大连大学 | 基于语义的音乐检索的方法 |
CN108648767B (zh) | 2018-04-08 | 2021-11-05 | 中国传媒大学 | 一种流行歌曲情感综合与分类方法 |
US11531698B2 (en) | 2018-09-06 | 2022-12-20 | Spotify Ab | System and method for selecting media content |
US11163777B2 (en) | 2018-10-18 | 2021-11-02 | Oracle International Corporation | Smart content recommendations for content authors |
US11080601B2 (en) | 2019-04-03 | 2021-08-03 | Mashtraxx Limited | Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content |
US20210012200A1 (en) | 2019-04-03 | 2021-01-14 | Mashtraxx Limited | Method of training a neural network and related system and method for categorizing and recommending associated content |
US11281734B2 (en) | 2019-07-03 | 2022-03-22 | International Business Machines Corporation | Personalized recommender with limited data availability |
GB2599441B (en) | 2020-10-02 | 2024-02-28 | Emotional Perception Ai Ltd | System and method for recommending semantically relevant content |
-
2020
- 2020-02-06 US US16/784,136 patent/US11080601B2/en active Active
- 2020-02-06 US US16/784,144 patent/US11068782B2/en active Active
- 2020-04-01 AU AU2020251747A patent/AU2020251747A1/en active Pending
- 2020-04-01 MX MX2021012091A patent/MX2021012091A/es unknown
- 2020-04-01 TW TW109111404A patent/TW202101431A/zh unknown
- 2020-04-01 WO PCT/GB2020/050865 patent/WO2020201746A1/en unknown
- 2020-04-01 KR KR1020217035804A patent/KR20220002939A/ko active Search and Examination
- 2020-04-01 EP EP20718732.9A patent/EP3931721A1/en active Pending
- 2020-04-01 JP JP2021560426A patent/JP2022528564A/ja active Pending
- 2020-04-01 BR BR112021019764A patent/BR112021019764A2/pt unknown
- 2020-04-01 CA CA3135936A patent/CA3135936A1/en active Pending
-
2021
- 2021-06-21 US US17/353,511 patent/US11494652B2/en active Active
- 2021-07-07 US US17/369,204 patent/US20210383230A1/en not_active Abandoned
-
2022
- 2022-05-25 US US17/752,950 patent/US11645532B2/en active Active
-
2023
- 2023-05-05 US US18/143,802 patent/US20230274149A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
BR112021019764A2 (pt) | 2022-01-04 |
CA3135936A1 (en) | 2020-10-08 |
US11080601B2 (en) | 2021-08-03 |
TW202101431A (zh) | 2021-01-01 |
US11494652B2 (en) | 2022-11-08 |
AU2020251747A1 (en) | 2021-11-25 |
US11645532B2 (en) | 2023-05-09 |
WO2020201746A1 (en) | 2020-10-08 |
US20220292355A1 (en) | 2022-09-15 |
KR20220002939A (ko) | 2022-01-07 |
MX2021012091A (es) | 2022-05-10 |
US20210383230A1 (en) | 2021-12-09 |
US20230274149A1 (en) | 2023-08-31 |
US20210326707A1 (en) | 2021-10-21 |
US20200320398A1 (en) | 2020-10-08 |
EP3931721A1 (en) | 2022-01-05 |
US20200320388A1 (en) | 2020-10-08 |
US11068782B2 (en) | 2021-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022528564A (ja) | 感情的知覚を反映するようにニューラルネットワークを訓練する方法、関連付けられたコンテンツと、多次元プロパティベクトルを埋め込まれた関連するデジタル媒体ファイルとを分類及び発見するための関連するシステム及び方法 | |
US20210012200A1 (en) | Method of training a neural network and related system and method for categorizing and recommending associated content | |
US11544565B2 (en) | Processing system for generating a playlist from candidate files and method for generating a playlist | |
GB2584598A (en) | Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content | |
WO2022043643A1 (en) | Method of training a neural network and related system and method for categorizing and recommending associated content | |
Kostek et al. | Creating a reliable music discovery and recommendation system | |
GB2583455A (en) | Method of training a neural network to reflect emotional perception and related system and method for categorizing and finding associated content | |
GB2583696A (en) | System for categoring and finding associated content and embedded vector therefor | |
Yeh et al. | Popular music representation: chorus detection & emotion recognition | |
Mirza et al. | Residual LSTM neural network for time dependent consecutive pitch string recognition from spectrograms: a study on Turkish classical music makams | |
Özseven et al. | A Content Analysis of the Research Approaches in Music Genre Recognition | |
Castillo et al. | Predicting spotify audio features from Last. fm tags | |
Tian et al. | Homepage and Search Personalization at Spotify | |
US11315589B1 (en) | Deep-learning spectral analysis system | |
Chemeque Rabel | Content-based music recommendation system: A comparison of supervised Machine Learning models and music features | |
Fellenor | Artificial Intelligence Incorporated into Audio Analysis of Electronic Music | |
Endrjukaite et al. | Emotions recognition system for acoustic music data based on human perception features | |
Prezja | Developing and testing sub-band spectral features in music genre and music mood machine learning | |
Ramires | Automatic characterization and generation of music loops and instrument samples for electronic music production | |
Clemente | Using Features of Groove in Music Recommendation Systems | |
Horsburgh | Integrating content and semantic representations for music recommendation. | |
Reddy et al. | Enhancing Music Genre Classification Accuracy using Machine Learning Models | |
Italiano et al. | Machine Learning and Music: Predicting the level of energy conveyed by a soundtrack |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230331 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230331 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230411 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240325 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240423 |