JP2022501651A - サウンド分類システム - Google Patents

サウンド分類システム Download PDF

Info

Publication number
JP2022501651A
JP2022501651A JP2021516976A JP2021516976A JP2022501651A JP 2022501651 A JP2022501651 A JP 2022501651A JP 2021516976 A JP2021516976 A JP 2021516976A JP 2021516976 A JP2021516976 A JP 2021516976A JP 2022501651 A JP2022501651 A JP 2022501651A
Authority
JP
Japan
Prior art keywords
sound
classification
database
sounds
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021516976A
Other languages
English (en)
Inventor
ジャティ、アリンダム
クマー、ナヴィーン
チェン、ルーシン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Interactive Entertainment Inc
Original Assignee
Sony Interactive Entertainment Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Interactive Entertainment Inc filed Critical Sony Interactive Entertainment Inc
Publication of JP2022501651A publication Critical patent/JP2022501651A/ja
Priority to JP2023071591A priority Critical patent/JP2023109760A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/65Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • G06F16/634Query by example, e.g. query by humming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【解決手段】1つ以上のプロセッサに実装された1つ以上のニューラルネットワークを含むサウンドの階層分類のためのシステム、方法及びコンピュータプログラム製品。1つ以上のニューラルネットワークは、サウンドを2つ以上の層の階層の粗い分類及び階層の最も細かいレベルの分類に分類するように構成される。分類サウンドは、類似したサウンドまたは文脈的に関係するサウンドを求めてデータベースを検索するために使用され得る。【選択図】図1

Description

本開示は、サウンドの分類に関する。特に、本開示は、ニューラルネットワークを使用したサウンドの多層分類に関する。
コンピュータによって生成される特殊効果(FX)に大きく依存する映画及びビデオゲームの人気の高まりによって、サウンドファイルを含む膨大なデータベースが作成されるようになってきた。これらのデータベースは、映画及びビデオゲームの作成者がサウンドファイルによりアクセスしやすくするために分類される。分類はアクセスしやすさには役立つが、データベースを使用するには、依然としてデータベースのコンテンツ及び分類方式に精通していることが必要である。利用可能なサウンドに関する知識がないコンテンツ作成者は、所望のサウンドを見つけるのが大変困難である。したがって、新しいコンテンツ作成者は、すでに存在しているサウンドを作成することで時間及びリソースを浪費する場合がある。
これらのアクセス可能な大規模なサウンドデータベースにも関わらず、映画及びビデオゲームは、多くの場合新しいカスタムサウンドを作り出す。新しいサウンドをこれらのデータベースに加えるには、膨大な量の時間及び分類方式に精通している人物が必要になる。
本開示の実施形態が生じるのはこの状況においてである。
本開示の態様は、添付図面と併せて以下の詳細な説明を検討することによって容易に理解できる。
本開示の態様に従って、訓練されたサウンド分類及び類別ニューラルネットワークを使用するサウンド分類の方法を示すブロック図である。 本開示の態様に係るサウンド分類システムで使用するためのリカレント型ニューラルネットワークの簡略化されたノード図である。 本開示の態様に係るサウンド分類システムで使用するための展開されたリカレント型ニューラルネットワークの簡略化されたノード図である。 本開示の態様に係るサウンド分類システムで使用するための畳み込みニューラルネットワークの簡略図である。 本開示の態様に係るサウンド分類システムでニューラルネットワークを訓練するための方法のブロック図である。 本開示の態様に係るサウンド分類システムでニューラルネットワークを訓練するためのメトリック学習及びクロスエントロピー損失関数学習の複合型の方法を示すブロック図である。 本開示の態様に従って訓練されたサウンド分類及び類別ニューラルネットワークを使用するサウンド分類方法を実装するシステムのブロック図を示す。
以下の詳細な説明は、説明のための多くの具体的な詳細を含むが、当業者は、以下の詳細に対する多くの変形形態及び変更形態が本開示の範囲内にあることを理解する。したがって、以下に説明する本開示の実施形態の例は、特許請求される開示に対する一般性を失うことなく、かつ特許請求される開示に制限を課すことなく説明される。
本開示の実施形態の完全な理解を提供するために多数の具体的な詳細が説明されるが、他の実施形態がこれらの具体的な詳細なしに実施され得ることが当業者によって理解される。他の例では、本開示を分かりづらくしないために、周知の方法、手順、構成要素、及び回路は詳細に説明されていない。本明細書の説明のいくつかの部分は、コンピュータメモリ内のデータビットまたはバイナリデジタル信号に対する演算のアルゴリズム及び記号表現の観点から提示される。これらのアルゴリズムの説明及び表現は、データ処理技術の当業者が自らの研究の重要性を他の当業者に伝えるために使用する技術である場合がある。
本明細書で使用されるアルゴリズムは、所望の結果につながるセルフコンシステントな一連のアクションまたは演算である。これらは、物理量の物理的な操作を含む。必ずしもではないが、通常、これらの量は、格納、転送、結合、比較、及びそれ以外の場合操作が可能な電気信号または磁気信号の形をとる。これらの信号をビット、値、要素、記号、文字、用語、数字などと呼ぶことは、おもに一般的な使用法の理由からときには便利であることが判明している。
具体的に明記されない限り、またはそれ以外の場合以下の説明から明らかではない限り、明細書全体で、「処理する」、「計算する」、「変換する」、「調整する」、「判断する」、または「識別する」などの用語を利用する説明は、プロセッサを含む電子コンピューティングデバイスであるコンピュータプラットフォームのアクション及びプロセスを指し、プロセッサは、プロセッサのレジスタ及びアクセス可能なプラットフォームメモリ内の物理的な(例えば、電子)量として表されるデータを操作し、コンピュータプラットフォームメモリ、プロセッサレジスタ、または表示画面内で物理量として同様に表される他のデータに変換することが理解されるべきである。
コンピュータプログラムは、フロッピー(登録商標)ディスク、光ディスク(例えば、コンパクトディスク読み取り専用メモリ(CD−ROM)、デジタルビデオディスク(DVD)、Blu−Ray(登録商標) Discs(商標)など)、及び磁気光ディスク、読み取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、EPROM、EEPROM、磁気カードもしくは光カード、フラッシュメモリ、または電子命令の格納に適した任意の他のタイプの非一過性媒体を含む任意のタイプのディスクであるが、これに限定されるものではないコンピュータ可読記憶媒体に格納され得る。
用語「結合された」及び「接続された」は、その派生語とともに、本明細書の操作を実行するための装置の構成要素間の構造上の関係を説明するために本明細書で使用される場合がある。これらの用語は、互いの同義語として意図されていないことを理解されたい。むしろ、特定の実施形態では、「接続された」は、2つ以上の要素が互いに直接的に物理的または電気的に接触していることを示すために使用される場合がある。いくつかの例では、「接続された」、「接続」、及びその派生語は、例えばニューラルネットワーク(NN)の中のノード層間の論理関係を示すために使用される。「結合された」は、2つ以上の要素が直接的にまたは間接的に(他の介在する要素がそれらの間にある)のどちらかで互いに物理的にまたは電気的に接触していること、及び/または2つ以上の要素が(例えば、因果関係においてのように)互いに協調または通信することを示すために使用される場合がある。
サウンド分類システム
現在、映画及びビデオゲーム向けにサウンドFXの大規模なデータベースが存在している。これらの大規模なデータベースは、不均一な多層分類方式を使用し、手作業で分類されている。一例の方式では、データベースは多くのカテゴリを有し、各カテゴリは1つ以上の娘サブカテゴリを有し、実際のサウンドは各サブカテゴリ下に一覧されている。機械学習は、データセットをクラスタ化し、類別するようにニューラルネットワークを訓練するために使用されてきた。以前のデータセットは、通常、設計によってすでに固有の分類を有していたオブジェクトから成り立っていた。例えば、以前のクラスタ化の問題は、車がセダンであるのか、それともクーペであるのかを判断することを含んでいる。自動車業界は、セダンまたはクーペのどちらかのデザインで明示的に車を製造するため、これらの2つのタイプの車両の違いは固有である。
人間がサウンドFXデータベースでサウンドを分類するとき、サウンドの音響特性を除く要因は、サウンドがどの分類を必要とするのかを判断するために使用される。例えば、人間のカテゴライザは、例えば、サウンドが爆発によって生じたのか、それとも銃声によって生じたのかなど、サウンドの発生源について何かを知る。この情報は、サウンドデータ単独から入手することはできない。本開示の洞察は、固有の分類のないサウンドは、純粋にサウンドの特性に基づいて確実な方法で分類をサウンドに適用させ得るという点である。さらに、サウンドサンプル間の類似性をその音響類似性に基づいて学習することによって、機械学習システムは、新しいサウンドクラスを学習できる。したがって、これらの大規模なデータベースの検索及び分類は、機械学習の使用によって支援され得る。本開示は2層分類を説明しているが、本開示がそのような構造に限定されず、教示は任意の数の層を有するデータベースに適用し得ることを理解されたい。
サウンド分類システムは、特定のサウンドまたは特定のタイプのサウンドを求めて大規模データベースを検索する際に役立つ場合がある。分類は、階層の類別、すなわち、(サウンド階層ツリーのノードに沿ってのような)粗い分類から細かい分類の一般的な概念を指す。制限としてではなく例として、粗い類別及びきめの細かい類別があり、最もきめの細かい類別またはカテゴリの前に複数のきめの粗い類別またはカテゴリがある。いくつかの実施態様では、システムは、ユーザーが発声するオノマトペサウンドを分類及び類別し得る。本明細書で使用するように、用語オノマトペサウンドは、特定のサウンドを説明または示唆する単語または発声を指す。システムは、オノマトペサウンドの分類を使用して、オノマトペサウンドの分類に一致する実際に録音されたサウンドを求めてサウンドFXデータベースを検索し得る。階層データベースの1つの優位点は、システムが、サブカテゴリ及びカテゴリの両方に基づいて相違度が変化する複数の類似したサウンドを提示し得る点である。いくつかの実施形態では、検索は、例えば上位3つの最も類似したサウンドを提供し得る。他の実施形態では、検索は、同じサブカテゴリ及びカテゴリから類似したサウンドの選択を提供し得る。類似したサウンドの選択は、入力サウンドに文脈的に関係するサウンドである場合がある。他の実施態様では、システムは、簡単に実際に録音されたサウンドを分類し、分類に従ってサウンドFXデータベースに実際に録音されたサウンドを格納し得る。ユーザーは、場合によっては、例えば実際のサウンドFXとして使用する声色を所望する場合があり、例えば、コミックブックの媒体では、動きを強調するためにオノマトペサウンドを使用する場合があるため、いくつかの代替実施形態では、実際に録音されたサウンドは、ユーザーが発声したオノマトペサウンドである場合がある。
大規模なサウンドFX分類は、本開示の態様の1つの応用例であるが、他の応用例も予想される。1つの代替実施態様では、大規模なサウンドFXデータベースは、特定のビデオゲーム向けのサウンドのタイムスタンプ付きの、または場所的に編成されたデータベースに置き換えられ得る。訓練された分類ニューラルネットワークは、プレーヤに再生される分類サウンドに基づいてゲーム内でプレーヤの場所を決定する。エミュレーションサーバからはすでにユーザーに送信されているサウンド以外の情報は必要とされないため、この特定の実施態様は、局所化されていないエミュレータに利点をもたらす。
別の実施態様では、サウンドの階層データベースは、コントローラの振動またはジョイスティックにかかる圧力など触覚に関するイベントに結び付けられる場合がある。サウンド分類NNを使用し、実際の触覚情報を欠くゲームに特別な触覚フィードバックが加えられるであろう。分類NNは、簡単にゲーム音声を受け取り、音声を分類し得、分類は、ユーザーに提供される触覚イベントを決定するために使用され得る。さらに、分類システムは、障害のあるユーザーに追加の情報を提供し得る。例えば及び制限なく、応用例は、左側の振動パターンを制御するためにより高いカテゴリのサウンドを提供し、右側の高周波振動を制御するためにより低いレベルのサブカテゴリのサウンドを使用する場合がある。
制限としてではなく例として、いくつかの出力モダリティは、例えば内蔵のマイク、プロセッサ、及び視覚ディスプレイ付きの携帯電話または眼鏡を使用し、聴覚障害者を助けることができるであろう。プロセッサで実行中のニューラルネットワークは、マイクが拾うサウンドを分類できるであろう。ディスプレイは、例えばクローズドキャプションなどのテキスト形式でサウンドカテゴリを識別する視覚的なフィードバックを提示できるであろう。
現在のサウンドFXデータベースは、2層手法に依存している。2層データベースでは、目標は、カテゴリとサブカテゴリの両方を正しく類別できる選別器を構築することである。本開示の態様に係る2層データベースは、「粗い」及び「細かい」の2つのクラスに分けられたラベルを有する。粗いクラスラベルは、カテゴリラベルである。細かいクラスラベルは、カテゴリ+サブカテゴリラベルである。本明細書に説明する方法及びシステムは、2層データベースを説明しているが、教示は任意の数のカテゴリ層を有するデータベースに適用し得ることを理解されたい。本開示の態様によれば、及び制限なく、データベースは183のカテゴリ及び4721のサブカテゴリを有する2層の不均一な階層データベースである場合がある。データベースは、インデックスルックアップなど、既知の方法によって検索し得る。適切な検索プログラムの例は、市販のデジタルオーディオワークステーション(DAW)ソフトウェア、及びCanada、Ontario、TrontoのSoundminer Inc.のSoundminerソフトウェアなどの他のソフトウェアを含む。
サウンド分類システム100の演算方式は、サウンド101のセグメントで始まる。サウンド101のセグメントに複数のフィルタ102が適用されて、ウィンドウサウンドを作り出し、メル周波数ケプストラム103内でサウンドの表現を生成する。メル周波数ケプストラム表現は、訓練されたサウンド分類ニューラルネットワーク104に提供される。訓練されたサウンド分類NNは、サウンドの最も細かいレベルのカテゴリ、つまり最も細かいレベルの類別106を表すベクトルだけではなく、サウンドのカテゴリ及びサブカテゴリを表すベクトル105を出力する。この分類は次いで、上述したように、類似したサウンドを求めてデータベース110を検索するために使用し得る。
フィルタリングサンプル
類別及びクラスタ化の前に、サウンドFXは、類別を支援するために処理される場合がある。いくつかの実施態様では、メルケプストラムスペクトログラム特徴は、音声ファイルから抽出される。メルケプストラムスペクトログラム特徴を抽出するために、音声信号はいくつかの時間ウィンドウに分割され、各ウィンドウは、例えば高速フーリエ変換(FFT)によって周波数領域信号に変換される。この周波数領域信号またはスペクトル領域信号は、次いでスペクトル領域信号の対数を取得してから別のFFTを実行することによって圧縮される。時間領域信号S(t)のケプストラムは、数学的には、FT(log(FT(S(t)))+j2πq)として表し得、この式では、qは複素対数関数の角度または虚数部を適切にアンラップするために必要とされる整数である。アルゴリズム的には、ケプストラムは、一連の演算、つまり信号→FT→対数→位相アンラッピング→FT→ケプストラムによって生成され得る。ケプストラムは、サウンドウィンドウ内の異なるスペクトルバンドの変化率についての情報とみなすことができる。スペクトラムは最初に、離散コサイン変換(DCT)の1つ少ない最終処理ステップを有する点でメル周波数ケプストラム係数(MFCC)とは異なるメルフィルタバンク(MFB)を使用し、変換される。ヘルツ単位の周波数f(サイクル/秒)は、m=(1127.01048Hz)log(1+f/700)に従ってメル周波数mに変換され得る。同様に、メル周波数mは、f=(700Hz)(em/1127.01048−1)を使用してヘルツ単位の周波数fに変換できる。例えば及び制限なく、サウンドFXは、移動ウィンドウの長さが42.67ms及びシフトが10.67msの64次元メルケプストラムスペクトログラムに変換され得る。
バッチトレーニングは、NNトレーニングに用いられる。メル周波数変換サウンドのランダムウィンドウ、つまり特徴フレームが生成され、次元サンプルがトレーニングのためにモデルに送り込まれる。制限としてではなく例として、特徴フレームのそれぞれが64次元サンプルである100のランダム特徴フレームを選び得る。
ニューラルネットワークトレーニング
サウンドFX104の分類を実装するニューラルネットワークは、いくつかの異なるタイプのニューラルネットワークの1つ以上を含む場合があり、多くの異なる層を含む場合がある。制限としてではなく例として、類別ニューラルネットワークは、1つまたは複数の畳み込みニューラルネットワーク(CNN)、リカレント型ニューラルネットワーク(RNN)、及び/またはダイナミックニューラルネットワーク(DNN)から成り立つ場合がある。
図2Aは、ノード220の層を有するRNNの基本的な形式を示し、ノード220のそれぞれは、活性化関数S、1つの入力重みU、反復隠れノード遷移重みW、及び出力遷移重みVによって特徴付けられる。活性化関数Sは、当該技術で既知の任意の非線形関数である場合があり、双曲線正接(tanh)関数に限定されないことに留意されたい。例えば、活性化関数Sは、シグモイド関数またはReLu関数である場合がある。他のタイプのニューラルネットワークとは異なり、RNNは、層全体に対して1セットの活性化関数及び重みを有する。図2Bに示すように、RNNは、時間T及びT+1を通して移動する同じ活性化関数を有する一連のノード220とみなされる場合がある。したがって、RNNは、前の時間Tから現在時T+1までの結果を送ることによって履歴情報を維持する。
重みU、W、Vを構成し得るいくつかの方法がある。入力重みUは、メル周波数スペクトラムに基づいて適用し得る。これらの異なる入力の重みは、ルックアップテーブルに格納され、必要に応じて適用できるであろう。システムが最初に適用するデフォルト値があるであろう。これらは、次いでユーザーによって手作業で修正される場合もあれば、機械学習によって自動的に修正される場合もある。
いくつかの実施形態では、畳み込みRNNを使用し得る。使用し得る別のタイプのRNNは、長短期記憶(LSTM)ニューラルネットワークであり、それは、参照により本明細書に援用されるHochreiter&Schmidhuberの「Long Short−term memory」、Neural Computation 9(8):1735−1780(1997)で説明されるように、入力ゲート活性化関数、出力ゲート活性化関数、及び忘却ゲート活性化関数を有するRNNノードでメモリブロックを加え、ネットワークがより長い期間一部の情報を保持することを可能にするゲートメモリを生じさせる。
図2Cは、本開示の態様に係るCRNNなどの畳み込みニューラルネットワークの例のレイアウトを示す。この描写では、畳み込みニューラルネットワークは、高さ4ユニット及び幅4ユニットで、総面積が16ユニットとなるサイズの画像232のために生成される。図示の畳み込みニューラルネットワークは、高さ2ユニット及び幅2ユニットのサイズで、スキップ値が1のフィルタ233と、サイズ9のチャネル236とを有する。図2Cを明確にするために、チャネルの第1の列とそのフィルタウィンドウとの間の接続234だけが描かれている。しかしながら、本開示の態様は、そのような実装に限定されない。本開示の態様によれば、分類229を実装する畳み込みニューラルネットワークは、任意の数の追加のニューラルネットワークノード層231を有し得、任意のサイズの追加の畳み込み層、完全接続層、プーリング層、最大プーリング層、局所コントラスト正規化層などのような層タイプを含み得る。
図2Dに見られるように、ニューラルネットワーク(NN)を訓練することは、NN241の重みの初期化で始まる。一般的には、初期重みは無作為に分散するべきである。例えば、tanh活性化関数を使用するNNは、−1/√nと1/√nとの間で分散されたランダムな値を有するべきであり、ここでnはノードに対する入力の数である。
初期化後、活性化関数及びオプティマイザが定義される。NNは、次いで特徴または入力データセット242を与えられる。異なる特徴ベクトルのそれぞれは、既知のラベルを有する入力を与えられる場合がある。同様に、分類NNは、既知のラベリングまたは類別を有する入力に相当する特徴ベクトルを与えられる場合がある。NNは、次いで特徴または入力243のラベルまたは類別を予測する。予測されたラベルまたはクラスは、(グラウンドトゥルースとも呼ばれる)既知のラベルまたはクラスに比較され、損失関数は、すべてのトレーニングサンプル244で予測とグラウンドトゥルースとの間の総合誤差を測定する。制限としてではなく例として、損失関数は、クロスエントロピー損失関数、二次費用、トリップレットコントラスト(triplet contrastive)関数、指数費用などである場合がある。目的に応じて、複数の異なる損失関数を使用し得る。NNは、次いで損失関数の結果を使用し、及び確率的勾配降下法など245によるバックプロパゲーションなどのニューラルネットワークのための既知のトレーニングの方法を使用し、最適化され、訓練される。それぞれのトレーニングエポックで、オプティマイザは、トレーニング損失関数(つまり、総合誤差)を最小限に抑えるモデルパラメータ(つまり、重み)を選ぼうとする。データは、トレーニング、バリデーション、及びテストのサンプルに区分化される。
トレーニング中、オプティマイザは、トレーニングサンプルに対する損失関数を最小限に抑える。各トレーニングエポック後、モードは、バリデーションの損失及び精度を計算することによってバリデーションサンプルに関して評価される。大きな変化がない場合、トレーニングを停止できる。次いで、この訓練されたモデルは、テストデータのラベルを予測するために使用し得る。
このようにして、分類ニューラルネットワークは、既知のラベルまたは類別を有する音声入力から訓練されて、既知の目標ラベルを所与としてクロスエントロピー損失を最小限に抑えることによってそれらの音声入力を識別し、類別し得る。
階層維持(HIERARCHY−PRESERVING)表現学習
単純なクロスエントロピー損失に加えて、本開示の態様に係るNNのトレーニングでは、メトリック学習も用い得る。シャム損失またはトリプレット損失によるメトリック学習は、複素多様体または表現を学習する固有の能力を有する。SFX類別の場合、メトリック学習は、クロスエントロピーのみの使用と比較して、埋め込みスペースでのクラスタ化を改善する。本開示の態様に係る全体的なジョイント損失関数は、
Figure 2022501651
によって示され、上式では、LCEは類別のためのクロスエントロピー損失であり、Lmetricは、以下で説明するように、LtripletまたはLquadrupletのどちらかであるメトリック学習損失である。
均一トリプレットトレーニングは、階層ラベル構造を考慮せず、ネガティブサンプルのおそらく大部分はアンカーのカテゴリとして異なるカテゴリから採取される。これに対抗するために、トリプレットネガティブマイニングは、ネガティブサンプルが同じカテゴリであるが、異なるサブカテゴリから由来するいくつかのトリプレットにモデルが遭遇するように確率論的に実行され得る。M個のサンプルと仮定して、t=(x (i),x (i),x (i))であるトリプレット{ti=1〜Mが、次のようにアンカー、ポジティブサンプル、及びネガティブサンプルを選ぶことによって形成される。
1.カテゴリC及びサブカテゴリSからアンカーx (i)を選ぶ。
2.x (i)∈Sとなるように正のx (i)を選ぶ。
3.負のx (i)を選ぶ。
Figure 2022501651
ここで、rはベルヌーイ確率変数r〜Ber(0.5)である。I(.)は、指標関数である。次に、N個のサンプルのバッチでのトリプレット損失が取得される。
Figure 2022501651
ここで、mは負でないマージンパラメータである。
メトリック学習ネットワークに対するさらなる改善は、トリプレットの代わりにクアドラプレット損失を使用することで達成し得る。クアドラプレット損失は、埋め込み構造を維持しようとし、入力が類別される階層についてのより多くの情報を提供する。クアドラプレット損失が与えられる。
Figure 2022501651
クアドラプレットタプルは、次のように選ばれる。
1.カテゴリC及びサブカテゴリSからアンカーx (i)を選ぶ。
2.xp+ (i)∈Sとなるように、強い正のxp+ (i)を選ぶ。
3.xp− (i)∈C及びxp− (i)/∈Sとなるように、弱い正のxp− (i)を選ぶ。(/∈は∈の否定)
4.x (i)/∈Cとなるように、負のx (i)を選ぶ。(/∈は∈の否定)
図2Dに示すように、トレーニング245中、クアドラプレット損失関数またはトリプレット損失関数、及びクロスエントロピー損失関数は、上述のように最適化の間に使用される。さらに、最適化中に使用される組み合わせクロスエントロピー損失及びクアドラプレット/トリプレット損失関数は、2つのタイプの損失間のトレードオフを補償するために重み付け係数λを加えることで改善され得る。このようにして、新しい複合損失方程式は、以下のように表される。
total=(λ)Lce+(1−λ)Lmetric
このシステムを、任意の数の層を有する階層に拡張するために、メトリック学習損失関数は、階層のすべてのノードに方法を再帰的に適用することによって簡単に修正される。
この複合トレーニングにより、入力の分類の改善が可能になる。
複合トレーニング
図3は、組み合わせたクロスエントロピー損失関数及びメトリック学習損失関数309を用いてサウンドFX分類システム300を訓練する概略図を示す。トレーニング中、アンカー301、強い正の数302、弱い正の数303、及び負の数304を表すサンプルがニューラルネットワーク305に提供される。トリプレット学習を使用する実施態様では、アンカー、ポジティブサンプル、及びネガティブサンプルだけが提供されることに留意されたい。ニューラルネットワーク305は、任意の数の層を有する1つ以上のニューラルネットワークを含み得る。制限としてではなく例として、2つの層を有するネットワークでは、トレーニング中にパラメータを共用する4つのネットワークがある。これらのネットワークは、(f(アンカー)、f(強い+)、f(弱い+)、f(−))を表す。L2正規化層306は、埋め込み距離307を生じさせるためにニューラルネットワーク305の出力層で使用される。L2正規化306からの出力は、308クラスベクトルに変換するが、307それを使用して、入力301〜304に対応する3対の埋め込み間の距離を計算する「埋め込み」と呼ばれる「正規化」ベクトルである。これらの距離は、次いでメトリック学習損失関数に使用できる。アンカー311のラベルは、損失関数で使用することで渡される。メトリック学習損失関数は、次いで埋め込み距離307に適用される。さらに、f(アンカー)の結果も、最も細かいレベルのサブカテゴリを表すベクトル308の形をとり得る最も細かいレベルの類別を提供するために使用される。上述のように、トレーニング中、メトリック学習関数及びクロスエントロピー関数の損失が計算され、互いに加算される309。組み合わされたメトリック学習損失及びクロスエントロピー損失は、次いで、確率的勾配降下アルゴリズム310を用いたミニバッチバックプロパゲーションでの最適化に使用される。
実施態様
図4は、本開示の態様に係るサウンド分類システムを示す。システムは、ユーザー入力デバイス402に結合されたコンピューティングデバイス400を含み得る。ユーザー入力デバイス402は、コントローラ、タッチスクリーン、マイク、キーボード、マウス、ジョイスティック、またはユーザーがサウンドデータを含む情報をシステムに入力できるようにする他のデバイスである場合がある。ユーザー入力デバイスは、触覚フィードバックデバイス421に結合される場合がある。触覚フィードバックデバイス421は、例えば振動モータ、力フィードバックシステム、超音波フィードバックシステム、または空気圧フィードバックシステムである場合がある。
コンピューティングデバイス400は、例えば、シングルコア、デュアルコア、クアッドコア、マルチコア、プロセッサコプロセッサ、セルプロセッサなどの周知のアーキテクチャに従って構成され得る1つ以上のプロセッサユニット403を含み得る。また、コンピューティングデバイスは、1つ以上のメモリユニット404(例えば、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、読み取り専用メモリ(ROM)など)を含み得る。
プロセッサユニット403は、その部分がメモリ404に格納され得る1つ以上のプログラムを実行し得、プロセッサ403は、例えばデータバス405を介してメモリにアクセスすることによってメモリに動作可能に結合され得る。プログラムは、サウンドフィルタ408を実装して、サウンドをメル周波数ケプストラムに変換するように構成され得る。さらに、メモリ404は、サウンド分類NN421のトレーニングを実施するプログラムを含み得る。また、メモリ404は、サウンドファイル408、多層サウンドデータベース422、及びサウンド分類NNモジュール421などのソフトウェアモジュールも含み得る。サウンドデータベース422は、データ418としてマスストア418に、またはネットワークインタフェース414を通してアクセスされるネットワーク420に結合されたサーバに格納され得る。
また、NNの全体的な構造及び確率も、データ418としてマスストア415に格納され得る。プロセッサユニット403は、マスストア415に、またはメモリ404に格納された1つ以上のプログラム617を実行するようにさらに構成され、そのプログラムはプロセッサに、サウンドデータベース422からサウンド分類NN421を訓練する方法300を実施させる。システムは、NNトレーニングプロセスの一部としてニューラルネットワークを生成し得る。これらのニューラルネットワークは、サウンド分類NNモジュール421の中のメモリ404に格納され得る。完成したNNは、メモリ404に、またはデータ418としてマスストア415に格納され得る。また、プログラム417(またはその部分)は、例えば適切なプログラミングによって、ユーザーが入力したサウンドに適切なフィルタ408を適用し、サウンド分類NN421でフィルタリングされたサウンドを分類し、類似したまたは同一のサウンドを求めてサウンドカテゴリデータベース422を検索するように構成され得る。さらに、プログラム417は、触覚フィードバックデバイス421を使用し、触覚フィードバックイベントを作成するためにサウンド分類の結果を利用するように構成され得る。
また、コンピューティングデバイス400は、例えばバス405を介してシステムの他の構成要素と通信し得る、入出力(I/O)407、回路、電源(P/S)411、クロック(CLK)412、及びキャッシュ413などの周知のサポート回路も含み得る。コンピューティングデバイスは、ネットワークインタフェース414を含み得る。プロセッサユニット403及びネットワークインタフェース414は、ローカルエリアネットワーク(LAN)またはパーソナルエリアネットワーク(PAN)を、適切なネットワークプロトコル、例えばPANの場合ブルートゥース(登録商標)を介して実装するように構成され得る。コンピューティングデバイスは、任意選択で、ディスクドライブ、CD−ROMドライブ、テープドライブ、フラッシュメモリなどの大容量記憶装置415を含み得、大容量記憶装置は、プログラム及び/またはデータを格納する場合がある。また、コンピューティングデバイスは、システムとユーザーとの間の対話を容易にするためのユーザーインタフェース616も含み得る。ユーザーインタフェースは、モニタ、テレビ画面、スピーカ、ヘッドホン、または情報をユーザーに通信する他のデバイスを含み得る。
コンピューティングデバイス400は、電子通信ネットワーク420を介した通信を容易にするためのネットワークインタフェース414を含み得る。ネットワークインタフェース414は、ローカルエリアネットワーク及びインターネットなどの広域ネットワークを介して有線通信または無線通信を実装するように構成され得る。デバイス400は、ネットワーク420上で1つ以上のメッセージパケットを介してデータ及び/またはファイルに対する要求を送受し得る。ネットワーク420を介して送信されたメッセージパケットは、メモリ404内のバッファ409に一時的に格納され得る。分類されたサウンドデータベースは、ネットワーク420を通して利用可能であり、使用するためにメモリ404に部分的に格納され得る。
上記は、本開示の好ましい実施形態の完全な説明であるが、多様な代替策、修正、及び均等物を使用することが可能である。上記の説明は、制限的ではなく、例示的であることが意図されることを理解されたい。例えば、図の流れ図は、本開示の特定の実施形態によって実行される操作の特定の順序を示しているが、そのような順序は必須ではない(例えば、代替実施形態は、異なる順序で操作を実行し得る、特定の操作を組み合わせ得る、特定の操作を重複させ得るなど)ことを理解されたい。さらに、他の多くの実施形態は、上記の説明を読み、理解すると、当業者に明らかとなる。本開示は、特定の例示的な実施形態を参照して説明されてきたが、本開示は、説明された実施形態に限定されるのではなく、添付の特許請求の範囲の精神及び範囲内で変更形態及び改変形態により実施できることが認識される。したがって、本開示の範囲は、添付の特許請求の範囲を参照して、そのような特許請求の範囲が権利を与えられる均等物の全範囲とともに決定されるべきである。好ましいかどうかに関わらず、本明細書に説明した任意の特徴は、好ましいかどうかに関わらず、本明細書に説明した任意の他の特徴と結合され得る。続く特許請求の範囲では、不定冠詞「a」または「an」は、明示的に特別の定めがない限り、冠詞に続く品目の1つ以上の数量を指す。添付の特許請求の範囲は、ミーンズプラスファンクションの限定が語句「するための手段(means for)」を使用し、所与の請求項に明示的に説明されない限り、係る限定を含むとして解釈されるべきではない。

Claims (20)

  1. サウンドの階層分類のためのシステムであって、
    1つ以上のプロセッサと、
    2つ以上の層の階層の粗い分類及び階層の中の最も細かいレベルの分類にサウンドを分類するように構成された前記1つ以上のプロセッサに実装された1つ以上のニューラルネットワークと
    を備える、システム。
  2. 前記1つ以上のニューラルネットワークは、メトリック学習及びクロスエントロピー損失関数学習の組み合わせを用いて訓練される、請求項1に記載のシステム。
  3. 前記メトリック学習関数はトリプレット損失関数である、請求項2に記載のシステム。
  4. 前記メトリック学習関数はクアドラプレット損失関数である、請求項2に記載のシステム。
  5. 前記サウンドはオノマトペサウンドである、請求項1に記載のシステム。
  6. 前記オノマトペサウンドはユーザーによって発声される、請求項5に記載のシステム。
  7. 前記1つ以上のニューラルネットワークは、実行時に、前記プロセッサに前記ニューラルネットワークの計算を実行させる非一過性コンピュータ可読媒体に格納された実行可能命令である、請求項1に記載のシステム。
  8. データベースをさらに備え、前記実行可能命令は、前記ニューラルネットワークからの前記分類の結果を求めてデータベースを検索することをさらに含む、請求項7に記載のシステム。
  9. 前記実行可能命令は、前記1つ以上のニューラルネットワークによって実行される前記分類に従って階層データベースにサウンドデータを格納することをさらに含む、請求項7に記載のシステム。
  10. 前記ニューラルネットワーク階層分類は、ビデオゲーム内の音声イベントのレベル同期を決定する、請求項7に記載のシステム。
  11. 前記命令は、前記1つ以上のニューラルネットワークからの前記分類の結果を使用し、データベース内の文脈的に関係するサウンドを発見するための実行可能命令をさらに含む、請求項7に記載のシステム。
  12. 触覚フィードバックイベントが、サウンドの前記階層分類によって決定される、触覚フィードバックデバイスをさらに備える、請求項1に記載のシステム。
  13. 前記サウンドはデジタル化され、分類前にメル周波数ケプストラムに変換される、請求項1に記載のシステム。
  14. 実行時に、サウンドを2つ以上の層の階層の粗い分類及び前記階層内の最も細かいレベルの分類に分類するように構成された1つ以上のニューラルネットワークを実装する、非一過性コンピュータ可読媒体に埋め込まれたコンピュータ実行可能命令。
  15. 前記サウンドはオノマトペサウンドである、請求項14に記載のコンピュータ実行可能命令。
  16. 前記オノマトペサウンドはユーザーによって発声される、請求項15に記載のコンピュータ実行可能命令。
  17. 前記命令は、前記ニューラルネットワークからの前記分類の結果を求めてデータベースを検索することをさらに含む、請求項14に記載のコンピュータ実行可能命令。
  18. サウンドの階層類別のための方法であって、
    サウンドを2つ以上の層の階層の粗い分類及び前記階層内の最も細かいレベルの分類に分類するためにニューラルネットワークを使用すること
    を含む、方法。
  19. 前記サウンドは、ユーザーによって発声されるオノマトペサウンドである、請求項18に記載の方法。
  20. 前記ニューラルネットワークからの前記分類の結果を求めてデータベースを検索することをさらに含む、請求項18に記載の方法。
JP2021516976A 2018-09-28 2019-09-23 サウンド分類システム Pending JP2022501651A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023071591A JP2023109760A (ja) 2018-09-28 2023-04-25 サウンド分類システム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/147,331 2018-09-28
US16/147,331 US11947593B2 (en) 2018-09-28 2018-09-28 Sound categorization system
PCT/US2019/052360 WO2020068624A1 (en) 2018-09-28 2019-09-23 Sound categorization system

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023071591A Division JP2023109760A (ja) 2018-09-28 2023-04-25 サウンド分類システム

Publications (1)

Publication Number Publication Date
JP2022501651A true JP2022501651A (ja) 2022-01-06

Family

ID=69945838

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021516976A Pending JP2022501651A (ja) 2018-09-28 2019-09-23 サウンド分類システム
JP2023071591A Pending JP2023109760A (ja) 2018-09-28 2023-04-25 サウンド分類システム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023071591A Pending JP2023109760A (ja) 2018-09-28 2023-04-25 サウンド分類システム

Country Status (5)

Country Link
US (1) US11947593B2 (ja)
EP (1) EP3857448A4 (ja)
JP (2) JP2022501651A (ja)
CN (1) CN112912897A (ja)
WO (1) WO2020068624A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024042962A1 (ja) * 2022-08-25 2024-02-29 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11270077B2 (en) * 2019-05-13 2022-03-08 International Business Machines Corporation Routing text classifications within a cross-domain conversational service
US10930301B1 (en) * 2019-08-27 2021-02-23 Nec Corporation Sequence models for audio scene recognition
US11295756B2 (en) * 2019-12-27 2022-04-05 Robert Bosch Gmbh Ontology-aware sound classification
US11615312B2 (en) 2020-04-14 2023-03-28 Sony Interactive Entertainment Inc. Self-supervised AI-assisted sound effect generation for silent video using multimodal clustering
US11694084B2 (en) * 2020-04-14 2023-07-04 Sony Interactive Entertainment Inc. Self-supervised AI-assisted sound effect recommendation for silent video
US11670322B2 (en) * 2020-07-29 2023-06-06 Distributed Creation Inc. Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval
CN112104892B (zh) * 2020-09-11 2021-12-10 腾讯科技(深圳)有限公司 一种多媒体信息处理方法、装置、电子设备及存储介质
CN111933188B (zh) * 2020-09-14 2021-02-05 电子科技大学 一种基于卷积神经网络的声音事件检测方法
CN112256871B (zh) * 2020-10-16 2021-05-07 国网江苏省电力有限公司连云港供电分公司 一种物资履约系统及方法
CN113344479B (zh) * 2021-08-06 2022-01-07 首都师范大学 面向在线课堂的学习参与度智能评估方法和装置
WO2023068101A1 (ja) * 2021-10-20 2023-04-27 ソニーグループ株式会社 情報処理装置、情報処理方法及びプログラム
CN117037847B (zh) * 2023-07-31 2024-05-03 深圳市万物云科技有限公司 一种端到端社区噪音监测方法、装置及相关组件

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003233386A (ja) * 2002-02-08 2003-08-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成装置および音声合成プログラム
JP2004341493A (ja) * 2003-03-28 2004-12-02 Sony Internatl Europ Gmbh 音声前処理方法
JP2006515191A (ja) * 2002-12-27 2006-05-25 カーディアック ペースメーカーズ,インコーポレイテッド 埋め込み装置を使って肺の音を検出するための装置および方法
JP2006322962A (ja) * 2005-05-17 2006-11-30 Nippon Telegr & Teleph Corp <Ntt> 音声合成システム、クライアント装置、音声素片データベースサーバ装置、音声合成方法及びプログラム
JP2008070650A (ja) * 2006-09-14 2008-03-27 Sharp Corp 楽曲分類方法、楽曲分類装置及びコンピュータプログラム
JP2015212732A (ja) * 2014-05-01 2015-11-26 日本放送協会 音喩認識装置、及びプログラム
CN107221320A (zh) * 2017-05-19 2017-09-29 百度在线网络技术(北京)有限公司 训练声学特征提取模型的方法、装置、设备和计算机存储介质
US20170351487A1 (en) * 2016-06-06 2017-12-07 Cirrus Logic International Semiconductor Ltd. Voice user interface

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7158931B2 (en) * 2002-01-28 2007-01-02 Phonak Ag Method for identifying a momentary acoustic scene, use of the method and hearing device
US20070124293A1 (en) 2005-11-01 2007-05-31 Ohigo, Inc. Audio search system
US7840407B2 (en) * 2006-10-13 2010-11-23 Google Inc. Business listing search
US10231056B2 (en) * 2014-12-27 2019-03-12 Intel Corporation Binaural recording for processing audio signals to enable alerts
US20170065888A1 (en) * 2015-09-04 2017-03-09 Sri International Identifying And Extracting Video Game Highlights
US10319365B1 (en) * 2016-06-27 2019-06-11 Amazon Technologies, Inc. Text-to-speech processing with emphasized output audio
US10515295B2 (en) * 2017-10-27 2019-12-24 Adobe Inc. Font recognition using triplet loss neural network training
US11899722B2 (en) * 2018-06-20 2024-02-13 Rakuten Group, Inc. Search system, search method, and program
CN109003625B (zh) * 2018-07-27 2021-01-12 中国科学院自动化研究所 基于三元损失的语音情感识别方法及系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003233386A (ja) * 2002-02-08 2003-08-22 Nippon Telegr & Teleph Corp <Ntt> 音声合成方法、音声合成装置および音声合成プログラム
JP2006515191A (ja) * 2002-12-27 2006-05-25 カーディアック ペースメーカーズ,インコーポレイテッド 埋め込み装置を使って肺の音を検出するための装置および方法
JP2004341493A (ja) * 2003-03-28 2004-12-02 Sony Internatl Europ Gmbh 音声前処理方法
JP2006322962A (ja) * 2005-05-17 2006-11-30 Nippon Telegr & Teleph Corp <Ntt> 音声合成システム、クライアント装置、音声素片データベースサーバ装置、音声合成方法及びプログラム
JP2008070650A (ja) * 2006-09-14 2008-03-27 Sharp Corp 楽曲分類方法、楽曲分類装置及びコンピュータプログラム
JP2015212732A (ja) * 2014-05-01 2015-11-26 日本放送協会 音喩認識装置、及びプログラム
US20170351487A1 (en) * 2016-06-06 2017-12-07 Cirrus Logic International Semiconductor Ltd. Voice user interface
CN107221320A (zh) * 2017-05-19 2017-09-29 百度在线网络技术(北京)有限公司 训练声学特征提取模型的方法、装置、设备和计算机存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MINGCHUN LIU ET.AL: "A study on content-based classification and retrieval of audio database", PROCEEDINGS 2001 INTERNATIONAL DATABASE ENGINEERING AND APPLICATIONS SYMPOSIUM, JPN6022044883, 16 July 2001 (2001-07-16), pages 339 - 345, XP010554398, ISSN: 0004978134 *
TOAN H. VU ET.AL: "Acoustic Scene and Event Recognition using Recurrent Neural Networks", DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS 2016 3 SEPTEMBER 2016, BUDAPEST, HUNGARY, JPN6022016503, 3 September 2016 (2016-09-03), ISSN: 0004905142 *
XIAOLING GU ET.AL: "Understanding Fashion Trends from Street Photos via Neighbor-Constrained Embedding Learning", MM’17, OCTOBER 23-27, 2017, MOUNTAIN VIEW, CA, USA, JPN6022016502, 23 October 2017 (2017-10-23), pages 190 - 198, XP055704055, ISSN: 0004978135, DOI: 10.1145/3123266.3123441 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024042962A1 (ja) * 2022-08-25 2024-02-29 ソニーグループ株式会社 情報処理装置、情報処理方法及び情報処理プログラム

Also Published As

Publication number Publication date
JP2023109760A (ja) 2023-08-08
EP3857448A1 (en) 2021-08-04
US20200104319A1 (en) 2020-04-02
WO2020068624A1 (en) 2020-04-02
CN112912897A (zh) 2021-06-04
US11947593B2 (en) 2024-04-02
EP3857448A4 (en) 2022-10-19

Similar Documents

Publication Publication Date Title
JP2022501651A (ja) サウンド分類システム
Mushtaq et al. Environmental sound classification using a regularized deep convolutional neural network with data augmentation
EP3467723B1 (en) Machine learning based network model construction method and apparatus
US20210321172A1 (en) Ai-assisted sound effect generation for silent video
US11694084B2 (en) Self-supervised AI-assisted sound effect recommendation for silent video
Muthusamy et al. Particle swarm optimization based feature enhancement and feature selection for improved emotion recognition in speech and glottal signals
Bisharad et al. Music genre recognition using convolutional recurrent neural network architecture
Li et al. An evaluation of deep neural network models for music classification using spectrograms
US11615312B2 (en) Self-supervised AI-assisted sound effect generation for silent video using multimodal clustering
Waldekar et al. Two-level fusion-based acoustic scene classification
CN113813609A (zh) 游戏音乐风格分类方法、装置、可读介质及电子设备
Kumaraswamy Optimized deep learning for genre classification via improved moth flame algorithm
Fan et al. Soundscape emotion recognition via deep learning
JP2024028697A (ja) 機械学習分類器とともに知識表現を使用するためのシステム及び方法
Kai [Retracted] Optimization of Music Feature Recognition System for Internet of Things Environment Based on Dynamic Time Regularization Algorithm
Liang et al. Deep neural networks with depthwise separable convolution for music genre classification
Arumugam et al. Feature selection based on MBFOA for audio signal classification under consideration of Gaussian white noise
JP7041239B2 (ja) 深層距離学習方法およびシステム
Geroulanos et al. Emotion Recognition in Music Using Deep Neural Networks
Liu et al. Frequency-dependent auto-pooling function for weakly supervised sound event detection
Singh et al. Lightweight convolutional neural network architecture design for music genre classification using evolutionary stochastic hyperparameter selection
Coleman et al. Active learning for auditory hierarchy
Chen Construction and Application of Music Style Intelligent Learning System Based on Situational Awareness
US20220382806A1 (en) Music analysis and recommendation engine
Muda et al. Recognizing music features pattern using modified negative selection algorithm for songs genre classification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210325

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220510

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221226

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230131