JP2022501651A - サウンド分類システム - Google Patents
サウンド分類システム Download PDFInfo
- Publication number
- JP2022501651A JP2022501651A JP2021516976A JP2021516976A JP2022501651A JP 2022501651 A JP2022501651 A JP 2022501651A JP 2021516976 A JP2021516976 A JP 2021516976A JP 2021516976 A JP2021516976 A JP 2021516976A JP 2022501651 A JP2022501651 A JP 2022501651A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- classification
- database
- sounds
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013528 artificial neural network Methods 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000006870 function Effects 0.000 claims description 43
- 230000001052 transient effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 abstract description 10
- 238000004590 computer program Methods 0.000 abstract description 2
- 238000012549 training Methods 0.000 description 27
- 230000015654 memory Effects 0.000 description 20
- 230000004913 activation Effects 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 7
- 239000013598 vector Substances 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 208000032041 Hearing impaired Diseases 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/65—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/63—Querying
- G06F16/632—Query formulation
- G06F16/634—Query by example, e.g. query by humming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
現在、映画及びビデオゲーム向けにサウンドFXの大規模なデータベースが存在している。これらの大規模なデータベースは、不均一な多層分類方式を使用し、手作業で分類されている。一例の方式では、データベースは多くのカテゴリを有し、各カテゴリは1つ以上の娘サブカテゴリを有し、実際のサウンドは各サブカテゴリ下に一覧されている。機械学習は、データセットをクラスタ化し、類別するようにニューラルネットワークを訓練するために使用されてきた。以前のデータセットは、通常、設計によってすでに固有の分類を有していたオブジェクトから成り立っていた。例えば、以前のクラスタ化の問題は、車がセダンであるのか、それともクーペであるのかを判断することを含んでいる。自動車業界は、セダンまたはクーペのどちらかのデザインで明示的に車を製造するため、これらの2つのタイプの車両の違いは固有である。
類別及びクラスタ化の前に、サウンドFXは、類別を支援するために処理される場合がある。いくつかの実施態様では、メルケプストラムスペクトログラム特徴は、音声ファイルから抽出される。メルケプストラムスペクトログラム特徴を抽出するために、音声信号はいくつかの時間ウィンドウに分割され、各ウィンドウは、例えば高速フーリエ変換(FFT)によって周波数領域信号に変換される。この周波数領域信号またはスペクトル領域信号は、次いでスペクトル領域信号の対数を取得してから別のFFTを実行することによって圧縮される。時間領域信号S(t)のケプストラムは、数学的には、FT(log(FT(S(t)))+j2πq)として表し得、この式では、qは複素対数関数の角度または虚数部を適切にアンラップするために必要とされる整数である。アルゴリズム的には、ケプストラムは、一連の演算、つまり信号→FT→対数→位相アンラッピング→FT→ケプストラムによって生成され得る。ケプストラムは、サウンドウィンドウ内の異なるスペクトルバンドの変化率についての情報とみなすことができる。スペクトラムは最初に、離散コサイン変換(DCT)の1つ少ない最終処理ステップを有する点でメル周波数ケプストラム係数(MFCC)とは異なるメルフィルタバンク(MFB)を使用し、変換される。ヘルツ単位の周波数f(サイクル/秒)は、m=(1127.01048Hz)loge(1+f/700)に従ってメル周波数mに変換され得る。同様に、メル周波数mは、f=(700Hz)(em/1127.01048−1)を使用してヘルツ単位の周波数fに変換できる。例えば及び制限なく、サウンドFXは、移動ウィンドウの長さが42.67ms及びシフトが10.67msの64次元メルケプストラムスペクトログラムに変換され得る。
サウンドFX104の分類を実装するニューラルネットワークは、いくつかの異なるタイプのニューラルネットワークの1つ以上を含む場合があり、多くの異なる層を含む場合がある。制限としてではなく例として、類別ニューラルネットワークは、1つまたは複数の畳み込みニューラルネットワーク(CNN)、リカレント型ニューラルネットワーク(RNN)、及び/またはダイナミックニューラルネットワーク(DNN)から成り立つ場合がある。
単純なクロスエントロピー損失に加えて、本開示の態様に係るNNのトレーニングでは、メトリック学習も用い得る。シャム損失またはトリプレット損失によるメトリック学習は、複素多様体または表現を学習する固有の能力を有する。SFX類別の場合、メトリック学習は、クロスエントロピーのみの使用と比較して、埋め込みスペースでのクラスタ化を改善する。本開示の態様に係る全体的なジョイント損失関数は、
1.カテゴリC及びサブカテゴリSからアンカーxa (i)を選ぶ。
2.xp (i)∈Sとなるように正のxp (i)を選ぶ。
3.負のxn (i)を選ぶ。
1.カテゴリC及びサブカテゴリSからアンカーxa (i)を選ぶ。
2.xp+ (i)∈Sとなるように、強い正のxp+ (i)を選ぶ。
3.xp− (i)∈C及びxp− (i)/∈Sとなるように、弱い正のxp− (i)を選ぶ。(/∈は∈の否定)
4.xn (i)/∈Cとなるように、負のxn (i)を選ぶ。(/∈は∈の否定)
Ltotal=(λ)Lce+(1−λ)Lmetric
図3は、組み合わせたクロスエントロピー損失関数及びメトリック学習損失関数309を用いてサウンドFX分類システム300を訓練する概略図を示す。トレーニング中、アンカー301、強い正の数302、弱い正の数303、及び負の数304を表すサンプルがニューラルネットワーク305に提供される。トリプレット学習を使用する実施態様では、アンカー、ポジティブサンプル、及びネガティブサンプルだけが提供されることに留意されたい。ニューラルネットワーク305は、任意の数の層を有する1つ以上のニューラルネットワークを含み得る。制限としてではなく例として、2つの層を有するネットワークでは、トレーニング中にパラメータを共用する4つのネットワークがある。これらのネットワークは、(f(アンカー)、f(強い+)、f(弱い+)、f(−))を表す。L2正規化層306は、埋め込み距離307を生じさせるためにニューラルネットワーク305の出力層で使用される。L2正規化306からの出力は、308クラスベクトルに変換するが、307それを使用して、入力301〜304に対応する3対の埋め込み間の距離を計算する「埋め込み」と呼ばれる「正規化」ベクトルである。これらの距離は、次いでメトリック学習損失関数に使用できる。アンカー311のラベルは、損失関数で使用することで渡される。メトリック学習損失関数は、次いで埋め込み距離307に適用される。さらに、f(アンカー)の結果も、最も細かいレベルのサブカテゴリを表すベクトル308の形をとり得る最も細かいレベルの類別を提供するために使用される。上述のように、トレーニング中、メトリック学習関数及びクロスエントロピー関数の損失が計算され、互いに加算される309。組み合わされたメトリック学習損失及びクロスエントロピー損失は、次いで、確率的勾配降下アルゴリズム310を用いたミニバッチバックプロパゲーションでの最適化に使用される。
図4は、本開示の態様に係るサウンド分類システムを示す。システムは、ユーザー入力デバイス402に結合されたコンピューティングデバイス400を含み得る。ユーザー入力デバイス402は、コントローラ、タッチスクリーン、マイク、キーボード、マウス、ジョイスティック、またはユーザーがサウンドデータを含む情報をシステムに入力できるようにする他のデバイスである場合がある。ユーザー入力デバイスは、触覚フィードバックデバイス421に結合される場合がある。触覚フィードバックデバイス421は、例えば振動モータ、力フィードバックシステム、超音波フィードバックシステム、または空気圧フィードバックシステムである場合がある。
Claims (20)
- サウンドの階層分類のためのシステムであって、
1つ以上のプロセッサと、
2つ以上の層の階層の粗い分類及び階層の中の最も細かいレベルの分類にサウンドを分類するように構成された前記1つ以上のプロセッサに実装された1つ以上のニューラルネットワークと
を備える、システム。 - 前記1つ以上のニューラルネットワークは、メトリック学習及びクロスエントロピー損失関数学習の組み合わせを用いて訓練される、請求項1に記載のシステム。
- 前記メトリック学習関数はトリプレット損失関数である、請求項2に記載のシステム。
- 前記メトリック学習関数はクアドラプレット損失関数である、請求項2に記載のシステム。
- 前記サウンドはオノマトペサウンドである、請求項1に記載のシステム。
- 前記オノマトペサウンドはユーザーによって発声される、請求項5に記載のシステム。
- 前記1つ以上のニューラルネットワークは、実行時に、前記プロセッサに前記ニューラルネットワークの計算を実行させる非一過性コンピュータ可読媒体に格納された実行可能命令である、請求項1に記載のシステム。
- データベースをさらに備え、前記実行可能命令は、前記ニューラルネットワークからの前記分類の結果を求めてデータベースを検索することをさらに含む、請求項7に記載のシステム。
- 前記実行可能命令は、前記1つ以上のニューラルネットワークによって実行される前記分類に従って階層データベースにサウンドデータを格納することをさらに含む、請求項7に記載のシステム。
- 前記ニューラルネットワーク階層分類は、ビデオゲーム内の音声イベントのレベル同期を決定する、請求項7に記載のシステム。
- 前記命令は、前記1つ以上のニューラルネットワークからの前記分類の結果を使用し、データベース内の文脈的に関係するサウンドを発見するための実行可能命令をさらに含む、請求項7に記載のシステム。
- 触覚フィードバックイベントが、サウンドの前記階層分類によって決定される、触覚フィードバックデバイスをさらに備える、請求項1に記載のシステム。
- 前記サウンドはデジタル化され、分類前にメル周波数ケプストラムに変換される、請求項1に記載のシステム。
- 実行時に、サウンドを2つ以上の層の階層の粗い分類及び前記階層内の最も細かいレベルの分類に分類するように構成された1つ以上のニューラルネットワークを実装する、非一過性コンピュータ可読媒体に埋め込まれたコンピュータ実行可能命令。
- 前記サウンドはオノマトペサウンドである、請求項14に記載のコンピュータ実行可能命令。
- 前記オノマトペサウンドはユーザーによって発声される、請求項15に記載のコンピュータ実行可能命令。
- 前記命令は、前記ニューラルネットワークからの前記分類の結果を求めてデータベースを検索することをさらに含む、請求項14に記載のコンピュータ実行可能命令。
- サウンドの階層類別のための方法であって、
サウンドを2つ以上の層の階層の粗い分類及び前記階層内の最も細かいレベルの分類に分類するためにニューラルネットワークを使用すること
を含む、方法。 - 前記サウンドは、ユーザーによって発声されるオノマトペサウンドである、請求項18に記載の方法。
- 前記ニューラルネットワークからの前記分類の結果を求めてデータベースを検索することをさらに含む、請求項18に記載の方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023071591A JP2023109760A (ja) | 2018-09-28 | 2023-04-25 | サウンド分類システム |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/147,331 | 2018-09-28 | ||
US16/147,331 US11947593B2 (en) | 2018-09-28 | 2018-09-28 | Sound categorization system |
PCT/US2019/052360 WO2020068624A1 (en) | 2018-09-28 | 2019-09-23 | Sound categorization system |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023071591A Division JP2023109760A (ja) | 2018-09-28 | 2023-04-25 | サウンド分類システム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022501651A true JP2022501651A (ja) | 2022-01-06 |
Family
ID=69945838
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021516976A Pending JP2022501651A (ja) | 2018-09-28 | 2019-09-23 | サウンド分類システム |
JP2023071591A Pending JP2023109760A (ja) | 2018-09-28 | 2023-04-25 | サウンド分類システム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023071591A Pending JP2023109760A (ja) | 2018-09-28 | 2023-04-25 | サウンド分類システム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11947593B2 (ja) |
EP (1) | EP3857448A4 (ja) |
JP (2) | JP2022501651A (ja) |
CN (1) | CN112912897A (ja) |
WO (1) | WO2020068624A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024042962A1 (ja) * | 2022-08-25 | 2024-02-29 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11270077B2 (en) * | 2019-05-13 | 2022-03-08 | International Business Machines Corporation | Routing text classifications within a cross-domain conversational service |
US10930301B1 (en) * | 2019-08-27 | 2021-02-23 | Nec Corporation | Sequence models for audio scene recognition |
US11295756B2 (en) * | 2019-12-27 | 2022-04-05 | Robert Bosch Gmbh | Ontology-aware sound classification |
US11615312B2 (en) | 2020-04-14 | 2023-03-28 | Sony Interactive Entertainment Inc. | Self-supervised AI-assisted sound effect generation for silent video using multimodal clustering |
US11694084B2 (en) * | 2020-04-14 | 2023-07-04 | Sony Interactive Entertainment Inc. | Self-supervised AI-assisted sound effect recommendation for silent video |
US11670322B2 (en) * | 2020-07-29 | 2023-06-06 | Distributed Creation Inc. | Method and system for learning and using latent-space representations of audio signals for audio content-based retrieval |
CN112104892B (zh) * | 2020-09-11 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 一种多媒体信息处理方法、装置、电子设备及存储介质 |
CN111933188B (zh) * | 2020-09-14 | 2021-02-05 | 电子科技大学 | 一种基于卷积神经网络的声音事件检测方法 |
CN112256871B (zh) * | 2020-10-16 | 2021-05-07 | 国网江苏省电力有限公司连云港供电分公司 | 一种物资履约系统及方法 |
CN113344479B (zh) * | 2021-08-06 | 2022-01-07 | 首都师范大学 | 面向在线课堂的学习参与度智能评估方法和装置 |
WO2023068101A1 (ja) * | 2021-10-20 | 2023-04-27 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及びプログラム |
CN117037847B (zh) * | 2023-07-31 | 2024-05-03 | 深圳市万物云科技有限公司 | 一种端到端社区噪音监测方法、装置及相关组件 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003233386A (ja) * | 2002-02-08 | 2003-08-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法、音声合成装置および音声合成プログラム |
JP2004341493A (ja) * | 2003-03-28 | 2004-12-02 | Sony Internatl Europ Gmbh | 音声前処理方法 |
JP2006515191A (ja) * | 2002-12-27 | 2006-05-25 | カーディアック ペースメーカーズ,インコーポレイテッド | 埋め込み装置を使って肺の音を検出するための装置および方法 |
JP2006322962A (ja) * | 2005-05-17 | 2006-11-30 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成システム、クライアント装置、音声素片データベースサーバ装置、音声合成方法及びプログラム |
JP2008070650A (ja) * | 2006-09-14 | 2008-03-27 | Sharp Corp | 楽曲分類方法、楽曲分類装置及びコンピュータプログラム |
JP2015212732A (ja) * | 2014-05-01 | 2015-11-26 | 日本放送協会 | 音喩認識装置、及びプログラム |
CN107221320A (zh) * | 2017-05-19 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 训练声学特征提取模型的方法、装置、设备和计算机存储介质 |
US20170351487A1 (en) * | 2016-06-06 | 2017-12-07 | Cirrus Logic International Semiconductor Ltd. | Voice user interface |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7158931B2 (en) * | 2002-01-28 | 2007-01-02 | Phonak Ag | Method for identifying a momentary acoustic scene, use of the method and hearing device |
US20070124293A1 (en) | 2005-11-01 | 2007-05-31 | Ohigo, Inc. | Audio search system |
US7840407B2 (en) * | 2006-10-13 | 2010-11-23 | Google Inc. | Business listing search |
US10231056B2 (en) * | 2014-12-27 | 2019-03-12 | Intel Corporation | Binaural recording for processing audio signals to enable alerts |
US20170065888A1 (en) * | 2015-09-04 | 2017-03-09 | Sri International | Identifying And Extracting Video Game Highlights |
US10319365B1 (en) * | 2016-06-27 | 2019-06-11 | Amazon Technologies, Inc. | Text-to-speech processing with emphasized output audio |
US10515295B2 (en) * | 2017-10-27 | 2019-12-24 | Adobe Inc. | Font recognition using triplet loss neural network training |
US11899722B2 (en) * | 2018-06-20 | 2024-02-13 | Rakuten Group, Inc. | Search system, search method, and program |
CN109003625B (zh) * | 2018-07-27 | 2021-01-12 | 中国科学院自动化研究所 | 基于三元损失的语音情感识别方法及系统 |
-
2018
- 2018-09-28 US US16/147,331 patent/US11947593B2/en active Active
-
2019
- 2019-09-23 JP JP2021516976A patent/JP2022501651A/ja active Pending
- 2019-09-23 WO PCT/US2019/052360 patent/WO2020068624A1/en unknown
- 2019-09-23 EP EP19868095.1A patent/EP3857448A4/en active Pending
- 2019-09-23 CN CN201980061832.5A patent/CN112912897A/zh active Pending
-
2023
- 2023-04-25 JP JP2023071591A patent/JP2023109760A/ja active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003233386A (ja) * | 2002-02-08 | 2003-08-22 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成方法、音声合成装置および音声合成プログラム |
JP2006515191A (ja) * | 2002-12-27 | 2006-05-25 | カーディアック ペースメーカーズ,インコーポレイテッド | 埋め込み装置を使って肺の音を検出するための装置および方法 |
JP2004341493A (ja) * | 2003-03-28 | 2004-12-02 | Sony Internatl Europ Gmbh | 音声前処理方法 |
JP2006322962A (ja) * | 2005-05-17 | 2006-11-30 | Nippon Telegr & Teleph Corp <Ntt> | 音声合成システム、クライアント装置、音声素片データベースサーバ装置、音声合成方法及びプログラム |
JP2008070650A (ja) * | 2006-09-14 | 2008-03-27 | Sharp Corp | 楽曲分類方法、楽曲分類装置及びコンピュータプログラム |
JP2015212732A (ja) * | 2014-05-01 | 2015-11-26 | 日本放送協会 | 音喩認識装置、及びプログラム |
US20170351487A1 (en) * | 2016-06-06 | 2017-12-07 | Cirrus Logic International Semiconductor Ltd. | Voice user interface |
CN107221320A (zh) * | 2017-05-19 | 2017-09-29 | 百度在线网络技术(北京)有限公司 | 训练声学特征提取模型的方法、装置、设备和计算机存储介质 |
Non-Patent Citations (3)
Title |
---|
MINGCHUN LIU ET.AL: "A study on content-based classification and retrieval of audio database", PROCEEDINGS 2001 INTERNATIONAL DATABASE ENGINEERING AND APPLICATIONS SYMPOSIUM, JPN6022044883, 16 July 2001 (2001-07-16), pages 339 - 345, XP010554398, ISSN: 0004978134 * |
TOAN H. VU ET.AL: "Acoustic Scene and Event Recognition using Recurrent Neural Networks", DETECTION AND CLASSIFICATION OF ACOUSTIC SCENES AND EVENTS 2016 3 SEPTEMBER 2016, BUDAPEST, HUNGARY, JPN6022016503, 3 September 2016 (2016-09-03), ISSN: 0004905142 * |
XIAOLING GU ET.AL: "Understanding Fashion Trends from Street Photos via Neighbor-Constrained Embedding Learning", MM’17, OCTOBER 23-27, 2017, MOUNTAIN VIEW, CA, USA, JPN6022016502, 23 October 2017 (2017-10-23), pages 190 - 198, XP055704055, ISSN: 0004978135, DOI: 10.1145/3123266.3123441 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024042962A1 (ja) * | 2022-08-25 | 2024-02-29 | ソニーグループ株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2023109760A (ja) | 2023-08-08 |
EP3857448A1 (en) | 2021-08-04 |
US20200104319A1 (en) | 2020-04-02 |
WO2020068624A1 (en) | 2020-04-02 |
CN112912897A (zh) | 2021-06-04 |
US11947593B2 (en) | 2024-04-02 |
EP3857448A4 (en) | 2022-10-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2022501651A (ja) | サウンド分類システム | |
Mushtaq et al. | Environmental sound classification using a regularized deep convolutional neural network with data augmentation | |
EP3467723B1 (en) | Machine learning based network model construction method and apparatus | |
US20210321172A1 (en) | Ai-assisted sound effect generation for silent video | |
US11694084B2 (en) | Self-supervised AI-assisted sound effect recommendation for silent video | |
Muthusamy et al. | Particle swarm optimization based feature enhancement and feature selection for improved emotion recognition in speech and glottal signals | |
Bisharad et al. | Music genre recognition using convolutional recurrent neural network architecture | |
Li et al. | An evaluation of deep neural network models for music classification using spectrograms | |
US11615312B2 (en) | Self-supervised AI-assisted sound effect generation for silent video using multimodal clustering | |
Waldekar et al. | Two-level fusion-based acoustic scene classification | |
CN113813609A (zh) | 游戏音乐风格分类方法、装置、可读介质及电子设备 | |
Kumaraswamy | Optimized deep learning for genre classification via improved moth flame algorithm | |
Fan et al. | Soundscape emotion recognition via deep learning | |
JP2024028697A (ja) | 機械学習分類器とともに知識表現を使用するためのシステム及び方法 | |
Kai | [Retracted] Optimization of Music Feature Recognition System for Internet of Things Environment Based on Dynamic Time Regularization Algorithm | |
Liang et al. | Deep neural networks with depthwise separable convolution for music genre classification | |
Arumugam et al. | Feature selection based on MBFOA for audio signal classification under consideration of Gaussian white noise | |
JP7041239B2 (ja) | 深層距離学習方法およびシステム | |
Geroulanos et al. | Emotion Recognition in Music Using Deep Neural Networks | |
Liu et al. | Frequency-dependent auto-pooling function for weakly supervised sound event detection | |
Singh et al. | Lightweight convolutional neural network architecture design for music genre classification using evolutionary stochastic hyperparameter selection | |
Coleman et al. | Active learning for auditory hierarchy | |
Chen | Construction and Application of Music Style Intelligent Learning System Based on Situational Awareness | |
US20220382806A1 (en) | Music analysis and recommendation engine | |
Muda et al. | Recognizing music features pattern using modified negative selection algorithm for songs genre classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210325 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220510 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220704 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221226 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230131 |