JP2019159145A - 情報処理方法、電子機器及びプログラム - Google Patents
情報処理方法、電子機器及びプログラム Download PDFInfo
- Publication number
- JP2019159145A JP2019159145A JP2018046691A JP2018046691A JP2019159145A JP 2019159145 A JP2019159145 A JP 2019159145A JP 2018046691 A JP2018046691 A JP 2018046691A JP 2018046691 A JP2018046691 A JP 2018046691A JP 2019159145 A JP2019159145 A JP 2019159145A
- Authority
- JP
- Japan
- Prior art keywords
- type
- image data
- data
- learning
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title description 2
- 238000003672 processing method Methods 0.000 title description 2
- 238000010801 machine learning Methods 0.000 claims abstract description 19
- 238000000926 separation method Methods 0.000 claims description 92
- 238000006243 chemical reaction Methods 0.000 claims description 53
- 230000001755 vocal effect Effects 0.000 claims description 44
- 238000000034 method Methods 0.000 claims description 38
- 238000013527 convolutional neural network Methods 0.000 claims description 25
- 239000011295 pitch Substances 0.000 claims description 25
- 238000013528 artificial neural network Methods 0.000 claims description 17
- 239000000284 extract Substances 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 4
- 230000002411 adverse Effects 0.000 claims description 2
- 230000001747 exhibiting effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 11
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000003936 working memory Effects 0.000 description 2
- KNMAVSAGTYIFJF-UHFFFAOYSA-N 1-[2-[(2-hydroxy-3-phenoxypropyl)amino]ethylamino]-3-phenoxypropan-2-ol;dihydrochloride Chemical compound Cl.Cl.C=1C=CC=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC=C1 KNMAVSAGTYIFJF-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/056—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Auxiliary Devices For Music (AREA)
Abstract
Description
前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習する制御部を有する学習装置に関する。
第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換するとともに、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を含む第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第2種類の画像データに変換し、
前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習する制御部を有する学習装置が提供される。
機械学習により生成された学習済みモデルを格納するメモリと、
第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換し、
前記第1種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分を分離する制御部と、
を有する音響分離装置が提供される。
前記第1のオーディオ成分と前記第2のオーディオ成分とを含む第1種類のオーディオデータと、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類のオーディオデータとを含む学習用データを取得し、
前記第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした前記第1種類の画像データに変換するとともに、前記第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした前記第2種類の画像データに変換し、
前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成することによって学習されてもよい。
音響分離装置と、
各鍵が発光可能な鍵盤と、
を有する電子楽器装置であって、
前記音響分離装置は、
機械学習により生成された学習済みモデルを格納するメモリと、
第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換し、
前記第1種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分を分離する制御部と、
を有し、
前記制御部は、前記分離した第1のオーディオ成分に従って前記鍵盤の鍵を発光させる電子楽器装置が提供される。
プロセッサが、第1のオーディオ成分と第2のオーディオ成分が混合されている第1種類のオーディオデータと、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を含む第2種類のオーディオデータとを含む学習用データを取得し、
前記プロセッサが、前記第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換するとともに、前記第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第2種類の画像データに変換し、
前記プロセッサが、前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習する方法が提供される。
プロセッサが、第1のオーディオ成分と第2のオーディオ成分が混合されている第1種類のオーディオデータを取得し、
前記プロセッサが、前記第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換し、
前記プロセッサが、前記第1種類の画像データを学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分を分離する方法が提供される。
上述した方法をプロセッサに実現させるプログラム又はコンピュータ可読記憶媒体が提供される。
100 学習装置
200 音響分離装置
110,210 取得部
120,220 変換部
130 学習部
230 分離部
300 電子楽器装置
Claims (23)
- 第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換するとともに、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を含む第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第2種類の画像データに変換し、
前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習する制御部を有する学習装置。 - 前記制御部は、
前記第1種類のオーディオデータと前記第2種類のオーディオデータとを組とする複数の学習用オーディオデータを取得し、
前記取得した複数の学習用オーディオデータを対象として前記変換を行うことにより、前記第1種類の画像データと前記第2種類の画像データとを組とした学習用画像データを複数生成し、
前記生成した複数の学習用画像データに基づいて前記機械学習を行うことにより前記モデルを学習させる、請求項1記載の学習装置。 - 前記第1のオーディオ成分および前記第2のオーディオ成分は、特定の周波数分布を示す音の成分であって、基音は変化するが、前記基音に対する倍音成分の分布が一定の範囲内に収まっているような音の成分である、請求項1または2記載の学習装置。
- 前記第1のオーディオ成分および前記第2のオーディオ成分は、特定の種類の楽器音又はボーカル音であって、音高は異なっていても音色が同じ種類の楽器音又はボーカル音に属する音の成分である、請求項1乃至3のいずれか一項に記載の学習装置。
- 前記変換は、定Q変換である、請求項1乃至4何れか一項に記載の学習装置。
- 前記モデルは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層を含む畳み込みニューラルネットワークにより実現される、請求項1乃至5何れか一項に記載の学習装置。
- 前記特徴量として、フォルマントを含むように前記ニューラルネットワークを設定する、請求項6記載の学習装置。
- 前記畳み込みニューラルネットワークは更に、画像データの局所範囲に亘る位置ずれを修正するプーリング層を含む、請求項6又は7記載の学習装置。
- 前記制御部は、GAN(Generative Adversarial Networks)方式に従って前記モデルを学習する、請求項1乃至8何れか一項に記載の学習装置。
- 前記制御部は、前記第1種類の画像データを生成器に入力し、前記生成器から第3種類の画像データを取得し、前記第2種類の画像データと前記第3種類の画像データとを判別器に入力し、前記判別器から取得されたそれぞれの出力値の誤差に基づき前記生成器を学習する、請求項9記載の学習装置。
- 機械学習により生成された学習済みモデルを格納するメモリと、
第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換し、
前記第1種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分を分離する制御部と、
を有する音響分離装置。 - 前記学習済みモデルは、
前記第1のオーディオ成分と前記第2のオーディオ成分とを含む第1種類のオーディオデータと、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類のオーディオデータとを含む学習用データを取得し、
前記第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした前記第1種類の画像データに変換するとともに、前記第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした前記第2種類の画像データに変換し、
前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成することによって学習される、請求項11記載の音響分離装置。 - 前記モデルは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層を含む畳み込みニューラルネットワークにより実現される、請求項11又は12記載の音響分離装置。
- 前記特徴量として、フォルマントを含むように前記ニューラルネットワークを設定する、請求項13記載の音響分離装置。
- 前記第2種類の画像データに基づく前記第1のオーディオ成分の分離は、前記第1のオーディオ成分の音高の情報を抽出する、請求項11乃至14何れか一項に記載の音響分離装置。
- 前記第2種類の画像データに基づく前記第1のオーディオ成分の分離は、前記第1のオーディオ成分の基音の情報を抽出する、請求項15記載の音響分離装置。
- 前記変換は、定Q変換である、請求項11乃至16何れか一項に記載の音響分離装置。
- 前記制御部は更に、分離対象のオーディオ成分に応じて定Q変換又はフーリエ変換を選択的に実行する、請求項11乃至17何れか一項に記載の音響分離装置。
- 前記制御部は、前記分離対象のオーディオ成分を再生する場合には、前記第1種類のオーディオデータに対してフーリエ変換を実行し、前記分離対象のオーディオ成分を再生しない場合、前記第1種類のオーディオデータに対して定Q変換を実行する、請求項18記載の音響分離装置。
- 音響分離装置と、
各鍵が発光可能な鍵盤と、
を有する電子楽器装置であって、
前記音響分離装置は、
機械学習により生成された学習済みモデルを格納するメモリと、
第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換し、
前記第1種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分を分離する制御部と、
を有し、
前記制御部は、前記分離した第1のオーディオ成分に従って前記鍵盤の鍵を発光させる電子楽器装置。 - プロセッサが、第1のオーディオ成分と第2のオーディオ成分が混合されている第1種類のオーディオデータと、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を含む第2種類のオーディオデータとを含む学習用データを取得し、
前記プロセッサが、前記第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換するとともに、前記第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第2種類の画像データに変換し、
前記プロセッサが、前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習する方法。 - プロセッサが、第1のオーディオ成分と第2のオーディオ成分が混合されている第1種類のオーディオデータを取得し、
前記プロセッサが、前記第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換し、
前記プロセッサが、前記第1種類の画像データを学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分を分離する方法。 - 請求項21又は22記載の方法をプロセッサに実現させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018046691A JP6617783B2 (ja) | 2018-03-14 | 2018-03-14 | 情報処理方法、電子機器及びプログラム |
PCT/JP2019/010059 WO2019176950A1 (en) | 2018-03-14 | 2019-03-12 | Machine learning method, audio source separation apparatus, audio source separation method, electronic instrument and audio source separation model generation apparatus |
US16/979,594 US11568857B2 (en) | 2018-03-14 | 2019-03-12 | Machine learning method, audio source separation apparatus, and electronic instrument |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018046691A JP6617783B2 (ja) | 2018-03-14 | 2018-03-14 | 情報処理方法、電子機器及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019196162A Division JP2020021098A (ja) | 2019-10-29 | 2019-10-29 | 情報処理装置、電子機器及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019159145A true JP2019159145A (ja) | 2019-09-19 |
JP6617783B2 JP6617783B2 (ja) | 2019-12-11 |
Family
ID=67907848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018046691A Active JP6617783B2 (ja) | 2018-03-14 | 2018-03-14 | 情報処理方法、電子機器及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11568857B2 (ja) |
JP (1) | JP6617783B2 (ja) |
WO (1) | WO2019176950A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022552449A (ja) * | 2019-12-31 | 2022-12-15 | エンヴィジョン デジタル インターナショナル ピーティーイー.エルティーディー. | 風力タービン翼を検査するための方法および装置、ならびにそれらの機器および記憶媒体 |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11501532B2 (en) * | 2019-04-25 | 2022-11-15 | International Business Machines Corporation | Audiovisual source separation and localization using generative adversarial networks |
WO2021061450A1 (en) * | 2019-09-27 | 2021-04-01 | Qsinx Management Llc | Scene-to-text conversion |
CN113784274A (zh) * | 2020-06-09 | 2021-12-10 | 美国Lct公司 | 三维音频系统 |
US11783847B2 (en) * | 2020-12-29 | 2023-10-10 | Lawrence Livermore National Security, Llc | Systems and methods for unsupervised audio source separation using generative priors |
US11947628B2 (en) | 2021-03-30 | 2024-04-02 | Snap Inc. | Neural networks for accompaniment extraction from songs |
US11790936B1 (en) * | 2022-06-23 | 2023-10-17 | RPS Group, Inc. | Computerised systems and methods for detection |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008281776A (ja) * | 2007-05-10 | 2008-11-20 | Mitsubishi Electric Corp | 旋律抽出装置及び旋律抽出方法 |
JP2018036359A (ja) * | 2016-08-30 | 2018-03-08 | 国立大学法人山梨大学 | 音源分離装置、及び音源分離方法 |
WO2019031410A1 (ja) * | 2017-08-10 | 2019-02-14 | シャープ株式会社 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05127698A (ja) | 1991-10-30 | 1993-05-25 | Ricoh Co Ltd | ニユーラルネツトワークによるパターン変換装置及び画像パターン復元装置 |
US6675140B1 (en) * | 1999-01-28 | 2004-01-06 | Seiko Epson Corporation | Mellin-transform information extractor for vibration sources |
JP2001117579A (ja) * | 1999-10-21 | 2001-04-27 | Casio Comput Co Ltd | 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体 |
US7521619B2 (en) * | 2006-04-19 | 2009-04-21 | Allegro Multimedia, Inc. | System and method of instructing musical notation for a stringed instrument |
US8411977B1 (en) * | 2006-08-29 | 2013-04-02 | Google Inc. | Audio identification using wavelet-based signatures |
WO2008133097A1 (ja) * | 2007-04-13 | 2008-11-06 | Kyoto University | 音源分離システム、音源分離方法及び音源分離用コンピュータプログラム |
US9299364B1 (en) * | 2008-06-18 | 2016-03-29 | Gracenote, Inc. | Audio content fingerprinting based on two-dimensional constant Q-factor transform representation and robust audio identification for time-aligned applications |
US9501568B2 (en) * | 2015-01-02 | 2016-11-22 | Gracenote, Inc. | Audio matching based on harmonogram |
US9640159B1 (en) * | 2016-08-25 | 2017-05-02 | Gopro, Inc. | Systems and methods for audio based synchronization using sound harmonics |
US10341795B2 (en) * | 2016-11-29 | 2019-07-02 | The Curators Of The University Of Missouri | Log complex color for visual pattern recognition of total sound |
US20180276540A1 (en) * | 2017-03-22 | 2018-09-27 | NextEv USA, Inc. | Modeling of the latent embedding of music using deep neural network |
US10621973B1 (en) * | 2017-03-23 | 2020-04-14 | Vocasso, Inc. | Sub-vocal speech recognition apparatus and method |
US10296638B1 (en) * | 2017-08-31 | 2019-05-21 | Snap Inc. | Generating a probability of music using machine learning technology |
-
2018
- 2018-03-14 JP JP2018046691A patent/JP6617783B2/ja active Active
-
2019
- 2019-03-12 WO PCT/JP2019/010059 patent/WO2019176950A1/en active Application Filing
- 2019-03-12 US US16/979,594 patent/US11568857B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008281776A (ja) * | 2007-05-10 | 2008-11-20 | Mitsubishi Electric Corp | 旋律抽出装置及び旋律抽出方法 |
JP2018036359A (ja) * | 2016-08-30 | 2018-03-08 | 国立大学法人山梨大学 | 音源分離装置、及び音源分離方法 |
WO2019031410A1 (ja) * | 2017-08-10 | 2019-02-14 | シャープ株式会社 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
Non-Patent Citations (5)
Title |
---|
上村知史,外3名: "クアドロコプタ搭載マイクロホンアレイを用いた音源分離と深層学習による音源識別", 第33回日本ロボット学会学術講演会予稿集, JPN6019017120, September 2015 (2015-09-01), JP, pages 852 - 855, ISSN: 0004088629 * |
土井樹,外2名: "深層学習を用いた音の生成モデル", 人工知能学会第30回全国大会論文集, JPN6019017117, June 2016 (2016-06-01), JP, pages 1 - 3, ISSN: 0004088632 * |
大町基,外4名: "連想記憶と線形分離フィルタを用いたブラインド音源分離", 情報処理学会研究報告, vol. Vol.2015-SLP-105,No.4, JPN6019017115, February 2015 (2015-02-01), JP, pages 1 - 6, ISSN: 0004088631 * |
森戸隆之,外3名: "部分共有アーキテクチャを用いた深層学習ベースの音源同定の検討", 第46回AIチャレンジ研究会予稿集, JPN6019017118, November 2016 (2016-11-01), JP, pages 12 - 17, ISSN: 0004088628 * |
蜷川知弘,外3名: "画像処理を用いた周波数領域での混合母音音声の分離", 電気学会論文誌C, vol. 121, no. 12, JPN6019017122, December 2001 (2001-12-01), JP, pages 1866 - 1874, ISSN: 0004088630 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022552449A (ja) * | 2019-12-31 | 2022-12-15 | エンヴィジョン デジタル インターナショナル ピーティーイー.エルティーディー. | 風力タービン翼を検査するための方法および装置、ならびにそれらの機器および記憶媒体 |
JP7199608B2 (ja) | 2019-12-31 | 2023-01-05 | エンヴィジョン デジタル インターナショナル ピーティーイー.エルティーディー. | 風力タービン翼を検査するための方法および装置、ならびにそれらの機器および記憶媒体 |
Also Published As
Publication number | Publication date |
---|---|
US20210074267A1 (en) | 2021-03-11 |
JP6617783B2 (ja) | 2019-12-11 |
WO2019176950A1 (en) | 2019-09-19 |
US11568857B2 (en) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7243052B2 (ja) | オーディオ抽出装置、オーディオ再生装置、オーディオ抽出方法、オーディオ再生方法、機械学習方法及びプログラム | |
JP6617783B2 (ja) | 情報処理方法、電子機器及びプログラム | |
US8586849B1 (en) | Media system and method of progressive instruction in the playing of a guitar based on user proficiency | |
US10255037B2 (en) | Dynamic modification of audio content | |
CN111602193B (zh) | 用于处理乐曲的演奏的信息处理方法和装置 | |
US10553188B2 (en) | Musical attribution in a two-dimensional digital representation | |
Miron et al. | Monaural score-informed source separation for classical music using convolutional neural networks | |
JP2009031486A (ja) | 演奏音の類似度を評価する方法、装置およびプログラム | |
JP2020021098A (ja) | 情報処理装置、電子機器及びプログラム | |
CN112669811B (zh) | 一种歌曲处理方法、装置、电子设备及可读存储介质 | |
JP2014174205A (ja) | 楽音情報処理装置及びプログラム | |
CN108369800B (zh) | 声处理装置 | |
WO2019176954A1 (en) | Machine learning method, electronic apparatus, electronic musical instrument, model generator for part selection, and method of part determination | |
JP2017058595A (ja) | 自動アレンジ装置及びプログラム | |
JP4614307B2 (ja) | 演奏データ処理装置及びプログラム | |
WO2020110724A1 (ja) | 音響解析方法、音響解析装置、およびモデル構築方法 | |
CN113851098B (zh) | 一种旋律的风格转换方法、装置、终端设备及存储介质 | |
CN116189636B (zh) | 基于电子乐器的伴奏生成方法、装置、设备及存储介质 | |
US11756515B1 (en) | Method and system for generating musical notations for musical score | |
JP2013041128A (ja) | 複数音源の識別装置および複数音源に連動する情報処理装置 | |
US20210366455A1 (en) | Sound signal synthesis method, generative model training method, sound signal synthesis system, and recording medium | |
JP2021015138A (ja) | 演奏評価方法、演奏評価装置およびプログラム | |
Harmens | Concerto for Flute and Orchestra, first movement | |
JP2017161721A (ja) | 歌詞生成装置および歌詞生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181211 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190521 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190806 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191015 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191028 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6617783 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |