JP6617783B2 - 情報処理方法、電子機器及びプログラム - Google Patents
情報処理方法、電子機器及びプログラム Download PDFInfo
- Publication number
- JP6617783B2 JP6617783B2 JP2018046691A JP2018046691A JP6617783B2 JP 6617783 B2 JP6617783 B2 JP 6617783B2 JP 2018046691 A JP2018046691 A JP 2018046691A JP 2018046691 A JP2018046691 A JP 2018046691A JP 6617783 B2 JP6617783 B2 JP 6617783B2
- Authority
- JP
- Japan
- Prior art keywords
- image data
- type
- audio
- data
- audio component
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 8
- 238000003672 processing method Methods 0.000 title claims description 8
- 230000001755 vocal effect Effects 0.000 claims description 53
- 238000006243 chemical reaction Methods 0.000 claims description 50
- 238000000034 method Methods 0.000 claims description 37
- 239000011295 pitch Substances 0.000 claims description 35
- 238000013527 convolutional neural network Methods 0.000 claims description 23
- 238000010801 machine learning Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 14
- 230000015654 memory Effects 0.000 claims description 14
- 238000009826 distribution Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 4
- 230000001747 exhibiting effect Effects 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000000926 separation method Methods 0.000 description 80
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 238000011176 pooling Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010191 image analysis Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000003936 working memory Effects 0.000 description 2
- KNMAVSAGTYIFJF-UHFFFAOYSA-N 1-[2-[(2-hydroxy-3-phenoxypropyl)amino]ethylamino]-3-phenoxypropan-2-ol;dihydrochloride Chemical compound Cl.Cl.C=1C=CC=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC=C1 KNMAVSAGTYIFJF-UHFFFAOYSA-N 0.000 description 1
- 238000012935 Averaging Methods 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/0308—Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0008—Associated control or indicating means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2210/00—Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
- G10H2210/031—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
- G10H2210/056—Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal for extraction or identification of individual instrumental parts, e.g. melody, chords, bass; Identification or separation of instrumental parts by their characteristic voices or timbres
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2250/00—Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
- G10H2250/311—Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Auxiliary Devices For Music (AREA)
- Electrophonic Musical Instruments (AREA)
Description
第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換するとともに、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を含む第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第2種類の画像データに変換し、
前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習する制御部を有する学習装置が提供される。
機械学習により生成された学習済みモデルを格納するメモリと、
第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換し、
前記第1種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分を分離する制御部と、
を有する音響分離装置が提供される。
前記第1のオーディオ成分と前記第2のオーディオ成分とを含む第1種類のオーディオデータと、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類のオーディオデータとを含む学習用データを取得し、
前記第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした前記第1種類の画像データに変換するとともに、前記第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした前記第2種類の画像データに変換し、
前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成することによって学習されてもよい。
音響分離装置と、
各鍵が発光可能な鍵盤と、
を有する電子楽器装置であって、
前記音響分離装置は、
機械学習により生成された学習済みモデルを格納するメモリと、
第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換し、
前記第1種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分を分離する制御部と、
を有し、
前記制御部は、前記分離した第1のオーディオ成分に従って前記鍵盤の鍵を発光させる電子楽器装置が提供される。
プロセッサが、第1のオーディオ成分と第2のオーディオ成分が混合されている第1種類のオーディオデータと、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を含む第2種類のオーディオデータとを含む学習用データを取得し、
前記プロセッサが、前記第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換するとともに、前記第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第2種類の画像データに変換し、
前記プロセッサが、前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習する方法が提供される。
プロセッサが、第1のオーディオ成分と第2のオーディオ成分が混合されている第1種類のオーディオデータを取得し、
前記プロセッサが、前記第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換し、
前記プロセッサが、前記第1種類の画像データを学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分を分離する方法が提供される。
上述した方法をプロセッサに実現させるプログラム又はコンピュータ可読記憶媒体が提供される。
100 学習装置
200 音響分離装置
110,210 取得部
120,220 変換部
130 学習部
230 分離部
300 電子楽器装置
Claims (19)
- コンピュータが、第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータに対応し、かつ、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データと、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を含む第2種類のオーディオデータに対応し、かつ、複数の軸のうちの1つの軸を対数の周波数軸とした第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習させ、
前記第1のオーディオ成分および前記第2のオーディオ成分は、少なくとも、特定の周波数分布を示す音の成分であって、基音は変化するが、前記基音に対する倍音成分の分布が一定の範囲内に収まっているような音の成分、あるいは、特定の種類の楽器音又はボーカル音であって、音高は異なっていても音色が同じ種類の楽器音又はボーカル音に属する音の成分のいずれかを含む、情報処理方法。 - コンピュータが、第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータに対応し、かつ、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データと、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を含む第2種類のオーディオデータに対応し、かつ、複数の軸のうちの1つの軸を対数の周波数軸とした第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習させ、
前記モデルは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層を含む畳み込みニューラルネットワークにより実現され、
オーディオデータを対数の周波数軸を有する画像データに変換して前記ニューラルネットワークに入力した場合に、前記オーディオデータに含まれる各オーディオ成分に対して、周波数方向の位置ずれである音高の変化を許容し、周波数成分の分布である音色の違いを前記特徴量として抽出可能にした、情報処理方法。 - 前記コンピュータは、
前記第1種類のオーディオデータと前記第2種類のオーディオデータとを組とする複数の学習用オーディオデータを取得し、
前記取得した複数の学習用オーディオデータを対象として、前記第1種類のオーディオデータを前記第1種類の画像データに変換するとともに、前記第2種類のオーディオデータを前記第2種類の画像データに変換することにより、前記第1種類の画像データと前記第2種類の画像データとを組とした学習用画像データを複数生成し、
前記生成した複数の学習用画像データに基づいて前記機械学習を行うことにより前記モデルを学習させる、請求項1または2記載の情報処理方法。 - 前記モデルは、入力された画像データに基づいて新たな画像データを生成する生成器と、2つの画像データの違いを判別する判別器とを含み、
前記コンピュータは、前記第1種類の画像データを前記生成器に入力し、前記生成器から第3種類の画像データを取得し、前記第2種類の画像データと前記第3種類の画像データとを前記判別器に入力し、前記判別器から取得されたそれぞれの出力値の誤差に基づき前記生成器を学習する、請求項1乃至3のいずれか一項に記載の情報処理方法。 - 機械学習により生成された学習済みモデルを格納するメモリと、
第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータに対応し、かつ、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分の音高の情報を抽出する制御部と、を有する電子機器。 - 前記制御部は、前記第2種類の画像データに基づき前記第1のオーディオ成分の基音の音高を抽出する、請求項5記載の電子機器。
- 機械学習により生成された学習済みモデルを格納するメモリと、
第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータに対応した第1種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記取得した画像データに基づき前記第1のオーディオ成分を分離する制御部と、
を有し、
前記制御部は、
オーディオデータを対数の周波数軸を有する画像データに変換する定Q変換およびオーディオデータを線形の周波数軸を有する画像データに変換するフーリエ変換のいずれかを選択し、
前記定Q変換が選択された場合には、前記定Q変換により前記第1種類のオーディオデータを前記第1種類の画像データに変換して前記学習済みモデルに入力し、
前記フーリエ変換が選択された場合には、前記フーリエ変換により前記第1種類のオーディオデータを前記第1種類の画像データに変換して前記学習済みモデルに入力する、電子機器。 - 前記制御部は、前記フーリエ変換が選択された場合には、前記学習済みモデルから取得された前記第2種類の画像データを逆フーリエ変換して前記第1のオーディオ成分が分離されたオーディオデータを取得し、取得されたオーディオデータを再生する、請求項7記載の電子機器。
- 前記制御部は、前記定Q変換が選択された場合には、前記学習済みモデルから取得された前記第2種類の画像データに基づき前記第1のオーディオ成分の音高の情報を抽出する、請求項7に記載の電子機器。
- 前記制御部は、前記分離対象のオーディオ成分を再生すると判断した場合には、前記フーリエ変換を選択し、前記分離対象のオーディオ成分を再生しないと判断した場合には、前記定Q変換を選択する、請求項7乃至9のいずれか一項に記載の電子機器。
- 機械学習により生成された学習済みモデルを格納するメモリと、
ボーカル音に対応するオーディオ成分及び楽器音に対応するオーディオ成分が混合されている第1種類のオーディオデータに対応し、かつ、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから、前記ボーカル音に対応するオーディオ成分及び前記楽器音に対応するオーディオ成分のいずれか一方を含み、いずれか他方を含まない第2種類のオーディオデータに対応する第2種類の画像データを取得し、前記第2種類の画像データに基づき前記ボーカル音に対応するオーディオ成分または前記楽器音に対応するオーディオ成分を分離する制御部と、
を有する電子機器。 - 前記制御部は、前記学習済みモデルから前記楽器音に対応するオーディオ成分が混合されていない前記ボーカル音に対応するオーディオ成分を示す前記第2種類の画像データを取得し、前記第2種類の画像データに基づき前記ボーカル音に対応するオーディオ成分を分離する、請求項11記載の電子機器。
- 前記制御部は、前記学習済みモデルから前記ボーカル音に対応するオーディオ成分が混合されていない前記楽器音に対応するオーディオ成分を示す前記第2種類の画像データを取得し、前記第2種類の画像データに基づき前記楽器音に対応するオーディオ成分を分離する、請求項11記載の電子機器。
- 前記学習済みモデルは、
前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成するように学習されている、請求項11乃至13のいずれか一項に記載の電子機器。 - 音高を指定する複数の操作子を有する操作部と、
前記操作部で指定された音高の音を発音させる第1制御部と、
機械学習により生成された学習済みモデルを格納するメモリと、
メロディ成分及び伴奏成分を含むオーディオデータに対応する第1種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから、前記メロディ成分及び前記伴奏成分のいずれか一方を含みいずれか他方を含まないオーディオデータに対応する第2種類の画像データを取得する処理と、取得した前記第2種類の画像データに基づき前記メロディ成分または前記伴奏成分の音高の情報を抽出する処理と、を実行する第2制御部と、
を有し、
前記第1制御部は、更に、前記第2制御部が抽出した音高の情報に対応する音を発音させる機能、または、前記第2制御部が抽出した音高の情報に対応する前記操作部の操作子を識別して示す機能を有する、電子楽器。 - 前記操作部は、各鍵が発光可能な鍵盤であり、
前記第2制御部は、前記第1制御部が抽出した音高の情報に対応する前記鍵盤の鍵を発光させる、請求項15に記載の電子楽器。 - コンピュータが、第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータに対応し、かつ、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データを、機械学習により生成された学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分の音高の情報を抽出する、情報処理方法。
- コンピュータが、ボーカル音に対応するオーディオ成分及び楽器音に対応するオーディオ成分が混合されている第1種類のオーディオデータに対応し、かつ、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データを、機械学習により生成された学習済みモデルに入力し、前記学習済みモデルから、前記ボーカル音に対応するオーディオ成分及び前記楽器音に対応するオーディオ成分のいずれか一方を含み、いずれか他方を含まない第2種類のオーディオデータに対応する第2種類の画像データを取得し、前記第2種類の画像データに基づき前記ボーカル音に対応するオーディオ成分または前記楽器音に対応するオーディオ成分を分離する、情報処理方法。
- 請求項17又は18記載の方法をプロセッサに実現させるプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018046691A JP6617783B2 (ja) | 2018-03-14 | 2018-03-14 | 情報処理方法、電子機器及びプログラム |
PCT/JP2019/010059 WO2019176950A1 (en) | 2018-03-14 | 2019-03-12 | Machine learning method, audio source separation apparatus, audio source separation method, electronic instrument and audio source separation model generation apparatus |
US16/979,594 US11568857B2 (en) | 2018-03-14 | 2019-03-12 | Machine learning method, audio source separation apparatus, and electronic instrument |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018046691A JP6617783B2 (ja) | 2018-03-14 | 2018-03-14 | 情報処理方法、電子機器及びプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019196162A Division JP2020021098A (ja) | 2019-10-29 | 2019-10-29 | 情報処理装置、電子機器及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019159145A JP2019159145A (ja) | 2019-09-19 |
JP6617783B2 true JP6617783B2 (ja) | 2019-12-11 |
Family
ID=67907848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018046691A Active JP6617783B2 (ja) | 2018-03-14 | 2018-03-14 | 情報処理方法、電子機器及びプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11568857B2 (ja) |
JP (1) | JP6617783B2 (ja) |
WO (1) | WO2019176950A1 (ja) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11501532B2 (en) * | 2019-04-25 | 2022-11-15 | International Business Machines Corporation | Audiovisual source separation and localization using generative adversarial networks |
WO2021061450A1 (en) * | 2019-09-27 | 2021-04-01 | Qsinx Management Llc | Scene-to-text conversion |
CN111306008B (zh) * | 2019-12-31 | 2022-03-11 | 远景智能国际私人投资有限公司 | 风机叶片的检测方法、装置、设备及存储介质 |
CN113784274B (zh) * | 2020-06-09 | 2024-09-20 | 美国Lct公司 | 三维音频系统 |
US11783847B2 (en) * | 2020-12-29 | 2023-10-10 | Lawrence Livermore National Security, Llc | Systems and methods for unsupervised audio source separation using generative priors |
US11947628B2 (en) | 2021-03-30 | 2024-04-02 | Snap Inc. | Neural networks for accompaniment extraction from songs |
US11790936B1 (en) * | 2022-06-23 | 2023-10-17 | RPS Group, Inc. | Computerised systems and methods for detection |
US12096093B2 (en) * | 2023-02-09 | 2024-09-17 | Disney Enterprises, Inc. | User responsive dynamic content transformation |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05127698A (ja) | 1991-10-30 | 1993-05-25 | Ricoh Co Ltd | ニユーラルネツトワークによるパターン変換装置及び画像パターン復元装置 |
US6675140B1 (en) * | 1999-01-28 | 2004-01-06 | Seiko Epson Corporation | Mellin-transform information extractor for vibration sources |
JP2001117579A (ja) * | 1999-10-21 | 2001-04-27 | Casio Comput Co Ltd | 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体 |
US7521619B2 (en) * | 2006-04-19 | 2009-04-21 | Allegro Multimedia, Inc. | System and method of instructing musical notation for a stringed instrument |
US8411977B1 (en) * | 2006-08-29 | 2013-04-02 | Google Inc. | Audio identification using wavelet-based signatures |
US8239052B2 (en) * | 2007-04-13 | 2012-08-07 | National Institute Of Advanced Industrial Science And Technology | Sound source separation system, sound source separation method, and computer program for sound source separation |
JP2008281776A (ja) * | 2007-05-10 | 2008-11-20 | Mitsubishi Electric Corp | 旋律抽出装置及び旋律抽出方法 |
US9299364B1 (en) * | 2008-06-18 | 2016-03-29 | Gracenote, Inc. | Audio content fingerprinting based on two-dimensional constant Q-factor transform representation and robust audio identification for time-aligned applications |
US9501568B2 (en) * | 2015-01-02 | 2016-11-22 | Gracenote, Inc. | Audio matching based on harmonogram |
US9640159B1 (en) * | 2016-08-25 | 2017-05-02 | Gopro, Inc. | Systems and methods for audio based synchronization using sound harmonics |
JP6758589B2 (ja) * | 2016-08-30 | 2020-09-23 | 国立大学法人山梨大学 | 音源分離装置、及び音源分離方法 |
US10341795B2 (en) * | 2016-11-29 | 2019-07-02 | The Curators Of The University Of Missouri | Log complex color for visual pattern recognition of total sound |
US20180276540A1 (en) * | 2017-03-22 | 2018-09-27 | NextEv USA, Inc. | Modeling of the latent embedding of music using deep neural network |
US10621973B1 (en) * | 2017-03-23 | 2020-04-14 | Vocasso, Inc. | Sub-vocal speech recognition apparatus and method |
WO2019031410A1 (ja) * | 2017-08-10 | 2019-02-14 | シャープ株式会社 | 画像フィルタ装置、画像復号装置、および画像符号化装置 |
US10296638B1 (en) * | 2017-08-31 | 2019-05-21 | Snap Inc. | Generating a probability of music using machine learning technology |
-
2018
- 2018-03-14 JP JP2018046691A patent/JP6617783B2/ja active Active
-
2019
- 2019-03-12 WO PCT/JP2019/010059 patent/WO2019176950A1/en active Application Filing
- 2019-03-12 US US16/979,594 patent/US11568857B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2019176950A1 (en) | 2019-09-19 |
US20210074267A1 (en) | 2021-03-11 |
JP2019159145A (ja) | 2019-09-19 |
US11568857B2 (en) | 2023-01-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6617783B2 (ja) | 情報処理方法、電子機器及びプログラム | |
US10789921B2 (en) | Audio extraction apparatus, machine learning apparatus and audio reproduction apparatus | |
US20170084261A1 (en) | Automatic arrangement of automatic accompaniment with accent position taken into consideration | |
CN107195289B (zh) | 一种可编辑的多级音色合成系统及方法 | |
Miron et al. | Monaural score-informed source separation for classical music using convolutional neural networks | |
CN111602193B (zh) | 用于处理乐曲的演奏的信息处理方法和装置 | |
US9977645B2 (en) | Dynamic modification of audio content | |
JP2020056938A (ja) | 演奏情報表示装置及び演奏情報表示方法、演奏情報表示プログラム、並びに、電子楽器 | |
CN108369800B (zh) | 声处理装置 | |
JP2020021098A (ja) | 情報処理装置、電子機器及びプログラム | |
CN112669811B (zh) | 一种歌曲处理方法、装置、电子设备及可读存储介质 | |
JP2011164162A (ja) | 演奏表情付け支援装置 | |
JP2014174205A (ja) | 楽音情報処理装置及びプログラム | |
WO2019176954A1 (en) | Machine learning method, electronic apparatus, electronic musical instrument, model generator for part selection, and method of part determination | |
US11756515B1 (en) | Method and system for generating musical notations for musical score | |
JP2017058595A (ja) | 自動アレンジ装置及びプログラム | |
JP4614307B2 (ja) | 演奏データ処理装置及びプログラム | |
WO2020110724A1 (ja) | 音響解析方法、音響解析装置、およびモデル構築方法 | |
JP6565529B2 (ja) | 自動アレンジ装置及びプログラム | |
CN116189636B (zh) | 基于电子乐器的伴奏生成方法、装置、设备及存储介质 | |
CN113851098B (zh) | 一种旋律的风格转换方法、装置、终端设备及存储介质 | |
JP2013041128A (ja) | 複数音源の識別装置および複数音源に連動する情報処理装置 | |
JP2021015138A (ja) | 演奏評価方法、演奏評価装置およびプログラム | |
CN116312425A (zh) | 音频调整方法、计算机设备和程序产品 | |
Harmens | Concerto for Flute and Orchestra, first movement |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181211 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190521 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190621 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190806 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190909 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191015 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191028 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6617783 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |