JP2021128252A - 音源分離プログラム、音源分離装置、音源分離方法及び生成プログラム - Google Patents

音源分離プログラム、音源分離装置、音源分離方法及び生成プログラム Download PDF

Info

Publication number
JP2021128252A
JP2021128252A JP2020022729A JP2020022729A JP2021128252A JP 2021128252 A JP2021128252 A JP 2021128252A JP 2020022729 A JP2020022729 A JP 2020022729A JP 2020022729 A JP2020022729 A JP 2020022729A JP 2021128252 A JP2021128252 A JP 2021128252A
Authority
JP
Japan
Prior art keywords
acoustic data
sound source
image data
mixed
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020022729A
Other languages
English (en)
Inventor
礼 濱川
Rei Hamakawa
礼 濱川
文菜 久野
Fumina Kuno
文菜 久野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Umemura Educational Institutions
Original Assignee
Umemura Educational Institutions
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Umemura Educational Institutions filed Critical Umemura Educational Institutions
Priority to JP2020022729A priority Critical patent/JP2021128252A/ja
Publication of JP2021128252A publication Critical patent/JP2021128252A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Auxiliary Devices For Music (AREA)

Abstract

【課題】複数種の音源で発生した音響データが合成された混合音響データを分離する。【解決手段】複数の異なる音源で発生した複数の音響データが合成された混合音響データから、特定の音源で発生した音響データを分離する音源分離プログラムであって、分離用の混合音響データを、当該混合音響データの特徴を表す画像データに変換する変換ステップと、複数の異なる音源で過去に発生した音響データの特徴をそれぞれ表す複数の第1の画像データと、複数の音響データが合成された混合音響データの特徴を表す第2の画像データとの関係を学習した学習済みモデルを用いて、変換ステップで得られた画像データから、特定の音源で発生した音響データの特徴を表す画像データを生成する生成ステップと、をコンピュータに実行させる。【選択図】図1

Description

本開示は、複数種の音源で発生した音響データが合成された混合音響データから、特定の音源の音響データを分離する音源分離プログラム、音源分離装置、音源分離方法及び混合音響データを分離する学習済みモデルを生成する生成プログラムに関する。
複数の音源で発生した音響を含むデータから、特定の音源で発生した音響データを分離することが必要な場合がある。例えば、複数の楽器の演奏を含む音響データから、特定の楽器の演奏の音響データのみを分離する技術がある(例えば、特許文献1)。
音楽の分野では、演奏のための楽譜が存在しないものもある。このような場合、これを演奏したい者は、演奏される音を聞き取り、再現する『耳コピ』といわれる手法が利用されることがある。このような手法では、複数の音源である楽器の演奏から、自身が真似したい楽器の音のみを分離する必要がある。ところが、複数の音源の中から特定の音源のみを分離して聞き取ることは困難である。
特許文献1には、楽曲中の特定の打楽器のスペクトログラム形状を推定し、その楽器音を分離する技術が記載される。この特許文献1に記載の技術では、スペクトログラムの相関値を音源の分離に利用する。ところが、音源には様々な種別があり、また、音響データには、複数の音源が含まれる場合もあるため、特許文献1に記載されるようなスペクトログラムの相関値を利用するのみでは特定の音源の音響データを分離することは困難である。
特開2015−125238号公報
本開示は、複数種の音源で発生した音響データが合成された混合音響データから、特定の音源の音響データを分離する音源分離プログラム、音源分離装置、音源分離方法及び混合音響データを分離するモデルを生成する生成プログラムを提供する。
本開示の音源分離プログラムは、複数の異なる音源で発生した複数の音響データが合成された混合音響データから、特定の音源で発生した音響データを分離する音源分離プログラムであって、分離用の混合音響データを、当該混合音響データの特徴を表す画像データに変換する変換ステップと、複数の異なる音源で過去に発生した音響データの特徴をそれぞれ表す複数の第1の画像データと、複数の音響データが合成された混合音響データの特徴を表す第2の画像データとの関係を学習した学習済みモデルを用いて、変換ステップで得られた画像データから、特定の音源で発生した音響データの特徴を表す画像データを生成する生成ステップと、をコンピュータに実行させる。
本開示の生成プログラムは、複数の異なる音源で発生した複数の音響データが合成された混合音響データの特徴を表す画像データから、特定の種別の音源で発生した音響データの特徴を表す画像データを生成する学習済みモデルを生成する生成プログラムであって、複数の異なる音源で過去に発生した音響データの特徴をそれぞれ表す複数の第1の画像データと、複数の当該音響データが合成された混合音響データの特徴を表す第2の画像データとを取得する取得ステップと、複数の第1の画像データと、第2の画像データとの関係を学習し、新たに入力される分離用の混合音響データの特徴を表す画像データから、特定の種別の音源で発生した音響データの特徴を表す画像データを生成する学習済みモデルを生成する学習ステップと、をコンピュータに実行させる。
これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。
本開示の音源分離プログラム、音源分離装置及び音源分離方法によれば、複数種の音源で発生した音響データが合成された混合音響データから、特定の音源の音響データを分離することが可能となり、生成プログラムによれば、混合音響データを分離する学習済みモデルを生成することができる。
実施の形態1に係る音源分離装置の構成を示すブロック図である。 音源分離装置において利用される第2のスペクトログラムの一例である。 音源分離装置において利用される第1のスペクトログラムの一例である。 実施の形態1に係る音源分離方法の処理を説明するフローチャートである。 音源分離装置で表示される初期画面の一例である。 音源分離装置で表示される楽曲選択画面の一例である。 音源分離装置で表示される音源選択画面の一例である。 音源分離装置で表示される結果出力画面の一例である。 実施の形態2に係るモデル生成装置の構成を示すブロック図である。 短時間フーリエ変換を説明する周波数の波形の一例である。 短時間フーリエ変換を説明する周波数の波形の他の例である。 連続ウェーブレット変換を説明する周波数の波形の一例である。 学習用データを説明する概略図である。 学習済みモデルの生成を説明する概略図である。 学習済みモデルの利用を説明する概略図である。 実施の形態2に係るモデル生成方法の処理を説明するフローチャートである。 変形例1に係る音源分離装置の構成を示すブロック図である。 変形例1に係る音源分離装置で表示されるモード選択画面の一例である。 変形例1に係る音源分離装置で表示される結果出力画面の一例である。 変形例2に係る音源分離装置の構成を示すブロック図である。
[実施形態]
以下に、図面を参照して実施形態に係る音源分離プログラム、音源分離装置、音源分離方法、生成プログラム、モデル生成装置及びモデル生成方法について説明する。以下の説明では、同一の構成について、同一の符号を付して説明を省略する。
以下の説明では、「音源」は、音を出すもととなるものをいう。「音源」は、例えば、楽器や人間である。
「音響データ」は、音源により発生した音を再生可能な形式に変換したデータである。「音響データ」は、例えば、音源が楽器である場合、楽器から発生した音に関するデータであり、音源が人間である場合、人が発した声に関するデータである。「音響データ」の形式は、限定せず、また、圧縮形式であっても非圧縮形式であっても、後述する処理を実現可能であればよい。
「混合音響データ」は、複数の音源の音響データを合成した音を再生可能な形式に変換したデータである。「混合音響データ」は、例えば、複数の楽器で演奏された音を組み合わせた音楽に関するデータである。また、「混合音響データ」は、例えば、楽器で演奏された音に加え、人間の肉声を組み合わせた音楽に関するデータであってもよい。また、「混合音響データ」の形式も限定しない。
「スペクトログラム」は、音声データ、または、混合音声データについて周波数スペクトルを表した画像データである。音声データのスペクトログラムを「第1のスペクトログラム」とし、混合音声データのスペクトログラムを「第2のスペクトログラム」とする。具体的には後述するが、「スペクトログラム」では、横軸(x軸)に「時間」を表し、縦軸(y軸)に「周波数」を表す。xy平面と直交するz軸に「周波数成分の強さ」を表す。
〈音源分離装置〉
音源分離装置1は、複数種の音源で発生した複数の音響データが合成された混合音響データから、特定の種別の音源で発生した音響データを分離するものである。制御部11と、記憶部12と、入力部13と、出力部14と、通信部15とを備える。例えば、この音源分離装置1は、スマートフォン等の情報処理端末であり、記憶部12で記憶される音源分離プログラムP1を読み出して実行することにより、制御部11が取得部111、受付部112、第1変換部113、生成部114及び第2変換部115としての処理を実行し、音源分離を実現することができる。
例えば、制御部11は、CPU、MPU、GPU、FPGA、DSP、ASIC等のプロセッサにより実現することができる。記憶部12は、種々の情報を記録する記録媒体である。記憶部12は、例えば、DRAM、SRAM、フラッシュメモリ、MRAM、ReRAM、FeRAM、SSD(Solid State Device)、ハードディスク、その他の記憶デバイス又はそれらを適宜組み合わせて実現される。
入力部13は、データや操作の入力に利用する入力手段である。音源分離装置1がスマートフォンである場合、例えば、入力部13には、操作ボタン、タッチパネル、マイクロフォン等が含まれる。出力部14は、データや処理結果が出力される出力手段である。音源分離装置1がスマートフォンである場合、例えば、出力部14には、ディスプレイ、スピーカ等が含まれる。通信部15は、インターネット等の通信ネットワークを介したデータの送受信に利用される通信インタフェースである。また、通信部15が利用可能な通信規格については限定されない。
取得部111は、複数の音源で発生した複数の音響データが合成された混合音響データ121を取得する。取得部111が取得する混合音響データ121は、例えば、多重奏の音響データであって、分離用のデータである。また、取得部111は、取得した混合音響データ121を記憶部12に記憶させる。取得部111による混合音響データ121の取得方法は、限定されない。例えば、入力部13であるマイクロフォンを介して実際に空間で発生した音を混合音響データ121として録音する方法でもよい。また例えば、通信部15を介して、他の装置で録音された混合音響データ121を受信する方法でもよい。分離用の混合音響データ121は、例えば、1曲分等の、長さであることは必須ではないが、ある程度の長さ(例えば、曲の1小節分)である必要がある。
受付部112は、いずれの種別の音源の音響データの出力がリクエストされるかの選択を受け付ける。具体的には、受付部112は、入力部13を介して選択する音源の種別を受け付けると、当該種別を生成部114に出力する。
第1変換部113は、分離用の混合音響データ121を、この混合音響データの特徴を表す画像データに変換する。例えば、第1変換部113は、連続ウェーブレット変換を用いて、混合音響データ121を第2の画像データ122であるスペクトログラムに変換する。第2の画像データ122であるスペクトログラムは、混合音響データ121を、時間、周波数及び周波数成分の強さで表すものである。
具体的には、第2の画像データ122であるスペクトログラムは、図2Aに示すように表されるが、x軸が「時間」、y軸が「周波数」、x軸とy軸に直交するz軸(図示せず)が「周波数成分の強さ」である。周波数成分の強さは、スペクトログラムにおいては、色によって表され、具体的には図2Aで白いほど、周波数成分が強いことを意味する。したがって、第2の画像データ122は、混合音響データ121が含む各音源の周波数の特徴を表すものである。そのため、第2の画像データ122は、複数種の音源の情報を含む。例えば、図2Aは、ピアノ、ドラム、ベース及びギターを音源とする混合音響データを変換したスペクトログラムの一例である。また、第1変換部113は、変換により得られた第2の画像データ122を、記憶部12に記憶させる。
生成部114は、記憶部12に記憶される学習済みモデルMを用いて、第1変換部113で得られた第2の画像データ122から、特定の種別の音源で発生した音響データの特徴を表す第1の画像データ123を生成する。この学習済みモデルMは、複数の音源の音響データが合成された分離用の混合音響データ121の特徴を表す第2の画像データ122を入力データとし、特定の音源で発生した分離後の音響データの特徴を表す第1の画像データ123を出力データとするものである。このとき、生成部114は、受付部112で受け付けた種別の音源で発生した音響データの特徴を表す第1の画像データ123であるスペクトログラムを生成する。また、生成部114は、生成した第1の画像データ123を記憶部12に記憶させる。
第1の画像データ123であるスペクトログラムは、図2Bに示すように表され、x軸が「時間」、y軸が「周波数」、x軸とy軸に直交するz軸(図示せず)が「周波数成分の強さ」である。したがって、第1の画像データ123は、選択された音源の周波数の特徴を表すものである。図2Bは、ベースを音源とする音響データを変換したスペクトログラムの一例である。具体的には、図2Bは、図2Aが含むピアノ、ドラム、ベース及びギターの情報のうち、ベースの情報のみを表すものである。したがって、図2Bのスペクトログラムは、図2Aのスペクトログラムと比較すると、白い部分が少なくなっている。
例えば、生成部114が利用する学習済みモデルMは、外部の学習器で学習されたものである。具体的には、学習済みモデルMは、複数の異なる音源で過去に発生した音響データの特徴をそれぞれ表す複数の第1の画像データと、複数の音響データが合成された混合音響データの特徴を表す第2の画像データとの関係を学習したものである。この学習済みモデルMは、音源分離プログラムP1に含まれてもよい。また、学習済みモデルMは、記憶部12に記憶されずに外部の記憶媒体に記憶されており、生成部114は、通信部15を介して外部の記憶媒体で記憶される学習済みモデルを利用してもよい。なお、学習済みモデルMの学習については、図8乃至図12を用いて後述する。
第2変換部115は、生成部114で生成された特定の種別の音響データの特徴を表す第1の画像データ123を分離後の音響データ124に変換する。例えば、また、第2変換部115は、出力部14を介して、変換した分離後の音響データ124を出力する。具体的には、第1変換部113で連続ウェーブレット変換を利用した場合、第2変換部115は、逆連続ウェーブレット変換を用いて第1の画像データ123であるスペクとロゴラムを音響データ124に変換する。
〈音源分離方法〉
図3に示すフローチャート及び図4乃至7に示す画面例を用いて、音源分離装置1を用いて実行される音源分離方法の処理の一例を説明する。ここでは、音源分離装置1は、音源分離用のアプリケーションである音源分離プログラムP1がインストールされたスマートフォンである例で説明する。この場合、音源分離装置1において、音源分離プログラムP1が起動され、実行されることで、図3に示す処理が実行されるものとする。音源分離装置1において、音源分離プログラムP1が起動された際には、図4に示すような初期画面W1が出力部14であるディスプレイに表示され、図3に示す処理が開始する。
音源分離の処理が開始すると、取得部111は、混合音響データを取得する(S11)。例えば、予め音源分離装置1の記憶部12に記憶される混合音響データから選択する場合、複数の混合音響データのリストが表示され、リストに含まれる混合音響データから、出力部14に、図5に示すようないずれかを選択する楽曲選択画面W2が表示され、ユーザにより、入力部13を介して選択ボタンb21が操作されることにより、選択された混合音響データ121が取得される。図5の例では、混合音響データ121は、記憶部12に予め記憶されているため、ステップS11では、混合音響データ121の識別情報を取得すれば良い。なお、図5の楽曲選択画面W2が含む表示部b22では、選択される楽曲である混合音響データ121に予め関連付けられるイメージデータを表示するようにしてもよい。
また、受付部112は、分離対象とする音源の種別の選択を受け付ける(S12)。例えば、図6に示すような音源選択画面W3が出力部14に表示され、入力部13を介して選択された音源の種別を受け付ける。図6に示す音源選択画面W3では、ドラムの音源の分離を選択する選択部b31と、バイオリンの音源の分離を選択する選択部b32と、ボーカルの音源の分離を選択する選択部b33と、ピアノの音源の分離を選択する選択部b34とを含む。例えば、入力部23により選択部b31が操作されることにより、音源の種別として「ドラム」が選択される。
第1変換部113は、ステップS11で取得した混合音響データを、混合音響データの特徴を表す第2の画像データ122に変換する(S13)。
生成部114は、記憶部12に記憶される学習済みモデルMを用いて、ステップS13の変換で得られた第2の画像データ122から、ステップS12で選択された種別の音源の第1の画像データ123を生成する(S14)。
第2変換部115は、ステップSで生成された第1の画像データ123を、音響データ124に変換する(S15)。また、第2変換部115は、得られた音響データ124を、出力部14であるスピーカに出力する(S16)。第2変換部115は、音響データ124をスピーカに出力するとともに、図7に示すような結果出力画面W4をディスプレイに出力してもよい。
図7に示す一例の結果出力画面W4は、ステップS12で選択された音源の種別を表すイメージ図b411、変換された音響データ124の振幅を表す波形を表示する表示部b412、ステップS11で取得された混合音響データ121の全体の時間を表示する表示部b421、ステップS16で現在出力中の音響データ124の開始から現時点までの時間を表示する表示部422、表示部b421及びb422に表示される時間の関係を表すスケールを表示する表示部b423、出力する音響データ124を調整する調整部b424、分離された音響データ124を出力する音量を調整する調整部b431、混合音響データ121を出力する音量を調整する調整部b432、音響データ124の出力の一時停止及び開始を操作する操作ボタンb44、音響データ124の出力の速度を調整する調整部b451,b452,b453、混合音響データのイメージデータを表示する表示部b46を含む。
図7では、音響データ124の音量を調整する調整部b431に加え、混合音響データ121の音量を調整する調整部b432を含むことにより、音源分離装置1では、分離された音響データ124だけでなく、混合音響データ121も出力するとともに、各音量を調整することが可能である。これにより、ユーザは、混合音響データ121と音響データ124とを比較して聞くことが可能となる。
図7では、表示部b421乃至b423及び調整部b424により、ユーザは、全体の混合音響データ121のうち、どの部分が実際に出力されているのかを把握することが可能である。また、調整部b424は、表示部b422で表示される時間の進行に合わせて右方向に移動する。そして、ユーザは、入力部13を介してこの調整部b424を左右方向にスライドさせることで、出力する音響データ124の進行度合いを調整することができる。これにより、ユーザは、調整部b424を聞きたい箇所に合わせ、出力する音響データ124を調整することができる。したがって、例えば、ユーザは、繰り返し聞きたい箇所を再度聞くことも可能であり、音響データ124の「耳コピ」が容易になる。
また、特定の区間を指定し、その区間を繰り返し再生する機能を備えていてもよい。これにより、ユーザが聞きたい箇所を、繰り返し聞くことが可能となる。また、混合音響データ121から、特定の音源の種別の音響データ124を除いて出力する機能を備えてもよい。これにより、ユーザが、自身の演奏を混合音響データ121に合わせることが可能となる。
なお、図6に示すような音源選択画面W3では、音源分離装置1が分離可能な全ての音源が選択肢として提示される。したがって、音源選択画面W3には、図5の楽曲選択画面W2で選択された混合音響データ121に含まれていない音響データの音源も含む可能性がある。例えば、仮に、楽曲選択画面W2で選択された混合音響データ121にボーカルの音響データが含まれていない場合であっても、音源選択画面W3には、ボーカルを選択肢として含む。この場合、ステップS12でボーカルが選択された場合、ステップS14では、音がない状態の無音の第1の画像データ123が生成され、ステップS16では、無音の音響データ124が出力される。
例えば、調整部b451が操作されることにより、音響データ124の出力速度は、混合音響データ121の元々の速度と比較して、0.5倍の速度で出力される。また、調整部b452が操作されることにより、音響データ124の出力速度は、混合音響データ121の元々の速度と比較して、0.8倍の速度で出力される。さらに、調整部b451が操作されることにより、音響データ124の出力速度は、混合音響データ121の元々の速度と同一の速度で出力される。これにより、ユーザは、オリジナルの速度よりも遅い速度で音響データ124を聞くことが可能となる。したがって、ユーザにとって、音響データ124の「耳コピ」が容易になる。なお、図7では、0.5倍、0.8倍、同一の速度からユーザが選択するようにしているが、このような方法に限定されない。
上述したように、実施形態に係る音源分離プログラム、音源分離装置、音源分離方法によれば、音響データの特徴を表す画像データ及び混合音響データの特徴を表す画像データを用いることで、混合音響データから、特定の種別の音響データに分離することができる。
〈モデル生成装置〉
モデル生成装置2は、複数種の音源で発生した複数の音響データが合成された混合音響データの特徴を表す画像データと、特定の種別の音源で発生した音響データの特徴を表す画像データとを用いて、混合音響データから特定の種別の音源で発生した音響データを分離する学習済みモデルを生成するものである。このモデル生成装置2は、制御部21と、記憶部22と、入力部23と、出力部24と、通信部25とを備える。例えば、このモデル生成装置2は、パーソナルコンピュータ等の情報処理端末であり、記憶部22で記憶される生成プログラムP2を読み出して実行することにより、制御部21が、取得部211、前処理部212及び学習部213としての処理を実行し、学習済みモデルを生成することができる。
例えば、制御部21は、CPU、MPU、GPU、FPGA、DSP、ASIC等のプロセッサにより実現することができる。記憶部12は、種々の情報を記録する記録媒体である。記憶部22は、例えば、DRAM、SRAM、フラッシュメモリ、MRAM、ReRAM、FeRAM、SSD(Solid State Device)、ハードディスク、その他の記憶デバイス又はそれらを適宜組み合わせて実現される。
入力部23は、データや操作の入力に利用する入力手段である。モデル生成装置2がパーソナルコンピュータである場合、例えば、入力部13には、操作ボタン、キーボード、タッチパネル、マイクロフォン等が含まれる。出力部24は、データや処理結果が出力される出力手段である。モデル生成装置2がパーソナルコンピュータである場合、例えば、出力部14には、ディスプレイ、スピーカ等が含まれる。通信部25は、インターネット等の通信ネットワークを介したデータの送受信に利用される通信インタフェースである。また、通信部25が利用可能な通信規格については限定されない。例えば、モデル生成装置2は、生成した学習済みモデルMを、通信部25を介して音源分離装置1に提供してもよい。
取得部211は、複数の異なる音源で過去に発生した学習用の音響データ221と、当該複数種の音響データ221が合成された学習用の混合音響データ222とを取得する。また、取得部211は、取得した音響データ221及び混合音響データ222を記憶部22に記憶させる。取得部211のデータ221,222の取得方法としては、入力部23であるマイクを介して取得する方法。通信部25を介して外部の装置から取得する方法、接続自在な記憶媒体を介して取得する方法等、様々な方法がある。
また、取得部211は、複数種の音響データ221のみを取得し、モデル生成装置2内で、複数種の音響データ221を合成して混合音響データ222を生成してもよい。なお、取得部211は、音響データ221の取得の際、各音響データ221の音源の種別もともに取得し、音響データ221に関連付けて記憶部22に記憶させる。
音響データ221及び混合音響データ222は、短時間(例えば、数分等)の音響データではなく、後述する機械学習において学習用データとして利用できる程度の長時間(例えば、数百時間等)の音響データであることが好ましい。すなわち、音響データ221及び混合音響データ222の時間が短いと、生成される学習済みモデルMにおいて、十分な音源分離の精度が得られないためである。またこのとき、音響データ221は、連続する長時間のデータである必要はなく、複数の混合音響データ222を合成して必要な程度の時間のデータを形成することが可能であればよい。
また、学習用データとして利用する複数の音響データ221は、異なる音源で生成されたものであればよい。また、混合音響データ222は、これら複数の音響データ221を合成したものであればよい。例えば、4種の異なる音源から発生した複数の音響データ221は、それぞれ、別の曲が演奏された異なる4曲であってもよい。後述するように、連続ウェーブレット変換を利用することで、このように、全く関連性のない音を合成した場合であっても、学習用データとすることが可能になる。
前処理部212は、取得部211が取得した各音響データ221及び混合音響データ222を用いて、学習用画像データ223を生成する。また、前処理部212は、得られた学習用画像データ223を記憶部22に記憶させる。
具体的には、前処理部212は、複数の音響データ221のそれぞれについて、音響データ221の特徴を表す第1の画像データである第1のスペクトログラムを生成する。また、前処理部212は、混合音響データ222の特徴を表す第2の画像データである第2のスペクトログラムを生成する。そして、前処理部212は、学習用の音響データ221から得られた第1の画像データと、学習用の混合音響データ222から得られた第2の画像データとを合わせて、学習用画像データ223とする。前処理部212は、各音響データ221及び混合音響データ222からスペクトログラムへの変換方法として、上述した音源分離装置1と同様に、連続ウェーブレット変換を利用する。各音響データ221及び混合音響データ222を画像データとして扱うことで、音について、容易に機械学習の対象とすることが可能となる。
このとき、前処理部212が連続ウェーブレット変換を用いることにより、窓の大きさを音源の周波数の波形に合わせて調整することができる。例えば、短時間フーリエ変換を利用する場合、図9A及び図9Bに示すように、窓wの大きさは固定であるため、波形に合わせて窓の大きさを調整することができない。したがって、周波数の特徴がうまく反映されない可能性がある。これに対し、連続ウェーブレット変換を利用する場合、図9Cに示すように、波形に合わせて窓w1,w2の大きさを調整し、画像に変換することができる。例えば、窓w1に含まれる波形は、窓w2に含まれる波形よりも長い時間の音響データを用いて画像に変換される。したがって、音楽のように時系列が重要なデータであっても、その時系列を保ちつつ、波形を自由に変更して画像に変換することができる。
図10は、学習用データの生成を説明する模式図である。図10では、各種別の学習用の音響データ221について、ドラムの音響データを221aとし、ギターの音響データを221bとし、ボーカルの音響データを221cとし、ピアノの音響データを221dとする。
前処理部212は、図10に示すように、各種別の音響データ221a〜221dについて、波形に合わせて窓を設定する。例えば、前処理部212は、ドラムの音響データ221aにw11〜w15の窓を設定し、ギターの音響データ221bにw21〜w25の窓を設定し、ボーカルの音響データ221cにw31〜w35の窓を設定し、ピアノの音響データ221dにw41〜w45の窓を設定する。
また、前処理部212は、各音響データ221a〜221dから設定した窓w11〜w44毎にデータを抽出し、抽出したデータから第1の画像データであるスペクトログラムを生成する。図10の例では、ドラムの音響データ221aからは、各窓w11〜w15に対応する複数のスペクトログラムが生成される。ここで、設定された窓毎に、スペクトログラムの生成の対象となる音響データの長さは異なる。ただし、前処理部212は、抽出された音響データの長さが異なる場合であっても、生成される複数の第1の画像データのx軸の長さは同一となるように調整し、第1の画像データを生成する。図10の例では、前処理部212は、ドラムの音響データ221a及びギターの音響データ221bからそれぞれ5つの第1の画像データを生成し、ボーカルの音響データ221c及びピアノの音響データ221dからそれぞれ4つの第1の画像データを生成する。また、各第1の画像データのもととなる音響データの長さは異なる。ところが、前処理部212する全ての第1の画像データは、処理の容易化のため、同一の画素数となるように調整されている。
また、前処理部212は、各種別の音響データ221に設定した窓w11〜w44を利用し、学習用の混合音響データ222からもそれぞれ第2の画像データであるスペクトログラム生成用のデータを抽出する。そして、前処理部212は、各第1の画像データと対応する複数の第2の画像データを生成する。
例えば、前処理部212は、混合音響データ222から、ドラムの音響データ221aで設定された窓w11〜w15毎のデータを抽出する。また、前処理部212は、音響データ221aから抽出されたデータを用いて、複数の第2の画像データを生成する。そして、前処理部212は、ドラムについて、同一の窓に対して生成した第1の画像データと第2の画像データとを学習用データのペアとする。前処理部212は、他の種別の音響データ221b〜221cと混合音響データ222についても同様の処理を実行して複数のペア画像を生成し、学習用画像データ223とする。
また、前処理部212は、前処理として、学習データに含まれる複数の第1の画像データと、第2の画像データに対し、予め設定された範囲の周波数を除去することができる。言い換えると、前処理部212は、各画像データから、必要な周波数領域を選択し、選択した領域内の画像データを学習用画像データ223とする。図2Aに示す第1の画像データ及び図2Bに示す第2の画像データでは、例えば、周波数y1より低い部分及びy2より高い部分には音の情報が含まれていない。すなわち、音を表す情報は、周波数y1〜y2内に含まれる。したがって、前処理部212は、周波数y1〜y2内の画像データ、具体的には、破線で囲まれた領域の画像データを学習用データとする。前処理により、不要な領域を除き、必要な領域の画像データのみを学習用データとすることで、学習処理の負担を軽減することができる。
学習部213は、機械学習における学習器である。具体的には、学習部213は、図11に示すように、前処理部212で生成された学習用画像データ223を用いて、各第1の画像データと、対応する第2の画像データとの関係を学習し、学習済みモデルMを生成する。このとき、各第2の画像データには、音源の種別が関連付けられる。そして、学習部213は、図11に示すように、音源の種別毎に、第1の画像データと、第2の画像データとの関係を学習し、学習済みモデルMを生成する。具体的には、ペアであるドラムの第1の画像データと、第2の画像データとのペアの学習用画像データ223との関係を学習する。また、他の音源についても、同様にペアである第1の画像データと第2の画像データとの関係を学習する。そして、これらの学習結果により、学習済モデルが生成される。したがって、学習部213により生成された学習済みモデルMは、図12に示すように、混合音響データを表す「第1の画像データ」と、ユーザが希望する「音源の種別」とを入力データとして受け付けると、希望の音源の音響データを表す「第2の画像データ」を生成することができる。なお、図11の概略図では省略されるが、ペアとなる画像は、各音源について複数組存在する。
ここで、学習部213は、学習済みモデルMの生成のアルゴリズムにDCGANを用いることができる。具体的には、学習部213は、入力及び出力となるペアの画像間の関係を学習し、入力画像から出力画像を生成する画像生成アルゴリズムとして、DCGANを用いる。
〈モデル生成方法〉
図12に示すフローチャートを用いて、モデル生成装置2を用いて実行されるモデル生成方法の処理の一例を説明する。処理が開始すると、取得部211は、教師用の複数の音源の音響データ221を取得する(S21)。
また、取得部211は、ステップS21で取得した複数の音源の音響データ221を合成し、混合音響データ222とする(S22)。なお、混合音響データ222を音響データ221とともに取得する場合、ステップS22は合成する処理ではなく、混合音響データ222を取得する処理となる。
前処理部212は、ステップS21で取得した各音響データ221及び混合音響データ222について、それぞれの特徴を表す画像データを生成する(S23)。
また、前処理部212は、ステップS23で得られた各画像データについて、不要な領域を除去してトリミングし、学習用画像データ223とする(S24)。
学習部213は、ステップS24で得られた学習用画像データ223を用いて学習し、学習済みモデルを生成する(S25)。
上述したように、実施形態に係る生成プログラム、モデル生成装置、モデル生成方法によれば、音響データの特徴を表す画像データ及び混合音響データの特徴を表す画像データを用いて、混合音響データから、特定の種別の音響データに分離する学習済みモデルを生成することができる。
[変形例1]
図14乃至16を用いて、変形例1に係る音源分離装置1Aについて説明する。上述した音源分離装置1では、特定の音源の音響データを出力するものであった、これに対し、変形例1に係る音源分離装置1Aは、選択された音源の音響データを出力する第1のモードと、選択された音源以外の音源を出力する第2のモードとを選択可能であり、選択されたモードの音響データを出力するものである。ここで、第1のモードとは、上述したように、「耳コピ」等の目的のため、聞きたい音源の音響データを生成し、出力するモードである。一方、第2のモードは、「アドリブ練習」等の目的のため、練習したい音源以外の音源の音響データを生成し、出力するモードである。ここで、「アドリブ練習」とは、例えば、ユーザがピアノを練習するとき、混合音響データから、ピアノの音響データのみを除いた新たな音響データを生成し、出力することで、自身のピアノの演奏を他の演奏者の演奏と合わせて練習することである。
そのため、図14に示すように、音源分離装置1Aは、図1を用いて上述した音源分離装置1と比較し、合成部116を備える点で異なる。例えば、変形例1に係る音源分離装置1Aでは、予め、図15に示すようなモード選択画面W5が表示される。このモード選択画面W5は、第1のモードを選択する選択部b51と、第2のモードを選択する選択部b52とを含む。例えば、音源分離装置1Aは、このモード選択画面W5を、図5を用いて上述した楽曲選択画面W2の前後、図6を用いて上述した音源選択画面W3の前後のタイミング等で表示し、ユーザにモードを選択させる。
また、音源分離装置1Aの生成部114は、第1変換部113で得られた第2の画像データ122から、選択された種別以外の特定の音源で発生した音響データの特徴を表す複数の第1の画像データ123を生成する。すなわち、受付部112で、ドラムが選択された場合、ドラム以外の複数の音源を特定の音源とし、これら複数の音源で発生した音響データの特徴を表す複数の第1の画像データ123を、生成する。
そして、合成部116は、第1変換部113で得られた複数の第1の画像データ123を合成する。また、第2変換部115は、合成部116で合成された画像データを音響データに変換し、出力する。例えば、第2変換部115は、音響データ124を、図16に示すような出力画面W6と共に出力することができる。なお、ここでは、各音源の第1の画像データを合成して、出力する音響データの画像データを生成する例で説明したが、第1の画像データから変換された各音源の音響データ自体を合成して、出力する音響データを生成する方法であってもよい。
このようにすることで、ユーザは、第1のモードによって「耳コピ」をするだけでなく、「耳コピ」による自身の練習の成果を、第2のモードによって他の演奏に合わせることも可能となる。
[変形例2]
図17に、変形例2に係る音源分離装置1Bを示す。上述した例では、音源分離装置1は、モデル生成装置2等の外部の学習器で学習された学習済みモデルMを利用していた。これに対し、音源分離装置1Aは、音源分離だけでなく、学習済みモデルMの生成も自装置内で実行する。したがって、図17に示す音源分離装置1Bは、図1を用いて上述した音源分離装置1と比較し、制御部11は、第2取得部211、前処理部212及び学習部213を備え、記憶部12は、学習用音響データ221、学習用混合音響データ222、学習用画像データ223、生成プログラムP2を記憶する点で異なる。したがって、音源分離装置1Bでは、自装置内において生成プログラムP2によって生成された学習済みモデルMを用いて、音源分離プログラムP1によって音源分離を実現することができる。なお、図17に示す各部及び各データの構成は、図1及び図8等を用いて上述した構成と同一であるため、ここでは説明を省略する。変形例に係る音源分離装置1Aによっても、上述した音源分離装置1と同様に、音響データの特徴を表す画像データ及び混合音響データの特徴を表す画像データを用いることで、混合音響データから、特定の種別の音響データに分離することができる。
なお、上述した音源分離装置1,1Aでは、混合音響データ121から分離された音響データ124を音に変換して出力するのみであったが、譜面に変換する変換部をさらに備える場合、譜面に変換するようにしてもよい。
また、上述の例では、音源として、主に楽器を用いて説明したが、これに限定されない。例えば、複数の異なる人が発現する音響データを対象とした場合、複数人で行われた会議の録音データである混合音響データから、各参加者の発言の音響データをそれぞれ分離し、議事録を作成することも可能である。
〈効果及び補足〉
以上のように、本出願において開示する技術の例示として、上記実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。
本開示の全請求項に記載の音源分離プログラム、音源分離装置、音源分離方法及び生成プログラムは、ハードウェア資源、例えば、プロセッサ、メモリ、及びプログラムとの協働などによって、実現される。
本開示の音源分離プログラム、音源分離装置、音源分離方法及び生成プログラムは、例えば、複数種の音源で発生した音響データが合成された混合音響データから、特定の種別の音響データを分離する際に有用である。
1,1A 音源分離装置
2 モデル生成装置
11,21 制御部
12,22 記憶部
13 入力部
14 出力部
15 通信部
111 取得部(第1取得部)
112 受付部
113 第1変換部
114 生成部
115 第2変換部
211 第2取得部
212 前処理部
213 学習部
121 混合音響データ
122 第2の画像データ
123 第1の画像データ
124 音響データ
221 音響データ(学習用音響データ)
222 混合音響データ(学習用混合音響データ)
223 学習用画像データ
M 学習済みモデル
P1 音源分離プログラム
P2 生成プログラム

Claims (11)

  1. 複数の異なる音源で発生した複数の音響データが合成された混合音響データから、特定の音源で発生した音響データを分離する音源分離プログラムであって、
    分離用の混合音響データを、当該混合音響データの特徴を表す画像データに変換する変換ステップと、
    複数の異なる音源で過去に発生した音響データの特徴をそれぞれ表す複数の第1の画像データと、複数の前記音響データが合成された混合音響データの特徴を表す第2の画像データとの関係を学習した学習済みモデルを用いて、前記変換ステップで得られた前記画像データから、前記特定の音源で発生した音響データの特徴を表す画像データを生成する生成ステップと、
    をコンピュータに実行させる音源分離プログラム。
  2. 前記生成ステップで生成された前記画像データを音響データに変換し、出力する出力ステップをさらに有する
    請求項1に記載の音源分離プログラム。
  3. 前記画像データは、スペクトログラムである
    請求項1又は2に記載の音源分離プログラム。
  4. 前記変換ステップでは、ウェーブレット変換を用いて前記混合音響データをスペクトログラムに変換する
    請求項3の音源分離プログラム。
  5. いずれの種別の音源を出力するかの選択を受け付ける受付ステップをさらに有し、
    前記生成ステップは、前記受付ステップで受け付けた音源で発生した音響データの特徴を表す画像データを生成する
    請求項1乃至4のいずれか1に記載の音源分離プログラム。
  6. いずれの種別の音源を除いて出力するかの選択を受け付ける受付ステップと、
    前記生成ステップで生成される複数の画像データを合成する合成する合成ステップと、をさらに有し
    前記生成ステップは、前記受付ステップで受け付けた音源以外で発生した音響データの特徴を表す画像データを生成し、
    前記出力ステップは、前記合成ステップで合成された前記画像データを音響データに変換して出力する
    請求項2に記載の音源分離プログラム。
  7. 複数の異なる音源で発生した複数の音響データが合成された混合音響データから、特定の音源で発生した音響データを分離する音源分離装置であって、
    分離用の混合音響データを取得する取得部と、
    前記取得部が取得した前記混合音響データを、当該混合音響データの特徴を表す画像データに変換する変換部と、
    複数の異なる音源で過去に発生した音響データの特徴をそれぞれ表す複数の第1の画像データと、複数の前記音響データが合成された混合音響データの特徴を表す第2の画像データとの関係を学習した学習済みモデルを用いて、前記変換部で得られた前記画像データから、前記特定の音源で発生した音響データの特徴を表す画像データを生成する生成部と、
    を備える音源分離装置。
  8. 複数の異なる音源で発生した複数の音響データが合成された混合音響データから、特定の音源で発生した音響データを分離する音源分離方法であって、
    分離用の混合音響データを、当該混合音響データの特徴を表す画像データに変換し、
    複数の異なる音源で過去に発生した音響データの特徴をそれぞれ表す複数の第1の画像データと、複数の前記音響データが合成された混合音響データの特徴を表す第2の画像データとの関係を学習した学習済みモデルを用いて、前記分離用の混合音響データから変換された前記画像データから、分離対象である音源で発生した音響データの特徴を表す画像データを生成する
    音源分離方法。
  9. 複数の異なる音源で発生した複数の音響データが合成された混合音響データの特徴を表す画像データから、特定の種別の音源で発生した音響データの特徴を表す画像データを生成する学習済みモデルを生成する生成プログラムであって、
    複数の異なる音源で過去に発生した複数の学習用の音響データを取得する取得ステップと、
    前記複数の学習用の音響データの特徴をそれぞれ表す複数の第1の画像データと、前記複数の学習用の音響データが合成された学習用の混合音響データの特徴を表す第2の画像データとの関係を学習し、新たに入力される分離用の混合音響データから、特定の種別の音源で発生した音響データの特徴を表す画像データを生成する学習済みモデルを生成する学習ステップと、
    をコンピュータに実行させる生成プログラム。
  10. 学習済みモデルの生成のアルゴリズムにDCGANを用いる
    請求項9に記載の生成プログラム。
  11. 前記画像データは、周波数成分を表すものであり、
    複数の前記第1の画像データと、前記第2の画像データに対し、予め設定された範囲の周波数を除去して、学習用の第1の画像データ及び第2の画像データを生成する前処理ステップをさらに有する
    請求項9又は10に記載の生成プログラム。
JP2020022729A 2020-02-13 2020-02-13 音源分離プログラム、音源分離装置、音源分離方法及び生成プログラム Pending JP2021128252A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020022729A JP2021128252A (ja) 2020-02-13 2020-02-13 音源分離プログラム、音源分離装置、音源分離方法及び生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020022729A JP2021128252A (ja) 2020-02-13 2020-02-13 音源分離プログラム、音源分離装置、音源分離方法及び生成プログラム

Publications (1)

Publication Number Publication Date
JP2021128252A true JP2021128252A (ja) 2021-09-02

Family

ID=77488501

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020022729A Pending JP2021128252A (ja) 2020-02-13 2020-02-13 音源分離プログラム、音源分離装置、音源分離方法及び生成プログラム

Country Status (1)

Country Link
JP (1) JP2021128252A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024048492A1 (ja) * 2022-08-30 2024-03-07 ヤマハ株式会社 楽器識別方法、楽器識別装置、および、楽器識別プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024048492A1 (ja) * 2022-08-30 2024-03-07 ヤマハ株式会社 楽器識別方法、楽器識別装置、および、楽器識別プログラム

Similar Documents

Publication Publication Date Title
KR20120126446A (ko) 입력된 오디오 신호로부터 진동 피드백을 생성하기 위한 장치
JP4207902B2 (ja) 音声合成装置およびプログラム
CN111418005B (zh) 声音合成方法、声音合成装置及存储介质
CN111418006B (zh) 声音合成方法、声音合成装置及记录介质
WO2018038235A1 (ja) 聴覚トレーニング装置、聴覚トレーニング方法、およびプログラム
WO2016027366A1 (ja) 振動信号生成装置及び振動信号生成方法
US11842720B2 (en) Audio processing method and audio processing system
JP2021128252A (ja) 音源分離プログラム、音源分離装置、音源分離方法及び生成プログラム
CN115699160A (zh) 电子设备、方法和计算机程序
WO2022163137A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP6300328B2 (ja) 環境音生成装置及びそれを用いた環境音生成システム、環境音生成プログラム、音環境形成方法及び記録媒体
JP6409417B2 (ja) 音響処理装置
JP5092311B2 (ja) 音声評価装置
JP6337698B2 (ja) 音響処理装置
JP6582517B2 (ja) 制御装置およびプログラム
WO2021210338A1 (ja) 再生制御方法、制御システムおよびプログラム
JP2022049333A (ja) 再生制御方法、制御システムおよびプログラム
JP4168391B2 (ja) カラオケ装置、音声処理方法及びプログラム
KR20110045456A (ko) 사용자 입력에 따른 반주 기능을 갖는 음원 재생 장치 및 그 방법
Norderval Electrifying Opera: Amplifying agency for opera singers improvising with interactive audio technology
JP6832253B2 (ja) 人工喉頭装置
CN115910009A (zh) 电子设备、方法和计算机程序
JP6578725B2 (ja) 制御用端末装置、合成歌唱生成装置
CN116805480A (zh) 音响设备及该音响设备的参数输出方法
KR101321446B1 (ko) 음성 인식을 이용한 가사 표시 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230831

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230912

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240305