JP2021128252A

JP2021128252A - 音源分離プログラム、音源分離装置、音源分離方法及び生成プログラム

Info

Publication number: JP2021128252A
Application number: JP2020022729A
Authority: JP
Inventors: 礼濱川; Rei Hamakawa; 文菜久野; Fumina Kuno
Original assignee: Umemura Educational Institutions
Current assignee: Umemura Educational Institutions
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2021-09-02

Abstract

【課題】複数種の音源で発生した音響データが合成された混合音響データを分離する。【解決手段】複数の異なる音源で発生した複数の音響データが合成された混合音響データから、特定の音源で発生した音響データを分離する音源分離プログラムであって、分離用の混合音響データを、当該混合音響データの特徴を表す画像データに変換する変換ステップと、複数の異なる音源で過去に発生した音響データの特徴をそれぞれ表す複数の第１の画像データと、複数の音響データが合成された混合音響データの特徴を表す第２の画像データとの関係を学習した学習済みモデルを用いて、変換ステップで得られた画像データから、特定の音源で発生した音響データの特徴を表す画像データを生成する生成ステップと、をコンピュータに実行させる。【選択図】図１

Description

本開示は、複数種の音源で発生した音響データが合成された混合音響データから、特定の音源の音響データを分離する音源分離プログラム、音源分離装置、音源分離方法及び混合音響データを分離する学習済みモデルを生成する生成プログラムに関する。

複数の音源で発生した音響を含むデータから、特定の音源で発生した音響データを分離することが必要な場合がある。例えば、複数の楽器の演奏を含む音響データから、特定の楽器の演奏の音響データのみを分離する技術がある（例えば、特許文献１）。

音楽の分野では、演奏のための楽譜が存在しないものもある。このような場合、これを演奏したい者は、演奏される音を聞き取り、再現する『耳コピ』といわれる手法が利用されることがある。このような手法では、複数の音源である楽器の演奏から、自身が真似したい楽器の音のみを分離する必要がある。ところが、複数の音源の中から特定の音源のみを分離して聞き取ることは困難である。

特許文献１には、楽曲中の特定の打楽器のスペクトログラム形状を推定し、その楽器音を分離する技術が記載される。この特許文献１に記載の技術では、スペクトログラムの相関値を音源の分離に利用する。ところが、音源には様々な種別があり、また、音響データには、複数の音源が含まれる場合もあるため、特許文献１に記載されるようなスペクトログラムの相関値を利用するのみでは特定の音源の音響データを分離することは困難である。

特開２０１５−１２５２３８号公報

本開示は、複数種の音源で発生した音響データが合成された混合音響データから、特定の音源の音響データを分離する音源分離プログラム、音源分離装置、音源分離方法及び混合音響データを分離するモデルを生成する生成プログラムを提供する。

本開示の音源分離プログラムは、複数の異なる音源で発生した複数の音響データが合成された混合音響データから、特定の音源で発生した音響データを分離する音源分離プログラムであって、分離用の混合音響データを、当該混合音響データの特徴を表す画像データに変換する変換ステップと、複数の異なる音源で過去に発生した音響データの特徴をそれぞれ表す複数の第１の画像データと、複数の音響データが合成された混合音響データの特徴を表す第２の画像データとの関係を学習した学習済みモデルを用いて、変換ステップで得られた画像データから、特定の音源で発生した音響データの特徴を表す画像データを生成する生成ステップと、をコンピュータに実行させる。

本開示の生成プログラムは、複数の異なる音源で発生した複数の音響データが合成された混合音響データの特徴を表す画像データから、特定の種別の音源で発生した音響データの特徴を表す画像データを生成する学習済みモデルを生成する生成プログラムであって、複数の異なる音源で過去に発生した音響データの特徴をそれぞれ表す複数の第１の画像データと、複数の当該音響データが合成された混合音響データの特徴を表す第２の画像データとを取得する取得ステップと、複数の第１の画像データと、第２の画像データとの関係を学習し、新たに入力される分離用の混合音響データの特徴を表す画像データから、特定の種別の音源で発生した音響データの特徴を表す画像データを生成する学習済みモデルを生成する学習ステップと、をコンピュータに実行させる。

これらの概括的かつ特定の態様は、システム、方法、及びコンピュータプログラム、並びに、それらの組み合わせにより、実現されてもよい。

本開示の音源分離プログラム、音源分離装置及び音源分離方法によれば、複数種の音源で発生した音響データが合成された混合音響データから、特定の音源の音響データを分離することが可能となり、生成プログラムによれば、混合音響データを分離する学習済みモデルを生成することができる。

実施の形態１に係る音源分離装置の構成を示すブロック図である。音源分離装置において利用される第２のスペクトログラムの一例である。音源分離装置において利用される第１のスペクトログラムの一例である。実施の形態１に係る音源分離方法の処理を説明するフローチャートである。音源分離装置で表示される初期画面の一例である。音源分離装置で表示される楽曲選択画面の一例である。音源分離装置で表示される音源選択画面の一例である。音源分離装置で表示される結果出力画面の一例である。実施の形態２に係るモデル生成装置の構成を示すブロック図である。短時間フーリエ変換を説明する周波数の波形の一例である。短時間フーリエ変換を説明する周波数の波形の他の例である。連続ウェーブレット変換を説明する周波数の波形の一例である。学習用データを説明する概略図である。学習済みモデルの生成を説明する概略図である。学習済みモデルの利用を説明する概略図である。実施の形態２に係るモデル生成方法の処理を説明するフローチャートである。変形例１に係る音源分離装置の構成を示すブロック図である。変形例１に係る音源分離装置で表示されるモード選択画面の一例である。変形例１に係る音源分離装置で表示される結果出力画面の一例である。変形例２に係る音源分離装置の構成を示すブロック図である。

［実施形態］
以下に、図面を参照して実施形態に係る音源分離プログラム、音源分離装置、音源分離方法、生成プログラム、モデル生成装置及びモデル生成方法について説明する。以下の説明では、同一の構成について、同一の符号を付して説明を省略する。

以下の説明では、「音源」は、音を出すもととなるものをいう。「音源」は、例えば、楽器や人間である。

「音響データ」は、音源により発生した音を再生可能な形式に変換したデータである。「音響データ」は、例えば、音源が楽器である場合、楽器から発生した音に関するデータであり、音源が人間である場合、人が発した声に関するデータである。「音響データ」の形式は、限定せず、また、圧縮形式であっても非圧縮形式であっても、後述する処理を実現可能であればよい。

「混合音響データ」は、複数の音源の音響データを合成した音を再生可能な形式に変換したデータである。「混合音響データ」は、例えば、複数の楽器で演奏された音を組み合わせた音楽に関するデータである。また、「混合音響データ」は、例えば、楽器で演奏された音に加え、人間の肉声を組み合わせた音楽に関するデータであってもよい。また、「混合音響データ」の形式も限定しない。

「スペクトログラム」は、音声データ、または、混合音声データについて周波数スペクトルを表した画像データである。音声データのスペクトログラムを「第１のスペクトログラム」とし、混合音声データのスペクトログラムを「第２のスペクトログラム」とする。具体的には後述するが、「スペクトログラム」では、横軸（ｘ軸）に「時間」を表し、縦軸（ｙ軸）に「周波数」を表す。ｘｙ平面と直交するｚ軸に「周波数成分の強さ」を表す。

〈音源分離装置〉
音源分離装置１は、複数種の音源で発生した複数の音響データが合成された混合音響データから、特定の種別の音源で発生した音響データを分離するものである。制御部１１と、記憶部１２と、入力部１３と、出力部１４と、通信部１５とを備える。例えば、この音源分離装置１は、スマートフォン等の情報処理端末であり、記憶部１２で記憶される音源分離プログラムＰ１を読み出して実行することにより、制御部１１が取得部１１１、受付部１１２、第１変換部１１３、生成部１１４及び第２変換部１１５としての処理を実行し、音源分離を実現することができる。

例えば、制御部１１は、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＦＰＧＡ、ＤＳＰ、ＡＳＩＣ等のプロセッサにより実現することができる。記憶部１２は、種々の情報を記録する記録媒体である。記憶部１２は、例えば、ＤＲＡＭ、ＳＲＡＭ、フラッシュメモリ、ＭＲＡＭ、ＲｅＲＡＭ、ＦｅＲＡＭ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｅｖｉｃｅ）、ハードディスク、その他の記憶デバイス又はそれらを適宜組み合わせて実現される。

入力部１３は、データや操作の入力に利用する入力手段である。音源分離装置１がスマートフォンである場合、例えば、入力部１３には、操作ボタン、タッチパネル、マイクロフォン等が含まれる。出力部１４は、データや処理結果が出力される出力手段である。音源分離装置１がスマートフォンである場合、例えば、出力部１４には、ディスプレイ、スピーカ等が含まれる。通信部１５は、インターネット等の通信ネットワークを介したデータの送受信に利用される通信インタフェースである。また、通信部１５が利用可能な通信規格については限定されない。

取得部１１１は、複数の音源で発生した複数の音響データが合成された混合音響データ１２１を取得する。取得部１１１が取得する混合音響データ１２１は、例えば、多重奏の音響データであって、分離用のデータである。また、取得部１１１は、取得した混合音響データ１２１を記憶部１２に記憶させる。取得部１１１による混合音響データ１２１の取得方法は、限定されない。例えば、入力部１３であるマイクロフォンを介して実際に空間で発生した音を混合音響データ１２１として録音する方法でもよい。また例えば、通信部１５を介して、他の装置で録音された混合音響データ１２１を受信する方法でもよい。分離用の混合音響データ１２１は、例えば、１曲分等の、長さであることは必須ではないが、ある程度の長さ（例えば、曲の１小節分）である必要がある。

受付部１１２は、いずれの種別の音源の音響データの出力がリクエストされるかの選択を受け付ける。具体的には、受付部１１２は、入力部１３を介して選択する音源の種別を受け付けると、当該種別を生成部１１４に出力する。

第１変換部１１３は、分離用の混合音響データ１２１を、この混合音響データの特徴を表す画像データに変換する。例えば、第１変換部１１３は、連続ウェーブレット変換を用いて、混合音響データ１２１を第２の画像データ１２２であるスペクトログラムに変換する。第２の画像データ１２２であるスペクトログラムは、混合音響データ１２１を、時間、周波数及び周波数成分の強さで表すものである。

具体的には、第２の画像データ１２２であるスペクトログラムは、図２Ａに示すように表されるが、ｘ軸が「時間」、ｙ軸が「周波数」、ｘ軸とｙ軸に直交するｚ軸（図示せず）が「周波数成分の強さ」である。周波数成分の強さは、スペクトログラムにおいては、色によって表され、具体的には図２Ａで白いほど、周波数成分が強いことを意味する。したがって、第２の画像データ１２２は、混合音響データ１２１が含む各音源の周波数の特徴を表すものである。そのため、第２の画像データ１２２は、複数種の音源の情報を含む。例えば、図２Ａは、ピアノ、ドラム、ベース及びギターを音源とする混合音響データを変換したスペクトログラムの一例である。また、第１変換部１１３は、変換により得られた第２の画像データ１２２を、記憶部１２に記憶させる。

生成部１１４は、記憶部１２に記憶される学習済みモデルＭを用いて、第１変換部１１３で得られた第２の画像データ１２２から、特定の種別の音源で発生した音響データの特徴を表す第１の画像データ１２３を生成する。この学習済みモデルＭは、複数の音源の音響データが合成された分離用の混合音響データ１２１の特徴を表す第２の画像データ１２２を入力データとし、特定の音源で発生した分離後の音響データの特徴を表す第１の画像データ１２３を出力データとするものである。このとき、生成部１１４は、受付部１１２で受け付けた種別の音源で発生した音響データの特徴を表す第１の画像データ１２３であるスペクトログラムを生成する。また、生成部１１４は、生成した第１の画像データ１２３を記憶部１２に記憶させる。

第１の画像データ１２３であるスペクトログラムは、図２Ｂに示すように表され、ｘ軸が「時間」、ｙ軸が「周波数」、ｘ軸とｙ軸に直交するｚ軸（図示せず）が「周波数成分の強さ」である。したがって、第１の画像データ１２３は、選択された音源の周波数の特徴を表すものである。図２Ｂは、ベースを音源とする音響データを変換したスペクトログラムの一例である。具体的には、図２Ｂは、図２Ａが含むピアノ、ドラム、ベース及びギターの情報のうち、ベースの情報のみを表すものである。したがって、図２Ｂのスペクトログラムは、図２Ａのスペクトログラムと比較すると、白い部分が少なくなっている。

例えば、生成部１１４が利用する学習済みモデルＭは、外部の学習器で学習されたものである。具体的には、学習済みモデルＭは、複数の異なる音源で過去に発生した音響データの特徴をそれぞれ表す複数の第１の画像データと、複数の音響データが合成された混合音響データの特徴を表す第２の画像データとの関係を学習したものである。この学習済みモデルＭは、音源分離プログラムＰ１に含まれてもよい。また、学習済みモデルＭは、記憶部１２に記憶されずに外部の記憶媒体に記憶されており、生成部１１４は、通信部１５を介して外部の記憶媒体で記憶される学習済みモデルを利用してもよい。なお、学習済みモデルＭの学習については、図８乃至図１２を用いて後述する。

第２変換部１１５は、生成部１１４で生成された特定の種別の音響データの特徴を表す第１の画像データ１２３を分離後の音響データ１２４に変換する。例えば、また、第２変換部１１５は、出力部１４を介して、変換した分離後の音響データ１２４を出力する。具体的には、第１変換部１１３で連続ウェーブレット変換を利用した場合、第２変換部１１５は、逆連続ウェーブレット変換を用いて第１の画像データ１２３であるスペクとロゴラムを音響データ１２４に変換する。

〈音源分離方法〉
図３に示すフローチャート及び図４乃至７に示す画面例を用いて、音源分離装置１を用いて実行される音源分離方法の処理の一例を説明する。ここでは、音源分離装置１は、音源分離用のアプリケーションである音源分離プログラムＰ１がインストールされたスマートフォンである例で説明する。この場合、音源分離装置１において、音源分離プログラムＰ１が起動され、実行されることで、図３に示す処理が実行されるものとする。音源分離装置１において、音源分離プログラムＰ１が起動された際には、図４に示すような初期画面Ｗ１が出力部１４であるディスプレイに表示され、図３に示す処理が開始する。

音源分離の処理が開始すると、取得部１１１は、混合音響データを取得する（Ｓ１１）。例えば、予め音源分離装置１の記憶部１２に記憶される混合音響データから選択する場合、複数の混合音響データのリストが表示され、リストに含まれる混合音響データから、出力部１４に、図５に示すようないずれかを選択する楽曲選択画面Ｗ２が表示され、ユーザにより、入力部１３を介して選択ボタンｂ２１が操作されることにより、選択された混合音響データ１２１が取得される。図５の例では、混合音響データ１２１は、記憶部１２に予め記憶されているため、ステップＳ１１では、混合音響データ１２１の識別情報を取得すれば良い。なお、図５の楽曲選択画面Ｗ２が含む表示部ｂ２２では、選択される楽曲である混合音響データ１２１に予め関連付けられるイメージデータを表示するようにしてもよい。

また、受付部１１２は、分離対象とする音源の種別の選択を受け付ける（Ｓ１２）。例えば、図６に示すような音源選択画面Ｗ３が出力部１４に表示され、入力部１３を介して選択された音源の種別を受け付ける。図６に示す音源選択画面Ｗ３では、ドラムの音源の分離を選択する選択部ｂ３１と、バイオリンの音源の分離を選択する選択部ｂ３２と、ボーカルの音源の分離を選択する選択部ｂ３３と、ピアノの音源の分離を選択する選択部ｂ３４とを含む。例えば、入力部２３により選択部ｂ３１が操作されることにより、音源の種別として「ドラム」が選択される。

第１変換部１１３は、ステップＳ１１で取得した混合音響データを、混合音響データの特徴を表す第２の画像データ１２２に変換する（Ｓ１３）。

生成部１１４は、記憶部１２に記憶される学習済みモデルＭを用いて、ステップＳ１３の変換で得られた第２の画像データ１２２から、ステップＳ１２で選択された種別の音源の第１の画像データ１２３を生成する（Ｓ１４）。

第２変換部１１５は、ステップＳで生成された第１の画像データ１２３を、音響データ１２４に変換する（Ｓ１５）。また、第２変換部１１５は、得られた音響データ１２４を、出力部１４であるスピーカに出力する（Ｓ１６）。第２変換部１１５は、音響データ１２４をスピーカに出力するとともに、図７に示すような結果出力画面Ｗ４をディスプレイに出力してもよい。

図７に示す一例の結果出力画面Ｗ４は、ステップＳ１２で選択された音源の種別を表すイメージ図ｂ４１１、変換された音響データ１２４の振幅を表す波形を表示する表示部ｂ４１２、ステップＳ１１で取得された混合音響データ１２１の全体の時間を表示する表示部ｂ４２１、ステップＳ１６で現在出力中の音響データ１２４の開始から現時点までの時間を表示する表示部４２２、表示部ｂ４２１及びｂ４２２に表示される時間の関係を表すスケールを表示する表示部ｂ４２３、出力する音響データ１２４を調整する調整部ｂ４２４、分離された音響データ１２４を出力する音量を調整する調整部ｂ４３１、混合音響データ１２１を出力する音量を調整する調整部ｂ４３２、音響データ１２４の出力の一時停止及び開始を操作する操作ボタンｂ４４、音響データ１２４の出力の速度を調整する調整部ｂ４５１，ｂ４５２，ｂ４５３、混合音響データのイメージデータを表示する表示部ｂ４６を含む。

図７では、音響データ１２４の音量を調整する調整部ｂ４３１に加え、混合音響データ１２１の音量を調整する調整部ｂ４３２を含むことにより、音源分離装置１では、分離された音響データ１２４だけでなく、混合音響データ１２１も出力するとともに、各音量を調整することが可能である。これにより、ユーザは、混合音響データ１２１と音響データ１２４とを比較して聞くことが可能となる。

図７では、表示部ｂ４２１乃至ｂ４２３及び調整部ｂ４２４により、ユーザは、全体の混合音響データ１２１のうち、どの部分が実際に出力されているのかを把握することが可能である。また、調整部ｂ４２４は、表示部ｂ４２２で表示される時間の進行に合わせて右方向に移動する。そして、ユーザは、入力部１３を介してこの調整部ｂ４２４を左右方向にスライドさせることで、出力する音響データ１２４の進行度合いを調整することができる。これにより、ユーザは、調整部ｂ４２４を聞きたい箇所に合わせ、出力する音響データ１２４を調整することができる。したがって、例えば、ユーザは、繰り返し聞きたい箇所を再度聞くことも可能であり、音響データ１２４の「耳コピ」が容易になる。

また、特定の区間を指定し、その区間を繰り返し再生する機能を備えていてもよい。これにより、ユーザが聞きたい箇所を、繰り返し聞くことが可能となる。また、混合音響データ１２１から、特定の音源の種別の音響データ１２４を除いて出力する機能を備えてもよい。これにより、ユーザが、自身の演奏を混合音響データ１２１に合わせることが可能となる。

なお、図６に示すような音源選択画面Ｗ３では、音源分離装置１が分離可能な全ての音源が選択肢として提示される。したがって、音源選択画面Ｗ３には、図５の楽曲選択画面Ｗ２で選択された混合音響データ１２１に含まれていない音響データの音源も含む可能性がある。例えば、仮に、楽曲選択画面Ｗ２で選択された混合音響データ１２１にボーカルの音響データが含まれていない場合であっても、音源選択画面Ｗ３には、ボーカルを選択肢として含む。この場合、ステップＳ１２でボーカルが選択された場合、ステップＳ１４では、音がない状態の無音の第１の画像データ１２３が生成され、ステップＳ１６では、無音の音響データ１２４が出力される。

例えば、調整部ｂ４５１が操作されることにより、音響データ１２４の出力速度は、混合音響データ１２１の元々の速度と比較して、０．５倍の速度で出力される。また、調整部ｂ４５２が操作されることにより、音響データ１２４の出力速度は、混合音響データ１２１の元々の速度と比較して、０．８倍の速度で出力される。さらに、調整部ｂ４５１が操作されることにより、音響データ１２４の出力速度は、混合音響データ１２１の元々の速度と同一の速度で出力される。これにより、ユーザは、オリジナルの速度よりも遅い速度で音響データ１２４を聞くことが可能となる。したがって、ユーザにとって、音響データ１２４の「耳コピ」が容易になる。なお、図７では、０．５倍、０．８倍、同一の速度からユーザが選択するようにしているが、このような方法に限定されない。

上述したように、実施形態に係る音源分離プログラム、音源分離装置、音源分離方法によれば、音響データの特徴を表す画像データ及び混合音響データの特徴を表す画像データを用いることで、混合音響データから、特定の種別の音響データに分離することができる。

〈モデル生成装置〉
モデル生成装置２は、複数種の音源で発生した複数の音響データが合成された混合音響データの特徴を表す画像データと、特定の種別の音源で発生した音響データの特徴を表す画像データとを用いて、混合音響データから特定の種別の音源で発生した音響データを分離する学習済みモデルを生成するものである。このモデル生成装置２は、制御部２１と、記憶部２２と、入力部２３と、出力部２４と、通信部２５とを備える。例えば、このモデル生成装置２は、パーソナルコンピュータ等の情報処理端末であり、記憶部２２で記憶される生成プログラムＰ２を読み出して実行することにより、制御部２１が、取得部２１１、前処理部２１２及び学習部２１３としての処理を実行し、学習済みモデルを生成することができる。

例えば、制御部２１は、ＣＰＵ、ＭＰＵ、ＧＰＵ、ＦＰＧＡ、ＤＳＰ、ＡＳＩＣ等のプロセッサにより実現することができる。記憶部１２は、種々の情報を記録する記録媒体である。記憶部２２は、例えば、ＤＲＡＭ、ＳＲＡＭ、フラッシュメモリ、ＭＲＡＭ、ＲｅＲＡＭ、ＦｅＲＡＭ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｅｖｉｃｅ）、ハードディスク、その他の記憶デバイス又はそれらを適宜組み合わせて実現される。

入力部２３は、データや操作の入力に利用する入力手段である。モデル生成装置２がパーソナルコンピュータである場合、例えば、入力部１３には、操作ボタン、キーボード、タッチパネル、マイクロフォン等が含まれる。出力部２４は、データや処理結果が出力される出力手段である。モデル生成装置２がパーソナルコンピュータである場合、例えば、出力部１４には、ディスプレイ、スピーカ等が含まれる。通信部２５は、インターネット等の通信ネットワークを介したデータの送受信に利用される通信インタフェースである。また、通信部２５が利用可能な通信規格については限定されない。例えば、モデル生成装置２は、生成した学習済みモデルＭを、通信部２５を介して音源分離装置１に提供してもよい。

取得部２１１は、複数の異なる音源で過去に発生した学習用の音響データ２２１と、当該複数種の音響データ２２１が合成された学習用の混合音響データ２２２とを取得する。また、取得部２１１は、取得した音響データ２２１及び混合音響データ２２２を記憶部２２に記憶させる。取得部２１１のデータ２２１，２２２の取得方法としては、入力部２３であるマイクを介して取得する方法。通信部２５を介して外部の装置から取得する方法、接続自在な記憶媒体を介して取得する方法等、様々な方法がある。

また、取得部２１１は、複数種の音響データ２２１のみを取得し、モデル生成装置２内で、複数種の音響データ２２１を合成して混合音響データ２２２を生成してもよい。なお、取得部２１１は、音響データ２２１の取得の際、各音響データ２２１の音源の種別もともに取得し、音響データ２２１に関連付けて記憶部２２に記憶させる。

音響データ２２１及び混合音響データ２２２は、短時間（例えば、数分等）の音響データではなく、後述する機械学習において学習用データとして利用できる程度の長時間（例えば、数百時間等）の音響データであることが好ましい。すなわち、音響データ２２１及び混合音響データ２２２の時間が短いと、生成される学習済みモデルＭにおいて、十分な音源分離の精度が得られないためである。またこのとき、音響データ２２１は、連続する長時間のデータである必要はなく、複数の混合音響データ２２２を合成して必要な程度の時間のデータを形成することが可能であればよい。

また、学習用データとして利用する複数の音響データ２２１は、異なる音源で生成されたものであればよい。また、混合音響データ２２２は、これら複数の音響データ２２１を合成したものであればよい。例えば、４種の異なる音源から発生した複数の音響データ２２１は、それぞれ、別の曲が演奏された異なる４曲であってもよい。後述するように、連続ウェーブレット変換を利用することで、このように、全く関連性のない音を合成した場合であっても、学習用データとすることが可能になる。

前処理部２１２は、取得部２１１が取得した各音響データ２２１及び混合音響データ２２２を用いて、学習用画像データ２２３を生成する。また、前処理部２１２は、得られた学習用画像データ２２３を記憶部２２に記憶させる。

具体的には、前処理部２１２は、複数の音響データ２２１のそれぞれについて、音響データ２２１の特徴を表す第１の画像データである第１のスペクトログラムを生成する。また、前処理部２１２は、混合音響データ２２２の特徴を表す第２の画像データである第２のスペクトログラムを生成する。そして、前処理部２１２は、学習用の音響データ２２１から得られた第１の画像データと、学習用の混合音響データ２２２から得られた第２の画像データとを合わせて、学習用画像データ２２３とする。前処理部２１２は、各音響データ２２１及び混合音響データ２２２からスペクトログラムへの変換方法として、上述した音源分離装置１と同様に、連続ウェーブレット変換を利用する。各音響データ２２１及び混合音響データ２２２を画像データとして扱うことで、音について、容易に機械学習の対象とすることが可能となる。

このとき、前処理部２１２が連続ウェーブレット変換を用いることにより、窓の大きさを音源の周波数の波形に合わせて調整することができる。例えば、短時間フーリエ変換を利用する場合、図９Ａ及び図９Ｂに示すように、窓ｗの大きさは固定であるため、波形に合わせて窓の大きさを調整することができない。したがって、周波数の特徴がうまく反映されない可能性がある。これに対し、連続ウェーブレット変換を利用する場合、図９Ｃに示すように、波形に合わせて窓ｗ１，ｗ２の大きさを調整し、画像に変換することができる。例えば、窓ｗ１に含まれる波形は、窓ｗ２に含まれる波形よりも長い時間の音響データを用いて画像に変換される。したがって、音楽のように時系列が重要なデータであっても、その時系列を保ちつつ、波形を自由に変更して画像に変換することができる。

図１０は、学習用データの生成を説明する模式図である。図１０では、各種別の学習用の音響データ２２１について、ドラムの音響データを２２１ａとし、ギターの音響データを２２１ｂとし、ボーカルの音響データを２２１ｃとし、ピアノの音響データを２２１ｄとする。

前処理部２１２は、図１０に示すように、各種別の音響データ２２１ａ〜２２１ｄについて、波形に合わせて窓を設定する。例えば、前処理部２１２は、ドラムの音響データ２２１ａにｗ１１〜ｗ１５の窓を設定し、ギターの音響データ２２１ｂにｗ２１〜ｗ２５の窓を設定し、ボーカルの音響データ２２１ｃにｗ３１〜ｗ３５の窓を設定し、ピアノの音響データ２２１ｄにｗ４１〜ｗ４５の窓を設定する。

また、前処理部２１２は、各音響データ２２１ａ〜２２１ｄから設定した窓ｗ１１〜ｗ４４毎にデータを抽出し、抽出したデータから第１の画像データであるスペクトログラムを生成する。図１０の例では、ドラムの音響データ２２１ａからは、各窓ｗ１１〜ｗ１５に対応する複数のスペクトログラムが生成される。ここで、設定された窓毎に、スペクトログラムの生成の対象となる音響データの長さは異なる。ただし、前処理部２１２は、抽出された音響データの長さが異なる場合であっても、生成される複数の第１の画像データのｘ軸の長さは同一となるように調整し、第１の画像データを生成する。図１０の例では、前処理部２１２は、ドラムの音響データ２２１ａ及びギターの音響データ２２１ｂからそれぞれ５つの第１の画像データを生成し、ボーカルの音響データ２２１ｃ及びピアノの音響データ２２１ｄからそれぞれ４つの第１の画像データを生成する。また、各第１の画像データのもととなる音響データの長さは異なる。ところが、前処理部２１２する全ての第１の画像データは、処理の容易化のため、同一の画素数となるように調整されている。

また、前処理部２１２は、各種別の音響データ２２１に設定した窓ｗ１１〜ｗ４４を利用し、学習用の混合音響データ２２２からもそれぞれ第２の画像データであるスペクトログラム生成用のデータを抽出する。そして、前処理部２１２は、各第１の画像データと対応する複数の第２の画像データを生成する。

例えば、前処理部２１２は、混合音響データ２２２から、ドラムの音響データ２２１ａで設定された窓ｗ１１〜ｗ１５毎のデータを抽出する。また、前処理部２１２は、音響データ２２１ａから抽出されたデータを用いて、複数の第２の画像データを生成する。そして、前処理部２１２は、ドラムについて、同一の窓に対して生成した第１の画像データと第２の画像データとを学習用データのペアとする。前処理部２１２は、他の種別の音響データ２２１ｂ〜２２１ｃと混合音響データ２２２についても同様の処理を実行して複数のペア画像を生成し、学習用画像データ２２３とする。

また、前処理部２１２は、前処理として、学習データに含まれる複数の第１の画像データと、第２の画像データに対し、予め設定された範囲の周波数を除去することができる。言い換えると、前処理部２１２は、各画像データから、必要な周波数領域を選択し、選択した領域内の画像データを学習用画像データ２２３とする。図２Ａに示す第１の画像データ及び図２Ｂに示す第２の画像データでは、例えば、周波数ｙ₁より低い部分及びｙ₂より高い部分には音の情報が含まれていない。すなわち、音を表す情報は、周波数ｙ₁〜ｙ₂内に含まれる。したがって、前処理部２１２は、周波数ｙ₁〜ｙ₂内の画像データ、具体的には、破線で囲まれた領域の画像データを学習用データとする。前処理により、不要な領域を除き、必要な領域の画像データのみを学習用データとすることで、学習処理の負担を軽減することができる。

学習部２１３は、機械学習における学習器である。具体的には、学習部２１３は、図１１に示すように、前処理部２１２で生成された学習用画像データ２２３を用いて、各第１の画像データと、対応する第２の画像データとの関係を学習し、学習済みモデルＭを生成する。このとき、各第２の画像データには、音源の種別が関連付けられる。そして、学習部２１３は、図１１に示すように、音源の種別毎に、第１の画像データと、第２の画像データとの関係を学習し、学習済みモデルＭを生成する。具体的には、ペアであるドラムの第１の画像データと、第２の画像データとのペアの学習用画像データ２２３との関係を学習する。また、他の音源についても、同様にペアである第１の画像データと第２の画像データとの関係を学習する。そして、これらの学習結果により、学習済モデルが生成される。したがって、学習部２１３により生成された学習済みモデルＭは、図１２に示すように、混合音響データを表す「第１の画像データ」と、ユーザが希望する「音源の種別」とを入力データとして受け付けると、希望の音源の音響データを表す「第２の画像データ」を生成することができる。なお、図１１の概略図では省略されるが、ペアとなる画像は、各音源について複数組存在する。

ここで、学習部２１３は、学習済みモデルＭの生成のアルゴリズムにＤＣＧＡＮを用いることができる。具体的には、学習部２１３は、入力及び出力となるペアの画像間の関係を学習し、入力画像から出力画像を生成する画像生成アルゴリズムとして、ＤＣＧＡＮを用いる。

〈モデル生成方法〉
図１２に示すフローチャートを用いて、モデル生成装置２を用いて実行されるモデル生成方法の処理の一例を説明する。処理が開始すると、取得部２１１は、教師用の複数の音源の音響データ２２１を取得する（Ｓ２１）。

また、取得部２１１は、ステップＳ２１で取得した複数の音源の音響データ２２１を合成し、混合音響データ２２２とする（Ｓ２２）。なお、混合音響データ２２２を音響データ２２１とともに取得する場合、ステップＳ２２は合成する処理ではなく、混合音響データ２２２を取得する処理となる。

前処理部２１２は、ステップＳ２１で取得した各音響データ２２１及び混合音響データ２２２について、それぞれの特徴を表す画像データを生成する（Ｓ２３）。

また、前処理部２１２は、ステップＳ２３で得られた各画像データについて、不要な領域を除去してトリミングし、学習用画像データ２２３とする（Ｓ２４）。

学習部２１３は、ステップＳ２４で得られた学習用画像データ２２３を用いて学習し、学習済みモデルを生成する（Ｓ２５）。

上述したように、実施形態に係る生成プログラム、モデル生成装置、モデル生成方法によれば、音響データの特徴を表す画像データ及び混合音響データの特徴を表す画像データを用いて、混合音響データから、特定の種別の音響データに分離する学習済みモデルを生成することができる。

［変形例１］
図１４乃至１６を用いて、変形例１に係る音源分離装置１Ａについて説明する。上述した音源分離装置１では、特定の音源の音響データを出力するものであった、これに対し、変形例１に係る音源分離装置１Ａは、選択された音源の音響データを出力する第１のモードと、選択された音源以外の音源を出力する第２のモードとを選択可能であり、選択されたモードの音響データを出力するものである。ここで、第１のモードとは、上述したように、「耳コピ」等の目的のため、聞きたい音源の音響データを生成し、出力するモードである。一方、第２のモードは、「アドリブ練習」等の目的のため、練習したい音源以外の音源の音響データを生成し、出力するモードである。ここで、「アドリブ練習」とは、例えば、ユーザがピアノを練習するとき、混合音響データから、ピアノの音響データのみを除いた新たな音響データを生成し、出力することで、自身のピアノの演奏を他の演奏者の演奏と合わせて練習することである。

そのため、図１４に示すように、音源分離装置１Ａは、図１を用いて上述した音源分離装置１と比較し、合成部１１６を備える点で異なる。例えば、変形例１に係る音源分離装置１Ａでは、予め、図１５に示すようなモード選択画面Ｗ５が表示される。このモード選択画面Ｗ５は、第１のモードを選択する選択部ｂ５１と、第２のモードを選択する選択部ｂ５２とを含む。例えば、音源分離装置１Ａは、このモード選択画面Ｗ５を、図５を用いて上述した楽曲選択画面Ｗ２の前後、図６を用いて上述した音源選択画面Ｗ３の前後のタイミング等で表示し、ユーザにモードを選択させる。

また、音源分離装置１Ａの生成部１１４は、第１変換部１１３で得られた第２の画像データ１２２から、選択された種別以外の特定の音源で発生した音響データの特徴を表す複数の第１の画像データ１２３を生成する。すなわち、受付部１１２で、ドラムが選択された場合、ドラム以外の複数の音源を特定の音源とし、これら複数の音源で発生した音響データの特徴を表す複数の第１の画像データ１２３を、生成する。

そして、合成部１１６は、第１変換部１１３で得られた複数の第１の画像データ１２３を合成する。また、第２変換部１１５は、合成部１１６で合成された画像データを音響データに変換し、出力する。例えば、第２変換部１１５は、音響データ１２４を、図１６に示すような出力画面Ｗ６と共に出力することができる。なお、ここでは、各音源の第１の画像データを合成して、出力する音響データの画像データを生成する例で説明したが、第１の画像データから変換された各音源の音響データ自体を合成して、出力する音響データを生成する方法であってもよい。

このようにすることで、ユーザは、第１のモードによって「耳コピ」をするだけでなく、「耳コピ」による自身の練習の成果を、第２のモードによって他の演奏に合わせることも可能となる。

［変形例２］
図１７に、変形例２に係る音源分離装置１Ｂを示す。上述した例では、音源分離装置１は、モデル生成装置２等の外部の学習器で学習された学習済みモデルＭを利用していた。これに対し、音源分離装置１Ａは、音源分離だけでなく、学習済みモデルＭの生成も自装置内で実行する。したがって、図１７に示す音源分離装置１Ｂは、図１を用いて上述した音源分離装置１と比較し、制御部１１は、第２取得部２１１、前処理部２１２及び学習部２１３を備え、記憶部１２は、学習用音響データ２２１、学習用混合音響データ２２２、学習用画像データ２２３、生成プログラムＰ２を記憶する点で異なる。したがって、音源分離装置１Ｂでは、自装置内において生成プログラムＰ２によって生成された学習済みモデルＭを用いて、音源分離プログラムＰ１によって音源分離を実現することができる。なお、図１７に示す各部及び各データの構成は、図１及び図８等を用いて上述した構成と同一であるため、ここでは説明を省略する。変形例に係る音源分離装置１Ａによっても、上述した音源分離装置１と同様に、音響データの特徴を表す画像データ及び混合音響データの特徴を表す画像データを用いることで、混合音響データから、特定の種別の音響データに分離することができる。

なお、上述した音源分離装置１，１Ａでは、混合音響データ１２１から分離された音響データ１２４を音に変換して出力するのみであったが、譜面に変換する変換部をさらに備える場合、譜面に変換するようにしてもよい。

また、上述の例では、音源として、主に楽器を用いて説明したが、これに限定されない。例えば、複数の異なる人が発現する音響データを対象とした場合、複数人で行われた会議の録音データである混合音響データから、各参加者の発言の音響データをそれぞれ分離し、議事録を作成することも可能である。

〈効果及び補足〉
以上のように、本出願において開示する技術の例示として、上記実施形態を説明した。しかしながら、本開示における技術は、これに限定されず、適宜、変更、置き換え、付加、省略などを行った実施形態にも適用可能である。

本開示の全請求項に記載の音源分離プログラム、音源分離装置、音源分離方法及び生成プログラムは、ハードウェア資源、例えば、プロセッサ、メモリ、及びプログラムとの協働などによって、実現される。

本開示の音源分離プログラム、音源分離装置、音源分離方法及び生成プログラムは、例えば、複数種の音源で発生した音響データが合成された混合音響データから、特定の種別の音響データを分離する際に有用である。

１，１Ａ音源分離装置
２モデル生成装置
１１，２１制御部
１２，２２記憶部
１３入力部
１４出力部
１５通信部
１１１取得部（第１取得部）
１１２受付部
１１３第１変換部
１１４生成部
１１５第２変換部
２１１第２取得部
２１２前処理部
２１３学習部
１２１混合音響データ
１２２第２の画像データ
１２３第１の画像データ
１２４音響データ
２２１音響データ（学習用音響データ）
２２２混合音響データ（学習用混合音響データ）
２２３学習用画像データ
Ｍ学習済みモデル
Ｐ１音源分離プログラム
Ｐ２生成プログラム

Claims

複数の異なる音源で発生した複数の音響データが合成された混合音響データから、特定の音源で発生した音響データを分離する音源分離プログラムであって、
分離用の混合音響データを、当該混合音響データの特徴を表す画像データに変換する変換ステップと、
複数の異なる音源で過去に発生した音響データの特徴をそれぞれ表す複数の第１の画像データと、複数の前記音響データが合成された混合音響データの特徴を表す第２の画像データとの関係を学習した学習済みモデルを用いて、前記変換ステップで得られた前記画像データから、前記特定の音源で発生した音響データの特徴を表す画像データを生成する生成ステップと、
をコンピュータに実行させる音源分離プログラム。
前記生成ステップで生成された前記画像データを音響データに変換し、出力する出力ステップをさらに有する
請求項１に記載の音源分離プログラム。
前記画像データは、スペクトログラムである
請求項１又は２に記載の音源分離プログラム。
前記変換ステップでは、ウェーブレット変換を用いて前記混合音響データをスペクトログラムに変換する
請求項３の音源分離プログラム。
いずれの種別の音源を出力するかの選択を受け付ける受付ステップをさらに有し、
前記生成ステップは、前記受付ステップで受け付けた音源で発生した音響データの特徴を表す画像データを生成する
請求項１乃至４のいずれか１に記載の音源分離プログラム。
いずれの種別の音源を除いて出力するかの選択を受け付ける受付ステップと、
前記生成ステップで生成される複数の画像データを合成する合成する合成ステップと、をさらに有し
前記生成ステップは、前記受付ステップで受け付けた音源以外で発生した音響データの特徴を表す画像データを生成し、
前記出力ステップは、前記合成ステップで合成された前記画像データを音響データに変換して出力する
請求項２に記載の音源分離プログラム。
複数の異なる音源で発生した複数の音響データが合成された混合音響データから、特定の音源で発生した音響データを分離する音源分離装置であって、
分離用の混合音響データを取得する取得部と、
前記取得部が取得した前記混合音響データを、当該混合音響データの特徴を表す画像データに変換する変換部と、
複数の異なる音源で過去に発生した音響データの特徴をそれぞれ表す複数の第１の画像データと、複数の前記音響データが合成された混合音響データの特徴を表す第２の画像データとの関係を学習した学習済みモデルを用いて、前記変換部で得られた前記画像データから、前記特定の音源で発生した音響データの特徴を表す画像データを生成する生成部と、
を備える音源分離装置。
複数の異なる音源で発生した複数の音響データが合成された混合音響データから、特定の音源で発生した音響データを分離する音源分離方法であって、
分離用の混合音響データを、当該混合音響データの特徴を表す画像データに変換し、
複数の異なる音源で過去に発生した音響データの特徴をそれぞれ表す複数の第１の画像データと、複数の前記音響データが合成された混合音響データの特徴を表す第２の画像データとの関係を学習した学習済みモデルを用いて、前記分離用の混合音響データから変換された前記画像データから、分離対象である音源で発生した音響データの特徴を表す画像データを生成する
音源分離方法。
複数の異なる音源で発生した複数の音響データが合成された混合音響データの特徴を表す画像データから、特定の種別の音源で発生した音響データの特徴を表す画像データを生成する学習済みモデルを生成する生成プログラムであって、
複数の異なる音源で過去に発生した複数の学習用の音響データを取得する取得ステップと、
前記複数の学習用の音響データの特徴をそれぞれ表す複数の第１の画像データと、前記複数の学習用の音響データが合成された学習用の混合音響データの特徴を表す第２の画像データとの関係を学習し、新たに入力される分離用の混合音響データから、特定の種別の音源で発生した音響データの特徴を表す画像データを生成する学習済みモデルを生成する学習ステップと、
をコンピュータに実行させる生成プログラム。
学習済みモデルの生成のアルゴリズムにＤＣＧＡＮを用いる
請求項９に記載の生成プログラム。
前記画像データは、周波数成分を表すものであり、
複数の前記第１の画像データと、前記第２の画像データに対し、予め設定された範囲の周波数を除去して、学習用の第１の画像データ及び第２の画像データを生成する前処理ステップをさらに有する
請求項９又は１０に記載の生成プログラム。