JP6617783B2

JP6617783B2 - 情報処理方法、電子機器及びプログラム

Info

Publication number: JP6617783B2
Application number: JP2018046691A
Authority: JP
Inventors: 大輝日暮
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2018-03-14
Filing date: 2018-03-14
Publication date: 2019-12-11
Anticipated expiration: 2038-03-14
Also published as: WO2019176950A1; US20210074267A1; JP2019159145A; US11568857B2

Description

本開示は、音響処理技術に関する。

従来、ＳｔａｎｄａｒｄＭＩＤＩＦｉｌｅ（ＳＭＦ）などのＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）ベースの楽曲データの特定のパート、例えば、メロディパートなどの音高又はピッチに対応する鍵盤に埋設されたＬＥＤ（ＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）を点灯して押鍵を指示する電子鍵盤楽器が存在する。このような電子鍵盤楽器では、鍵を光らせることによってユーザが弾きたい曲のメロディを指示するレッスン機能が実現可能である。

ＳＭＦのようなチャンネル番号が付加されたＭＩＤＩデータのように、符号が時系列に並べられたデータにおいては、特定のパートを抽出して当該パートのメロディ音高、音長などをユーザに提示することができる。

特開平５−１２７６９８

しかしながら、ＭＰ３形式のデータとして表現される一般的な音響信号やオーディオデータでは、各楽器やボーカル音声が混合された状態にあり、このようなデータから特定のパート、例えば、ボーカルパートを分離することは困難であり、当該特定パートのピッチを抽出することも困難である。

一方、ニューラルネットワークなどの機械学習を用いた人工知能の研究開発が盛んに行われている。例えば、ニューラルネットワークを利用した音響処理技術の研究開発も行われている。しかしながら、特定の楽器音やボーカル音など、音の高低とは別に楽器の種類や人（あるいは個人）に特有の周波数分布を示すような音をより効果的に分離するのは難しかった。

本開示の課題は、オーディオデータから特定のオーディオ成分を分離するための音響処理技術を提供することである。

上記課題を解決するため、本開示の一態様は、コンピュータが、第１のオーディオ成分及び第２のオーディオ成分が混合されている第１種類のオーディオデータに対応し、かつ、複数の軸のうちの１つの軸を対数の周波数軸とした第１種類の画像データと、前記第２のオーディオ成分が混合されていない前記第１のオーディオ成分を含む第２種類のオーディオデータに対応し、かつ、複数の軸のうちの１つの軸を対数の周波数軸とした第２種類の画像データとの組を学習用データとする機械学習によって、前記第１種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第２種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習させ、前記第１のオーディオ成分および前記第２のオーディオ成分は、少なくとも、特定の周波数分布を示す音の成分であって、基音は変化するが、前記基音に対する倍音成分の分布が一定の範囲内に収まっているような音の成分、あるいは、特定の種類の楽器音又はボーカル音であって、音高は異なっていても音色が同じ種類の楽器音又はボーカル音に属する音の成分のいずれかを含む、情報処理方法に関する。

本開示によると、オーディオデータから特定のオーディオ成分を分離するための音響処理技術を提供することができる。

本開示の一実施例による学習済み音響分離モデルを有する音響分離装置を示す概略図である。本開示の一実施例による学習装置の機能構成を示すブロック図である。本開示の一実施例によるオーディオデータのフーリエ変換及び定Ｑ変換されたスペクトログラムを示す図である。本開示の一実施例による学習装置のハードウェア構成を示すブロック図である。本開示の一実施例による音響分離モデルの学習処理を示すフローチャートである。本開示の一実施例による音響分離モデルの学習処理の詳細を示すフローチャートである。本開示の一実施例によるオーディオデータ及び分離されたオーディオデータのスペクトログラムを示す図である。本開示の一実施例による音響分離装置の機能構成を示すブロック図である。本開示の一実施例による音響分離装置及び電子楽器装置のハードウェア構成を示すブロック図である。本開示の一実施例による音響分離処理を示すフローチャートである。本開示の一実施例による電子楽器装置による音響処理を示すフローチャートである。

以下の実施例では、オーディオデータから特定の種類の楽器音やボーカル音など（特定のオーディオ成分）を分離するための音響分離モデルを学習し、当該学習済みモデルを用いてオーディオデータから当該パートを分離する音響処理技術が開示される。

本開示による学習装置は、複数のオーディオ成分を含むオーディオデータと特定のオーディオ成分を示すオーディオデータとの多数のペアから構成される学習用オーディオデータのセットを取得し、音響データ（オーディオデータ）をスペクトログラム（縦軸と横軸が周波数軸と時間軸であり、画素の色が信号強度に対応する画像データ）に変換する音響画像変換処理により学習用オーディオデータのセットを画像データのセットに変換し、当該画像データのセットによって音響分離モデルを学習する。本実施例では、特に、音響画像変換処理に通常のフーリエ変換のような周波数軸が線形となる画像変換方式ではなく、定Ｑ変換のような周波数軸が対数となるような画像変換方式を用いている。つまり、分離の対象となるオーディオ成分を多く含む低周波数域が高周波数域に対して相対的に高解像度となり、かつ、音の高低とは別に楽器の種類や人（あるいは個人）に特有の周波数分布（音の高低が変化することにより基音の周波数が変化しても、その基音に対する倍音成分が変化しないような周波数分布）の特徴をより効果的に示すことができるように、周波数軸が対数である画像変換方式を用いている。また、本開示による音響分離装置は、複数のオーディオ成分を含むオーディオデータを取得し、周波数軸が対数である画像変換方式に従って当該オーディオデータを画像データに変換し、学習装置から提供された学習済みの音響分離モデルに入力し、特定のオーディオ成分を示す分離された画像データを取得し、特定のオーディオ成分が抽出されたオーディオデータに変換する。

なお、ここで言う画像データとは、２次元配列として表される何等かの情報のことであり、メモリー上に格納されている形態や、このメモリ上に格納された情報を画面上に表示する場合の形態については、特に人間が視覚的に画像として認識できる形態である必要は無く、機械が２次元配列として認識できるものであればどのような形態でも構わない。

まず、図１を参照して、本開示の一実施例による学習済み音響分離モデルを有する音響分離装置を説明する。図１は、本開示の一実施例による学習済み音響分離モデルを有する音響分離装置を示す概略図である。

図１に示されるように、本開示の一実施例による音響分離装置２００は、限定することなく、ニューラルネットワークとして実現される音響分離モデルを有し、学習装置１００によって学習された音響分離モデルを利用して、複数のオーディオ成分を含む入力されたオーディオデータから特定のオーディオ成分を分離したオーディオデータを生成する。本開示の一実施例による学習装置１００は、データベース５０に格納されている複数のオーディオ成分を含む学習用のオーディオデータと対応する特定のオーディオ成分を示す学習用の分離済みのオーディオデータとのセットによって音響分離モデルを学習し、学習された音響分離モデルを音響分離装置２００に提供する。

次に、図２〜４を参照して、本開示の一実施例による学習装置を説明する。図２は、本開示の一実施例による学習装置の機能構成を示すブロック図である。

図２に示されるように、学習装置１００は、取得部１１０、変換部１２０及び学習部１３０を有する。

取得部１１０は、複数のオーディオ成分を含むオーディオデータと、特定のオーディオ成分を示す分離済みのオーディオデータとを含む学習用データを取得する。具体的には、取得部１１０は、複数のオーディオ成分を含むオーディオデータと分離済みのオーディオデータとの多数のセットを学習用データとしてデータベース５０から取得する。例えば、学習用データは、伴奏とボーカルとが混合されたオーディオデータと当該ボーカルのみのオーディオデータとのセットであってもよい。あるいは、学習用データは、伴奏とボーカルとが混合されたオーディオデータと当該伴奏のみのオーディオデータとのセットであってもよい。典型的には、学習用データは数千から数万セットを含むデータセットから構成されてもよい。また、一実施例では、複数のオーディオ成分は、特定の周波数分布を示す音の成分であって、基音は変化するが、基音に対する倍音成分の分布が一定の範囲内に収まっているような音の成分であってもよい。また、一実施例では、複数のオーディオ成分は、特定の種類の楽器音又はボーカル音であって、音高は異なっていても音色が同じ種類の楽器音又はボーカル音に属する音の成分であってもよい。

変換部１２０は、複数のオーディオ成分を含む混合オーディオデータと特定のオーディオ成分を示す分離オーディオデータとをそれぞれ画像データに変換する。本開示の一実施例では、当該画像変換は、定Ｑ変換などの周波数軸が対数である画像変換方式に従って実行されてもよい。すなわち、変換部１２０は、各オーディオデータを定Ｑ変換によって、時間、周波数及びオーディオ成分の強度を表す３次元のスペクトログラムに変換してもよい。すなわち、本開示の一実施例による画像データは、３次元のスペクトログラムなど、複数次元においてデータ成分を含むデータ配列として実現されうる。

定Ｑ変換などの対数の周波数軸に変換する画像変換方式によると、低周波数域は高周波数域より相対的に高解像度に画像化可能である。例えば、図３Ａ及び図３Ｂは、オーディオデータをそれぞれフーリエ変換及び定Ｑ変換することによって取得されたスペクトログラムを表す。このオーディオデータは、図３Ａに示されるように、５０００Ｈｚ以下の周波数域に大部分の信号成分が現れる一方、５０００Ｈｚより高い周波数域には信号成分はほとんど出現せず、１０００Ｈｚ以下の周波数域に楽器音やボーカル音などの主要な音が多く含まれているものであるが、図３Ａに示されるスペクトログラムでは、低周波域の解像度が低く、特に重要な１０００Ｈｚ以下の周波数域での解像度も低くなっている。一方、図３Ｂに示されるスペクトログラムでは、４０９６Ｈｚ以下の周波数域が相対的に高解像度で画像化され、信号成分が現れる低周波数域をより詳細に画像化することができ、特に重要な１０００Ｈｚ以下の周波数域での解像度も高くなっている。このため、定Ｑ変換は、フーリエ変換と比較して、スペクトログラムを画像として扱う際、オーディオデータに含まれる低周波数域を高解像度で表現できるため、後述される画像データに対するニューラルネットワークを利用した学習に好適である。

学習部１３０は、複数のオーディオ成分を含むオーディオデータから画像化された混合画像データと、分離済みのオーディオデータから画像化された分離画像データとによって、特定のオーディオ成分を示すオーディオデータを分離する音響分離モデルを学習する。

本開示の一実施例による音響分離モデルは、畳み込みニューラルネットワーク（ＣＮＮ）として実現されてもよく、学習部１３０は、複数のオーディオ成分を含む混合オーディオデータから画像化された学習用の混合画像データをＣＮＮに入力し、ＣＮＮからの出力画像が当該混合画像データに対応する分離画像データに近似するようＣＮＮの各種パラメータを調整する。一般に、ＣＮＮは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層を含む。例えば、学習部１３０は、ＣＮＮの畳み込み層において、混合画像データの局所的な時間及び周波数の範囲に対して畳み込み処理を実行することによって各オーディオ成分の分離に必要となる特徴量を抽出し、逆畳み込み層において特定のオーディオ成分を抽出した画像データを生成する。ＣＮＮによる機械学習によって自動的に抽出される特徴量としては、例えば、フォルマントパターンまたはフォルマントパターンに類似する特徴量が抽出されていることが期待され、フォルマントを含むようにＣＮＮは設定される。また、全ての特徴量を機械学習によって自動的に抽出するのではなく、フォルマントパターンが特徴量として抽出されるように人手により一部の特徴量の抽出過程を操作してもよい。つまり、基本的には機械学習により自動抽出される特徴量を人間が論理的に導き出して予測することは難しいが、予め論理的に有効であることが説明できるような特徴量（この場合はフォルマントパターン）については、このような人間の操作を介入させることによって、学習速度や学習精度が向上する場合もある。この場合、例えば、下位の畳み込み層では、局所範囲における基本的なフォルマントパターンが抽出され、上位の畳み込み層では、ボーカルなどの個別のオーディオ成分に特有の周波数全体でのフォルマントパターンが抽出される。

例えば、学習部１３０は、定Ｑ変換によって伴奏とボーカルとが混合された学習用のオーディオデータから変換されたスペクトログラムをＣＮＮに入力し、ＣＮＮから出力されたスペクトログラムと対応する学習用オーディオデータから変換されたスペクトログラムとを比較し、これらのスペクトログラムの間の誤差が小さくなるようＣＮＮのパラメータを更新する。

一実施例では、音響分離モデルは、上述した画像変換を実行する畳み込み層に加えて、位置ずれを許容するためのプーリング層を含むＣＮＮにより実現されてもよい。すなわち、畳み込み層は、画像データについて時間及び周波数の局所範囲毎に特徴情報を抽出する一方、プーリング層は、局所範囲に亘って位置ずれを修正する。これにより、例えば、音高の変化（周波数方向の位置ずれ）を許容して音色の違い（倍音成分の分布）を特徴情報として抽出可能になったり、あるいは、スペクトログラムにおける時間方向のずれによる画像データの誤差などが許容されるようになる。この位置ずれの許容は、周波数軸が線形軸ではなく対数軸であるからこそ、より効果的に位置ずれを許容することが可能となる。

また、一実施例では、学習部１３０は、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）方式に従って音響分離モデルを生成してもよい。具体的には、学習部１３０は、学習用の混合画像データを入力とし、これを分離画像データに変換するニューラルネットワークとして実現される生成器（ｇｅｎｅｒａｔｏｒ）と、生成器から出力された分離画像データと学習用の分離画像データとを入力とし、これらの出力値を計算するニューラルネットワークとして実現される判別器（ｄｉｓｃｒｉｍｉｎａｔｏｒ）とを有し、出力値の誤差に基づき生成器と判別器とのニューラルネットワークのパラメータを学習してもよい。

ここで、学習装置１００は、例えば、図４に示されるように、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０１、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０３、通信インタフェース（ＩＦ）１０４、ハードディスク１０５、表示装置１０６及び入力装置１０７によるハードウェア構成を有してもよい。ＣＰＵ１０１及びＧＰＵ１０２は、後述される学習装置１００の各種処理を実行し、上述した取得部１１０、変換部１２０及び学習部１３０を実現するプロセッサ又は制御部として機能し、特に、ＣＰＵ１０１は学習装置１００における学習処理の実行を制御し、ＧＰＵ１０２は機械学習における行列演算等の学習処理を実行する。ＲＡＭ１０３及びハードディスク１０５は、学習装置１００における各種データ及びプログラムを格納するメモリとして機能し、特に、ＲＡＭ１０３は、ＣＰＵ１０１及びＧＰＵ１０２における作業データを格納するワーキングメモリとして機能し、ハードディスク１０５は、ＣＰＵ１０１及びＧＰＵ１０２の制御プログラム及び／又は学習用データを格納する。通信ＩＦ１０４は、データベース５０から学習用データを取得するための通信インタフェースである。表示装置１０６は、処理の内容、経過、結果等の各種情報を表示し、入力装置１０７は、キーボード、マウスなどの情報及びデータを入力するためのデバイスである。しかしながら、本開示による学習装置１００は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。

次に、図５〜６を参照して、本開示の一実施例による学習装置１００における学習処理を説明する。図５は、本開示の一実施例による音響分離モデルの学習処理を示すフローチャートである。

図５に示されるように、ステップＳ１０１において、取得部１１０は、複数のオーディオ成分を含む混合オーディオデータと、特定のオーディオ成分を示す分離済みオーディオデータとを含む学習用データを取得する。具体的には、取得部１１０は、データベース５０から混合オーディオデータと分離オーディオデータとの多数の学習用データセットを取得する。例えば、混合オーディオデータは伴奏とボーカルとが混合したオーディオデータであり、分離オーディオデータは当該ボーカルのみのオーディオデータであってもよい。

ステップＳ１０２において、変換部１２０は、周波数軸が対数である画像変換方式に従って混合オーディオデータと分離オーディオデータとをそれぞれ混合画像データと分離画像データとに変換する。具体的には、変換部１２０は、混合オーディオデータ及び分離済みオーディオデータを定Ｑ変換によって変換し、混合スペクトログラム及び分離スペクトログラムをそれぞれ取得する。定Ｑ変換によって取得されたスペクトログラムは、低周波数域が高周波数域より高い画像解像度を有し、ニューラルネットワークを用いた画像解析によってスペクトログラムの低周波数域に集中するオーディオ成分を分離するのに好適である。

ステップＳ１０３において、学習部１３０は、混合画像データと分離画像データとによって、混合画像データから分離画像データを分離する音響分離モデルを学習する。具体的には、学習部１３０は、音響分離モデルをＣＮＮにより構成し、学習用画像データによってＣＮＮのパラメータを学習する。例えば、学習部１３０は、ＣＮＮの畳み込み層において、混合画像データの局所的な時間及び周波数の範囲に対して畳み込み処理を実行することによって各オーディオ成分の分離に必要となるフォルマントなどの特徴量を抽出し、逆畳み込み層において特定のオーディオ成分を抽出した画像データを生成する。その後、学習部１３０は、生成された画像データと学習用の分離画像データとを比較し、これらの画像データの間の誤差を小さくするようＣＮＮのパラメータを調整する。

その後、学習部１３０は、所定数の学習用データセットに対して上述した学習処理を実行し、最終的に取得したＣＮＮを学習済みの音響分離モデルとして決定してもよい。あるいは、学習部１３０は、取得した誤差が所定の閾値以下になった時点で取得したＣＮＮを学習済みの音響分離モデルとして決定してもよい。

一実施例では、学習部１３０は、図６に示されるように、ＧＡＮ方式に従って音響分離モデルを生成してもよい。本実施例では、学習部１３０は、学習用の混合画像データを入力とし、これを分離画像データに変換するニューラルネットワークとして実現される生成器（ｇｅｎｅｒａｔｏｒ）と、生成器から出力された分離画像データと学習用の分離画像データとを入力とし、これらの出力値を計算するニューラルネットワークとして実現される判別器（ｄｉｓｃｒｉｍｉｎａｔｏｒ）とを有してもよい。このとき、学習部１３０は、出力値の誤差などの判別器からのフィードバック情報に基づき生成器及び判別器のニューラルネットワークのパラメータを調整してもよい。図６に示される実施例では、混合オーディオデータは伴奏とボーカルとが混合されたオーディオデータであり、分離オーディオデータはボーカルのオーディオデータであるが、本開示はこれに限定されず、混合オーディオデータは任意の複数のオーディオ成分を含み、分離オーディオデータは任意の特定のオーディオ成分であってもよい。

図６に示されるように、ステップＳ１０３＿１において、学習部１３０は、学習用の混合オーディオデータを生成器に入力し、ボーカルオーディオデータを取得する。

ステップＳ１０３＿２において、学習部１３０は、生成器から取得したボーカルオーディオデータを判別器に入力し、識別された特徴量などを示す出力値を取得する。

ステップＳ１０３＿３において、学習部１３０は、データベースから取得した学習用のボーカルオーディオデータを判別器に入力し、識別された特徴量などを示す出力値を取得する。

ステップＳ１０３＿４において、学習部１３０は、取得した２つの出力値の誤差を算出し、当該誤差に基づき生成器及び判別器のニューラルネットワークに対して誤差逆伝播を実行する。

ステップＳ１０３＿５において、学習部１３０は、誤差逆伝播の実行結果に従って生成器及び判別器のニューラルネットワークのパラメータを更新する。

上述した学習処理によって、学習装置１００は、例えば、図７Ａに示される学習用混合スペクトログラムから、図７Ｂに示されるようなボーカルスペクトログラムを分離することができる。分離されたボーカルスペクトログラムでは、１０００Ｈｚ以下の低周波数域にオーディオ成分の大部分が出現しており、フーリエ変換によるスペクトログラムよりも低周波数域が高解像度に画像化される定Ｑ変換によるスペクトログラムを用いることによって、分離性能を向上させることができる。

次に、図８〜９を参照して、本開示の一実施例による音響分離装置を説明する。図８は、本開示の一実施例による音響分離装置の機能構成を示すブロック図である。

図８に示されるように、音響分離装置２００は、取得部２１０、変換部２２０及び分離部２３０を有する。音響分離装置２００は、学習装置１００から提供された学習済み音響分離モデルを有し、当該音響分離モデルを用いて混合オーディオデータから特定のオーディオ成分を示すオーディオデータを分離する。

取得部２１０は、複数のオーディオ成分を含む混合オーディオデータを取得する。例えば、混合オーディオデータは、伴奏とボーカルとが混合されたオーディオデータであってもよく、一般には、学習装置１００に関して上述した学習用オーディオデータとは異なり、未知のオーディオデータである。

変換部２２０は、周波数軸が対数である画像変換方式に従って混合オーディオデータを画像データに変換する。具体的には、変換部２２０は、定Ｑ変換によって混合オーディオデータをスペクトログラムに変換する。例えば、変換部２２０は、混合オーディオデータを所定のサンプル数の毎のフレームに分割し、各フレームに対して定Ｑ変換を順次実行し、フレーム毎のスペクトログラムを取得してもよい。

分離部２３０は、画像データを学習済み音響分離モデルに入力し、当該音響分離モデルから特定のオーディオ成分を示す分離画像データを取得し、分離画像データに基づき特定のオーディオ成分を分離する。具体的には、分離部２３０は、学習装置１００による学習済みの音響分離モデルを利用して、混合オーディオデータのスペクトログラムから分離されたオーディオ成分を示す分離スペクトログラムを取得する。当該分離スペクトログラムは、伴奏とボーカルの混合オーディオデータから分離されたボーカルオーディオデータを表すスペクトログラムであってもよい。

ここで、音響分離装置２００は、例えば、図９に示されるように、ＣＰＵ２０１、ＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）２０２、ＲＡＭ２０３及びＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）メモリポート２０４によるハードウェア構成を有してもよい。さらに、電子楽器装置３００は、音響分離装置２００、光鍵盤２０５及び再生装置２０６によるハードウェア構成を有してもよい。ＣＰＵ２０１は、後述される音響分離装置２００の各種処理を実行し、上述した取得部２１０、変換部２２０及び分離部２３０を実現するプロセッサ又は制御部として機能する。ＲＯＭ２０２及びＲＡＭ２０３は、音響分離装置２００における各種データ及びプログラムを格納するメモリとして機能し、特に、ＲＡＭ２０３は、ＣＰＵ２０１における作業データを格納するワーキングメモリとして機能し、ＲＯＭ２０３は、ＣＰＵ２０１の制御プログラム及び／又はデータを格納する。ＵＳＢメモリポート２０４は、ユーザによりセットされたＵＳＢメモリに格納されている再生データを取得する。光鍵盤２０５は、ＣＰＵ２０１の指示によって再生データから分離されたオーディオ成分のピッチを抽出し、抽出されたピッチに合わせて鍵盤を発光させる。再生装置２０６は、ＣＰＵ２０１の指示によって再生データから生成された楽音を放音する。しかしながら、本開示による音響分離装置２００及び電子楽器装置３００は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。例えば、上述した取得部２１０、変換部２２０及び分離部２３０の１つ以上は、フィルタ回路などの電子回路により実現されてもよい。

一実施例では、分離部２３０は、フレーム毎のスペクトログラムを音響分離モデルに順次入力し、分離されたボーカルのフレーム毎のスペクトログラムを取得し、各スペクトログラムの各時点において最も強く発音されている周波数、すなわち、スペクトログラムにおいて最も振幅が大きい周波数に対応する部分であって、最も高い輝度で示されている周波数部分を当該時点のピッチとして抽出してもよい。このようにして、分離部２３０は、分離されたボーカルのピッチを抽出できる。例えば、図３Ｂに示されるスペクトログラムでは、抽出したボーカルのピッチは一定でなく揺らいでいる。また、通常の鍵盤楽器で発音可能な平均律音階から外れている場合もある。そこで、分離部２３０は、揺らいでいるピッチをフレーム内で平均化し、最も近い平均律音階の音高とする楽譜データ化を実行してもよい。ここで、楽譜データ化とは、音高をＭＩＤＩのノート番号とし、音調をノートオンとノートオフとの間の時間データとするシーケンスデータの生成であり、例えば、ＳＭＦデータの生成である。このようにして、分離部２３０は、生成された楽譜データを通常のシーケンサ再生手法を用いて楽曲として発音させると同時に、ボーカルピッチに対応するメロディラインの鍵を発光させることができる。

また、他の実施例では、音響分離モデルは、伴奏とボーカルとが混合された混合オーディオデータから伴奏オーディオデータを分離するものであってもよい。このとき、学習装置１００では、定Ｑ変換の代わりに、逆変換が可能なフーリエ変換が利用されてもよい。この場合、変換部２２０は、混合オーディオデータを所定のサンプル数毎のフレームに分割し、各フレームに対してフーリエ変換を順次実行し、フレーム毎のスペクトログラムを取得すると共に、変換時に取得される位相スペクトログラムを保持する。分離部２３０は、フレーム毎のスペクトログラムを音響分離モデルに順次入力し、分離された伴奏のフレーム毎のスペクトログラムを取得し、保持された位相スペクトログラムを用いて、分離スペクトログラムに対して逆フーリエ変換を実行し、伴奏が分離されたオーディオデータを取得する。取得されたオーディオデータは、通常のオーディオデータの再生手順によって再生可能である。

次に、図１０〜１１を参照して、本開示の一実施例による音響分離装置２００における音響分離処理を説明する。図１０は、本開示の一実施例による音響分離処理を示すフローチャートである。

図１０に示されるように、ステップＳ２０１において、取得部２１０は、複数のオーディオ成分を含む混合オーディオデータを取得する。具体的には、取得部２１０は、ユーザから提供された再生データを混合オーディオデータとして取得する。例えば、混合オーディオデータは伴奏とボーカルとが混合したオーディオデータであってもよい。

ステップＳ２０２において、変換部２２０は、周波数軸が対数である画像変換方式に従って混合オーディオデータを混合画像データに変換する。具体的には、変換部２２０は、混合オーディオデータを定Ｑ変換によって変換し、混合スペクトログラムを取得する。定Ｑ変換によって取得されたスペクトログラムは、低周波数域が高周波数域より高い画像解像度を有し、ニューラルネットワークを用いた画像解析によってスペクトログラムの低周波数域に集中するオーディオ成分を分離するのに好適である。

ステップＳ２０３において、分離部２３０は、混合画像データを学習済み音響分離モデルに入力し、当該音響分離モデルから特定のオーディオ成分を示す分離画像データを取得し、当該分離画像データに基づき特定のオーディオ成分を分離する。例えば、分離２３０は、分離画像データから特定のオーディオ成分のピッチを抽出し、抽出したピットに対して楽譜データ化を実行してもよい。分離部２３０は、生成された楽譜データを通常のシーケンサ再生手法を用いて楽曲として発音させると同時に、ボーカルピッチに対応するメロディラインの鍵を発光させてもよい。

図１１は、本開示の一実施例による電子楽器装置による音響処理を示すフローチャートである。当該電子楽器装置３００は、伴奏とボーカルとが混合された混合オーディオデータからボーカルオーディオデータを分離する学習済み音響分離モデルと、混合オーディオデータから伴奏オーディオデータを分離する学習済み音響分離モデルとを含む音響分離装置２００を備える。

ステップＳ３０１において、電子楽器装置３００は、抽出対象パートがボーカル又は伴奏であるか判断する。当該抽出対象パートは、例えば、ユーザにより指定されてもよい。

抽出対象パートがボーカルである場合（ステップＳ３０１：ボーカル）、ステップＳ３０２において、電子楽器装置は、入力された混合オーディオデータに対して定Ｑ変換を実行し、混合スペクトログラムを取得する。

ステップＳ３０３において、電子楽器装置３００は、混合オーディオデータからボーカルオーディオデータを分離する学習済み音響分離モデルに混合スペクトログラムを入力し、ボーカルオーディオデータを示す分離スペクトログラムを取得する。

ステップＳ３０４において、電子楽器装置３００は、分離スペクトログラムからピッチを抽出する。

ステップＳ３０５において、電子楽器装置３００は、抽出したピッチから楽譜データを生成する。

他方、抽出対象パートが伴奏である場合（ステップＳ３０１：伴奏）、ステップＳ３０６において、電子楽器装置３００は、入力された混合オーディオデータに対してフーリエ変換を実行し、混合スペクトログラムを取得する。

ステップＳ３０７において、電子楽器装置３００は、混合オーディオデータから伴奏オーディオデータを分離する学習済み音響分離モデルに混合スペクトログラムを入力し、伴奏オーディオデータを示す分離スペクトログラムを取得し、取得した分離スペクトログラムに対して逆フーリエ変換を実行することによって伴奏オーディオデータを取得する。

ステップＳ３０８において、電子楽器装置３００は、ステップＳ３０５において生成された楽譜データ又はステップＳ３０７において生成された伴奏オーディオデータに従って、鍵を発光すると共に、オーディオデータを再生する。

本開示の一態様では、
第１のオーディオ成分及び第２のオーディオ成分が混合されている第１種類のオーディオデータを、複数の軸のうちの１つの軸を対数の周波数軸とした第１種類の画像データに変換するとともに、前記第２のオーディオ成分が混合されていない前記第１のオーディオ成分を含む第２種類のオーディオデータを、複数の軸のうちの１つの軸を対数の周波数軸とした第２種類の画像データに変換し、
前記第１種類の画像データと前記第２種類の画像データとの組を学習用データとする機械学習によって、前記第１種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第２種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習する制御部を有する学習装置が提供される。

一実施例では、前記制御部は、前記第１種類のオーディオデータと前記第２種類のオーディオデータとを組とする複数の学習用オーディオデータを取得し、前記取得した複数の学習用オーディオデータを対象として前記変換を行うことにより、前記第１種類の画像データと前記第２種類の画像データとを組とした学習用画像データを複数生成し、前記生成した複数の学習用画像データに基づいて前記機械学習を行うことにより前記モデルを学習させてもよい。

一実施例では、前記第１のオーディオ成分および前記第２のオーディオ成分は、特定の周波数分布を示す音の成分であって、基音は変化するが、前記基音に対する倍音成分の分布が一定の範囲内に収まっているような音の成分であってもよい。

一実施例では、前記第１のオーディオ成分および前記第２のオーディオ成分は、特定の種類の楽器音又はボーカル音であって、音高は異なっていても音色が同じ種類の楽器音又はボーカル音に属する音の成分であってもよい。

一実施例では、前記変換は、定Ｑ変換であってもよい。

一実施例では、前記モデルは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層を含む畳み込みニューラルネットワークにより実現されてもよい。

一実施例では、前記特徴量として、フォルマントを含むように前記ニューラルネットワークを設定してもよい。

一実施例では、前記畳み込みニューラルネットワークは更に、画像データの局所範囲に亘る位置ずれを修正するプーリング層を含んでもよい。

一実施例では、前記制御部は、ＧＡＮ（ＧｅｎｅｒａｔｉｖｅＡｄｖｅｒｓａｒｉａｌＮｅｔｗｏｒｋｓ）方式に従って前記モデルを学習してもよい。

一実施例では、前記制御部は、前記第１種類の画像データを生成器に入力し、前記生成器から第３種類の画像データを取得し、前記第２種類の画像データと前記第３種類の画像データとを判別器に入力し、前記判別器から取得されたそれぞれの出力値の誤差に基づき前記生成器を学習してもよい。

本開示の一態様では、
機械学習により生成された学習済みモデルを格納するメモリと、
第１のオーディオ成分及び第２のオーディオ成分が混合されている第１種類のオーディオデータを、複数の軸のうちの１つの軸を対数の周波数軸とした第１種類の画像データに変換し、
前記第１種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから前記第２のオーディオ成分が混合されていない前記第１のオーディオ成分を示す第２種類の画像データを取得し、前記第２種類の画像データに基づき前記第１のオーディオ成分を分離する制御部と、
を有する音響分離装置が提供される。

一実施例では、前記学習済みモデルは、
前記第１のオーディオ成分と前記第２のオーディオ成分とを含む第１種類のオーディオデータと、前記第２のオーディオ成分が混合されていない前記第１のオーディオ成分を示す第２種類のオーディオデータとを含む学習用データを取得し、
前記第１種類のオーディオデータを、複数の軸のうちの１つの軸を対数の周波数軸とした前記第１種類の画像データに変換するとともに、前記第２種類のオーディオデータを、複数の軸のうちの１つの軸を対数の周波数軸とした前記第２種類の画像データに変換し、
前記第１種類の画像データと前記第２種類の画像データとの組を学習用データとする機械学習によって、前記第１種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第２種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成することによって学習されてもよい。

一実施例では、前記第２種類の画像データに基づく前記第１のオーディオ成分の分離は、前記第１のオーディオ成分の音高の情報を抽出してもよい。

一実施例では、前記第２種類の画像データに基づく前記第１のオーディオ成分の分離は、前記第１のオーディオ成分の基音の情報を抽出してもよい。

一実施例では、前記変換は、定Ｑ変換であってもよい。

一実施例では、前記制御部は更に、分離対象のオーディオ成分に応じて定Ｑ変換又はフーリエ変換を選択的に実行してもよい。

一実施例では、前記制御部は、前記分離対象のオーディオ成分を再生する場合には、前記第１種類のオーディオデータに対してフーリエ変換を実行し、前記分離対象のオーディオ成分を再生しない場合、前記第１種類のオーディオデータに対して定Ｑ変換を実行してもよい。

本開示の一態様では、
音響分離装置と、
各鍵が発光可能な鍵盤と、
を有する電子楽器装置であって、
前記音響分離装置は、
機械学習により生成された学習済みモデルを格納するメモリと、
第１のオーディオ成分及び第２のオーディオ成分が混合されている第１種類のオーディオデータを、複数の軸のうちの１つの軸を対数の周波数軸とした第１種類の画像データに変換し、
前記第１種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから前記第２のオーディオ成分が混合されていない前記第１のオーディオ成分を示す第２種類の画像データを取得し、前記第２種類の画像データに基づき前記第１のオーディオ成分を分離する制御部と、
を有し、
前記制御部は、前記分離した第１のオーディオ成分に従って前記鍵盤の鍵を発光させる電子楽器装置が提供される。

本開示の一態様では、
プロセッサが、第１のオーディオ成分と第２のオーディオ成分が混合されている第１種類のオーディオデータと、前記第２のオーディオ成分が混合されていない前記第１のオーディオ成分を含む第２種類のオーディオデータとを含む学習用データを取得し、
前記プロセッサが、前記第１種類のオーディオデータを、複数の軸のうちの１つの軸を対数の周波数軸とした第１種類の画像データに変換するとともに、前記第２種類のオーディオデータを、複数の軸のうちの１つの軸を対数の周波数軸とした第２種類の画像データに変換し、
前記プロセッサが、前記第１種類の画像データと前記第２種類の画像データとの組を学習用データとする機械学習によって、前記第１種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第２種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習する方法が提供される。

本開示の一態様では、
プロセッサが、第１のオーディオ成分と第２のオーディオ成分が混合されている第１種類のオーディオデータを取得し、
前記プロセッサが、前記第１種類のオーディオデータを、複数の軸のうちの１つの軸を対数の周波数軸とした第１種類の画像データに変換し、
前記プロセッサが、前記第１種類の画像データを学習済みモデルに入力し、前記学習済みモデルから前記第２のオーディオ成分が混合されていない前記第１のオーディオ成分を示す第２種類の画像データを取得し、前記第２種類の画像データに基づき前記第１のオーディオ成分を分離する方法が提供される。

本開示の一態様では、
上述した方法をプロセッサに実現させるプログラム又はコンピュータ可読記憶媒体が提供される。

以上、本開示の実施例について詳述したが、本開示は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本開示の要旨の範囲内において、種々の変形・変更が可能である。

５０データベース
１００学習装置
２００音響分離装置
１１０，２１０取得部
１２０，２２０変換部
１３０学習部
２３０分離部
３００電子楽器装置

Claims

コンピュータが、第１のオーディオ成分及び第２のオーディオ成分が混合されている第１種類のオーディオデータに対応し、かつ、複数の軸のうちの１つの軸を対数の周波数軸とした第１種類の画像データと、前記第２のオーディオ成分が混合されていない前記第１のオーディオ成分を含む第２種類のオーディオデータに対応し、かつ、複数の軸のうちの１つの軸を対数の周波数軸とした第２種類の画像データとの組を学習用データとする機械学習によって、前記第１種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第２種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習させ、
前記第１のオーディオ成分および前記第２のオーディオ成分は、少なくとも、特定の周波数分布を示す音の成分であって、基音は変化するが、前記基音に対する倍音成分の分布が一定の範囲内に収まっているような音の成分、あるいは、特定の種類の楽器音又はボーカル音であって、音高は異なっていても音色が同じ種類の楽器音又はボーカル音に属する音の成分のいずれかを含む、情報処理方法。
コンピュータが、第１のオーディオ成分及び第２のオーディオ成分が混合されている第１種類のオーディオデータに対応し、かつ、複数の軸のうちの１つの軸を対数の周波数軸とした第１種類の画像データと、前記第２のオーディオ成分が混合されていない前記第１のオーディオ成分を含む第２種類のオーディオデータに対応し、かつ、複数の軸のうちの１つの軸を対数の周波数軸とした第２種類の画像データとの組を学習用データとする機械学習によって、前記第１種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第２種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習させ、
前記モデルは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層を含む畳み込みニューラルネットワークにより実現され、
オーディオデータを対数の周波数軸を有する画像データに変換して前記ニューラルネットワークに入力した場合に、前記オーディオデータに含まれる各オーディオ成分に対して、周波数方向の位置ずれである音高の変化を許容し、周波数成分の分布である音色の違いを前記特徴量として抽出可能にした、情報処理方法。
前記コンピュータは、
前記第１種類のオーディオデータと前記第２種類のオーディオデータとを組とする複数の学習用オーディオデータを取得し、
前記取得した複数の学習用オーディオデータを対象として、前記第１種類のオーディオデータを前記第１種類の画像データに変換するとともに、前記第２種類のオーディオデータを前記第２種類の画像データに変換することにより、前記第１種類の画像データと前記第２種類の画像データとを組とした学習用画像データを複数生成し、
前記生成した複数の学習用画像データに基づいて前記機械学習を行うことにより前記モデルを学習させる、請求項１または２記載の情報処理方法。
前記モデルは、入力された画像データに基づいて新たな画像データを生成する生成器と、２つの画像データの違いを判別する判別器とを含み、
前記コンピュータは、前記第１種類の画像データを前記生成器に入力し、前記生成器から第３種類の画像データを取得し、前記第２種類の画像データと前記第３種類の画像データとを前記判別器に入力し、前記判別器から取得されたそれぞれの出力値の誤差に基づき前記生成器を学習する、請求項１乃至３のいずれか一項に記載の情報処理方法。
機械学習により生成された学習済みモデルを格納するメモリと、
第１のオーディオ成分及び第２のオーディオ成分が混合されている第１種類のオーディオデータに対応し、かつ、複数の軸のうちの１つの軸を対数の周波数軸とした第１種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから前記第２のオーディオ成分が混合されていない前記第１のオーディオ成分を示す第２種類の画像データを取得し、前記第２種類の画像データに基づき前記第１のオーディオ成分の音高の情報を抽出する制御部と、を有する電子機器。
前記制御部は、前記第２種類の画像データに基づき前記第１のオーディオ成分の基音の音高を抽出する、請求項５記載の電子機器。
機械学習により生成された学習済みモデルを格納するメモリと、
第１のオーディオ成分及び第２のオーディオ成分が混合されている第１種類のオーディオデータに対応した第１種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから前記第２のオーディオ成分が混合されていない前記第１のオーディオ成分を示す第２種類の画像データを取得し、前記取得した画像データに基づき前記第１のオーディオ成分を分離する制御部と、
を有し、
前記制御部は、
オーディオデータを対数の周波数軸を有する画像データに変換する定Ｑ変換およびオーディオデータを線形の周波数軸を有する画像データに変換するフーリエ変換のいずれかを選択し、
前記定Ｑ変換が選択された場合には、前記定Ｑ変換により前記第１種類のオーディオデータを前記第１種類の画像データに変換して前記学習済みモデルに入力し、
前記フーリエ変換が選択された場合には、前記フーリエ変換により前記第１種類のオーディオデータを前記第１種類の画像データに変換して前記学習済みモデルに入力する、電子機器。
前記制御部は、前記フーリエ変換が選択された場合には、前記学習済みモデルから取得された前記第２種類の画像データを逆フーリエ変換して前記第１のオーディオ成分が分離されたオーディオデータを取得し、取得されたオーディオデータを再生する、請求項７記載の電子機器。
前記制御部は、前記定Ｑ変換が選択された場合には、前記学習済みモデルから取得された前記第２種類の画像データに基づき前記第１のオーディオ成分の音高の情報を抽出する、請求項７に記載の電子機器。
前記制御部は、前記分離対象のオーディオ成分を再生すると判断した場合には、前記フーリエ変換を選択し、前記分離対象のオーディオ成分を再生しないと判断した場合には、前記定Ｑ変換を選択する、請求項７乃至９のいずれか一項に記載の電子機器。
機械学習により生成された学習済みモデルを格納するメモリと、
ボーカル音に対応するオーディオ成分及び楽器音に対応するオーディオ成分が混合されている第１種類のオーディオデータに対応し、かつ、複数の軸のうちの１つの軸を対数の周波数軸とした第１種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから、前記ボーカル音に対応するオーディオ成分及び前記楽器音に対応するオーディオ成分のいずれか一方を含み、いずれか他方を含まない第２種類のオーディオデータに対応する第２種類の画像データを取得し、前記第２種類の画像データに基づき前記ボーカル音に対応するオーディオ成分または前記楽器音に対応するオーディオ成分を分離する制御部と、
を有する電子機器。
前記制御部は、前記学習済みモデルから前記楽器音に対応するオーディオ成分が混合されていない前記ボーカル音に対応するオーディオ成分を示す前記第２種類の画像データを取得し、前記第２種類の画像データに基づき前記ボーカル音に対応するオーディオ成分を分離する、請求項１１記載の電子機器。
前記制御部は、前記学習済みモデルから前記ボーカル音に対応するオーディオ成分が混合されていない前記楽器音に対応するオーディオ成分を示す前記第２種類の画像データを取得し、前記第２種類の画像データに基づき前記楽器音に対応するオーディオ成分を分離する、請求項１１記載の電子機器。
前記学習済みモデルは、
前記第１種類の画像データと前記第２種類の画像データとの組を学習用データとする機械学習によって、前記第１種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第２種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成するように学習されている、請求項１１乃至１３のいずれか一項に記載の電子機器。
音高を指定する複数の操作子を有する操作部と、
前記操作部で指定された音高の音を発音させる第１制御部と、
機械学習により生成された学習済みモデルを格納するメモリと、
メロディ成分及び伴奏成分を含むオーディオデータに対応する第１種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから、前記メロディ成分及び前記伴奏成分のいずれか一方を含みいずれか他方を含まないオーディオデータに対応する第２種類の画像データを取得する処理と、取得した前記第２種類の画像データに基づき前記メロディ成分または前記伴奏成分の音高の情報を抽出する処理と、を実行する第２制御部と、
を有し、
前記第１制御部は、更に、前記第２制御部が抽出した音高の情報に対応する音を発音させる機能、または、前記第２制御部が抽出した音高の情報に対応する前記操作部の操作子を識別して示す機能を有する、電子楽器。
前記操作部は、各鍵が発光可能な鍵盤であり、
前記第２制御部は、前記第１制御部が抽出した音高の情報に対応する前記鍵盤の鍵を発光させる、請求項１５に記載の電子楽器。
コンピュータが、第１のオーディオ成分及び第２のオーディオ成分が混合されている第１種類のオーディオデータに対応し、かつ、複数の軸のうちの１つの軸を対数の周波数軸とした第１種類の画像データを、機械学習により生成された学習済みモデルに入力し、前記学習済みモデルから前記第２のオーディオ成分が混合されていない前記第１のオーディオ成分を示す第２種類の画像データを取得し、前記第２種類の画像データに基づき前記第１のオーディオ成分の音高の情報を抽出する、情報処理方法。
コンピュータが、ボーカル音に対応するオーディオ成分及び楽器音に対応するオーディオ成分が混合されている第１種類のオーディオデータに対応し、かつ、複数の軸のうちの１つの軸を対数の周波数軸とした第１種類の画像データを、機械学習により生成された学習済みモデルに入力し、前記学習済みモデルから、前記ボーカル音に対応するオーディオ成分及び前記楽器音に対応するオーディオ成分のいずれか一方を含み、いずれか他方を含まない第２種類のオーディオデータに対応する第２種類の画像データを取得し、前記第２種類の画像データに基づき前記ボーカル音に対応するオーディオ成分または前記楽器音に対応するオーディオ成分を分離する、情報処理方法。
請求項１７又は１８記載の方法をプロセッサに実現させるプログラム。