JP2020021098A - 情報処理装置、電子機器及びプログラム - Google Patents

情報処理装置、電子機器及びプログラム Download PDF

Info

Publication number
JP2020021098A
JP2020021098A JP2019196162A JP2019196162A JP2020021098A JP 2020021098 A JP2020021098 A JP 2020021098A JP 2019196162 A JP2019196162 A JP 2019196162A JP 2019196162 A JP2019196162 A JP 2019196162A JP 2020021098 A JP2020021098 A JP 2020021098A
Authority
JP
Japan
Prior art keywords
type
image data
data
learning
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019196162A
Other languages
English (en)
Inventor
大輝 日暮
Daiki Higure
大輝 日暮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Casio Computer Co Ltd
Original Assignee
Casio Computer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Casio Computer Co Ltd filed Critical Casio Computer Co Ltd
Priority to JP2019196162A priority Critical patent/JP2020021098A/ja
Publication of JP2020021098A publication Critical patent/JP2020021098A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

【課題】オーディオデータから特定のオーディオ成分を分離するための音響処理技術を提供することである。【解決手段】本開示の一態様は、第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換するとともに、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を含む第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第2種類の画像データに変換し、前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習する制御部を有する学習装置に関する。【選択図】図1

Description

本開示は、音響処理技術に関する。
従来、Standard MIDI File(SMF)などのMIDI(Musical Instrument Digital Interface)ベースの楽曲データの特定のパート、例えば、メロディパートなどの音高又はピッチに対応する鍵盤に埋設されたLED(Light Emitting Diode)を点灯して押鍵を指示する電子鍵盤楽器が存在する。このような電子鍵盤楽器では、鍵を光らせることによってユーザが弾きたい曲のメロディを指示するレッスン機能が実現可能である。
SMFのようなチャンネル番号が付加されたMIDIデータのように、符号が時系列に並べられたデータにおいては、特定のパートを抽出して当該パートのメロディ音高、音長などをユーザに提示することができる。
特開平5−127698
しかしながら、MP3形式のデータとして表現される一般的な音響信号やオーディオデータでは、各楽器やボーカル音声が混合された状態にあり、このようなデータから特定のパート、例えば、ボーカルパートを分離することは困難であり、当該特定パートのピッチを抽出することも困難である。
一方、ニューラルネットワークなどの機械学習を用いた人工知能の研究開発が盛んに行われている。例えば、ニューラルネットワークを利用した音響処理技術の研究開発も行われている。しかしながら、特定の楽器音やボーカル音など、音の高低とは別に楽器の種類や人(あるいは個人)に特有の周波数分布を示すような音をより効果的に分離するのは難しかった。
本開示の課題は、オーディオデータから特定のオーディオ成分を分離するための音響処理技術を提供することである。
上記課題を解決するため、本開示の一態様は、第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換するとともに、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を含む第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第2種類の画像データに変換し、
前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習する制御部を有する学習装置に関する。
本開示によると、オーディオデータから特定のオーディオ成分を分離するための音響処理技術を提供することができる。
本開示の一実施例による学習済み音響分離モデルを有する音響分離装置を示す概略図である。 本開示の一実施例による学習装置の機能構成を示すブロック図である。 本開示の一実施例によるオーディオデータのフーリエ変換及び定Q変換されたスペクトログラムを示す図である。 本開示の一実施例による学習装置のハードウェア構成を示すブロック図である。 本開示の一実施例による音響分離モデルの学習処理を示すフローチャートである。 本開示の一実施例による音響分離モデルの学習処理の詳細を示すフローチャートである。 本開示の一実施例によるオーディオデータ及び分離されたオーディオデータのスペクトログラムを示す図である。 本開示の一実施例による音響分離装置の機能構成を示すブロック図である。 本開示の一実施例による音響分離装置及び電子楽器装置のハードウェア構成を示すブロック図である。 本開示の一実施例による音響分離処理を示すフローチャートである。 本開示の一実施例による電子楽器装置による音響処理を示すフローチャートである。
以下の実施例では、オーディオデータから特定の種類の楽器音やボーカル音など(特定のオーディオ成分)を分離するための音響分離モデルを学習し、当該学習済みモデルを用いてオーディオデータから当該パートを分離する音響処理技術が開示される。
本開示による学習装置は、複数のオーディオ成分を含むオーディオデータと特定のオーディオ成分を示すオーディオデータとの多数のペアから構成される学習用オーディオデータのセットを取得し、音響データ(オーディオデータ)をスペクトログラム(縦軸と横軸が周波数軸と時間軸であり、画素の色が信号強度に対応する画像データ)に変換する音響画像変換処理により学習用オーディオデータのセットを画像データのセットに変換し、当該画像データのセットによって音響分離モデルを学習する。本実施例では、特に、音響画像変換処理に通常のフーリエ変換のような周波数軸が線形となる画像変換方式ではなく、定Q変換のような周波数軸が対数となるような画像変換方式を用いている。つまり、分離の対象となるオーディオ成分を多く含む低周波数域が高周波数域に対して相対的に高解像度となり、かつ、音の高低とは別に楽器の種類や人(あるいは個人)に特有の周波数分布(音の高低が変化することにより基音の周波数が変化しても、その基音に対する倍音成分が変化しないような周波数分布)の特徴をより効果的に示すことができるように、周波数軸が対数である画像変換方式を用いている。また、本開示による音響分離装置は、複数のオーディオ成分を含むオーディオデータを取得し、周波数軸が対数である画像変換方式に従って当該オーディオデータを画像データに変換し、学習装置から提供された学習済みの音響分離モデルに入力し、特定のオーディオ成分を示す分離された画像データを取得し、特定のオーディオ成分が抽出されたオーディオデータに変換する。
なお、ここで言う画像データとは、2次元配列として表される何等かの情報のことであり、メモリー上に格納されている形態や、このメモリ上に格納された情報を画面上に表示する場合の形態については、特に人間が視覚的に画像として認識できる形態である必要は無く、機械が2次元配列として認識できるものであればどのような形態でも構わない。
まず、図1を参照して、本開示の一実施例による学習済み音響分離モデルを有する音響分離装置を説明する。図1は、本開示の一実施例による学習済み音響分離モデルを有する音響分離装置を示す概略図である。
図1に示されるように、本開示の一実施例による音響分離装置200は、限定することなく、ニューラルネットワークとして実現される音響分離モデルを有し、学習装置100によって学習された音響分離モデルを利用して、複数のオーディオ成分を含む入力されたオーディオデータから特定のオーディオ成分を分離したオーディオデータを生成する。本開示の一実施例による学習装置100は、データベース50に格納されている複数のオーディオ成分を含む学習用のオーディオデータと対応する特定のオーディオ成分を示す学習用の分離済みのオーディオデータとのセットによって音響分離モデルを学習し、学習された音響分離モデルを音響分離装置200に提供する。
次に、図2〜4を参照して、本開示の一実施例による学習装置を説明する。図2は、本開示の一実施例による学習装置の機能構成を示すブロック図である。
図2に示されるように、学習装置100は、取得部110、変換部120及び学習部130を有する。
取得部110は、複数のオーディオ成分を含むオーディオデータと、特定のオーディオ成分を示す分離済みのオーディオデータとを含む学習用データを取得する。具体的には、取得部110は、複数のオーディオ成分を含むオーディオデータと分離済みのオーディオデータとの多数のセットを学習用データとしてデータベース50から取得する。例えば、学習用データは、伴奏とボーカルとが混合されたオーディオデータと当該ボーカルのみのオーディオデータとのセットであってもよい。あるいは、学習用データは、伴奏とボーカルとが混合されたオーディオデータと当該伴奏のみのオーディオデータとのセットであってもよい。典型的には、学習用データは数千から数万セットを含むデータセットから構成されてもよい。また、一実施例では、複数のオーディオ成分は、特定の周波数分布を示す音の成分であって、基音は変化するが、基音に対する倍音成分の分布が一定の範囲内に収まっているような音の成分であってもよい。また、一実施例では、複数のオーディオ成分は、特定の種類の楽器音又はボーカル音であって、音高は異なっていても音色が同じ種類の楽器音又はボーカル音に属する音の成分であってもよい。
変換部120は、複数のオーディオ成分を含む混合オーディオデータと特定のオーディオ成分を示す分離オーディオデータとをそれぞれ画像データに変換する。本開示の一実施例では、当該画像変換は、定Q変換などの周波数軸が対数である画像変換方式に従って実行されてもよい。すなわち、変換部120は、各オーディオデータを定Q変換によって、時間、周波数及びオーディオ成分の強度を表す3次元のスペクトログラムに変換してもよい。すなわち、本開示の一実施例による画像データは、3次元のスペクトログラムなど、複数次元においてデータ成分を含むデータ配列として実現されうる。
定Q変換などの対数の周波数軸に変換する画像変換方式によると、低周波数域は高周波数域より相対的に高解像度に画像化可能である。例えば、図3A及び図3Bは、オーディオデータをそれぞれフーリエ変換及び定Q変換することによって取得されたスペクトログラムを表す。このオーディオデータは、図3Aに示されるように、5000Hz以下の周波数域に大部分の信号成分が現れる一方、5000Hzより高い周波数域には信号成分はほとんど出現せず、1000Hz以下の周波数域に楽器音やボーカル音などの主要な音が多く含まれているものであるが、図3Aに示されるスペクトログラムでは、低周波域の解像度が低く、特に重要な1000Hz以下の周波数域での解像度も低くなっている。一方、図3Bに示されるスペクトログラムでは、4096Hz以下の周波数域が相対的に高解像度で画像化され、信号成分が現れる低周波数域をより詳細に画像化することができ、特に重要な1000Hz以下の周波数域での解像度も高くなっている。このため、定Q変換は、フーリエ変換と比較して、スペクトログラムを画像として扱う際、オーディオデータに含まれる低周波数域を高解像度で表現できるため、後述される画像データに対するニューラルネットワークを利用した学習に好適である。
学習部130は、複数のオーディオ成分を含むオーディオデータから画像化された混合画像データと、分離済みのオーディオデータから画像化された分離画像データとによって、特定のオーディオ成分を示すオーディオデータを分離する音響分離モデルを学習する。
本開示の一実施例による音響分離モデルは、畳み込みニューラルネットワーク(CNN)として実現されてもよく、学習部130は、複数のオーディオ成分を含む混合オーディオデータから画像化された学習用の混合画像データをCNNに入力し、CNNからの出力画像が当該混合画像データに対応する分離画像データに近似するようCNNの各種パラメータを調整する。一般に、CNNは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層を含む。例えば、学習部130は、CNNの畳み込み層において、混合画像データの局所的な時間及び周波数の範囲に対して畳み込み処理を実行することによって各オーディオ成分の分離に必要となる特徴量を抽出し、逆畳み込み層において特定のオーディオ成分を抽出した画像データを生成する。CNNによる機械学習によって自動的に抽出される特徴量としては、例えば、フォルマントパターンまたはフォルマントパターンに類似する特徴量が抽出されていることが期待され、フォルマントを含むようにCNNは設定される。また、全ての特徴量を機械学習によって自動的に抽出するのではなく、フォルマントパターンが特徴量として抽出されるように人手により一部の特徴量の抽出過程を操作してもよい。つまり、基本的には機械学習により自動抽出される特徴量を人間が論理的に導き出して予測することは難しいが、予め論理的に有効であることが説明できるような特徴量(この場合はフォルマントパターン)については、このような人間の操作を介入させることによって、学習速度や学習精度が向上する場合もある。この場合、例えば、下位の畳み込み層では、局所範囲における基本的なフォルマントパターンが抽出され、上位の畳み込み層では、ボーカルなどの個別のオーディオ成分に特有の周波数全体でのフォルマントパターンが抽出される。
例えば、学習部130は、定Q変換によって伴奏とボーカルとが混合された学習用のオーディオデータから変換されたスペクトログラムをCNNに入力し、CNNから出力されたスペクトログラムと対応する学習用オーディオデータから変換されたスペクトログラムとを比較し、これらのスペクトログラムの間の誤差が小さくなるようCNNのパラメータを更新する。
一実施例では、音響分離モデルは、上述した画像変換を実行する畳み込み層に加えて、位置ずれを許容するためのプーリング層を含むCNNにより実現されてもよい。すなわち、畳み込み層は、画像データについて時間及び周波数の局所範囲毎に特徴情報を抽出する一方、プーリング層は、局所範囲に亘って位置ずれを修正する。これにより、例えば、音高の変化(周波数方向の位置ずれ)を許容して音色の違い(倍音成分の分布)を特徴情報として抽出可能になったり、あるいは、スペクトログラムにおける時間方向のずれによる画像データの誤差などが許容されるようになる。この位置ずれの許容は、周波数軸が線形軸ではなく対数軸であるからこそ、より効果的に位置ずれを許容することが可能となる。
また、一実施例では、学習部130は、GAN(Generative Adversarial Networks)方式に従って音響分離モデルを生成してもよい。具体的には、学習部130は、学習用の混合画像データを入力とし、これを分離画像データに変換するニューラルネットワークとして実現される生成器(generator)と、生成器から出力された分離画像データと学習用の分離画像データとを入力とし、これらの出力値を計算するニューラルネットワークとして実現される判別器(discriminator)とを有し、出力値の誤差に基づき生成器と判別器とのニューラルネットワークのパラメータを学習してもよい。
ここで、学習装置100は、例えば、図4に示されるように、CPU(Central Processing Unit)101、GPU(Graphics Processing Unit)102、RAM(Random Access Memory)103、通信インタフェース(IF)104、ハードディスク105、表示装置106及び入力装置107によるハードウェア構成を有してもよい。CPU101及びGPU102は、後述される学習装置100の各種処理を実行し、上述した取得部110、変換部120及び学習部130を実現するプロセッサ又は制御部として機能し、特に、CPU101は学習装置100における学習処理の実行を制御し、GPU102は機械学習における行列演算等の学習処理を実行する。RAM103及びハードディスク105は、学習装置100における各種データ及びプログラムを格納するメモリとして機能し、特に、RAM103は、CPU101及びGPU102における作業データを格納するワーキングメモリとして機能し、ハードディスク105は、CPU101及びGPU102の制御プログラム及び/又は学習用データを格納する。通信IF104は、データベース50から学習用データを取得するための通信インタフェースである。表示装置106は、処理の内容、経過、結果等の各種情報を表示し、入力装置107は、キーボード、マウスなどの情報及びデータを入力するためのデバイスである。しかしながら、本開示による学習装置100は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。
次に、図5〜6を参照して、本開示の一実施例による学習装置100における学習処理を説明する。図5は、本開示の一実施例による音響分離モデルの学習処理を示すフローチャートである。
図5に示されるように、ステップS101において、取得部110は、複数のオーディオ成分を含む混合オーディオデータと、特定のオーディオ成分を示す分離済みオーディオデータとを含む学習用データを取得する。具体的には、取得部110は、データベース50から混合オーディオデータと分離オーディオデータとの多数の学習用データセットを取得する。例えば、混合オーディオデータは伴奏とボーカルとが混合したオーディオデータであり、分離オーディオデータは当該ボーカルのみのオーディオデータであってもよい。
ステップS102において、変換部120は、周波数軸が対数である画像変換方式に従って混合オーディオデータと分離オーディオデータとをそれぞれ混合画像データと分離画像データとに変換する。具体的には、変換部120は、混合オーディオデータ及び分離済みオーディオデータを定Q変換によって変換し、混合スペクトログラム及び分離スペクトログラムをそれぞれ取得する。定Q変換によって取得されたスペクトログラムは、低周波数域が高周波数域より高い画像解像度を有し、ニューラルネットワークを用いた画像解析によってスペクトログラムの低周波数域に集中するオーディオ成分を分離するのに好適である。
ステップS103において、学習部130は、混合画像データと分離画像データとによって、混合画像データから分離画像データを分離する音響分離モデルを学習する。具体的には、学習部130は、音響分離モデルをCNNにより構成し、学習用画像データによってCNNのパラメータを学習する。例えば、学習部130は、CNNの畳み込み層において、混合画像データの局所的な時間及び周波数の範囲に対して畳み込み処理を実行することによって各オーディオ成分の分離に必要となるフォルマントなどの特徴量を抽出し、逆畳み込み層において特定のオーディオ成分を抽出した画像データを生成する。その後、学習部130は、生成された画像データと学習用の分離画像データとを比較し、これらの画像データの間の誤差を小さくするようCNNのパラメータを調整する。
その後、学習部130は、所定数の学習用データセットに対して上述した学習処理を実行し、最終的に取得したCNNを学習済みの音響分離モデルとして決定してもよい。あるいは、学習部130は、取得した誤差が所定の閾値以下になった時点で取得したCNNを学習済みの音響分離モデルとして決定してもよい。
一実施例では、学習部130は、図6に示されるように、GAN方式に従って音響分離モデルを生成してもよい。本実施例では、学習部130は、学習用の混合画像データを入力とし、これを分離画像データに変換するニューラルネットワークとして実現される生成器(generator)と、生成器から出力された分離画像データと学習用の分離画像データとを入力とし、これらの出力値を計算するニューラルネットワークとして実現される判別器(discriminator)とを有してもよい。このとき、学習部130は、出力値の誤差などの判別器からのフィードバック情報に基づき生成器及び判別器のニューラルネットワークのパラメータを調整してもよい。図6に示される実施例では、混合オーディオデータは伴奏とボーカルとが混合されたオーディオデータであり、分離オーディオデータはボーカルのオーディオデータであるが、本開示はこれに限定されず、混合オーディオデータは任意の複数のオーディオ成分を含み、分離オーディオデータは任意の特定のオーディオ成分であってもよい。
図6に示されるように、ステップS103_1において、学習部130は、学習用の混合オーディオデータを生成器に入力し、ボーカルオーディオデータを取得する。
ステップS103_2において、学習部130は、生成器から取得したボーカルオーディオデータを判別器に入力し、識別された特徴量などを示す出力値を取得する。
ステップS103_3において、学習部130は、データベースから取得した学習用のボーカルオーディオデータを判別器に入力し、識別された特徴量などを示す出力値を取得する。
ステップS103_4において、学習部130は、取得した2つの出力値の誤差を算出し、当該誤差に基づき生成器及び判別器のニューラルネットワークに対して誤差逆伝播を実行する。
ステップS103_5において、学習部130は、誤差逆伝播の実行結果に従って生成器及び判別器のニューラルネットワークのパラメータを更新する。
上述した学習処理によって、学習装置100は、例えば、図7Aに示される学習用混合スペクトログラムから、図7Bに示されるようなボーカルスペクトログラムを分離することができる。分離されたボーカルスペクトログラムでは、1000Hz以下の低周波数域にオーディオ成分の大部分が出現しており、フーリエ変換によるスペクトログラムよりも低周波数域が高解像度に画像化される定Q変換によるスペクトログラムを用いることによって、分離性能を向上させることができる。
次に、図8〜9を参照して、本開示の一実施例による音響分離装置を説明する。図8は、本開示の一実施例による音響分離装置の機能構成を示すブロック図である。
図8に示されるように、音響分離装置200は、取得部210、変換部220及び分離部230を有する。音響分離装置200は、学習装置100から提供された学習済み音響分離モデルを有し、当該音響分離モデルを用いて混合オーディオデータから特定のオーディオ成分を示すオーディオデータを分離する。
取得部210は、複数のオーディオ成分を含む混合オーディオデータを取得する。例えば、混合オーディオデータは、伴奏とボーカルとが混合されたオーディオデータであってもよく、一般には、学習装置100に関して上述した学習用オーディオデータとは異なり、未知のオーディオデータである。
変換部220は、周波数軸が対数である画像変換方式に従って混合オーディオデータを画像データに変換する。具体的には、変換部220は、定Q変換によって混合オーディオデータをスペクトログラムに変換する。例えば、変換部220は、混合オーディオデータを所定のサンプル数の毎のフレームに分割し、各フレームに対して定Q変換を順次実行し、フレーム毎のスペクトログラムを取得してもよい。
分離部230は、画像データを学習済み音響分離モデルに入力し、当該音響分離モデルから特定のオーディオ成分を示す分離画像データを取得し、分離画像データに基づき特定のオーディオ成分を分離する。具体的には、分離部230は、学習装置100による学習済みの音響分離モデルを利用して、混合オーディオデータのスペクトログラムから分離されたオーディオ成分を示す分離スペクトログラムを取得する。当該分離スペクトログラムは、伴奏とボーカルの混合オーディオデータから分離されたボーカルオーディオデータを表すスペクトログラムであってもよい。
ここで、音響分離装置200は、例えば、図9に示されるように、CPU201、ROM(Read−Only Memory)202、RAM203及びUSB(Universal Serial Bus)メモリポート204によるハードウェア構成を有してもよい。さらに、電子楽器装置300は、音響分離装置200、光鍵盤205及び再生装置206によるハードウェア構成を有してもよい。CPU201は、後述される音響分離装置200の各種処理を実行し、上述した取得部210、変換部220及び分離部230を実現するプロセッサ又は制御部として機能する。ROM202及びRAM203は、音響分離装置200における各種データ及びプログラムを格納するメモリとして機能し、特に、RAM203は、CPU201における作業データを格納するワーキングメモリとして機能し、ROM203は、CPU201の制御プログラム及び/又はデータを格納する。USBメモリポート204は、ユーザによりセットされたUSBメモリに格納されている再生データを取得する。光鍵盤205は、CPU201の指示によって再生データから分離されたオーディオ成分のピッチを抽出し、抽出されたピッチに合わせて鍵盤を発光させる。再生装置206は、CPU201の指示によって再生データから生成された楽音を放音する。しかしながら、本開示による音響分離装置200及び電子楽器装置300は、上述したハードウェア構成に限定されず、他の何れか適切なハードウェア構成を有してもよい。例えば、上述した取得部210、変換部220及び分離部230の1つ以上は、フィルタ回路などの電子回路により実現されてもよい。
一実施例では、分離部230は、フレーム毎のスペクトログラムを音響分離モデルに順次入力し、分離されたボーカルのフレーム毎のスペクトログラムを取得し、各スペクトログラムの各時点において最も強く発音されている周波数、すなわち、スペクトログラムにおいて最も振幅が大きい周波数に対応する部分であって、最も高い輝度で示されている周波数部分を当該時点のピッチとして抽出してもよい。このようにして、分離部230は、分離されたボーカルのピッチを抽出できる。例えば、図3Bに示されるスペクトログラムでは、抽出したボーカルのピッチは一定でなく揺らいでいる。また、通常の鍵盤楽器で発音可能な平均律音階から外れている場合もある。そこで、分離部230は、揺らいでいるピッチをフレーム内で平均化し、最も近い平均律音階の音高とする楽譜データ化を実行してもよい。ここで、楽譜データ化とは、音高をMIDIのノート番号とし、音調をノートオンとノートオフとの間の時間データとするシーケンスデータの生成であり、例えば、SMFデータの生成である。このようにして、分離部230は、生成された楽譜データを通常のシーケンサ再生手法を用いて楽曲として発音させると同時に、ボーカルピッチに対応するメロディラインの鍵を発光させることができる。
また、他の実施例では、音響分離モデルは、伴奏とボーカルとが混合された混合オーディオデータから伴奏オーディオデータを分離するものであってもよい。このとき、学習装置100では、定Q変換の代わりに、逆変換が可能なフーリエ変換が利用されてもよい。この場合、変換部220は、混合オーディオデータを所定のサンプル数毎のフレームに分割し、各フレームに対してフーリエ変換を順次実行し、フレーム毎のスペクトログラムを取得すると共に、変換時に取得される位相スペクトログラムを保持する。分離部230は、フレーム毎のスペクトログラムを音響分離モデルに順次入力し、分離された伴奏のフレーム毎のスペクトログラムを取得し、保持された位相スペクトログラムを用いて、分離スペクトログラムに対して逆フーリエ変換を実行し、伴奏が分離されたオーディオデータを取得する。取得されたオーディオデータは、通常のオーディオデータの再生手順によって再生可能である。
次に、図10〜11を参照して、本開示の一実施例による音響分離装置200における音響分離処理を説明する。図10は、本開示の一実施例による音響分離処理を示すフローチャートである。
図10に示されるように、ステップS201において、取得部210は、複数のオーディオ成分を含む混合オーディオデータを取得する。具体的には、取得部210は、ユーザから提供された再生データを混合オーディオデータとして取得する。例えば、混合オーディオデータは伴奏とボーカルとが混合したオーディオデータであってもよい。
ステップS202において、変換部220は、周波数軸が対数である画像変換方式に従って混合オーディオデータを混合画像データに変換する。具体的には、変換部220は、混合オーディオデータを定Q変換によって変換し、混合スペクトログラムを取得する。定Q変換によって取得されたスペクトログラムは、低周波数域が高周波数域より高い画像解像度を有し、ニューラルネットワークを用いた画像解析によってスペクトログラムの低周波数域に集中するオーディオ成分を分離するのに好適である。
ステップS203において、分離部230は、混合画像データを学習済み音響分離モデルに入力し、当該音響分離モデルから特定のオーディオ成分を示す分離画像データを取得し、当該分離画像データに基づき特定のオーディオ成分を分離する。例えば、分離230は、分離画像データから特定のオーディオ成分のピッチを抽出し、抽出したピットに対して楽譜データ化を実行してもよい。分離部230は、生成された楽譜データを通常のシーケンサ再生手法を用いて楽曲として発音させると同時に、ボーカルピッチに対応するメロディラインの鍵を発光させてもよい。
図11は、本開示の一実施例による電子楽器装置による音響処理を示すフローチャートである。当該電子楽器装置300は、伴奏とボーカルとが混合された混合オーディオデータからボーカルオーディオデータを分離する学習済み音響分離モデルと、混合オーディオデータから伴奏オーディオデータを分離する学習済み音響分離モデルとを含む音響分離装置200を備える。
ステップS301において、電子楽器装置300は、抽出対象パートがボーカル又は伴奏であるか判断する。当該抽出対象パートは、例えば、ユーザにより指定されてもよい。
抽出対象パートがボーカルである場合(ステップS301:ボーカル)、ステップS302において、電子楽器装置は、入力された混合オーディオデータに対して定Q変換を実行し、混合スペクトログラムを取得する。
ステップS303において、電子楽器装置300は、混合オーディオデータからボーカルオーディオデータを分離する学習済み音響分離モデルに混合スペクトログラムを入力し、ボーカルオーディオデータを示す分離スペクトログラムを取得する。
ステップS304において、電子楽器装置300は、分離スペクトログラムからピッチを抽出する。
ステップS305において、電子楽器装置300は、抽出したピッチから楽譜データを生成する。
他方、抽出対象パートが伴奏である場合(ステップS301:伴奏)、ステップS306において、電子楽器装置300は、入力された混合オーディオデータに対してフーリエ変換を実行し、混合スペクトログラムを取得する。
ステップS307において、電子楽器装置300は、混合オーディオデータから伴奏オーディオデータを分離する学習済み音響分離モデルに混合スペクトログラムを入力し、伴奏オーディオデータを示す分離スペクトログラムを取得し、取得した分離スペクトログラムに対して逆フーリエ変換を実行することによって伴奏オーディオデータを取得する。
ステップS308において、電子楽器装置300は、ステップS305において生成された楽譜データ又はステップS307において生成された伴奏オーディオデータに従って、鍵を発光すると共に、オーディオデータを再生する。
本開示の一態様では、
第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換するとともに、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を含む第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第2種類の画像データに変換し、
前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習する制御部を有する学習装置が提供される。
一実施例では、前記制御部は、前記第1種類のオーディオデータと前記第2種類のオーディオデータとを組とする複数の学習用オーディオデータを取得し、前記取得した複数の学習用オーディオデータを対象として前記変換を行うことにより、前記第1種類の画像データと前記第2種類の画像データとを組とした学習用画像データを複数生成し、前記生成した複数の学習用画像データに基づいて前記機械学習を行うことにより前記モデルを学習させてもよい。
一実施例では、前記第1のオーディオ成分および前記第2のオーディオ成分は、特定の周波数分布を示す音の成分であって、基音は変化するが、前記基音に対する倍音成分の分布が一定の範囲内に収まっているような音の成分であってもよい。
一実施例では、前記第1のオーディオ成分および前記第2のオーディオ成分は、特定の種類の楽器音又はボーカル音であって、音高は異なっていても音色が同じ種類の楽器音又はボーカル音に属する音の成分であってもよい。
一実施例では、前記変換は、定Q変換であってもよい。
一実施例では、前記モデルは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層を含む畳み込みニューラルネットワークにより実現されてもよい。
一実施例では、前記特徴量として、フォルマントを含むように前記ニューラルネットワークを設定してもよい。
一実施例では、前記畳み込みニューラルネットワークは更に、画像データの局所範囲に亘る位置ずれを修正するプーリング層を含んでもよい。
一実施例では、前記制御部は、GAN(Generative Adversarial Networks)方式に従って前記モデルを学習してもよい。
一実施例では、前記制御部は、前記第1種類の画像データを生成器に入力し、前記生成器から第3種類の画像データを取得し、前記第2種類の画像データと前記第3種類の画像データとを判別器に入力し、前記判別器から取得されたそれぞれの出力値の誤差に基づき前記生成器を学習してもよい。
本開示の一態様では、
機械学習により生成された学習済みモデルを格納するメモリと、
第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換し、
前記第1種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分を分離する制御部と、
を有する音響分離装置が提供される。
一実施例では、前記学習済みモデルは、
前記第1のオーディオ成分と前記第2のオーディオ成分とを含む第1種類のオーディオデータと、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類のオーディオデータとを含む学習用データを取得し、
前記第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした前記第1種類の画像データに変換するとともに、前記第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした前記第2種類の画像データに変換し、
前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成することによって学習されてもよい。
一実施例では、前記モデルは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層を含む畳み込みニューラルネットワークにより実現されてもよい。
一実施例では、前記第2種類の画像データに基づく前記第1のオーディオ成分の分離は、前記第1のオーディオ成分の音高の情報を抽出してもよい。
一実施例では、前記第2種類の画像データに基づく前記第1のオーディオ成分の分離は、前記第1のオーディオ成分の基音の情報を抽出してもよい。
一実施例では、前記変換は、定Q変換であってもよい。
一実施例では、前記制御部は更に、分離対象のオーディオ成分に応じて定Q変換又はフーリエ変換を選択的に実行してもよい。
一実施例では、前記制御部は、前記分離対象のオーディオ成分を再生する場合には、前記第1種類のオーディオデータに対してフーリエ変換を実行し、前記分離対象のオーディオ成分を再生しない場合、前記第1種類のオーディオデータに対して定Q変換を実行してもよい。
本開示の一態様では、
音響分離装置と、
各鍵が発光可能な鍵盤と、
を有する電子楽器装置であって、
前記音響分離装置は、
機械学習により生成された学習済みモデルを格納するメモリと、
第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換し、
前記第1種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分を分離する制御部と、
を有し、
前記制御部は、前記分離した第1のオーディオ成分に従って前記鍵盤の鍵を発光させる電子楽器装置が提供される。
本開示の一態様では、
プロセッサが、第1のオーディオ成分と第2のオーディオ成分が混合されている第1種類のオーディオデータと、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を含む第2種類のオーディオデータとを含む学習用データを取得し、
前記プロセッサが、前記第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換するとともに、前記第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第2種類の画像データに変換し、
前記プロセッサが、前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習する方法が提供される。
本開示の一態様では、
プロセッサが、第1のオーディオ成分と第2のオーディオ成分が混合されている第1種類のオーディオデータを取得し、
前記プロセッサが、前記第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換し、
前記プロセッサが、前記第1種類の画像データを学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分を分離する方法が提供される。
本開示の一態様では、
上述した方法をプロセッサに実現させるプログラム又はコンピュータ可読記憶媒体が提供される。
以上、本開示の実施例について詳述したが、本開示は上述した特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本開示の要旨の範囲内において、種々の変形・変更が可能である。
50 データベース
100 学習装置
200 音響分離装置
110,210 取得部
120,220 変換部
130 学習部
230 分離部
300 電子楽器装置

Claims (23)

  1. 第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換するとともに、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を含む第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第2種類の画像データに変換し、
    前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習する制御部を有する学習装置。
  2. 前記制御部は、
    前記第1種類のオーディオデータと前記第2種類のオーディオデータとを組とする複数の学習用オーディオデータを取得し、
    前記取得した複数の学習用オーディオデータを対象として前記変換を行うことにより、前記第1種類の画像データと前記第2種類の画像データとを組とした学習用画像データを複数生成し、
    前記生成した複数の学習用画像データに基づいて前記機械学習を行うことにより前記モデルを学習させる、請求項1記載の学習装置。
  3. 前記第1のオーディオ成分および前記第2のオーディオ成分は、特定の周波数分布を示す音の成分であって、基音は変化するが、前記基音に対する倍音成分の分布が一定の範囲内に収まっているような音の成分である、請求項1または2記載の学習装置。
  4. 前記第1のオーディオ成分および前記第2のオーディオ成分は、特定の種類の楽器音又はボーカル音であって、音高は異なっていても音色が同じ種類の楽器音又はボーカル音に属する音の成分である、請求項1乃至3のいずれか一項に記載の学習装置。
  5. 前記変換は、定Q変換である、請求項1乃至4何れか一項に記載の学習装置。
  6. 前記モデルは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層を含む畳み込みニューラルネットワークにより実現される、請求項1乃至5何れか一項に記載の学習装置。
  7. 前記特徴量として、フォルマントを含むように前記ニューラルネットワークを設定する、請求項6記載の学習装置。
  8. 前記畳み込みニューラルネットワークは更に、画像データの局所範囲に亘る位置ずれを修正するプーリング層を含む、請求項6又は7記載の学習装置。
  9. 前記制御部は、GAN(Generative Adversarial Networks)方式に従って前記モデルを学習する、請求項1乃至8何れか一項に記載の学習装置。
  10. 前記制御部は、前記第1種類の画像データを生成器に入力し、前記生成器から第3種類の画像データを取得し、前記第2種類の画像データと前記第3種類の画像データとを判別器に入力し、前記判別器から取得されたそれぞれの出力値の誤差に基づき前記生成器を学習する、請求項9記載の学習装置。
  11. 機械学習により生成された学習済みモデルを格納するメモリと、
    第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換し、
    前記第1種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分を分離する制御部と、
    を有する音響分離装置。
  12. 前記学習済みモデルは、
    前記第1のオーディオ成分と前記第2のオーディオ成分とを含む第1種類のオーディオデータと、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類のオーディオデータとを含む学習用データを取得し、
    前記第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした前記第1種類の画像データに変換するとともに、前記第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした前記第2種類の画像データに変換し、
    前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成することによって学習される、請求項11記載の音響分離装置。
  13. 前記モデルは、画像データの局所範囲の特徴量を、複数の異なる範囲を対象として抽出する畳み込み層を含む畳み込みニューラルネットワークにより実現される、請求項11又は12記載の音響分離装置。
  14. 前記特徴量として、フォルマントを含むように前記ニューラルネットワークを設定する、請求項13記載の音響分離装置。
  15. 前記第2種類の画像データに基づく前記第1のオーディオ成分の分離は、前記第1のオーディオ成分の音高の情報を抽出する、請求項11乃至14何れか一項に記載の音響分離装置。
  16. 前記第2種類の画像データに基づく前記第1のオーディオ成分の分離は、前記第1のオーディオ成分の基音の情報を抽出する、請求項15記載の音響分離装置。
  17. 前記変換は、定Q変換である、請求項11乃至16何れか一項に記載の音響分離装置。
  18. 前記制御部は更に、分離対象のオーディオ成分に応じて定Q変換又はフーリエ変換を選択的に実行する、請求項11乃至17何れか一項に記載の音響分離装置。
  19. 前記制御部は、前記分離対象のオーディオ成分を再生する場合には、前記第1種類のオーディオデータに対してフーリエ変換を実行し、前記分離対象のオーディオ成分を再生しない場合、前記第1種類のオーディオデータに対して定Q変換を実行する、請求項18記載の音響分離装置。
  20. 音響分離装置と、
    各鍵が発光可能な鍵盤と、
    を有する電子楽器装置であって、
    前記音響分離装置は、
    機械学習により生成された学習済みモデルを格納するメモリと、
    第1のオーディオ成分及び第2のオーディオ成分が混合されている第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換し、
    前記第1種類の画像データを前記学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分を分離する制御部と、を有し、
    前記制御部は、前記分離した第1のオーディオ成分に従って前記鍵盤の鍵を発光させる電子楽器装置。
  21. プロセッサが、第1のオーディオ成分と第2のオーディオ成分が混合されている第1種類のオーディオデータと、前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を含む第2種類のオーディオデータとを含む学習用データを取得し、
    前記プロセッサが、前記第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換するとともに、前記第2種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第2種類の画像データに変換し、
    前記プロセッサが、前記第1種類の画像データと前記第2種類の画像データとの組を学習用データとする機械学習によって、前記第1種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データから、前記第2種類の画像データと同じ種類の画像データであって前記学習用データに含まれない画像データを生成可能なモデルを学習する方法。
  22. プロセッサが、第1のオーディオ成分と第2のオーディオ成分が混合されている第1種類のオーディオデータを取得し、
    前記プロセッサが、前記第1種類のオーディオデータを、複数の軸のうちの1つの軸を対数の周波数軸とした第1種類の画像データに変換し、
    前記プロセッサが、前記第1種類の画像データを学習済みモデルに入力し、前記学習済みモデルから前記第2のオーディオ成分が混合されていない前記第1のオーディオ成分を示す第2種類の画像データを取得し、前記第2種類の画像データに基づき前記第1のオーディオ成分を分離する方法。
  23. 請求項21又は22記載の方法をプロセッサに実現させるプログラム。
JP2019196162A 2019-10-29 2019-10-29 情報処理装置、電子機器及びプログラム Pending JP2020021098A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019196162A JP2020021098A (ja) 2019-10-29 2019-10-29 情報処理装置、電子機器及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019196162A JP2020021098A (ja) 2019-10-29 2019-10-29 情報処理装置、電子機器及びプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2018046691A Division JP6617783B2 (ja) 2018-03-14 2018-03-14 情報処理方法、電子機器及びプログラム

Publications (1)

Publication Number Publication Date
JP2020021098A true JP2020021098A (ja) 2020-02-06

Family

ID=69589839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019196162A Pending JP2020021098A (ja) 2019-10-29 2019-10-29 情報処理装置、電子機器及びプログラム

Country Status (1)

Country Link
JP (1) JP2020021098A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489762A (zh) * 2020-05-13 2020-08-04 广州国音智能科技有限公司 三维语谱图生成方法、装置、终端及存储介质
CN113571084A (zh) * 2021-07-08 2021-10-29 咪咕音乐有限公司 音频处理方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489762A (zh) * 2020-05-13 2020-08-04 广州国音智能科技有限公司 三维语谱图生成方法、装置、终端及存储介质
CN111489762B (zh) * 2020-05-13 2023-06-16 广州国音智能科技有限公司 三维语谱图生成方法、装置、终端及存储介质
CN113571084A (zh) * 2021-07-08 2021-10-29 咪咕音乐有限公司 音频处理方法、装置、设备及存储介质
CN113571084B (zh) * 2021-07-08 2024-03-22 咪咕音乐有限公司 音频处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
US10789921B2 (en) Audio extraction apparatus, machine learning apparatus and audio reproduction apparatus
JP6617783B2 (ja) 情報処理方法、電子機器及びプログラム
US8872011B2 (en) Visual, tactile and motion-sensation system for representing music for an audience
Bresin Articulation rules for automatic music performance
CN1162167A (zh) 修正演唱声以模仿标准声的共振峰转换装置
US10553188B2 (en) Musical attribution in a two-dimensional digital representation
US10255037B2 (en) Dynamic modification of audio content
CN111602193B (zh) 用于处理乐曲的演奏的信息处理方法和装置
JP2020021098A (ja) 情報処理装置、電子機器及びプログラム
CN109564756B (zh) 一种智能钢琴系统
US7504572B2 (en) Sound generating method
CN1770258A (zh) 表演风格确定设备和方法
CN113874932A (zh) 电子乐器、电子乐器的控制方法及存储介质
CN112669811B (zh) 一种歌曲处理方法、装置、电子设备及可读存储介质
JP2020056938A (ja) 演奏情報表示装置及び演奏情報表示方法、演奏情報表示プログラム、並びに、電子楽器
CN108369800B (zh) 声处理装置
JP6617784B2 (ja) 電子機器、情報処理方法、及びプログラム
JP4614307B2 (ja) 演奏データ処理装置及びプログラム
CN113851098B (zh) 一种旋律的风格转换方法、装置、终端设备及存储介质
CN103943098A (zh) 多米索交响乐器
WO2004025306A1 (en) Computer-generated expression in music production
JP2005173631A (ja) 演奏データ作成装置
CN118077222A (en) Information processing device, information processing method, and program
JPH0773320A (ja) イメージ音楽生成装置
JPH10319984A (ja) 歌唱音声合成装置、歌唱音声合成方法および記憶媒体